03 Association Rules v1

Ανάλυση συσχέτισης
(association analysis)
Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 1 / 60

Ανάλυση συσχέτισης (association analysis)
Τί είναι η ανάλυση συσχέτισης;
Ανάλυση συσχέτισης
΄Εστω I = {i1 , i2 , . . . , in } ένα σύνολο από διακριτά στοιχεία (items).
Δοθέντος ενός συνόλου υποσυνόλων T = {T1 , T2 , . . . , TN } του I
(τα Ti συνήθως ονομάζονται συναλλαγές (transactions)).
να βρεθούν κανόνες που προβλέπουν την εμφάνιση ενός στοιχείου ή
συνόλου στοιχείων του I με βάση την εμφάνιση άλλων στοιχείων
του I (κανόνες συσχέτισης).

Παράδειγμα: Το καλάθι της νοικοκυράς
Μερικοί κανόνες συσχέτισης:

{Diaper} → {Beer}
{Milk, Bread} → {Eggs, Coke}
{Beer, Bread} → {Milk}
δηλαδή, όπου π.χ. εμφανίζεται το στοιχείο Diaper θα εμφανίζεται και
το στοιχείο Beer.

Παρατήρηση
Οι κανόνες συσχέτισης δηλώνουν απλώς ότι κάποια στοιχεία
εμφανίζονται μαζί, και όχι ό,τι η εμφάνιση του ενός στοιχείου είναι η
αιτία της εμφάνισης του άλλου στοιχείου. (co-occurrence, not causality).

΄Εστω T = {T1 , T2 , . . . , TN } ένα σύνολο συναλλαγών, όπου Ti ⊆ I .
Τι είναι κανόνας συσχέτισης;
Κανόνας συσχέτισης είναι μια έκφραση της μορφής
X →Y
όπου X , Y είναι ξένα υποσύνολα του I .

(Με άλλα λόγια, κανόνας συσχέτισης είναι ένα διατεταγμένο ζεύγος
(X , Y ) ξένων υποσυνόλων του I )
Παράδειγμα
{Beer, Bread} → {Milk}
{Bread} → {Diapers, Beer}

Προκειμένου να αξιολογήσουμε πόσο ‘‘καλός’’ είναι ένας κανόνας
χρησιμοποιούμε τους παρακάτω ορισμούς:
΄Εστω T = {T1 , T2 , . . . , TN } ένα σύνολο συναλλαγών, όπου Ti ⊆ I και
X → Y ένας κανόνας συσχέτισης
συχνότητα υποστήριξης (support count) σ(X ) του X
ονομάζεται ο αριθμός των συναλλαγών του T που περιέχουν ως
υποσύνολο το X .

υποστήριξη (support) s(X ) του X ονομάζεται το ποσοστό των
συναλλαγών του T που περιέχουν ως υποσύνολο το X .

υποστήριξη (support) s(X → Y ) του κανόνα X → Y
ονομάζεται το ποσοστό των συναλλαγών του T που περιέχουν ως
υποσύνολο την ένωση X ∪ Y , δηλαδή
σ(X ∪ Y )
s(X → Y ) = = P(X ∪ Y ).
|T |

υποστήριξη (support) s(X → Y ) του κανόνα X → Y
ονομάζεται το ποσοστό των συναλλαγών του T που περιέχουν ως
υποσύνολο την ένωση X ∪ Y , δηλαδή
σ(X ∪ Y )
s(X → Y ) = = P(X ∪ Y ).
|T |
εμπιστοσύνη (confidence) c(X → Y ) του κανόνα X → Y
σ(X ∪ Y )
ονομάζεται το πηλίκο = P(X ∪ Y |X ) = P(Y |X ).
σ(X )
{Milk, Diaper} → {Beer}

Υποστήριξη:
σ({Milk, Diaper , Beer })
s({Milk, Diaper } → {Beer }) = =
5


σ({Milk, Diaper , Beer }) 2
s({Milk, Diaper } → {Beer }) = = .
5 5


5 5
Εμπιστοσύνη:
σ({Milk, Diaper, Beer})
c({Milk, Diaper } → {Beer }) = =
σ({Milk, Diaper })


5 5
Εμπιστοσύνη:
σ({Milk, Diaper, Beer}) 2
c({Milk, Diaper } → {Beer }) = = .
σ({Milk, Diaper }) 3

Παρατηρήσεις
s(X → Y ) = s(X ∪ Y ) = σ(X ∪ Y )/|T |
I ΄Ενας κανόνας συσχέτισης με μικρή υποστήριξη μπορεί να
εμφανίζεται τυχαία.
΄Εχει λιγότερη σημασία/χρησιμότητα διότι αφορά μικρό αριθμό
συναλλαγών.

s(X → Y ) = s(X ∪ Y ) = σ(X ∪ Y )/|T |
I Για το σκοπό αυτό συνήθως ορίζουμε ένα ελάχιστο ποσοστό
υποστήριξης minsup που επιθυμούμε να έχει κάποιος κανόνας.

s(X → Y ) = s(X ∪ Y ) = σ(X ∪ Y )/|T |
c(X → Y ) = σ(X ∪ Y )/σ(X ).
I Η εμπιστοσύνη μετρά την αξιοπιστία, βεβαιότητα της εξάρτησης.
΄Οσο μεγαλύτερη εμπιστοσύνη τόσο μεγαλύτερη η πιθανότητα
εμφάνισης του Y σε κανόνες που περιέχουν το X .

s(X → Y ) = s(X ∪ Y ) = σ(X ∪ Y )/|T |
c(X → Y ) = σ(X ∪ Y )/σ(X ).
I Η εμπιστοσύνη μετρά την αξιοπιστία, βεβαιότητα της εξάρτησης.
΄Οσο μεγαλύτερη εμπιστοσύνη τόσο μεγαλύτερη η πιθανότητα
εμφάνισης του Y σε κανόνες που περιέχουν το X .
εμπιστοσύνης minconf που επιθυμούμε να έχει κάποιος κανόνας.

Το πρόβλημα της ανάλυσης συσχέτισης μπορεί να διατυπωθεί ως εξής:
΄Εστω
I = {i1 , i2 , . . . , in } ένα σύνολο από διακριτά στοιχεία
T = {T1 , T2 , . . . , TN } ένα σύνολο συναλλαγών, όπου Ti ⊆ I
μιας ελάχιστης υποστήριξης minsup
μιας ελάχιστης εμπιστοσύνης minconf
Να βρεθούν όλοι οι κανόνες συσχέτισης X → Y με s(X → Y ) ≥ minsup

και c(X → Y ) ≥ minconf.

Μέθοδος ωμής βίας (brute-force)
Μέθοδος brute-force:
Κατασκεύασε όλους τους δυνατούς κανόνες X → Y
Υπολόγισε την υποστήριξη και την εμπιστοσύνη του καθένα
Αφαίρεσε τους κανόνες που δεν ικανοποιούν τους περιορισμούς
minsup και minconf.

Η μέθοδος αυτή είναι μη πρακτική.

Για ένα σύνολο I με n στοιχεία, ο αριθμός των κανόνων συσχέτισης
X → Y (δηλαδή των διατεταγμένων ξένων υποσυνόλων (X , Y )) ισούται
με 3n − 2n+1 + 1.

Για ένα σύνολο I με n στοιχεία, ο αριθμός των κανόνων συσχέτισης
X → Y (δηλαδή των διατεταγμένων ξένων υποσυνόλων (X , Y )) ισούται
με 3n − 2n+1 + 1.
Αν n = 10 υπάρχουν 57000 πιθανοί κανόνες συσχέτισης. Αν n = 20
υπάρχουν 3484687250 πιθανοί κανόνες συσχέτισης. Αν n = 30
υπάρχουν 205888984611002 πιθανοί κανόνες συσχέτισης.

Η υποστήριξη ενός κανόνα X → Y εξαρτάται από την υποστήριξη του
X ∪Y.

X ∪Y.
Επομένως, οι κανόνες που αποτελούνται από μια διαμέριση των
στοιχείων του X ∪ Y έχουν όλοι την ίδια υποστήριξη (αλλά
πιθανώς διαφορετική εμπιστοσύνη).

X ∪Y.
Επομένως, οι κανόνες που αποτελούνται από μια διαμέριση των
στοιχείων του X ∪ Y έχουν όλοι την ίδια υποστήριξη (αλλά
πιθανώς διαφορετική εμπιστοσύνη).
Πόσοι κανόνες συσχέτισης X → Y με το ίδιο X ∪ Y υπάρχουν;

Αν το A περιέχει k στοιχεία, υπάρχουν 2k − 2 πιθανοί κανόνες
συσχέτισης X → Y με X ∪ Y = A.
Για n = 3 υπάρχουν 6 πιθανοί κανόνες συσχέτισης.

Πιθανοί κανόνες με τα στοιχεία Milk, Diaper, Beer:

{Milk, Diaper} → {Beer} (s = 0.4, c = 0.67)
{Milk, Beer} → {Diaper} (s = 0.4, c = 1.0)
{Diaper, Beer} → {Milk} (s = 0.4, c = 0.67)
{Beer} → {Milk, Diaper} (s = 0.4, c = 0.67)
{Diaper} → {Milk, Beer} (s = 0.4, c = 0.5)
{Milk} → {Diaper, Beer} (s = 0.4, c = 0.5)
Αν είχαμε minsup = 0.5 θα απορρίπταμε και τους 6 κανόνες ήδη
από τον πρώτο κανόνα.

Βασικές παρατηρήσεις
Μπορούμε να εξετάσουμε τους περιορισμούς για την υποστήριξη
και την εμπιστοσύνη ξεχωριστά.

Μας συμφέρει να βρούμε πρώτα όλα τα υποσύνολα του I με
υποστήριξη μεγαλύτερη ή ίση από minsup.
Τα υποσύνολα αυτά ονομάζονται συχνά ή (συχνά
εμφανιζόμενα ή συνηθισμένα) (frequent) υποσύνολα.

Μας συμφέρει να βρούμε πρώτα όλα τα υποσύνολα του I με
υποστήριξη μεγαλύτερη ή ίση από minsup.
Τα υποσύνολα αυτά ονομάζονται συχνά ή (συχνά
εμφανιζόμενα ή συνηθισμένα) (frequent) υποσύνολα.
Στη συνέχεια, για κάθε συχνό υποσύνολο θα βρούμε κανόνες με
μεγάλη εμπιστοσύνη.

Εύρεση συχνών υποσυνόλων (διαφάνειες 15 – 37)

Εύρεση συχνών υποσυνόλων
Το δικτυωτό (ως προς τη σχέση εγκλεισμού) των υποσυνόλων του

{A, B, C , D, E }.
Για ένα σύνολο με n στοιχεία υπάρχουν 2n υποσύνολα.
Βασική ιδιότητα υποστήριξης: Αν X ⊆ Y τότε s(X ) ≥ s(Y ).
(αντι-μονότονη ιδιότητα).
Επομένως, αν ένα υποσύνολο είναι συχνό, τότε όλα τα υποσύνολά
του είναι συχνά.
Αντιθετοαναστροφή: Αν ενα υποσύνολο δεν είναι συχνό, τότε όλα
τα υπερσύνολά του δεν είναι συχνά.




Αλγόριθμος αναδρομικής κατασκευής συχνών υποσυνόλων

(Αλγόριθμος apriori)
Αρχικά k = 1. Δημιούργησε όλα τα συχνά υποσύνολα μεγέθους
k=1
Μέχρις ότου δεν δημιουργούνται νέα υποσύνολα
I Δημιούργησε όλα τα υποψήφια υποσύνολα μεγέθους k + 1
((k + 1)-σύνολα) από τα συχνά υποσύνολα μεγέθους k (k-σύνολα)
(πώς;)
I Απέκλεισε εκείνα τα υποψήφια υποσύνολα μεγέθους k + 1 που
περιέχουν υποσύνολα μεγέθους k που δεν είναι συχνά.
I Υπολόγισε την υποστήριξη κάθε υποψηφίου συχνού υποσυνόλου.
I Διέγραψε τα υποσύνολα μεγέθους k + 1 που δεν είναι συχνά.
I Θέσε k = k + 1.

Για τον αλγόριθμο αναδρομικής κατασκευής συχνών υποσυνόλων

μπορούμε να παρατηρήσουμε τα εξής:
Διατρέχει το δικτυωτό ανά επίπεδο.
Ο μέγιστος αριθμός επαναλήψεων ισούται με το μέγεθος του
μέγιστου συχνού υποσυνόλου.
Σε κάθε βήμα δημιουργούνται συχνά (k + 1)-υποσύνολα από τα
συχνά k-υποσύνολα.
Ερώτηση
Πώς μπορούμε να δημιουργούμε ακριβώς μια φορά κάθε συχνό
(k + 1)-υποσύνολο από τα συχνά k-υποσύνολα;

Υπάρχουν 2 βασικές μέθοδοι για την κατασκευή των συχνών

υποσυνόλων μεγέθους k:
μέθοδος Fk−1 × F1
μέθοδος Fk−1 × Fk−1 .

Εύρεση συχνών υποσυνόλων - μέθοδος Fk−1 × F1
Μέθοδος Fk−1 × F1 :
΄Εστω Fi το σύνολο όλων των συχνών υποσυνόλων μεγέθους i.
Θεωρούμε ότι τα στοιχεία του Fi είναι διατεταγμένα
λεξικογραφικά.
Η μέθοδος Fk−1 × F1 κατασκευάζει τα συχνά υποσύνολα μεγέθους
k επεκτείνοντας κάθε συχνό υποσύνολο μεγέθους k − 1
χρησιμοποιώντας εκείνα τα συχνά υποσύνολα μεγέθους 1 που είναι
λεξικογραφικά μεγαλύτερα από αυτό.

Με αυτό τον τρόπο κατασκευάζονται διαφορετικά υποσύνολα,

παράγονται όλα τα πιθανά συχνά υποσύνολα, αλλά ενδεχομένως
παράγονται και υποσύνολα όχι συχνά π.χ. {Beer, Diaper, Milk} (το
οποίο δεν είναι συχνό αφού το {Beer, Milk} δεν είναι συχνό).
Πολυπλοκότητα: O(|Fk−1 × F1 |).
Προκειμένου να μειωθεί ο αριθμός των μη συχνών k-υποσυνόλων, που

δημιουργούνται από τη μέθοδο Fk−1 × F1 μπορούμε να παρατηρήσουμε
ότι:
Κάθε στοιχείο ενός συχνού k-υποσυνόλου, πρέπει να περιέχεται σε
τουλάχιστον k − 1 από τα συχνά (k − 1)-υποσύνολα.
Πράγματι, έστω ένα k-υποσύνολο A το οποίο περιέχει ένα στοιχείο x

που περιέχεται το πολύ σε k − 2 από τα συχνά (k − 1)-υποσύνολα.
΄Ενα τουλάχιστον από τα k − 1 (k − 1)-υποσύνολα που προκύπτουν
σβήνοντας ακριβώς ένα από τα υπόλοιπα k − 1 στοιχεία του A δεν θα
περιέχεται στα συχνά (k − 1)-υποσύνολα (αφού τα υποσύνολα που
προκύπτουν είναι όλα διαφορετικά και το x ανήκει το πολύ σε k − 2 από
τα συχνά (k − 1)-υποσύνολα του A), άρα το A δεν είναι συχνό.

Εύρεση συχνών υποσυνόλων - μέθοδος Fk−1 × Fk−1
Μέθοδος Fk−1 × Fk−1 :

΄Εστω Fi το σύνολο όλων των συχνών υποσυνόλων μεγέθους i.
Θεωρούμε ότι τα στοιχεία του Fi είναι διατεταγμένα
λεξικογραφικά.
Η μέθοδος Fk−1 × Fk−1 κατασκευάζει τα συχνά υποσύνολα
μεγέθους k ενώνοντας εκείνα τα ζεύγη συχνών υποσυνόλων
μεγέθους k − 1 για τα οποία πρώτα k − 2 στοιχεία τους είναι ίδια.

Εύρεση συχνών υποσυνόλων - μέθοδος Fk−1 × Fk−1
Με αυτό τον τρόπο κατασκευάζονται διαφορετικά υποσύνολα,

παράγονται όλα τα πιθανά συχνά υποσύνολα, αλλά ενδεχομένως
παράγονται και υποσύνολα όχι συχνά. Για κάθε k-υποσύνολο που
παράγεται πρέπει να ελέγξουμε αν τα k − 2 υποσύνολά του είναι συχνά.
Πολυπλοκότητα: O(|Fk−1 × Fk−1 |).


k=1
Μέχρι ότου δεν δημιουργούνται νέα υποσύνολα
I Δημιούργησε όλα τα υποψήφια υποσύνολα μεγέθους k + 1 από τα
συχνά υποσύνολα μεγέθους k (μέθοδος Fk−1 × F1 ή Fk−1 × Fk−1 )

Εύρεση συχνών υποσυνόλων - υπολογισμός υποστήριξης
Ερώτηση
Πώς θα γίνει ο αποδοτικός υπολογισμός της υποστήριξης;
Απλοϊκός τρόπος
Για κάθε νέο υποψήφιο συχνό υποσύνολο X πρέπει να υπολογίσουμε
την υποστήριξή του στο σύνολο των συναλλαγών T :
Για κάθε συναλλαγή Ti ελέγχουμε αν το X είναι υποσύνολο του Ti .
Για να γίνει ο έλεγχος αυτός συγκρίνουμε τα στοιχεία του X με τα
στοιχεία της συναλλαγής Ti .

Ερώτηση
Βελτιωμένος τρόπος
Προκειμένου να ελαχιστοποιήσουμε τον αριθμό των συγκρίσεων
αποθηκεύουμε πρώτα όλα τα νέα υποψήφια συχνά υποσύνολα X
σε μια δομή κατακερματισμού (συνήθως δένδρο).

Ερώτηση
Βελτιωμένος τρόπος
Προκειμένου να ελαχιστοποιήσουμε τον αριθμό των συγκρίσεων
αποθηκεύουμε πρώτα όλα τα νέα υποψήφια συχνά υποσύνολα X
σε μια δομή κατακερματισμού (συνήθως δένδρο).
Στην συνέχεια κάθε συναλλαγή Ti κατακερματίζεται με την ίδια
συνάρτηση που χρησιμοποιήθηκε για την δημιουργία της δομής
κατακερματισμού
και συγκρίνονται μόνο τα αντίστοιχα υποσύνολα που
τοποθετούνται στις ίδιες θέσεις στην δομή κατακερματισμού.

΄Εστω ότι έχουμε 15 υποψήφια 3-σύνολα (τα στοιχεία των οποία είναι
ταξινομημένα λεξικογραφικά):
145, 124, 457, 125, 458, 159, 136, 234, 567, 345, 356, 357, 689, 367, 368.

145, 124, 457, 125, 458, 159, 136, 234, 567, 345, 356, 357, 689, 367, 368.
Δημιουργούμε ένα 3-αδικό δένδρο κατακερματισμού διαβάζοντας τα
στοιχεία κάθε ενός υποψηφίου χρησιμοποιώντας ως συνάρτηση
κατακερματισμού τον κανόνα:
m mod 3

145, 124, 457, 125, 458, 159, 136, 234, 567, 345, 356, 357, 689, 367, 368.
Δημιουργούμε ένα 3-αδικό δένδρο κατακερματισμού διαβάζοντας τα
στοιχεία κάθε ενός υποψηφίου χρησιμοποιώντας ως συνάρτηση
κατακερματισμού τον κανόνα:
m mod 3
οπότε προκύπτει το δένδρο

΄Εχοντας κατασκευάσει το δένδρο κατακερματισμού για τα υποψήφια

συχνά 3-υποσύνολα,
για κάθε συναλλαγή Ti
κατακερματίζουμε όλα τα 3-υποσύνολά της στο δένδρο
και αυξάνουμε τον αντίστοιχο μετρητή του συνόλου (στο δένδρο).

Για παράδειγμα, έστω μια συναλλαγή η οποία περιέχει τα στοιχεία

{1, 2, 3, 5, 6}


{1, 2, 3, 5, 6}
Κανονικά πρέπει να ελέγξουμε για καθένα από τα 15 υποψήφια συχνά
3-υποσύνολα αν αυτό περιέχεται στην συναλλαγή {1, 2, 3, 5, 6}.


{1, 2, 3, 5, 6}
Αντί αυτού, θα κατασκευάσουμε πρώτα όλα τα δυνατά 3-υποσύνολα
της συναλλαγής {1, 2, 3, 5, 6}. Υπάρχουν 53 = 10 τέτοια υποσύνολα.


{1, 2, 3, 5, 6}
Αντί αυτού, θα κατασκευάσουμε πρώτα όλα τα δυνατά 3-υποσύνολα
της συναλλαγής {1, 2, 3, 5, 6}. Υπάρχουν 53 = 10 τέτοια υποσύνολα.
΄Επειτα, κάθε ένα από αυτά τα 10, χρησιμοποιώντας το δένδρο
κατατερματισμού, θα το συγκρίνουμε μόνο με τα αντίστοιχα υποψήφια
συχνά 3-υποσύνολα που βρίσκονται στο ίδιο φύλλο στο δένδρο.

Δένδρο λεξικογραφικής κατασκευής όλων των 3-υποσυνόλων της

συναλλαγής 12356:
5

3 = 10.
Για κάθε ένα από τα 10 3-υποσύνολα που κατασκευάσαμε

χρησιμοποιούμε το δένδρο κατακερματισμού που κατασκευάσαμε, με
την ίδια συνάρτηση κατακερματισμού:

Για κάθε ένα από τα 10 3-υποσύνολα που κατασκευάσαμε

χρησιμοποιούμε το δένδρο κατακερματισμού που κατασκευάσαμε, με
την ίδια συνάρτηση κατακερματισμού:
Τα 10 υποσύνολα τοποθετούνται στα φύλλα που είναι σημειωμένα με

κόκκινο. Τελικά, μόνο 5 από τα 15 3-σύνολα περιέχονται στην
συναλλαγή 12356. (Συνολικά συγκρίθηκαν μόνο τα 11 από τα 15)
Ανακεφαλαιώνοντας έχουμε:
k=1
Μέχρι ότου δεν δημιουργούνται νέα υποσύνολα
I Δημιούργησε όλα τα υποψήφια υποσύνολα μεγέθους k + 1 από τα
συχνά υποσύνολα μεγέθους k (μέθοδος Fk−1 × F1 ή Fk−1 × Fk−1 )
(μέθοδος κατακερματισμού)

Επιλογή της τιμής ελάχιστης υποστήριξης minsup
I Μικρή τιμή: Πολλά συχνά υποσύνολα.
Μέσο μέγεθος συναλλαγής.
I Πυκνά σύνολα δεδομένων: Αυξάνει το μέσο μέγεθος συχνών
υποσυνόλων. Αύξηση των περασμάτων στο δένδρο
κατακερματισμού.

Δημιουργία κανόνων συσχέτισης από τα συχνά υποσύνολα

(διαφάνειες 39 – 45)

Δημιουργία κανόνων συσχέτισης
΄Εχοντας βρει όλα τα συχνά υποσύνολα.

Για κάθε συχνό υποσύνολο, ψάχνουμε όλους τους κανόνες συσχέτισης
που έχουν μεγάλη εμπιστοσύνη και προκύπτουν διαμερίζοντας το
υποσύνολο σε 2 σύνολα.
΄Οπως είπαμε για ένα σύνολο με k στοιχεία μπορούν να

κατασκευασθούν 2k − 2 πιθανοί κανόνες συσχέτισης.

σ(X ∪ Y )
Υπενθύμιση: Εμπιστοσύνη c(X → Y ) = .
σ(X )
Παρατηρούμε ότι δεν χρειάζεται να διαβάσουμε πάλι τα δεδομένα των

συναλλαγών για να υπολογίσουμε την εμπιστοσύνη ενός κανόνα, διότι
τα υποσύνολα ενός συχνού υποσυνόλου είναι και αυτά συχνά
υποσύνολα.
Π.χ. c(CD → AB) = σ(ABCD)/σ(CD). Αν το ABCD είναι συχνό
υποσύνολο, τότε και το CD είναι συχνό υποσύνολο, άρα έχουμε ήδη
υπολογίσει την υποστήριξή του.
Γενικά η εμπιστοσύνη δεν ικανοποιεί την αντι-μονότονη ιδιότητα:

Μπορεί X 0 ⊆ X και Y 0 ⊆ Y ενώ c(X → Y ) > c(X 0 → Y 0 ) και
αντιστρόφως.

Γενικά η εμπιστοσύνη δεν ικανοποιεί την αντι-μονότονη ιδιότητα:

Μπορεί X 0 ⊆ X και Y 0 ⊆ Y ενώ c(X → Y ) > c(X 0 → Y 0 ) και
αντιστρόφως.
΄Ομως, η εμπιστοσύνη ικανοποιεί μια αντι-μονότονη ιδιότητα για τους

κανόνες που παράγονται με διαμέριση του ίδιου συνόλου σε δύο
υποσύνολα:
Π.χ. Για τους κανόνες που προκύπτουν από το σύνολο {A, B, C , D}
ισχύει ότι
c(ABC → D) ≥ c(AB → CD) ≥ c(A → BCD)
δηλαδή η εμπιστοσύνη είναι αντι-μονότονη σε σχέση με τον αριθμό των

στοιχείων στο δεξί μέλος του κανόνα (όσο μεγαλώνει ο αριθμός στο
δεξιό μέρος, τόσο μικραίνει η εμπιστοσύνη).
Μπορούμε επομένως να χρησιμοποιήσουμε τον παρακάτω κανόνα

κλαδεματος:
΄Εστω X ∪ Y = A. Αν ο κανόνας X → A − X δεν καλύπτει την ελάχιστη

εμπιστοσύνη, τότε και ο κανόνας X 0 → A − X 0 , με X 0 ⊆ X επίσης
καλύπτει την ελάχιστη εμπιστοσύνη.


Αλγόριθμος δημιουργίας κανόνων συσχέτισης

Αρχικά θεωρούμε όλους τους κανόνες X → Y με |Y | = 1
Μεχρις ότου δεν δημιουργούνται νέοι κανόνες
I Συγχωνεύουμε τα δεξιά μέλη δύο υποψήφιων κανόνων (σβήνοντας
στο αριστερό τα στοχεία που εμφανίζονται στο δεξιό μέρος). Π.χ.
CD → AB και BD → AC δίνει D → ABC .
Δύο τρόποι: Αντίστοιχοι με τις μεθόδους Fk−1 × Fk και Fk−1 × Fk−1
(όμως εδώ εξετάζουμε μόνο τα δεύτερα μέλη).
I Εφαρμόζουμε τον κανόνα κλαδέματος: Αν ο κανόνας X → A − X
δεν καλύπτει την ελάχιστη εμπιστοσύνη, τότε και ο κανόνας
X 0 → A − X 0 , με X 0 ⊆ X επίσης καλύπτει την ελάχιστη εμπιστοσύνη.
Υπενθύμιση: Για τον υπολογισμό της εμπιστοσύνης δεν απαιτείται ξανά
η προσπέλαση των συναλλαγών.


Εύρεση συχνών υποσυνόλων (2ο μέρος) (διαφάνειες 47 – 58)

Αναπαράσταση κανόνων συσχέτισης
Ενδέχεται τα συχνά υποσύνολα που παράγονται να είναι πάρα

πολλά. Επομένως, είναι μη πρακτική η κατασκευή όλων αυτών,
καθώς και η παραγωγή όλων των κανόνων συσχετίσεων που
προκύπτουν από αυτά.
Επομένως, τίθεται το ερώτημα ποια συχνά σύνολα πρέπει να
κρατήσουμε; Ποια είναι τα αντιπροσωπευτικά συχνά υποσύνολα;

΄Εστω οι παρακάτω 15 συναλλαγές από ένα σύνολο 30 στοιχείων.
Αν θεωρήσουμε minsup = 20%, τότε υπάρχουν 3 × (210 − 1) = 3069

συχνά υποσύνολα.
Μερικά συχνά υποσύνολα είναι πλεονάζοντα, αφού έχουν την ίδια
υποστήριξη με τα συχνά υπερσύνολά τους.

Μια απάντηση στο πρόβλημα των αντιπροσώπων είναι η έννοια του

μεγιστικού συχνού υποσυνόλου.
΄Ενα υποσύνολο ονομάζεται μεγιστικά συχνό (maximally frequent)
ανν κανένα από τα (άμεσα μεγαλύτερα) υπερσύνολά του δεν είναι
συχνό.

΄Ενα υποσύνολο ονομάζεται μεγιστικά συχνό ανν κανένα από τα

(άμεσα μεγαλύτερα) υπερσύνολά του δεν είναι συχνό.

Τα μεγιστικά συχνά υποσύνολα προσφέρουν μια συνοπτική

αναπαράσταση όλων των συχνών υποσυνόλων: Συγκεκριμένα,
αποτελούν το μικρότερο σύνολο από το οποίο μπορούμε να
πάρουμε όλα τα συχνά υποσύνολα (αφού όλα τα συχνά σύνολα
είναι υποσύνολά τους).


Υπάρχουν αλγόριθμοι που υπολογίζουν τα μεγιστικά συχνά
υποσύνολα, χωρίς να χρειαστεί να κατασκευάσουν όλα τα δυνατά
υποσύνολά τους.


Υπάρχουν αλγόριθμοι που υπολογίζουν τα μεγιστικά συχνά
υποσύνολα, χωρίς να χρειαστεί να κατασκευάσουν όλα τα δυνατά
υποσύνολά τους.
Η αναπαράσταση αυτή έχει το μειονέκτημα ότι δεν δίνει άμεσες
πληροφορίες για την υποστήριξη των υποσυνόλων τους (η οποία
μας χρειάζεται για την παραγωγή των κανόνων συσχέτισης).

Μια άλλη συνοπτική αναπαράσταση των υποσυνόλων είναι τα κλειστά

υποσύνολα.
΄Ενα υποσύνολο ονομάζεται κλειστό (closed) αν κανένα από τα
(αμέσως μεγαλύτερα) υπερσύνολά του δεν έχει την ίδια υποστήριξη με
αυτό.
Δηλαδή, όλα τα (αμέσως μεγαλύτερα) υπερσύνολά του έχουν
μικρότερη υποστήριξη από αυτό.

Μια άλλη συνοπτική αναπαράσταση των υποσυνόλων είναι τα κλειστά

υποσύνολα.
αυτό.
Δηλαδή, όλα τα (αμέσως μεγαλύτερα) υπερσύνολά του έχουν
μικρότερη υποστήριξη από αυτό.
Ισοδύναμα, ένα υποσύνολο ονομάζεται μη κλειστό αν κάποιο από τα

(αμέσως μεγαλύτερα) υπερσύνολά του έχει την ίδια υποστήριξη με
αυτό.


αυτό.
Κλειστά:


αυτό.
Κλειστά: B, AB, BD, ABD.

Τέλος, ένα υποσύνολο ονομάζεται κλειστό (closed) συχνό αν είναι

κλειστό και η υποστήριξή του είναι μεγαλύτερη ή ίση από minsup
Αν minsup = 0.75 τότε:

Κλειστά: B, AB, BD, ABD.
Συχνά κλειστά: B, AB, BD.

Υπάρχουν αλγόριθμοι για τον αποδοτικό υπολογισμό των κλειστών
συχνών υποσυνόλων.

Η σχέση ανάμεσα στα κλειστά συχνά και μεγιστικά συχνά υποσύνολα

εμφανίζεται στο παρακάτω διάγραμμα Venn:

Κλειστά:
Κλειστά: C , D, E , AC , BC , CE , DE .

Προτεινόμενη βιβλιογραφία:

Πηγές διαφανειών
P.-N. Tan, M. Steinbach, A. Karpatne, V. Kumar, Introduction to

Data Mining, 2nd edition
Μαθήματα εξόρυξης δεδομένων, Παν. Θεσσαλίας, Πα.Πει.

03 Association Rules v1

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

03 Association Rules v1

Uploaded by

Copyright:

Available Formats

Ανάλυση συσχέτισης

Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 1 / 60

Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 2 / 60

Παράδειγμα: Το καλάθι της νοικοκυράς

Μερικοί κανόνες συσχέτισης:

Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 3 / 60

Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 4 / 60

όπου X , Y είναι ξένα υποσύνολα του I .

Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 5 / 60

Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 6 / 60

Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 6 / 60

Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 6 / 60

{Milk, Diaper} → {Beer}

Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 7 / 60

{Milk, Diaper} → {Beer}

Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 7 / 60

{Milk, Diaper} → {Beer}

Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 7 / 60

{Milk, Diaper} → {Beer}

Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 7 / 60

Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 8 / 60

Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 8 / 60

Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 8 / 60

Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 8 / 60

Το πρόβλημα της ανάλυσης συσχέτισης μπορεί να διατυπωθεί ως εξής:

Να βρεθούν όλοι οι κανόνες συσχέτισης X → Y με s(X → Y ) ≥ minsup

Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 9 / 60

Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 10 / 60

Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 10 / 60

Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 10 / 60

Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 10 / 60

Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 11 / 60

Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 11 / 60

Πόσοι κανόνες συσχέτισης X → Y με το ίδιο X ∪ Y υπάρχουν;

Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 11 / 60

Πιθανοί κανόνες με τα στοιχεία Milk, Diaper, Beer:

Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 12 / 60

Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 13 / 60

Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 13 / 60

Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 13 / 60

Εύρεση συχνών υποσυνόλων (διαφάνειες 15 – 37)

Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 14 / 60

Το δικτυωτό (ως προς τη σχέση εγκλεισμού) των υποσυνόλων του

Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 16 / 60

Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 17 / 60

Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 18 / 60

Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 19 / 60

Αλγόριθμος αναδρομικής κατασκευής συχνών υποσυνόλων

Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 20 / 60

Για τον αλγόριθμο αναδρομικής κατασκευής συχνών υποσυνόλων

Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 21 / 60

Υπάρχουν 2 βασικές μέθοδοι για την κατασκευή των συχνών

Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 22 / 60

Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 23 / 60

Με αυτό τον τρόπο κατασκευάζονται διαφορετικά υποσύνολα,

Προκειμένου να μειωθεί ο αριθμός των μη συχνών k-υποσυνόλων, που

Πράγματι, έστω ένα k-υποσύνολο A το οποίο περιέχει ένα στοιχείο x

Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 25 / 60

Μέθοδος Fk−1 × Fk−1 :

Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 26 / 60

Με αυτό τον τρόπο κατασκευάζονται διαφορετικά υποσύνολα,

Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 27 / 60

Αλγόριθμος αναδρομικής κατασκευής συχνών υποσυνόλων