Professional Documents
Culture Documents
(association analysis)
Ανάλυση συσχέτισης
΄Εστω I = {i1 , i2 , . . . , in } ένα σύνολο από διακριτά στοιχεία (items).
Δοθέντος ενός συνόλου υποσυνόλων T = {T1 , T2 , . . . , TN } του I
(τα Ti συνήθως ονομάζονται συναλλαγές (transactions)).
να βρεθούν κανόνες που προβλέπουν την εμφάνιση ενός στοιχείου ή
συνόλου στοιχείων του I με βάση την εμφάνιση άλλων στοιχείων
του I (κανόνες συσχέτισης).
Παρατήρηση
Οι κανόνες συσχέτισης δηλώνουν απλώς ότι κάποια στοιχεία
εμφανίζονται μαζί, και όχι ό,τι η εμφάνιση του ενός στοιχείου είναι η
αιτία της εμφάνισης του άλλου στοιχείου. (co-occurrence, not causality).
X →Y
Παράδειγμα
{Beer, Bread} → {Milk}
{Bread} → {Diapers, Beer}
Παράδειγμα
Παράδειγμα
Παράδειγμα
Παράδειγμα
Παρατηρήσεις
s(X → Y ) = s(X ∪ Y ) = σ(X ∪ Y )/|T |
I ΄Ενας κανόνας συσχέτισης με μικρή υποστήριξη μπορεί να
εμφανίζεται τυχαία.
΄Εχει λιγότερη σημασία/χρησιμότητα διότι αφορά μικρό αριθμό
συναλλαγών.
Παρατηρήσεις
s(X → Y ) = s(X ∪ Y ) = σ(X ∪ Y )/|T |
I ΄Ενας κανόνας συσχέτισης με μικρή υποστήριξη μπορεί να
εμφανίζεται τυχαία.
΄Εχει λιγότερη σημασία/χρησιμότητα διότι αφορά μικρό αριθμό
συναλλαγών.
I Για το σκοπό αυτό συνήθως ορίζουμε ένα ελάχιστο ποσοστό
υποστήριξης minsup που επιθυμούμε να έχει κάποιος κανόνας.
Παρατηρήσεις
s(X → Y ) = s(X ∪ Y ) = σ(X ∪ Y )/|T |
I ΄Ενας κανόνας συσχέτισης με μικρή υποστήριξη μπορεί να
εμφανίζεται τυχαία.
΄Εχει λιγότερη σημασία/χρησιμότητα διότι αφορά μικρό αριθμό
συναλλαγών.
I Για το σκοπό αυτό συνήθως ορίζουμε ένα ελάχιστο ποσοστό
υποστήριξης minsup που επιθυμούμε να έχει κάποιος κανόνας.
c(X → Y ) = σ(X ∪ Y )/σ(X ).
I Η εμπιστοσύνη μετρά την αξιοπιστία, βεβαιότητα της εξάρτησης.
΄Οσο μεγαλύτερη εμπιστοσύνη τόσο μεγαλύτερη η πιθανότητα
εμφάνισης του Y σε κανόνες που περιέχουν το X .
Παρατηρήσεις
s(X → Y ) = s(X ∪ Y ) = σ(X ∪ Y )/|T |
I ΄Ενας κανόνας συσχέτισης με μικρή υποστήριξη μπορεί να
εμφανίζεται τυχαία.
΄Εχει λιγότερη σημασία/χρησιμότητα διότι αφορά μικρό αριθμό
συναλλαγών.
I Για το σκοπό αυτό συνήθως ορίζουμε ένα ελάχιστο ποσοστό
υποστήριξης minsup που επιθυμούμε να έχει κάποιος κανόνας.
c(X → Y ) = σ(X ∪ Y )/σ(X ).
I Η εμπιστοσύνη μετρά την αξιοπιστία, βεβαιότητα της εξάρτησης.
΄Οσο μεγαλύτερη εμπιστοσύνη τόσο μεγαλύτερη η πιθανότητα
εμφάνισης του Y σε κανόνες που περιέχουν το X .
I Για το σκοπό αυτό συνήθως ορίζουμε ένα ελάχιστο ποσοστό
εμπιστοσύνης minconf που επιθυμούμε να έχει κάποιος κανόνας.
΄Εστω
I = {i1 , i2 , . . . , in } ένα σύνολο από διακριτά στοιχεία
T = {T1 , T2 , . . . , TN } ένα σύνολο συναλλαγών, όπου Ti ⊆ I
μιας ελάχιστης υποστήριξης minsup
μιας ελάχιστης εμπιστοσύνης minconf
Μέθοδος brute-force:
Κατασκεύασε όλους τους δυνατούς κανόνες X → Y
Υπολόγισε την υποστήριξη και την εμπιστοσύνη του καθένα
Αφαίρεσε τους κανόνες που δεν ικανοποιούν τους περιορισμούς
minsup και minconf.
Μέθοδος brute-force:
Κατασκεύασε όλους τους δυνατούς κανόνες X → Y
Υπολόγισε την υποστήριξη και την εμπιστοσύνη του καθένα
Αφαίρεσε τους κανόνες που δεν ικανοποιούν τους περιορισμούς
minsup και minconf.
Παρατήρηση
Η μέθοδος αυτή είναι μη πρακτική.
Μέθοδος brute-force:
Κατασκεύασε όλους τους δυνατούς κανόνες X → Y
Υπολόγισε την υποστήριξη και την εμπιστοσύνη του καθένα
Αφαίρεσε τους κανόνες που δεν ικανοποιούν τους περιορισμούς
minsup και minconf.
Παρατήρηση
Η μέθοδος αυτή είναι μη πρακτική.
Για ένα σύνολο I με n στοιχεία, ο αριθμός των κανόνων συσχέτισης
X → Y (δηλαδή των διατεταγμένων ξένων υποσυνόλων (X , Y )) ισούται
με 3n − 2n+1 + 1.
Μέθοδος brute-force:
Κατασκεύασε όλους τους δυνατούς κανόνες X → Y
Υπολόγισε την υποστήριξη και την εμπιστοσύνη του καθένα
Αφαίρεσε τους κανόνες που δεν ικανοποιούν τους περιορισμούς
minsup και minconf.
Παρατήρηση
Η μέθοδος αυτή είναι μη πρακτική.
Για ένα σύνολο I με n στοιχεία, ο αριθμός των κανόνων συσχέτισης
X → Y (δηλαδή των διατεταγμένων ξένων υποσυνόλων (X , Y )) ισούται
με 3n − 2n+1 + 1.
Αν n = 10 υπάρχουν 57000 πιθανοί κανόνες συσχέτισης. Αν n = 20
υπάρχουν 3484687250 πιθανοί κανόνες συσχέτισης. Αν n = 30
υπάρχουν 205888984611002 πιθανοί κανόνες συσχέτισης.
Παρατήρηση
Η υποστήριξη ενός κανόνα X → Y εξαρτάται από την υποστήριξη του
X ∪Y.
Παρατήρηση
Η υποστήριξη ενός κανόνα X → Y εξαρτάται από την υποστήριξη του
X ∪Y.
Επομένως, οι κανόνες που αποτελούνται από μια διαμέριση των
στοιχείων του X ∪ Y έχουν όλοι την ίδια υποστήριξη (αλλά
πιθανώς διαφορετική εμπιστοσύνη).
Παρατήρηση
Η υποστήριξη ενός κανόνα X → Y εξαρτάται από την υποστήριξη του
X ∪Y.
Επομένως, οι κανόνες που αποτελούνται από μια διαμέριση των
στοιχείων του X ∪ Y έχουν όλοι την ίδια υποστήριξη (αλλά
πιθανώς διαφορετική εμπιστοσύνη).
Παράδειγμα
Βασικές παρατηρήσεις
Μπορούμε να εξετάσουμε τους περιορισμούς για την υποστήριξη
και την εμπιστοσύνη ξεχωριστά.
Βασικές παρατηρήσεις
Μπορούμε να εξετάσουμε τους περιορισμούς για την υποστήριξη
και την εμπιστοσύνη ξεχωριστά.
Μας συμφέρει να βρούμε πρώτα όλα τα υποσύνολα του I με
υποστήριξη μεγαλύτερη ή ίση από minsup.
Τα υποσύνολα αυτά ονομάζονται συχνά ή (συχνά
εμφανιζόμενα ή συνηθισμένα) (frequent) υποσύνολα.
Βασικές παρατηρήσεις
Μπορούμε να εξετάσουμε τους περιορισμούς για την υποστήριξη
και την εμπιστοσύνη ξεχωριστά.
Μας συμφέρει να βρούμε πρώτα όλα τα υποσύνολα του I με
υποστήριξη μεγαλύτερη ή ίση από minsup.
Τα υποσύνολα αυτά ονομάζονται συχνά ή (συχνά
εμφανιζόμενα ή συνηθισμένα) (frequent) υποσύνολα.
Στη συνέχεια, για κάθε συχνό υποσύνολο θα βρούμε κανόνες με
μεγάλη εμπιστοσύνη.
Παρατήρηση
Βασική ιδιότητα υποστήριξης: Αν X ⊆ Y τότε s(X ) ≥ s(Y ).
(αντι-μονότονη ιδιότητα).
Επομένως, αν ένα υποσύνολο είναι συχνό, τότε όλα τα υποσύνολά
του είναι συχνά.
Αντιθετοαναστροφή: Αν ενα υποσύνολο δεν είναι συχνό, τότε όλα
τα υπερσύνολά του δεν είναι συχνά.
Ερώτηση
Πώς μπορούμε να δημιουργούμε ακριβώς μια φορά κάθε συχνό
(k + 1)-υποσύνολο από τα συχνά k-υποσύνολα;
Μέθοδος Fk−1 × F1 :
΄Εστω Fi το σύνολο όλων των συχνών υποσυνόλων μεγέθους i.
Θεωρούμε ότι τα στοιχεία του Fi είναι διατεταγμένα
λεξικογραφικά.
Η μέθοδος Fk−1 × F1 κατασκευάζει τα συχνά υποσύνολα μεγέθους
k επεκτείνοντας κάθε συχνό υποσύνολο μεγέθους k − 1
χρησιμοποιώντας εκείνα τα συχνά υποσύνολα μεγέθους 1 που είναι
λεξικογραφικά μεγαλύτερα από αυτό.
Ερώτηση
Πώς θα γίνει ο αποδοτικός υπολογισμός της υποστήριξης;
Απλοϊκός τρόπος
Για κάθε νέο υποψήφιο συχνό υποσύνολο X πρέπει να υπολογίσουμε
την υποστήριξή του στο σύνολο των συναλλαγών T :
Για κάθε συναλλαγή Ti ελέγχουμε αν το X είναι υποσύνολο του Ti .
Για να γίνει ο έλεγχος αυτός συγκρίνουμε τα στοιχεία του X με τα
στοιχεία της συναλλαγής Ti .
Ερώτηση
Πώς θα γίνει ο αποδοτικός υπολογισμός της υποστήριξης;
Βελτιωμένος τρόπος
Προκειμένου να ελαχιστοποιήσουμε τον αριθμό των συγκρίσεων
αποθηκεύουμε πρώτα όλα τα νέα υποψήφια συχνά υποσύνολα X
σε μια δομή κατακερματισμού (συνήθως δένδρο).
Ερώτηση
Πώς θα γίνει ο αποδοτικός υπολογισμός της υποστήριξης;
Βελτιωμένος τρόπος
Προκειμένου να ελαχιστοποιήσουμε τον αριθμό των συγκρίσεων
αποθηκεύουμε πρώτα όλα τα νέα υποψήφια συχνά υποσύνολα X
σε μια δομή κατακερματισμού (συνήθως δένδρο).
Στην συνέχεια κάθε συναλλαγή Ti κατακερματίζεται με την ίδια
συνάρτηση που χρησιμοποιήθηκε για την δημιουργία της δομής
κατακερματισμού
και συγκρίνονται μόνο τα αντίστοιχα υποσύνολα που
τοποθετούνται στις ίδιες θέσεις στην δομή κατακερματισμού.
΄Εστω ότι έχουμε 15 υποψήφια 3-σύνολα (τα στοιχεία των οποία είναι
ταξινομημένα λεξικογραφικά):
145, 124, 457, 125, 458, 159, 136, 234, 567, 345, 356, 357, 689, 367, 368.
΄Εστω ότι έχουμε 15 υποψήφια 3-σύνολα (τα στοιχεία των οποία είναι
ταξινομημένα λεξικογραφικά):
145, 124, 457, 125, 458, 159, 136, 234, 567, 345, 356, 357, 689, 367, 368.
Δημιουργούμε ένα 3-αδικό δένδρο κατακερματισμού διαβάζοντας τα
στοιχεία κάθε ενός υποψηφίου χρησιμοποιώντας ως συνάρτηση
κατακερματισμού τον κανόνα:
m mod 3
΄Εστω ότι έχουμε 15 υποψήφια 3-σύνολα (τα στοιχεία των οποία είναι
ταξινομημένα λεξικογραφικά):
145, 124, 457, 125, 458, 159, 136, 234, 567, 345, 356, 357, 689, 367, 368.
Δημιουργούμε ένα 3-αδικό δένδρο κατακερματισμού διαβάζοντας τα
στοιχεία κάθε ενός υποψηφίου χρησιμοποιώντας ως συνάρτηση
κατακερματισμού τον κανόνα:
m mod 3
5
3 = 10.
Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 34 / 60
Ανάλυση συσχέτισης (association analysis)
Εύρεση συχνών υποσυνόλων - υπολογισμός υποστήριξης
Ανακεφαλαιώνοντας έχουμε:
Αλγόριθμος αναδρομικής κατασκευής συχνών υποσυνόλων
Αρχικά k = 1. Δημιούργησε όλα τα συχνά υποσύνολα μεγέθους
k=1
Μέχρι ότου δεν δημιουργούνται νέα υποσύνολα
I Δημιούργησε όλα τα υποψήφια υποσύνολα μεγέθους k + 1 από τα
συχνά υποσύνολα μεγέθους k (μέθοδος Fk−1 × F1 ή Fk−1 × Fk−1 )
I Απέκλεισε εκείνα τα υποψήφια υποσύνολα μεγέθους k + 1 που
περιέχουν υποσύνολα μεγέθους k που δεν είναι συχνά.
I Υπολόγισε την υποστήριξη κάθε υποψηφίου συχνού υποσυνόλου.
(μέθοδος κατακερματισμού)
I Διέγραψε τα υποσύνολα μεγέθους k + 1 που δεν είναι συχνά.
I Θέσε k = k + 1.
Παρατηρήσεις
Επιλογή της τιμής ελάχιστης υποστήριξης minsup
I Μικρή τιμή: Πολλά συχνά υποσύνολα.
Μέσο μέγεθος συναλλαγής.
I Πυκνά σύνολα δεδομένων: Αυξάνει το μέσο μέγεθος συχνών
υποσυνόλων. Αύξηση των περασμάτων στο δένδρο
κατακερματισμού.
Κλειστά:
Παρατήρηση
Υπάρχουν αλγόριθμοι για τον αποδοτικό υπολογισμό των κλειστών
συχνών υποσυνόλων.
Κλειστά:
Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 57 / 60
Ανάλυση συσχέτισης (association analysis)
Αναπαράσταση κανόνων συσχέτισης
Κλειστά: C , D, E , AC , BC , CE , DE .
Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 57 / 60
Ανάλυση συσχέτισης (association analysis)
Αναπαράσταση κανόνων συσχέτισης
Προτεινόμενη βιβλιογραφία: