You are on page 1of 89

Ανάλυση συσχέτισης

(association analysis)

Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 1 / 60


Ανάλυση συσχέτισης (association analysis)
Τί είναι η ανάλυση συσχέτισης;

Ανάλυση συσχέτισης
΄Εστω I = {i1 , i2 , . . . , in } ένα σύνολο από διακριτά στοιχεία (items).
Δοθέντος ενός συνόλου υποσυνόλων T = {T1 , T2 , . . . , TN } του I
(τα Ti συνήθως ονομάζονται συναλλαγές (transactions)).
να βρεθούν κανόνες που προβλέπουν την εμφάνιση ενός στοιχείου ή
συνόλου στοιχείων του I με βάση την εμφάνιση άλλων στοιχείων
του I (κανόνες συσχέτισης).

Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 2 / 60


Ανάλυση συσχέτισης (association analysis)
Τί είναι η ανάλυση συσχέτισης;

Παράδειγμα: Το καλάθι της νοικοκυράς

Μερικοί κανόνες συσχέτισης:


{Diaper} → {Beer}
{Milk, Bread} → {Eggs, Coke}
{Beer, Bread} → {Milk}
δηλαδή, όπου π.χ. εμφανίζεται το στοιχείο Diaper θα εμφανίζεται και
το στοιχείο Beer.

Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 3 / 60


Ανάλυση συσχέτισης (association analysis)
Τί είναι η ανάλυση συσχέτισης;

Παρατήρηση
Οι κανόνες συσχέτισης δηλώνουν απλώς ότι κάποια στοιχεία
εμφανίζονται μαζί, και όχι ό,τι η εμφάνιση του ενός στοιχείου είναι η
αιτία της εμφάνισης του άλλου στοιχείου. (co-occurrence, not causality).

Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 4 / 60


Ανάλυση συσχέτισης (association analysis)
΄Εστω T = {T1 , T2 , . . . , TN } ένα σύνολο συναλλαγών, όπου Ti ⊆ I .
Τι είναι κανόνας συσχέτισης;
Κανόνας συσχέτισης είναι μια έκφραση της μορφής

X →Y

όπου X , Y είναι ξένα υποσύνολα του I .


(Με άλλα λόγια, κανόνας συσχέτισης είναι ένα διατεταγμένο ζεύγος
(X , Y ) ξένων υποσυνόλων του I )

Παράδειγμα
{Beer, Bread} → {Milk}
{Bread} → {Diapers, Beer}

Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 5 / 60


Ανάλυση συσχέτισης (association analysis)
Προκειμένου να αξιολογήσουμε πόσο ‘‘καλός’’ είναι ένας κανόνας
χρησιμοποιούμε τους παρακάτω ορισμούς:
΄Εστω T = {T1 , T2 , . . . , TN } ένα σύνολο συναλλαγών, όπου Ti ⊆ I και
X → Y ένας κανόνας συσχέτισης
συχνότητα υποστήριξης (support count) σ(X ) του X
ονομάζεται ο αριθμός των συναλλαγών του T που περιέχουν ως
υποσύνολο το X .

Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 6 / 60


Ανάλυση συσχέτισης (association analysis)
Προκειμένου να αξιολογήσουμε πόσο ‘‘καλός’’ είναι ένας κανόνας
χρησιμοποιούμε τους παρακάτω ορισμούς:
΄Εστω T = {T1 , T2 , . . . , TN } ένα σύνολο συναλλαγών, όπου Ti ⊆ I και
X → Y ένας κανόνας συσχέτισης
συχνότητα υποστήριξης (support count) σ(X ) του X
ονομάζεται ο αριθμός των συναλλαγών του T που περιέχουν ως
υποσύνολο το X .
υποστήριξη (support) s(X ) του X ονομάζεται το ποσοστό των
συναλλαγών του T που περιέχουν ως υποσύνολο το X .

Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 6 / 60


Ανάλυση συσχέτισης (association analysis)
Προκειμένου να αξιολογήσουμε πόσο ‘‘καλός’’ είναι ένας κανόνας
χρησιμοποιούμε τους παρακάτω ορισμούς:
΄Εστω T = {T1 , T2 , . . . , TN } ένα σύνολο συναλλαγών, όπου Ti ⊆ I και
X → Y ένας κανόνας συσχέτισης
συχνότητα υποστήριξης (support count) σ(X ) του X
ονομάζεται ο αριθμός των συναλλαγών του T που περιέχουν ως
υποσύνολο το X .
υποστήριξη (support) s(X ) του X ονομάζεται το ποσοστό των
συναλλαγών του T που περιέχουν ως υποσύνολο το X .
υποστήριξη (support) s(X → Y ) του κανόνα X → Y
ονομάζεται το ποσοστό των συναλλαγών του T που περιέχουν ως
υποσύνολο την ένωση X ∪ Y , δηλαδή
σ(X ∪ Y )
s(X → Y ) = = P(X ∪ Y ).
|T |

Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 6 / 60


Ανάλυση συσχέτισης (association analysis)
Προκειμένου να αξιολογήσουμε πόσο ‘‘καλός’’ είναι ένας κανόνας
χρησιμοποιούμε τους παρακάτω ορισμούς:
΄Εστω T = {T1 , T2 , . . . , TN } ένα σύνολο συναλλαγών, όπου Ti ⊆ I και
X → Y ένας κανόνας συσχέτισης
συχνότητα υποστήριξης (support count) σ(X ) του X
ονομάζεται ο αριθμός των συναλλαγών του T που περιέχουν ως
υποσύνολο το X .
υποστήριξη (support) s(X ) του X ονομάζεται το ποσοστό των
συναλλαγών του T που περιέχουν ως υποσύνολο το X .
υποστήριξη (support) s(X → Y ) του κανόνα X → Y
ονομάζεται το ποσοστό των συναλλαγών του T που περιέχουν ως
υποσύνολο την ένωση X ∪ Y , δηλαδή
σ(X ∪ Y )
s(X → Y ) = = P(X ∪ Y ).
|T |
εμπιστοσύνη (confidence) c(X → Y ) του κανόνα X → Y
σ(X ∪ Y )
ονομάζεται το πηλίκο = P(X ∪ Y |X ) = P(Y |X ).
σ(X )
Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 6 / 60
Ανάλυση συσχέτισης (association analysis)

Παράδειγμα

{Milk, Diaper} → {Beer}


Υποστήριξη:
σ({Milk, Diaper , Beer })
s({Milk, Diaper } → {Beer }) = =
5

Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 7 / 60


Ανάλυση συσχέτισης (association analysis)

Παράδειγμα

{Milk, Diaper} → {Beer}


Υποστήριξη:
σ({Milk, Diaper , Beer }) 2
s({Milk, Diaper } → {Beer }) = = .
5 5

Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 7 / 60


Ανάλυση συσχέτισης (association analysis)

Παράδειγμα

{Milk, Diaper} → {Beer}


Υποστήριξη:
σ({Milk, Diaper , Beer }) 2
s({Milk, Diaper } → {Beer }) = = .
5 5
Εμπιστοσύνη:
σ({Milk, Diaper, Beer})
c({Milk, Diaper } → {Beer }) = =
σ({Milk, Diaper })

Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 7 / 60


Ανάλυση συσχέτισης (association analysis)

Παράδειγμα

{Milk, Diaper} → {Beer}


Υποστήριξη:
σ({Milk, Diaper , Beer }) 2
s({Milk, Diaper } → {Beer }) = = .
5 5
Εμπιστοσύνη:
σ({Milk, Diaper, Beer}) 2
c({Milk, Diaper } → {Beer }) = = .
σ({Milk, Diaper }) 3

Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 7 / 60


Ανάλυση συσχέτισης (association analysis)

Παρατηρήσεις
s(X → Y ) = s(X ∪ Y ) = σ(X ∪ Y )/|T |
I ΄Ενας κανόνας συσχέτισης με μικρή υποστήριξη μπορεί να
εμφανίζεται τυχαία.
΄Εχει λιγότερη σημασία/χρησιμότητα διότι αφορά μικρό αριθμό
συναλλαγών.

Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 8 / 60


Ανάλυση συσχέτισης (association analysis)

Παρατηρήσεις
s(X → Y ) = s(X ∪ Y ) = σ(X ∪ Y )/|T |
I ΄Ενας κανόνας συσχέτισης με μικρή υποστήριξη μπορεί να
εμφανίζεται τυχαία.
΄Εχει λιγότερη σημασία/χρησιμότητα διότι αφορά μικρό αριθμό
συναλλαγών.
I Για το σκοπό αυτό συνήθως ορίζουμε ένα ελάχιστο ποσοστό
υποστήριξης minsup που επιθυμούμε να έχει κάποιος κανόνας.

Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 8 / 60


Ανάλυση συσχέτισης (association analysis)

Παρατηρήσεις
s(X → Y ) = s(X ∪ Y ) = σ(X ∪ Y )/|T |
I ΄Ενας κανόνας συσχέτισης με μικρή υποστήριξη μπορεί να
εμφανίζεται τυχαία.
΄Εχει λιγότερη σημασία/χρησιμότητα διότι αφορά μικρό αριθμό
συναλλαγών.
I Για το σκοπό αυτό συνήθως ορίζουμε ένα ελάχιστο ποσοστό
υποστήριξης minsup που επιθυμούμε να έχει κάποιος κανόνας.
c(X → Y ) = σ(X ∪ Y )/σ(X ).
I Η εμπιστοσύνη μετρά την αξιοπιστία, βεβαιότητα της εξάρτησης.
΄Οσο μεγαλύτερη εμπιστοσύνη τόσο μεγαλύτερη η πιθανότητα
εμφάνισης του Y σε κανόνες που περιέχουν το X .

Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 8 / 60


Ανάλυση συσχέτισης (association analysis)

Παρατηρήσεις
s(X → Y ) = s(X ∪ Y ) = σ(X ∪ Y )/|T |
I ΄Ενας κανόνας συσχέτισης με μικρή υποστήριξη μπορεί να
εμφανίζεται τυχαία.
΄Εχει λιγότερη σημασία/χρησιμότητα διότι αφορά μικρό αριθμό
συναλλαγών.
I Για το σκοπό αυτό συνήθως ορίζουμε ένα ελάχιστο ποσοστό
υποστήριξης minsup που επιθυμούμε να έχει κάποιος κανόνας.
c(X → Y ) = σ(X ∪ Y )/σ(X ).
I Η εμπιστοσύνη μετρά την αξιοπιστία, βεβαιότητα της εξάρτησης.
΄Οσο μεγαλύτερη εμπιστοσύνη τόσο μεγαλύτερη η πιθανότητα
εμφάνισης του Y σε κανόνες που περιέχουν το X .
I Για το σκοπό αυτό συνήθως ορίζουμε ένα ελάχιστο ποσοστό
εμπιστοσύνης minconf που επιθυμούμε να έχει κάποιος κανόνας.

Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 8 / 60


Ανάλυση συσχέτισης (association analysis)

Το πρόβλημα της ανάλυσης συσχέτισης μπορεί να διατυπωθεί ως εξής:

΄Εστω
I = {i1 , i2 , . . . , in } ένα σύνολο από διακριτά στοιχεία
T = {T1 , T2 , . . . , TN } ένα σύνολο συναλλαγών, όπου Ti ⊆ I
μιας ελάχιστης υποστήριξης minsup
μιας ελάχιστης εμπιστοσύνης minconf

Να βρεθούν όλοι οι κανόνες συσχέτισης X → Y με s(X → Y ) ≥ minsup


και c(X → Y ) ≥ minconf.

Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 9 / 60


Ανάλυση συσχέτισης (association analysis)
Μέθοδος ωμής βίας (brute-force)

Μέθοδος brute-force:
Κατασκεύασε όλους τους δυνατούς κανόνες X → Y
Υπολόγισε την υποστήριξη και την εμπιστοσύνη του καθένα
Αφαίρεσε τους κανόνες που δεν ικανοποιούν τους περιορισμούς
minsup και minconf.

Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 10 / 60


Ανάλυση συσχέτισης (association analysis)
Μέθοδος ωμής βίας (brute-force)

Μέθοδος brute-force:
Κατασκεύασε όλους τους δυνατούς κανόνες X → Y
Υπολόγισε την υποστήριξη και την εμπιστοσύνη του καθένα
Αφαίρεσε τους κανόνες που δεν ικανοποιούν τους περιορισμούς
minsup και minconf.

Παρατήρηση
Η μέθοδος αυτή είναι μη πρακτική.

Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 10 / 60


Ανάλυση συσχέτισης (association analysis)
Μέθοδος ωμής βίας (brute-force)

Μέθοδος brute-force:
Κατασκεύασε όλους τους δυνατούς κανόνες X → Y
Υπολόγισε την υποστήριξη και την εμπιστοσύνη του καθένα
Αφαίρεσε τους κανόνες που δεν ικανοποιούν τους περιορισμούς
minsup και minconf.

Παρατήρηση
Η μέθοδος αυτή είναι μη πρακτική.
Για ένα σύνολο I με n στοιχεία, ο αριθμός των κανόνων συσχέτισης
X → Y (δηλαδή των διατεταγμένων ξένων υποσυνόλων (X , Y )) ισούται
με 3n − 2n+1 + 1.

Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 10 / 60


Ανάλυση συσχέτισης (association analysis)
Μέθοδος ωμής βίας (brute-force)

Μέθοδος brute-force:
Κατασκεύασε όλους τους δυνατούς κανόνες X → Y
Υπολόγισε την υποστήριξη και την εμπιστοσύνη του καθένα
Αφαίρεσε τους κανόνες που δεν ικανοποιούν τους περιορισμούς
minsup και minconf.

Παρατήρηση
Η μέθοδος αυτή είναι μη πρακτική.
Για ένα σύνολο I με n στοιχεία, ο αριθμός των κανόνων συσχέτισης
X → Y (δηλαδή των διατεταγμένων ξένων υποσυνόλων (X , Y )) ισούται
με 3n − 2n+1 + 1.
Αν n = 10 υπάρχουν 57000 πιθανοί κανόνες συσχέτισης. Αν n = 20
υπάρχουν 3484687250 πιθανοί κανόνες συσχέτισης. Αν n = 30
υπάρχουν 205888984611002 πιθανοί κανόνες συσχέτισης.

Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 10 / 60


Ανάλυση συσχέτισης (association analysis)

Παρατήρηση
Η υποστήριξη ενός κανόνα X → Y εξαρτάται από την υποστήριξη του
X ∪Y.

Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 11 / 60


Ανάλυση συσχέτισης (association analysis)

Παρατήρηση
Η υποστήριξη ενός κανόνα X → Y εξαρτάται από την υποστήριξη του
X ∪Y.
Επομένως, οι κανόνες που αποτελούνται από μια διαμέριση των
στοιχείων του X ∪ Y έχουν όλοι την ίδια υποστήριξη (αλλά
πιθανώς διαφορετική εμπιστοσύνη).

Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 11 / 60


Ανάλυση συσχέτισης (association analysis)

Παρατήρηση
Η υποστήριξη ενός κανόνα X → Y εξαρτάται από την υποστήριξη του
X ∪Y.
Επομένως, οι κανόνες που αποτελούνται από μια διαμέριση των
στοιχείων του X ∪ Y έχουν όλοι την ίδια υποστήριξη (αλλά
πιθανώς διαφορετική εμπιστοσύνη).

Πόσοι κανόνες συσχέτισης X → Y με το ίδιο X ∪ Y υπάρχουν;


Αν το A περιέχει k στοιχεία, υπάρχουν 2k − 2 πιθανοί κανόνες
συσχέτισης X → Y με X ∪ Y = A.
Για n = 3 υπάρχουν 6 πιθανοί κανόνες συσχέτισης.

Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 11 / 60


Ανάλυση συσχέτισης (association analysis)

Παράδειγμα

Πιθανοί κανόνες με τα στοιχεία Milk, Diaper, Beer:


{Milk, Diaper} → {Beer} (s = 0.4, c = 0.67)
{Milk, Beer} → {Diaper} (s = 0.4, c = 1.0)
{Diaper, Beer} → {Milk} (s = 0.4, c = 0.67)
{Beer} → {Milk, Diaper} (s = 0.4, c = 0.67)
{Diaper} → {Milk, Beer} (s = 0.4, c = 0.5)
{Milk} → {Diaper, Beer} (s = 0.4, c = 0.5)
Αν είχαμε minsup = 0.5 θα απορρίπταμε και τους 6 κανόνες ήδη
από τον πρώτο κανόνα.

Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 12 / 60


Ανάλυση συσχέτισης (association analysis)

Βασικές παρατηρήσεις
Μπορούμε να εξετάσουμε τους περιορισμούς για την υποστήριξη
και την εμπιστοσύνη ξεχωριστά.

Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 13 / 60


Ανάλυση συσχέτισης (association analysis)

Βασικές παρατηρήσεις
Μπορούμε να εξετάσουμε τους περιορισμούς για την υποστήριξη
και την εμπιστοσύνη ξεχωριστά.
Μας συμφέρει να βρούμε πρώτα όλα τα υποσύνολα του I με
υποστήριξη μεγαλύτερη ή ίση από minsup.
Τα υποσύνολα αυτά ονομάζονται συχνά ή (συχνά
εμφανιζόμενα ή συνηθισμένα) (frequent) υποσύνολα.

Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 13 / 60


Ανάλυση συσχέτισης (association analysis)

Βασικές παρατηρήσεις
Μπορούμε να εξετάσουμε τους περιορισμούς για την υποστήριξη
και την εμπιστοσύνη ξεχωριστά.
Μας συμφέρει να βρούμε πρώτα όλα τα υποσύνολα του I με
υποστήριξη μεγαλύτερη ή ίση από minsup.
Τα υποσύνολα αυτά ονομάζονται συχνά ή (συχνά
εμφανιζόμενα ή συνηθισμένα) (frequent) υποσύνολα.
Στη συνέχεια, για κάθε συχνό υποσύνολο θα βρούμε κανόνες με
μεγάλη εμπιστοσύνη.

Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 13 / 60


Ανάλυση συσχέτισης (association analysis)

Εύρεση συχνών υποσυνόλων (διαφάνειες 15 – 37)

Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 14 / 60


Ανάλυση συσχέτισης (association analysis)
Εύρεση συχνών υποσυνόλων

Το δικτυωτό (ως προς τη σχέση εγκλεισμού) των υποσυνόλων του


{A, B, C , D, E }.
Για ένα σύνολο με n στοιχεία υπάρχουν 2n υποσύνολα.
Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 15 / 60
Ανάλυση συσχέτισης (association analysis)
Εύρεση συχνών υποσυνόλων

Παρατήρηση
Βασική ιδιότητα υποστήριξης: Αν X ⊆ Y τότε s(X ) ≥ s(Y ).
(αντι-μονότονη ιδιότητα).
Επομένως, αν ένα υποσύνολο είναι συχνό, τότε όλα τα υποσύνολά
του είναι συχνά.
Αντιθετοαναστροφή: Αν ενα υποσύνολο δεν είναι συχνό, τότε όλα
τα υπερσύνολά του δεν είναι συχνά.

Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 16 / 60


Ανάλυση συσχέτισης (association analysis)
Εύρεση συχνών υποσυνόλων

Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 17 / 60


Ανάλυση συσχέτισης (association analysis)
Εύρεση συχνών υποσυνόλων

Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 18 / 60


Ανάλυση συσχέτισης (association analysis)
Εύρεση συχνών υποσυνόλων

Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 19 / 60


Ανάλυση συσχέτισης (association analysis)
Εύρεση συχνών υποσυνόλων

Αλγόριθμος αναδρομικής κατασκευής συχνών υποσυνόλων


(Αλγόριθμος apriori)
Αρχικά k = 1. Δημιούργησε όλα τα συχνά υποσύνολα μεγέθους
k=1
Μέχρις ότου δεν δημιουργούνται νέα υποσύνολα
I Δημιούργησε όλα τα υποψήφια υποσύνολα μεγέθους k + 1
((k + 1)-σύνολα) από τα συχνά υποσύνολα μεγέθους k (k-σύνολα)
(πώς;)
I Απέκλεισε εκείνα τα υποψήφια υποσύνολα μεγέθους k + 1 που
περιέχουν υποσύνολα μεγέθους k που δεν είναι συχνά.
I Υπολόγισε την υποστήριξη κάθε υποψηφίου συχνού υποσυνόλου.
I Διέγραψε τα υποσύνολα μεγέθους k + 1 που δεν είναι συχνά.
I Θέσε k = k + 1.

Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 20 / 60


Ανάλυση συσχέτισης (association analysis)
Εύρεση συχνών υποσυνόλων

Για τον αλγόριθμο αναδρομικής κατασκευής συχνών υποσυνόλων


μπορούμε να παρατηρήσουμε τα εξής:
Διατρέχει το δικτυωτό ανά επίπεδο.
Ο μέγιστος αριθμός επαναλήψεων ισούται με το μέγεθος του
μέγιστου συχνού υποσυνόλου.
Σε κάθε βήμα δημιουργούνται συχνά (k + 1)-υποσύνολα από τα
συχνά k-υποσύνολα.

Ερώτηση
Πώς μπορούμε να δημιουργούμε ακριβώς μια φορά κάθε συχνό
(k + 1)-υποσύνολο από τα συχνά k-υποσύνολα;

Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 21 / 60


Ανάλυση συσχέτισης (association analysis)
Εύρεση συχνών υποσυνόλων

Υπάρχουν 2 βασικές μέθοδοι για την κατασκευή των συχνών


υποσυνόλων μεγέθους k:
μέθοδος Fk−1 × F1
μέθοδος Fk−1 × Fk−1 .

Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 22 / 60


Ανάλυση συσχέτισης (association analysis)
Εύρεση συχνών υποσυνόλων - μέθοδος Fk−1 × F1

Μέθοδος Fk−1 × F1 :
΄Εστω Fi το σύνολο όλων των συχνών υποσυνόλων μεγέθους i.
Θεωρούμε ότι τα στοιχεία του Fi είναι διατεταγμένα
λεξικογραφικά.
Η μέθοδος Fk−1 × F1 κατασκευάζει τα συχνά υποσύνολα μεγέθους
k επεκτείνοντας κάθε συχνό υποσύνολο μεγέθους k − 1
χρησιμοποιώντας εκείνα τα συχνά υποσύνολα μεγέθους 1 που είναι
λεξικογραφικά μεγαλύτερα από αυτό.

Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 23 / 60


Ανάλυση συσχέτισης (association analysis)
Εύρεση συχνών υποσυνόλων - μέθοδος Fk−1 × F1

Με αυτό τον τρόπο κατασκευάζονται διαφορετικά υποσύνολα,


παράγονται όλα τα πιθανά συχνά υποσύνολα, αλλά ενδεχομένως
παράγονται και υποσύνολα όχι συχνά π.χ. {Beer, Diaper, Milk} (το
οποίο δεν είναι συχνό αφού το {Beer, Milk} δεν είναι συχνό).
Πολυπλοκότητα: O(|Fk−1 × F1 |).
Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 24 / 60
Ανάλυση συσχέτισης (association analysis)
Εύρεση συχνών υποσυνόλων - μέθοδος Fk−1 × F1

Προκειμένου να μειωθεί ο αριθμός των μη συχνών k-υποσυνόλων, που


δημιουργούνται από τη μέθοδο Fk−1 × F1 μπορούμε να παρατηρήσουμε
ότι:
Κάθε στοιχείο ενός συχνού k-υποσυνόλου, πρέπει να περιέχεται σε
τουλάχιστον k − 1 από τα συχνά (k − 1)-υποσύνολα.

Πράγματι, έστω ένα k-υποσύνολο A το οποίο περιέχει ένα στοιχείο x


που περιέχεται το πολύ σε k − 2 από τα συχνά (k − 1)-υποσύνολα.
΄Ενα τουλάχιστον από τα k − 1 (k − 1)-υποσύνολα που προκύπτουν
σβήνοντας ακριβώς ένα από τα υπόλοιπα k − 1 στοιχεία του A δεν θα
περιέχεται στα συχνά (k − 1)-υποσύνολα (αφού τα υποσύνολα που
προκύπτουν είναι όλα διαφορετικά και το x ανήκει το πολύ σε k − 2 από
τα συχνά (k − 1)-υποσύνολα του A), άρα το A δεν είναι συχνό.

Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 25 / 60


Ανάλυση συσχέτισης (association analysis)
Εύρεση συχνών υποσυνόλων - μέθοδος Fk−1 × Fk−1

Μέθοδος Fk−1 × Fk−1 :


΄Εστω Fi το σύνολο όλων των συχνών υποσυνόλων μεγέθους i.
Θεωρούμε ότι τα στοιχεία του Fi είναι διατεταγμένα
λεξικογραφικά.
Η μέθοδος Fk−1 × Fk−1 κατασκευάζει τα συχνά υποσύνολα
μεγέθους k ενώνοντας εκείνα τα ζεύγη συχνών υποσυνόλων
μεγέθους k − 1 για τα οποία πρώτα k − 2 στοιχεία τους είναι ίδια.

Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 26 / 60


Ανάλυση συσχέτισης (association analysis)
Εύρεση συχνών υποσυνόλων - μέθοδος Fk−1 × Fk−1

Με αυτό τον τρόπο κατασκευάζονται διαφορετικά υποσύνολα,


παράγονται όλα τα πιθανά συχνά υποσύνολα, αλλά ενδεχομένως
παράγονται και υποσύνολα όχι συχνά. Για κάθε k-υποσύνολο που
παράγεται πρέπει να ελέγξουμε αν τα k − 2 υποσύνολά του είναι συχνά.
Πολυπλοκότητα: O(|Fk−1 × Fk−1 |).

Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 27 / 60


Ανάλυση συσχέτισης (association analysis)
Εύρεση συχνών υποσυνόλων

Αλγόριθμος αναδρομικής κατασκευής συχνών υποσυνόλων


Αρχικά k = 1. Δημιούργησε όλα τα συχνά υποσύνολα μεγέθους
k=1
Μέχρι ότου δεν δημιουργούνται νέα υποσύνολα
I Δημιούργησε όλα τα υποψήφια υποσύνολα μεγέθους k + 1 από τα
συχνά υποσύνολα μεγέθους k (μέθοδος Fk−1 × F1 ή Fk−1 × Fk−1 )
I Απέκλεισε εκείνα τα υποψήφια υποσύνολα μεγέθους k + 1 που
περιέχουν υποσύνολα μεγέθους k που δεν είναι συχνά.
I Υπολόγισε την υποστήριξη κάθε υποψηφίου συχνού υποσυνόλου.
I Διέγραψε τα υποσύνολα μεγέθους k + 1 που δεν είναι συχνά.
I Θέσε k = k + 1.

Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 28 / 60


Ανάλυση συσχέτισης (association analysis)
Εύρεση συχνών υποσυνόλων - υπολογισμός υποστήριξης

Ερώτηση
Πώς θα γίνει ο αποδοτικός υπολογισμός της υποστήριξης;

Απλοϊκός τρόπος
Για κάθε νέο υποψήφιο συχνό υποσύνολο X πρέπει να υπολογίσουμε
την υποστήριξή του στο σύνολο των συναλλαγών T :
Για κάθε συναλλαγή Ti ελέγχουμε αν το X είναι υποσύνολο του Ti .
Για να γίνει ο έλεγχος αυτός συγκρίνουμε τα στοιχεία του X με τα
στοιχεία της συναλλαγής Ti .

Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 29 / 60


Ανάλυση συσχέτισης (association analysis)
Εύρεση συχνών υποσυνόλων - υπολογισμός υποστήριξης

Ερώτηση
Πώς θα γίνει ο αποδοτικός υπολογισμός της υποστήριξης;

Βελτιωμένος τρόπος
Προκειμένου να ελαχιστοποιήσουμε τον αριθμό των συγκρίσεων
αποθηκεύουμε πρώτα όλα τα νέα υποψήφια συχνά υποσύνολα X
σε μια δομή κατακερματισμού (συνήθως δένδρο).

Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 30 / 60


Ανάλυση συσχέτισης (association analysis)
Εύρεση συχνών υποσυνόλων - υπολογισμός υποστήριξης

Ερώτηση
Πώς θα γίνει ο αποδοτικός υπολογισμός της υποστήριξης;

Βελτιωμένος τρόπος
Προκειμένου να ελαχιστοποιήσουμε τον αριθμό των συγκρίσεων
αποθηκεύουμε πρώτα όλα τα νέα υποψήφια συχνά υποσύνολα X
σε μια δομή κατακερματισμού (συνήθως δένδρο).
Στην συνέχεια κάθε συναλλαγή Ti κατακερματίζεται με την ίδια
συνάρτηση που χρησιμοποιήθηκε για την δημιουργία της δομής
κατακερματισμού
και συγκρίνονται μόνο τα αντίστοιχα υποσύνολα που
τοποθετούνται στις ίδιες θέσεις στην δομή κατακερματισμού.

Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 30 / 60


Ανάλυση συσχέτισης (association analysis)
Εύρεση συχνών υποσυνόλων - υπολογισμός υποστήριξης

΄Εστω ότι έχουμε 15 υποψήφια 3-σύνολα (τα στοιχεία των οποία είναι
ταξινομημένα λεξικογραφικά):
145, 124, 457, 125, 458, 159, 136, 234, 567, 345, 356, 357, 689, 367, 368.

Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 31 / 60


Ανάλυση συσχέτισης (association analysis)
Εύρεση συχνών υποσυνόλων - υπολογισμός υποστήριξης

΄Εστω ότι έχουμε 15 υποψήφια 3-σύνολα (τα στοιχεία των οποία είναι
ταξινομημένα λεξικογραφικά):
145, 124, 457, 125, 458, 159, 136, 234, 567, 345, 356, 357, 689, 367, 368.
Δημιουργούμε ένα 3-αδικό δένδρο κατακερματισμού διαβάζοντας τα
στοιχεία κάθε ενός υποψηφίου χρησιμοποιώντας ως συνάρτηση
κατακερματισμού τον κανόνα:

m mod 3

Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 31 / 60


Ανάλυση συσχέτισης (association analysis)
Εύρεση συχνών υποσυνόλων - υπολογισμός υποστήριξης

΄Εστω ότι έχουμε 15 υποψήφια 3-σύνολα (τα στοιχεία των οποία είναι
ταξινομημένα λεξικογραφικά):
145, 124, 457, 125, 458, 159, 136, 234, 567, 345, 356, 357, 689, 367, 368.
Δημιουργούμε ένα 3-αδικό δένδρο κατακερματισμού διαβάζοντας τα
στοιχεία κάθε ενός υποψηφίου χρησιμοποιώντας ως συνάρτηση
κατακερματισμού τον κανόνα:

m mod 3

οπότε προκύπτει το δένδρο

Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 31 / 60


Ανάλυση συσχέτισης (association analysis)
Εύρεση συχνών υποσυνόλων - υπολογισμός υποστήριξης

΄Εχοντας κατασκευάσει το δένδρο κατακερματισμού για τα υποψήφια


συχνά 3-υποσύνολα,
για κάθε συναλλαγή Ti
κατακερματίζουμε όλα τα 3-υποσύνολά της στο δένδρο
και αυξάνουμε τον αντίστοιχο μετρητή του συνόλου (στο δένδρο).

Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 32 / 60


Ανάλυση συσχέτισης (association analysis)
Εύρεση συχνών υποσυνόλων - υπολογισμός υποστήριξης

Για παράδειγμα, έστω μια συναλλαγή η οποία περιέχει τα στοιχεία


{1, 2, 3, 5, 6}

Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 33 / 60


Ανάλυση συσχέτισης (association analysis)
Εύρεση συχνών υποσυνόλων - υπολογισμός υποστήριξης

Για παράδειγμα, έστω μια συναλλαγή η οποία περιέχει τα στοιχεία


{1, 2, 3, 5, 6}
Κανονικά πρέπει να ελέγξουμε για καθένα από τα 15 υποψήφια συχνά
3-υποσύνολα αν αυτό περιέχεται στην συναλλαγή {1, 2, 3, 5, 6}.

Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 33 / 60


Ανάλυση συσχέτισης (association analysis)
Εύρεση συχνών υποσυνόλων - υπολογισμός υποστήριξης

Για παράδειγμα, έστω μια συναλλαγή η οποία περιέχει τα στοιχεία


{1, 2, 3, 5, 6}
Κανονικά πρέπει να ελέγξουμε για καθένα από τα 15 υποψήφια συχνά
3-υποσύνολα αν αυτό περιέχεται στην συναλλαγή {1, 2, 3, 5, 6}.
Αντί αυτού, θα κατασκευάσουμε πρώτα όλα τα δυνατά 3-υποσύνολα
της συναλλαγής {1, 2, 3, 5, 6}. Υπάρχουν 53 = 10 τέτοια υποσύνολα.

Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 33 / 60


Ανάλυση συσχέτισης (association analysis)
Εύρεση συχνών υποσυνόλων - υπολογισμός υποστήριξης

Για παράδειγμα, έστω μια συναλλαγή η οποία περιέχει τα στοιχεία


{1, 2, 3, 5, 6}
Κανονικά πρέπει να ελέγξουμε για καθένα από τα 15 υποψήφια συχνά
3-υποσύνολα αν αυτό περιέχεται στην συναλλαγή {1, 2, 3, 5, 6}.
Αντί αυτού, θα κατασκευάσουμε πρώτα όλα τα δυνατά 3-υποσύνολα
της συναλλαγής {1, 2, 3, 5, 6}. Υπάρχουν 53 = 10 τέτοια υποσύνολα.
΄Επειτα, κάθε ένα από αυτά τα 10, χρησιμοποιώντας το δένδρο
κατατερματισμού, θα το συγκρίνουμε μόνο με τα αντίστοιχα υποψήφια
συχνά 3-υποσύνολα που βρίσκονται στο ίδιο φύλλο στο δένδρο.

Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 33 / 60


Ανάλυση συσχέτισης (association analysis)
Εύρεση συχνών υποσυνόλων - υπολογισμός υποστήριξης

Δένδρο λεξικογραφικής κατασκευής όλων των 3-υποσυνόλων της


συναλλαγής 12356:

5

3 = 10.
Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 34 / 60
Ανάλυση συσχέτισης (association analysis)
Εύρεση συχνών υποσυνόλων - υπολογισμός υποστήριξης

Για κάθε ένα από τα 10 3-υποσύνολα που κατασκευάσαμε


χρησιμοποιούμε το δένδρο κατακερματισμού που κατασκευάσαμε, με
την ίδια συνάρτηση κατακερματισμού:

Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 35 / 60


Ανάλυση συσχέτισης (association analysis)
Εύρεση συχνών υποσυνόλων - υπολογισμός υποστήριξης

Για κάθε ένα από τα 10 3-υποσύνολα που κατασκευάσαμε


χρησιμοποιούμε το δένδρο κατακερματισμού που κατασκευάσαμε, με
την ίδια συνάρτηση κατακερματισμού:

Τα 10 υποσύνολα τοποθετούνται στα φύλλα που είναι σημειωμένα με


κόκκινο. Τελικά, μόνο 5 από τα 15 3-σύνολα περιέχονται στην
συναλλαγή 12356. (Συνολικά συγκρίθηκαν μόνο τα 11 από τα 15)
Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 35 / 60
Ανάλυση συσχέτισης (association analysis)
Εύρεση συχνών υποσυνόλων

Ανακεφαλαιώνοντας έχουμε:
Αλγόριθμος αναδρομικής κατασκευής συχνών υποσυνόλων
Αρχικά k = 1. Δημιούργησε όλα τα συχνά υποσύνολα μεγέθους
k=1
Μέχρι ότου δεν δημιουργούνται νέα υποσύνολα
I Δημιούργησε όλα τα υποψήφια υποσύνολα μεγέθους k + 1 από τα
συχνά υποσύνολα μεγέθους k (μέθοδος Fk−1 × F1 ή Fk−1 × Fk−1 )
I Απέκλεισε εκείνα τα υποψήφια υποσύνολα μεγέθους k + 1 που
περιέχουν υποσύνολα μεγέθους k που δεν είναι συχνά.
I Υπολόγισε την υποστήριξη κάθε υποψηφίου συχνού υποσυνόλου.
(μέθοδος κατακερματισμού)
I Διέγραψε τα υποσύνολα μεγέθους k + 1 που δεν είναι συχνά.
I Θέσε k = k + 1.

Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 36 / 60


Ανάλυση συσχέτισης (association analysis)
Εύρεση συχνών υποσυνόλων

Παρατηρήσεις
Επιλογή της τιμής ελάχιστης υποστήριξης minsup
I Μικρή τιμή: Πολλά συχνά υποσύνολα.
Μέσο μέγεθος συναλλαγής.
I Πυκνά σύνολα δεδομένων: Αυξάνει το μέσο μέγεθος συχνών
υποσυνόλων. Αύξηση των περασμάτων στο δένδρο
κατακερματισμού.

Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 37 / 60


Ανάλυση συσχέτισης (association analysis)

Δημιουργία κανόνων συσχέτισης από τα συχνά υποσύνολα


(διαφάνειες 39 – 45)

Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 38 / 60


Ανάλυση συσχέτισης (association analysis)
Δημιουργία κανόνων συσχέτισης

΄Εχοντας βρει όλα τα συχνά υποσύνολα.


Για κάθε συχνό υποσύνολο, ψάχνουμε όλους τους κανόνες συσχέτισης
που έχουν μεγάλη εμπιστοσύνη και προκύπτουν διαμερίζοντας το
υποσύνολο σε 2 σύνολα.

΄Οπως είπαμε για ένα σύνολο με k στοιχεία μπορούν να


κατασκευασθούν 2k − 2 πιθανοί κανόνες συσχέτισης.

Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 39 / 60


Ανάλυση συσχέτισης (association analysis)
Δημιουργία κανόνων συσχέτισης
σ(X ∪ Y )
Υπενθύμιση: Εμπιστοσύνη c(X → Y ) = .
σ(X )

Παρατηρούμε ότι δεν χρειάζεται να διαβάσουμε πάλι τα δεδομένα των


συναλλαγών για να υπολογίσουμε την εμπιστοσύνη ενός κανόνα, διότι
τα υποσύνολα ενός συχνού υποσυνόλου είναι και αυτά συχνά
υποσύνολα.
Π.χ. c(CD → AB) = σ(ABCD)/σ(CD). Αν το ABCD είναι συχνό
υποσύνολο, τότε και το CD είναι συχνό υποσύνολο, άρα έχουμε ήδη
υπολογίσει την υποστήριξή του.
Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 40 / 60
Ανάλυση συσχέτισης (association analysis)
Δημιουργία κανόνων συσχέτισης

Γενικά η εμπιστοσύνη δεν ικανοποιεί την αντι-μονότονη ιδιότητα:


Μπορεί X 0 ⊆ X και Y 0 ⊆ Y ενώ c(X → Y ) > c(X 0 → Y 0 ) και
αντιστρόφως.

Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 41 / 60


Ανάλυση συσχέτισης (association analysis)
Δημιουργία κανόνων συσχέτισης

Γενικά η εμπιστοσύνη δεν ικανοποιεί την αντι-μονότονη ιδιότητα:


Μπορεί X 0 ⊆ X και Y 0 ⊆ Y ενώ c(X → Y ) > c(X 0 → Y 0 ) και
αντιστρόφως.

΄Ομως, η εμπιστοσύνη ικανοποιεί μια αντι-μονότονη ιδιότητα για τους


κανόνες που παράγονται με διαμέριση του ίδιου συνόλου σε δύο
υποσύνολα:
Π.χ. Για τους κανόνες που προκύπτουν από το σύνολο {A, B, C , D}
ισχύει ότι

c(ABC → D) ≥ c(AB → CD) ≥ c(A → BCD)

δηλαδή η εμπιστοσύνη είναι αντι-μονότονη σε σχέση με τον αριθμό των


στοιχείων στο δεξί μέλος του κανόνα (όσο μεγαλώνει ο αριθμός στο
δεξιό μέρος, τόσο μικραίνει η εμπιστοσύνη).
Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 41 / 60
Ανάλυση συσχέτισης (association analysis)
Δημιουργία κανόνων συσχέτισης

Μπορούμε επομένως να χρησιμοποιήσουμε τον παρακάτω κανόνα


κλαδεματος:

΄Εστω X ∪ Y = A. Αν ο κανόνας X → A − X δεν καλύπτει την ελάχιστη


εμπιστοσύνη, τότε και ο κανόνας X 0 → A − X 0 , με X 0 ⊆ X επίσης
καλύπτει την ελάχιστη εμπιστοσύνη.

Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 42 / 60


Ανάλυση συσχέτισης (association analysis)
Δημιουργία κανόνων συσχέτισης

Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 43 / 60


Ανάλυση συσχέτισης (association analysis)
Δημιουργία κανόνων συσχέτισης

Αλγόριθμος δημιουργίας κανόνων συσχέτισης


Αρχικά θεωρούμε όλους τους κανόνες X → Y με |Y | = 1
Μεχρις ότου δεν δημιουργούνται νέοι κανόνες
I Συγχωνεύουμε τα δεξιά μέλη δύο υποψήφιων κανόνων (σβήνοντας
στο αριστερό τα στοχεία που εμφανίζονται στο δεξιό μέρος). Π.χ.
CD → AB και BD → AC δίνει D → ABC .
Δύο τρόποι: Αντίστοιχοι με τις μεθόδους Fk−1 × Fk και Fk−1 × Fk−1
(όμως εδώ εξετάζουμε μόνο τα δεύτερα μέλη).
I Εφαρμόζουμε τον κανόνα κλαδέματος: Αν ο κανόνας X → A − X
δεν καλύπτει την ελάχιστη εμπιστοσύνη, τότε και ο κανόνας
X 0 → A − X 0 , με X 0 ⊆ X επίσης καλύπτει την ελάχιστη εμπιστοσύνη.
Υπενθύμιση: Για τον υπολογισμό της εμπιστοσύνης δεν απαιτείται ξανά
η προσπέλαση των συναλλαγών.

Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 44 / 60


Ανάλυση συσχέτισης (association analysis)
Δημιουργία κανόνων συσχέτισης

Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 45 / 60


Ανάλυση συσχέτισης (association analysis)

Εύρεση συχνών υποσυνόλων (2ο μέρος) (διαφάνειες 47 – 58)

Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 46 / 60


Ανάλυση συσχέτισης (association analysis)
Αναπαράσταση κανόνων συσχέτισης

Ενδέχεται τα συχνά υποσύνολα που παράγονται να είναι πάρα


πολλά. Επομένως, είναι μη πρακτική η κατασκευή όλων αυτών,
καθώς και η παραγωγή όλων των κανόνων συσχετίσεων που
προκύπτουν από αυτά.
Επομένως, τίθεται το ερώτημα ποια συχνά σύνολα πρέπει να
κρατήσουμε; Ποια είναι τα αντιπροσωπευτικά συχνά υποσύνολα;

Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 47 / 60


Ανάλυση συσχέτισης (association analysis)
Αναπαράσταση κανόνων συσχέτισης

΄Εστω οι παρακάτω 15 συναλλαγές από ένα σύνολο 30 στοιχείων.

Αν θεωρήσουμε minsup = 20%, τότε υπάρχουν 3 × (210 − 1) = 3069


συχνά υποσύνολα.
Μερικά συχνά υποσύνολα είναι πλεονάζοντα, αφού έχουν την ίδια
υποστήριξη με τα συχνά υπερσύνολά τους.

Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 48 / 60


Ανάλυση συσχέτισης (association analysis)
Αναπαράσταση κανόνων συσχέτισης

Μια απάντηση στο πρόβλημα των αντιπροσώπων είναι η έννοια του


μεγιστικού συχνού υποσυνόλου.
΄Ενα υποσύνολο ονομάζεται μεγιστικά συχνό (maximally frequent)
ανν κανένα από τα (άμεσα μεγαλύτερα) υπερσύνολά του δεν είναι
συχνό.

Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 49 / 60


Ανάλυση συσχέτισης (association analysis)
Αναπαράσταση κανόνων συσχέτισης

΄Ενα υποσύνολο ονομάζεται μεγιστικά συχνό ανν κανένα από τα


(άμεσα μεγαλύτερα) υπερσύνολά του δεν είναι συχνό.

Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 50 / 60


Ανάλυση συσχέτισης (association analysis)
Αναπαράσταση κανόνων συσχέτισης

Τα μεγιστικά συχνά υποσύνολα προσφέρουν μια συνοπτική


αναπαράσταση όλων των συχνών υποσυνόλων: Συγκεκριμένα,
αποτελούν το μικρότερο σύνολο από το οποίο μπορούμε να
πάρουμε όλα τα συχνά υποσύνολα (αφού όλα τα συχνά σύνολα
είναι υποσύνολά τους).

Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 51 / 60


Ανάλυση συσχέτισης (association analysis)
Αναπαράσταση κανόνων συσχέτισης

Τα μεγιστικά συχνά υποσύνολα προσφέρουν μια συνοπτική


αναπαράσταση όλων των συχνών υποσυνόλων: Συγκεκριμένα,
αποτελούν το μικρότερο σύνολο από το οποίο μπορούμε να
πάρουμε όλα τα συχνά υποσύνολα (αφού όλα τα συχνά σύνολα
είναι υποσύνολά τους).
Υπάρχουν αλγόριθμοι που υπολογίζουν τα μεγιστικά συχνά
υποσύνολα, χωρίς να χρειαστεί να κατασκευάσουν όλα τα δυνατά
υποσύνολά τους.

Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 51 / 60


Ανάλυση συσχέτισης (association analysis)
Αναπαράσταση κανόνων συσχέτισης

Τα μεγιστικά συχνά υποσύνολα προσφέρουν μια συνοπτική


αναπαράσταση όλων των συχνών υποσυνόλων: Συγκεκριμένα,
αποτελούν το μικρότερο σύνολο από το οποίο μπορούμε να
πάρουμε όλα τα συχνά υποσύνολα (αφού όλα τα συχνά σύνολα
είναι υποσύνολά τους).
Υπάρχουν αλγόριθμοι που υπολογίζουν τα μεγιστικά συχνά
υποσύνολα, χωρίς να χρειαστεί να κατασκευάσουν όλα τα δυνατά
υποσύνολά τους.
Η αναπαράσταση αυτή έχει το μειονέκτημα ότι δεν δίνει άμεσες
πληροφορίες για την υποστήριξη των υποσυνόλων τους (η οποία
μας χρειάζεται για την παραγωγή των κανόνων συσχέτισης).

Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 51 / 60


Ανάλυση συσχέτισης (association analysis)
Αναπαράσταση κανόνων συσχέτισης

Μια άλλη συνοπτική αναπαράσταση των υποσυνόλων είναι τα κλειστά


υποσύνολα.
΄Ενα υποσύνολο ονομάζεται κλειστό (closed) αν κανένα από τα
(αμέσως μεγαλύτερα) υπερσύνολά του δεν έχει την ίδια υποστήριξη με
αυτό.
Δηλαδή, όλα τα (αμέσως μεγαλύτερα) υπερσύνολά του έχουν
μικρότερη υποστήριξη από αυτό.

Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 52 / 60


Ανάλυση συσχέτισης (association analysis)
Αναπαράσταση κανόνων συσχέτισης

Μια άλλη συνοπτική αναπαράσταση των υποσυνόλων είναι τα κλειστά


υποσύνολα.
΄Ενα υποσύνολο ονομάζεται κλειστό (closed) αν κανένα από τα
(αμέσως μεγαλύτερα) υπερσύνολά του δεν έχει την ίδια υποστήριξη με
αυτό.
Δηλαδή, όλα τα (αμέσως μεγαλύτερα) υπερσύνολά του έχουν
μικρότερη υποστήριξη από αυτό.

Ισοδύναμα, ένα υποσύνολο ονομάζεται μη κλειστό αν κάποιο από τα


(αμέσως μεγαλύτερα) υπερσύνολά του έχει την ίδια υποστήριξη με
αυτό.

Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 52 / 60


Ανάλυση συσχέτισης (association analysis)
Αναπαράσταση κανόνων συσχέτισης

΄Ενα υποσύνολο ονομάζεται κλειστό (closed) αν κανένα από τα


(αμέσως μεγαλύτερα) υπερσύνολά του δεν έχει την ίδια υποστήριξη με
αυτό.

Κλειστά:

Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 53 / 60


Ανάλυση συσχέτισης (association analysis)
Αναπαράσταση κανόνων συσχέτισης

΄Ενα υποσύνολο ονομάζεται κλειστό (closed) αν κανένα από τα


(αμέσως μεγαλύτερα) υπερσύνολά του δεν έχει την ίδια υποστήριξη με
αυτό.

Κλειστά: B, AB, BD, ABD.

Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 53 / 60


Ανάλυση συσχέτισης (association analysis)
Αναπαράσταση κανόνων συσχέτισης

Τέλος, ένα υποσύνολο ονομάζεται κλειστό (closed) συχνό αν είναι


κλειστό και η υποστήριξή του είναι μεγαλύτερη ή ίση από minsup

Αν minsup = 0.75 τότε:


Κλειστά: B, AB, BD, ABD.
Συχνά κλειστά: B, AB, BD.

Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 54 / 60


Ανάλυση συσχέτισης (association analysis)
Αναπαράσταση κανόνων συσχέτισης

Παρατήρηση
Υπάρχουν αλγόριθμοι για τον αποδοτικό υπολογισμό των κλειστών
συχνών υποσυνόλων.

Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 55 / 60


Ανάλυση συσχέτισης (association analysis)
Αναπαράσταση κανόνων συσχέτισης

Η σχέση ανάμεσα στα κλειστά συχνά και μεγιστικά συχνά υποσύνολα


εμφανίζεται στο παρακάτω διάγραμμα Venn:

Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 56 / 60


Ανάλυση συσχέτισης (association analysis)
Αναπαράσταση κανόνων συσχέτισης

Κλειστά:
Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 57 / 60
Ανάλυση συσχέτισης (association analysis)
Αναπαράσταση κανόνων συσχέτισης

Κλειστά: C , D, E , AC , BC , CE , DE .
Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 57 / 60
Ανάλυση συσχέτισης (association analysis)
Αναπαράσταση κανόνων συσχέτισης

Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 58 / 60


Ανάλυση συσχέτισης (association analysis)

Προτεινόμενη βιβλιογραφία:

Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 59 / 60


Πηγές διαφανειών

P.-N. Tan, M. Steinbach, A. Karpatne, V. Kumar, Introduction to


Data Mining, 2nd edition
Μαθήματα εξόρυξης δεδομένων, Παν. Θεσσαλίας, Πα.Πει.

Ανάλυση δεδομένων και στατιστική Κανόνες συσχέτισης 27 Νοεμβρίου 2019 60 / 60

You might also like