You are on page 1of 12

Chapitre 2.

Analyse d’associations

Ali BERRICHI, Département d’informatique, Faculté des Sciences, UMBBoumerdes, aberrichi@umbb.dz, ali.berrichi@gmail.com
1
Analyse d’associations
• Apparue années 1990’ :

• Découvrir des relations intéressantes cachées dans de


grands ensembles de données.

• Les relations découvertes peuvent être représentées sous


la forme de:
− Règles d'association ou
− Ensembles d'articles fréquents.

2
Le problème de découverte de règles d’association

• Etant donné un ensemble de transactions, trouver des


règles qui prédisent l’occurrence d’un article (Item), en se
basant sur les occurrences des autres articles (Items).

Exemple: Panier de la ménagère (Market-Basket Transactions)

TID Items

1 Pain, Lait
2 Pain, Couches, Coca, Œufs
Exemple de règles d’association :
3 Lait, Couches, Coca, Café {Couches}  {Coca},
4 Pain, Lait, Couches, Coca {Lait, Pain}  {Œufs, Café},
5 Pain, Lait, Couches, Café
{Coca, Pain}  {Lait},
.. …..
.. ……
3
Pourquoi analyser ces données ?
− Apprendre davantage sur le comportement d'achat de leurs
clients.
− Soutenir une variété d'activités, telles que des promotions
marketing, la gestion des stocks et la gestion de la relation
client.
−Exemple : {Couches bébés} {Coca}:
−une relation forte entre la vente de couches -bébés et Coca,
−car beaucoup de clients qui achètent des couches achètent
aussi coca-cola.
−Ce type de règles peut aider à identifier de nouvelles
opportunités de ventes croisées des produits aux clients.

- Applications aux autres domaines : la bioinformatique, le


diagnostic médical, le Webmining, et l’analyse de données
scientifiques, etc.
4
Bref aperçu sur l’état de la recherche
• IEEE- 2014-Analyzing Alzheimer's disease gene expression dataset using
clustering and association rule mining
• IEEE- 2015-Analysing road accident data using association rule mining
• IEEE-2009-Research of Association Rules in Analyzing Technique of Football
Match
• SD - 2005-A novel manufacturing defect detection method using association rule
mining techniques
• SD - 2014 -Pattern mining in tourist attraction visits through association rule
learning on bluetooth tracking data a case study of Ghent belgium
• SD - 2015 Association Rule Mining in Korean Herbal Prescriptions of the Early
20th Century
• SD - 2016 - Application Of Association Rules In Clinical Data Mining A Case Study
For Identifying Adverse Drug Reactions
• Etc.
Deux questions clés

1. Découvrir des modèles à partir d’un ensemble


volumineux de données de transactions peut
être coûteux en calcul.

2. Certains des modèles découverts sont


potentiellement fallacieux, parce qu'ils peuvent
se produire tout simplement par hasard.

6
Définition: Itemset Fréquent
 Itemset (Ensemble d’articles)
– Une collection d’un ou plusieurs items
• Exemple: {Lait, Pain, Couches bébé}
– k-itemset TID Items
• Un itemset qui contient k items 1 Pain, Lait
• Compteur de Support () 2 Pain, Couches, Coca, Oeufs
– Fréquence d’occurrence d’un itemset 3 Lait, Couches, Coca, Café
– Exemple: ({Lait, Pain, Couches}) = 2 4 Pain, Lait, Couches, Coca
• Support 5 Pain, Lait, Couches, Café

– Fraction de transactions qui contiennent


un itemset
– Ex. s({Lait, Pain, Couches}) = 2/5
• Itemset Fréquent
– Un itemset ayant un support supérieur ou
égal à un seuil minsup.
Définition: Règle d’association
 Règle d’association TID Items

– Une expression d’implication de la forme 1 Pain, Lait


X  Y, où X and Y sont des itemsets 2 Pain, Couches, Coca, Oeufs
– Exemple: 3 Lait, Couches, Coca, Café
{Lait, Couches}  {Coca} 4 Pain, Lait, Couches, Coca
5 Pain, Lait, Couches, Café
 Métriques d’Evaluation des règles
– Support (s)
 Fraction de transactions qui Example:
contiennent X et Y tous les deux. {Lait , Couches}  Coca
– Confiance (c)
Mesure la fréquence d’articles  (Lait , Couches, Coca ) 2

s   0.4
dans Y apparaissant dans les |T| 5
transactions qui contiennent X.
 (Lait, Couches, Coca ) 2
c   0.67
 (Lait , Couches ) 3
La tâche de fouille de Règles d’association
• Etant donné un ensemble de transactions T,
l’objectif de fouille de règles d’association est de
trouver toutes les règles ayant :
– support ≥ seuil minsup
– confidence ≥ seuil minconf

• L’approche naïve (Brute-force approach):


– Lister toutes les règles d’association possibles
– Calculer le support et la confiance de chaque règle
– Elaguer (éliminer) les règles qui ne satisfont pas les
seuils minsup et minconf
 Prohibitive en termes de temps!
La tâche de fouille de Règles d’association
TID Items
1 Pain, Lait Exemple de Règles:
2 Pain, Couches, Coca, Oeufs {Lait,Couches}  {Coca} (s=0.4, c=0.67)
3 Lait, Couches, Coca, Café {Lait, Coca}  {Couches} (s=0.4, c=1.0)
4 Pain, Lait, Couches, Coca {Couches, Coca}  {Lait} (s=0.4, c=0.67)
5 Pain, Lait, Couches, Café {Coca}  {Lait, Couches} (s=0.4, c=0.67)
{Couches}  {Lait, Coca} (s=0.4, c=0.5)
{Lait}  {Couches, Coca} (s=0.4, c=0.5)
Observations:
• Toutes les règles ci-dessus sont des partitions binaires du même itemset:
{Lait, Couches, Coca}
• Règles extraites du m^ itemset: support identique- confiance différentes

•Si l’itemset = pas fréquent  toutes les 6 règles candidates = écartées


sans calculer leurs valeurs de confiance.

• Donc, nous devons décomposer le problème en deux sous tâches


majeures: Itemsets fréquents ____ règles d’association fortes
Fouille de Règles d’association
• Approche en deux étapes:
1. Génération d’Itemsets Fréquents
– Générer tous les itemsets ayant un support  minsup

2. Génération des Règles


– Générer les règles de haute confiance à partir de chaque
itemset fréquent, où chaque règle est une partition binaire
d’un itemset fréquent

• Les calculs pour la génération des itemsets


fréquents sont généralement plus coûteux que
ceux pour la génération des règles.
Génération d’itemsets fréquents
Etant donné d items, il null
y a 2d itemsets
candidats possibles
A B C D E

AB AC AD AE BC BD BE CD CE DE

ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE

ABCD ABCE ABDE ACDE BCDE

ABCDE

You might also like