Chap - Analyse D'associations - Partie 01-18-19

Chapitre 2.
Analyse d’associations
Ali BERRICHI, Département d’informatique, Faculté des Sciences, UMBBoumerdes, aberrichi@umbb.dz, ali.berrichi@gmail.com
1
Analyse d’associations
• Apparue années 1990’ :
• Découvrir des relations intéressantes cachées dans de

grands ensembles de données.
• Les relations découvertes peuvent être représentées sous

la forme de:
− Règles d'association ou
− Ensembles d'articles fréquents.
2
Le problème de découverte de règles d’association
• Etant donné un ensemble de transactions, trouver des

règles qui prédisent l’occurrence d’un article (Item), en se
basant sur les occurrences des autres articles (Items).
Exemple: Panier de la ménagère (Market-Basket Transactions)
TID Items
1 Pain, Lait
2 Pain, Couches, Coca, Œufs
Exemple de règles d’association :
3 Lait, Couches, Coca, Café {Couches}  {Coca},
4 Pain, Lait, Couches, Coca {Lait, Pain}  {Œufs, Café},
5 Pain, Lait, Couches, Café
{Coca, Pain}  {Lait},
.. …..
.. ……
3
Pourquoi analyser ces données ?
− Apprendre davantage sur le comportement d'achat de leurs
clients.
− Soutenir une variété d'activités, telles que des promotions
marketing, la gestion des stocks et la gestion de la relation
client.
−Exemple : {Couches bébés} {Coca}:
−une relation forte entre la vente de couches -bébés et Coca,
−car beaucoup de clients qui achètent des couches achètent
aussi coca-cola.
−Ce type de règles peut aider à identifier de nouvelles
opportunités de ventes croisées des produits aux clients.
- Applications aux autres domaines : la bioinformatique, le

diagnostic médical, le Webmining, et l’analyse de données
scientifiques, etc.
4
Bref aperçu sur l’état de la recherche
• IEEE- 2014-Analyzing Alzheimer's disease gene expression dataset using
clustering and association rule mining
• IEEE- 2015-Analysing road accident data using association rule mining
• IEEE-2009-Research of Association Rules in Analyzing Technique of Football
Match
• SD - 2005-A novel manufacturing defect detection method using association rule
mining techniques
• SD - 2014 -Pattern mining in tourist attraction visits through association rule
learning on bluetooth tracking data a case study of Ghent belgium
• SD - 2015 Association Rule Mining in Korean Herbal Prescriptions of the Early
20th Century
• SD - 2016 - Application Of Association Rules In Clinical Data Mining A Case Study
For Identifying Adverse Drug Reactions
• Etc.
Deux questions clés
1. Découvrir des modèles à partir d’un ensemble

volumineux de données de transactions peut
être coûteux en calcul.
2. Certains des modèles découverts sont

potentiellement fallacieux, parce qu'ils peuvent
se produire tout simplement par hasard.
6
Définition: Itemset Fréquent
 Itemset (Ensemble d’articles)
– Une collection d’un ou plusieurs items
• Exemple: {Lait, Pain, Couches bébé}
– k-itemset TID Items
• Un itemset qui contient k items 1 Pain, Lait
• Compteur de Support () 2 Pain, Couches, Coca, Oeufs
– Fréquence d’occurrence d’un itemset 3 Lait, Couches, Coca, Café
– Exemple: ({Lait, Pain, Couches}) = 2 4 Pain, Lait, Couches, Coca
• Support 5 Pain, Lait, Couches, Café
– Fraction de transactions qui contiennent

un itemset
– Ex. s({Lait, Pain, Couches}) = 2/5
• Itemset Fréquent
– Un itemset ayant un support supérieur ou
égal à un seuil minsup.
Définition: Règle d’association
 Règle d’association TID Items
– Une expression d’implication de la forme 1 Pain, Lait

X  Y, où X and Y sont des itemsets 2 Pain, Couches, Coca, Oeufs
– Exemple: 3 Lait, Couches, Coca, Café
{Lait, Couches}  {Coca} 4 Pain, Lait, Couches, Coca
5 Pain, Lait, Couches, Café
 Métriques d’Evaluation des règles
– Support (s)
 Fraction de transactions qui Example:
contiennent X et Y tous les deux. {Lait , Couches}  Coca
– Confiance (c)
Mesure la fréquence d’articles  (Lait , Couches, Coca ) 2

s   0.4
dans Y apparaissant dans les |T| 5
transactions qui contiennent X.
 (Lait, Couches, Coca ) 2
c   0.67
 (Lait , Couches ) 3
La tâche de fouille de Règles d’association
• Etant donné un ensemble de transactions T,
l’objectif de fouille de règles d’association est de
trouver toutes les règles ayant :
– support ≥ seuil minsup
– confidence ≥ seuil minconf
• L’approche naïve (Brute-force approach):

– Lister toutes les règles d’association possibles
– Calculer le support et la confiance de chaque règle
– Elaguer (éliminer) les règles qui ne satisfont pas les
seuils minsup et minconf
 Prohibitive en termes de temps!
La tâche de fouille de Règles d’association
TID Items
1 Pain, Lait Exemple de Règles:
2 Pain, Couches, Coca, Oeufs {Lait,Couches}  {Coca} (s=0.4, c=0.67)
3 Lait, Couches, Coca, Café {Lait, Coca}  {Couches} (s=0.4, c=1.0)
4 Pain, Lait, Couches, Coca {Couches, Coca}  {Lait} (s=0.4, c=0.67)
5 Pain, Lait, Couches, Café {Coca}  {Lait, Couches} (s=0.4, c=0.67)
{Couches}  {Lait, Coca} (s=0.4, c=0.5)
{Lait}  {Couches, Coca} (s=0.4, c=0.5)
Observations:
• Toutes les règles ci-dessus sont des partitions binaires du même itemset:
{Lait, Couches, Coca}
• Règles extraites du m^ itemset: support identique- confiance différentes
•Si l’itemset = pas fréquent  toutes les 6 règles candidates = écartées

sans calculer leurs valeurs de confiance.
• Donc, nous devons décomposer le problème en deux sous tâches

majeures: Itemsets fréquents ____ règles d’association fortes
Fouille de Règles d’association
• Approche en deux étapes:
1. Génération d’Itemsets Fréquents
– Générer tous les itemsets ayant un support  minsup
2. Génération des Règles

– Générer les règles de haute confiance à partir de chaque
itemset fréquent, où chaque règle est une partition binaire
d’un itemset fréquent
• Les calculs pour la génération des itemsets

fréquents sont généralement plus coûteux que
ceux pour la génération des règles.
Génération d’itemsets fréquents
Etant donné d items, il null
y a 2d itemsets
candidats possibles
A B C D E
AB AC AD AE BC BD BE CD CE DE
ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE
ABCD ABCE ABDE ACDE BCDE
ABCDE

Chap - Analyse D'associations - Partie 01-18-19

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Chap - Analyse D'associations - Partie 01-18-19

Uploaded by

Copyright:

Available Formats

Chapitre 2.

• Découvrir des relations intéressantes cachées dans de

• Les relations découvertes peuvent être représentées sous

• Etant donné un ensemble de transactions, trouver des

Exemple: Panier de la ménagère (Market-Basket Transactions)

- Applications aux autres domaines : la bioinformatique, le

1. Découvrir des modèles à partir d’un ensemble

2. Certains des modèles découverts sont

– Fraction de transactions qui contiennent

– Une expression d’implication de la forme 1 Pain, Lait

• L’approche naïve (Brute-force approach):

•Si l’itemset = pas fréquent  toutes les 6 règles candidates = écartées

• Donc, nous devons décomposer le problème en deux sous tâches

2. Génération des Règles

• Les calculs pour la génération des itemsets

ABCD ABCE ABDE ACDE BCDE

You might also like