Welcome to Scribd!

Skip carousel

HMDC0 Qu RBT GZZ FRTP Ke Ne Js 6 ZDy 4 B OFKno 9 D50 X O

Uploaded by

dude

0% found this document useful (0 votes)

10 views11 pages

Original Title

HMDC0quRBtGZzFRtpKeNeJs6ZDy4bOFKno9D50xO

Copyright

Available Formats

PDF, TXT or read online from Scribd

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Report this Document

Copyright:

Available Formats

Download as PDF, TXT or read online from Scribd

Flag for inappropriate content

0% found this document useful (0 votes)

10 views11 pages

HMDC0 Qu RBT GZZ FRTP Ke Ne Js 6 ZDy 4 B OFKno 9 D50 X O

Uploaded by

dude

Copyright:

Available Formats

Download as PDF, TXT or read online from Scribd

Flag for inappropriate content

Jump to Page

You are on page 1of 11

Search inside document

Data Mining

Association Analysis: Basic Concepts

and Algorithms

Lecture Notes 10

Association Analysis

© Tan,Steinbach, Kumar Introduction to Data Mining 4/18/2004 1

Effect of Support Distribution

 Many real data sets have skewed support

distribution

Support
distribution of
a retail data set

© Tan,Steinbach, Kumar Introduction to Data Mining 4/18/2004

Effect of Support Distribution

 How to set the appropriate minsup threshold?

– If minsup is set too high, we could miss itemsets
involving interesting rare items (e.g., expensive
products)

– If minsup is set too low, it is computationally

expensive and the number of itemsets is very large

 Using a single minimum support threshold may

not be effective

© Tan,Steinbach, Kumar Introduction to Data Mining 4/18/2004

Multiple Minimum Support

 How to apply multiple minimum supports?

– MS(i): minimum support for item i
– e.g.: MS(Milk)=5%, MS(Coke) = 3%,
MS(Broccoli)=0.1%, MS(Salmon)=0.5%
– MS({Milk, Broccoli}) = min (MS(Milk), MS(Broccoli))
= 0.1%

– Challenge: Support is no longer anti-monotone

 Suppose: Support(Milk, Coke) = 1.5% and
Support(Milk, Coke, Broccoli) = 0.5%

 {Milk,Coke} is infrequent but {Milk,Coke,Broccoli} is frequent

© Tan,Steinbach, Kumar Introduction to Data Mining 4/18/2004

Multiple Minimum Support (Liu 1999)

 Order the items according to their minimum

support (in ascending order)
– e.g.: MS(Milk)=5%, MS(Coke) = 3%,
MS(Broccoli)=0.1%, MS(Salmon)=0.5%
– Ordering: Broccoli, Salmon, Coke, Milk

 Need to modify Apriori such that:

– L1 : set of frequent items
– F1 : set of items whose support is  MS(1)
where MS(1) is mini( MS(i) )
– C2 : candidate itemsets of size 2 is generated from F1
instead of L1

© Tan,Steinbach, Kumar Introduction to Data Mining 4/18/2004

Multiple Minimum Support (Liu 1999)

 Modifications to Apriori:
– In traditional Apriori,
 A candidate (k+1)-itemset is generated by merging two
frequent itemsets of size k
 The candidate is pruned if it contains any infrequent subsets
of size k
– Pruning step has to be modified:
 Prune only if subset contains the first item
 e.g.: Candidate={Broccoli, Coke, Milk} (ordered according to
minimum support)
 {Broccoli, Coke} and {Broccoli, Milk} are frequent but
{Coke, Milk} is infrequent
– Candidate is not pruned because {Coke,Milk} does not contain
the first item, i.e., Broccoli.

© Tan,Steinbach, Kumar Introduction to Data Mining 4/18/2004

Pattern Evaluation

 Association rule algorithms tend to produce too

many rules
– many of them are uninteresting or redundant
– Redundant if {A,B,C}  {D} and {A,B}  {D}
have same support & confidence

 Interestingness measures can be used to

prune/rank the derived patterns

 In the original formulation of association rules,

support & confidence are the only measures used
© Tan,Steinbach, Kumar Introduction to Data Mining 4/18/2004
Computing Interestingness Measure

 Given a rule X  Y, information needed to compute rule

interestingness can be obtained from a contingency table

Contingency table for X  Y

Y Y f11: support of X and Y
X f11 f10 f1+ f10: support of X and Y
X f01 f00 fo+ f01: support of X and Y
f+1 f+0 |T| f00: support of X and Y

Used to define various measures

 support, confidence, lift, Gini,
J-measure, etc.

Drawback of Confidence

Coffee Coffee
Tea 15 5 20
Tea 75 5 80
90 10 100

Association Rule: Tea  Coffee

Confidence= P(Coffee|Tea) = 0.75

but P(Coffee) = 0.9
 Although confidence is high, rule is misleading
 P(Coffee|Tea) = 0.9375

Statistical Independence

 Population of 1000 students

– 600 students know how to swim (S)
– 700 students know how to bike (B)
– 420 students know how to swim and bike (S,B)

– P(SB) = 420/1000 = 0.42

– P(S)  P(B) = 0.6  0.7 = 0.42

– P(SB) = P(S)  P(B) => Statistical independence

– P(SB) > P(S)  P(B) => Positively correlated
– P(SB) < P(S)  P(B) => Negatively correlated
© Tan,Steinbach, Kumar Introduction to Data Mining 4/18/2004
Statistical-based Measures

 Measures that take into account statistical

dependence

Hatcher Solutions
Document29 pages
Hatcher Solutions
handymale30
40% (5)
The Green to Gold Business Playbook: How to Implement Sustainability Practices for Bottom-Line Results in Every Business Function
From Everand
The Green to Gold Business Playbook: How to Implement Sustainability Practices for Bottom-Line Results in Every Business Function
Daniel C. Esty
Rating: 5 out of 5 stars
5/5 (1)
M-Codes: HSFDB 1800/2500C Checkout Form
Document3 pages
M-Codes: HSFDB 1800/2500C Checkout Form
Dawitt Badillo
No ratings yet
Introduction To Data Mining
Document3 pages
Introduction To Data Mining
Quân Phạm
No ratings yet
Module-3 Association Analysis: Data Mining Association Analysis: Basic Concepts and Algorithms
Document34 pages
Module-3 Association Analysis: Data Mining Association Analysis: Basic Concepts and Algorithms
Kavya Gowda
No ratings yet
Module 5 - Frequent Pattern Mining
Document111 pages
Module 5 - Frequent Pattern Mining
aka
No ratings yet
Angles and Triangles Assignment Test 2010
Document72 pages
Angles and Triangles Assignment Test 2010
Muhammad Fadhlan
100% (2)
CFD Applied To Turbo Machinery
Document36 pages
CFD Applied To Turbo Machinery
bakri10101
No ratings yet
Python Code For Artificial Inteligence by Kill@Net
Document211 pages
Python Code For Artificial Inteligence by Kill@Net
Al Malik Al Kamil
100% (1)
Lecture Notes For Chapter 6 Introduction To Data Mining: by Tan, Steinbach, Kumar
Document82 pages
Lecture Notes For Chapter 6 Introduction To Data Mining: by Tan, Steinbach, Kumar
tartus20
No ratings yet
BITS WASE Data Mining Session 5 PDF
Document83 pages
BITS WASE Data Mining Session 5 PDF
Satyanarayan Reddy K
No ratings yet
Lecture Notes For Chapter 7 Introduction To Data Mining: by Tan, Steinbach, Kumar
Document67 pages
Lecture Notes For Chapter 7 Introduction To Data Mining: by Tan, Steinbach, Kumar
Abu Kafsha
No ratings yet
Chap6 Basic Association Analysis
Document82 pages
Chap6 Basic Association Analysis
Tessa Tan
No ratings yet
Lecture Notes For Chapter 6: by Tan, Steinbach, Kumar
Document65 pages
Lecture Notes For Chapter 6: by Tan, Steinbach, Kumar
Shweta Sharma
No ratings yet
9 - Association Rules
Document87 pages
9 - Association Rules
Asmuni Haris
No ratings yet
Association Datascience
Document37 pages
Association Datascience
anon_679166612
No ratings yet
9 - Association Rules
Document44 pages
9 - Association Rules
Putri Anisa
No ratings yet
Rule Mining
Document20 pages
Rule Mining
Neeta Patil
No ratings yet
DMDW Chapter 4
Document28 pages
DMDW Chapter 4
DESSIE FIKIR
No ratings yet
Unit 4 - DA - Frequent Itemsets and Associations
Document31 pages
Unit 4 - DA - Frequent Itemsets and Associations
MASTER PIECE
No ratings yet
Unit 4 - DA - Frequent Itemsets and Clustering-1 (Unit-5)
Document86 pages
Unit 4 - DA - Frequent Itemsets and Clustering-1 (Unit-5)
881Aritra Pal
No ratings yet
Chap6 Basic Association Analysis-2016
Document32 pages
Chap6 Basic Association Analysis-2016
Riskaa Pricilia
No ratings yet
Lecture Notes For Chapter 5 Dan 6: Data Mining Analisis Asosiasi: Konsep Dasar Dan Algoritma
Document28 pages
Lecture Notes For Chapter 5 Dan 6: Data Mining Analisis Asosiasi: Konsep Dasar Dan Algoritma
Fierhan Hasir
No ratings yet
DMDW Chapter 4
Document29 pages
DMDW Chapter 4
Samuel Gesese
No ratings yet
Module III Final
Document68 pages
Module III Final
shilpa veeru
No ratings yet
Association Rule Mining
Document92 pages
Association Rule Mining
Mahadi Hasan Rumi
No ratings yet
CSC 177 Assignment 1 Chetan Nagarkar: Presentation
Document15 pages
CSC 177 Assignment 1 Chetan Nagarkar: Presentation
عمار طعمة
No ratings yet
Business and Economic Statistics: 3. Descriptive Analytics - Preparing The Data
Document12 pages
Business and Economic Statistics: 3. Descriptive Analytics - Preparing The Data
Mohammad Rashman
No ratings yet
Module 3DMDW
Document35 pages
Module 3DMDW
Gowtham P B
No ratings yet
DM Unit-II
Document80 pages
DM Unit-II
Laxmi
No ratings yet
Unit 5 DMBI
Document39 pages
Unit 5 DMBI
Blood Shot 5
No ratings yet
Project Analysis and Evaluation: Dr. Agim Mamuti
Document27 pages
Project Analysis and Evaluation: Dr. Agim Mamuti
Zubair Asam
No ratings yet
Data Mining-Knowledge Presentation 2: Prof. Sin-Min Lee
Document54 pages
Data Mining-Knowledge Presentation 2: Prof. Sin-Min Lee
dillu
No ratings yet
Association Rule Mining: - Algorithms For Frequent Itemset Mining - Apriori - Elcat - FP-Growth
Document45 pages
Association Rule Mining: - Algorithms For Frequent Itemset Mining - Apriori - Elcat - FP-Growth
akshayhazari8281
No ratings yet
DWM Unit 5 Mining Frequent Patterns and Cluster Analysis
Document15 pages
DWM Unit 5 Mining Frequent Patterns and Cluster Analysis
Sp
No ratings yet
CSE 385 - Data Mining and Business Intelligence - Lecture 02
Document67 pages
CSE 385 - Data Mining and Business Intelligence - Lecture 02
Islam Ashraf
No ratings yet
DM Mod3 PDF
Document96 pages
DM Mod3 PDF
shilpa veeru
No ratings yet
Fundamentals of Statistics
Document87 pages
Fundamentals of Statistics
Raven Synthx
100% (1)
Bab 05 - Association Mining
Document58 pages
Bab 05 - Association Mining
Mochammad Adji Firmansyah
No ratings yet
Chapter 10 Association Rule
Document41 pages
Chapter 10 Association Rule
nadia friza
No ratings yet
ch17
Document30 pages
ch17
sethnurulmn
No ratings yet
DSC 7001: Statistical & Quantitative Methods: Kim Menezes Email: Kim - Menezes@gdgoenka - Ac.in
Document21 pages
DSC 7001: Statistical & Quantitative Methods: Kim Menezes Email: Kim - Menezes@gdgoenka - Ac.in
varsha
No ratings yet
Lecture Notes For Chapter 6 Introduction To Data Mining: by Tan, Steinbach, Kumar
Document82 pages
Lecture Notes For Chapter 6 Introduction To Data Mining: by Tan, Steinbach, Kumar
Sanjeet Kumar
No ratings yet
Association Rule Mining: Iyad Batal
Document37 pages
Association Rule Mining: Iyad Batal
rajeswarikannan
No ratings yet
Week 11 Chapter 15
Document35 pages
Week 11 Chapter 15
No Promises
No ratings yet
Unit 2
Document60 pages
Unit 2
Shashwat Mishra
No ratings yet
Econ2209 Week 1
Document28 pages
Econ2209 Week 1
jinglebelliez
No ratings yet
Data Mining Unit-Ii
Document29 pages
Data Mining Unit-Ii
sairgvn47
No ratings yet
Unit 4 - Association Analysis
Document12 pages
Unit 4 - Association Analysis
Anand Kumar Bhagat
No ratings yet
W13 Cost Analysis
Document51 pages
W13 Cost Analysis
Arizky Margo Agung
No ratings yet
Economics and The Market: Powerpoint Slides T/A Principles of Macroeconomics by Bernanke, Olekalns and Frank
Document46 pages
Economics and The Market: Powerpoint Slides T/A Principles of Macroeconomics by Bernanke, Olekalns and Frank
snowiiee
No ratings yet
An Overview of Probability
Document79 pages
An Overview of Probability
Marvin Luis Montilla
No ratings yet
3900286
Document23 pages
3900286
Imran Shaikh
No ratings yet
Data Mining & Business Intelligence (2170715) : Unit-5 Concept Description and Association Rule Mining
Document39 pages
Data Mining & Business Intelligence (2170715) : Unit-5 Concept Description and Association Rule Mining
tfybc
No ratings yet
Lecture Notes For Chapter 4 Introduction To Data Mining: by Tan, Steinbach, Kumar
Document104 pages
Lecture Notes For Chapter 4 Introduction To Data Mining: by Tan, Steinbach, Kumar
Samia Elsayed
No ratings yet
Data Mining Association Rules
Document54 pages
Data Mining Association Rules
suyash
No ratings yet
Data Analytics Unit 4
Document22 pages
Data Analytics Unit 4
Aditi Jaiswal
No ratings yet
Intro To Analytics Slides P1
Document110 pages
Intro To Analytics Slides P1
keerthini P
No ratings yet
Chapter 5 Association Rules FP Tree
Document26 pages
Chapter 5 Association Rules FP Tree
Ashutosh Arora
No ratings yet
Cost Accounting: Sixteenth Edition, Global Edition
Document34 pages
Cost Accounting: Sixteenth Edition, Global Edition
Rania baraba
No ratings yet
CS 6823 Data Mining: Classification Decision Tree
Document39 pages
CS 6823 Data Mining: Classification Decision Tree
Scandy Rammy
No ratings yet
Presentations PPT Unit-5 29042019034847AM
Document39 pages
Presentations PPT Unit-5 29042019034847AM
IMMORTAL'S PLAYZ
No ratings yet
L5 - Association Rule Mining
Document17 pages
L5 - Association Rule Mining
Veena Tella
No ratings yet
CH 19
Document30 pages
CH 19
Phát TN
No ratings yet
Association Rules Explained
Document10 pages
Association Rules Explained
Naga Rakesh
No ratings yet
ECS315 2014 Postmidterm U1 PDF
Document89 pages
ECS315 2014 Postmidterm U1 PDF
Arima Ackerman
No ratings yet
AISC 360-10 Example 001
Document7 pages
AISC 360-10 Example 001
Bùi Văn Hợp
No ratings yet
Graphical Presentation: Grade 7
Document12 pages
Graphical Presentation: Grade 7
Bernaliza Caser
No ratings yet
Fuzzy AHP
Document17 pages
Fuzzy AHP
msdpardis
No ratings yet
Thermodynamics 1 - Energy, Energy Transfer, and General Energy Analysis
Document21 pages
Thermodynamics 1 - Energy, Energy Transfer, and General Energy Analysis
Florasaurus17
100% (1)
Facts About Similar Triangles
Document2 pages
Facts About Similar Triangles
Mithilesh Kumar Yadav
No ratings yet
HW3 2023
Document3 pages
HW3 2023
BlooD LOVER
No ratings yet
English MEIS Book List Final
Document18 pages
English MEIS Book List Final
Shaima Rose
0% (1)
7.chapter 5 Column PDF
Document73 pages
7.chapter 5 Column PDF
Seventh Sky
No ratings yet
(HEAD-DRIVEN PHRASE STRUCTURE GRAMMAR) 259-MüllerEtAl-2021 PDF
Document1,632 pages
(HEAD-DRIVEN PHRASE STRUCTURE GRAMMAR) 259-MüllerEtAl-2021 PDF
Glennette Almora
No ratings yet
Module 35 - Deflections Tor
Document3 pages
Module 35 - Deflections Tor
Clark Sibi
No ratings yet
Math Lesson Reflection 3
Document2 pages
Math Lesson Reflection 3
Fatima
No ratings yet
LabReport 2 FORCE TABLE AND VECTOR ADDITION OF FORCES
Document13 pages
LabReport 2 FORCE TABLE AND VECTOR ADDITION OF FORCES
Charles Flake
No ratings yet
Mathematical Modeling of Chemical Processes
Document27 pages
Mathematical Modeling of Chemical Processes
Yonas Addam
No ratings yet
13 Normal
Document10 pages
13 Normal
Wong Yi Kai
No ratings yet
Yield Line Analysis For Slabs Module12 Lesson30
Document29 pages
Yield Line Analysis For Slabs Module12 Lesson30
Ajit Singh Rathore
100% (2)
Prospectus Man Ipu I University
Document40 pages
Prospectus Man Ipu I University
b_csr
No ratings yet
Mathematics: First Quarter WEEK 2 - Module 2
Document19 pages
Mathematics: First Quarter WEEK 2 - Module 2
h1dan
100% (1)
UT Dallas Syllabus For Se2370.501 05s Taught by Weichen Wong (Wew021000)
Document1 page
UT Dallas Syllabus For Se2370.501 05s Taught by Weichen Wong (Wew021000)
UT Dallas Provost's Technology Group
No ratings yet
Fully Convolutional Networks For Semantic Segmentation
Document17 pages
Fully Convolutional Networks For Semantic Segmentation
Ostap
No ratings yet
Assignment 6 Solar ERGY 420
Document14 pages
Assignment 6 Solar ERGY 420
Mostafa Ahmed Zein
No ratings yet
Vinco Lesson Plan CO2 2022 Edited
Document8 pages
Vinco Lesson Plan CO2 2022 Edited
Adrianalover Rescofanatics
No ratings yet
23GM - Roberto Retamal Datamine
Document23 pages
23GM - Roberto Retamal Datamine
Roberto Retamal
No ratings yet
Wiki Diffie-Hellman
Document7 pages
Wiki Diffie-Hellman
Berry Hoekstra
No ratings yet
Sylibus Year2 6
Document8 pages
Sylibus Year2 6
misqueserasera
No ratings yet