Introduction to Data Mining

Motivation: Why data mining? Motivation: Why data mining? What is data mining? Data Mining: On what kind of data? Data mining functionality Are all the patterns interesting? Classification of data mining systems Classification of data mining systems Major issues in data mining

Davide Anguita SmartLab  DIBE – Facoltà di Ingegneria Università degli Studi di Genova U i ità d li St di di G

Slides from:  J.Han & M.Kamber “Data Mining: Concepts and Techniques”


J.Han & M.Kamber “Data Mining: Concepts and Techniques”


Motivation:  “Necessity is the Mother of Invention”
Data explosion problem  Data explosion problem
Automated data collection tools and mature database  technology lead to tremendous amounts of data stored in  databases, data warehouses and other information  repositories          

Evolution of Database Technology
Data collection, database creation, IMS and network DBMS

Relational data model, relational DBMS implementation

RDBMS, advanced data models (extended‐relational, OO,  deductive, etc.) and application‐oriented DBMS (spatial,  deductive etc ) and application oriented DBMS (spatial scientific, engineering, etc.)

We are drowning in data, but starving for knowledge!  Solution: Data warehousing and data mining S l i D h i dd i i
Data warehousing and on‐line analytical processing Extraction of interesting knowledge (rules, regularities,   patterns, constraints) from data in large databases
J.Han & M.Kamber “Data Mining: Concepts and Techniques”

Data mining and data warehousing, multimedia databases,  and Web databases
J.Han & M.Kamber “Data Mining: Concepts and Techniques”

Business Intelligence – Ingegneria Gestionale ‐ UNIGE


 improved underwriting. previously  unknown and potentially useful) information or patterns from  data in large databases Why Data Mining? — Potential Applications y pp Database analysis and decision support Market analysis and management target marketing.Kamber “Data Mining: Concepts and Techniques” 8 Business Intelligence – Ingegneria Gestionale ‐ UNIGE 2 . quality control. business intelligence.Kamber “Data Mining: Concepts and Techniques” 6 Market Analysis and Management  Where are the data sources for analysis? Credit card transactions.Introduction to Data Mining What Is Data Mining? Data mining (knowledge discovery in databases):              Extraction of interesting (non‐trivial. Risk analysis and management Forecasting. documents) and Web analysis. customer relation management.  customer complaint calls. cross selling. etc. implicit. etc. customer retention.Han & M. data dredging. knowledge  extraction. Identifying customer requirements identifying the best products for different customers use prediction to find what factors will attract new  customers Determine customer purchasing patterns over time Conversion of single to a joint bank account: marriage. loyalty cards. C i f i l j i b k i Cross‐market analysis Associations/co‐relations between product sales Prediction based on the association information J.  extraction data/pattern analysis data archeology data dredging information harvesting. email.Han & M.Han & M. Intelligent query answering J. market segmentation Alternative names and their “inside stories”:  Data mining: a misnomer? Knowledge discovery(mining) in databases (KDD).  market basket  analysis. discount coupons. plus (public) lifestyle studies Market Analysis and Management  p g Customer profiling data mining can tell you what types of customers buy what  products (clustering or classification) Target marketing Find clusters of “model” customers who share the same  characteristics: interest.Kamber “Data Mining: Concepts and Techniques” 7 Provides summary information various multidimensional summary reports statistical summary information (data central tendency and  variation) J.Kamber “Data Mining: Concepts and Techniques” 5 Other Applications Text mining (news group. income level. data archeology.    Expert systems or small ML/statistical programs J.Han & M. etc.  competitive analysis Fraud detection and management dd i d What is not data mining? (Deductive) query processing. spending habits. data/pattern analysis.

 duration. and broke a  multimillion dollar fraud. trend  analysis. J. assists. and fouls) to gain competitive advantage for  New York Knicks and Miami Heat Detecting telephone fraud Telephone call model: destination of the call.Kamber “Data Mining: Concepts and Techniques” 11 Business Intelligence – Ingegneria Gestionale ‐ UNIGE 3 .  Astronomy JPL and the Palomar Observatory discovered 22 quasars with the  help of data mining Internet Web Surf‐Aid Internet Web Surf Aid IBM Surf‐Aid applies data mining algorithms to Web access logs  for market‐related pages to discover customer preference and  behavior pages.Han & M. etc. etc.Han & M.Han & M. Approach use historical data to build models of fraudulent behavior and  use data mining to help identify similar instances Resource planning: summarize and compare the resources and spending Examples auto insurance: detect a group of people who stage accidents to  collect on insurance ll i money laundering: detect suspicious money transactions (US  Treasury's Financial Crimes Enforcement Network)  medical insurance: detect professional patients and ring of  doctors 9 Competition: monitor competitors and market directions  group customers into classes and a class‐based pricing procedure set pricing strategy in a highly competitive market J.Han & M.Introduction to Data Mining Corporate Analysis and Risk  Management p g Finance planning cash flow analysis and prediction cross‐sectional and time series analysis (financial‐ratio.  telecommunications (phone card fraud). analyzing effectiveness of Web marketing. time of  day or week.Kamber “Data Mining: Concepts and Techniques” 10 Fraud Detection and Management  Detecting inappropriate medical treatment Australian Health Insurance Commission identifies that in many  cases blanket screening tests were requested  (save Australian  $1m/yr). retail. Other Applications Sports IBM Advanced Scout analyzed NBA game statistics (shots  blocked. especially mobile phones. etc.Kamber “Data Mining: Concepts and Techniques” 12 Retail Analysts estimate that 38% of retail shrink is due to dishonest  employees. British Telecom identified discrete groups of callers with frequent  British Telecom identified discrete groups of callers with frequent intra‐group calls.) Fraud Detection and Management  Applications widely used in health care.  Analyze patterns that deviate from an expected  norm. credit card services.Kamber “Data Mining: Concepts and Techniques” J. J.  improving Web site organization.

Kamber “Data Mining: Concepts and Techniques” 13 J. invariant  representation.Introduction to Data Mining Data Mining: A KDD Process Pattern Evaluation Steps of a KDD Process  Learning the application domain: relevant prior knowledge and goals of application Data mining: the core of knowledge discovery process. association.Han & M. g g yp Data Mining Task-relevant Data Data Warehouse Data Cleaning Data Integration Databases Selection Creating a target data set: data selection Data cleaning and preprocessing: (may take 60% of effort!) Data reduction and transformation: Find useful features. MDA Data Sources Paper. Database Systems.Han & M.Kamber “Data Mining: Concepts and Techniques” 14 Data Mining and Business Intelligence  Increasing potential to support business decisions Architecture of a Typical Data Mining System Graphical user interface Pattern evaluation Data mining engine Making Decisions Data Presentation Visualization Techniques Data Mining Information Discovery Data Exploration Statistical Analysis. transformation. Information Providers. dimensionality/variable reduction. classification.Han & M. removing redundant patterns. OLTP J.Han & M. Querying and Reporting End User Business Analyst Data Analyst Database or data  warehouse server Data cleaning & data integration Filtering DBA Knowledge‐base Data Warehouses / Data Marts OLAP.Kamber “Data Mining: Concepts and Techniques” Databases J. etc. Choosing functions of data mining  summarization. Choosing the mining algorithm(s) Data mining: search for patterns of interest Pattern evaluation and knowledge presentation visualization. regression. Use of discovered knowledge J. Files. clustering.Kamber “Data Mining: Concepts and Techniques” Data Warehouse 16 15 Business Intelligence – Ingegneria Gestionale ‐ UNIGE 4 .

 rare events analysis Trend and evolution analysis Trend and deviation:  regression analysis Sequential pattern mining..  cluster houses to find distribution patterns Clustering based on the principle: maximizing the intra‐class  similarity and minimizing the interclass similarity J.Han & M. summarize.g. or classify cars based on  gas mileage Presentation: decision‐tree. “PC”)  [support = 2%. wet regions Association (correlation and causality) Multi‐dimensional vs.Han & M.Kamber “Data Mining: Concepts and Techniques” 17 Data Mining Functionalities (1) Concept description: Characterization and discrimination Concept description: Characterization and discrimination Generalize.Han & M..29K”) ‐> buys(X.  e.Kamber “Data Mining: Concepts and Techniques” 18 Data Mining Functionalities (2) Classification and Prediction   Finding models (functions) that describe and distinguish classes  or concepts for future prediction E..g. classify countries based on climate. “20. dry vs. neural network Prediction: Predict some unknown or missing numerical values  Data Mining Functionalities (3) Outlier analysis Outlier analysis Outlier: a data object that does not comply with the general  behavior of the data It can be considered as noise or exception but is quite  useful in fraud detection.. “software”) [1%. periodicity analysis Similarity‐based analysis Cluster analysis Cluster analysis Class label is unknown: Group data to form new classes. “20. e.Han & M. “computer”) ‐> contains(T. and contrast data characteristics.Kamber “Data Mining: Concepts and Techniques” 20 Business Intelligence – Ingegneria Gestionale ‐ UNIGE 5 . confidence = 60%] contains(T.g. classification rule..29”) ^ income(X.  75%] J.Kamber “Data Mining: Concepts and Techniques” 19 Other pattern‐directed or statistical analyses J.Introduction to Data Mining Data Mining: On What Kind of Data? Relational databases Data warehouses Transactional databases Advanced DB and information repositories Object‐oriented and object‐relational databases Spatial databases Time‐series data and temporal data i i d d ld Text databases and multimedia databases Heterogeneous and legacy databases WWW J. single‐dimensional association  age(X.

 e. valid on new or test data with some  degree of certainty. novelty. J.g. etc. focused  mining Can We Find All and Only Interesting Patterns? gp p Find all the interesting patterns: Completeness Can a data mining system find all the interesting patterns? Association vs.  unexpectedness.Kamber “Data Mining: Concepts and Techniques” 21 Search for only interesting patterns: Optimization Can a data mining system find only the interesting  patterns? Approaches First general all the patterns and then filter out the uninteresting  ones. Subjective: based on user’s belief in the data. f Suggested approach: Human‐centered.Han & M. classification vs.. Generate only the interesting patterns—mining query  optimization J.. different classifications Data Mining Visualization Information Science J.  support. novel. subjective interestingness measures: Objective vs subjective interestingness measures: Objective: based on statistics and structures of patterns.Han & M.Kamber “Data Mining: Concepts and Techniques” 24 Business Intelligence – Ingegneria Gestionale ‐ UNIGE 6 . potentially useful. not all of them are interesting. actionability. etc.Han & M. confidence.Kamber “Data Mining: Concepts and Techniques” 22 Data Mining: Confluence of Multiple Disciplines  Database  Technology Statistics Data Mining: Classification Schemes General functionality General functionality Descriptive data mining  Predictive data mining Machine Learning Different views.Han & M.g. or validates some  hypothesis that a user seeks to confirm  Objective vs.Introduction to Data Mining Are All the “Discovered” Patterns Interesting? A data mining system/query may generate thousands of  patterns. clustering Interestingness measures: A pattern is interesting if it is easily  understood by humans.Kamber “Data Mining: Concepts and Techniques” Other Disciplines 23 Kinds of databases to be mined Kinds of knowledge to be discovered g Kinds of techniques utilized Kinds of applications adapted J. query‐based. e.

 time‐series. telecommunication. deviation and outlier analysis. fraud analysis.  trend. . heterogeneous.Kamber “Data Mining: Concepts and Techniques” 26 Major Issues in Data Mining (1) Mining methodology and user interaction Mining different kinds of knowledge in databases Interactive mining of knowledge at multiple levels of abstraction Incorporation of background knowledge Data mining query languages and ad‐hoc data mining Expression and visualization of data mining results Handling noise and incomplete data Pattern evaluation: the interestingness problem Major Issues in Data Mining (2) Issues relating to the diversity of data types Handling relational and complex types of data Mining information from heterogeneous databases and global  information systems (WWW) Issues related to applications and social impacts Application of discovered knowledge Domain‐specific data mining tools Intelligent query answering I t lli t i Process control and decision making Performance and scalability Efficiency and scalability of data mining algorithms Parallel. Multiple/integrated functions and mining at multiple levels On‐line analytical mining data integration of mining and OLAP technologies Interactive mining multi‐level knowledge Necessity of mining knowledge and patterns at different levels of  abstraction by drilling/rolling. pivoting. DNA mining.  spatial. classification. machine learning. and privacy J.Han & M. etc. slicing/dicing. transactional.Introduction to Data Mining A Multi‐Dimensional View of Data Mining Classification Databases to be mined Relational. visualization. integrity. OLAP Mining: An Integration of  Data Mining and Data Warehousing g y . semi‐tight‐coupling. multi‐media. loose‐coupling. data warehouse (OLAP). Data warehouse systems coupling No coupling. Web mining. DBMS. discrimination.  statistics. etc. etc.Han & M. stock  market analysis.  etc. tight‐coupling Knowledge to be mined Characterization. neural network. first clustering and then association J. active. Weblog analysis. object‐relational. clustering. J. abstraction by drilling/rolling pivoting slicing/dicing etc Techniques utilized Database‐oriented. object‐oriented. y p g Data mining systems. banking.Kamber “Data Mining: Concepts and Techniques” 28 Business Intelligence – Ingegneria Gestionale ‐ UNIGE 7 . etc. text.Kamber “Data Mining: Concepts and Techniques” 27 Integration of the discovered knowledge with existing  knowledge: A knowledge fusion problem Protection of data security. legacy. Applications adapted Retail. WWW.Kamber “Data Mining: Concepts and Techniques” 25 Integration of multiple mining functions Characterized classification.Han & M.Han & M. association. distributed and incremental mining methods J.

 etc. Classification of data mining systems Major issues in data mining J. J. outlier and trend analysis. Piatetsky‐Shapiro and W. g databases Current: highly distributed. uncontrolled generation and use of a  wide variety of DNA data Data cleaning and data integration methods developed in data  mining will help 31 Some application domains Biomedical and DNA data analysis d l d d l Financial data analysis Retail industry Telecommunication industry J. cytosine (C). and SIGKDD  Explorations More conferences on data mining PAKDD.Han & M.Kamber “Data Mining: Concepts and Techniques” 29 A Brief History of Data Mining Society 1989 IJCAI Workshop on Knowledge Discovery in Databases  (Piatetsky‐Shapiro) (Pi k Sh i ) Knowledge Discovery in Databases (G. 1991) 1991‐1994 Workshops on Knowledge Discovery in Databases Advances in Knowledge Discovery and Data Mining (U. effective data mining  tools for particular applications Biomedical Data Mining and DNA  Analysis DNA sequences:  4 basic building blocks (nucleotides): adenine  (A).Kamber “Data Mining: Concepts and Techniques” J. and R. data integration.Han & M. Uthurusamy. data  selection. 1996) 1995‐1998 International Conferences on Knowledge Discovery in  Databases and Data Mining (KDD’95‐98) Journal of Data Mining and Knowledge Discovery (1997) 1998 ACM SIGKDD.Introduction to Data Mining Summary Data mining: discovering interesting patterns from large  amounts of data f A natural evolution of database technology. P. Fayyad. pattern evaluation. etc.  with wide applications A KDD process includes data cleaning. data mining. and  knowledge presentation Mining can be performed in a variety of information  repositories i i Data mining functionalities: characterization. G. transformation.  Piatetsky‐Shapiro. PKDD. guanine (G).Han & M.000 genes Tremendous number of ways that the nucleotides can be  ordered and sequenced to form distinct genes Semantic integration of heterogeneous.  classification. clustering.Han & M. SIAM‐Data Mining. Smyth.   ( ) ( ) ( ) ( ) Gene: a sequence of hundreds of individual nucleotides  arranged in a particular order Humans have around 100.Kamber “Data Mining: Concepts and Techniques” 32 Business Intelligence – Ingegneria Gestionale ‐ UNIGE 8 .  Frawley. in great demand. and thymine (T).Kamber “Data Mining: Concepts and Techniques” 30 Data Mining Applications Data mining is a young discipline with wide and diverse  Data mining is a young discipline with wide and diverse applications There is still a nontrivial gap between general principles of  data mining and domain‐specific. distributed genome  g g . association. (IEEE) ICDM. SIGKDD’1999‐2001 conferences.

 by  sector.Han & M.Han & M.Han & M.  g p ( g.  classification. min. trend etc Association analysis: identification of co‐occurring gene sequences Most diseases are not triggered by a single gene but by a combination  of genes acting together Association analysis may help determine the kinds of genes that are  likely to co‐occur together in target samples Path analysis: linking genes to different disease development stages Different genes may become active at different stages of the disease Develop pharmaceutical interventions that target the different stages  separately Loan payment prediction/consumer credit policy analysis feature selection and attribute relevance ranking Loan payment performance Consumer credit rating 33 Visualization tools and genetic data analysis J. linkage analysis. etc. to identify customer groups or  associate a new customer to an appropriate customer group Data Mining for Retail Industry Retail industry: huge amounts of data on sales. diseased  and healthy) Identify gene sequence patterns that play roles in various diseases  Data Mining for Financial Data  Analysis Financial data collected in banks and financial institutions are  often relatively complete. etc. outlier analysis.g.  trend.Han & M.Kamber “Data Mining: Concepts and Techniques” 36 Detection of money laundering and other financial crimes integration from multiple DBs (e. customer  Retail industry: huge amounts of data on sales. by region. and sequential pattern analysis tools (find  unusual access sequences) J. classification.Kamber “Data Mining: Concepts and Techniques” 35 Business Intelligence – Ingegneria Gestionale ‐ UNIGE 9 . etc. and by other factors Access statistical information such as max. bank transactions. total.. federal/state crime history DBs) Tools: data visualization. and of high quality Design and construction of data warehouses for  multidimensional data analysis and data mining View the debt and revenue changes by month. decision trees. .. Applications of retail data mining  Identify customer buying behaviors Discover customer shopping patterns and trends Improve the quality of customer service Achieve better customer retention and satisfaction Enhance goods consumption ratios Design more effective goods transportation and distribution  policies J. average. clustering  tools.Kamber “Data Mining: Concepts and Techniques” 34 Financial Data Mining g g Classification and clustering of customers for targeted  marketing multidimensional segmentation by nearest‐neighbor.Introduction to Data Mining DNA Analysis: Examples Similarity search and comparison among DNA sequences Compare the frequently occurring patterns of each class (e. customer shopping history. reliable.g.Kamber “Data Mining: Concepts and Techniques” J.

 customers. often massive  hi h id i h d di f l f i representations of data Visual Data Mining: the process of discovering implicit but useful  knowledge from large data sets using visualization techniques Purpose of Visualization Gain insight into an information space by mapping data onto graphical  primitives Provide qualitative overview of large data sets Search for patterns. time.  location of caller. J. products. irregularities.Kamber “Data Mining: Concepts and Techniques” 38 Purchase recommendation and cross‐reference of items J.Han & M. Industry (2) Fraudulent pattern analysis and the identification of unusual  patterns Identify potentially fraudulent users and their atypical usage  patterns Detect attempts to gain fraudulent entry to customer accounts Discover unusual patterns which may need special attention Visual Data Mining Visualization: use of computer graphics to create visual images  which aid in the understanding of complex. etc. location of callee.Kamber “Data Mining: Concepts and Techniques” J. Promote the sales of specific services Improve the availability of particular services in a region Use of visualization tools in telecommunication data analysis J.Han & M. trends. duration. structure. Industry (1) A rapidly expanding and highly competitive industry and a  A rapidly expanding and highly competitive industry and a great demand for data mining Understand the business involved Identify telecommunication patterns Catch fraudulent activities Make better use of resources Improve the quality of service Analysis of the effectiveness of sales campaigns Customer retention: Analysis of customer loyalty Use customer loyalty card information to register sequences of  purchases of particular customers h f ti l t Use sequential pattern mining to investigate changes in customer  consumption or loyalty Suggest adjustments on the pricing and variety of goods Multidimensional analysis of telecommunication data Intrinsically multidimensional: calling‐time. by month.Kamber “Data Mining: Concepts and Techniques” 37 Data Mining for Telecomm. Provide a visual proof of computer representations derived 39 Multidimensional association and sequential pattern analysis Find usage patterns for a set of communication services by  Fi d f f i i i b customer group. Help find interesting regions and suitable parameters for further  quantitative analysis. etc.Han & M. relationships  among data.Han & M.Kamber “Data Mining: Concepts and Techniques” 40 Business Intelligence – Ingegneria Gestionale ‐ UNIGE 10 .Introduction to Data Mining Data Mining in Retail Industry:  Examples Design and construction of data warehouses based on the  benefits of data mining Multidimensional analysis of sales.  and region Data Mining for Telecomm. type of call.

Han & M.Han & M.Kamber “Data Mining: Concepts and Techniques” 42 Data Mining Result Visualization Presentation of the results or knowledge obtained from  Presentation of the results or knowledge obtained from data mining in visual forms Examples Scatter plots and boxplots (obtained from descriptive data  mining) Decision trees Association rules Clusters Outliers Generalized rules J.Han & M.Kamber “Data Mining: Concepts and Techniques” 44 Business Intelligence – Ingegneria Gestionale ‐ UNIGE 11 .Kamber “Data Mining: Concepts and Techniques” 41 J.Kamber “Data Mining: Concepts and Techniques” 43 Visualization of data mining results in  SAS Enterprise Miner: scatter plots J.Han & M.Introduction to Data Mining Visual Data Mining & Data Visualization Integration of visualization and data mining Integration of visualization and data mining data visualization data mining result visualization data mining process visualization interactive visual data mining Boxplots from Statsoft: multiple  variable combinations Data visualization Data in a database or data warehouse can be viewed  at different levels of granularity or abstraction as different combinations of attributes or dimensions Data can be presented in various visual forms J.

 integrated.Kamber “Data Mining: Concepts and Techniques” 48 Business Intelligence – Ingegneria Gestionale ‐ UNIGE 12 .  preprocessed.Kamber “Data Mining: Concepts and Techniques” 45 J.0 Visualization of a decision tree in  MineSet 3. and mined Which method is selected at data mining Where the results are stored How they may be viewed J.Kamber “Data Mining: Concepts and Techniques” 47 J.Han & M.Han & M.Han & M.Introduction to Data Mining Visualization of association rules in  MineSet 3.Han & M.Kamber “Data Mining: Concepts and Techniques” 46 Visualization of cluster groupings in  IBM Intelligent Miner Data Mining Process Visualization Presentation of the various processes of data mining in  Presentation of the various processes of data mining in visual forms so that users can see How the data are extracted From which database or data warehouse they are extracted How the selected data are cleaned.0 J.

Han & M. transform patterns into sound and music and  listen to pitches.Kamber “Data Mining: Concepts and Techniques” 52 Business Intelligence – Ingegneria Gestionale ‐ UNIGE 13 .Introduction to Data Mining Visualization of Data Mining  Processes by Clementine Interactive Visual Data Mining Using visualization tools in the data mining process to  Using visualization tools in the data mining process to help users make smart data mining decisions  Example Display the data distribution in a set of attributes using  colored sectors or columns (depending on whether the  whole space is represented by either a circle or a set of  columns) Use the display to which sector should first be selected for  classification and where a good split point for this sector  may be J. rhythms. tune.Kamber “Data Mining: Concepts and Techniques” 49 J.Kamber “Data Mining: Concepts and Techniques” 50 Interactive Visual Mining by Perception‐ Based Classification (PBC) Audio Data Mining g p Uses audio signals to indicate the patterns of data or the  features of data mining results An interesting alternative to visual mining An inverse task of mining audio (such as music) databases  which is to find patterns from audio data Visual data mining may disclose interesting patterns using  graphical displays. but requires users to concentrate on  graphical displays but requires users to concentrate on watching patterns  Instead.Han & M.Kamber “Data Mining: Concepts and Techniques” 51 J.Han & M. and melody in order to  identify anything interesting or unusual J.Han & M.

 or present you medical care  number when visiting the doctor The amount of the available data is increasing.Han & M. and data  mining systems will be more affordable Multiple personal uses Mine your family's medical history to identify genetically‐related  medical conditions  Mine the records of the companies you deal with  Mine data on stocks and company performance.Introduction to Data Mining Is Data Mining a Hype or Will It Be Persistent? Data mining is a technology Data mining is a technology Technological life cycle Innovators Early adopters Chasm Early majority y j y Late majority Laggards Life Cycle of Technology Adoption Data mining is at Chasm!? Data mining is at Chasm!? Existing data mining systems are too generic Need business‐specific data mining solutions and smooth  integration of business logic with data mining functions J. there is also potential for misuse J. join a club.Han & M. and “Big Business” are carefully  watching you Profiling information is collected every time  You use your credit card. fill out a contest entry form. rent a video. supermarket loyalty card.Kamber “Data Mining: Concepts and Techniques” 53 J. subscribe to a  magazine.Han & M. Invisible data mining Build data mining functions into many intelligent tools J. “Big Banker”. magazine rent a video join a club fill out a contest entry form You pay for prescription drugs. etc.Kamber “Data Mining: Concepts and Techniques” 56 Business Intelligence – Ingegneria Gestionale ‐ UNIGE 14 . reply to an Internet newsgroup.Kamber “Data Mining: Concepts and Techniques” 55 Collection of personal data may be beneficial for companies  and consumers. or  frequent flyer card. or apply for any of the above You surf the Web.Han & M. debit card.Kamber “Data Mining: Concepts and Techniques” 54 Data Mining: Merely Managers' Business or  Everyone's? Data mining will surely be an important tool for managers’  decision making Bill Gates: “Business @ the speed of thought” Social Impacts: Threat to Privacy  and Data Security? g p y y Is data mining a threat to privacy and data security? “Big Brother”.

  openness. and accountability Purpose specification and use limitation Openness: Individuals have the right to know what information is  collected about them.Han & M. data  warehouse systems.Kamber “Data Mining: Concepts and Techniques” 59 Business Intelligence – Ingegneria Gestionale ‐ UNIGE 15 .Kamber “Data Mining: Concepts and Techniques” 58 Trends in Data Mining (2) g g g Standardization of data mining language A standard will facilitate systematic development. and promote the education and use of data  mining systems in industry and society Visual data mining New methods for mining complex types of data More research is required towards the integration of data mining  More research is required towards the integration of data mining methods with existing data analysis techniques for the complex  types of data Web mining Privacy protection and information security in data mining J. quality. purpose. who has access to the data.Kamber “Data Mining: Concepts and Techniques” 57 Integration of data mining with database systems. and Web database systems J. individual participation. improve  interoperability.Han & M.Introduction to Data Mining Protect Privacy and Data Security Fair information practices International guidelines for data privacy protection Cover aspects relating to data collection. use. and how the  data are being used data are being used Trends in Data Mining (1) Application exploration Application exploration development of application‐specific data mining system Invisible data mining (mining as built‐in function) Scalable data mining methods Constraint‐based mining: use of constraints to guide data  mining systems in their search for interesting patterns Develop and use data security‐enhancing techniques Blind signatures Biometric encryption Anonymous databases J.Han & M.

Sign up to vote on this title
UsefulNot useful