Welcome to Scribd!

Data Preprocessing Techniques

Uploaded by

0% found this document useful (0 votes)

20 views3 pages

Data preprocessing is an important technique in data mining that transforms raw data into a clean and efficient format. It involves three main steps: data cleaning to handle missing and noisy data, data transformation such as normalization and discretization, and data reduction techniques like dimensionality reduction to reduce data size and improve efficiency of mining algorithms. The overall goal of preprocessing is to prepare data for mining models and algorithms.

Original Description:

Methods of Data Preprocessing

Original Title

Data Preprocessing

Copyright

Available Formats

PDF, TXT or read online from Scribd

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Report this Document

Copyright:

Available Formats

Download as PDF, TXT or read online from Scribd

Flag for inappropriate content

0% found this document useful (0 votes)

20 views3 pages

Data Preprocessing Techniques

Uploaded by

DrArun Kumar Choudhary

Copyright:

Available Formats

Download as PDF, TXT or read online from Scribd

Flag for inappropriate content

Jump to Page

You are on page 1of 3

Search inside document

Lecture Notes

DATA MINING DATA WAREHOUSING

Unit-2: DATA PREPROCESSING
Preprocessing in Data Mining:
Data preprocessing is a data mining technique which is used to transform the raw
data in a useful and efficient format.

Steps Involved in Data Preprocessing:

1. Data Cleaning:
The data can have many irrelevant and missing parts. To handle this part,
data cleaning is done. It involves handling of missing data, noisy data etc.
 (a). Missing Data:
This situation arises when some data is missing in the data. It can be
handled in various ways.
Some of them are:
1. Ignore the tuples:
This approach is suitable only when the dataset we have is quite
large and multiple values are missing within a tuple.
2. Fill the Missing values:
There are various ways to do this task. You can choose to fill the
missing values manually, by attribute mean or the most probable
value.
 (b). Noisy Data:
Noisy data is a meaningless data that can’t be interpreted by
machines.It can be generated due to faulty data collection, data entry
errors etc. It can be handled in following ways :

1. Binning Method:
This method works on sorted data in order to smooth it. The
whole data is divided into segments of equal size and then
various methods are performed to complete the task. Each
segmented is handled separately. One can replace all data in a
segment by its mean or boundary values can be used to
complete the task.
2. Regression:
Here data can be made smooth by fitting it to a regression
function.The regression used may be linear (having one
independent variable) or multiple (having multiple independent
variables).
3. Clustering:
This approach groups the similar data in a cluster. The outliers
may be undetected or it will fall outside the clusters.
2. Data Transformation:
This step is taken in order to transform the data in appropriate forms
suitable for mining process. This involves following ways:
1. Normalization:
It is done in order to scale the data values in a specified range (-1.0 to
1.0 or 0.0 to 1.0)
2. Attribute Selection:
In this strategy, new attributes are constructed from the given set of
attributes to help the mining process.
3. Discretization:
This is done to replace the raw values of numeric attribute by interval
levels or conceptual levels.
4. Concept Hierarchy Generation:
Here attributes are converted from level to higher level in hierarchy.
For Example-The attribute “city” can be converted to “country”.
3. Data Reduction:
Since data mining is a technique that is used to handle huge amount of
data. While working with huge volume of data, analysis became harder in
such cases. In order to get rid of this, we uses data reduction technique. It
aims to increase the storage efficiency and reduce data storage and
analysis costs.
The various steps to data reduction are:
1. Data Cube Aggregation:
Aggregation operation is applied to data for the construction of the
data cube.
2. Attribute Subset Selection:
The highly relevant attributes should be used, rest all can be
discarded. For performing attribute selection, one can use level of
significance and p- value of the attribute.the attribute having p-value
greater than significance level can be discarded.
3. Numerosity Reduction:
This enable to store the model of data instead of whole data, for
example: Regression Models.
4. Dimensionality Reduction:
This reduce the size of data by encoding mechanisms.It can be lossy
or lossless. If after reconstruction from compressed data, original data
can be retrieved, such reduction are called lossless reduction else it is
called lossy reduction. The two effective methods of dimensionality
reduction are:Wavelet transforms and PCA (Principal Componenet
Analysis).

Data Preprocessing in Data Mining
Document4 pages
Data Preprocessing in Data Mining
Dhananjai Saini
No ratings yet
Simple Data Science (R)
From Everand
Simple Data Science (R)
Narayana Nemani
Rating: 5 out of 5 stars
5/5 (1)
Proje 1 Fren Diski
Document32 pages
Proje 1 Fren Diski
EDA KIYICIOGLU
No ratings yet
Data Preprocessing
Document3 pages
Data Preprocessing
Im' Possible
No ratings yet
Unit 2
Document6 pages
Unit 2
Dakshkohli31 Kohli
No ratings yet
Lec 2 Preparing The Data
Document4 pages
Lec 2 Preparing The Data
Alia butt
No ratings yet
Notes - Unit01 - Data Science and Big Data Analytics
Document7 pages
Notes - Unit01 - Data Science and Big Data Analytics
Atharva Gokhare
No ratings yet
Ques 1.give Some Examples of Data Preprocessing Techniques?: Assignment - DWDM Submitted By-Tanya Sikka 1719210284
Document7 pages
Ques 1.give Some Examples of Data Preprocessing Techniques?: Assignment - DWDM Submitted By-Tanya Sikka 1719210284
Sachin Chauhan
No ratings yet
R Programming Unit-2
Document29 pages
R Programming Unit-2
padma
No ratings yet
Data Preprocessing Techniques for Data Mining
Document5 pages
Data Preprocessing Techniques for Data Mining
Akash Sudan
No ratings yet
Unit 2 DWDM
Document14 pages
Unit 2 DWDM
brijendersinghkhalsa
No ratings yet
1.data Mining Functionalities
Document14 pages
1.data Mining Functionalities
Sai Deekshith
No ratings yet
DATA PRE-PROCESSING TECHNIQUES
Document9 pages
DATA PRE-PROCESSING TECHNIQUES
Ashitha Ashi
No ratings yet
Assignment-4 MLDS Lab
Document4 pages
Assignment-4 MLDS Lab
Amruta More
No ratings yet
Data Mining: Extracting Knowledge from Large Amounts of Data
Document5 pages
Data Mining: Extracting Knowledge from Large Amounts of Data
Dipankar Gogoi
No ratings yet
IV-cse DM Viva Questions
Document10 pages
IV-cse DM Viva Questions
Imtiyaz Ali
No ratings yet
DS Unit 1 Essay Answers.
Document18 pages
DS Unit 1 Essay Answers.
Savitha Elluru
No ratings yet
Datamining Unit 2 Part2
Document11 pages
Datamining Unit 2 Part2
Bhasutkar Mahesh
No ratings yet
Exp1 Data Visualization: 1.line Chart 2.area Chart 3.bar Chart 4.histogram
Document6 pages
Exp1 Data Visualization: 1.line Chart 2.area Chart 3.bar Chart 4.histogram
Nihar Chalke
No ratings yet
M-Unit-2 R16
Document21 pages
M-Unit-2 R16
JAGADISH M
No ratings yet
Unit-3 Data Preprocessing
Document7 pages
Unit-3 Data Preprocessing
Khal Drago
No ratings yet
Assignment 1: Aim: Preprocess Data Using Python. Objective
Document7 pages
Assignment 1: Aim: Preprocess Data Using Python. Objective
Abhinay Surve
No ratings yet
Data Mining
Document5 pages
Data Mining
Namra Sarfraz
No ratings yet
Stages in Data Mining
Document11 pages
Stages in Data Mining
Yusuf mohammed
No ratings yet
Data Mining
Document135 pages
Data Mining
Dewsun Riseon
No ratings yet
Data Preprocessing Techniques
Document18 pages
Data Preprocessing Techniques
It's Me
No ratings yet
Data Mining Unit-1 Lect-4
Document49 pages
Data Mining Unit-1 Lect-4
Pooja Reddy
No ratings yet
Unit 2: Big Data Analytics
Document45 pages
Unit 2: Big Data Analytics
Prabha Joshi
No ratings yet
UNIT - 2 .DataScience 04.09.18
Document53 pages
UNIT - 2 .DataScience 04.09.18
Raghavendra Rao
No ratings yet
Data Science2
Document7 pages
Data Science2
Kaushal
No ratings yet
Major Issues in Data Mining Research
Document5 pages
Major Issues in Data Mining Research
Gaurav Jaiswal
No ratings yet
Module 2
Document8 pages
Module 2
Sayan Majumder
No ratings yet
Assignment 02
Document9 pages
Assignment 02
dilhani
No ratings yet
Data Science - Module 1.3
Document34 pages
Data Science - Module 1.3
Amisha Shetty
No ratings yet
Chapter Two - Data Mining
Document8 pages
Chapter Two - Data Mining
Bonsa Mesganaw
No ratings yet
Bi Ut2 Answers
Document23 pages
Bi Ut2 Answers
Suhasi Gadge
No ratings yet
Question Bank DMC
Document28 pages
Question Bank DMC
achal sahare
No ratings yet
Unit - 2 Machine Learning
Document42 pages
Unit - 2 Machine Learning
Nishtha Singh
No ratings yet
Data Preparation
Document17 pages
Data Preparation
Joyce Choy
No ratings yet
Sathyapriya Thesis NEW
Document47 pages
Sathyapriya Thesis NEW
Mukesh Lavan
No ratings yet
Untitled Document
Document5 pages
Untitled Document
Noel Ony
No ratings yet
Recommender System - Module 2 - Data Mining Techniques in Recommender System
Document58 pages
Recommender System - Module 2 - Data Mining Techniques in Recommender System
DainikMitra
No ratings yet
Recommender System - Module 2 - Data Mining Techniques in Recommender System
Document58 pages
Recommender System - Module 2 - Data Mining Techniques in Recommender System
DainikMitra
No ratings yet
Major Issues in Data Mining
Document9 pages
Major Issues in Data Mining
Gaurav Jaiswal
No ratings yet
Data and DW Lab Manual Updated
Document44 pages
Data and DW Lab Manual Updated
Vineet Aggarwal
No ratings yet
Unit-Ii DW&DM
Document24 pages
Unit-Ii DW&DM
the sinha's
No ratings yet
Data Mining Process
Document2 pages
Data Mining Process
akash
No ratings yet
DSBDL Asg 2 Write Up
Document4 pages
DSBDL Asg 2 Write Up
sdaradeyt
No ratings yet
DM&W File
Document18 pages
DM&W File
Prerna Rawal
No ratings yet
BDA Class1
Document33 pages
BDA Class1
Neeraj Sivadas K
No ratings yet
Data Mining
Document7 pages
Data Mining
Mano
No ratings yet
Data Mining and Data Analysis UNIT-1 Notes For Print
Document22 pages
Data Mining and Data Analysis UNIT-1 Notes For Print
padma
No ratings yet
Data Reduction Techniques
Document10 pages
Data Reduction Techniques
Vinjamuri Joshi Manohar
No ratings yet
UNIT-III Data Warehouse and Minig Notes MDU
Document42 pages
UNIT-III Data Warehouse and Minig Notes MDU
neha srivastava
No ratings yet
Data Pre-Processing and Application of Data Mining in Pharma Industry
Document10 pages
Data Pre-Processing and Application of Data Mining in Pharma Industry
Paritosh Kumar
No ratings yet
Unit-2 Lecture Notes
Document33 pages
Unit-2 Lecture Notes
Sravani Gunnu
No ratings yet
Chap 1 Data Preprocessing
Document17 pages
Chap 1 Data Preprocessing
Ma. Jessabel Azurin
No ratings yet
Data mining functionalities and issues in 40 characters
Document17 pages
Data mining functionalities and issues in 40 characters
Vanshika Chauhan
No ratings yet
# Understanding DM Issues
Document34 pages
# Understanding DM Issues
Dan Masanga
No ratings yet
Data Warehousing and Data Mining
Document18 pages
Data Warehousing and Data Mining
lskannan47
No ratings yet
Data Preprocessing Methods for Data Warehousing and Mining
Document23 pages
Data Preprocessing Methods for Data Warehousing and Mining
Amit Parab
No ratings yet
Datamining - Primitives - Languages - System Arch
Document50 pages
Datamining - Primitives - Languages - System Arch
DrArun Kumar Choudhary
No ratings yet
CH 7discretization and Concept Hierarchy Generation
Document7 pages
CH 7discretization and Concept Hierarchy Generation
Shubham Malpani
No ratings yet
Data Preprocessing
Document0 pages
Data Preprocessing
marija_26
No ratings yet
Unit1: Lecture Notes Topic: Data Mining Architecture
Document4 pages
Unit1: Lecture Notes Topic: Data Mining Architecture
DrArun Kumar Choudhary
No ratings yet
Apriori Algorithm
Document28 pages
Apriori Algorithm
DrArun Kumar Choudhary
No ratings yet
Module 2
Document3 pages
Module 2
warkisa file
No ratings yet
The Shift in The Role of Teachers in The Learning
Document10 pages
The Shift in The Role of Teachers in The Learning
ZULYVASQUEZVIVAS
No ratings yet
Capitalism As Religion
Document11 pages
Capitalism As Religion
A Palumbo
No ratings yet
Business Administration - Honours
Document2 pages
Business Administration - Honours
MEGHA KARWA
No ratings yet
Peplau's Interpersonal Relations Theory Power Point
Document12 pages
Peplau's Interpersonal Relations Theory Power Point
rossaniza Ramlan
No ratings yet
LESSON-PLAN MATHEMATICS-6 Q1 W9-Demo
Document3 pages
LESSON-PLAN MATHEMATICS-6 Q1 W9-Demo
Mini Dachshund
No ratings yet
Language Across The Currriculum - English - For Printing
Document216 pages
Language Across The Currriculum - English - For Printing
Priyadharsinee jayakumar
No ratings yet
Lesson 1 3
Document10 pages
Lesson 1 3
Zariyah Isla Riego
No ratings yet
The Challenge of Cultural Relativism and Global Citizen Values.
Document4 pages
The Challenge of Cultural Relativism and Global Citizen Values.
Jhezell Ortega
No ratings yet
Module 3 - Activity Sheet
Document5 pages
Module 3 - Activity Sheet
Rhandzo Cambia
No ratings yet
Elm 375 Formal Observation Reflection Boron Nadia
Document2 pages
Elm 375 Formal Observation Reflection Boron Nadia
api-581255149
No ratings yet
W3 - Physics Education
Document21 pages
W3 - Physics Education
nurul najwa
No ratings yet
Purposive Communication Syllabus Template
Document14 pages
Purposive Communication Syllabus Template
Adrian Lequiron
No ratings yet
English 6 Cot - Mae
Document8 pages
English 6 Cot - Mae
Eun Gi Hye
No ratings yet
Modified Module Unit 3
Document11 pages
Modified Module Unit 3
BoBBy JusWA
No ratings yet
Reacting to Critical Issues in English 9
Document3 pages
Reacting to Critical Issues in English 9
Cecilia Quintana
No ratings yet
COPSOQ III. Guidelines and Questionnaire.: International Network
Document14 pages
COPSOQ III. Guidelines and Questionnaire.: International Network
KONSTANTINOS
No ratings yet
LP-II Oral Questions
Document2 pages
LP-II Oral Questions
TECHMASTER HUB
No ratings yet
Practical Research 2
Document6 pages
Practical Research 2
Ash Satoshi
No ratings yet
Job Description
Document1 page
Job Description
Vejandla Venkata Sai Kumar 4-Year B.Tech. Chemical Engineering
No ratings yet
Republic of the Philippines Battery Exam 2022
Document7 pages
Republic of the Philippines Battery Exam 2022
Audrey Alonzo Lagunilla
No ratings yet
Formative Assessment 1-IBDP Year 1 - Chemistry
Document2 pages
Formative Assessment 1-IBDP Year 1 - Chemistry
Kritin Reddy
No ratings yet
Relationship Between Patients Perceptions of Care.3
Document9 pages
Relationship Between Patients Perceptions of Care.3
inno semu
No ratings yet
History of AI
Document1 page
History of AI
Sandro Cafagna
No ratings yet
Implementing a biometric tracking system in Karnataka health centers
Document2 pages
Implementing a biometric tracking system in Karnataka health centers
Joshilin Herhuay Inca
No ratings yet
Controlling Extraneous Variables in Experiments
Document10 pages
Controlling Extraneous Variables in Experiments
Junayla Estares Azcarraga
No ratings yet
Health Education-Q4-5
Document2 pages
Health Education-Q4-5
Jve Buenconsejo
100% (5)
Chapter 8 CHN Reviewer
Document2 pages
Chapter 8 CHN Reviewer
Jessa Mae Barquilla
100% (1)
Antiphon's Treatise "On Truth
Document4 pages
Antiphon's Treatise "On Truth
PazZen
No ratings yet