Welcome to Scribd!

Missing Data Handling

Uploaded by

0% found this document useful (0 votes)

20 views8 pages

There are two primary types of missing data values: 1. Values missing at random 2. Values missing not at random The type of variable (categorical or numerical) and how the imputation method affects the distribution of the data should be considered when determining the best imputation method. Common imputation methods include mean/median/mode imputation for numerical or categorical variables respectively, random sampling imputation, and inserting arbitrary values like -1 or 999 for missing numerical values.

Original Description:

Original Title

missing data handling

Copyright

Available Formats

DOCX, PDF, TXT or read online from Scribd

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Report this Document

Copyright:

Available Formats

Download as DOCX, PDF, TXT or read online from Scribd

Flag for inappropriate content

0% found this document useful (0 votes)

20 views8 pages

Missing Data Handling

Uploaded by

Nivrutti Manjula Ambaji Patil

Copyright:

Available Formats

Download as DOCX, PDF, TXT or read online from Scribd

Flag for inappropriate content

Jump to Page

You are on page 1of 8

Search inside document

What causes missing data values?

The causes of missing values can be categorized into two primary

types:

A. Value missing at random

B. Value missing, but not at random

 What is the type of the variable (data type) of the feature?

 How does the imputation method affect the distribution of the

data?

Data type

Data types can be identified commonly as Numerical and Categorical.

These data types affect what method we should use. For example, it
wouldn’t be wise to replace a categorical variable with the mean of the
variables or replace a numerical variable with a categorical method.
1 . Complete removal of rows or columns of missing values

This is one of the most intuitive and simple methods. As it implies, it

includes removing all rows or columns that have missing values
present.
 Note : This
is because the removal of rows and columns could mean
losing important information about the data along with the missing
values.

 Columns of missing values can be completely removed when the

NULL values are significantly more than the other values present.
In this situation, it wouldn’t make sense to keep these columns, as
they hold little or no descriptive information about the data.

2 .Mean/Median & Mode Imputation

Mean imputation works better if the distribution is normally-
distributed or has a Gaussian distribution, while median imputation is
preferable for skewed distribution(be it right or left)
3 For categorical variables

Mode imputation means replacing missing values by the mode, or

the most frequent- category value.
 Note : It distorts the distribution of the dataset

4 Random Sampling Imputation :

`
This method involves substituting the missing values with values
extracted from the original variable. It can be applied to both
numerical and categorical variables. It’s also used when the values are
missing at random
It does not distort the distribution

Other methods to use, especially if the values

are not missing at random

Arbitrary values imputation

This involves using an arbitrary value to replace the missing values.

One can think of them as placeholders for the missing values. This is a
method used for numerical variables
The most commonly used numbers for this method are -1, 0,99, -999
(or other combinations of 9s). Deciding on which arbitrary number to
use depends on the range of your data’s distribution. For example, if
your data is between 1–100, it wouldn’t be wise to use 1 or 99 because
those values may already exist in your data, and these placeholder
numbers are usually used to flag missing values.

Missing Category Imputation :

This method is used for categorical data. It involves labeling all

missing values in a categorical column as ‘missing’.

1 Descriptive Statistics - Unlocked
Document18 pages
1 Descriptive Statistics - Unlocked
NidaOkuyazTüregün
No ratings yet
Module 3 Descriptive Statistics Final
Document15 pages
Module 3 Descriptive Statistics Final
Jordine Umayam
100% (1)
777G Off-Highway Truck Electrical System
Document6 pages
777G Off-Highway Truck Electrical System
lalo11715
100% (1)
ATRA 41TE Rebuild (Chrysler A 604)
Document115 pages
ATRA 41TE Rebuild (Chrysler A 604)
Patricio Bacigalupi
100% (4)
Statistical Machine Learning
Document12 pages
Statistical Machine Learning
Deva Hema
100% (1)
C4 Descriptive Statistics
Document34 pages
C4 Descriptive Statistics
NAVANEETH
No ratings yet
Descriptive Statistic
Document37 pages
Descriptive Statistic
Fahad Mushtaq
No ratings yet
Practical Engineering, Process, and Reliability Statistics
From Everand
Practical Engineering, Process, and Reliability Statistics
Mark Allen Durivage
No ratings yet
Summary Statistics and Visualization Techniques To Explore
Document30 pages
Summary Statistics and Visualization Techniques To Explore
Marshil Shibu
No ratings yet
Chemrite 530
Document2 pages
Chemrite 530
ICPL-RWP
No ratings yet
PIPE-FLO Professional Release Notes
Document3 pages
PIPE-FLO Professional Release Notes
brujula27
100% (1)
Questions Stats and Trix
Document39 pages
Questions Stats and Trix
Aakriti Jain
No ratings yet
8614 (1) - 1
Document17 pages
8614 (1) - 1
Saqib Khalid
No ratings yet
Data Science Notes
Document37 pages
Data Science Notes
Balvinder Dhillon
No ratings yet
Analytics Advanced Assignment Mubassir Surve
Document7 pages
Analytics Advanced Assignment Mubassir Surve
Mubassir Surve
No ratings yet
1.2 - Data Processing
Document25 pages
1.2 - Data Processing
Ranveer Sehedeva
No ratings yet
Chapter Exercises:: Chapter 5:utilization of Assessment Data
Document6 pages
Chapter Exercises:: Chapter 5:utilization of Assessment Data
Jessa Mae Cantillo
No ratings yet
Lecture 7-9 Measure of Central Tendency
Document58 pages
Lecture 7-9 Measure of Central Tendency
Abdullah Munir Nouroz
No ratings yet
Business Club: Basic Statistics
Document26 pages
Business Club: Basic Statistics
Justin Russo Harry
No ratings yet
Basics For Understanding
Document8 pages
Basics For Understanding
sam
No ratings yet
Module3-Part2 (1) (Autosaved)
Document35 pages
Module3-Part2 (1) (Autosaved)
Sheeba S
No ratings yet
1020 - Data Analysis Basics
Document8 pages
1020 - Data Analysis Basics
Ezra Anyala
No ratings yet
Statistics
Document5 pages
Statistics
Elene Grace Barte
No ratings yet
Name: Vijay Patel Class: SYBSC-IT Div: B Roll No.: 4163 Assignment Questions
Document19 pages
Name: Vijay Patel Class: SYBSC-IT Div: B Roll No.: 4163 Assignment Questions
White Rock
No ratings yet
How To Prepare Data For Predictive Analysis
Document5 pages
How To Prepare Data For Predictive Analysis
Mahak Kathuria
No ratings yet
Data Preparation Notebook
Document14 pages
Data Preparation Notebook
haythem.mejri.pro
No ratings yet
Quantitative Method CP 102
Document5 pages
Quantitative Method CP 102
Prittam Kumar Jena
No ratings yet
Unit 3 Summarising Data - Averages and Dispersion
Document22 pages
Unit 3 Summarising Data - Averages and Dispersion
jemima
No ratings yet
Chapter Summary - SRM - Triad 2
Document17 pages
Chapter Summary - SRM - Triad 2
Vivek Rana
No ratings yet
CSA Unit 4
Document16 pages
CSA Unit 4
Aditya Shah
No ratings yet
Statistics For Data Science
Document30 pages
Statistics For Data Science
ArminSayadi
No ratings yet
What Is A Correlation Matrix?
Document4 pages
What Is A Correlation Matrix?
Irfan Ullah
No ratings yet
ML Unit 2
Document18 pages
ML Unit 2
Saurabh Kansara
No ratings yet
Unit-3 DS Students
Document35 pages
Unit-3 DS Students
Harpreet Singh Bagga
No ratings yet
1preparing Data
Document6 pages
1preparing Data
Ukky
No ratings yet
Introduction To Descriptive Statistics I: Sanju Rusara Seneviratne Mbpss
Document35 pages
Introduction To Descriptive Statistics I: Sanju Rusara Seneviratne Mbpss
Vincent Raj Kumar
No ratings yet
Measures of Variabilit1
Document7 pages
Measures of Variabilit1
Ken Enciso
No ratings yet
Business Statistics & Analytics For Decision Making Assignment 1 Franklin Babu
Document9 pages
Business Statistics & Analytics For Decision Making Assignment 1 Franklin Babu
franklin
100% (1)
Bba 104 Assignment
Document4 pages
Bba 104 Assignment
jason
No ratings yet
Q No#1: Tabulation: 5 Major Objectives of Tabulation: (1) To Simplify The Complex Data
Document13 pages
Q No#1: Tabulation: 5 Major Objectives of Tabulation: (1) To Simplify The Complex Data
sami ullah
100% (1)
Q No#1: Tabulation: 5 Major Objectives of Tabulation: (1) To Simplify The Complex Data
Document13 pages
Q No#1: Tabulation: 5 Major Objectives of Tabulation: (1) To Simplify The Complex Data
sami ullah
No ratings yet
2robust Statistics - Wikipedia
Document69 pages
2robust Statistics - Wikipedia
jlesalvador
No ratings yet
Summary of Chapter 12 and 13
Document8 pages
Summary of Chapter 12 and 13
Abdul Basit
No ratings yet
Data Science
Document17 pages
Data Science
Nabajit
No ratings yet
1 Collecting and Interpreting Data Edexcel PDF
Document3 pages
1 Collecting and Interpreting Data Edexcel PDF
Raunak Prasad
No ratings yet
Measures of Central Tendency
Document5 pages
Measures of Central Tendency
Abigail Cabison
No ratings yet
12-Exploratory Data Analysis, Anomaly Detection-28!03!2023
Document79 pages
12-Exploratory Data Analysis, Anomaly Detection-28!03!2023
Shubham Kodilkar
No ratings yet
Skewness Kurtosis and Histogram
Document4 pages
Skewness Kurtosis and Histogram
Adamu Madi
No ratings yet
Reading 1
Document21 pages
Reading 1
FisalAmarShah
No ratings yet
Central Tendency
Document5 pages
Central Tendency
ZÅîb MëýmÖñ
No ratings yet
Unit 3
Document47 pages
Unit 3
Sai priyadarshini S
No ratings yet
WINSEM2020-21 ECE3502 ETH VL2020210501413 Reference Material I 29-Apr-2021 New PPT
Document23 pages
WINSEM2020-21 ECE3502 ETH VL2020210501413 Reference Material I 29-Apr-2021 New PPT
Aryan Verma
No ratings yet
Merits and Demerits
Document10 pages
Merits and Demerits
Ramesh Safare
No ratings yet
Measure of Central Tendency Dispersion A
Document8 pages
Measure of Central Tendency Dispersion A
رؤوف الجبيري
No ratings yet
Descriptive Statistic - Session 5
Document6 pages
Descriptive Statistic - Session 5
rahuldengra
No ratings yet
Descriptive Statistics
Document1 page
Descriptive Statistics
MissMumtaz
No ratings yet
Identifying Types of Variables
Document5 pages
Identifying Types of Variables
Anonymous LusWvy
No ratings yet
Quantitative Analysis Paper
Document15 pages
Quantitative Analysis Paper
Shahzad Khan
No ratings yet
Business Analytics Assignment
Document5 pages
Business Analytics Assignment
Richard Narciso
No ratings yet
Summary of The Introduction To Stats
Document7 pages
Summary of The Introduction To Stats
Ravi Indra Varma
No ratings yet
Data Analysis: Mean, Median, Mode
Document54 pages
Data Analysis: Mean, Median, Mode
musharraf anjum
No ratings yet
Purpose of Analysis Is To Answer The Research Questions Outlined in The Objectives
Document15 pages
Purpose of Analysis Is To Answer The Research Questions Outlined in The Objectives
Bogdan Tudor
No ratings yet
Define Statistics
Document89 pages
Define Statistics
khanji
No ratings yet
Data Scaling and Normalization
From Everand
Data Scaling and Normalization
Chuck Sherman
No ratings yet
My Inbox and SWFVISU Visualisation Limitations ..
Document3 pages
My Inbox and SWFVISU Visualisation Limitations ..
abhilash
No ratings yet
Balance Score Card - A Strategic Project Management Tool For Infrastructure Development Projects
Document14 pages
Balance Score Card - A Strategic Project Management Tool For Infrastructure Development Projects
Syed Sohel
No ratings yet
Cad Cam Lab - March-13
Document4 pages
Cad Cam Lab - March-13
sankarsuper83
No ratings yet
Project Charter and Outline Owners
Document10 pages
Project Charter and Outline Owners
Enrique Cuesta
No ratings yet
14 Commissioning Procedure
Document2 pages
14 Commissioning Procedure
Ionut Stavarache
No ratings yet
FTA Frequency
Document6 pages
FTA Frequency
illusion_imran
No ratings yet
Case Study MediaSet Espana
Document15 pages
Case Study MediaSet Espana
ElizaPopescu
No ratings yet
Model: XM Product Id:: Sweet Like Danish
Document1 page
Model: XM Product Id:: Sweet Like Danish
christopher ng'ang'a kamau
No ratings yet
M7 1N4007 - Datasheet
Document2 pages
M7 1N4007 - Datasheet
songdasheng
No ratings yet
Adapter Coupling
Document48 pages
Adapter Coupling
Ian_Smyth
No ratings yet
Vernacular Architecture: Himachal Pradesh
Document15 pages
Vernacular Architecture: Himachal Pradesh
sunil kumar
No ratings yet
Testo 300
Document8 pages
Testo 300
Wert India
No ratings yet
Samir Resume - Compressed
Document3 pages
Samir Resume - Compressed
Sarvesh Ghimire
No ratings yet
I Year Ug and PG List
Document70 pages
I Year Ug and PG List
Sarah Cruz
No ratings yet
EAI5
Document106 pages
EAI5
Arminto_san
No ratings yet
Lecture 6
Document33 pages
Lecture 6
tommy6700
No ratings yet
What Is Swachh Bharat Abhiyan
Document20 pages
What Is Swachh Bharat Abhiyan
Aakash Bhuta
No ratings yet
Annex 3 Electrical Issues Rev.1
Document2 pages
Annex 3 Electrical Issues Rev.1
mkpasha55mp
No ratings yet
Komatsu Engine 12v140 1 Workshop Manuals
Document20 pages
Komatsu Engine 12v140 1 Workshop Manuals
Stephen
100% (57)
EPE Syllabus of Civil Engg& Allied Discipline
Document20 pages
EPE Syllabus of Civil Engg& Allied Discipline
Muhammad Hassan
No ratings yet
CBM SOP 5.1 01 Tank Cleaning Planning
Document9 pages
CBM SOP 5.1 01 Tank Cleaning Planning
SPT QUẢN LÝ TÀU
No ratings yet
Grade 11 FOURTH INDUSTRIAL REVOLUTION
Document15 pages
Grade 11 FOURTH INDUSTRIAL REVOLUTION
arteus
No ratings yet
Week 2 - Listening 1
Document5 pages
Week 2 - Listening 1
Vy Lan
No ratings yet
Ericsson GPEH Administration
Document25 pages
Ericsson GPEH Administration
ozturk
100% (4)
SSL-CCT: Country Presentation - Pakistan
Document34 pages
SSL-CCT: Country Presentation - Pakistan
Myla Sandoval
No ratings yet
Selection in HRM
Document7 pages
Selection in HRM
N C Abhijith
100% (5)