Exploratory Data Analysis Main Concepts

Uploaded by

Zeinab Hamzeh

0% found this document useful (0 votes)

9 views1 page

Original Title

DSMLCheatSheet-zaka

Copyright

Available Formats

PDF, TXT or read online from Scribd

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Report this Document

Copyright:

Available Formats

Download as PDF, TXT or read online from Scribd

Flag for inappropriate content

0% found this document useful (0 votes)

9 views1 page

Exploratory Data Analysis Main Concepts

Uploaded by

Zeinab Hamzeh

Copyright:

Available Formats

Download as PDF, TXT or read online from Scribd

Flag for inappropriate content

Jump to Page

You are on page 1of 1

Search inside document

Data Science & Machine Learning Cheat Sheet

1 Main Concepts 3 Exploratory Data Analysis 4 Data Preprocessing

Understand your data Removing missing data Removing unused Columns
rows = data.shape[0] Number of Samples data.isnull().sum()
Missing values in each data.drop("region", axis=1, inplace=True)
columns = data.shape[1] Number of Columns column
data.info() Data types, Missing values The idea is to remove columns that do not
Drop rows with missing
data.describe() Statistical description of columns contribute to our prediction. In our example,
data = data.dropna()
values region does not affect the cost charged.

Distribution of charges
Convert Categorical columns to numerical Normalization
data["charges"].plot(kind="hist")
plt.title("Distribution of charges") gender = {'male':0, 'female':1} data_max = data.max()
plt.xlabel("Charges") data['sex'] = data['sex'].apply(lambda x: gender[x])
Data Science Life Cycle plt.ylabel("Frequency") data = data.divide(data_max)
plt.show()
smokers = {'no':0, 'yes':1} The idea is to divide each column by
data['smoker'] = data['smoker'].apply(lambda x: its maximum value.
smokers[x])
Correlation between smoking and cost of
treatment
smokers = data[(data.smoker == "yes")] Get smokers
non_smokers = data[(data.smoker == "no" Get non smokers 5 Model Training and testing
)]
fig = plt.figure(figsize=(12,5))
ax = fig.add_subplot(121)
Create the figure Data Splits
1st subplot smokers
ax.hist(smokers["charges"]) Smokers histogram
ax.set_title('charges for smokers') Set subplot title X = data.iloc[:,0:-1].values Store all columns except last one as inputs in X

y = data.iloc[:,-1].values Store the last column as the output (label) in y

Machine Learning Framework Repeat subplot for non smokers
Next, we will apply these x_train, x_test, y_train, y_test = train_test_split(X, y, test_size Split dataset into 80/20
concepts to the medical =0.2, random_state=42)
cost prediction problem
as per the course
example, but they are Linear Regression Modeling
also applicable to other
machine learning model = LinearRegression() Deﬁne our regression model
problems.
model.ﬁt(x_train, y_train) Train our model

2 Data Loading Correlation between age and cost of treatment

Model Evaluation
plt.scatter(smokers["age"], smokers["charges"], color='r')
Import Python modules plt.scatter(non_smokers["age"], non_smokers["charges"], c print('Model score {}'.format(model.score(x_tes Evaluate the model based on score

import numpy as np Numpy olor='b') t,y_test)))

import pandas as pd Pandas plt.xlabel("Age")
import matplotlib.pyplot as plt Matplotlib plt.ylabel("Charges") Note that there are several ways to evaluate your model that you will see later on
from sklearn.model_selection import train Scikit learn plt.show() during other courses.
_test_split
from sklearn.linear_model import LinearR The idea is that in this phase, Feature importance
egression we can understand how the columns_names = data.columns[0:-1].values
Read and Visualize the data features are correlated
through different plots. features_importance = model.coef_
data = pd.read_csv(Path_to_data) Read CSV ﬁle in Pandas
data.head() Display ﬁrst 5 rows Correlation between BMI and cost of treatment
plt.barh(columns_names, features_importance)
plt.hist(obese["charges"], color='r')
plt.hist(overweight["charges"], color plt.title('Features Importance')
='y') plt.xlabel('importance')
plt.hist(healthy["charges"], color='g')
plt.hist(underweight["charges"], col plt.ylabel('feature')
or='b') plt.show()
plt.title("Charges distribution")
plt.xlabel("Charges")
plt.ylabel("Frequency")
plt.show() © 2021, Zaka AI, Inc. All Rights Reserved.

The Essential R Reference
From Everand
The Essential R Reference
Mark Gardener
No ratings yet
Mastering Data Structures and Algorithms in C and C++
From Everand
Mastering Data Structures and Algorithms in C and C++
Sachin Naha
No ratings yet
Import Import Def
Document2 pages
Import Import Def
HARSHITHA D
No ratings yet
Chapter 2 Data Structures in R
Document14 pages
Chapter 2 Data Structures in R
nailofar
No ratings yet
Data Science
Document60 pages
Data Science
Arya
100% (1)
3 Data-Manipulation
Document47 pages
3 Data-Manipulation
Pratyush Jain
No ratings yet
Data & Variable Transformation: Recode and Transform Variables Summarise Variables and Cases Descriptives and Summaries
Document1 page
Data & Variable Transformation: Recode and Transform Variables Summarise Variables and Cases Descriptives and Summaries
ayrusurya
No ratings yet
CH 3
Document33 pages
CH 3
Rashi Mehta
No ratings yet
R Programming Cheat Sheet: by Via
Document2 pages
R Programming Cheat Sheet: by Via
Kimondo King
No ratings yet
Presentation 1
Document34 pages
Presentation 1
satishreddy71
No ratings yet
Datavischeatsheet
Document2 pages
Datavischeatsheet
rcg97.hd
No ratings yet
Data Science Basics Cheatsheet
Document1 page
Data Science Basics Cheatsheet
acutotu
67% (3)
Deep Learning With PyTorch 1
Document1 page
Deep Learning With PyTorch 1
Junsheng HU
No ratings yet
1 - Introduction To Programming With R
Document13 pages
1 - Introduction To Programming With R
paseg78960
No ratings yet
Pandas DataFrame Notes
Document13 pages
Pandas DataFrame Notes
alainvalois
67% (3)
Tutorial 4
Document8 pages
Tutorial 4
POEASO
No ratings yet
Importing The Files
Document14 pages
Importing The Files
Vijaya Banu
No ratings yet
Data Analysis W Pandas
Document4 pages
Data Analysis W Pandas
x7jn4sxdn9
No ratings yet
Cheat Sheet: The Pandas Dataframe Object: Column Index (DF - Columns)
Document6 pages
Cheat Sheet: The Pandas Dataframe Object: Column Index (DF - Columns)
Nirmala Shinde
No ratings yet
Python-for-Data-Analysis (Pandas
Document31 pages
Python-for-Data-Analysis (Pandas
Naman Jain
No ratings yet
Beginners Python Cheat Sheet PCC Plotly PDF
Document2 pages
Beginners Python Cheat Sheet PCC Plotly PDF
ROBERTO CUJIA
No ratings yet
BMR Assignment: Tidyr
Document3 pages
BMR Assignment: Tidyr
Abel S John
No ratings yet
R Cheat Sheet (Updated)
Document13 pages
R Cheat Sheet (Updated)
Thảo Thanh
No ratings yet
ML p4
Document2 pages
ML p4
Nathon Mine
No ratings yet
Data Wrangling and Analysis
Document36 pages
Data Wrangling and Analysis
Ashish Antopazhunkaran
100% (1)
Python Data Science 101
Document41 pages
Python Data Science 101
consania
100% (1)
Cours BI - R
Document18 pages
Cours BI - R
Oumaima Lahlou
No ratings yet
R Cheat Sheet
Document4 pages
R Cheat Sheet
Haritha Atluri
No ratings yet
Python Cheat Sheet: Pandas - Numpy - Sklearn Matplotlib - Seaborn BS4 - Selenium - Scrapy
Document9 pages
Python Cheat Sheet: Pandas - Numpy - Sklearn Matplotlib - Seaborn BS4 - Selenium - Scrapy
rameshb87
100% (3)
A Short List of The Most Useful R Commands
Document11 pages
A Short List of The Most Useful R Commands
cristiansolomon1754
No ratings yet
Mohit
Document19 pages
Mohit
Ayush Gupta
No ratings yet
Chapter 03 Visualization (R)
Document30 pages
Chapter 03 Visualization (R)
hasan
No ratings yet
Analysis Using Statistical: Introduction & Data Exploration
Document23 pages
Analysis Using Statistical: Introduction & Data Exploration
Izzue Kashfi
No ratings yet
Python 2.7 Quick Reference Sheet: ver 2.01 ʹ 110105 (sjd)
Document2 pages
Python 2.7 Quick Reference Sheet: ver 2.01 ʹ 110105 (sjd)
Kannada Kuvara
No ratings yet
PDB Mids Sab Kuch PDF
Document2 pages
PDB Mids Sab Kuch PDF
Mariam shahid
No ratings yet
MATLAB For Data Processing and Visualization Quick Reference
Document11 pages
MATLAB For Data Processing and Visualization Quick Reference
Edrian Pentado
No ratings yet
EDA Cheat Sheet - Exploratory Data Analysis
Document2 pages
EDA Cheat Sheet - Exploratory Data Analysis
Vanshika Rastogi
No ratings yet
Data Cleansing - Manipulation
Document22 pages
Data Cleansing - Manipulation
heryads
100% (1)
What Is A Data Structure?: Data Structures in Data Science
Document24 pages
What Is A Data Structure?: Data Structures in Data Science
Meghna Choudhary
No ratings yet
Zelig For R Cheat Sheet: Plots Vectors
Document2 pages
Zelig For R Cheat Sheet: Plots Vectors
dadadad
No ratings yet
Bdo Co1 Session 4
Document43 pages
Bdo Co1 Session 4
s.m.pasha0709
No ratings yet
Rstudio Study Notes For PA 20181126
Document6 pages
Rstudio Study Notes For PA 20181126
Trong Nghia Vu
No ratings yet
R Cheat Sheet: 1. Basics 4. Input and Export of Data
Document4 pages
R Cheat Sheet: 1. Basics 4. Input and Export of Data
Rohit Raj Ranganathan
100% (1)
R Cheat Sheet Merged
Document35 pages
R Cheat Sheet Merged
Digitalfjord
100% (1)
Imp Details
Document6 pages
Imp Details
Jyotirmay Sahu
No ratings yet
Deep-Learning-Keras-Tensorflow - 1.1.1 Perceptron and Adaline - Ipynb at Master Leriomaggio - Deep-Learning-Keras-Tensorflow
Document11 pages
Deep-Learning-Keras-Tensorflow - 1.1.1 Perceptron and Adaline - Ipynb at Master Leriomaggio - Deep-Learning-Keras-Tensorflow
me andan buscando
No ratings yet
Data Mining CSE-443: Ayesha Aziz Prova Lecturer, Dept. of CSE CWU
Document21 pages
Data Mining CSE-443: Ayesha Aziz Prova Lecturer, Dept. of CSE CWU
Dipty Sarker
No ratings yet
Handout - Spark Reference
Document2 pages
Handout - Spark Reference
rajasekhar
No ratings yet
Pandas: Import
Document13 pages
Pandas: Import
hello
100% (1)
Data Transformation With Data - Table: Cheat Sheet
Document2 pages
Data Transformation With Data - Table: Cheat Sheet
pao pao
No ratings yet
Data Transformation With Data - Table: Cheat Sheet
Document2 pages
Data Transformation With Data - Table: Cheat Sheet
frsalazar
No ratings yet
Data Transformation With Data - Table: Cheat Sheet
Document2 pages
Data Transformation With Data - Table: Cheat Sheet
breathtakingbehavior
No ratings yet
Time Series Cheat Sheet
Document1 page
Time Series Cheat Sheet
mylti8ball
No ratings yet
Time Series Cheat Sheet
Document2 pages
Time Series Cheat Sheet
Ashk
No ratings yet
Final - DNN - Hands - On - Jupyter Notebook
Document6 pages
Final - DNN - Hands - On - Jupyter Notebook
Aradhana Mehra
0% (1)
Capital Gains
Document8 pages
Capital Gains
hariprasanna951
No ratings yet
R Commands: Appendix B
Document5 pages
R Commands: Appendix B
Shafayet Hossain
No ratings yet
Summary of MATLAB Onramp: Basic Syntax
Document4 pages
Summary of MATLAB Onramp: Basic Syntax
Sandeep Naik
No ratings yet
P03 Confidence Region
Document7 pages
P03 Confidence Region
YANDRAPU MANOJ NAIDU 20MDT1017
No ratings yet
Profound Python Data Science
From Everand
Profound Python Data Science
Onder Teker
No ratings yet
Machine Learning Fundamentals: LEE: Leadership Empowerment Education
Document20 pages
Machine Learning Fundamentals: LEE: Leadership Empowerment Education
Zeinab Hamzeh
No ratings yet
Image Operations Data Preparation: Opencv Built-In Functions Imagedatagenerator Class Progressively Load Data
Document1 page
Image Operations Data Preparation: Opencv Built-In Functions Imagedatagenerator Class Progressively Load Data
Zeinab Hamzeh
No ratings yet
Full Stack Data Science
Document54 pages
Full Stack Data Science
Zeinab Hamzeh
No ratings yet
SQL PDF
Document221 pages
SQL PDF
Yunier Felicò Mederos
100% (6)
Bioremediation
Document21 pages
Bioremediation
agung24864
No ratings yet
Ch06 Allocating Resources To The Project
Document55 pages
Ch06 Allocating Resources To The Project
Josh Chama
No ratings yet
F5 Chem Rusting Experiment
Document9 pages
F5 Chem Rusting Experiment
Prashanthini Janardanan
No ratings yet
Mule 4 Error Handling Demystified
Document8 pages
Mule 4 Error Handling Demystified
Nicolas boulanger
No ratings yet
Historical Exchange Rates - OANDA AUD-MYR
Document1 page
Historical Exchange Rates - OANDA AUD-MYR
ML ML
No ratings yet
Applied Physics (PHY-102) Course Outline
Document3 pages
Applied Physics (PHY-102) Course Outline
Muhammad Rafay
No ratings yet
Mangas PDF
Document14 pages
Mangas PDF
luisfer811
No ratings yet
Taylor Et Al v. Acxiom Corporation Et Al - Document No. 91
Document40 pages
Taylor Et Al v. Acxiom Corporation Et Al - Document No. 91
Justia.com
No ratings yet
Footing - f1 - f2 - Da RC Structure
Document42 pages
Footing - f1 - f2 - Da RC Structure
FrederickV.Velasco
No ratings yet
PCI Bridge Manual
Document34 pages
PCI Bridge Manual
Em Mar
No ratings yet
Timetable - Alton - London Timetable May 2019 PDF
Document35 pages
Timetable - Alton - London Timetable May 2019 PDF
Nicholas Tuan
No ratings yet
Unit 1 - Lecture 3
Document16 pages
Unit 1 - Lecture 3
Abhay kushwaha
No ratings yet
How To Present A Paper at An Academic Conference: Steve Wallace
Document122 pages
How To Present A Paper at An Academic Conference: Steve Wallace
JessicaAF2009gmt
No ratings yet
Getting Returning Vets Back On Their Feet: Ggoopp Eennddggaammee
Document28 pages
Getting Returning Vets Back On Their Feet: Ggoopp Eennddggaammee
San Mateo Daily Journal
No ratings yet
Ac221 and Ac211 Courseoutline
Document10 pages
Ac221 and Ac211 Courseoutline
Louis Maps Mapanga
No ratings yet
Final Prmy Gr4 Math Ph1 HWSH
Document55 pages
Final Prmy Gr4 Math Ph1 HWSH
Karthik Kumar
No ratings yet
Bag Technique and Benedict Tool
Document2 pages
Bag Technique and Benedict Tool
Ariel Delos Reyes
100% (1)
CSEC SocStud CoverSheetForESBA Fillable Dec2019
Document1 page
CSEC SocStud CoverSheetForESBA Fillable Dec2019
chrissaine
No ratings yet
Specialty Coffee Association of Indonesia Cupping Form (ARABICA)
Document1 page
Specialty Coffee Association of Indonesia Cupping Form (ARABICA)
Saiffullah Rais
No ratings yet
#Angles Are in Degrees: EGR2313 HW SOLUTIONS (2021)
Document4 pages
#Angles Are in Degrees: EGR2313 HW SOLUTIONS (2021)
Solomon
No ratings yet
Internet Bill Format
Document1 page
Internet Bill Format
Gopal Singh
100% (1)
Uneb U.C.E Mathematics Paper 1 2018
Document4 pages
Uneb U.C.E Mathematics Paper 1 2018
shafickimera281
No ratings yet
Stewart, Mary - The Little Broomstick
Document159 pages
Stewart, Mary - The Little Broomstick
Yunon
100% (1)
Clash of Clans Hack Activation Code
Document2 pages
Clash of Clans Hack Activation Code
grumpysadness7626
No ratings yet
s15 Miller Chap 8b Lecture
Document19 pages
s15 Miller Chap 8b Lecture
Kartika Fitri
No ratings yet
Internal Analysis: Pertemuan Ke
Document15 pages
Internal Analysis: Pertemuan Ke
kintan utami
No ratings yet
1"a Study On Employee Retention in Amara Raja Power Systems LTD
Document81 pages
1"a Study On Employee Retention in Amara Raja Power Systems LTD
Jerome Samuel
100% (1)
Corvina PRIME
Document28 pages
Corvina PRIME
MillerIndigo
No ratings yet
Code Explanantion
Document4 pages
Code Explanantion
Vivek Jadiya
No ratings yet
T-Tess Six Educator Standards
Document1 page
T-Tess Six Educator Standards
api-351054075
100% (1)