Welcome to Scribd!

EDA Project

Uploaded by

0% found this document useful (0 votes)

7 views22 pages

This document presents an exploratory data analysis and visualization project on a fraud detection dataset. It outlines using various univariate, bivariate, and anomaly detection algorithms, including z-score, k-means clustering, autoencoders, isolation forest, Gaussian mixture models, and principal component analysis to analyze the data and identify fraudulent instances. Key results include the autoencoder achieving 96% accuracy and PCA identifying anomalies based on reconstruction errors with 8 components covering 95% of variance in the data.

Original Description:

Original Title

EDA-project

Copyright

Available Formats

PPTX, PDF, TXT or read online from Scribd

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Report this Document

Copyright:

Available Formats

Download as PPTX, PDF, TXT or read online from Scribd

Flag for inappropriate content

0% found this document useful (0 votes)

7 views22 pages

EDA Project

Uploaded by

Hüseyin Kara (Student)

Copyright:

Available Formats

Download as PPTX, PDF, TXT or read online from Scribd

Flag for inappropriate content

Jump to Page

You are on page 1of 22

Search inside document

Exploratory Data

Analysis and
Visualization Project
FURKAN ÇELEN
HÜSEYİN KARA
Presentation Plan
Exploratory Data Analysis
 Univariate Analysis
 Bivariate Analysis
Anomaly Detection Algorithms
 Z-score
 K-Means
 Autoencoder
 Isolation Forest
 Gaussion Mixture
 PCA
Data- Fraud Data Set

A target
12 Features
10779 Rows
Summary Statictics
Univariate Analysis
Class-1 %4.5
Class-0 %95.5
Features
Features
Bivariate Analysis - Pair Plot
Bivariate Analysis – Corr Plot
V8, V6
V6 vs. Target
V8 vs. Target
Z-score
Z=(x-μ)/σ
Treshold = 3
Z> Treshold --> 1 (True)
Z< Treshold --> 0 (False)
K-means
K-means
2 Cluster
(283 (1) vs. 10496 )
V8 vs. V6
Autoencoder
Encoder (64,32,16)
Dencoder (16,32,64)
code_size=8
loss='msle’
metrics=['accuracy’]
optimizer='adam'
epochs=30
batch_size=256
Acc score 0.96
Isolation Forest
Gaussion Mixture Model
PRINCIPAL COMPONENT
ANALYSIS (PCA)
Our data is visualized in 2 dimensions
66% variance is covered
But we have 4.5% fraud
PCA
Reconstruction errors higher than threshold
With 8 components
95% variance is covered
Performance of PCA
Model Comparison
Teşekkürler..

Project - Machine Learning - Rajendra M Bhat
Document19 pages
Project - Machine Learning - Rajendra M Bhat
Rajendra Bhat
100% (10)
Machine Learning Project On Cars
Document22 pages
Machine Learning Project On Cars
bhumika singh
92% (13)
NN Examples Matlab
Document91 pages
NN Examples Matlab
Anonymous 1dVLJSVhtr
No ratings yet
Project 5 - Cars
Document22 pages
Project 5 - Cars
bhumika singh
100% (1)
Genetica Cuantitativa
Document120 pages
Genetica Cuantitativa
Alexis Josue Vallecillo Godoy
No ratings yet
Credit Card Fraud Detection
Document14 pages
Credit Card Fraud Detection
Snehal Jain
100% (1)
Exp 4
Document10 pages
Exp 4
jay
No ratings yet
Industrial Statistics - A Computer Based Approach With Python
Document140 pages
Industrial Statistics - A Computer Based Approach With Python
htapiaq
No ratings yet
9805 MBAex PredAnalBigDataMar22
Document11 pages
9805 MBAex PredAnalBigDataMar22
harishcoolanand
No ratings yet
Image Classification
Document18 pages
Image Classification
Darshna Gupta
No ratings yet
Here's An Visualization of The K-Nearest Neighbors Algorithm
Document5 pages
Here's An Visualization of The K-Nearest Neighbors Algorithm
akif barbaros dikmen
No ratings yet
Random Effects Models
Document37 pages
Random Effects Models
hubik38
No ratings yet
Crisp DM Framework: Data Mining Tasks: Description Estimation Prediction Classification Clustering Association
Document6 pages
Crisp DM Framework: Data Mining Tasks: Description Estimation Prediction Classification Clustering Association
UTKARSH PABALE
No ratings yet
Simply Array Sum
Document2 pages
Simply Array Sum
Nayana S V
No ratings yet
Lab 1. Boston House
Document7 pages
Lab 1. Boston House
dimas bayu
No ratings yet
Practical Machine Learning
Document11 pages
Practical Machine Learning
minhajur rahman
No ratings yet
Approachin190808095205 PDF
Document112 pages
Approachin190808095205 PDF
Flavia Santos
No ratings yet
Case Study - Classifier
Document5 pages
Case Study - Classifier
Stuti Singh
No ratings yet
Matlab SysId Tutorial
Document23 pages
Matlab SysId Tutorial
Phạm Văn Tưởng
No ratings yet
Linear Discriminant Analysis
Document16 pages
Linear Discriminant Analysis
Medhini Dubey
No ratings yet
Machine Learning
Document56 pages
Machine Learning
Mani Vrs
100% (3)
R
Document4 pages
R
utsavp931
No ratings yet
Home Work
Document12 pages
Home Work
sandeepssn47
No ratings yet
HW2 - Problem 4.2.1: General Model
Document6 pages
HW2 - Problem 4.2.1: General Model
梁嫚芳
No ratings yet
Linear Regression
Document15 pages
Linear Regression
Nipuni
No ratings yet
HW1 - Problem 3.4.1: General Model
Document6 pages
HW1 - Problem 3.4.1: General Model
梁嫚芳
No ratings yet
Image Feature Extraction Based On PCA
Document5 pages
Image Feature Extraction Based On PCA
Sanjana Kuril
No ratings yet
ml2020 Pythonlab03
Document5 pages
ml2020 Pythonlab03
VINAY U PAI
No ratings yet
Akaike's Information Criterion For Estimated Model - MATLAB Aic
Document5 pages
Akaike's Information Criterion For Estimated Model - MATLAB Aic
ahmed awsi
No ratings yet
LAB4
Document5 pages
LAB4
dam huu khoa
No ratings yet
Dimensionality Reduction: Pca, SVD, MDS, Ica, and Friends
Document50 pages
Dimensionality Reduction: Pca, SVD, MDS, Ica, and Friends
palanivel
No ratings yet
Machinelearning - Alisya Athirah Binti Mohd Huzzainny (Updated)
Document26 pages
Machinelearning - Alisya Athirah Binti Mohd Huzzainny (Updated)
Alisya Athirah
No ratings yet
7708 - MBA PredAnanBigDataNov21
Document11 pages
7708 - MBA PredAnanBigDataNov21
Indian Lizard King
No ratings yet
Assignment R New 1
Document26 pages
Assignment R New 1
Sohel Rana
No ratings yet
Lab4 - SLR - Ipynb - Colaboratory
Document7 pages
Lab4 - SLR - Ipynb - Colaboratory
PATTABHI RAMANJANEYULU
No ratings yet
Presentation GPT 4
Document25 pages
Presentation GPT 4
Francisco García
100% (1)
Zerox Ready
Document21 pages
Zerox Ready
gowrishankar nayana
No ratings yet
Dimensionality Reduction Using PCA (Principal Component Analysis)
Document13 pages
Dimensionality Reduction Using PCA (Principal Component Analysis)
kolluriniteesh111
No ratings yet
Designing Machine Learning Workflows in Python Chapter1
Document32 pages
Designing Machine Learning Workflows in Python Chapter1
Fgpeqw
No ratings yet
ML0101EN Clas K Nearest Neighbors CustCat Py v1
Document11 pages
ML0101EN Clas K Nearest Neighbors CustCat Py v1
banicx
100% (1)
HW 7
Document4 pages
HW 7
adithya604
No ratings yet
Machine Learning LAB: Practical-1
Document24 pages
Machine Learning LAB: Practical-1
Tsering Jhakree
100% (1)
MATLAB 4 Numerical Computations
Document53 pages
MATLAB 4 Numerical Computations
VASUDEVA NAIDU
No ratings yet
Decision Tree, Random Forest
Document37 pages
Decision Tree, Random Forest
Akshay kashyap
No ratings yet
Machine Learning With SQL
Document12 pages
Machine Learning With SQL
prince krish
100% (1)
Aadt1.Csv and Aadt2.Csv From Ublearns - Fit A LR Model Fit1 From Aadt1.Csv
Document4 pages
Aadt1.Csv and Aadt2.Csv From Ublearns - Fit A LR Model Fit1 From Aadt1.Csv
Ferris
No ratings yet
1.diagnosis Using ML
Document69 pages
1.diagnosis Using ML
Choral Wealth
No ratings yet
NN Examples
Document91 pages
NN Examples
nguyenhoangan.13dt2
No ratings yet
MatLab Complete File PDF
Document54 pages
MatLab Complete File PDF
Hardik Garg
No ratings yet
Iris Dataset Clustering and Spam Email Separation
Document20 pages
Iris Dataset Clustering and Spam Email Separation
Akash M Shahzad
No ratings yet
Lab-9 RMD
Document5 pages
Lab-9 RMD
Maira Sulaimanova
No ratings yet
R Script Problem (Wrong Solutions)
Document4 pages
R Script Problem (Wrong Solutions)
zzhquintus
No ratings yet
Vid 4
Document6 pages
Vid 4
diyalap01
No ratings yet
ANOVA
Document8 pages
ANOVA
Nazakat ali
No ratings yet
Matlab-STATISTICAL MODELS AND METHODS FOR FINANCIAL MARKETS
Document13 pages
Matlab-STATISTICAL MODELS AND METHODS FOR FINANCIAL MARKETS
Gonzalo Saavedra
No ratings yet
Praktikum 3
Document8 pages
Praktikum 3
NUR AFIFAH
No ratings yet
Classification Is For Predicting Type and Regression Is For Predicting Value
Document4 pages
Classification Is For Predicting Type and Regression Is For Predicting Value
rana
No ratings yet
Modelling of Ic Classifier Using Logistic Regression: %initialization
Document7 pages
Modelling of Ic Classifier Using Logistic Regression: %initialization
Javeria Farooq
No ratings yet
Combining Pattern Classifiers: Methods and Algorithms
From Everand
Combining Pattern Classifiers: Methods and Algorithms
Ludmila I. Kuncheva
No ratings yet
Robust Nonlinear Regression: with Applications using R
From Everand
Robust Nonlinear Regression: with Applications using R
Hossein Riazoshams
No ratings yet