Welcome to Scribd!

Customer Segmentation in Python Chapter3

Uploaded by

0% found this document useful (0 votes)

20 views25 pages

The document discusses customer segmentation using k-means clustering in Python. It covers advantages of k-means clustering and its key assumptions of symmetric and similar variable distributions. It then discusses how to identify and manage skewed variables through transformations like logarithms and dealing with negative values. The document also covers centering and scaling variables to have equal means and variances before clustering. It emphasizes standardizing the data in the proper sequence of first unskewing, then centering, followed by scaling to meet k-means assumptions before applying the algorithm.

Original Description:

Original Title

Customer Segmentation in Python chapter3

Copyright

Available Formats

PDF, TXT or read online from Scribd

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Report this Document

Copyright:

Available Formats

Download as PDF, TXT or read online from Scribd

Flag for inappropriate content

0% found this document useful (0 votes)

20 views25 pages

Customer Segmentation in Python Chapter3

Uploaded by

Fgpeqw

Copyright:

Available Formats

Download as PDF, TXT or read online from Scribd

Flag for inappropriate content

Jump to Page

You are on page 1of 25

Search inside document

DataCamp Customer Segmentation in Python

CUSTOMER SEGMENTATION IN PYTHON

Data pre-processing for k-

means clustering

Karolis Urbonas
Head of Data Science, Amazon
DataCamp Customer Segmentation in Python

Advantages of k-means clustering

One of the most popular unsupervised learning method
Simple and fast
Works well*

* with certain assumptions about the data

DataCamp Customer Segmentation in Python

Key k-means assumptions

Symmetric distribution of variables (not skewed)
Variables with same average values
Variables with same variance
DataCamp Customer Segmentation in Python

Skewed variables

Left-skewed

Right-skewed
DataCamp Customer Segmentation in Python

Skewed variables
Skew removed with logarithmic
transformation
DataCamp Customer Segmentation in Python

Variables on the same scale

datamart_rfm.describe()
K-means assumes equal mean
And equal variance
It's not the case with RFM data
DataCamp Customer Segmentation in Python

CUSTOMER SEGMENTATION IN PYTHON

Let's review the concepts

DataCamp Customer Segmentation in Python

CUSTOMER SEGMENTATION IN PYTHON

Managing skewed variables

Karolis Urbonas
Head of Data Science, Amazon
DataCamp Customer Segmentation in Python

Identifying skewness
Visual analysis of the distribution
If it has a tail - it's skewed
DataCamp Customer Segmentation in Python

Exploring distribution of Recency

import seaborn as sns
from matplotlib import pyplot as plt

sns.distplot(datamart['Recency'])
plt.show()
DataCamp Customer Segmentation in Python

Exploring distribution of Frequency

sns.distplot(datamart['Frequency'])
plt.show()
DataCamp Customer Segmentation in Python

Data transformations to manage skewness

Logarithmic transformation (positive values only)
import numpy as np
frequency_log= np.log(datamart['Frequency'])

sns.distplot(frequency_log)
plt.show()
DataCamp Customer Segmentation in Python

Dealing with negative values

Adding a constant before log transformation
Cube root transformation
DataCamp Customer Segmentation in Python

CUSTOMER SEGMENTATION IN PYTHON

Let's practice how to

identify and manage
skewed variables!
DataCamp Customer Segmentation in Python

CUSTOMER SEGMENTATION IN PYTHON

Centering and scaling

variables

Karolis Urbonas
Head of Data Science, Amazon
DataCamp Customer Segmentation in Python

Identifying an issue
datamart_rfm.describe()
Analyze key statistics of the dataset
Compare mean and standard
deviation
DataCamp Customer Segmentation in Python

Centering variables with different means

K-means works well on variables with the same mean
Centering variables is done by subtracting average value from each observation
datamart_centered = datamart_rfm - datamart_rfm.mean()
datamart_centered.describe().round(2)
DataCamp Customer Segmentation in Python

Scaling variables with different variance

K-means works better on variables with the same variance / standard deviation
Scaling variables is done by dividing them by standard deviation of each
datamart_scaled = datamart_rfm / datamart_rfm.std()
datamart_scaled.describe().round(2)
DataCamp Customer Segmentation in Python

Combining centering and scaling

Subtract mean and divide by standard deviation manually
Or use a scaler from scikit-learn library (returns numpy.ndarray object)
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
scaler.fit(datamart_rfm)
datamart_normalized = scaler.transform(datamart_rfm)

print('mean: ', datamart_normalized.mean(axis=0).round(2))

print('std: ', datamart_normalized.std(axis=0).round(2))

mean: [-0. -0. 0.]

std: [1. 1. 1.]
DataCamp Customer Segmentation in Python

CUSTOMER SEGMENTATION IN PYTHON

Test different approaches

by yourself!
DataCamp Customer Segmentation in Python

CUSTOMER SEGMENTATION IN PYTHON

Sequence of structuring
pre-processing steps

Karolis Urbonas
Head of Data Science, Amazon
DataCamp Customer Segmentation in Python

Why the sequence matters?

Log transformation only works with positive data
Normalization forces data to have negative values and log will not work
DataCamp Customer Segmentation in Python

Sequence
1. Unskew the data - log transformation
2. Standardize to the same average values
3. Scale to the same standard deviation
4. Store as a separate array to be used for clustering
DataCamp Customer Segmentation in Python

Coding the sequence

Unskew the data with log transformation

import numpy as np
datamart_log = np.log(datamart_rfm)

Normalize the variables with StandardScaler

from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
scaler.fit(datamart_log)

Store it separately for clustering

datamart_normalized = scaler.transform(datamart_log)
DataCamp Customer Segmentation in Python

CUSTOMER SEGMENTATION IN PYTHON

Practice on RFM data!

Functional Python Programming
From Everand
Functional Python Programming
Steven Lott
No ratings yet
Learning pandas
From Everand
Learning pandas
Heydt Michael
Rating: 4 out of 5 stars
4/5 (1)
Customer Segmentation in Python Chapter2
Document33 pages
Customer Segmentation in Python Chapter2
Fgpeqw
No ratings yet
Chapter1 PDF
Document37 pages
Chapter1 PDF
Shashank Shekhar Tiwari
No ratings yet
Customer Segmentation in Python Chapter4
Document37 pages
Customer Segmentation in Python Chapter4
Fgpeqw
No ratings yet
CloudyML Mega Combo Course Brochure
Document19 pages
CloudyML Mega Combo Course Brochure
Navneet Soni
No ratings yet
Chapter4 3
Document37 pages
Chapter4 3
Zia Malik
No ratings yet
Linear Classifiers in Python: Chapter4
Document24 pages
Linear Classifiers in Python: Chapter4
Nishant
No ratings yet
Customer Segmentation Report
Document8 pages
Customer Segmentation Report
dsingh1be21
No ratings yet
Ass-2 ds
Document29 pages
Ass-2 ds
Vedant Andhale
No ratings yet
Short Text Classification Using Graph Convolutional Network
Document6 pages
Short Text Classification Using Graph Convolutional Network
FirqaAkira
No ratings yet
Linear Classifiers in Python: Chapter3
Document19 pages
Linear Classifiers in Python: Chapter3
Nishant
100% (1)
Linear Classifiers in Python: Chapter1
Document16 pages
Linear Classifiers in Python: Chapter1
Nishant
No ratings yet
Time Series Analysis Using Ipython
Document69 pages
Time Series Analysis Using Ipython
Kaustubh Keskar
No ratings yet
Group A Assignment No2 Writeup
Document9 pages
Group A Assignment No2 Writeup
403 Chaudhari Sanika Sagar
No ratings yet
Chapter1 PDF
Document52 pages
Chapter1 PDF
Iqra Chaudry
No ratings yet
COA Technical Guidelines
Document17 pages
COA Technical Guidelines
varachartered283
No ratings yet
RFM How To Automatically Segment Customers Using Purchase Data and A Few Lines of Python
Document8 pages
RFM How To Automatically Segment Customers Using Purchase Data and A Few Lines of Python
Steven Moiet
No ratings yet
ALL Course Curriculum
Document10 pages
ALL Course Curriculum
good 2341
No ratings yet
Demo Class 15 and 16102022 (Pandas in Python)
Document45 pages
Demo Class 15 and 16102022 (Pandas in Python)
Oskar Nguyen
No ratings yet
Data Visualization For Python - Sales Retail - r1
Document19 pages
Data Visualization For Python - Sales Retail - r1
Mazhar Mahadzir
No ratings yet
Tableau Training
Document12 pages
Tableau Training
Kranti Kumar
No ratings yet
Activity 01: Python Set/s of Source Code Use in The Activity (Paste Below)
Document2 pages
Activity 01: Python Set/s of Source Code Use in The Activity (Paste Below)
SHELPTS
No ratings yet
DWM Assignment (1)
Document15 pages
DWM Assignment (1)
uspoken91
No ratings yet
Ads Phase 5
Document23 pages
Ads Phase 5
Sheik Dawood S
No ratings yet
PRACTICAL5
Document23 pages
PRACTICAL5
thundergamerz403
No ratings yet
Mining and Visualising Real-World Data: About This Module
Document16 pages
Mining and Visualising Real-World Data: About This Module
Alexandra Veres
100% (1)
dsbda-lab-manual
Document111 pages
dsbda-lab-manual
pakhareamol761
No ratings yet
Linear Classifiers in Python: Loss Functions Explained
Document21 pages
Linear Classifiers in Python: Loss Functions Explained
Nishant
No ratings yet
Ass 2 DSBDL
Document29 pages
Ass 2 DSBDL
Anvi
No ratings yet
R Programming Data Science & Machine Learning Course
Document6 pages
R Programming Data Science & Machine Learning Course
Vikram Singh
No ratings yet
Deep Quant Finance Brochure
Document21 pages
Deep Quant Finance Brochure
संजीव कुमार झा
No ratings yet
Guy
Document36 pages
Guy
Uma Tamil
No ratings yet
Chapter1 - Introduction & Overview
Document42 pages
Chapter1 - Introduction & Overview
bigissue2023
No ratings yet
Pattern
Document1 page
Pattern
ahmadkhalil
No ratings yet
Machine Learning-1
Document24 pages
Machine Learning-1
factpolice007
No ratings yet
Basic of Analytic Word File
Document10 pages
Basic of Analytic Word File
RUKHSAR KHATUN
No ratings yet
Python and AI course curriculum overview
Document39 pages
Python and AI course curriculum overview
deepak lachhwani
No ratings yet
Data Science I: Charles C.N. Wang
Document68 pages
Data Science I: Charles C.N. Wang
sar
No ratings yet
Machine Learning Using Python
Document2 pages
Machine Learning Using Python
Narendra Singh
No ratings yet
Cleaning Data in Python Live Session
Document23 pages
Cleaning Data in Python Live Session
Elvin Nur Furqon
No ratings yet
Variant Configuration: Prepared By: Ramesh Kumbum
Document84 pages
Variant Configuration: Prepared By: Ramesh Kumbum
sheruf_ali
100% (1)
Course Curriculum: Internship On Python
Document29 pages
Course Curriculum: Internship On Python
Suman Sha
No ratings yet
Segmentation Algorithm
Document2 pages
Segmentation Algorithm
ge.anand
No ratings yet
Categorical Encoding Techniques
Document9 pages
Categorical Encoding Techniques
Vikash Rryder
No ratings yet
03-Data Analysis
Document18 pages
03-Data Analysis
Debashish Deka
No ratings yet
R - CLV Calculation (Linear Regression)
Document35 pages
R - CLV Calculation (Linear Regression)
Regn Klay
No ratings yet
Assvid
Document13 pages
Assvid
diyalap01
No ratings yet
Class: Xii (Informatics Practices) Self Study Material / Notes - III Covariance
Document15 pages
Class: Xii (Informatics Practices) Self Study Material / Notes - III Covariance
Anish kr Singh
No ratings yet
Teradata Warehouse Miner
Document3 pages
Teradata Warehouse Miner
Kakarla Satyanarayana
No ratings yet
Din cr100
Document27 pages
Din cr100
Thinker
No ratings yet
White 2006 Spec Document QFD at Imation
Document14 pages
White 2006 Spec Document QFD at Imation
Jacob
No ratings yet
Working With The Class System in Python Chapter4
Document29 pages
Working With The Class System in Python Chapter4
Fgpeqw
No ratings yet
Data Preprocessing
Document38 pages
Data Preprocessing
Pradhana Riza
No ratings yet
ML&DS of Copy of Brochure Template
Document19 pages
ML&DS of Copy of Brochure Template
fastfindfirm
No ratings yet
Data Mining Problem 2 Report
Document13 pages
Data Mining Problem 2 Report
Babu Shaikh
No ratings yet
60 ChatGPT Prompts For Data Science 2023
Document67 pages
60 ChatGPT Prompts For Data Science 2023
T L
100% (2)
Dimension Reduction Techniques in Machine Learning
Document24 pages
Dimension Reduction Techniques in Machine Learning
Shil Shambharkar
No ratings yet
Data Science Course with Python, R, ML & AI
Document10 pages
Data Science Course with Python, R, ML & AI
Saikumar Reddy
No ratings yet
Release Notes For 8003
Document2 pages
Release Notes For 8003
assam
No ratings yet
Spoken Language Processing in Python Chapter3
Document26 pages
Spoken Language Processing in Python Chapter3
Fgpeqw
No ratings yet
Spoken Language Processing in Python Chapter1
Document17 pages
Spoken Language Processing in Python Chapter1
Fgpeqw
No ratings yet
Preparing figures to share with others
Document35 pages
Preparing figures to share with others
Hana Banana
No ratings yet
Spoken Language Processing in Python Chapter4
Document46 pages
Spoken Language Processing in Python Chapter4
Fgpeqw
No ratings yet
SpeechRecognition: Python Library for Spoken Language Processing
Document23 pages
SpeechRecognition: Python Library for Spoken Language Processing
Fgpeqw
No ratings yet
Introduction To Data Visualization With Matplotlib Chapter2
Document27 pages
Introduction To Data Visualization With Matplotlib Chapter2
Fgpeqw
No ratings yet
Introduction To Data Visualization With Seaborn Chapter1
Document26 pages
Introduction To Data Visualization With Seaborn Chapter1
Fgpeqw
No ratings yet
Introduction To Data Visualization With Seaborn Chapter3
Document32 pages
Introduction To Data Visualization With Seaborn Chapter3
Fgpeqw
No ratings yet
Chapter3 PDF
Document36 pages
Chapter3 PDF
Hana Banana
No ratings yet
Supervised learning pipelines: Overfitting and feature engineering
Document32 pages
Supervised learning pipelines: Overfitting and feature engineering
Fgpeqw
No ratings yet
Changing Plot Styles and Colors in Seaborn
Document54 pages
Changing Plot Styles and Colors in Seaborn
vivek kumar
No ratings yet
Introduction to Data Visualization with Matplotlib
Document30 pages
Introduction to Data Visualization with Matplotlib
Carolina Aravena
No ratings yet
Introduction To Data Visualization With Seaborn Chapter2
Document38 pages
Introduction To Data Visualization With Seaborn Chapter2
Fgpeqw
No ratings yet
Designing Machine Learning Workflows in Python Chapter3
Document42 pages
Designing Machine Learning Workflows in Python Chapter3
Fgpeqw
No ratings yet
Designing Machine Learning Workflows in Python Chapter2
Document39 pages
Designing Machine Learning Workflows in Python Chapter2
Fgpeqw
No ratings yet
Designing Machine Learning Workflows in Python Chapter4
Document38 pages
Designing Machine Learning Workflows in Python Chapter4
Fgpeqw
No ratings yet
Credit Risk Modeling in Python Chapter3
Document35 pages
Credit Risk Modeling in Python Chapter3
Fgpeqw
No ratings yet
Chapter1 PDF
Document37 pages
Chapter1 PDF
Zay Atia
No ratings yet
Credit Risk Modeling in Python Chapter4
Document35 pages
Credit Risk Modeling in Python Chapter4
Fgpeqw
No ratings yet
Customer Segmentation in Python Chapter3
Document25 pages
Customer Segmentation in Python Chapter3
Fgpeqw
No ratings yet
Cleaning Data With PySpark Chapter4
Document23 pages
Cleaning Data With PySpark Chapter4
Fgpeqw
No ratings yet
Cleaning Data With PySpark Chapter2
Document25 pages
Cleaning Data With PySpark Chapter2
Fgpeqw
No ratings yet
Credit Risk Modeling in Python Chapter1
Document27 pages
Credit Risk Modeling in Python Chapter1
Fgpeqw
No ratings yet
Credit Risk Modeling in Python Chapter2
Document36 pages
Credit Risk Modeling in Python Chapter2
Fgpeqw
No ratings yet
Cleaning Data With PySpark Chapter1
Document20 pages
Cleaning Data With PySpark Chapter1
Fgpeqw
0% (1)
Building Chatbots in Python Chapter2 PDF
Document41 pages
Building Chatbots in Python Chapter2 PDF
Fgpeqw
No ratings yet
Cleaning Data With PySpark Chapter3
Document25 pages
Cleaning Data With PySpark Chapter3
Fgpeqw
No ratings yet
Build Stateful Chatbots in Python
Document20 pages
Build Stateful Chatbots in Python
Fgpeqw
No ratings yet
Google Play Store Apps-Data Analysis and Ratings Prediction
Document10 pages
Google Play Store Apps-Data Analysis and Ratings Prediction
Anubhav Nath
No ratings yet
Clustering and Classification Methods in Unsupervised and Supervised Learning
Document27 pages
Clustering and Classification Methods in Unsupervised and Supervised Learning
Kalyan Varma
No ratings yet
Lab Workbook
Document160 pages
Lab Workbook
Oye Aj
No ratings yet
Unsupervised Handout
Document50 pages
Unsupervised Handout
Nilesh Singhal
No ratings yet
Computational Methods With Applications in Bioinformatics Analysis
Document233 pages
Computational Methods With Applications in Bioinformatics Analysis
siradanbilgiler
No ratings yet
An Introduction To Deep Clustering: Gopi Chand Nutakki, Behnoush Abdollahi, Wenlong Sun, and Olfa Nasraoui
Document17 pages
An Introduction To Deep Clustering: Gopi Chand Nutakki, Behnoush Abdollahi, Wenlong Sun, and Olfa Nasraoui
Amel Ksibi
No ratings yet
DM Practice
Document15 pages
DM Practice
66 Rohit Patil
No ratings yet
A Cooperative Binary-Clustering Framework Based On Majority Voting For Twitter Sentiment Analysis
Document13 pages
A Cooperative Binary-Clustering Framework Based On Majority Voting For Twitter Sentiment Analysis
saRIKA
No ratings yet
Clustering in R
Document12 pages
Clustering in R
Renuka
No ratings yet
Heatmap Instruction
Document9 pages
Heatmap Instruction
Nguyễn Hải Đăng
No ratings yet
Report
Document35 pages
Report
Niels
No ratings yet
K-Means Clustering and Related Algorithms: Ryan P. Adams
Document16 pages
K-Means Clustering and Related Algorithms: Ryan P. Adams
Nafi Siam
No ratings yet
Lipsa Thesis
Document31 pages
Lipsa Thesis
Rabindra Hansdah
No ratings yet
Detect and classify rice diseases with 93.33% accuracy
Document30 pages
Detect and classify rice diseases with 93.33% accuracy
Layla Miya
No ratings yet
Optimizing of Fuzzy C-Means Clustering Algorithm Using GA: Mohanad Alata, Mohammad Molhim, and Abdullah Ramini
Document6 pages
Optimizing of Fuzzy C-Means Clustering Algorithm Using GA: Mohanad Alata, Mohammad Molhim, and Abdullah Ramini
azharfaheem
No ratings yet
1) Introduction To Numpy, Pandas and Matplotlib
Document11 pages
1) Introduction To Numpy, Pandas and Matplotlib
anon_901462304
No ratings yet
Data Scientist: How To Become A
Document45 pages
Data Scientist: How To Become A
amol karape
100% (1)
Evaluation of BIRCH Clustering Algorithm For Big Data
Document5 pages
Evaluation of BIRCH Clustering Algorithm For Big Data
International Journal of Innovative Science and Research Technology
No ratings yet
C++ Armadillo Specifications
Document15 pages
C++ Armadillo Specifications
trisino
No ratings yet
Identifying Key Factors For Adopting Artificial in
Document34 pages
Identifying Key Factors For Adopting Artificial in
Yasser Sabri
No ratings yet
COMP1801 - Copy 1
Document18 pages
COMP1801 - Copy 1
SujiKrishnan
No ratings yet
Assignment ML
Document3 pages
Assignment ML
Ramaadyuti Battabyal
No ratings yet
MIDA1 AUT - Solutions
Document4 pages
MIDA1 AUT - Solutions
Gianluca Castrinesi
No ratings yet
Machine Learning Ebook
Document63 pages
Machine Learning Ebook
Ghost Rider
100% (1)
Clustering Package for Gaussian Mixture Models, K-Means, Mini-Batch-Kmeans, K-Medoids and Affinity Propagation
Document37 pages
Clustering Package for Gaussian Mixture Models, K-Means, Mini-Batch-Kmeans, K-Medoids and Affinity Propagation
lalaoui
No ratings yet
1 PB
Document23 pages
1 PB
Ayyubi Ahmad
No ratings yet
32 - Comparison of Clustering Techniques For Residential Load Profiles - Toussaint - 2019 - Resaltado
Document16 pages
32 - Comparison of Clustering Techniques For Residential Load Profiles - Toussaint - 2019 - Resaltado
Open Box Laptops
No ratings yet
Edureka Data Science Masters Program Curriculum
Document41 pages
Edureka Data Science Masters Program Curriculum
Meenal Luther Nhür
No ratings yet
A Fuzzy Decision Support System For Irrigation and Water Conservation in Agriculture
Document14 pages
A Fuzzy Decision Support System For Irrigation and Water Conservation in Agriculture
Abimanyu Lukman Alfatah
No ratings yet
Implementing Machine Learning Algorithms
Document43 pages
Implementing Machine Learning Algorithms
Pankaj Singh
100% (1)