Welcome to Scribd!

A Quick Introduction To Machine Learning (Scaling) : Lecturer: John Guttag

Uploaded by

0% found this document useful (0 votes)

4 views10 pages

The document is a lecture on machine learning scaling techniques. It describes a dataset with 1000 patients characterized by 4 features and a binary outcome. Unsupervised clustering is performed on the raw features, which produces uneven clusters due to differences in feature ranges. Scaling the features so they each have a mean of 0 and standard deviation of 1 improves the clustering results by normalizing the feature value influences.

Original Description:

Original Title

ML-seg6

Copyright

Available Formats

PDF, TXT or read online from Scribd

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Report this Document

Copyright:

Available Formats

Download as PDF, TXT or read online from Scribd

Flag for inappropriate content

0% found this document useful (0 votes)

4 views10 pages

A Quick Introduction To Machine Learning (Scaling) : Lecturer: John Guttag

Uploaded by

Moamen

Copyright:

Available Formats

Download as PDF, TXT or read online from Scribd

Flag for inappropriate content

Jump to Page

You are on page 1of 10

Search inside document

A Quick Introduction to

Machine Learning
(Scaling)
Lecturer: John Guttag

6.00.2x Machine Learning

An Example
1000 patients with 4 features each
Heart rate in beats per minute
Number of past heart attacks
ST segment elevation (binary)
Age

Binary outcome based on features

Probabilistic, not deterministic
Roughly 31% positive
6.00.2x Machine Learning
A Sampling of Examples
P0755:[ 48. 1. 0. 62.]:1
P0383:[ 103. 1. 1. 99.]:1
P0849:[ 42. 1. 1. 92.]:1
P0188:[ 71. 2. 0. 58.]:0 Fraction of positives
P0061:[ 87. 1. 0. 79.]:0 in total population of
P0196:[ 52. 0. 0. 85.]:0 1000 was 0.312
P0280:[ 78. 0. 0. 81.]:0
P0178:[ 50. 1. 0. 59.]:1
P0497:[ 80. 0. 0. 58.]:0
P0742:[ 78. 2. 0. 72.]:1
P0527:[ 78. 1. 0. 60.]:0
P0915:[ 60. 2. 0. 57.]:1

6.00.2x Machine Learning

Cluster Using K-means (k = 3)
Fraction of positives in population = 0.312

Ran k-means 100 times and chose best clustering

Cluster of size 354 with fraction of positives = 0.338 (1.08x)

Cluster of size 322 with fraction of positives = 0.315 (1.01x)
Cluster of size 324 with fraction of positives = 0.281 (0.90x)

6.00.2x Machine Learning

What Happened?
Features have very different means and variance
Heart rate in beats per minute (μ = 70, σ = 15)
Number of past heart attacks (μ = 0.25, σ = 1.0)
ST segment elevation (binary)
Age (μ = 65, σ = 15)

HR and age have higher means & greater dynamic range

Euclidean distance will be biased towards them

Does this seem like a good idea?

6.00.2x Machine Learning

“No, No, a Thousand Times No”

6.00.2x Machine Learning

Rescale Features
Each variable has same mean and variance

x  x def scaleFeatures(vals):
x'  vals = pylab.array(vals)
x mean = sum(vals)/float(len(vals))
sd = stdDev(vals)
vals = vals - mean
return vals/sd
What is the new mean?
What is the new standard deviation?

6.00.2x Machine Learning

Testing Scaling
def testScaling(n, mean, std):
vals = []
for i in range(n):
vals.append(int(random.gauss(mean, std)))
print 'original values', vals
sVals = scaleAttrs(vals)
print '\n', 'scaled values', sVals
print '\n', 'new mean =', sum(sVals/len(vals))
print '\n', 'new sd =', stdDev(sVals)

testScaling(10, 25, 3)

6.00.2x Machine Learning

Testing Scaling
original values [22, 24, 21, 26, 18, 26, 22, 26,
27, 21]

scaled values [-0.46517657 0.25047969 -0.82300471

0.96613596 -1.89648911 0.96613596
-0.46517657 0.96613596 1.32396409 -0.82300471]

new mean = -2.22044604925e-16

new sd = 1.0

6.00.2x Machine Learning

The Real Test
Fraction of positives = 0.312

Clustering with unscaled features

Cluster of size 354 with fraction of positives = 0.338 (1.08x)
Cluster of size 322 with fraction of positives = 0.315 (1.01x)
Cluster of size 324 with fraction of positives = 0.281 (0.90x)

Clustering with scaled features

Cluster of size 324 with fraction of positives = 0.055 (0.18x)
Cluster of size 108 with fraction of positives = 0.335 (1.07x)
Cluster of size 568 with fraction of positives = 0.454 (1.45x)

6.00.2x Machine Learning

Raspberry Pi & Hacking & Computer Programming Languages-P2P PDF
Document152 pages
Raspberry Pi & Hacking & Computer Programming Languages-P2P PDF
lezaza
No ratings yet
Allison Prognostics Bodygears
Document4 pages
Allison Prognostics Bodygears
rbrto
100% (1)
Project - Machine Learning - Rajendra M Bhat
Document19 pages
Project - Machine Learning - Rajendra M Bhat
Rajendra Bhat
100% (10)
Principles of Digital Electronics
From Everand
Principles of Digital Electronics
Sapana Rane
No ratings yet
Elements of Art
Document2 pages
Elements of Art
jane barquin
100% (1)
MCS-011: Problem Solving and Programming
From Everand
MCS-011: Problem Solving and Programming
Dr. DK Sukhani
No ratings yet
Amazing Java: Learn Java Quickly
From Everand
Amazing Java: Learn Java Quickly
Andrei Besedin
No ratings yet
Fundamentals of Turbo Expanders
Document8 pages
Fundamentals of Turbo Expanders
Majid Sattar
No ratings yet
HYGUARD Safety Couplings
Document32 pages
HYGUARD Safety Couplings
ropmachado
No ratings yet
Z50 Brochure
Document2 pages
Z50 Brochure
raul
100% (1)
Solutions Manual: Ch08-Intro Methods Engrg-S: Review Questions
Document5 pages
Solutions Manual: Ch08-Intro Methods Engrg-S: Review Questions
Mahmoud Essam Ahmed
100% (1)
Case Study On Operation Research
Document26 pages
Case Study On Operation Research
Ravi Bhaisare
83% (6)
Fuzzy Decision Trees
Document9 pages
Fuzzy Decision Trees
ChakshuGrover
No ratings yet
Supervised learning pipelines: Overfitting and feature engineering
Document32 pages
Supervised learning pipelines: Overfitting and feature engineering
Fgpeqw
No ratings yet
Estimating Single Population Parameters: Exercises
Document17 pages
Estimating Single Population Parameters: Exercises
Ahmad Malak
No ratings yet
Khoirul Presentasi GA
Document47 pages
Khoirul Presentasi GA
Iwan Juanda
No ratings yet
Maxbox Starter66 Machine Learning4
Document10 pages
Maxbox Starter66 Machine Learning4
Max Kleiner
No ratings yet
Neural Networks: From Import
Document3 pages
Neural Networks: From Import
Anonymous VNu3ODGav
No ratings yet
Industrial Statistics - A Computer Based Approach With Python
Document140 pages
Industrial Statistics - A Computer Based Approach With Python
htapiaq
No ratings yet
Image Classifications
Document4 pages
Image Classifications
Anvesh Silagana
No ratings yet
Brain Tumor Classification
Document12 pages
Brain Tumor Classification
Ultra Bloch
No ratings yet
LAB4
Document5 pages
LAB4
dam huu khoa
No ratings yet
ML Lab6.Ipynb - Colaboratory
Document5 pages
ML Lab6.Ipynb - Colaboratory
Avi Srivastava
100% (1)
4-10 AIML
Document25 pages
4-10 AIML
Guna Seelan
No ratings yet
Decision Tree, Random Forest Ensemble Classification
Document37 pages
Decision Tree, Random Forest Ensemble Classification
Akshay kashyap
No ratings yet
Iris Claasification
Document1 page
Iris Claasification
Mohammad Faysal Khan
No ratings yet
Advanced Statistics-Project
Document16 pages
Advanced Statistics-Project
vivek r
No ratings yet
Applied Machine Learning For Engineers: Convolutional Neural Networks
Document7 pages
Applied Machine Learning For Engineers: Convolutional Neural Networks
Gilbe Testa
No ratings yet
Logistic Regression Models for Diabetes Classification
Document10 pages
Logistic Regression Models for Diabetes Classification
C T
No ratings yet
Logistic Regression Models for Diabetes Classification
Document10 pages
Logistic Regression Models for Diabetes Classification
C T
No ratings yet
Loading The Dataset: 'Diabetes - CSV'
Document4 pages
Loading The Dataset: 'Diabetes - CSV'
Divyani Chavan
No ratings yet
Random Effects Models
Document37 pages
Random Effects Models
hubik38
No ratings yet
Minutely
Document1 page
Minutely
Anonymous CDd9eukAxN
No ratings yet
STA60104 Tutorials
Document123 pages
STA60104 Tutorials
Sabrina Ngo
No ratings yet
Computational Techniques in Statistics: Exercise 1
Document5 pages
Computational Techniques in Statistics: Exercise 1
وجدان الشدادي
No ratings yet
New Microsoft Word Document
Document10 pages
New Microsoft Word Document
asss lll
No ratings yet
1 Stata How To For Randomization and Sampling
Document24 pages
1 Stata How To For Randomization and Sampling
Walter Noel
No ratings yet
Meaningful Predictive Modeling Week-4 Assignment Cancer Disease Prediction
Document6 pages
Meaningful Predictive Modeling Week-4 Assignment Cancer Disease Prediction
frankh
No ratings yet
Gradient Descent and Regularization for Neural Network Optimization
Document37 pages
Gradient Descent and Regularization for Neural Network Optimization
Kamakshi Subramaniam
No ratings yet
Output
Document12 pages
Output
miftahul irfan
No ratings yet
Diabetes Machine Learning Case Study
Document10 pages
Diabetes Machine Learning Case Study
Abhising
100% (1)
Generative AI Binary Classification
Document7 pages
Generative AI Binary Classification
Cyborg Ultra
No ratings yet
Initialization
Document16 pages
Initialization
lex
No ratings yet
R19C076 - Chanukya Gowda K - Mlda - Assignment-2
Document19 pages
R19C076 - Chanukya Gowda K - Mlda - Assignment-2
Chanukya Gowda k
No ratings yet
Basic Statistics - 1
Document21 pages
Basic Statistics - 1
Shravan kumarssk
No ratings yet
Case Study - Classifier
Document5 pages
Case Study - Classifier
Stuti Singh
No ratings yet
I Avaliação Parcial - 25.0 PTS - Gabarito
Document9 pages
I Avaliação Parcial - 25.0 PTS - Gabarito
Pedro Carvalho
No ratings yet
Scikit Learn What Were Covering
Document15 pages
Scikit Learn What Were Covering
Raiyan Zannat
No ratings yet
Logistic Regression
Document49 pages
Logistic Regression
Akash M K
No ratings yet
Cross Validation Techniques for Evaluating Machine Learning Models
Document4 pages
Cross Validation Techniques for Evaluating Machine Learning Models
Gabriel Gheorghe
No ratings yet
Logistic Regression
Document49 pages
Logistic Regression
tamim habyby
No ratings yet
Machine Learning Notes
Document27 pages
Machine Learning Notes
abdhatemsh
No ratings yet
MHA 610 Week 4 Assignment
Document7 pages
MHA 610 Week 4 Assignment
this hihi
No ratings yet
C1 W2 Lab05 Sklearn GD Soln
Document3 pages
C1 W2 Lab05 Sklearn GD Soln
Srinidhi P
No ratings yet
Logistic Regression Multiclass Classification
Document6 pages
Logistic Regression Multiclass Classification
duryodhan sahoo
No ratings yet
Fault Detection Using Data Based Models
Document14 pages
Fault Detection Using Data Based Models
Pierpaolo Vergati
No ratings yet
SurvivalwithR PDF
Document28 pages
SurvivalwithR PDF
Gusti Firmando
No ratings yet
The Problem of Overfitting
Document40 pages
The Problem of Overfitting
Sahil Kaushish
No ratings yet
Practical - 5 - 52
Document4 pages
Practical - 5 - 52
Royal Empire
No ratings yet
Artificial Neural Networks For Beginners
Document15 pages
Artificial Neural Networks For Beginners
Anonymous Ph4xtYLmK
No ratings yet
ICETIS 2021: Comparing Performances of Jaya and Cuckoo Search Algorithms
Document14 pages
ICETIS 2021: Comparing Performances of Jaya and Cuckoo Search Algorithms
Mashuk Ahmed
No ratings yet
Honda Company Receipts Analysis and Forecasting
Document3 pages
Honda Company Receipts Analysis and Forecasting
hinabaseerat
No ratings yet
KNN and Naive Bayes Classifiers for Iris Data
Document5 pages
KNN and Naive Bayes Classifiers for Iris Data
test
No ratings yet
K nearest neighbours
Document4 pages
K nearest neighbours
bunsglazing135
No ratings yet
20it113 Logisticregression ML
Document14 pages
20it113 Logisticregression ML
555 FF
No ratings yet
Jeffrey Williams (20221013) 4
Document27 pages
Jeffrey Williams (20221013) 4
JEFFREY WILLIAMS P M 20221013
No ratings yet
Image Processing And Acquisition Using Python
From Everand
Image Processing And Acquisition Using Python
successkpk
No ratings yet
User Name Profile Attached Level of Licenses Password: Maximo1
Document1 page
User Name Profile Attached Level of Licenses Password: Maximo1
Moamen
No ratings yet
A Quick Introduction To Machine Learning: Lecturer: John Guttag
Document13 pages
A Quick Introduction To Machine Learning: Lecturer: John Guttag
Moamen
No ratings yet
A Quick Introduction To Machine Learning (Hierarchical Clustering)
Document12 pages
A Quick Introduction To Machine Learning (Hierarchical Clustering)
Moamen
No ratings yet
A Quick Introduction To Machine Learning (Clustering) : Lecturer: John Guttag
Document15 pages
A Quick Introduction To Machine Learning (Clustering) : Lecturer: John Guttag
Moamen
No ratings yet
A Quick Introduction To Machine Learning (K-Means Clustering)
Document19 pages
A Quick Introduction To Machine Learning (K-Means Clustering)
Moamen
No ratings yet
Bolt Depot - Common Metric Thread Pitches - Standard, Fine, Super Fine, JIS
Document2 pages
Bolt Depot - Common Metric Thread Pitches - Standard, Fine, Super Fine, JIS
Moamen
No ratings yet
Module 5: Data Analysis and Results Communication
Document58 pages
Module 5: Data Analysis and Results Communication
Moamen
No ratings yet
A Quick Introduction To Machine Learning: Lecturer: John Guttag
Document9 pages
A Quick Introduction To Machine Learning: Lecturer: John Guttag
Moamen
No ratings yet
Fundamentals of Self-Operated Regulators
Document7 pages
Fundamentals of Self-Operated Regulators
Moamen
No ratings yet
TOT Project Internet Addiction
Document19 pages
TOT Project Internet Addiction
Moamen
No ratings yet
RB Flexible Coupling: The Standard Range Comprises
Document12 pages
RB Flexible Coupling: The Standard Range Comprises
Moamen
No ratings yet
Chapter Initial Interest Meeting - New Brand - 1
Document17 pages
Chapter Initial Interest Meeting - New Brand - 1
Moamen
No ratings yet
The Relationships Between The Pillars of TPM and TQM and Manufacturing Performance Using Structural Equation Modeling
Document17 pages
The Relationships Between The Pillars of TPM and TQM and Manufacturing Performance Using Structural Equation Modeling
Moamen
No ratings yet
Ac 2012-3113: An Example Mapping of The Four Pillars of Manufacturing Engineering Onto An Existing Accredited Program
Document19 pages
Ac 2012-3113: An Example Mapping of The Four Pillars of Manufacturing Engineering Onto An Existing Accredited Program
Moamen
No ratings yet
Class 1
Document48 pages
Class 1
Moamen
No ratings yet
Rack and Pinion Quarter-Turn Actuators - Type F1A, F1F and F1O
Document16 pages
Rack and Pinion Quarter-Turn Actuators - Type F1A, F1F and F1O
Moamen
No ratings yet
Welcome To Minitab 17!: Minitab 17 Offers Numerous New Features and Enhancements Including Improvements To
Document35 pages
Welcome To Minitab 17!: Minitab 17 Offers Numerous New Features and Enhancements Including Improvements To
Moamen
No ratings yet
2013 Tools and Equipment
Document14 pages
2013 Tools and Equipment
Anonymous t50et5
No ratings yet
11 - Oil Heat Exchanger
Document4 pages
11 - Oil Heat Exchanger
Moamen
No ratings yet
Welding Tool List
Document1 page
Welding Tool List
desrytandi
No ratings yet
82400/82410 2/2-Way Diaphragm Valves DN 8 ... 50, G1/4 ... 2, 1 1/4 ... 2 NPT High Flow Rate Damped Operation Functional Compact Design Solenoid Interchangeable Without Tools (
Document4 pages
82400/82410 2/2-Way Diaphragm Valves DN 8 ... 50, G1/4 ... 2, 1 1/4 ... 2 NPT High Flow Rate Damped Operation Functional Compact Design Solenoid Interchangeable Without Tools (
Moamen
No ratings yet
Oxygen System - Thread Sealant
Document2 pages
Oxygen System - Thread Sealant
Moamen
No ratings yet
DC8016 Product Information Guide
Document24 pages
DC8016 Product Information Guide
Moamen
No ratings yet
附件 MP三杆阀
Document5 pages
附件 MP三杆阀
Moamen
No ratings yet
Mechanical Tools & Consumables
Document4 pages
Mechanical Tools & Consumables
Moamen
0% (1)
Size Condensate Traps Correctly
Document1 page
Size Condensate Traps Correctly
Walter J Naspirán Castañeda
No ratings yet
Fabric Brochure Letter Rev2 Web PDF
Document28 pages
Fabric Brochure Letter Rev2 Web PDF
Moamen
No ratings yet
BDA Simp Tie
Document2 pages
BDA Simp Tie
deekshithj Shetty
No ratings yet
Computer Icons: Pictures Icons Images Shortcuts Files Programs Different Similar
Document1 page
Computer Icons: Pictures Icons Images Shortcuts Files Programs Different Similar
Cristina
No ratings yet
Metodologias Implementacion ERP
Document8 pages
Metodologias Implementacion ERP
Carolina Orellana Morales
No ratings yet
Computer Science 1
Document61 pages
Computer Science 1
deepanjal shrestha
No ratings yet
RSView32 - SE Idle Detect ActiveX Control in FactoryTalk View SE or RSView32
Document4 pages
RSView32 - SE Idle Detect ActiveX Control in FactoryTalk View SE or RSView32
Jose Sierra
No ratings yet
Python 3 Oops Hands On
Document7 pages
Python 3 Oops Hands On
rajesh
No ratings yet
Quadratic Functions Chapter
Document17 pages
Quadratic Functions Chapter
Cordova E Manuel
No ratings yet
Characteristics of Appropriate Instructional Materials
Document26 pages
Characteristics of Appropriate Instructional Materials
GOODWIN GALVAN
No ratings yet
Implementing HP Helion Openstack® On HP Bladesystem
Document39 pages
Implementing HP Helion Openstack® On HP Bladesystem
dz
No ratings yet
Class Project P1 - Ph.1 - Initiating
Document96 pages
Class Project P1 - Ph.1 - Initiating
Montellia Gant
No ratings yet
Discrete Multiobjective Grey Wolf Algorithm Based Optimal Sizing and Sensitivity Analysis of PV-Wind-Battery System For Rural Telecom Towers
Document9 pages
Discrete Multiobjective Grey Wolf Algorithm Based Optimal Sizing and Sensitivity Analysis of PV-Wind-Battery System For Rural Telecom Towers
Laura Nicoleta
No ratings yet
DX Diag
Document34 pages
DX Diag
Chrisma
No ratings yet
Excel Literature Review Template
Document4 pages
Excel Literature Review Template
aflstezqg
100% (1)
KPMG Digital Nexus Brochure - July 2019 - Web
Document4 pages
KPMG Digital Nexus Brochure - July 2019 - Web
S M SHEKAR AND CO
No ratings yet
Acpc
Document13 pages
Acpc
Vishvas Suthar
No ratings yet
Chapter 5
Document21 pages
Chapter 5
oduniyiabim
No ratings yet
SIPART DR20 Compact Controller Project Planning Manual
Document2 pages
SIPART DR20 Compact Controller Project Planning Manual
Davlos Ing
No ratings yet
Equipment List: Leica iCON Gps 80
Document12 pages
Equipment List: Leica iCON Gps 80
Michel Mvoandji
No ratings yet
Huffman coding algorithm explained
Document4 pages
Huffman coding algorithm explained
jaj
No ratings yet
BX-B2 Semi-Automatic Bottle Blowing Machine Taizhou Factory
Document4 pages
BX-B2 Semi-Automatic Bottle Blowing Machine Taizhou Factory
Arianto
No ratings yet
Mechatronic Systems Catalog: German - English
Document104 pages
Mechatronic Systems Catalog: German - English
Vent system Сервис
No ratings yet
Inequalities - One Shot by NV Sir #BounceBack 2
Document158 pages
Inequalities - One Shot by NV Sir #BounceBack 2
chansiray7870
No ratings yet
Ohm Law
Document8 pages
Ohm Law
leislly
No ratings yet
TOPOLOGY
Document9 pages
TOPOLOGY
Leonardo Noran Jr
No ratings yet
Tij1o0 3d Modelling Postcard Project Rubric 2020
Document1 page
Tij1o0 3d Modelling Postcard Project Rubric 2020
api-251973159
No ratings yet