Welcome to Scribd!

Bias-Variance Trade-Off

Uploaded by

0% found this document useful (0 votes)

13 views28 pages

This document discusses machine learning diagnostics and techniques for addressing bias and variance. It describes underfitting and overfitting models and how validation datasets can help evaluate models to avoid overfitting. Regularization is presented as a way to prevent overfitting by adding a regularization term. The document discusses automatically choosing the regularization parameter value and using learning curves to diagnose bias and variance issues.

Original Description:

Original Title

Bias-Variance trade-off

Copyright

Available Formats

PPTX, PDF, TXT or read online from Scribd

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Report this Document

Copyright:

Available Formats

Download as PPTX, PDF, TXT or read online from Scribd

Flag for inappropriate content

0% found this document useful (0 votes)

13 views28 pages

Bias-Variance Trade-Off

Uploaded by

Roudra Chakraborty

Copyright:

Available Formats

Download as PPTX, PDF, TXT or read online from Scribd

Flag for inappropriate content

Jump to Page

You are on page 1of 28

Search inside document

ML diagnostics

- Regularization
- Bias & Variance
Training Set

70%

30% = # test
Test Set example
Under-fitting & Overfitting
of the model
“Underfit” “Just Right” “Overfit”
“High Bias & Low Variance” “Low Bias & High Variance”

• Underfit: Neither model the training data nor generalize to new data, generating a high
error rate on both the training set and unseen data.

• Overfit: If we have too many features, the learned hypothesis may fit the training dataset
very well, but fail to generalize on new examples.
“Underfit” “Just Right” “Overfit”
“High Bias & Low Variance” “Low Bias & High Variance”

• Underfit: Neither model the training data nor generalize to new data, generating a high
error rate on both the training set and unseen data.

• Overfit: If we have too many features, the learned hypothesis may fit the training dataset
very well, but fail to generalize on new examples.
 How to get the best model?
d = Order of the Polynomial function

(1)
d=1 𝜃 → 𝐽 𝑇𝑒𝑠𝑡 (𝜃¿¿ (1))¿
(2 )
d=2 𝜃 → 𝐽 𝑇𝑒𝑠𝑡 (𝜃¿¿(2))¿
d=3

(10)
d = 10 𝜃 → 𝐽 𝑇𝑒𝑠𝑡 (𝜃¿¿ (10))¿

d=5
• One best way is to use ”Validation dataset” when evaluating
machine learning algorithms in order to avoid or limit overfitting.

M=#
training
example

60% Training Set

= # cv
example

Cross-validation Set
20%
(CV)
Test Set
20%
(Unseen dataset )
d = Order of the Polynomial function

𝑴𝒊𝒏 𝜽 ( 𝑱 ( 𝜽 ) )
(1)
d=1 𝜃 → 𝐽 𝑐𝑣 (𝜃¿¿(1))¿
(2 )
d=2 𝜃 → 𝐽 𝑐𝑣 (𝜃¿¿(2))¿
d=3

d = 10 (10)
𝜃 → 𝐽 𝑐𝑣 (𝜃¿¿ (10))¿

d=4

• We use validation set (cross-validation) to select the model

(best hypothesis)
 Diagnosing Bias Vs. Variance
𝒐𝒓 , 𝑱 𝒕𝒆𝒔𝒕 ( 𝜽 )

𝑱 𝒄𝒗 ( 𝜽𝒐𝒓
) , 𝑱 𝒕𝒆𝒔𝒕 ( 𝜽

𝑱 𝒕𝒓𝒂𝒊𝒏 ( 𝜽 )

d=2
d=1 d = 10
(d = 1)
is high

High is also high

Variance
(d = 5)
High
Bias is low
d=5 - > fitting training set well
d=1
is also high
 Regularization and Bias / Variance
• Regularization helps preventing overfitting

Regularization
term
 Regularization and Bias / Variance
 How to automatically choose the value of λ ?

𝑴𝒊𝒏 𝜽 ( 𝑱 ( 𝜽 ) ) (1)
𝜃 → 𝐽 𝑐𝑣 ( 𝜃¿¿ (1)) ¿
𝑴𝒊𝒏 𝜽 ( 𝑱 ( 𝜽 ) ) (2 )
𝜃 → 𝐽 𝑐𝑣 ( 𝜃¿¿ (2)) ¿

(10)
𝜃 → 𝐽 𝑐𝑣 (𝜃¿¿ (10))¿
𝑱 𝒕𝒆𝒔𝒕 ( 𝜽¿ ¿(𝟓))¿
High Variance High Bias

“Just Right”

𝐽 𝑐𝑣 (θ)

𝐽 𝑡𝑟𝑎𝑖𝑛 (θ)

Large λ
Small λ

Choose the best value of λ

 Learning curves

m=1
m=2

m=3 m=4

𝑱 𝒄𝒗 (𝜽)
m=5 m=6

𝑱 𝒕𝒓𝒂𝒊𝒏 (𝜽 )
𝑱 𝒄𝒗 (𝜽)

Gap

𝑱 𝒕𝒓𝒂𝒊𝒏 (𝜽 )
 Summary

Fix high variance

Fix high variance
Fix high bias
Fix high bias
Fix high bias
Fix high variance

FDP Day 1 Regression V 1
Document29 pages
FDP Day 1 Regression V 1
Ajay Sharma
No ratings yet
Week 6 Lecture Notes
Document9 pages
Week 6 Lecture Notes
Ilhan Yunus
No ratings yet
Linear Regression
Document29 pages
Linear Regression
Soubhav Chaman
No ratings yet
Continuous Probability Distribution: Business Statistics Prepared By: Ikram-E-Khuda
Document31 pages
Continuous Probability Distribution: Business Statistics Prepared By: Ikram-E-Khuda
Ashar
No ratings yet
1 ModuleEcontent - Session5
Document24 pages
1 ModuleEcontent - Session5
devesh verma
No ratings yet
BIOM4025 - Statistical Modelling - QA Session 2
Document24 pages
BIOM4025 - Statistical Modelling - QA Session 2
Lauren Joslyn
No ratings yet
Applied Multivariate Statistics - Review
Document26 pages
Applied Multivariate Statistics - Review
MARCO ANTONIO Santiva?Ez Soto
No ratings yet
Lecture 1
Document21 pages
Lecture 1
Frank Sichimba
No ratings yet
MOOC Econometrics 4
Document3 pages
MOOC Econometrics 4
edison medardo
No ratings yet
Harolds Stats PDFs Cheat Sheet 2016
Document13 pages
Harolds Stats PDFs Cheat Sheet 2016
Hanbali Athari
No ratings yet
Specialized - Stem11 - Basic Calculus - Q4 - Clas3 - Solving Antiderivatives of A Function by Substitution Rule - V2 - Joseph Aurello
Document14 pages
Specialized - Stem11 - Basic Calculus - Q4 - Clas3 - Solving Antiderivatives of A Function by Substitution Rule - V2 - Joseph Aurello
Vienie Ramirez Badang
No ratings yet
CORRELATIONAL Formule
Document2 pages
CORRELATIONAL Formule
Irena
No ratings yet
Bagging and Boosting
Document32 pages
Bagging and Boosting
Mayank Chauhan
No ratings yet
Ic - Math 10 Q4 Week 5 Day 5
Document20 pages
Ic - Math 10 Q4 Week 5 Day 5
Jenjen Caballero Ricaplaza
50% (2)
Power and Sample Size (Statprimer Draft) : Confidence Interval For A Mean
Document5 pages
Power and Sample Size (Statprimer Draft) : Confidence Interval For A Mean
Salma El Marjiya-Villarreal
No ratings yet
Q4 LAS 4 Measures of Variability
Document34 pages
Q4 LAS 4 Measures of Variability
Ernesto S. Caseres Jr
No ratings yet
Preliminary Concepts In: Numerical Analysis
Document21 pages
Preliminary Concepts In: Numerical Analysis
Lingos Heavensbee
No ratings yet
MEC503 Lecture2
Document8 pages
MEC503 Lecture2
مصطفى عبدالله عبدالرحمن اغا
No ratings yet
E7 2021 FinalReview
Document85 pages
E7 2021 FinalReview
kong
No ratings yet
Applying Machine Learning
Document13 pages
Applying Machine Learning
Julia
No ratings yet
STATISTIC
Document23 pages
STATISTIC
nur ainun arsyad
No ratings yet
Formula Sheet For Final - Exam
Document1 page
Formula Sheet For Final - Exam
Flávia Pedrosa
No ratings yet
Formula Sheet For Final - Exam
Document1 page
Formula Sheet For Final - Exam
Isabel Eiras
No ratings yet
Things Mathematicians Know
Document32 pages
Things Mathematicians Know
Franklin Rambally
No ratings yet
Lab 4: Logistic Regression: PSTAT 131/231, Winter 2019
Document10 pages
Lab 4: Logistic Regression: PSTAT 131/231, Winter 2019
vidish laheri
No ratings yet
DERIVATIVE
Document8 pages
DERIVATIVE
Noel S. De Juan Jr.
No ratings yet
AP ECON 2500 Session 2
Document22 pages
AP ECON 2500 Session 2
Thuỳ Dung
No ratings yet
Linear Regression
Document26 pages
Linear Regression
Pulkit
No ratings yet
Q4 Basic Calculus 11 - Module 1
Document16 pages
Q4 Basic Calculus 11 - Module 1
Niña Lad
No ratings yet
2002 Multiple Choice Solutions
Document25 pages
2002 Multiple Choice Solutions
smemisovski22
No ratings yet
Descriptive Statistics II
Document24 pages
Descriptive Statistics II
JoseDSantos
No ratings yet
Reference Material - Linear - Regression
Document12 pages
Reference Material - Linear - Regression
sonal
100% (1)
BE Lab Manual 2016
Document90 pages
BE Lab Manual 2016
Pubg
No ratings yet
Math PPT Module 5
Document21 pages
Math PPT Module 5
emmah macal
No ratings yet
Mathematics in The Modern World: Instructor: Michael Angelo A. Lumauig
Document25 pages
Mathematics in The Modern World: Instructor: Michael Angelo A. Lumauig
Michael Angelo Lumauig
No ratings yet
HW3 張晏壬 R26104047
Document11 pages
HW3 張晏壬 R26104047
Yen-Jen Chang
No ratings yet
Standard Deviation and Coefficient of Standard Deviation
Document4 pages
Standard Deviation and Coefficient of Standard Deviation
vishnu krishna
No ratings yet
Finite Volume Method For Diffusion Problems
Document7 pages
Finite Volume Method For Diffusion Problems
Ikhmal Hisyam
No ratings yet
Lecture 1 As PP PDF
Document34 pages
Lecture 1 As PP PDF
احمد حمید کارسول عزیز
No ratings yet
Final Term Biostatistics PDF
Document7 pages
Final Term Biostatistics PDF
Sarmad Hussain
No ratings yet
MA111 Questions Packet
Document17 pages
MA111 Questions Packet
James
No ratings yet
Harolds Stats Distributions Cheat Sheet 2022
Document18 pages
Harolds Stats Distributions Cheat Sheet 2022
Jack London
No ratings yet
Stat13 Final Review
Document51 pages
Stat13 Final Review
Supraja Niranjan
No ratings yet
Stat13 Final Review
Document51 pages
Stat13 Final Review
Amey Stune
No ratings yet
Summary Mid Contents - 2023
Document31 pages
Summary Mid Contents - 2023
Tung Ho
No ratings yet
Lecture 05 - Measures of Dispersion
Document17 pages
Lecture 05 - Measures of Dispersion
ferassadadi10
No ratings yet
A12 Spring2024
Document5 pages
A12 Spring2024
sofia pillai
No ratings yet
Lab Sheet-1
Document8 pages
Lab Sheet-1
rj Opu
No ratings yet
Slide - 1 - Math-1151
Document25 pages
Slide - 1 - Math-1151
Dustbiner
No ratings yet
Changing Variables - Valentin Fadeev
Document27 pages
Changing Variables - Valentin Fadeev
Rae
No ratings yet
Sampling and Sample Size
Document51 pages
Sampling and Sample Size
Neil John
No ratings yet
Cbjemaco 14
Document9 pages
Cbjemaco 14
Fawaz Zaheer
No ratings yet
Inferential Statistics
Document19 pages
Inferential Statistics
iiyousefgame YT
No ratings yet
Maths Revision PDF
Document36 pages
Maths Revision PDF
Ronit manral
No ratings yet
L1 Limits
Document50 pages
L1 Limits
sanguanmara
No ratings yet
Machine Learning, Spring 2005
Document3 pages
Machine Learning, Spring 2005
deepanshu
No ratings yet
Machine Learning and Data Mining: Introduction to (Học máy và Khai phá dữ liệu)
Document26 pages
Machine Learning and Data Mining: Introduction to (Học máy và Khai phá dữ liệu)
Lộc Sẹo
No ratings yet
L9 Model Assessment
Document26 pages
L9 Model Assessment
Hieu Tien Trinh
No ratings yet
Matlab PDF
Document34 pages
Matlab PDF
Abhilash Mallikarjuna
No ratings yet
MCS-011: Problem Solving and Programming
From Everand
MCS-011: Problem Solving and Programming
Dr. DK Sukhani
No ratings yet
Module 4 SVM PCA Kmeans
Document101 pages
Module 4 SVM PCA Kmeans
Roudra Chakraborty
No ratings yet
Module 2 - DS I
Document94 pages
Module 2 - DS I
Roudra Chakraborty
No ratings yet
Module-2 - Assessing Accuracy of Model
Document24 pages
Module-2 - Assessing Accuracy of Model
Roudra Chakraborty
No ratings yet
Orientation - Basic Mathematics and Statistics - ND
Document33 pages
Orientation - Basic Mathematics and Statistics - ND
Roudra Chakraborty
No ratings yet
Orientation - Basic Mathematics and Statistics - Probability
Document48 pages
Orientation - Basic Mathematics and Statistics - Probability
Roudra Chakraborty
No ratings yet
Orientation - Basic Mathematics and Statistics - CG
Document15 pages
Orientation - Basic Mathematics and Statistics - CG
Roudra Chakraborty
No ratings yet
Orientation - Basic Mathematics and Statistics - CTD
Document35 pages
Orientation - Basic Mathematics and Statistics - CTD
Roudra Chakraborty
No ratings yet
Monges Method
Document22 pages
Monges Method
Upperwala Rai
No ratings yet
OptCourseNotes18 19
Document51 pages
OptCourseNotes18 19
Sarra Ben Hadj Braiek
No ratings yet
CHAPTER 1.4 Summarized Handout
Document8 pages
CHAPTER 1.4 Summarized Handout
Lovely Alabe
No ratings yet
TIME TABLE M.Phil-PhD CS Spring 2021 (Old Campus)
Document1 page
TIME TABLE M.Phil-PhD CS Spring 2021 (Old Campus)
hassan
No ratings yet
Solution Manual For Essentials of Investments 11th by Bodie
Document5 pages
Solution Manual For Essentials of Investments 11th by Bodie
AlisonHillqczf
100% (37)
BCSL 58 em
Document14 pages
BCSL 58 em
AnjnaKandari
No ratings yet
Theory of Regionalized Variable PDF
Document18 pages
Theory of Regionalized Variable PDF
sisi
No ratings yet
Mathematical and Computational Methods For Compressible Flow
Document8 pages
Mathematical and Computational Methods For Compressible Flow
macromolecule
No ratings yet
An Expert System Based On Optimized Stacked Support Vector Machines For Effective Diagnosis of Heart Disease
Document9 pages
An Expert System Based On Optimized Stacked Support Vector Machines For Effective Diagnosis of Heart Disease
Muzamil
No ratings yet
HW 2 Solution
Document10 pages
HW 2 Solution
SarahB
No ratings yet
p3 Mock 20211215
Document31 pages
p3 Mock 20211215
关皓月
No ratings yet
General Mathematics: Functions
Document11 pages
General Mathematics: Functions
Lea Grace Guleng
No ratings yet
Sitting Arrangement
Document3 pages
Sitting Arrangement
Birolal Jamatia
No ratings yet
Solution To Credit Assignment Problem in MLP. Rumelhart, Hinton and Relating To Economics)
Document14 pages
Solution To Credit Assignment Problem in MLP. Rumelhart, Hinton and Relating To Economics)
Rogelio Cañas
No ratings yet
Introduction To Algorithms: CSBP119 - Algorithms & Problem Solving
Document15 pages
Introduction To Algorithms: CSBP119 - Algorithms & Problem Solving
rafat damseh
No ratings yet
Channel Coding For Modern Communication Systems
Document4 pages
Channel Coding For Modern Communication Systems
Maryam
No ratings yet
Definition 5.1.1 (P. 268) : Calculus, 8/E by Howard Anton, Irl Bivens, and Stephen Davis
Document35 pages
Definition 5.1.1 (P. 268) : Calculus, 8/E by Howard Anton, Irl Bivens, and Stephen Davis
Cole
No ratings yet
Olevel Computer Science Revision Exam Paper
Document10 pages
Olevel Computer Science Revision Exam Paper
hussain
No ratings yet
Daa Lab Manual
Document28 pages
Daa Lab Manual
passion job
No ratings yet
1 Digital Control System Design 1.: Pole Assignment Method
Document56 pages
1 Digital Control System Design 1.: Pole Assignment Method
Amruth Thelkar
No ratings yet
Untitled66 - Jupyter Notebook
Document2 pages
Untitled66 - Jupyter Notebook
Gopala krishna Seelamneni
No ratings yet
Hybrid Machine Learning Algorithms For P
Document10 pages
Hybrid Machine Learning Algorithms For P
NicholasRahe
No ratings yet
C++ Lecture 14
Document15 pages
C++ Lecture 14
Sagni Lamessa
No ratings yet
Cambridge International AS & A Level: Computer Science 9618/23
Document20 pages
Cambridge International AS & A Level: Computer Science 9618/23
Soma Chowdhury Rosy
No ratings yet
Formula Sheet QT1
Document2 pages
Formula Sheet QT1
Cheeseong Lim
No ratings yet
Sugeno-Style Fuzzy Inference
Document23 pages
Sugeno-Style Fuzzy Inference
Byron Xavier Lima Cedillo
No ratings yet
Lec 28
Document11 pages
Lec 28
shailiayush
No ratings yet
Trustworthy AI: A Computational Perspective
Document55 pages
Trustworthy AI: A Computational Perspective
Nabila Hassan
No ratings yet
Laboratory Exercise 3: Discrete-Time Signals: Frequency-Domain Representations
Document27 pages
Laboratory Exercise 3: Discrete-Time Signals: Frequency-Domain Representations
Minh Tâm
No ratings yet
PS Sample
Document2 pages
PS Sample
Junxiong
No ratings yet