INT305 Machine Learning Linear Methods For Regression, Optimization

Overview
INT305 Machine Learning

Lecture 2
Linear Methods for Regression, Optimization
Jimin Xiao
Department Intelligence Science
Jimin.xiao@xjtlu.edu.cn
Supervised Learning Setup Linear Regression - Model

What is Linear? 1 feature vs D features Linear Regression
Linear Regression - Loss Function Vectorization

Vectorization Vectorization
Vectorization Solving the Minimization Problem

Direct Solution I: Linear Algebra Direct Solution I: Linear Algebra
Direct Solution II: Calculus Direct Solution II: Calculus

Direct Solution II: Calculus Direct Solution II: Calculus
Feature Mapping (Basis Expansion) Polynomial Feature Mapping

Polynomial Feature Mapping with M = 0 Polynomial Feature Mapping with M = 1
Polynomial Feature Mapping with M = 3 Polynomial Feature Mapping with M = 9

Model Complexity and Generalization Model Complexity and Generalization
Regularization L2 Regularization
L2 Regularization L2 Regularized Least Squares: Ridge regression
Conclusion so far Gradient Descent

Gradient Descent Gradient Descent
Gradient Descent for Linear Regression Gradient Descent under the L2 Regularization
Learning Rate (Step Size) Training Curves
Stochastic Gradient Descent Stochastic Gradient Descent

Stochastic Gradient Descent Stochastic Gradient Descent
SGD Learning Rate Conclusion

Overview

Lecture 3
Linear Classifiers, Logistic Regression, Multiclass Classification
Jimin Xiao
Overview Simplifications
Examples Examples
Examples The Geometric Picture

The Geometric Picture The Geometric Picture
The Geometric Picture Summary | Binary Linear Classifiers

Towards Logistic Regression Loss Functions
Attempt 1: 0-1 loss Attempt 1: 0-1 loss

Attempt 1: 0-1 loss Attempt 2: Linear Regression
Attempt 2: Linear Regression Attempt 2: Linear Regression

Attempt 3: Logistic Activation Function Attempt 3: Logistic Activation Function
Logistic Regression Logistic Regression

Gradient Descent for Logistic Regression Gradient of Logistic Loss
Gradient Descent for Logistic Regression Multiclass Classification

Overview Multiclass Classification
Multiclass Classification Multiclass Linear Classification

Multiclass Linear Classification Softmax Regression
Softmax Regression Softmax Regression

Prove the gradient ? Limits of Linear Classification
Limits of Linear Classification Limits of Linear Classification

Next time...

Lecture 4
Support Vector Machine, SVM Loss and Softmax Loss
Jimin Xiao
Binary Classification with a Linear Model Zero-One Loss

Separating Hyperplanes Separating Hyperplanes
Separating Hyperplanes Separating Hyperplanes

Optimal Separating Hyperplane Geometry of Points and Planes
Geometry of Points and Planes Maximizing Margin as an Optimization Problem

Maximizing Margin as an Optimization Problem Maximizing Margin as an Optimization Problem
Maximizing Margin as an Optimization Problem Non-Separable Data Points

Maximizing Margin for Non-Separable Data Points Maximizing Margin for Non-Separable Data Points
Maximizing Margin for Non-Separable Data Points From Margin Violation to Hinge Loss
From Margin Violation to Hinge Loss Multiclass SVM Loss
Multiclass SVM Loss Multiclass SVM Loss


Multiclass SVM Loss Softmax

Softmax Softmax
Softmax Softmax
Softmax Softmax
Softmax Softmax
Softmax Softmax
SVM & Softmax SVM & Softmax

SVM & Softmax

Lecture 5
Neural Network and Back Propagation
Jimin Xiao
Neural network Neural network

Neural network Neural network
Activation functions Neural network

Neural network Gradient Descent
Computational Graph Computational Graph

Computational Graph Example 1
Example 1 Example 1
Example 1 Example 1
Example 1 Example 1
Example 1 Example 1
Example 1 Example 1
Example 1 Chain rule
Chain rule Chain rule





Sigmoid Sigmoid
Pattern in backward flow Exercise 1
Pooling units take n values 𝑥 , i ∈ [1, n] and compute a scalar

output whose value is invariant to permutations of the inputs.
1. The Lp-pooling module takes positive inputs and
1
computes y = ( 𝑥 ) , assuming we know that 𝑦 = ,
𝑦
what is 𝑥 = ?
𝑥
2. The log-average module computes y=
1 1
ln( exp(𝛽𝑥 )) , assuming we know that 𝑦 = ,
𝛽 𝑦
what is 𝑥 = ?
𝑥
Gradients for vector Gradients for vector





Gradients for vector

INT305 Machine Learning Linear Methods For Regression, Optimization

Uploaded by

Document Information

Original Description:

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

INT305 Machine Learning Linear Methods For Regression, Optimization

Uploaded by

Copyright:

Available Formats

Overview

INT305 Machine Learning

Supervised Learning Setup Linear Regression - Model

Linear Regression - Loss Function Vectorization

Vectorization Solving the Minimization Problem

Direct Solution II: Calculus Direct Solution II: Calculus

Feature Mapping (Basis Expansion) Polynomial Feature Mapping

Polynomial Feature Mapping with M = 3 Polynomial Feature Mapping with M = 9

Conclusion so far Gradient Descent

Stochastic Gradient Descent Stochastic Gradient Descent

SGD Learning Rate Conclusion

INT305 Machine Learning

Examples The Geometric Picture

The Geometric Picture Summary | Binary Linear Classifiers

Attempt 1: 0-1 loss Attempt 1: 0-1 loss

Attempt 2: Linear Regression Attempt 2: Linear Regression

Logistic Regression Logistic Regression

Gradient Descent for Logistic Regression Multiclass Classification

Multiclass Classification Multiclass Linear Classification

Softmax Regression Softmax Regression

Limits of Linear Classification Limits of Linear Classification

INT305 Machine Learning

Binary Classification with a Linear Model Zero-One Loss

Separating Hyperplanes Separating Hyperplanes

Geometry of Points and Planes Maximizing Margin as an Optimization Problem

Maximizing Margin as an Optimization Problem Non-Separable Data Points

Multiclass SVM Loss Multiclass SVM Loss

Multiclass SVM Loss Multiclass SVM Loss

Multiclass SVM Loss Softmax

SVM & Softmax SVM & Softmax

INT305 Machine Learning

Neural network Neural network

Activation functions Neural network

Computational Graph Computational Graph

Chain rule Chain rule

Chain rule Chain rule

Chain rule Chain rule

Chain rule Chain rule

Chain rule Chain rule

Pattern in backward flow Exercise 1

Pooling units take n values 𝑥 , i ∈ [1, n] and compute a scalar

Gradients for vector Gradients for vector

Gradients for vector Gradients for vector

Gradients for vector Gradients for vector

Gradients for vector Gradients for vector

Gradients for vector Gradients for vector

You might also like