Optimizer

Uploaded by

SANJIDA AKTER

0% found this document useful (0 votes)

1 views2 pages

Original Title

4. Optimizer

Copyright

Available Formats

PDF, TXT or read online from Scribd

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Report this Document

Copyright:

Available Formats

Download as PDF, TXT or read online from Scribd

Flag for inappropriate content

0% found this document useful (0 votes)

1 views2 pages

Optimizer

Uploaded by

SANJIDA AKTER

Copyright:

Available Formats

Download as PDF, TXT or read online from Scribd

Flag for inappropriate content

Jump to Page

You are on page 1of 2

Search inside document

Stochastic Gradient Descent

Compute gradient estimate Note: Reduce Dependency

1
𝐠 ← + ∇𝛉
𝑚
𝐿(𝑓(𝐱 ; 𝛉), 𝐲 ) Challenge: Non Convex
Apply update Problem, Slow Convergence
𝛉 ← 𝛉 − 𝜖𝐠
Use sample randomly or in random batches instead of using complete data at each update
Depend only on local gradient

Momentum
Compute gradient estimate
1
Note: Faster Convergence,
𝐠 ← + ∇𝛉
𝑚
𝐿(𝑓(𝐱 ; 𝛉), 𝐲 )
Reduced Oscillation
Compute velocity update
Challenge: Blindly follow
𝐯 ← 𝛼𝐯 − 𝜖𝐠
slops
Apply update
𝛉←𝛉+𝐯
Faster near minima, avoid slow convergence

Nesterov momentum
Compute interim update
𝛉 ← 𝛉 + 𝛼𝐯 Note: Faster Convergence,
Compute gradient (at interim point)
1 Know where it is going
𝐠←+ ∇ 𝐿(𝑓 𝐱 ; 𝛉 , 𝐲 )
𝑚 𝛉 Challenge: Not Adaptive
Compute velocity update
𝐯 ← 𝛼𝐯 − 𝜖𝐠
Apply update
𝛉←𝛉+𝐯

AdaGrad
Compute gradient estimate
1
𝐠←+ ∇
𝑚 𝛉
𝐿(𝑓(𝐱 ; 𝛉), 𝐲 ) Note: Adaptive
Accumulate squared gradient Challenge: Keeps going,
𝐫 ← 𝐫 + 𝐠⨀𝐠
Compute parameter update (Division and square root applied element-wise) Learning Rate shrinks
𝜖
𝚫𝛉 ← − ⨀𝐠
𝛿 + √𝐫
Apply update
𝛉 ← 𝛉 + 𝚫𝛉
Learning rate is adaptive, slows down near minima

RMSProp
Compute gradient estimate
1
𝐠←+ ∇ 𝐿(𝑓(𝐱 ; 𝛉), 𝐲 )
𝑚 𝛉
Accumulate squared gradient
𝐫 ← 𝜌𝐫 + (1 − 𝜌)𝐠⨀𝐠
Compute parameter update (Division and square root applied element-wise)
𝜖
𝚫𝛉 ← − ⨀𝐠
𝛿 + √𝐫
Apply update
𝛉 ← 𝛉 + 𝚫𝛉

RMSProp with Nesterov momentum

Compute interim update
𝛉 ← 𝛉 + 𝛼𝐯
Compute gradient (at interim point)
1
𝐠←+ ∇ 𝐿(𝑓 𝐱 ; 𝛉 , 𝐲 )
𝑚 𝛉
Accumulate squared gradient
𝐫 ← 𝜌𝐫 + (1 − 𝜌)𝐠⨀𝐠
Compute velocity update
𝜖
𝐯 ← 𝛼𝐯 − ⨀𝐠
𝛿 + √𝐫
Apply update
𝛉←𝛉+𝐯
Use two knobs to adapt learning

Adam
Compute gradient estimate Note: adaptive
1
𝐠←+ ∇ 𝐿(𝑓(𝐱 ; 𝛉), 𝐲 )
𝑚 𝛉
𝑡 ←𝑡+1
Update biased first moment estimate
𝐬 ← 𝜌 𝐬 + (1 − 𝜌 )𝐠
Update biased second moment estimate
𝐫 ← 𝜌 𝐫 + (1 − 𝜌 )𝐠⨀𝐠
Correct bias in first moment
𝐬
𝐬 ←
1−𝜌
Correct bias in second moment
𝐫
𝐫 ←
1−𝜌
Compute parameter update (Division and square root applied element-wise)
𝜖
𝚫𝛉 ← − ⨀𝐬
𝛿+ 𝐫
Apply update
𝛉 ← 𝛉 + 𝚫𝛉

Use same rule for each step, no special case for initialization

Ref. Book: Chapter 8.3 & 8.5, Deep Learning. Ian Goodfellow, Yoshua Bengio and
Aaron Courville

Fanuc Terminal Type I/O Module Connecting Manual
Document40 pages
Fanuc Terminal Type I/O Module Connecting Manual
Cristobal Perez
No ratings yet
6183.2105.02-01 - VCS-4G - 6.0 Architecture Manual
Document148 pages
6183.2105.02-01 - VCS-4G - 6.0 Architecture Manual
landry Nowaruhanga
0% (1)
Session 1
Document13 pages
Session 1
aditya wisnugraha
0% (1)
How I Create Growth Hacking Plans For Startups For $10,000 - + TOP 300 Growth Hacks You Can Put Into Practice Right Away PDF
Document553 pages
How I Create Growth Hacking Plans For Startups For $10,000 - + TOP 300 Growth Hacks You Can Put Into Practice Right Away PDF
Stanley
No ratings yet
Gradient Descent: Disclaimer: This PPT Is Modified Based On Hung-Yi Lee
Document38 pages
Gradient Descent: Disclaimer: This PPT Is Modified Based On Hung-Yi Lee
aniketshrimal986749
No ratings yet
UnderstandingNonconvexOptimization V5 PDF
Document95 pages
UnderstandingNonconvexOptimization V5 PDF
Saheba Shaik
No ratings yet
Anthony PDF
Document33 pages
Anthony PDF
Quang Thang
No ratings yet
Optimization Problem
Document21 pages
Optimization Problem
Lyes Br
No ratings yet
Implement Neural Networks Using Keras and Pytorch: Liang Liang
Document32 pages
Implement Neural Networks Using Keras and Pytorch: Liang Liang
raverita
No ratings yet
AML 04 Backpropagation
Document26 pages
AML 04 Backpropagation
Vaibhav
No ratings yet
17 Fluidsim
Document28 pages
17 Fluidsim
Shahid Islam
No ratings yet
Convolutional Neural Networks
Document46 pages
Convolutional Neural Networks
Lamis Ahmad
100% (1)
Lec 6
Document154 pages
Lec 6
cheint
No ratings yet
Regression
Document17 pages
Regression
Renhe SONG
No ratings yet
E7 2021 FinalReview
Document85 pages
E7 2021 FinalReview
kong
No ratings yet
Convolutional Neural Networks
Document79 pages
Convolutional Neural Networks
Lamis Ahmad
No ratings yet
MAE2404 Exam Sem2 2017 Aide Memoire
Document4 pages
MAE2404 Exam Sem2 2017 Aide Memoire
Towenland
No ratings yet
Part 1.3. Optimazation of Learning Algorithms
Document14 pages
Part 1.3. Optimazation of Learning Algorithms
Việt Hoàng
No ratings yet
Vision Tracking System
Document46 pages
Vision Tracking System
李金良
No ratings yet
Lecture 8 Gradient Descent For Non-Convex Functions
Document21 pages
Lecture 8 Gradient Descent For Non-Convex Functions
Utkarsh Bhalode
No ratings yet
Pagina 1
Document1 page
Pagina 1
mariana mourão
No ratings yet
COMP 4211 - Machine Learning
Document19 pages
COMP 4211 - Machine Learning
Linh Ta
No ratings yet
Inverters: Eng. Ibrahim Mahmoud Ibrahim
Document9 pages
Inverters: Eng. Ibrahim Mahmoud Ibrahim
Mahmoud A. Aboulhasan
No ratings yet
Linear Regression With Multiple Variables: Reading Material: Part 1 of Lecture Notes 1
Document24 pages
Linear Regression With Multiple Variables: Reading Material: Part 1 of Lecture Notes 1
M.Talha Javed
No ratings yet
Support Vector Machines: Large Margin Classifier
Document17 pages
Support Vector Machines: Large Margin Classifier
Baria Mubashar
No ratings yet
Phys25 1-Midterms PDF
Document4 pages
Phys25 1-Midterms PDF
julianne sanchez
No ratings yet
Regression PDF
Document37 pages
Regression PDF
Baban Manhaj
No ratings yet
Alternatives To Gradient Descent - 08022019
Document7 pages
Alternatives To Gradient Descent - 08022019
Prudhvi Vuda
No ratings yet
Reynolds Transport Theorem
Document2 pages
Reynolds Transport Theorem
Nati Fernandez
No ratings yet
Deep Learning Nonlinear Control
Document68 pages
Deep Learning Nonlinear Control
Daotao Daihoc
No ratings yet
Constrained Limitations Performance Limitation: Optimization
Document5 pages
Constrained Limitations Performance Limitation: Optimization
john
No ratings yet
Opera Formula
Document4 pages
Opera Formula
Wasyif Alshammari
No ratings yet
Cheat Sheet Modelling 1718
Document2 pages
Cheat Sheet Modelling 1718
Siti Maisarah
No ratings yet
Lecture 04
Document24 pages
Lecture 04
Muhammad Ali Khan
No ratings yet
Deep Learning Basics Lecture 3 Regularization I
Document32 pages
Deep Learning Basics Lecture 3 Regularization I
baris
No ratings yet
Omar Arif Omar - Arif@seecs - Edu.pk National University of Sciences and Technology
Document44 pages
Omar Arif Omar - Arif@seecs - Edu.pk National University of Sciences and Technology
Muhammad Rizwan Khalid
No ratings yet
Walter Simulation
Document19 pages
Walter Simulation
Johndoe
No ratings yet
Physics Formulas 11th First Book
Document16 pages
Physics Formulas 11th First Book
Deepti Singh
No ratings yet
KF Extension To Nonlinear Systems: M. Sami Fadali Professor EE University of Nevada
Document42 pages
KF Extension To Nonlinear Systems: M. Sami Fadali Professor EE University of Nevada
Ashutosh Ashu
No ratings yet
Chapter 1
Document15 pages
Chapter 1
ُIBRAHEEM ALHARBI
No ratings yet
From Linear Regression To Logistic Regression - Update - 1
Document71 pages
From Linear Regression To Logistic Regression - Update - 1
Duy Nguyen
No ratings yet
Chapter 1
Document15 pages
Chapter 1
Tariq Alharbi
No ratings yet
CS221 - Artificial Intelligence - Machine Learning - 4 Stochastic Gradient Descent
Document12 pages
CS221 - Artificial Intelligence - Machine Learning - 4 Stochastic Gradient Descent
Ardiansyah Mochamad Nugraha
No ratings yet
Formulae, Tables and Guidance Notes For Examination PDF
Document31 pages
Formulae, Tables and Guidance Notes For Examination PDF
123
No ratings yet
Class30.03.27.2024 WN
Document17 pages
Class30.03.27.2024 WN
Eslam Usama
No ratings yet
CG 14 Non Linear Computations PLAXIS
Document32 pages
CG 14 Non Linear Computations PLAXIS
Jullianny Silva
No ratings yet
Electric Charges and Fields All Formulas
Document9 pages
Electric Charges and Fields All Formulas
nikhith.lingam
No ratings yet
Numerical Method
Document31 pages
Numerical Method
Ahmed Abdulla
No ratings yet
Lab 3
Document43 pages
Lab 3
Abdo yasser
No ratings yet
Pattern Classification 11. Backpropagation & Time-Series Forecasting
Document78 pages
Pattern Classification 11. Backpropagation & Time-Series Forecasting
Mostafa Mohamed
No ratings yet
Kinematics
Document13 pages
Kinematics
Priyanshu Verma
No ratings yet
Backpropagation: TA: Yi Wen
Document39 pages
Backpropagation: TA: Yi Wen
Trần Văn Duy
No ratings yet
Computer Vision: Motion Detection and Tracking
Document15 pages
Computer Vision: Motion Detection and Tracking
Thịi Ánhh
No ratings yet
Lecture 3
Document18 pages
Lecture 3
Ronny Valero Montoya
No ratings yet
Chapter 2-Kinematics
Document1 page
Chapter 2-Kinematics
antonstefanbiehler
No ratings yet
Prof. Jaime Alberto Escobar G. Faculty of Engineering
Document18 pages
Prof. Jaime Alberto Escobar G. Faculty of Engineering
Sharon Rodriguez
No ratings yet
Linear Regression-2
Document2 pages
Linear Regression-2
cherukurichaitanya99
No ratings yet
Lec 05
Document53 pages
Lec 05
Hassan Ahmad
No ratings yet
Logistic Regression-1
Document3 pages
Logistic Regression-1
cherukurichaitanya99
No ratings yet
Mlfa Autumn 23 Optimization
Document37 pages
Mlfa Autumn 23 Optimization
T M
No ratings yet
A-level Maths Revision: Cheeky Revision Shortcuts
From Everand
A-level Maths Revision: Cheeky Revision Shortcuts
Scool Revision
Rating: 3.5 out of 5 stars
3.5/5 (8)
Introduction to Stochastic Dynamic Programming
From Everand
Introduction to Stochastic Dynamic Programming
Sheldon M. Ross
No ratings yet
Backpropagation: Fundamentals and Applications for Preparing Data for Training in Deep Learning
From Everand
Backpropagation: Fundamentals and Applications for Preparing Data for Training in Deep Learning
Fouad Sabry
No ratings yet
3.4. Sharpening Spatial Filtering
Document45 pages
3.4. Sharpening Spatial Filtering
SANJIDA AKTER
No ratings yet
3.3. Smoothing Spatial Filtering
Document60 pages
3.3. Smoothing Spatial Filtering
SANJIDA AKTER
No ratings yet
1.1. Introduction To DIP
Document61 pages
1.1. Introduction To DIP
SANJIDA AKTER
No ratings yet
8.1. Image Compression
Document121 pages
8.1. Image Compression
SANJIDA AKTER
No ratings yet
Wordembed v2.0
Document46 pages
Wordembed v2.0
SANJIDA AKTER
No ratings yet
TSP Using GA
Document10 pages
TSP Using GA
SANJIDA AKTER
No ratings yet
RNN, LSTM, Gru
Document36 pages
RNN, LSTM, Gru
SANJIDA AKTER
No ratings yet
CSE 4237 SoftCom Solutions
Document115 pages
CSE 4237 SoftCom Solutions
SANJIDA AKTER
No ratings yet
Hyperparameters and Parameters
Document8 pages
Hyperparameters and Parameters
SANJIDA AKTER
No ratings yet
Lecture 1-2
Document47 pages
Lecture 1-2
SANJIDA AKTER
No ratings yet
Parameter Calculation
Document10 pages
Parameter Calculation
SANJIDA AKTER
No ratings yet
Introduction To Neural Network
Document17 pages
Introduction To Neural Network
SANJIDA AKTER
No ratings yet
Clustering Part-2
Document49 pages
Clustering Part-2
SANJIDA AKTER
No ratings yet
Lecture 12 - Small Scale Fading
Document32 pages
Lecture 12 - Small Scale Fading
SANJIDA AKTER
No ratings yet
Clustering Part-1
Document48 pages
Clustering Part-1
SANJIDA AKTER
No ratings yet
Lecture 5 - Handoff
Document25 pages
Lecture 5 - Handoff
SANJIDA AKTER
No ratings yet
Perceptron
Document26 pages
Perceptron
SANJIDA AKTER
No ratings yet
Linear Regression & SVM
Document33 pages
Linear Regression & SVM
SANJIDA AKTER
No ratings yet
Lecture 11 - Large Scale Propagation Model
Document20 pages
Lecture 11 - Large Scale Propagation Model
SANJIDA AKTER
No ratings yet
Lecture 7 - Trunking
Document25 pages
Lecture 7 - Trunking
SANJIDA AKTER
No ratings yet
Lecture 5 - Handoff
Document25 pages
Lecture 5 - Handoff
SANJIDA AKTER
No ratings yet
Planning User 11122300
Document124 pages
Planning User 11122300
PrashantRanjan2010
No ratings yet
Ezpdf Reader 1 5 1 2
Document2 pages
Ezpdf Reader 1 5 1 2
John
No ratings yet
Dear Professional
Document2 pages
Dear Professional
Abhishek Kumar
No ratings yet
Final Paper
Document139 pages
Final Paper
Jericho
No ratings yet
SAP SD Exam1 Sales - Org Structure
Document40 pages
SAP SD Exam1 Sales - Org Structure
Sudarshan Sundararajan
No ratings yet
Ertms/Etcs Benefits For Railways World Wide Norwin Vögeli Siemens Transportation Systems
Document28 pages
Ertms/Etcs Benefits For Railways World Wide Norwin Vögeli Siemens Transportation Systems
machinmay
No ratings yet
Chapter 2 Industrial Robot Applications
Document16 pages
Chapter 2 Industrial Robot Applications
K T7
No ratings yet
NOI Notes
Document6 pages
NOI Notes
Ryan Shaw
No ratings yet
Lesson 1 Intro To Cybercrime
Document6 pages
Lesson 1 Intro To Cybercrime
Jerico N. loberiano
No ratings yet
BRM Unit-4
Document18 pages
BRM Unit-4
Deepa Selvam
No ratings yet
oneM2M Integration Framework (Scarrone)
Document35 pages
oneM2M Integration Framework (Scarrone)
Enrico Scarrone
No ratings yet
Scotland Yard - The Hanson Cab Variant
Document3 pages
Scotland Yard - The Hanson Cab Variant
Marcelo Jochem
No ratings yet
Go, Rust Cheat Sheet
Document99 pages
Go, Rust Cheat Sheet
David
No ratings yet
Inmarsat Global Xpress The Design Implementation and Activation of A Global Ka Band Network
Document8 pages
Inmarsat Global Xpress The Design Implementation and Activation of A Global Ka Band Network
Si Guanglin
No ratings yet
Innovation and Design in The Age of Artificial Intelligence
Document4 pages
Innovation and Design in The Age of Artificial Intelligence
Smamda Agung
No ratings yet
Open-O Integration Project Proposal
Document11 pages
Open-O Integration Project Proposal
Sheila Bernalte
No ratings yet
IT244 Week 3
Document81 pages
IT244 Week 3
WalidOmar
No ratings yet
Ebay Case Study
Document6 pages
Ebay Case Study
Gurungketi
No ratings yet
Edu Cat en Vba Ax v5r19 Toprint
Document87 pages
Edu Cat en Vba Ax v5r19 Toprint
omik
No ratings yet
OptiX OSN 500 Configuration Manual
Document64 pages
OptiX OSN 500 Configuration Manual
Thunder-Link.com
80% (10)
Grundfosliterature 6119667
Document22 pages
Grundfosliterature 6119667
najkulime
No ratings yet
Resume Syahmi
Document2 pages
Resume Syahmi
Adlan LE Sangka
No ratings yet
Realflow Manual
Document328 pages
Realflow Manual
follyx
100% (4)
Mth3340 2017jan - Lab Spss Report
Document2 pages
Mth3340 2017jan - Lab Spss Report
gl
No ratings yet
360 Security
Document17 pages
360 Security
saurabh patel
No ratings yet
DVD Technology': White Paper
Document14 pages
DVD Technology': White Paper
David Cse David
No ratings yet