Welcome to Scribd!

Alternatives To Gradient Descent - 08022019

Uploaded by

0% found this document useful (0 votes)

6 views7 pages

Gradient descent algorithms can be batch, stochastic, or mini-batch. Batch updates the entire training set at once while stochastic updates for each sample. Mini-batch is a combination. Momentum adds a fraction of the previous update. Nesterov Accelerated Gradient looks ahead to the next values. Adagrad uses different learning rates per parameter based on past gradients. RMSProp is similar but uses a weighted average of past gradients.

Original Description:

Original Title

Alternatives to Gradient Descent_08022019

Copyright

Available Formats

PPTX, PDF, TXT or read online from Scribd

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Report this Document

Copyright:

Available Formats

Download as PPTX, PDF, TXT or read online from Scribd

Flag for inappropriate content

0% found this document useful (0 votes)

6 views7 pages

Alternatives To Gradient Descent - 08022019

Uploaded by

Prudhvi Vuda

Copyright:

Available Formats

Download as PPTX, PDF, TXT or read online from Scribd

Flag for inappropriate content

Jump to Page

You are on page 1of 7

Search inside document

Gradient Descent Algorithms

Gradient Descent
• Batch gradient descent
• Makes a parameter update i.e. calculates gradient
of cost function, using the entire training data set
• No online update is possible
• Stochastic gradient descent 𝜕 𝐽
• Parameter updates are done for every training 𝑤 =𝑤 − 𝛼
sample 𝜕𝑤
• Online learning is possible
• Causes large oscillations in objective function due
to frequent updates
• Mini-batch gradient descent
• Combination of the above
• Performs update for a mini-batch of training data
Algorithms
 Momentum
 NAG- Nesterov Accelerated Gradient
 Adagrad
 RMS-Prop
Momentum
 Adds a fraction of the previous update to the current update
 Helps to take larger steps in the relevant direction, preventing
oscillations that are common in vanilla SGD

𝛿 𝑤𝑛 =𝛾 . 𝛿 𝑤𝑛 −1 +𝛼 ∇𝑤 𝐽 (𝑤 )

𝑤𝑛 =𝑤𝑛 −1 + 𝛿𝑤𝑛
Nesterov Accelerated Gradient (NAG)
 We can compute the updated parameter value using the current
gradient and treat it like a look ahead
 Evaluate gradient at the new parameter values and then perform an
update to the parameters.

𝛿𝑤𝑛 =𝛾 . 𝛿𝑤𝑛 −1 +𝛼 ∇𝑤 𝐽 (𝑤𝑛 −1 + 𝛿𝑤𝑛 )

𝑤𝑛 =𝑤𝑛 −1 + 𝛿𝑤𝑛
Adagrad
 Use a different learning rate for different parameters
 Compute update for every parameter using gradient
 Scale general learning rate at a particular iteration using accumulated
squared gradients from previous iterations
 Leads to rapidly diminishing updates

𝛼
𝑤𝑛 ,𝑖 =𝑤𝑛− 1, 𝑖 + 𝑔 𝑛,𝑖
√ 𝐺𝑛 ,𝑖 + 𝜀
Adadelta
 Extension of Adagrad
 Instead of storing running sum of squared gradients, use weighted
average of squared gradients
 i.e. the current average depends on the average in the previous iteration and
the square of the gradient in the current iteration

𝛼
𝛿 𝑤𝑛 =
√ 𝐸¿¿¿
)

Mastering QGIS - Second Edition
From Everand
Mastering QGIS - Second Edition
Dr. Luigi Pirelli
No ratings yet
Gradient Descent Optimization
Document27 pages
Gradient Descent Optimization
Akash Raj Behera
No ratings yet
Unit 3
Document110 pages
Unit 3
Nishanth Nuthi
No ratings yet
Optimization Techniques in Deep Learning
Document14 pages
Optimization Techniques in Deep Learning
ayesha
No ratings yet
Wa0000.
Document4 pages
Wa0000.
Sushant Vyas
No ratings yet
DL DM22204 Abhishek Singh
Document6 pages
DL DM22204 Abhishek Singh
ABHISHEK SINGH
No ratings yet
Gradient Descent
Document15 pages
Gradient Descent
Tic tok
No ratings yet
Activations, Loss Functions & Optimizers in ML
Document29 pages
Activations, Loss Functions & Optimizers in ML
Aniket Dhar
No ratings yet
DL Class2
Document30 pages
DL Class2
Rishi Chaary
No ratings yet
Anthony PDF
Document33 pages
Anthony PDF
Quang Thang
No ratings yet
REPORT - Gradient Based Optimization
Document2 pages
REPORT - Gradient Based Optimization
abhay4meggi
No ratings yet
Stochastic Gradient Descent
Document23 pages
Stochastic Gradient Descent
jenna.amber000
No ratings yet
Optimization
Document3 pages
Optimization
saisundaresan27
No ratings yet
23-Practical Aspects of Optimization
Document7 pages
23-Practical Aspects of Optimization
broken heart
No ratings yet
Implement Neural Networks Using Keras and Pytorch: Liang Liang
Document32 pages
Implement Neural Networks Using Keras and Pytorch: Liang Liang
raverita
No ratings yet
Aie231 NN Lab5
Document7 pages
Aie231 NN Lab5
ayten55zoweil
No ratings yet
Gradient Descent Optimization
Document4 pages
Gradient Descent Optimization
Guna Seelan
No ratings yet
M7 - 3DGridBasedSeismicVelocities (Compatibility Mode)
Document30 pages
M7 - 3DGridBasedSeismicVelocities (Compatibility Mode)
Ba Tina
No ratings yet
Stochastic Gradient Descent - Term Paper
Document8 pages
Stochastic Gradient Descent - Term Paper
Arslán Qádri
No ratings yet
Eem520l3 2023
Document25 pages
Eem520l3 2023
Berkan Tezcan
No ratings yet
Yash 21bsds12
Document3 pages
Yash 21bsds12
yashpatelykp
No ratings yet
Vdisp - 2
Document5 pages
Vdisp - 2
Nrl Syafini
No ratings yet
CV - 11 Supervised Learning
Document39 pages
CV - 11 Supervised Learning
arbong007
No ratings yet
Lecture 10 - Optimization Techniques (4) - Plain
Document6 pages
Lecture 10 - Optimization Techniques (4) - Plain
Raja
No ratings yet
Document 2
Document30 pages
Document 2
Mohnish Chaudhari
No ratings yet
Economy Dispatch
Document36 pages
Economy Dispatch
wise man
No ratings yet
Unit 3
Document6 pages
Unit 3
Manish Sontakke
No ratings yet
Code Adam Optimization Algorithm From Scratch
Document28 pages
Code Adam Optimization Algorithm From Scratch
Valentin Lungershausen
No ratings yet
D. Assume Model A Is Trained For Multi-Label Classification and Binary Cross-Entropy Is The Loss, The Loss Value For Label Sunny Is - Log0.2
Document2 pages
D. Assume Model A Is Trained For Multi-Label Classification and Binary Cross-Entropy Is The Loss, The Loss Value For Label Sunny Is - Log0.2
Ssss
No ratings yet
Gradient Search Method
Document11 pages
Gradient Search Method
Samer Alsadi
No ratings yet
Unit 2
Document13 pages
Unit 2
read4free
No ratings yet
Scalable Neural Network
Document31 pages
Scalable Neural Network
aryandeo2011
No ratings yet
Deep Learning (All in One)
Document23 pages
Deep Learning (All in One)
B Basit
No ratings yet
Support Vector Machines On The D-Wave Quantum Annealer: D.Willsch, M.Willsch, H.De Raedt, K.Michielsen
Document17 pages
Support Vector Machines On The D-Wave Quantum Annealer: D.Willsch, M.Willsch, H.De Raedt, K.Michielsen
xianheyoushen
No ratings yet
Frequency Response With Python
Document50 pages
Frequency Response With Python
FELIPE DANIEL MONTERO BRUNI
No ratings yet
Aic Lab Cadence 02 Cs Amp v01
Document5 pages
Aic Lab Cadence 02 Cs Amp v01
Hagar Ilbhery
No ratings yet
Optimization and Tips For Neural Network Training: Geena Kim
Document24 pages
Optimization and Tips For Neural Network Training: Geena Kim
Huston LAM
No ratings yet
Lecture 9 Loss, Optimizers, Batch Processing, Accuracy
Document12 pages
Lecture 9 Loss, Optimizers, Batch Processing, Accuracy
Hodatama Karanna One
No ratings yet
4 NN BP Learning and Problems
Document18 pages
4 NN BP Learning and Problems
AddisuSaafoo
No ratings yet
Assignment - 4
Document24 pages
Assignment - 4
Durga prasad T
No ratings yet
Portfolio Anirudh
Document3 pages
Portfolio Anirudh
Anirudh Rajagopal
No ratings yet
04 Optim ML 2
Document66 pages
04 Optim ML 2
Sourabh Agrawal
No ratings yet
Tar
Document8 pages
Tar
Le Huyen Vu My
No ratings yet
S14bac cl05
Document3 pages
S14bac cl05
Khhg Agdds
No ratings yet
Deep Learning - Summary - Deep - Learning
Document17 pages
Deep Learning - Summary - Deep - Learning
aabotony
No ratings yet
Optimizer
Document2 pages
Optimizer
SANJIDA AKTER
No ratings yet
Omar Arif Omar - Arif@seecs - Edu.pk National University of Sciences and Technology
Document44 pages
Omar Arif Omar - Arif@seecs - Edu.pk National University of Sciences and Technology
Muhammad Rizwan Khalid
No ratings yet
Sparse 1
Document68 pages
Sparse 1
abi
No ratings yet
Deep Learning
Document20 pages
Deep Learning
nikhilsinha0099
No ratings yet
Assignment 1
Document13 pages
Assignment 1
Si Woo Lee
No ratings yet
Convolutional Neural Networks
Document79 pages
Convolutional Neural Networks
Lamis Ahmad
No ratings yet
Lab 3
Document43 pages
Lab 3
Abdo yasser
No ratings yet
Soft Computing Assignment
Document9 pages
Soft Computing Assignment
Manohar Suman
No ratings yet
Deep Learning
Document18 pages
Deep Learning
R Raj
No ratings yet
Concepts - Regression Overview
Document14 pages
Concepts - Regression Overview
mtemp7489
No ratings yet
7 - 1 - Empirical Model PDF
Document16 pages
7 - 1 - Empirical Model PDF
Ananda Cahya
No ratings yet
Lab2 Linear Regression
Document18 pages
Lab2 Linear Regression
Juan Zarate
100% (1)
Backpropagation: Fundamentals and Applications for Preparing Data for Training in Deep Learning
From Everand
Backpropagation: Fundamentals and Applications for Preparing Data for Training in Deep Learning
Fouad Sabry
No ratings yet
Bundle Adjustment: Optimizing Visual Data for Precise Reconstruction
From Everand
Bundle Adjustment: Optimizing Visual Data for Precise Reconstruction
Fouad Sabry
No ratings yet
TIME SERIES FORECASTING. ARIMAX, ARCH AND GARCH MODELS FOR UNIVARIATE TIME SERIES ANALYSIS. Examples with Matlab
From Everand
TIME SERIES FORECASTING. ARIMAX, ARCH AND GARCH MODELS FOR UNIVARIATE TIME SERIES ANALYSIS. Examples with Matlab
B. NORIEGA
No ratings yet
NUSHP Summary of Benefits
Document8 pages
NUSHP Summary of Benefits
Prudhvi Vuda
No ratings yet
May 2009 PDF
Document2 pages
May 2009 PDF
Prudhvi Vuda
No ratings yet
Java Fundamentals - Course Objectives: Educators
Document6 pages
Java Fundamentals - Course Objectives: Educators
Prudhvi Vuda
No ratings yet
Jrinter Maths1a Model Paper 6 em PDF
Document2 pages
Jrinter Maths1a Model Paper 6 em PDF
Prudhvi Vuda
No ratings yet
Sample Paper Syllabus 2016-17: Direction (Q. No. 1 and 2) : Choose The Correct Option. 1. 4
Document2 pages
Sample Paper Syllabus 2016-17: Direction (Q. No. 1 and 2) : Choose The Correct Option. 1. 4
Prudhvi Vuda
No ratings yet