Professional Documents
Culture Documents
Ian Goodfellow
Yoshua Bengio
Aaron Courville
Contents
Website viii
Acknowledgments ix
Notation xiii
1 Introduction 1
1.1 Who Should Read This Book? . . . . . . . . . . . . . . . . . . . . 8
1.2 Historical Trends in Deep Learning . . . . . . . . . . . . . . . . . 12
2 Linear Algebra 29
2.1 Scalars, Vectors, Matrices and Tensors . . . . . . . . . . . . . . . 29
2.2 Multiplying Matrices and Vectors . . . . . . . . . . . . . . . . . . 32
2.3 Identity and Inverse Matrices . . . . . . . . . . . . . . . . . . . . 34
2.4 Linear Dependence and Span . . . . . . . . . . . . . . . . . . . . 35
2.5 Norms . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.6 Special Kinds of Matrices and Vectors . . . . . . . . . . . . . . . 38
2.7 Eigendecomposition . . . . . . . . . . . . . . . . . . . . . . . . . . 40
2.8 Singular Value Decomposition . . . . . . . . . . . . . . . . . . . . 42
2.9 The Moore-Penrose Pseudoinverse . . . . . . . . . . . . . . . . . . 43
2.10 The Trace Operator . . . . . . . . . . . . . . . . . . . . . . . . . 44
2.11 The Determinant . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
2.12 Example: Principal Components Analysis . . . . . . . . . . . . . 45
i
CONTENTS
4 Numerical Computation 78
4.1 Overflow and Underflow . . . . . . . . . . . . . . . . . . . . . . . 78
4.2 Poor Conditioning . . . . . . . . . . . . . . . . . . . . . . . . . . 80
4.3 Gradient-Based Optimization . . . . . . . . . . . . . . . . . . . . 80
4.4 Constrained Optimization . . . . . . . . . . . . . . . . . . . . . . 91
4.5 Example: Linear Least Squares . . . . . . . . . . . . . . . . . . . 94
ii
CONTENTS
12 Applications 438
12.1 Large-Scale Deep Learning . . . . . . . . . . . . . . . . . . . . . . 438
12.2 Computer Vision . . . . . . . . . . . . . . . . . . . . . . . . . . . 447
12.3 Speech Recognition . . . . . . . . . . . . . . . . . . . . . . . . . . 453
12.4 Natural Language Processing . . . . . . . . . . . . . . . . . . . . 456
12.5 Other Applications . . . . . . . . . . . . . . . . . . . . . . . . . . 473
iv
CONTENTS
14 Autoencoders 499
14.1 Undercomplete Autoencoders . . . . . . . . . . . . . . . . . . . . 500
14.2 Regularized Autoencoders . . . . . . . . . . . . . . . . . . . . . . 501
14.3 Representational Power, Layer Size and Depth . . . . . . . . . . . 505
14.4 Stochastic Encoders and Decoders . . . . . . . . . . . . . . . . . . 506
14.5 Denoising Autoencoders . . . . . . . . . . . . . . . . . . . . . . . 507
14.6 Learning Manifolds with Autoencoders . . . . . . . . . . . . . . . 513
14.7 Contractive Autoencoders . . . . . . . . . . . . . . . . . . . . . . 518
14.8 Predictive Sparse Decomposition . . . . . . . . . . . . . . . . . . 521
14.9 Applications of Autoencoders . . . . . . . . . . . . . . . . . . . . 522
v
CONTENTS
Bibliography 717
vi
CONTENTS
Index 773
vii
Website
www.deeplearningbook.org
viii