Christopher M .

Bishop

Pattern Recognition and
Machine Learning

Springer

.2. . . . . . . . .5 Curve fitting re-visited . . .3 Model Selection . . . . . . . . . . . . . 33 1 . . . 4 1 . . . . . . . . . 19 1 . . . . . .2. . . . .4 The Gaussian distribution . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 1 . . . . . .2. . . . . 39 1 .2. . . . . .4 Inference and decision . . . . . . . . . .2 Expectations and covariances . . . . . . . . . . . . . . . . . . . .Mathematical notation Ni Contents xiii Introduction 1 1 . . . . . . . . .5. . . . . . . . .1 Minimizing the misclassification rate . . . . . . 41 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . .6 Bayesian curve fitting . . . . . . . . . . . . . . . . . . . . . . .2. . . . . .1 Relative entropy and mutual information . . . . . . . .2 Probability Theory .2 Minimizing the expected loss . . . . . . . . . . . . . . . . .5 Decision Theory . . . . . . . . . . . 42 1 . . 21 1 . . . . 28 1 . 55 Exercises . . . . . . . . . . . .5. . . . . . . . . . . . . . . . . . . 24 1 . .5 Loss functions for regression .3 Bayesian probabilities . . . 32 1 . . . . . . . . . . . . . . . .6 Information Theory . . . . . . . 38 1 . . . . . 17 1 .2. 12 1 . . . . 58 . 46 1 . . . . . . . . . . . . . . . . . . . . .5 . . . . . . .5 . . . . . . . . .4 The Curse of Dimensionality . . . . .1 Probability densities . . . .3 The reject option . . . . . . . . 30 1 . . . 48 1 . . . . . . . . . . . . . . . .6. . .1 Example : Polynomial Curve Fitting . . . . . . . . .5 . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . 93 2. .2 Conjugate priors . . . . . . 144 3 . . . . . . . . 143 3 . . . 85 2. . . . . . . . . . . . . . . . . .3 The Gaussian Distribution . . . . . . . . . . . . . . . . . . .6 Bayesian inference for the Gaussian . . .1 . . . . .1 . . . . . 88 2. . . . . . . . . . . .3. . . .6 Limitations of Fixed Basis Functions . . . . . . . . . . . . . .1 Parameter distribution . . . . . . . . . . . . . . . . . . . . . . . 140 3. . . .3 Noninformative priors . . . . . . . . . . . 117 2. . . . . . . .3 Equivalent kernel . . . . . . 116 2. . . . . . . . . . . . .3 . . . . . . .5 . . . . . . . . . . . . . . . . .1 The beta distribution . . . 68 2. . . . . . . . . . . . . 110 2. .2 Predictive distribution . 159 3. . . . . . . . . . . . . . . 120 2. . . 105 2. . . . . . . . . . . . . . . . .3. . . . . . . 173 . . . . . . . . . . .5. . . .7 Student's t-distribution . . . . . .3 . . . .4 Regularized least squares . . 113 2.5 . . .3 . . . . . . . . .1 . .5 . . . . . . . . . . . . . . . . . . 138 3 .5 The Evidence Approximation . . . . . 90 2. . . . . . . . . 71 2. . . . . . . . 97 2 . . . . . . . . . . . . . . . . .4 The Exponential Family . . 94 2. .1 Binary Variables . 166 3. . .4 Maximum likelihood for the Gaussian . .1 . . . . . . .1 Conditional Gaussian distributions . . . .2 Marginal Gaussian distributions . . . . 127 3 Linear Models for Regression 137 3. . . 168 3. . . . .5 Sequential estimation . . . . 122 2. . . . . .3 Bayesian Linear Regression . . .1 . . . . .4 Bayesian Model Comparison . . . . . .1 Kernel density estimators . . . . . . .3 . .5 Multiple outputs . .4. . . . . . . . . .1 The Dirichlet distribution . . . . . . . . . . . . . . .3. . . . 165 3 . . 102 2. . . . . 156 3 . .1 Evaluation of the evidence function . . . .2 Multinomial Variables . .1 Linear Basis Function Models . . . . . . . . . . . . .2 . 146 3. . . . . . . .1 Maximum likelihood and least squares . . . . . . . . . . . . . . . 76 2. . . . . . . . . . . . . . . . . 78 2. .3 . . . . . . . . . . . . . . . . . . . . . 147 3 . . . . . . 172 Exercises .9 Mixtures of Gaussians . . . . . . . . . . . . . .8 Periodic variables .3 Effective number of parameters . 161 3 . . . . 152 3. . . . . .3 Bayes' theorem for Gaussian variables . . . . . 117 2. . . . . . . . . . .2 Geometry of least squares . . . . . . . . . . . . . . . . . . . . . .5. . .3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .xiv CONTENTS 2 Probability Distributions 67 2. . . . . . . .4. . . . . . . . . . . . . . . . . . . . . . . . 152 3. . . . . . . . . . . . . . . . . .3 Sequential learning . . . .1 Maximum likelihood and sufficient statistics . . . . . . . . . . . . . . . . .2 Nearest-neighbour methods . . . . . . . .3 . . . . . . .1 . . 124 Exercises . . . . . . . . . . . .5 Nonparametric Methods . . . . . .3 . . . . . . . . .2 Maximizing the evidence function . . . . . . . . . .2 The Bias-Variance Decomposition .3. . . 170 3. . . . . . . .4. . . . . . . . . . 74 2. . . . . . . . . . . . 143 3. .

. . . . . . 239 5. . . . . 251 5. . . . . . . . . . . . . . . . . .1 Discriminant Functions . . .2 Logistic regression . . . . .6 Fisher's discriminant for multiple classes . . . .4 The Hessian Matrix . . .5 . . . . . 242 5. . . . . . . . . . . . . .2.4 Multiclass logistic regression . . . . . . . . .4. . . . . . . . . . . . .2 Predictive distribution . . . . . . . . . . . . . . . . . . . .3 Use of gradient information . . . . .1 . . . .2 . . . . . . . . . . .4 Exponential family . . . . . . . . . . . . . . . . . . . . . 200 4 . . . . . 198 4. . . . .3. . . .2 Multiple classes . . . . . . . . 202 4.1 Evaluation of error-function derivatives .1 Feed-forward Network Functions .2 Probabilistic Generative Models . . . . .1 . . . . . . . . 252 .3. . . . . 181 4. .4 Gradient descent optimization . . . . . . 202 4. .5. . . . . . .2 Local quadratic approximation . . . . . . . .5 Relation to least squares . . . .5 Bayesian Logistic Regression . .1 Weight-space symmetries . . . . . . . . . . . . . .3 . . . . . . . . . . . . . . . . . . . . .4. . . . . . . . .2. . 240 5. 205 4. . . . . . . . . . . 249 5. . .4 Fisher's linear discriminant . . . . . . . . 218 Exercises . . 241 5 . . . .1 . . . . . . . . 196 4. . .6 Canonical link functions . . . . . . .7 The perceptron algorithm . . .2. . .1 . . . .3. . . . . . .3. . . . . . . . . . .1 Laplace approximation . . . . . . . . . . . . . . . . . . . . . CONTENTS xv 4 Linear Models for Classification 179 4.2. . . 216 4. . . . . . . . . . . . 213 4. . . . . . . 203 4 . . . . . . . . . . . . . . . . . . . 227 5 . . . . .1 . . . . . . . . . . . . . . . . 184 4. . . . . . . . .3 Error Backpropagation . . . . . . . . . . . 220 5 Neural Networks 225 5. . . . . . . . . . . . . . . . . . . . .3. . . 247 5. . . . . . . .2 . . . . . . . . . . .3 Iterative reweighted least squares .4 The Jacobian matrix . . . . . . . .1 Parameter optimization . . . . . . . . .2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .2 Outer product approximation . . . . . . . . . . . . . . . . . . 217 4. . . . . . . . . . . . . . . . . . . . . . . . . .3 . . . . 212 4.3 Discrete features . . . . . . 186 4 . . . . . . . . . . . . . . . . . . . . . . .3 Probabilistic Discriminative Models . . . . . . . . 182 4. . .3 Least squares for classification . . 231 5. . . . .3 . . . . 204 4. . . . . . . . . . . . . . . . . .1 . . . . . . . . 236 5 . . . . . . . . . . . .4 The Laplace Approximation . .1 Fixed basis functions . . . . . . . .1 Two classes . 181 4 .1 Continuous inputs . . .2 Network Training . . . . . . . . 192 4. . . . . . . . . . . . . . .4 . . . . . . 250 5. . . 217 4. 245 5. . . . . . . . . . . . . . . . . .1 . 207 4 . . . 246 5. . . . . . . . . . . . . . . . . . . . . 191 4. . . . . . . . 232 5 . .1 Diagonal approximation . . . . . . . . . . .3 . . . . . . . . . . . . . .4. . . . . . . .3 Inverse Hessian . . . . . . . . . . .2 A simple example . 189 4. . .2 Maximum likelihood solution . .3 Efficiency of backpropagation . . .3 . . . 210 4. . . .1 Model comparison and BIC . . . .5 Probit regression . . . . 209 4. . . .2. . . . . . . . . . . . . . . . . . . . . . .1 . . . . . . . . . . . . . . . . . . . . . . 237 5 . . . . . . . . . . . . . .

. . . . . . .5 Regularization in Neural Networks . .6 Fast multiplication by the Hessian . . . . . . . . . . . . . .5 . . . _ . . . . . . . .4 SVMs for regression . . . . . 331 7. . . .1 Consistent Gaussian priors . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .3 Invariances .5 Exact evaluation of the Hessian . . . . . .2 Constructing Kernels . .2. . 278 5. .1 . . . . . . . . . .4 Automatic relevance determination . . . . . . . . 301 6. . . . . . 349 7 . . . .1 . . . . . . .2 . . . .4. . . . . . . . . . . . . . . . . 338 7. . . . . . . .1 Nadaraya-Watson model . . .. . . . . . . . . . . . . 303 6. . . . . . . . . . . . . . . . . . . .4.4 Tangent propagation . . . .3 RVM for classification . . . . . . . . . . . .4. . . 353 Exercises . .6 Mixture Density Networks . 306 6. . . . . . . . . . . . . . . . . .4. . . .5 . . . . .2 Gaussian processes for regression . .5 .3 Multiclass SVMs .7 Soft weight sharing . . . . 267 5. . . . .7 Bayesian Neural Networks . . . . . . . . . . . . .7. . .5 .1 Dual Representations . . . . . . . . . . 311 6 . . . . . . . . . . . . . . 315 6. . . . . . . . . . . . .7 Connection to neural networks . .5 Computational learning theory . . . . . . . . 319 Exercises . . . . . . . 294 6. .1 . . . . . . . . . . . . . . . . .3 Learning the hyperparameters . . . . . . .7. . . . . . . . .1 Posterior parameter distribution . . . .1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253 5. . 326 7.5 .1 Maximum Margin Classifiers .4. . . . . . . . . . 345 7. . . . . . . . . . . . . . . . . . . . . . . . . .5 . . . . . . . . . .2.CONTENTS 5. . . . . . . .4. . . .3 Radial Basis Function Networks . . 269 5 . . . . . .7. . . . . . . . . . . . . . . . . . . . 265 5 . .5 Gaussian processes for classification . . . . . . . . 312 6. . .2 Relation to logistic regression . .1 RVM for regression . . . . . . . . . . . . . . . . . . .2 Analysis of sparsity . . . . . . . . . . . . 280 5.1 . . . . . . . . . . .4. . . . . . . . . . . . . . . . . . . . . . 345 7. . . . . . . . . . . . . . . . . . 256 5. . . .6 Convolutional networks . 344 7. . . . . . . . .4 . . . . . . . . . 252 5. .3 Bayesian neural networks for classification . . . .5 Training with transformed data . . . 320 7 Sparse Kernel Machines 325 7. .2 Early stopping . . . . .5 . . . . . . . . . . . . . 299 6. . . . . . . . . .2 Relevance Vector Machines . . . . . . . . . 277 5. . . . . . . . . . . . . . . . . . . . . . . . . . . . 304 6. . .4.       . . . . . . . . . . . . . . . 257 5. . . . . . . .4 Finite differences . . . . . . 263 5 . . . . . . . . . . . . .4 Gaussian Processes . . . . . . . . . . . 281 Exercises . . . . . . 339 7. . . . . . . . . . . . .6 Laplace approximation . . . .2 Hyperparameter optimization . .3 . . 261 5 . . . . . 272 5 . . . . . . . . . . . . . . . . . . . 336 7. . . 313 6. . . . . . 284 6 Kernel Methods 291 6. . . . . . . . . . . . 293 6. . . . . . . 254 5. . . .4 .1 Linear regression revisited . . . . . . . . . . . . . . 259 5 . . . . . . . .1 Overlapping class distributions . . . 357 . . . . . .

. . . . . . . . . .2 . . . .2 Mixtures of Gaussians . . . . . 417 8. . . . . . . . . . . . . . . 402 8. . . . .4. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 399 8. . . . . . . . . . . . . . . . . . . . . . . . . . 383 8. . . . . . . . . . . . . .1 . . . 418 9 Mixture Models and EM 423 9. . . . . . . . . . . . . . . . . . . . . . . .4 Linear-Gaussian models . . . . .1 . . . . . . . . . . . . . . .1. . . . . . . .2 Properties of factorized approximations . . . . . .1 Factorized distributions . . CONTENTS xvii 8 Graphical Models 359 8. . . . . . . . . . . . . . . . . . . . . 362 8. . . . . .6 Exact inference in general graphs . .3 . . . . .1 . .1 Bayesian Networks . . . . 416 8. . . . . . . . . .3. . . . . . . . . . . . 450 Exercises . . . . . .1.3 . . . . . . . . . .1 Conditional independence properties . . . . . . . 430 9. . . . . . . . . . . . . . 372 8. . 384 8 . . . . . . .1 Gaussian mixtures revisited . . . . . . . . . . . .2 Trees . . . . . . . . .3 Mixtures of Bernoulli distributions . . . . . . . 424 9. .3 Discrete variables . . . . . . . 378 8. . . . . . . . . . . . . . .1 Maximum likelihood . . . . . . .2 Generative models . . . . . . 464 10. . . . . . .1 . . . . . .7 Loopy belief propagation . .3 Markov Random Fields . . .4 Inference in Graphical Models . 370 8. . . . .1 Inference on a chain . . . . . . . . . . . .3 . . . . . . . . . 360 8 . . . . . .1 VariationalInference . . . . . . . . .4 . 466 10. .2 Illustration: Variational Mixture of Gaussians . . .1 Example : Polynomial regression . . . . . . . . .2. . . . . . . . . . . . . 383 8 . . . . . . . . . .3.4. . . . . . . . . . . . . . . . . . . . . . . 390 8. . . . . . . . . . . . . . . . . . . . . . . . . . . . 398 8. . . . . . . . . . . 393 8. . . . . 394 8. . . .1 Image segmentation and compression .5 The max-sum algorithm . . . . . . . . . . 418 Exercises . . . .1 .4. . . . . .2. 462 10.2. . . .3. . . . . . . . . . . . . . . . . . 435 9. . . . . . . . . . . . . . . . . . . . . . .2 D-separation . .3 Factor graphs . . . . . . . . . . . . . . . . . . .4. . .3. . . . . . . . . . . . .2 Factorization properties . . . . . . . . .4 Model comparison . . . . . . . . . . . .2 EM for Gaussian mixtures .1 . .8 Learning the graph structure . . . . .4. . . . . .1 Three example graphs . . . . . . . . . . . . . . . . . . . . . . . . . . 439 9. 387 8. . . . . . 470 10. . . . . . 432 9. . . . 441 9.2 Conditional Independence . . . . . . . . . . . 365 8. . . 411 8.3 Example : The univariate Gaussian . . . .4 The sum-product algorithm . . . . . . . . . . . . . .3.4 Relation to directed graphs . . . . 455 10 Approximate Inference 461 10. . . . . . . 373 8. . . . . . .4 The EM Algorithm in General . . . . 443 9. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 473 10. . . . .2 Relation to K-means . . . . . . . . . . . . . . .4. . . . . . . . . . . . . . . . . . . . . . . . . . 474 . . . . 366 8. . . .3 Illustration: Image de-noising . . . 428 9.4 EM for Bayesian linear regression . . . . . . 444 9. .1. . . . . . . . . . .3 An Alternative View of EM . . . . . . . .1 K-means Clustering . . .4 . . . . . . . . . . . 448 9.

. . . . . . . . .5 Local Variational Methods . . . . . . . . . . . . . . . .6 Estimating the Partition Function .1 . . 488 10. .5. . . 485 10. 548 11 . . . .2 Expectation propagation on graphs . . . . . . . . . .2 . . .xviii CONTENTS 10. . . .1 Example : The clutter problem . . . . .     . . . . . . . . . . .7 Expectation Propagation . . . . .1 Basic Sampling Algorithms . . .1 Variational distribution . . . . . . . . . . .1 Markov chains . . 505 10. . . . . . . . . . .3 Predictive density . . .2. . . . . . . . . . . . . . . . . 569 . . . . .4 PCA for high-dimensional data . . . . . . . . . . 491 10. .2. . . . . 532 11 . . . . . . . .6 Sampling and the EM algorithm . . .2.4 Slice Sampling . . . . 490 10. .6. . . 489 10. . . . . . .4 Determining the number of components . . . 482 10. . . .4 Exponential Family Distributions . 530 11 . . 493 10. . . . . . . . . . . . . .2. . . 528 11 . . 502 10.1 Dynamical systems . .5 Sampling-importance-resampling .3 Inference of hyperparameters . . 546 11 . 561 12. . . .7. . . . .2 The Metropolis-Hastings algorithm .5 Induced factorizations . . . . . . . .1 . . . . . . .1 . . 561 12 . 481 10. . . 542 11. .1 .3. . . . . . . . . . . . . . . . . . . . . . .2 Minimum-error formulation . .6. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .4. . . . . . . 511 10. . 500 10. . 517 11 Sampling Methods 523 11 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 498 10. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .1 Standard distributions . . . . .3. . . . 537 11 . . . . .6 . . . . . .1 . . . . . . . . . . . . . . . . . . . . 498 10.1 . . . . . . . . . . . . . . . . . 475 10. . 556 12 Continuous Latent Variables 559 12. . . . . . . . . . . . . . . . . . . . . . . . . .2 Predictive distribution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .7. . 541 11 . . . . . . 536 11. .5 . . . . . . . . . . .4 Importance sampling . . . . . . . . . . . . . . . . . . . .6 Variational Logistic Regression . .2 Optimizing the variational parameters . 552 11 . . . . . . . . . . . .2 Hybrid Monte Carlo . . . . . . . .2 Markov Chain Monte Carlo . . . . . . . . . .5 The Hybrid Monte Carlo Algorithm . .1 . . . . . . .3 Adaptive rejection sampling . . . . . . . .2 . . . . 534 11. . .3 . . . . . . . . . . . . . . . . . . .2 Rejection sampling . . . . . . . . . . . . . 526 11 . . . . . . . .3 Gibbs Sampling .1 Variational distribution . . . . .3 Applications of PCA . . .1 Maximum variance formulation .3 Lower bound . . . . . . . . . . .3 Variational Linear Regression . . . . . . . . . . . . . . . . . . .        . . . . . . .1. . . 513 Exercises . 483 10. . . . . 563 12. . . . . . .1 Variational message passing . . . . . . 526 11 . . . . . . .1 Variational posterior distribution . . . . . . 539 11 . . . . . . . . . . . . . . . . . . . .1 Principal Component Analysis . . .  . . . . . . . .1 . . . . . . . . . . . . . . . .1 . . . 486 10. . . . . . . . . . . . . . . . .2 Variational lower bound . . . . . . . . . . . . . . . . . . . 486 10. . . . 548 11 . . . . . . . . . . . . . . . . . 565 12. . . . . . . . .2. . . . . . . . . . . . . . . . . . . . . . . 554 Exercises . .

591 12.5. . . . . 583 12. . . . . . . . . . . . . .4 Nonlinear Latent Variable Models . . . . 670 14. . . . 615 13. . . 655 14. . . . . . . . . . . . . . .4. . . 580 12. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .2. 646 14 Combining Models 653 14 . .2. . . . . . . . . . . . .3. . . . . . . . . . . . . . . . 629 13 . . . . . . 574 12. . . . . . . . . . . . . 661 14. . . . . . . . .1 Maximum likelihood PCA . . . . . . . . . . . . . . . . . . . . . . . 666 14. . . . . .2. . . . .4 Particle filters . . . . . . . . . . . . . . . . . . . . . . . . .3 . . . . . . . .2 Learning in LDS . . . . . . . . . .5 .2. . . . . . . .2 Committees . . . . . . . . . . . . . . . .2. . . .3. . . . . . . . 659 14 . . . . 638 13 . . . . . . 592 12. . . . . . . . . . . . . . . . . . . . . 599 13 Sequential Data 605 13. . . . . . . . . .2 Probabilistic PCA . . . .4 Scaling factors . . . . . . . . . . . . . . . . . . . . . . . 586 12 .2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 591 12. . . . . .3 Linear Dynamical Systems . . . . . . . . . . . . . . . . . . . . . CONTENTS Ax 12.3. . . . .5 The Viterbi algorithm . . . . . . . . . . . . . . . . . . . . . . . . . 631 13. . . . . . . . . 672 Exercises . . . . . . . . . . .2 Autoassociative neural networks . . . . . . . .5 . . . . . . 618 13. . . . . .3 Extensions of LDS . . . . 642 13. . . . . . . . . . . . .3 . . . . . . . . . . . .1 Maximum likelihood for the HMM . . . . . . . . 607 13. . . . . . . . . . . . . . . . . . . . . . . . . . .1 Minimizing exponential error .4 Tree-based Models . . .3 The sum-product algorithm for the HMM . . . . . . . . . . . . . . . . . . . . .3 Kernel PCA . . .2. . . . . .3 Boosting . . . . . . . . . . . . . .2 .4. . 570 12 . . . . . . . . . . . . . . .1 Bayesian Model Averaging . . . . . .5 Conditional Mixture Models . . . . 635 13 . . . . . . . . . . . 625 13. . . . . . . . . . 663 14. . . . . . . 577 12. . .1 Markov Models .2 Mixtures of logistic models . .3 Mixtures of experts . . . . . . . . . . .1 Inference in LDS . 610 13. . . . .2. . . 667 14. .2 Error functions for boosting . . . . . . .3 . . . . . . . . . . . . . . . . . . . . . . . .3 Modelling nonlinear manifolds . . .1 Independent component analysis . . . . . . . . . . . . . . . . 654 14 . . . . . . . . . .2 Hidden Markov Models . . . . . 627 13.6 Extensions of the hidden Markov model . . . . . .2 EM algorithm for PCA . . . . . .2 The forward-backward algorithm . . . . . . .1 Mixtures of linear regression models . . . . . . . 595 Exercises . 645 Exercises . . . . . . . . . . . . . . 657 14 . .4 Factor analysis . . . . . . . . . . . . . . .3 Bayesian PCA . . 674 Appendix A Data Sets 677 Appendix B Probability Distributions 685 Appendix C Properties of Matrices 695 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .2. . . . 644 13. . . . . . . . . . . . . . . . . . . .4. .

xx CONTENTS Appendix D Calculus of Variations Appendix E Lagrange Multipliers References Index .