Textbook Mathematical Theory of Bayesian Statistics 1St Edition Sumio Watanabe Ebook All Chapter PDF

Mathematical Theory of Bayesian
Statistics 1st Edition Sumio Watanabe

Visit to download the full and correct content document:
https://textbookfull.com/product/mathematical-theory-of-bayesian-statistics-1st-edition
-sumio-watanabe/
More products digital (pdf, epub, mobi) instant
download maybe you interests ...
Mathematical Theory of Bayesian Statistics First

Edition Watanabe
https://textbookfull.com/product/mathematical-theory-of-bayesian-
statistics-first-edition-watanabe/
Mathematical Statistics 1st Edition Dieter Rasch
https://textbookfull.com/product/mathematical-statistics-1st-
edition-dieter-rasch/
Probability and Mathematical Statistics Theory

Applications and Practice in R 1st Edition Mary C.
Meyer
https://textbookfull.com/product/probability-and-mathematical-
statistics-theory-applications-and-practice-in-r-1st-edition-
mary-c-meyer/
Mathematical Statistics Borovkov A. A.
https://textbookfull.com/product/mathematical-statistics-
borovkov-a-a/
The Bayesian way: introductory statistics for
economists and engineers First Edition Nyberg
https://textbookfull.com/product/the-bayesian-way-introductory-
statistics-for-economists-and-engineers-first-edition-nyberg/
Bayesian Statistics for Beginners: A Step-By-Step

Approach Therese M Donovan
https://textbookfull.com/product/bayesian-statistics-for-
beginners-a-step-by-step-approach-therese-m-donovan/
Practice of Bayesian Probability Theory in Geotechnical

Engineering Wan-Huan Zhou
https://textbookfull.com/product/practice-of-bayesian-
probability-theory-in-geotechnical-engineering-wan-huan-zhou/
Mathematical Methods of Statistics Pms 9 Volume 9

Harald Cramér
https://textbookfull.com/product/mathematical-methods-of-
statistics-pms-9-volume-9-harald-cramer/
Reasoning with Data An Introduction to Traditional and

Bayesian Statistics Using R 1st Edition Jeffrey M.
Stanton
https://textbookfull.com/product/reasoning-with-data-an-
introduction-to-traditional-and-bayesian-statistics-using-r-1st-
edition-jeffrey-m-stanton/
Mathematical Theory
of Bayesian Statistics
Mathematical Theory
of Bayesian Statistics
Sumio Watanabe
CRC Press
Taylor & Francis Group
6000 Broken Sound Parkway NW, Suite 300
Boca Raton, FL 33487-2742
© 2018 by Taylor & Francis Group, LLC
CRC Press is an imprint of Taylor & Francis Group, an Informa business
No claim to original U.S. Government works
Printed on acid-free paper
Version Date: 20180402
International Standard Book Number-13: 978-1-482-23806-8 (Hardback)
This book contains information obtained from authentic and highly regarded sources. Reasonable
efforts have been made to publish reliable data and information, but the author and publisher cannot
assume responsibility for the validity of all materials or the consequences of their use. The authors and
publishers have attempted to trace the copyright holders of all material reproduced in this publication
and apologize to copyright holders if permission to publish in this form has not been obtained. If any
copyright material has not been acknowledged please write and let us know so we may rectify in any
future reprint.
Except as permitted under U.S. Copyright Law, no part of this book may be reprinted, reproduced,
transmitted, or utilized in any form by any electronic, mechanical, or other means, now known or
hereafter invented, including photocopying, microfilming, and recording, or in any information
storage or retrieval system, without written permission from the publishers.
For permission to photocopy or use material electronically from this work, please access
www.copyright.com (http://www.copyright.com/) or contact the Copyright Clearance Center, Inc.
(CCC), 222 Rosewood Drive, Danvers, MA 01923, 978-750-8400. CCC is a not-for-profit organization
that provides licenses and registration for a variety of users. For organizations that have been granted
a photocopy license by the CCC, a separate system of payment has been arranged.
Trademark Notice: Product or corporate names may be trademarks or registered trademarks, and
are used only for identification and explanation without intent to infringe.
Visit the Taylor & Francis Web site at
http://www.taylorandfrancis.com
and the CRC Press Web site at
http://www.crcpress.com
Contents
Preface ix
1 Definition of Bayesian Statistics 1

1.1 Bayesian Statistics . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2 Probability Distribution . . . . . . . . . . . . . . . . . . . . . 4
1.3 True Distribution . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.4 Model, Prior, and Posterior . . . . . . . . . . . . . . . . . . . 9
1.5 Examples of Posterior Distributions . . . . . . . . . . . . . . 11
1.6 Estimation and Generalization . . . . . . . . . . . . . . . . . 17
1.7 Marginal Likelihood or Partition Function . . . . . . . . . . . 21
1.8 Conditional Independent Cases . . . . . . . . . . . . . . . . . 25
1.9 Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2 Statistical Models 35
2.1 Normal Distribution . . . . . . . . . . . . . . . . . . . . . . . 35
2.2 Multinomial Distribution . . . . . . . . . . . . . . . . . . . . 41
2.3 Linear Regression . . . . . . . . . . . . . . . . . . . . . . . . . 48
2.4 Neural Network . . . . . . . . . . . . . . . . . . . . . . . . . . 53
2.5 Finite Normal Mixture . . . . . . . . . . . . . . . . . . . . . . 56
2.6 Nonparametric Mixture . . . . . . . . . . . . . . . . . . . . . 59
2.7 Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
3 Basic Formula of Bayesian Observables 67

3.1 Formal Relation between True and Model . . . . . . . . . . . 67
3.2 Normalized Observables . . . . . . . . . . . . . . . . . . . . . 77
3.3 Cumulant Generating Functions . . . . . . . . . . . . . . . . . 80
3.4 Basic Bayesian Theory . . . . . . . . . . . . . . . . . . . . . . 85
3.5 Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
v
vi CONTENTS
4 Regular Posterior Distribution 99

4.1 Division of Partition Function . . . . . . . . . . . . . . . . . . 99
4.2 Asymptotic Free Energy . . . . . . . . . . . . . . . . . . . . . 107
4.3 Asymptotic Losses . . . . . . . . . . . . . . . . . . . . . . . . 111
4.4 Proof of Asymptotic Expansions . . . . . . . . . . . . . . . . 118
4.5 Point Estimators . . . . . . . . . . . . . . . . . . . . . . . . . 123
4.6 Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
5 Standard Posterior Distribution 135

5.1 Standard Form . . . . . . . . . . . . . . . . . . . . . . . . . . 136
5.2 State Density Function . . . . . . . . . . . . . . . . . . . . . . 146
5.3 Asymptotic Free Energy . . . . . . . . . . . . . . . . . . . . . 152
5.4 Renormalized Posterior Distribution . . . . . . . . . . . . . . 154
5.5 Conditionally Independent Case . . . . . . . . . . . . . . . . . 162
5.6 Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171
6 General Posterior Distribution 177

6.1 Bayesian Decomposition . . . . . . . . . . . . . . . . . . . . . 177
6.2 Resolution of Singularities . . . . . . . . . . . . . . . . . . . . 181
6.3 General Asymptotic Theory . . . . . . . . . . . . . . . . . . . 190
6.4 Maximum A Posteriori Method . . . . . . . . . . . . . . . . . 196
6.5 Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203
7 Markov Chain Monte Carlo 207

7.1 Metropolis Method . . . . . . . . . . . . . . . . . . . . . . . . 207
7.1.1 Basic Metropolis Method . . . . . . . . . . . . . . . . 209
7.1.2 Hamiltonian Monte Carlo . . . . . . . . . . . . . . . . 211
7.1.3 Parallel Tempering . . . . . . . . . . . . . . . . . . . . 215
7.2 Gibbs Sampler . . . . . . . . . . . . . . . . . . . . . . . . . . 217
7.2.1 Gibbs Sampler for Normal Mixture . . . . . . . . . . . 218
7.2.2 Nonparametric Bayesian Sampler . . . . . . . . . . . . 221
7.3 Numerical Approximation of Observables . . . . . . . . . . . 225
7.3.1 Generalization and Cross Validation Losses . . . . . . 225
7.3.2 Numerical Free Energy . . . . . . . . . . . . . . . . . . 226
7.4 Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 229
8 Information Criteria 231

8.1 Model Selection . . . . . . . . . . . . . . . . . . . . . . . . . . 231
8.1.1 Criteria for Generalization Loss . . . . . . . . . . . . . 232
8.1.2 Comparison of ISCV with WAIC . . . . . . . . . . . . 240
CONTENTS vii
8.1.3 Criteria for Free Energy . . . . . . . . . . . . . . . . . 245

8.1.4 Discussion for Model Selection . . . . . . . . . . . . . 250
8.2 Hyperparameter Optimization . . . . . . . . . . . . . . . . . . 251
8.2.1 Criteria for Generalization Loss . . . . . . . . . . . . . 253
8.2.2 Criterion for Free Energy . . . . . . . . . . . . . . . . 257
8.2.3 Discussion for Hyperparameter Optimization . . . . . 259
8.3 Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 264
9 Topics in Bayesian Statistics 267

9.1 Formal Optimality . . . . . . . . . . . . . . . . . . . . . . . . 267
9.2 Bayesian Hypothesis Test . . . . . . . . . . . . . . . . . . . . 270
9.3 Bayesian Model Comparison . . . . . . . . . . . . . . . . . . . 275
9.4 Phase Transition . . . . . . . . . . . . . . . . . . . . . . . . . 277
9.5 Discovery Process . . . . . . . . . . . . . . . . . . . . . . . . . 282
9.6 Hierarchical Bayes . . . . . . . . . . . . . . . . . . . . . . . . 286
9.7 Problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 291
10 Basic Probability Theory 293

10.1 Delta Function . . . . . . . . . . . . . . . . . . . . . . . . . . 293
10.2 Kullback-Leibler Distance . . . . . . . . . . . . . . . . . . . . 294
10.3 Probability Space . . . . . . . . . . . . . . . . . . . . . . . . . 296
10.4 Empirical Process . . . . . . . . . . . . . . . . . . . . . . . . . 302
10.5 Convergence of Expected Values . . . . . . . . . . . . . . . . 303
10.6 Mixture by Dirichlet Process . . . . . . . . . . . . . . . . . . 306
References 309
Index 317
Preface
The purpose of this book is to establish a mathematical theory of Bayesian

statistics.
In practical applications of Bayesian statistical inference, we need to pre-
pare a statistical model and a prior for a given sample, then estimate the
unknown true distribution. One of the most important problems is devising
a method how to construct a pair of a statistical model and a prior, although
we do not know the true distribution. The answer based on mathematical
theory to this problem is given by the following procedures.
(1) Firstly, we construct the universal and mathematical laws between Bayesian
observables which hold for an arbitrary triple of a true distribution, a sta-
tistical model, and a prior.
(2) Secondly, by using such laws, we can evaluate how appropriate a set of
a statistical model and a prior is for the unknown true distribution.
(3) And lastly, the most suitable pair of the statistial model and the prior
is employed.
The conventional approach to such a purpose has been based on the
assumption that the posterior distribution can be approximated by some
normal distribution. However, the new statistical theory introduced by this
book holds for arbitrary posterior distribution, demonstrating that the ap-
plication field will be extended. The author expects that also new statistical
methodology which enables us to manupulate complex and hierarchical sta-
tistical models such as normal mixtures or hierarhical neural networks will
be based on the new mathematical theory.
Sumio Watanabe
ix
Chapter 1
Definition of Bayesian
Statistics
In the first chaper, we introduce basic concepts in Bayesian statistics. In

this book, we assume that there exists an unknown true distribution or
unknown information source from which random variables are generated.
Also we assume that an arbitrary set of a statistical model and a prior is
prepared by a statistician who does not know the true distribution. Hence,
from the mathematical point of view, the theory proposed in this book holds
for an arbitrary set of a true distribution, a statistical model, and a prior.
The contents of this chaper include:
(1) In statistical estimation, we prepare a statistical model and a prior,
though a true distribution is unknown. Hence evaluation of a statistical
model and a prior is necessary.
(2) Several examples of probability distributions are introduced.
(3) It is assumed that an information source is represented by a probability
distribution, which is called a true distribution.
(4) The posterior and the predicitive distributions are defined for a given
statistical model and a prior.
(5) Two examples of posterior distributions are illustrated. In a simple
estimation problem, the posterior distribution can be approximated by a
normal distribution, whereas in a complex or hierarchical model, the result
is far from any normal distribution. In this book we establish Bayesian
theory which holds for both cases.
(6) The generalization loss is estimated by the cross validation loss and the
widely applicable information criterion (WAIC).
(7) The marginal likelihood and the free energy of statistical estimation are
1
2 CHAPTER 1. DEFINITION OF BAYESIAN STATISTICS
introduced.
(8) Statistical estimation in a conditional independent case is studied, in
which the cross validation loss can not be used but WAIC can be.
For readers who are new to probability theory, chapter 10 will be helpful.
1.1 Bayesian Statistics

In this book, we assume that a sample {x1 , x2 , ..., xn } is taken from some
true probability distribution q(x),
{x1 , x2 , ..., xn } ∼ q(x).
This process is represented by a conditional probability distribution of a

sample {x1 , x2 , ..., xn } for a given true distribution q(x),
P (x1 , x2 , ..., xn |q).
If we knew both P (x1 , x2 , ..., xn |q) and P (q), where P (q) is an a priori
probability distribution of a true distribution, then by Bayes’ theorem,
P (x1 , x2 , ..., xn |q)P (q)

P (q|x1 , x2 , ..., xn ) = P ,
q P (x1 , x2 , ..., xn |q)P (q)
which would give the statistical inference of q(x) from a sample {x1 , x2 , ...,
xn }. However, in the real world, we do not have any information about
either of them, showing that P (q|x1 , x2 , ..., xn ) cannot be obtained.
A problem whose answer cannot be uniquely determined because of the
lack of the information is called an ill-posed problem. Statistical inferences
in the real world are ill-posed. In an ill-posed problem, we cannot deter-
mine a uniquely optimal method by which a correct answer is automatically
obtained, which leads us to propose a new way:
Choose method → Result → Evaluate chosen method.
It might seem that such an evaluation is impossible because we do not

have any information about the true distribution. However, in Bayesian
statistics, there are mathematical laws which hold for an arbitrary set of a
true distribution, a statistical model, and a prior. By using formulas derived
from the mathematical laws, we can evaluate the appropriateness of the set
of a statistical model and a prior even if a true distribution is unknown. The
purpose of this book is to establish such mathematical laws.
1.1. BAYESIAN STATISTICS 3
In Bayesian statistics, we set a statistical model p(x|w) and a prior ϕ(w),

where p(x|w) is a conditional probability density of x for a given parameter
w and ϕ(w) is a probability density of w. Both p(x|w) and ϕ(w) are prepared
by a statistician who does not know a true distribution. Hence they may be
quite different from or inappropriate for the true distribution. If a sample
{x1 , x2 , ..., xn } consists of independent sample points from a true distribution
q(x), then the posterior probability density function of w is defined by
n
Y
p(xi |w)ϕ(w)
i=1
p(w|x1 , x2 , ..., xn ) = Z n .
Y
p(xi |w)ϕ(w)dw
i=1
This is the definition of the posterior distribution. The estimated probability

density function of x is defined by
Z
p̂(x) = p(x|w)p(w|x1 , x2 , ..., xn )dw.
This is also the definition of the predictive distribution. A statistician esti-

mates unknown q(x) by p̂(x). For an arbitrary triple (q(x), p(x|w), ϕ(w)),
we can define the Bayesian inference by this procedure, however, we need
to examine whether a statistical model and a prior are appropriate for the
unknown true distribution. Figure 1.1 shows the process of Bayesian esti-
mation.
Remark 1. If we knew the true prior ϕ0 (w) to which a parameter as a ran-
dom variable is subject, and if a sample {x1 , x2 , ..., xn } was independently
taken from the true conditional probability density p0 (x|w), then the pre-
dictive distribution p̂(x) using p0 (x|w) and ϕ0 (w) would be the uniquely
best inference. This is called the formal optimality of the Bayesian infer-
ence. See Section 9.1. However, in the real world, we do not know either
p0 (x|w) or ϕ0 (x), indicating that we need evaluation because p̂(x) may be
quite different from q(x).
The candidate set p(x|w) and ϕ(w) is prepared by a statistician without
any information about the true distribution. If the modeling (p(x|w), ϕ(w))
is appropriate for the unknown true q(x), then it is expected that p̂(x) ≈
q(x). However, if otherwise then p̂(x) 6= q(x). Hence we need a method
to evaluate the appropriateness of the modeling (p(x|w), ϕ(w)) without any
information about q(x). In this book, we show such a method can be made
based on mathematical laws which hold for arbitrary (q(x), p(x|w), ϕ(w)).
Figure 1.1: Framework of Bayesian inference. The procedure of Bayesian

estimation is shown. A sample X n is taken from unknown true distribution
q(x). A statistician sets a statistical model and a prior, then the posterior
density p(w|X n ) is obtained. The true distribution q(x) is estimated by a
predictive density p(x|X n ), whose accuracy is evaluated by using mathe-
matical laws.
1.2 Probability Distribution

Let us introduce a basic probability theory. For a reader who needs mathe-
matical probability theory, Chapter 10 may be of help.
Let x = (x1 , x2 , ..., xN ) be a vector contained in the N dimensional real
Euclidean space RN . A real valued function
q(x) = q(x1 , x2 , ..., xN )
is said to be a probability density function if it satisfies
• For arbitrary x ∈ RN , q(x) ≥ 0,

Z Z Z Z
• q(x)dx = · · · q(x1 , x2 , ..., xN )dx1 dx2 · · · dxN = 1.
Let A be a subset of RN which has an finite integral value

Z
q(x)dx.
A
1.2. PROBABILITY DISTRIBUTION 5
A function Q of a set A defined by

Z
Q(A) ≡ q(x)dx
A
is called a probability distribution. Note that Q(RN ) = 1 and Q(∅) = 0,

where ∅ is the empty set.
If the probability that a variable X is in a set A is equal to Q(A), then X
is called a random variable and q(x) and Q are called the probability density
function and the probability distribution of a random variable X, respec-
tively. Also it is said that a random variable X is subject to a probability
density q(x) or a probability distribution Q.
Example 1. (1) Let N = 1. A probability density function of a uniform
distribution on [a0 , b0 ] (a0 < b0 ) is given by
1
q(x) = b0 −a0 (a0 < x ≤ b0 ) .
0 (otherwise)
(2) Let S be an N × N positive definite matrix and m ∈ RN . A normal

distribution which has an average m and a covariance S is defined by
1 1
q(x) = exp − (x − m, S −1 (x − m)) ,
C 2
where ( , ) is the inner product in RN and
C = (2π)N/2 det(S).
p
(3) Let H(x) be a function of x ∈ RN and β > 0. If

Z
Z(β) = exp(−βH(x))dx
is finite, then a probability density function

1
q(x) = exp(−βH(x))
Z(β)
is called an equilibrium state of a Hamilton function H(x) with the inverse
temperature β.
The delta function δ(x) is characterized by two conditions,

+∞ (if x = 0)
δ(x) = ,
0 (if x 6= 0)
and Z
δ(x)dx = 1.
The delta function can be understood as the probability density function of

a random variable X = 0. Its probability distribution is given by

1 (if 0 ∈ A)
Q(A) = .
0 (if 0 ∈/ A)
If a random variable X satisfies that X = 1 and X = 2 with probabilities

1/3 and 2/3 respectively, then its probability density function is
1 2
q(x) = δ(x − 1) + δ(x − 2).
3 3
If X is a random variable which is subject to q(x) and Q, then Y = f (X) is
also a random variable which is subject to
Z
p(y) = δ(y − f (x))q(x)dx,
Z
P (A) = q(x)dx.
f (x)∈A
These equations hold even if f (x) is not one-to-one.

Remark 2. The function δ(x) is not an ordinary function of x. However,
it is mathematically well-defined by Schwartz distribution theory and Sato
hyperfunction theory. In this book, the delta function is necessary to study
posterior distributions which cannot be approximated by any normal distri-
bution.
Assume that a random variable X is subject to a probability density
q(x). The expected value, the average, or the mean of a random variable X
on RN is defined by Z
E[X] = x q(x)dx,
if the right hand side is finite. The expectated value of Y = f (X) is

Z Z Z
E[Y ] = y p(y)dy = y δ(y − f (x))q(x)dxdy
Z
= f (x)q(x)dx.
1.3. TRUE DISTRIBUTION 7
The covariance matrix of X is defined by
V[X] = E[(X − E[X])(X − E[X])T ]

= E[XX T ] − E[X]E[X T ],
if the right hand side is finite, where ( )T shows the transposed matrix.
If N = 1, then V[X] and V[X]1/2 are called the variance and the standard
deviation, respectively.
Let (X, Y ) be a pair of random variables which is subject to a probability

density q(x, y) on RM ×RN . Here q(x, y) is called a simultaneous probability
density of (X, Y ). Then X and Y are subject to the probability densities
Z
q(x) = q(x, y)dy,
Z
q(y) = q(x, y)dx,
where q(x) and q(y) are called marginal probability densities of X and Y ,
respectively. The conditional probability density of Y for a given X is
defined by
q(x, y)
q(y|x) = .
q(x)
If q(x) = 0, then q(y|x) is not defined, however, we define 0 · q(y|x) = 0. The
conditional probability density function q(x|y) is also defined by q(x, y)/q(y).
Then it follows that
q(x, y) = q(y|x)q(x) = q(x|y)q(y).
This equation is sometimes referred to as Bayes’ theorem.
1.3 True Distribution

In this book, it is mainly assumed that a sample is a set of random variables
taken from a true distribution.
Let n be a positive integer. A set of RN -valued random variables X1 ,
X2 , ..., Xn is sometimes denoted by
X n = (X1 , X2 , ..., Xn ).
Throughout this book, the notation n is used for the number of random
variables. Sometimes X n and n are referred to as a sample and a sample
size, respectively. A realized value of X n in a trial is denoted by
xn = (x1 , x2 , ..., xn ).
If X n is subject to a probability density function,
q(x1 )q(x2 ) · · · q(xn )
then X n is called a set of independent random variables which are subject
to the same probability density q(x). Here q(x) is sometimes referred to as a
true probability density. In the practical applications, we do not know q(x),
but we assume there exists such a density q(x).
For an arbitrary function f : xn 7→ f (xn ) ∈ R, the expected value of
f (X n ) over X n is denoted by E[ ]. That is to say,
Z Z Z n
Y
n n
E[f (X )] = · · · f (x ) q(xi )dx1 dx2 · · · dxn .
i=1
The variance of f (X n ) is denoted by

V[f (X n )] = E[f (X n )2 ] − E[f (X n )]2 .
The average and empirical entropies of the true distribution are respectively
defined by
Z
S = − q(x) log q(x)dx, (1.1)
n
1X
Sn = − log q(Xi ). (1.2)
n
i=1
Then by the definition,

E[Sn ] = S, (1.3)
1h
Z i
V[Sn ] = q(x)(log q(x))2 dx − S 2 . (1.4)
n
Remark 3. (The number n) In statistics, xi and xn are referred to as a
sample point and a sample, respectively. The number n is called a sample
size. In machine learning, xi and xn are referred to as a datum and a set of
training data. The number n is called the number of training data or the
number of examples. In this book, the notation n is used for the number
of random variables, which is equal to the sample size in statistics and the
number of training data in machine learning.
1.4. MODEL, PRIOR, AND POSTERIOR 9
If a set of RM × RN -valued random variables (X n , Y n ) is subject to a

probability density function,
q(x1 , y1 )q(x2 , y2 ) · · · q(xn , yn ),
then (X n , Y n ) is a set of independent random variables. The average and

empirical entropies are repsectively given by
Z
S = − q(x, y) log q(x, y)dxdy, (1.5)
n
1X
Sn = − log q(Xi , Yi ). (1.6)
n
i=1
These are referred to as the simlutaneous average and empirical entropies.

We often need to estimate the conditional probability density function q(y|x)
under the condition that (X n , Y n ) is obtained. The average and the em-
pirical entropies of the true conditional distribution are respectively defined
by
Z
S = − q(x, y) log q(y|x)dxdy, (1.7)
n
1X
Sn = − log q(Yi |Xi ). (1.8)
n
i=1
Then by the definition,
E[Sn ] = S,
1h
Z i
V[Sn ] = q(x, y)(log q(y|x))2 dxdy − S 2 .
n
Sometimes we need to study cases when (X n , Y n ) is not independent, but

Y n for a given X n is independent. Such a case is explained in Sections 1.8
and 5.5.
1.4 Model, Prior, and Posterior

Let W be a set of parameters which is a subset of d dimensional real Eu-
clidean space Rd . A statistical model or a learning machine is defined by
p(x|w) which is a conditional probability density of x ∈ RN for a given
parameter w ∈ W . A prior ϕ(w) is a probability density of w ∈ W .
Let X n = (X1 , X2 , ..., Xn ) be a set of random variables which are inde-

pendently subject to a probability density function q(x). For an arbitrary
pair (p(x|w), ϕ(w)), the posterior probability density is defined by
n
1 Y
p(w|X n ) = n
ϕ(w) p(Xi |w),
Z(X )
i=1
where Z(X n ) is defined by

Z n
Y
n
Z(X ) = ϕ(w) p(Xi |w)dw,
i=1
which is called the partition function or the marginal likelihood. The

posterior average or the expected value over the posterior distribution is
denoted by Ew [ ]. For an arbitrary function f (w),
Z
Ew [f (w)] = f (w)p(w|X n )dw
n
1
Z Y
= f (w)ϕ(w) p(Xi |w)dw.
Z(X n )
i=1
The posterior variance is also defined by

Vw [f (w)] = Ew [f (w)2 ] − Ew [f (w)]2 .
Remark that the expectation operator Ew [ ] depends on a set X n , hence
Ew [f (w)] is not a constant but a random variable. The predictive density
function is defined by
Z
p(x|X ) = Ew [p(x|w)] = p(x|w)p(w|X n )dw.
n
For a given sample X n , the Bayesian estimation of the true distribution is

defined by p(x|X n ).
Remark 4. Sometimes a prior function which satisfies
Z
ϕ(w)dw = ∞
R
is employed.
R If ϕ(w)dw < ∞, it is called proper, because it is normalized
so that ϕ(w)dw = 1. If ϕ(w) is not proper, then it is called improper. Even
for an improper prior, the posterior and predictive probability densities can
be defined by the same equation if Z(X n ) (n ≥ 1) is finite and they are
well-defined.
1.5. EXAMPLES OF POSTERIOR DISTRIBUTIONS 11
Let (X n , Y n ) be a set of random variables which are independently sub-

ject to a probability density q(x, y) = q(y|x)q(x). For an arbitrary pair
(p(y|x, w), ϕ(w)), the posterior probability density is defined by
n
1 Y
p(w|X n , Y n ) = n n
ϕ(w) p(Yi |Xi , w), (1.9)
Z(X , Y )
i=1
where Z(X n , Y n ) is defined by

Z n
Y
n n
Z(X , Y ) = ϕ(w) p(Yi |Xi , w)dw.
i=1
The posterior average is also denoted by Ew [ ]. For an arbitrary function

f (w),
Z
Ew [f (w)] = f (w)p(w|X n , Y n )dw
n
1
Z Y
= f (w)ϕ(w) p(Yi |Xi , w)dw.
Z(X , Y n )
n
i=1
The posterior variance is also defined by
Vw [f (w)] = Ew [f (w)2 ] − Ew [f (w)]2 .
The predictive density function is defined by

Z
p(y|x, X , Y ) = Ew [p(y|x, w)] = p(y|x, w)p(w|X n , Y n )dw.
n n
(1.10)
For the case when Y n is independent for a given X n , see Sections 1.8 and
5.5.
1.5 Examples of Posterior Distributions

Let us illustrate several posterior distributions. In a simple statistical model,
the posterior distribution can be approximated by a normal distribution, but
not in a complex model. One of the main purposes of this book is to establish
the universal mathematical theory which holds in both cases.
Example 2. (Normal Distribution) A normal distribution whose average and
standard deviation are (a, σ) is defined by
1 (x − a)2
p(x|a, σ) = √ exp − . (1.11)
2πσ 2 2σ 2
1 1 1 1
0 0 0 0
-1 -1 -1 -1
0 1 2 0 1 2 0 1 2 0 1 2
1 1 1 1
0 0 0 0
-1 -1 -1 -1
0 1 2 0 1 2 0 1 2 0 1 2
1 1 1 1
0 0 0 0
-1 -1 -1 -1
0 1 2 0 1 2 0 1 2 0 1 2
Figure 1.2: Posterior distributions of a statistical model eq.(1.11) with

n = 10 are shown. The white square is the true parameter. Even for an iden-
tical true probability density, posterior distributions fluctuate depending on
samples.
Let us study a case when a prior is set

1/4 (|a| < 1, 0 < σ < 2)
ϕ(a, σ) = .
0 (otherwise)
Assume that a true distribution is q(x) = p(x|0, 1) and the number of inde-
pendent random variables is n. In this case, the parameter that attains the
true density is unique,
q(x) = p(x|a, σ) ⇐⇒ (a, σ) = (1, 0).
In Figure 1.5, posterior distributions for 12 different samples with n = 10

are shown using gray scale. The white square is the position of the true
parameter (0, 1). Even if a true probability density function is identical, the
posterior distribution has fluctuations according to a sample.
In Figure 1.3, posterior distributions for 12 different samples with n =
50 are shown. In this case, the posterior distributions concentrate in a
1 1 1 1
0 0 0 0
-1 -1 -1 -1
0 1 2 0 1 2 0 1 2 0 1 2
1 1 1 1
0 0 0 0
-1 -1 -1 -1
0 1 2 0 1 2 0 1 2 0 1 2
1 1 1 1
0 0 0 0
-1 -1 -1 -1
0 1 2 0 1 2 0 1 2 0 1 2
Figure 1.3: Posterior distributions of a statistical model eq.(1.11) with n =

50. The white square is the true parameter. Posterior distributions can be
approximated by some normal distribution.
neighborhood of the true parameter when n becomes large. It seems that

the posterior distribution can be approximated by some normal distribution,
hence we expect that a conventional statistical theory using the posterior
normality can be applied to evaluation of statistical modeling.
Example 3. (Normal Mixture) One might think that a posterior distribution

can be approximated by some normal distribution if d/n is sufficiently small,
where n and d are the number of random variables and the dimension of
the parameter, respectively. However, such consideration often fails even in
unspecial statistical models. Let N (x) be the standard normal distribution,
1 x2
N (x) = √ exp − .
2π 2
A normal mixture which has a parameter (a, b) is defined by
p(x|a, b) = (1 − a)N (x) + aN (x − b), (1.12)

where 0 ≤ a ≤ 1 and b ∈ R. Let us set a prior by

1 (0 < a, b < 1)
ϕ(a, σ) = .
0 (otherwise)
Assume that a true probability density is q(x) = p(x|0.5, 0.3). Then
q(x) = p(x|a, b) ⇐⇒ (a, b) = (0.5, 0.3),
by which one might expect that the posterior distribution will concentrate
on the neighborhood of the true parameter (0.5, 0.3). The real posterior
distributions for n = 100, n = 1000, and n = 10000 are shown in Figures
1.4, 1.5, and 1.6, respectively.
1 1 1 1
0.5 0.5 0.5 0.5
0 0 0 0
0 0.5 1 0 0.5 1 0 0.5 1 0 0.5 1
1 1 1 1
0.5 0.5 0.5 0.5
0 0 0 0
0 0.5 1 0 0.5 1 0 0.5 1 0 0.5 1
1 1 1 1
0.5 0.5 0.5 0.5
0 0 0 0
0 0.5 1 0 0.5 1 0 0.5 1 0 0.5 1
Figure 1.4: Postrior distributions of a statistical model eq.(1.12) with n =

100. The white square is the true parameter. The posterior distributions
are far from any normal distribution and their fluctuations are very large.
The statistical theory in this book enables us to estimate the generalization
loss even in this case.
Even when n = 10000, the posterior distribution cannot be approxi-

mated by any normal distribution. The regular statistical theory, which
1 1 1 1
0.5 0.5 0.5 0.5
0 0 0 0
0 0.5 1 0 0.5 1 0 0.5 1 0 0.5 1
1 1 1 1
0.5 0.5 0.5 0.5
0 0 0 0
0 0.5 1 0 0.5 1 0 0.5 1 0 0.5 1
1 1 1 1
0.5 0.5 0.5 0.5
0 0 0 0
0 0.5 1 0 0.5 1 0 0.5 1 0 0.5 1

1000. The white square is the true parameter. The number n = 1000 seems
to be sufficiently large, however, the posterior distributions are far from any
normal distribution and their fluctuations are very large.
assumes that the posterior distribution can be approximated by a normal

distribution, cannot be applied to this case. Therefore, in order to use the
regular asymptotic theory, the condition n >> 10000 is necessary, if oth-
erwise it has been difficult to establish a statistical hypothesis test or a
statistical model selection. In this book, we show a new statistical theory
which holds even if n = 100 can be established by a mathematical base.
Both statistical models given by eq.(1.11) and eq.(1.12) are employed
in many statistical inferences. In the former model, p(x|m, s) represents
one normal distribution for an arbitrary (m, s), whereas in the latter model,
p(x|a, b) represents one or two normal distributions, depending on the pa-
rameter. In fact, if ab = 0, then p(x|a, b) is a standard normal distribution.
Hence the parameter (a, b) is not a simple parameter but affects the struc-
ture of a statistical model. In general, if a statistical model has hierarchical
structure or a hidden variable such as the latter model, then the posterior
distribution cannot be approximated by a normal distribution in general.
1 1 1 1
0.5 0.5 0.5 0.5
0 0 0 0
0 0.5 1 0 0.5 1 0 0.5 1 0 0.5 1
1 1 1 1
0.5 0.5 0.5 0.5
0 0 0 0
0 0.5 1 0 0.5 1 0 0.5 1 0 0.5 1
1 1 1 1
0.5 0.5 0.5 0.5
0 0 0 0
0 0.5 1 0 0.5 1 0 0.5 1 0 0.5 1

10000. The white square is the true parameter. In this case, n = 10000 and
the number of parameters is 2, however, the posterior distributions can not
be approximated by any normal distribution.
In this book, in Chapter 4, we study the former statistical models, and in

Chapters 5 and 6, we derive a new mathematical theory for both models.
From the mathematical point of view, the statistical model of eq.(1.11)
does not have singularities, whereas that of eq.(1.12) does. The true pa-
rameter (0.5, 0.3) in eq.(1.12) is a nonsingular point but lies near singularity
(0, 0). In fact, the function from a parameter to a statistical model is not
one-to-one,
{(a, b); p(x|a, b) = p(x|0, 0)} = {(a, b); ab = 0},
and (a, b) = (0, 0) is a singularity of this set. It should be empasized that
a singularity affects the posterior distribution even if the true parameter is
not a singularity. Moereover, several statistical models used in infromation
processing such as artificial neural networks and mixture models have many
singularities. In general, if a statistical model has singularities, then the
Bayesian estimation has better generalization performance than the maxi-
mum likelihood method, hence we need new statistical theory for the purpose
1.6. ESTIMATION AND GENERALIZATION 17
of constructing hypothesis testing, model selection, and hyperparameter op-

timization for such singular statistical models.
1.6 Estimation and Generalization

In order to evaluate how accurate the predictive density is, we need an
objective measure which indicates the difference between the true and the
estimated probability density.
Definition 1. (Generalization and Training Losses) Let X n be a sample
which is independently taken from a true distribution q(x) and p(x|X n ) be
a predictive density using a statistical model p(x|w) and a prior ϕ(w). The
training and generalization losses are respectively defined by
n
1X
Tn = − log p(Xi |X n ), (1.13)
n
Z i=1
Gn = − q(x) log p(x|X n )dx. (1.14)
Note that both Gn and Tn are random variables. Let S be the entropy
of a true distribution given by eq.(1.1). Then it immediately follows that
Z Z
n
Gn − S = − q(x) log p(x|X )dx + q(x) log q(x)dx
q(x)
Z
= q(x) log dx
p(x|X n )
= K(q(x)||p(x|X n )), (1.15)
where K(q(x)||p(x|X n )) is the Kullback-Leibler distance from q(x) to p(x|X n ).

For the definition of Kullback-Leibler distance, see Section 10.2. In general,
(1) K(q(x)||p(x|X n )) ≥ 0.
(2) K(q(x)||p(x|X n )) = 0 if and only if K(q(x)||p(x|X n )) = 0.
Hence
(1) Gn ≥ S.
(2) Gn − S = 0 if and only if q(x) = p(x|X n ).
That is to say, the smaller Gn is, the more precise estimation is obtained
according to Kullback-Leibler distance. The random variables Gn − S and
Tn − Sn are called generalization and training errors respectively.
Remark 5. Assume that we have two sets of statistical models and priors,
(p1 (x|w), ϕ1 (w)), (p2 (x|w), ϕ2 (w)).

Let p1 (x|X n ) and p2 (x|X n ) be predictive densities of two pairs respectively,

and Gn (1) and Gn (2) be their generalization losses. Since the entropy S
does not depend on either a model or a prior,
Gn (1) > Gn (2) ⇐⇒ K(q(x)||p1 (x|X n )) > K(q(x)||p2 (x|X n )),
which shows that the smaller generalization loss is equivalent to the smaller
Kullback-Leibler distance. Two training losses Tn (1) and Tn (2) can be de-
fined for both sets, but they do not have such properties. In other words,
the smaller training loss does not mean a smaller generalization error.
Definition 2. Assume n ≥ 2. Let X n \ Xi be a set of random variables X1 ,
X2 , ..., Xn which does not contain Xi and p(x|X n \ Xi ) be the predictive
density using X n \ Xi . The cross validation loss is defined by
n
1X
Cn = − log p(Xi |X n \ Xi ). (1.16)
n
i=1
Also Cn − Sn is called a cross validation error.

Remark 6. The definition eq.(1.16) is called the leave-one-out cross valida-
tion loss. There are several kinds of cross validation losses, however, we
mainly study the leave-one-out one in this book, because it is most accuate
as an estimator of the generalization loss. The cross validation loss can be
defined even if X n is dependent. However, if X n is dependent, then it is not
an appropriate estimator of the generalization loss. In fact, the following
theorem needs independence.
Theorem 1. Assume that X n is independent. Then the following holds.
(1) Assume that the expectation values of Gn and Cn are finite. Then
E[Cn ] = E[Gn−1 ]. (1.17)
(2) The cross validation loss satisfies the relation,

n
1X h 1 i
Cn = log Ew .
n p(Xi |w)
i=1
(3) For an arbitrary set of random variables X n ,
Cn ≥ Tn .
The equality Cn = Tn holds if and only if p(Xi |w) (i = 1, 2, ..., n) is a

constant function of w on {w ∈ W ; p(w|X n ) > 0}.
Another random document with
no related content on Scribd:
V.
»NOORA» JA UNKARIN TRIUMFI.
Voimat kasvavat suurissa tehtävissä. Marie Seebach oli

ensimmäisenä johtanut Ida Aalbergin suuriin osiin, ja keväällä 1879
tämä sai Suomalaisessa teatterissa koettaa voimiaan ja kasvoi
ihmeellisen lyhyessä ajassa päätään pitemmäksi. On vaikeata
määrätä, oliko Kaarlo Bergbomilla osuutta tämän kasvun
jouduttajana. Valfrid Vasenius piti vähäistä myöhemmin »Valvojassa»
Suomalaisen teatterin tyyliä realistisena. Bergbom ei erikoisemmin
ollut kasvattanut sen näyttelijöitä, mutta mahdollista oli, että hän
kritiikillään hiukan hälvensi Ida Aalbergin laulavaa saksalaista
paatosta. Sanomalehtikritiikillä, joka merkitsi puutteita, on ollut oma
osuutensa, sillä kukapa näyttelijä olisi kuuro sen sanoille. Ida
Aalberg kirjoitti näihin aikoihin veljelleen, että hän kokoaa talteen
jokaisen sanomalehtiarvostelun, missä hänestä puhutaan.
Näyttelijää ei voida kasvattaa yksistään kamarissa annetuilla

lausuntatunneilla, jommoista Marie Seebachin opetus pääasiallisesti
lienee ollut. Myöhemmällä iällään Ida Aalberg esitti
vakaumuksenaan, että näyttelijän on opittava ammattinsa
näyttämöllä.
Ankaraa Viipurissa suoritettavaa työtä ei Ida Aalbergin hento
ruumis kestänyt. Hän sai Suomalaisesta teatterista lomaa ja vietti
alkusyksynkin 1879 kotonaan Leppäkoskella. Vasta lokakuussa hän
saapui Helsinkiin ja sai kiitosta eräissä uusissa osissa, Vronina
Anzengruberin »Valapatossa», Valpurina Oehlenschlägerin »Aksel ja
Valpuri» draamassa ja Maryna Sheridanin »Parjauspesässä». Vielä
häntä kiitettiin Björnsonin »Vastanaineissa» ja erikoisesti sanottiin
hänen saavuttaneen yleisön mieltymystä ingénue-osasta Wilbrandin
»Ensi lemmessä». Emil Nervander sanoi hänen Luisestaan
»Kavaluudessa ja rikkaudessa» alkuvuonna 1880, ettei hänen
mielestään osaa voinut toivoa esitettävän »syvemmällä tunteella,
suuremmalla nuoruuden sulolla eikä viehättävämmällä
naisellisuudella». Ida Aalberg oli joitakin päiviä aikaisemmin
esiintynyt Nervanderin kirjoittamassa jouluinteriöörissä »Pikku
Suometar». Runebergin päivänä 1880 lausui näyttelijätär »Torpan
tytön» ja hänen sanotaan olleen »sievän, iloisen ja vapaan» Juliana
»En voi» kappaleessa.
Niin niukkoja kuin tämän aikakauden teatteriarvostelut ovatkin,

niistä kuitenkin voi päättää — se on toisinaan sangen selvästi
sanottu — että Ida Aalberg jo tähän aikaan oli tullut helsinkiläisen
teatteriyleisön lemmikiksi. Kuitenkin hän vasta helmikuussa 1880
saavuttaa voiton, joka oli ratkaiseva ja vei hänet näyttämötaiteilijana
monta porrasaskelmaa ylemmäksi.
Helmikuussa 1880 Ida Aalberg ensi kertaa joutui tekemisiin

»Pohjan Velhon» Ibsenin kanssa, jolla myöhemmin tuli olemaan
sangen merkittävä osa hänen elämässään.
Millainen oli Ida Aalbergin ensimmäinen Noora?
*****
Emil Nervander kirjoitti »Morgonbladetissa» Suomalaisessa
teatterissa 25/II 1880 olleen »Nooran» ensi-illan johdosta:
»Eilispäivän näytäntö oli kauttaaltaan kaunis voitto Suomalaiselle

näyttämölle. Henrik Ibsenin »Nukkekoti» esitettiin lukuisalle
intelligentille yleisölle, joka jännityksellä, toisinaan melkein
hiiskumattomalla tarkkaavaisuudella seurasi väittelynalaisen
kappaleen sydäntäkouristavia kohtauksia. Oli tultu teatteriin iloisilla
toiveilla, jopa suurilla vaatimuksilla, että nti Aalberg etevällä tavalla
suorittaisi Nooran osan. Kohtaus kohtaukselta katseltiin hänen
näyttelemistään kasvavalla viehätyksellä, joka jo ennen kuin esirippu
oli laskenut ensimmäisen näytöksen jälkeen oli vaihtunut syväksi
ihailuksi sitä mestaruutta kohtaan, jolla hän tulkitsi luonteen
hienoimmat vivahdukset. Näytelmän toisen näytöksen suoritus
kilpaili arvokkaasti Euroopan ensiluokan näyttämöillä nähtyjen
esitysten kanssa. Nooran roolilla nti Aalberg kieltämättä on astunut
todellisen taiteilijattaren arvoon ja vilpittömästi onnittelemme häntä
loistavan voittonsa johdosta. Illan kuluessa nti Aalberg huudettiin
kymmenen kertaa esiin —.»
Myöhemmin Nervander vielä palasi asiaan lopettaen arvostelunsa:
»Pitäen silmällä myöskin osan vaikeutta saattanee liioittelematta

väittää nti Aalbergin näyttelemistä täydellisimmäksi, mitä ainoakaan
naisnäyttämötaiteilija tähän mennessä Suomessa on saavuttanut.»
—
»Uusi Suometar» kirjoitti sekin verraten laajasti, m.m.:
»Suomalaisessa teatterissa lienee sangen moni toissailtana

viettänyt juhlaa; aniharva lienee sieltä kotiin palannut ajattelematta
elämän totisimpia ja vakaisimpia kysymyksiä. — Neiti Ida Aalberg
todisti tosi-taiteilijan tavalla paremmin kuin sanomalehtikirjoittajamme
Ibsenin esiintuomien aatteiden todenperäisyyttä.» —
Myöskin kaupungin ruotsinmielisissä lehdissä oli ylistäviä

kirjoituksia, mutta sanomalehtiarvosteluista ei saa varmaa kuvaa Ida
Aalbergin ensimmäisestä Noora-tulkinnasta.
Goethen ja Ranskasta tulleiden vaikutteiden ohella lienee myöskin

Schillerillä ollut oma osuutensa saksalaisen näyttämöllisen
idealismin kehittymiseen. Hän vaikutti siihen itse draamoillaan,
joiden onnistunut tulkinta kysyi kehitettyä puhetaitoa. Ibsenin
pohjoismainen »naturalismi» kasvatti Saksassakin myöhemmin
aivan uuden näyttelijäpolven, joka ei pyrkinyt vaikuttamaan
puheensa loistolla eikä liioin tyytynyt näyttelemisessään tapailemaan
paljasta luonnonmukaisuutta. Sen edustajat yrittivät puhua
hermoillaan: lihasten värähtelyt, sormien liikkeet, ruumiin asenteet,
jopa eräillä niinkin harvinaiset ilmeet kuin punastuminen ja
kalpeneminen, olivat hermonäyttelijän keinoja, joilla hän kykeni
osoittamaan sellaista, mitä oli runoilijan sanojen takana. Ruumiin ja
sen liikkeiden mykästä kielestä antoivat näinä aikoina Saksassa
loistavia esimerkkejä kuuluisat italialaiset näyttelijät Rossi, Salvini ja
Ristori, mutta vasta Ibsenin draamoissa uusi tyyli tuli viettämään
voittojaan.
Ibsen ei ollut tarkka omien draamojensa esitykseen nähden.

Näyttelijäammattia hän tuskin voi kunnioittaa, hänen piintynyt
tunnuslauseensa »olla oma itsensä» sopi huonosti näyttelijöihin,
joiden työssään tulee ryömiä milloin mihinkin kuoreen. Eräälle
Nooran tulkitsijalle hän kuitenkin kerran oli antanut ylistävän
tunnustuksensa: Marie Ramlolle, jonka hän sanoi suorastaan
pelastaneen kappaleen Münchenissä. Ibsen sanoi: »Sellaista
Nooraa ei ole missään muualla. Se, joka on hänet nähnyt,
ymmärtää, mitä minä Noorallani tarkoitan.» Kerrotaan, että Marie
Ramlo ei tehnyt osasta mitään paraatiroolia ja että hän Nooraa
tulkitessaan oli mahdollisimman kaukana sankarityylistä.
Kaarlo Bergbomin osuudesta Ida Aalbergin menestykseen ei ole

varmaa tietoa, mutta luultavaa on, että hän kahdenkeskisessä
keskustelussa — hänellä oli semmoinen hieno tapa — on neuvonut
nuorta näyttelijätärtä, joka sangen puutteellisen älyllisen
kouluutuksensa vuoksi ei uskaltanut luottaa omaan
ymmärrykseensä. Jos Bergbom oli neuvonut Noorassa Ida
Aalbergia, oli tämä ainakin tällä kertaa voinut palkita neuvot
neuvoilla. Helsinkiläinen arvostelu totesi, että kappale oli näytelty
Suomalaisessa teatterissa samassa asussa kuin Kristianiassakin.
Norjan pääkaupunkiin oli vähäistä ennen muuttanut entisen
Suomalaisen oopperan jäsen Alma Vikström, joka oli
kirjeenvaihdossa Ida Aalbergin kanssa. Alma Vikström lähetti Ida
Aalbergille tarkan kuvauksen norjalaisesta näyttämöasetuksesta.
Bergbom sai luultavasti Ida Aalbergin välityksellä luoda silmäyksen
piirustuksiin, jotka kuvasivat esitystä Kristianiassa. Ida Aalbergille
ystävätär antoi neuvoja rouvien Hvasserin ja Juelin Noora-luomien
nojalla. »Vielä kerran, Ida», hän kirjoitti, »älä missään tapauksessa
tee häntä sentimentaaliksi, älä hetkeksikään, älä edes eron hetkellä.
— Kysyt kirjeessäsi, esiintyikö hän ensimmäisessä näytöksessä
rakastettavana, iloisena, leikkivänä vaimona, aivan niin, rakas Ida!
Samoin olet aivan oikein ymmärtänyt toisen näytöksen, anna sen
kohota niin, että tanssi on huippukohtana. Muistan kirjoittaneeni
Sinulle viimeisestä repliikistä toisessa näytöksessä — tee se niinkuin
minä sinulle sanoin — ja kolmannessa näytöksessä kylmä ja
rauhallinen ja ikäänkuin väsynyt elämään, kun Helmer häntä
hyväilee, kiusaa se häntä. Toisessa näytöksessä rouva Juel oli niin
mestarillinen, etten ole milloinkaan voinut uneksia mistään niin
mestarillisesta» (Seurasi kuvaus toisen näytöksen yksityiskohdista.)
Ibsenin »naturalismi» oli vain näennäistä naturalismia. Noora on

ihannoitu nainen, hän on sankaritar, ja yksinkertaisuus ja hillintä
eivät ole ainoat ja tuskin edes määräävät Noora-tulkinnan ansiot.
Noorahan on siinä määrin ihanteellinen naiskuva, että August
Strindberg sai sen johdosta raivokohtauksia. Todennäköisesti Ida
Aalbergin ensimmäisen Nooran suurin ansio on ollut siinä, että hän
nuoruudellaan ja viehkeydellään osasi valaa ihanteellisuuden verhon
koko luoman yli. Että hänellä tuskin on ollut varsinaista Ibsen-
näyttelijän tyyliä, voi päättää Frithiof Peranderin Ida Aalbergille
myönnetyn lahjanäytännön jälkeen pitämästä puheesta. Pitkässä
puheessaan Perander sanoi m.m.:
»Neiti Ida Aalberg! Yleisö on jo illan kuluessa, niinkuin usein

muulloin, osoittanut Teille harrasta suosiota, sydämen pohjasta
lähtenyttä kunnioitusta. Kukkasista näyttämö oli kadota
näkyvistämme. Oli niinkuin olisi siihen, missä näyttämö oli ollut,
noussut kukkainen keto, jossa Te olitte kukkien kultainen kuningatar.
Tätä yleisön kunnioituksen osoitusta sallittakoon minun muutamalla
sanalla jatkaa. ‒ ‒ ‒ Luonteitten kuvauksessa muistuu Ibsenissä
usein mieleemme Norjan mahtava luonto, jossa niin sanoakseni
kaksi kappaletta, kaksi ainesta etupäässä vetävät puoleensa
huomiomme, nuo jalot, maahan tunkeutuvat meren vuonot ja nuo
jyrkät vuorikalliot, joihin edelliset väkevästi kiertyvät. Se, mikä
Ibsenin teoksissa jalonlaiseksi kuvataan, näyttää saaneen viritystä
jommastakummasta näistä. Toisessa niissä on niin sanoakseni
vaimon, toisessa miehen luonne. Merellä on tavallansa vaimon
luonne. Meri on notkea, norja, antautuva, hempeä, hienohelmainen,
vaihtelevainen; huikentelevaisen vesikalvon alla on syvyys, jota
kauhulla ajattelemme. Tänlaiseksi on runoilija tarkoittanut Noorankin
luonteen. Te annoitte hänestä täydellisen, nerollisen, ihmeen hyvästi
sattuvan kuvan. Te saitte näyttämölle luonnon ja elämän omat
voimat. Teidän näytellessänne, Teidän kuvatessanne tuon luonteen
vaiheita oli väliin kuin olisimme nähneet Norjan meren vuonon
myrskyisenä ärjyvän kauheasti, peloittavasti kaikille tuon luonteen
vaiheille, kaikille sen monipuolisille mutkille kykenitte Te antamaan
muotoa ja väritystä, joka meissä on herättänyt ihmetystä. Korkea,
solakka raita, joka on kasvanut Suomen sinisen salmen huostassa,
joka meillä on nähnyt Vellamon valtaa, älynnyt noitten »sisarusten
sotkotarten», noitten »rannan ruokoisten kälysten» viehättävää
elämää, tämä korkea solakka raitamme osasi käsittää Norjan meren
vuononkin luonteen, osasi näyttämöllä kuvata Nooran luonteen niin
taitavasti, niin todellisesti, niin liikuttavasti» — — — j.n.e.
Peranderin puheen johdosta uskaltanee päätellä, että Ida Aalberg

ensimmäisessä Noora-tulkinnassaan käytti kyllä saksalaisen
deklamoivan koulun keinoja sopivalla tavalla miedonnettuina.
*****
Ida Aalberg oli Saksasta lähtiessään Marie Seebachille luvannut

pian palata. Kuitenkin hän vasta toukokuussa 1880 saattoi lähteä
uudelle ulkomaamatkalle. Hän oli nyt toisin varustettu kuin 1878.
Hän oli kokeneempi ja kehittyneempi kuin silloin, hän ainakin tuli
toimeen Saksan kielessä, ja matkarahoja hänellä oli yllin kyllin.
Senaatti oli myöntänyt hänelle 2000 markkaa, Pietarista hän oli
saanut 1000 markkaa ja lahjanäytännöstä oli kertynyt 1500 markkaa.
Koko tuon summan, 4500 markkaa, Ida Aalberg oli keväällä antanut
ystävälleen Maria Grapelle, joka huolehti hänen rahoittamisestaan.
Ida Aalberg matkusti Saksaan, matkatovereinaan unkarilainen
tohtori
Szinnyei ja tämän nuori suomalainen rouva.
Dresdenissä jatkoi hän osien tutkimista Marie Seebachin luona.

Kirjeessään Bergbomille tämä mainitsi tutkittavina olevina osina
Jeanne
D’Arcin »Orleansin neitsyessä», Julian »Romeossa ja Juliassa» ja
Gretchenin »Faustissa», kaikki suuria tragediatehtäviä ja osia, joita
Ida Aalberg myöhemmin Suomessa näytteli.
Tällä matkallaan Ida Aalberg on pitänyt päiväkirjaa

teatteriesityksistä, joita sai nähdä. Ruotsin-, suomen- ja
saksankielillä hän on merkinnyt vaikutelmansa vihkoon, josta voi
päättää, että hän on nähnyt ainakin 55 eri kappaletta saksalaisessa
teatterissa. Hänen muistiinpanoistaan havaitsee, että hän oli istunut
teatterissa tarkkaavana kuin koulussa. Ensimmäiset kirjoitelmat
koskevat vaikutelmia Dresdenissä nähdyistä kappaleista. Hänen
kritiikkinsä luonteesta on syytä antaa eräitä näytteitä:
1) Orleansin neitsyt (ruotsiksi kirjoitettu).
»Ellmenreich näytteli Johannan hyvin kauniisti, mutta melkein liian

pehmeästi, liian naisellisesti; sankaritar tuli liian vähän näkyviin.
Muuten osa on mahdollisimman vaikea, koska pitkin matkaa
tarvitaan voimakasta deklamatsionia, joka vaatii suunnatonta äänen
voimaa ja väsyttää yleisöä yksitoikkoisuudellaan. Senvuoksi rooli
pitää jakaa niin moneen osaan kuin voi karakteerista luopumatta.
Ensiksi yksinkertainen, vaatimaton lapsellinen paimentyttö, toiseksi,
kun inspiratsioni valtaa hänet — tämä vaihe täytyy tehdä niin
selväksi kuin mahdollista, niin että yleisö heti sen ymmärtää — voi
esityksessä käyttää vain silmien ja kasvojen ilmeitä, ruumis ja
jäsenet jäykistyvät, katse suuntautuu kohti taivasta, puheen aikana
pitää silmistä näkyä uneksivan ilmeen, hän ei puhu nopeasti, ei kuin
ulkomuistista, vaan hitaasti ja toisinaan keskeytellen, riippuen siitä,
mitä hän hengessään näkee. Sitten kolmanneksi sotainen sankaritar,
niinpiankuin hän on saanut kypäränsä ja haarniskansa hän on vain
sankari, kylmä ja peloittava taistelutanterella, mutta taistelusta
Lionelin kanssa täytyy näkyä, että hän saa voimaa korkeudesta,
hänelle hän on kylmä ja vihainen aina siihen asti kunnes on katsonut
häntä silmiin, silloin hän salaman tavoin tuntee maallisen intohimon
sydämessään ja muuttuu heikoksi, hänellä ei ole voimaa tehdä
Lionelille pahaa eikä tappaa tätä, siitä hetkestä, jolloin rakkaus on
herännyt hänen rinnassaan hän tulee naiseksi, jonkinlainen kaipaava
surumielisyys levittää sympaattisen hohteensa hänen ylitseen tämä
hänen taistelunsa oman sydämensä tunteita vastaan, kärsivä
nainen, on neljäs jakso, — mutta sitten vankilassa hän on voittanut
heikkoutensa ja hän vahvistuu aina enemmän kuullessaan oman
kansansa sotamarssin säveleitten tunkeutuvan sinne, sillä hän on
uudelleen sankaritar, rukous tässä kohtauksessa on vaikeinta koko
kappaleessa, se vaatii suurinta äänen voimaa ja syvintä tunnetta,
suurinta hätää. Kuolinkohtauksessa hän on täysin kirkastunut, hän
kuolee lippuineen rauhallisena ja tyytyväisenä taivaallisen hymyn
valaistessa hänen kasvojaan. —»
7) Hellät sukulaiset kappaleesta on ruotsinkielinen dresdeniläisen

ja suomalaisen esityksen vertailu; se loppuu: »Ainoastaan
Thusneldasta ei nti Bormann voinut antaa tyydyttävää kuvaa, hän
esitti sen ehkä enemmän keskustelusävyssä, mutta minä näyttelin
naisellisemmin ja suuremmalla tunteella.»
9) Noita. Fittgernin kirjoittama näytelmä.

(Ruotsiksi): »Vaikkapa ottaa huomioon, että toiminta tapahtuu 30-
vuotisen sodan ajalla ja että uskonnollisuuteen silloin sekaantui
fanatismia, niin katsojan uskonnollisia tunteita loukataan varsinkin
neljännessä näytöksessä, jossa hän seisoo ja kieltää Jumalan
raamattu kädessään ja munkit seisovat hänen ympärillään ja laulavat
rukousvirttä. Muuten kappaleessa on draamallista vaikuttavaisuutta,
joka sentään viimeisessä näytöksessä heikkenee; kaikki loppuu
odottamattomalla tavalla.
11) Nimetön kirjeenvaihto. Fuchs-Nordhoffin kirjoittama

huvinäytelmä. (Ruotsiksi):
»Ensimmäistä kertaa pitkistä ajoista sain nähdä Ellmenreichin

keskustelukappaleessa. Mikä suuri erotus puhetavassa suurten
klassillisten tragediain ja tavallisten huvinäytelmäin välillä; edellisissä
pitää enemmän deklameerata, mutta siinä pitää kuitenkin olla
totuutta ja luontoa, täytyy kysyä itseltään: »kuinkahan minä
tavallisessa elämässä sanoisin tuon lauseen», ja sitten kuunnella,
miltä se kuuluu ja vaihtaa ääntä, niin ettei enää puhu samalla
konversatsioniäänellä, se on hyvä ja huomioon otettava sääntö,
täytyy puhua leveästi, antaa äänen tulla leveänä ja voimakkaana
kuuluviin, keskustelusävy katoaa, kun tällöin on pakko puhua
hitaasti, silloin voi ja saa hakea kaikkea kaunista ja sointuvaa
kielestä hurmatakseen sillä yhtä hyvin kuin äänelläkin, esim.
Ellmenreich nyt, hän puhui aivan luonnollisesti ja hyvin matalalla
äänellä ja tavalliseen tapaan, mutta hän otti tarkasti varteen »pilkut»
ja »pisteet», jos oli kysymys jostain tärkeästä lauseesta tai tärkeästä
sanasta, niin hän sanoi sen vähän hitaammin, mutta aivan hiljaa ja
totisesti ja luonnollisesti. —»
12) Medea. Grillparzerin kirjoittama murhenäytelmä. (Suomeksi):

»Ziegler, Jasonin vaimona oli mainio! Hän oli seisoessaan ja
istuessaan sekä puhuessaan kuin liikunnoissaan 'klassisk skön'
[klassillisen kaunis]. Medea on voimallinen passioneerattu nainen;
naisellisuus ja heikkous puuttuu häneltä kokonaan, hänen oma
miehensä kammoksuu häntä, hänen omat lapsensa pakenevat
äitiään, sillä senlainen luonto kuin Medealla on, se on niin vihassa
kuin rakkaudessa, niin ilossa kuin surussa suurellisen hirveä, hänen
deklamationissaan ei saa löytyä vienoja naisellisia säveleitä, ei,
kaikissa hänen eri äänissään täytyy tuo sisäinen tuli ja mahtavuus
tulla esiin. Sillä sentähden tuntee Jason ensi silmäyksessä itsensä
vangituksi Kreusan suloudesta ja lempeydestä, hän näkee hänen
vienossa naisellisessa persoonassa kaiken sen jota hän omassa
vaimossaan turhaan etsii ja ikävöi. Toki, Zieglerin näytäntötapa niin
nerokas ja läpiajateltu kuin se todella on, — on niin taiteellinen että
luonnollisuus ja tunne melkein kokonaan puuttuu. Huomaa varsin
selvästi että hän usein voi poistua karaktäristä ja runoilijan
ajatuksesta, voidakseen esiinluoda, jonkun liikunnon jonka hän tahtoi
että herättäisi effektin, e:m:s: Medeassa, kuin hän polvillaan laahaa
itseään rukoillen lapsiaan tulemaan luokseen, niin hän tekee sen
mainiosti, vaan se ei ole Medean luonne, kuitenkin tahdon muistaa
sen scenin [onko tässä alkulähde Ida Aalbergin kuuluisaan
polvillaankulkemiseen Kirstinä »Elinan surmassa»?], hän toi esiin
vastakohdat, ensin niin lempeän rukoilevaisesti, niin sydämellisen
vienosti, — ja sitten — kuin ne käänsivät itsensä pois, kuinka sormet
hänen ojennetussa kädessään vetäytyivät koukkuun, hänen
huulensa ja koko leukansa pidentyi ulospäin kasvoista ja silmät
vetäytyivät synkkiin hirvittäviin ryppyihin, ja hän samassa minuutissa
kavahti ylös ja muuttui taasen tuoksi hirvittäväksi naiseksi. Ja muista
myös se kohta, jossa hän ensi kerran huomaa että Jason'in ja
Kreusan välillä on olemassa joku suhde, kuinka hän ensin synkkänä
ja epäilevänä kääntää silmänsä (pää liikahtamaton) toisesta toiseen
kuinka hänen kasvonsa vähitellen selkeä ja hänen huulillensa hyytyi
tuo ainoa pieni ah! ikäänkuin tahtoisi hän sillä sanoa »vai niin, vai
niin se on», vaan se oli mainiosti sanottu. Muista myöskin se paikka
jossa hän menee Jason'in luokse ja pitää hänestä kiini ja puhuu
aivan hiljaa melkein kuiskaillen vaan se näkyi mikä tuli, viha ja
rakkaus paloi hänen sisällään jonka hän niin tahtoi tukahuttaa. —
Hänen pukunsa, punainen hame ja musta kappa olivat kauniit ja
pukivat hyvästi. Muista hänen tapaansa käyttää kappaansa eli
manteliaansa.
13) Judith. Hebbelin kirjoittama tragedia. (Suomeksi):
»Ylipäänsä täytyy Ziegler'ille antaa se arvo että hän aina

pukeutumisessaan hyvin tarkkaan seurasi aikakautta, niin myöskin
nyt vaikka se hisupuku oli niin ruma, se ei ollut mikään hyvä rolli
hänen repertoaarillaan, minä en ollut tyytyväinen. Vaan Porth tuona
julmana raakana ja 'sinliga' [aistillisena] Holofernuksena oli ilettävää
vaan todellinen, se hetki jolloin hän viinistä oli joutunut vähän
kuumaksi ja tuo ihana nainen hänen vieressään saattoi hänet aivan
hurmoksiin ja silloin hänen silmänsä, kun hän häntä katseli ja hän
kädellään aivan löysästi meni hänen päänsä ja käsivartensa ja
haltijansa ylitse oli niin ilettävä ettei tahtonut voida sitä katsella.»
*****
Paljon merkittävämpi kuin muutamien viikkojen oleskelu

Dresdenissä oli hänelle tutkimusmatka Müncheniin, minne
heinäkuun ajalla koko Saksan näyttämöiden valioväki oli
kokoontunut. Hän pääsi matkallaan näkemään Münchenin
»Valiovierailunäytäntöjä», kuuluisaa yritystä, jonka tarkoituksena oli
saavuttaa erinomaisia suurten runoluomien kokonaisesityksiä sillä
tavoin, että yksinkertaisesti kutsuttiin kokoon kaikki saksalaisen
kielialueen suurimmat »tähdet». Hampurista tuli kuuluisa
sankariosien esittäjä Ludwig Barnay, jonka kuitenkin sanotaan olleen
liiaksi älyllinen onnistuakseen Wallensteinina ja Macbethina, Wienin
Burg-teatterista Adolf Sonnenthal (Hamlet ja Clavigo), Josef
Lewinsky (Nathan ja Attinghausen), Fritz Krastel (Max Piccolomini),
Charlotte Wolter (Kreivitär Orsina, Lady Macbeth ja Hermione) ja
nuorekas Josephine Wessely (Luise Miller ja Klärchen
»Egmontissa»), Münchenistä Ernst v. Possart ja useita muita. Vielä
tuli näyttelijöitä Berlinistä, Hannoverista, jopa Dresdenistäkin, mistä
tulivat m.m. Ida Aalbergin ihailemat Franziska Ellmenreich (Minna v.
Barnhelm ja Emilia Galotti) ja Pauline Ulrich (Portia ja Parman
herttuatar). Sanotaan, että taiteellinen tulos näistä näytännöistä ei
vastannut odotuksia, hyvän yhteisnäyttelyn puute tuli katsojalle yhä
selvemmäksi, kun hän näki joukottain loistavia virtuoseja. Ida
Aalbergille nämä näytännöt luonnollisesti merkitsivät sarjaa uusia
elämyksiä, joista kiireelliset merkinnät muistivihkoon antavat
jonkinlaisen aavistuksen.
28) Kavaluus ja rakkaus. (Suomeksi ja ruotsiksi):
»Wessely oli muutamissa paikoissa parempi kuin minä, e:s:

enemmän kiihotetulla äänellä repliiki 'Herr von Walter jetz sind sie
frei!' [Herra v. Walter, nyt olette vapaa] ja sitten Wurmin kanssa
enemmän intoa (ruff) enemmän kiihkoa repliikeissä »mikä kurjuus
on» ei niin paljon maalata sanoilla sillä hän on niin 'aufgeregt'
[kiihtynyt] että hänellä siihen ei ole aikaa ja sitten repliiki »ej, ej, se
on mahdotonta»! siinä myös sama 'hastiga temppu' [nopea tempo] ei
laisinkaan sentimentaali sillä sitä hän saa olla niin paljon, että
tuollaiset paikat ovat oikeata balsamia yleisölle, sen nyt itse
havaitsin, — vaan puhu pian 'förtvivlat' [epätoivoisesti], ja niin myös
'kuristaisin teidät' j.n.e. siinä myös puhua pian ja 'heraus mit der ton'
[ääni kuuluviin] aufgeregt kiihotettuna hon är bragt till det yttersta till
förtvivlan, då hon sagt 'pyövelin pölkyn alle!' gör hon en stor gest och
går till dörrn [hänet on saatettu äärimmäiseen epätoivoon, kun hän
on sanonut 'pyövelin pölkyn alle' hän tekee suuren liikkeen ja menee
ovelle],» (Ruotsinkielellä esitystä jatkuu vielä varsin pitkälle ja varsin
huvittavassa asussa.)
Hamletista hän on merkinnyt muistiin, että oli odottanut sen

esittämistä suurella mielenkiinnolla, mutta että kaikki jäi verraten
epämääräiseksi ja käsittämättömäksi, joskin Sonnenthal kykeni
selvittämään joitakin kohtia. Hän ei ollut ymmärtänyt, miksi
Shakespeare oli Hamletin niin karakterisoinut. Ofelia oli ollut aluksi
liian sentimentaali, mielipuolisuuskohtauksessa ei ollut ollut »mitään
jaloa eikä syvempää draamallisuutta —, joka edes vähimmässäkään
määrässä olisi tehonnut meihin.»
Valiovierailunäytäntöjen aikana suomalainen Ibsenin tutkija Valfrid

Vasenius oli Münchenissä tapaamassa itseään runoilijaa. Hän pyysi
Nooran kirjoittajalta luvan saada tälle esittää Suomalaisen teatterin
Nooran. Ibsen suostui mielellään pyyntöön ja eräänä päivänä tohtori
Vasenius rankkasateessa kuljetti Ida Aalbergin runoilijan asuntoon.
Varmaankin nuori näyttelijätär suurella levottomuudella odotti
kohtausta, koskapa hän matkalla teki saattajalleen kysymyksen, jota
tämä piti melkein majesteettirikoksena: »Pitääkö Ibsen imartelusta?»
Epäilemättä Ibsenkään ei ollut vapaa inhimillisistä heikkouksista ja
turhamaisuudesta, mutta kohtaus sujui sentään hyvin ilman nuoren
naisen mairittelujakin. Ida Aalberg oli perillä hyvin pidättyväinen ja
vaitelias, ja kun hän oli poistunut, sanoi Ibsen Vaseniukselle, että
näyttelijätär ulkomuodoltaan ja olemukseltaan täysin vastasi sitä
italialaista naista, jonka kuva oli väikkynvt hänen mielessään, kun
hän runoili »Nukkekodin». Joitakin päiviä myöhemmin Ibsen piti
päivälliset, joihin Vaseniuksen ohella oli kutsuttu eräitä
näyttämötaiteilijoita, m.m. Ida Aalberg ja ruotsalainen näyttelijä
August Lindberg.
Münchenistä Ida Aalberg pistäytyi Oberammergaussa katsomassa

sikäläisiä kärsimysnäytäntöjä. Muistikirjaansa hän on merkinnyt
täällä näkemänsä johdosta (suomeksi):
»Mieltymys riippuu suureksi osaksi siitä, millaisilla vaatimuksilla

sinne meni. — Minä puolestani tunsin itseni petetyksi, — minusta
voidaksensa nauttia edes hiukankin täytyy olla lapsi sekä ijälle että
ymmärrykselle, ja sittenkin se häiritsee sen kuvan Christuksesta,
jonka raamattua lukiessa on itselleen kuvannut.»
Sitten (ruotsiksi) seuraa mietelmä:
»Heidän tehtävänsä onkin liian vaikea!!!»
Elsterin kylpypaikasta, Etelä-Saksista, Ida Aalberg vähäistä

myöhemmin lähettää pitkän kirjeen turkulaiselle neiti Mathilda
Almille, joka on taloudenhoitajana Pippingsköldin perheessä, missä
Ida Aalberg Turussa käydessään yleensä majaili. Hän kirjoittaa
ruotsiksi m.m.:
»Bad Elster 18 p:nä elok.
Rakkahin Matte!
Sinulla kai ei ole aavistustakaan, missä maailman nurkassa minä

nykyisin oleskelen. Pitkiltä matkoiltani etelään, olin aina Tyrolin
rajoilla, Münchenissä ja Oberammergaussa, olen palannut takaisin
Saksiin ja lepäilen pienessä ihastuttavassa kylpypaikassa, jonka
nimi on Bad Elster. Emmy Achté Suomesta ja minä olemme ainoat
pohjoismaiset vieraat täällä ja me olemme herättäneet jonkin
verran huomiota luultavasti sivistyneellä käytöksellämme, sillä
heillä on nähtävästi käsitys, että suomalaiset, lappalaiset ja
samojeedit kuuluvat yhteen, ja että heidän kulttuurinakin on
samalla alhaisella tasolla. Minusta tuntuu toisinaan hirveän
loukkaavalta kuulla tuommoista puhetta ja minun on käytettävä
kaikkea itsehillitsemiskykyäni voidakseni rauhallisesti ja järkevästi
selittää maani ja kansani suhteellisesti korkeata kehitystä. Emmy
matkusti muutamia päiviä sitten Dresdeniin jatkaakseen opintojaan.
Epäilen suuresti, saanko tästä kylpykuurista suurtakaan hyötyä,
sillä nyt, kun olen opintomatkalla, en voi heittäytyä täydelliseen
rauhaan. Jos voinkin pidättäytyä ääniharjoituksista ja jättää
lausunnan, vaivaan kuitenkin päätäni kaikella sillä uudella, jota taas
olen nähnyt näyttämöllä ja kiihoitan sillä tavoin hermojani. —
München miellytti minua tavattomasti: se on hyvin suuri ja iloinen
kaupunki, vaikka väestöllä onkin jonkunlainen flegmaattinenleima,
joka johtuu liiasta oluen juomisesta (Baijerihan on bierin kotimaa),
mutta millä korkealla esteettisellä tasolla tuo kansa onkaan,
näyttävät jo Oberammergaun kärsimysnäytännötkin, esiintyjäthän
ovat vain talonpoikia, on ihmeellistä, millainen kauneusaisti heillä
onkaan, millainen suuri ja luontainen tietoisuus taiteen suuruudesta
ja pyhyydestä, — tein matkan yhdessä tohtorinna Ibsenin ja
Tukholman kuninkaallisen teatterin suuren Fredriksonin ja erään
tanskalaisen näyttelijän kanssa, — voit uskoa, että meistä tuntui
miellyttävältä kuunnella Fredriksonin mielipiteitä työstään, siitä sain
syytä useampaankin kertaan huoata voi! voi! kunpa suomalaisella
näyttämöllä olisi useita semmoisia henkiä, silloin olisi toista elää,
näytellä ja viihtyä. (Vilhoa lukuunottamatta) tuskin kellään on tosi
harrastusta työhönsä ja tuskin kukaan heistä välittää arvostaan sen
esitaistelijana. — Matte, sinä tuskin voit aavistaakaan, kuinka hyvä
on oleskella ulkomailla —. Päästä pois usein liian ahtaista oloista
kotona, ja tulla sinne, missä kaikki on suurta ja mahtavasti
vaikuttavaa, missä on ainesta sekä matalaan ja huonoon että
jaloon ja suureen. — — Korkeimman ja matalimman
ihmiskunnassa saa täällä nähdä rinnakkain ja jyrkästi
vastakohtaisina, luulen, että juuri tuo realistinen räikeys vaikuttaa,
että alkaa tuntea rajatonta vastenmielisyyttä ja katkeruutta ihmisen
anteeksiantamattoman heikkoa tahtoa ja ihmiselämän erheitä
kohtaan. Ja toiselta puolelta saa mitä parhaan käsityksen
sivistyksen ja taiteen arvosta, ymmärrän niin hyvin, miksi
pohjoismaiset taiteilijat aina ikävöivät ulkomaille, sillä siellä heidän
taiteilijasielunsa saavat ravintoa kaikkialla, heidän ihanteensa
kohoavat korkeammalle — —». (Seuraa sangen epämääräistä ja
naisellisen sekavaa filosofiaa ja sitten ylistystä Münchenin
kuvaamataideaarteista, joihin hän on koettanut tutustua.)
»Sitäpaitsi tuon Münchenistä muistoja, joita en koskaan unohda,
muistoja hetkistä, jotka sain viettää Ibsenin perheessä, (Nooran
kirjoittajan) ja kuulla niin ylivoimaisen hengen arvosteluja elämästä
ja ilmiöistä, minusta tuntui, että hän sielullaan aateloi ympäristönsä,
sillä henki kohosi hänen läheisyydessään korkeampaan ja
vapaampaan lentoon, huomasi selvemmin, kuinka paljon painoa
me ihmislapset panemme kaikkeen pieneen ja vähäpätöiseen ja
unohdamme omat, korkeammat tarpeemme. Pidän itseäni
onnellisena tämän yhdessäolon johdosta! sillä kun myrskyt ja
pimeys ja katkeruus tahtovat painaa sieluani, tulee suloiseksi
muistella näitä hetkiä ja omassa sisäisessä sieluntaistelussa voi
paeta näiden ylivoimaisten henkien ajatuksiin ja niiltä saada
rohkeutta ja toivoa uusissa kärsimyksissä (jotka minun radallani
liiankin usein uhkaavat) ja uusissa voitoissa! — Voitoista tulee
mieleeni eräs runo, joka on muuttunut todelliseksi
tunnuslauseekseni, joka usein, usein, kun olen tullut syvästi
loukatuksi ja melkein kadottanut rohkeuteni, on ollut minulla
»kannuksena». Olen ajatellut ja toistellut näiden runojen ajatuksia
ja tuntenut tahtoni voimakkaammaksi taisteluun ja rohkeuteni
vääjäämättömäksi — tiedän että sinulla on nuo runot, sinua ehkä
haluttaa lukea se, ellet sitä jo tuntisi, — se on »Björkin runoissa» ja
sen nimi on »Esxelsior», latinalainen sana, joka merkitsee
»korkeammalle» tai »minä tahdon pyrkiä korkeammalle ja yhä
korkeammalle», se on käännös englantilaisen runoilijan
Longfellowin runosta, sinä varmasti ihastut sen ajatukseen. —
Mallinäytäntöihin Münchenissä kaikkine taiteilijoineen en ollut

täysin tyytyväinen, yksityiset roolit suurine esittäjineen tarjosivat
tosin paljon nautintoa kokonaisuudessaan, yhteisnäyttely jätti
paljon toivomisen varaan. Wienin näyttelijät miellyttivät minua
suuresti; Charlotta Wolter on ensimmäisen luokan suuruus, — hän
on naimisissa erään ruhtinas Sullivanin kanssa, mutta ohjelmassa
hän aina nimittää itseään rouva Wolteriksi, kaipaan oikein päästä
Wieniin saadakseni opiskella Burgteatterissa. Siellä on
Sonnenthalkin, joka ehdottomasti on paras miesnäyttelijä
Saksassa.[12] Wienissä alan opiskella Strakoschin johdolla.» — —
—
Vaikka tämä kirje on kirjoitettu oppimattomalle henkilölle, voi siitä

lukea paljon uutta Ida Aalbergista. Ensi kerran hän vakavasti koettaa
seisoa aatteellisella pohjalla, ensi kerran hän koettaa kohottaa
ihanteellisuuden lippua, ensi kerran hän ilmaisee suuren
tyytymättömyytensä oloihin suomalaisessa teatterissa ja puhuu
»kaipauksesta» ja »taistelusta». Hänen ilmauksensa on epävarmaa
ja kompastelevaa, »Excelsior!» on hänen suussaan vielä
»Esxelsior!» Mutta tässä kirjeessä on jo selvästi havaittavana suuri
osa kolmenkymmenen seuraavan vuoden Ida Aalbergia: levotonta
pyrkimystä ja siihen yhdistynyttä tyytymättömyyttä, tahtoa ja
työtarmoa, joka käy läpi vastuksien, suurten persoonallisuuksien
ylistystä ja harrastusta, joka kernaasti vetoaa eetillisiin motiiveihin.
Ennen Helsingistä lähtöään Ida Aalberg oli joutunut läheiseen

suhteeseen Frithiof Peranderin, ihanteellisen ja kansallismielisen
filosofin kanssa, ja seurauksena oli, että hän jokelteli kieltä, jota on
melkein mahdoton täydellisesti toiselle kielelle kääntää. — Tästä
myöhemmin.
*****
Antti Jalava, joka vähäistä aikaisemmin oli tehnyt opintomatkan

Unkariin ja kansallismielisenä tavattomasti innostunut tähän
kansallismieliseen kansaan, oli yhdessä tohtori J. Szinnyein kanssa
saanut päähänsä, että Ida Aalbergin oli näyteltävä Unkarissa. »Kylän
heittiö». Boriska, siitä olivat molemmat yksimieliset, oli ollut parempi
Helsingin suomalaisella kuin Budapestin unkarilaisella näyttämöllä,
ja tohtori Szinnyei alkoi puuhata esiintymistilaisuutta
heimolaiskansan tyttärelle. Ida Aalberg innostui kovin tähän
aikeeseen, semminkin kun hän Bad Elsterissä tunsi toimettoman
olonsa ikäväksi, kuten seuraava ote Antti Jalavalle lähetetystä
kirjeestä todistaa:
»Siis syyskuun alussa, päivää en vielä voi sanoa, on tuo hetki

tapahtuva, joka ratkaisee minun näyttelijäkykyni, ja jota »riemu pelko
rinnassani» odotan, — suoraan tunnustaen, enemmän riemu kuin
pelko, sillä minä oikein ikävöitsen saada taasen näytellä ja tuntea
tuota inspirationia, jota jo näyttämölle astuminen minussa vaikuttaa.
Nyt täällä kylpypaikassani ollessani olen täytynyt pitää vähän rauhaa
ja »deklamerannut» niin, että metsä kajahteli ja ohikulkevat
hämmästyksellä varmaan epäilivät järkeni kuntoa.» — »Minä niin
iloitsen saada heille näytellä suomeksi, tahdon koettaa näytellä
Boriskan paremmin kuin koskaan ennen; olkoon tuo koetus sitten
elämäksi tai kuolemaksi, joskin se tulisi olemaan »ett nederlag»
[tappio] ei se kuitenkaan olisi kylliksi voimallinen minua
masentamaan, päinvastoin se minua vaan innostuttaisi.» —
Budapestin-matkallaan Ida Aalberg tullen mennen kävi Wienissä

ja tutustui Burg-teatterin, saksalaisen kielialueen parhaan näyttämön
esityksiin. Tuloksena olivat m.m. tarkat muistiinpanot »Romeosta ja
Juliasta», josta hänelle myöhemmin Suomessa tuli suuri voitto.
»Jane Eyren» hän myöskin näkee Burgissa. Päähenkilöä tarkoittaen
hän aloittaa: »Frank oli erinomaisen hyvä!!!» Erään kohdan tässä
osassa hän myöhemmin aikoo ottaa »koko itkuvoimallaan».
Unkarin-matka muodostui Ida Aalbergin nuoruuden ulkonaisesti

suurimmaksi triumfiksi. Tohtori Szinnyei oli todella loistava
impressario, joka ei säästellyt vaivojaan, ja unkarilainen
kaunopuheisuus, ritarillisuus ja hetkellinen innostuminen viettivät
nekin voittokulkua kuvatessaan »Pohjan tähden» taiteellista
suuruutta. Jo harjoituksissa näyttelijät itkivät kuunnellessaan tulista
ja tunteellista ääntä ja jo ensi-illassa yleisö otti hänet vastaan
»minuutteja kestävillä suosionosoituksilla» ja huuteli hänen
kunniakseen »elekön» huutoja, jotka kimposivat suusta suuhun.
Kolmannessa näytöksessä »suosionosoitus kasvoi todelliseksi
hirmumyrskyksi, ja useitten silmissä oli kyyneleitä». »Magyar Töld»
kirjoitti: »Tällaista itkemistä emme vielä koskaan ole nähneet. Jos
sanomme, ettei tätä osaa vielä kukaan ole näin näytellyt, emme
sano mitään, sillä tähän asti ei todella kukaan muu ole sitä näytellyt
hyvin. Hänen katseessaan, hänen kasvojenilmeissään, hänen

Textbook Mathematical Theory of Bayesian Statistics 1St Edition Sumio Watanabe Ebook All Chapter PDF

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Textbook Mathematical Theory of Bayesian Statistics 1St Edition Sumio Watanabe Ebook All Chapter PDF

Uploaded by

Copyright:

Available Formats

Mathematical Theory of Bayesian

Statistics 1st Edition Sumio Watanabe

Mathematical Theory of Bayesian Statistics First

Mathematical Statistics 1st Edition Dieter Rasch

Probability and Mathematical Statistics Theory

Mathematical Statistics Borovkov A. A.

Bayesian Statistics for Beginners: A Step-By-Step

Practice of Bayesian Probability Theory in Geotechnical

Mathematical Methods of Statistics Pms 9 Volume 9

Reasoning with Data An Introduction to Traditional and

1 Definition of Bayesian Statistics 1

3 Basic Formula of Bayesian Observables 67

4 Regular Posterior Distribution 99

5 Standard Posterior Distribution 135

6 General Posterior Distribution 177

7 Markov Chain Monte Carlo 207

8 Information Criteria 231

8.1.3 Criteria for Free Energy . . . . . . . . . . . . . . . . . 245

9 Topics in Bayesian Statistics 267

10 Basic Probability Theory 293

The purpose of this book is to establish a mathematical theory of Bayesian

In the first chaper, we introduce basic concepts in Bayesian statistics. In

1.1 Bayesian Statistics

{x1 , x2 , ..., xn } ∼ q(x).

This process is represented by a conditional probability distribution of a

P (x1 , x2 , ..., xn |q).

P (x1 , x2 , ..., xn |q)P (q)

Choose method → Result → Evaluate chosen method.

It might seem that such an evaluation is impossible because we do not

In Bayesian statistics, we set a statistical model p(x|w) and a prior ϕ(w),

This is the definition of the posterior distribution. The estimated probability

This is also the definition of the predictive distribution. A statistician esti-

Figure 1.1: Framework of Bayesian inference. The procedure of Bayesian

1.2 Probability Distribution

q(x) = q(x1 , x2 , ..., xN )

is said to be a probability density function if it satisfies

• For arbitrary x ∈ RN , q(x) ≥ 0,

Let A be a subset of RN which has an finite integral value

A function Q of a set A defined by

is called a probability distribution. Note that Q(RN ) = 1 and Q(∅) = 0,

(2) Let S be an N × N positive definite matrix and m ∈ RN . A normal

(3) Let H(x) be a function of x ∈ RN and β > 0. If

is finite, then a probability density function

The delta function δ(x) is characterized by two conditions,

The delta function can be understood as the probability density function of

If a random variable X satisfies that X = 1 and X = 2 with probabilities

These equations hold even if f (x) is not one-to-one.

if the right hand side is finite. The expectated value of Y = f (X) is

The covariance matrix of X is defined by

V[X] = E[(X − E[X])(X − E[X])T ]

Let (X, Y ) be a pair of random variables which is subject to a probability

q(x, y) = q(y|x)q(x) = q(x|y)q(y).

This equation is sometimes referred to as Bayes’ theorem.

1.3 True Distribution

The variance of f (X n ) is denoted by

Then by the definition,

If a set of RM × RN -valued random variables (X n , Y n ) is subject to a

q(x1 , y1 )q(x2 , y2 ) · · · q(xn , yn ),

then (X n , Y n ) is a set of independent random variables. The average and

These are referred to as the simlutaneous average and empirical entropies.

Then by the definition,

Sometimes we need to study cases when (X n , Y n ) is not independent, but

1.4 Model, Prior, and Posterior