You are on page 1of 114

Institut f¨ ur Neurobiologie

Hanspeter A. Mallot
Datenanlyse mit Matlab
Mathematische Grundlagen
Sommersemester 2011
Das Titelblatt zeigt das Gem¨alde

Zebras“ (1950) von Victor Vasarely (1908 – 1997).
Inhaltsverzeichnis
1 Zahlen und Vektoren 1
1.1 Zahlen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Psychologische Skalen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.3 Vektoren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2 Matrizen 9
2.1 Allgemeines . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.2 Matrixmultiplikation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.3 Beispiele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
3 Funktionen 19
3.1 Funktionen und Abbildungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.2

Glattheit“: Stetigkeit und Differenzierbarkeit . . . . . . . . . . . . . . . . . . . . . 21
3.3 Integrale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.4 Vektorwertige Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.5 Funktionen von zwei und mehr Variablen . . . . . . . . . . . . . . . . . . . . . . . 26
3.6 Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
4 Kurven durch Datenpunkte 30
4.1 Allgemeines . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
4.2 Ausgleichsrechnung (Kurvenfitten) . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
4.3 Regressionsgerade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
4.4 Allgemeine lineare Regression (

general linear models“) . . . . . . . . . . . . . . . 37
4.5 Nichtlineare Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
4.6 Beispiele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
5 Einfache statistische Tests 42
5.1 Statistische Testtheorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
5.2 Beispiel 1: Der t-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
5.3 Beispiel 2: Ein Rang-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
6 Varianzanalyse 49
6.1 Einfaktorielle Varianzanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
6.2 Zweifaktorielle Varianzanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
6.3 Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
i
ii INHALTSVERZEICHNIS
7 Bivariate Statistik und die 2-dimensionale Normalverteilung 55
7.1 Korrelation und Kovarianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
7.2 Regressionsgeraden und Hauptachsen . . . . . . . . . . . . . . . . . . . . . . . . . . 56
7.3 Exkurs: Ellipsen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
7.4 Die zweidimensionale Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . 59
7.5 Fehlerellipsen f¨ ur Stichproben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
7.6 Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
8 Hauptachsentransformation 63
8.1 Beispiele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
8.2 Merkmalsr¨aume, Projektionen und Rekonstruktionen . . . . . . . . . . . . . . . . . 68
8.3 Durchf¨ uhrung der Hauptachsentransformation . . . . . . . . . . . . . . . . . . . . . 69
8.4 Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
9 Fourier-Analyse 73
9.1 Periodische Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
9.2 Fourier-Reihen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
9.3 Non-periodic functions: the Fourier transform . . . . . . . . . . . . . . . . . . . . . 79
9.4 Fourier-transforms in two and more dimensions . . . . . . . . . . . . . . . . . . . . 80
9.5 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
9.6 References . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
10 Time Series Analysis 82
10.1 Time series . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
10.2 Periodicity: The Autocorrelation function . . . . . . . . . . . . . . . . . . . . . . . 84
10.3 Influences between two time series: Crosscorrelation . . . . . . . . . . . . . . . . . 86
10.4 The Poisson process . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
10.5 References and suggested reading . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
11 Lineare Systemtheorie 89
11.1 Linear systems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
11.2 Elektronische Schaltkreise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
11.3 Lineare elektronische Filter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
11.4 Faltung und Impulsantwort . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
11.5 Zusammenhang mit Fourier-Transformation . . . . . . . . . . . . . . . . . . . . . . 96
12 Bildverarbeitung 102
12.1 Bilder . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
12.2 Filterung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
12.3 Kantendetektion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
12.4 Korrelation und Schablonenfilter (matched filter) . . . . . . . . . . . . . . . . . . . 108
12.5 Bewegung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
12.6 Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
Kapitel 1
Zahlen und Vektoren
Die ersten Kapitel fassen einige wichtige Grundlagen zusammen, die wir f¨ ur die Theorie der Da-
tenanalyse und die Durchf¨ uhrung in Matlab ben¨otigen. Das erste Kapitel behandelt Zahlen und
Vektoren, es folgen Matrizen und Matrixoperationen sowie Funktionen und Grundlagen der Ana-
lysis. Angewandt werden diese Ergebnisse auf die Darstellung von Daten in verschiedenen Arten
von Diagrammen. Eine Reihe von empfohlenen allgemeinen Lehrb¨ uchern zum Thema ist am Ende
des Kapitels zusammengestellt.
1.1 Zahlen
Der wichtigste Typ von Zahlen sind die reelen Zahlen, die wir mit dem Buchstaben IR bezeichnen.
Sie enthalten die folgenden spezielleren Zahlenmengen
• Die ganzen Zahlen, (..., −2, −1, 0, 1, 2, ...). Die positiven ganzen Zahlen heißen auch

nat¨ urli-
che Zahlen“ und werden mit IN bezeichnet.
• Die Br¨ uche oder Verh¨altnisse ganzer Zahlen sind die rationalen Zahlen, (0, ±
1
1
, ±
2
1
, ±
1
2
, ±
3
1
,
±
2
2
, ±
1
3
, ±
4
1
, ±
3
2
, ±
2
3
, ±
1
4
, ...). Die rationalen Zahlen sind

abz¨ahlbar“, d.h. es gibt genau so
viele rationale Zahlen wir nat¨ urliche Zahlen.
• Die L¨osungen algebraischer Gleichungen (Gleichungen, die Potenzen der Unbekannten ent-
halten; z.B. x
2
= 2) f¨ uhren auf irrationale Zahlen. Ein Beispiel ist

2, die nicht als Bruch
darstellbar ist.
• Schließlich gibt es noch reelle Zahlen, die weder Br¨ uche noch L¨osungen algebraischer Glei-
chungen sind; man nennt sie transzendente Zahlen. Beispiele sind die Kreiszahl π und die
Eulersche Zahl e.
Die Menge der reellen Zahlen ist nicht abz¨ahlbar; es gibt also wesentlich

mehr“ reelle als nat¨ urliche
Zahlen. Die reellen Zahlen modellieren das eindimensionale Kontinuum. Zwischen je zwei reellen
Zahlen gibt es immer noch eine und damit unendlich viele. W¨ahrend diese Eigenschaft schon f¨ ur
die rationalen Zahlen gilt, ist die folgende Eigenschaft spezifisch f¨ ur die reellen Zahlen: f¨ ur jede
Folge von reellen Zahlen, die konvergiert (z.B. jede monoton wachsende, beschr¨ankte Folge), ist
der Grenzwert ebenfalls ein Element von IR.
1
2 KAPITEL 1. ZAHLEN UND VEKTOREN
Beispiel Wir betrachten eine Folge von Zahlen a
i
, die durch folgende Gleichung gegeben sind
a
i
=
_
1 +
1
i
_
i
=
(i + 1)
i
i
i
for i ∈ IN. (1.1)
Offensichtlich sind alle a
i
rationale Zahlen, da Z¨ahler und Nenner stets ganze Zahlen sind. So gilt
beispielsweise:
a
1
=
_
1 +
1
1
_
1
= 2,
a
2
=
_
1 +
1
2
_
2
=
9
4
= 2.25,
a
3
=
_
1 +
1
3
_
3
=
64
27
≈ 2.37, und
a
4
=
_
1 +
1
4
_
4
=
625
256
≈ 2.44.
Man kann zeigen, dass a
i
mit wachsendem i immer langsamer w¨achst und der Rest der Folge in
immer keinere Intervalle eingeschlossen werden kann. Die Folge konvergiert gegen einen Grenzwert,
den man mit lim
i→∞
a
i
bezeichnet. In unserem Beispiel ist das die Eulersche Zahl e, die Basis des
nat¨ urlichen Logarithmus.
lim
i→∞
a
i
= e ≈ 2.718. (1.2)
Obwohl alle a
i
rational sind, ist e keine rationale Zahl.
In Matlab k¨onnen wir die Berechnung mit folgendem Code durchf¨ uhren:
>> for i = 1:5
a(i) = (1+1/i)∧i
end
Matlab legt einen Vektor a an, dessen L¨ange in jedem Iterationsschritt dieser so genannten for-
Schleife um eins erh¨oht wird. Gleichzeitig wird in jedem Schritt der Wert von a ausgegeben:
a =
2.0000
a =
2.0000 2.2500
a =
2.0000 2.2500 2.3704
a =
2.0000 2.2500 2.3704 2.4414
a =
2.0000 2.2500 2.3704 2.4414 2.4883
Wie bereits erw¨ahnt, sind die Grenzwerte aller reellen Folgen wieder reell. Man sagt, IR sei abge-
schlossen.
1.1. ZAHLEN 3
`
¸

a
o
a
1
a
2
a

t
o
t
1
t
2
t

A
c
h
i
l
l
e
s
S
c
h
ild
k
r¨ o
t
e
Abbildung 1.1: Achilles und die Schildkr¨ote. Die
schr¨agen Linien zeigen die Positionen von Achilles
und der Schildkr¨ote (mit Vorsprung) als Funktio-
nen der Zeit. Der Schnittpunkt markiert den Zeit-
punkt des
¨
Uberholens. Die eingezeichnete Treppen-
kurve gibt die Folge der Orte bzw. Zeitpunkte wie-
der, zu denen Achilles die jeweils vorige Position der
Schildkr¨ote erreicht. Die Folge ist monton wachsend
aber beschr¨ankt und konvergiert.
Folgen und Grenzwerte: Ein Beispiel
Den Begriff des Grenzwertes kann man sich gut anhand des so genannten Zenonschen

Paradoxons
klarmachen. Hierbei handelt es sich um ein Wettrennen zwischen Achilles und einer Schildkr¨ote,
wobei die Schildkr¨ote einen Vorsprung erh¨alt. Anschaulich ist klar, dass Achilles die Schildkr¨ote
¨ uberholen wird.
¨
Uberlegt man sich aber, wann das geschieht, so stellt man fest, dass die Schild-
kr¨ote in der Zeit, die Achilles braucht, um ihre Startposition zu erreichen, auch weitergekommen
sein wird und wiederum einen, wenn auch kleineren Vorsprung besitzt. Diese
¨
Uberlegung kann
man wiederholen: wieder hat die Schildkr¨ote einen Vorsprung, wieder braucht Achilles Zeit, um
ihren Standort zu erreichen, und wieder wird die Schildkr¨ote in dieser Zeit weitergekommen sein.
Betrachtet man die Zeiten, zu denen Achilles die jeweils vorige Position der Schildkr¨ote erreicht,
so erh¨alt man eine streng monoton wachsende Folge, d.h. eine Folge von Zeitpunkten, bei denen
jeder gr¨oßer ist als der vorausgehende. Diese
¨
Uberlegung scheint also zu zeigen, dass Achilles die
Schildkr¨ote niemals erreicht.
Man braucht tats¨achtlich den Begriff des Grenzwertes, um zu verstehen, dass eine Folge, die
streng monoton w¨achst, trotzdem nicht ¨ uber alle Grenzen wachsen muss. Um das einzusehen,
belegen wir das Beispiel von Achilles und der Schildkr¨ote mit Zahlen. Achilles laufe mit 10 Meter
pro Sekunde, die Schildkr¨ote mit 1 Meter pro Sekunde und der Vorsprung betrage 10 m. Wir
betrachten jeweils die Momente, wenn Achilles die vorige Position der Schildkr¨ote erreicht hat:
Folgenglied i 0 1 2 3 4 . . . ∞
Position des Achilles a
i
0m 10m 11m 11.1m 11.11 m . . . 11
1
9
m
Vorsprung der Schildkr¨ote v
i
10m 1m
1
10
m
1
100
m
1
1000
m . . . 0m
Zeitpunkt t
i
0s 1s 1.1s 1.11s 1.111s . . .
10
9
s
Nach 1
1
9
Sekunden hat Achilles die Schildkr¨ote eingeholt; die Folge der Zeitpunkte konvergiert
gegen diese Zahl. Dannach geht das Rennen vermutlich noch weiter, auch wenn die Folge, die wir
konstruiert haben, unendlich viele Glieder braucht, um den Grenzwert zu erreichen.
Generell kann man zeigen, dass jede monoton wachsende Folge, die nach oben beschr¨ankt ist,
gegen einen Grenzwert konvergieren muss. Beispiel f¨ ur eine beschr¨ankte, nicht monotone Folge, die
auch nicht konvergiert ist a
i
:= (−1)
i
.
Nat¨ urlich kann man den Zeitpunkt, zu dem Achilles die Schildkr¨ote einholt, auch ohne Grenz-
wert ausrechnen, indem man die Bewegungsgleichungen gleichsetzt,
Vorsprung + Geschw. Schildkr¨ote t = Gesch. Achilles t,

Zenon von Elea, griechischer Philosoph, ca. 490-430 v. Chr.
4 KAPITEL 1. ZAHLEN UND VEKTOREN
und nach t aufl¨ost. Den Zusammenhang zwischen dieser Rechung und der Grenzwert¨ uberlegung
zeigt Abb. 1.1.
1.2 Psychologische Skalen
Die verschiedenen Zahlentypen finden eine experimentelle Entsprechung in den verschiedenen in
psychologischen Experimenten verwendeten Skalentypen (vgl. etwa Bortz 2002). Man unterscheidet
vereinfacht folgende Typen:
Nominalskalen. Hierbei wird eine Menge M von Objekten oder Beobachtungen mit Hilfe einer
¨
Aquivalenzrelation in

Klassen“ eingeteilt. Eine
¨
Aquivalenzrelation ist eine Relation (Beziehung
zwischen zwei Elementen von M), die die folgenen Eigenschaften erf¨ ullt:
Reflexivit¨at a ∼ a
Symmetrie: a ∼ b ⇔b ∼ a
Transitivit¨at: a ∼ b und b ∼ c ⇒a ∼ c
Das Zeichen

∼ “ (gelesen

Tilde“) bezeichnet dabei das Bestehen der Relation zwischen a und
b. Das einfachste Beispiel f¨ ur eine
¨
Aquivalenzrelation ist die Gleichheit (

=“) auf Zahlenmengen.
Andere Beispiele sind

ist gleich groß wie“,

tr¨agt das gleiche Allel wie“ etc. Durch geeignete
Transformation auf eine Zahlenmenge l¨asst sich jede
¨
Aquivalenzrelation in die Gleichheitsrelation
¨ uberf¨ uhren.
Nominalskalendaten sind Nat¨ urliche Zahlen, zum einen Klassennummern und zum anderen
H¨aufigkeiten von Elementen vom M, die in jede Klasse fallen. Die Klassennummern sind dabei
arbitr¨ar, d.h. die Daten ¨andern sich nicht, wenn man die Bezeichnung der Klassen ¨andert.
Ordinalskalen. Kann man auf die Objekte oder Beobachtungen eine schwache Ordnungsrelation

_“ anwenden, so entsteht eine Reihenfolge. Eine Ordnungsrelation erf¨ ullt die Bedingungen
Antisymmetrie a _ b und b _ a ⇔a = b
Transitivit¨at: a _ b und b _ c ⇒a _ c
Das einfachste Beispiel einer solchen Ordnungsrelation ist die gr¨oßer-gleich Relation ≥. Ordinalda-
ten ¨andern sich nicht, wenn man eine monotone Transformation auf sie anwendet. Mathematisch
entsprechen sie Ganzen Zahlen.
Kardinalskalen. In diesem Fall ist die Messgr¨oße eine rationale oder reele Zahl, die Paarverglei-
che zul¨asst. In der Psychologie unterscheidet man meist noch Intervallskalen, in denen Differenzen
zwischen Messwerten wohldefiniert und vergleichbar sind, von Verh¨altnisskalen, in denen auch
Vielfache und Br¨ uche sinnvoll gebildet und verglichen werden k¨onnen. Physikalische wie auch phy-
siologische Messungen sind in der Regel von dieser Art. Ein Beispiel f¨ ur eine Intervallskala, die
aber keine Verh¨altnisskala ist, ist die Celsius-Skala f¨ ur die Temperatur. Man kann sagen, dass der
Unterschied zwischen 5

und 10

genauso groß ist, wie der zwischen 15

und 20

, weil die Ausdeh-
nung der Quecksilbers¨aule in beiden F¨allen gleich groß ist. Es macht aber wenig Sinn zu sagen,
dass 20


doppelt so warm“ sei wie 10

, weil der Nullpunkt der Celsius-Skala letztlich arbitr¨ar
ist. Tats¨achlich ist ein wesentlicher Unterschied zwischen Intervallskalen und Verh¨altnisskalen die
Existenz eines wohldefinierten Nullpunktes, auf den man Vergleichsaussagen beziehen kann.
In der Experimentalstatistik spielt die Frage der Skalentypen eine große Rolle. Wir werden diesen
Punkt hier nicht systematisch behandeln aber gelegentlich darauf zur¨ uck kommen.
1.3. VEKTOREN 5
1.3 Vektoren
Vektoren sind der wichtigste Datentyp in Matlab, der z.B. immer dann verwendet wird, wenn
wiederholte Messungen dargestellt werden sollen.
Vektoren k¨onnen f¨ ur unsere Anwendungen als Zeilen oder Spalten von Zahlen (f¨ ur gew¨ohnlich:
reellen Zahlen) aufgefasst werden. Wir schreiben
v =
_
_
_
_
_
_
_
_
v
1
v
2
.
.
.
v
n
_
_
_
_
_
_
_
_
= (v
1
, v
2
, . . . , v
n
)

. (1.3)
Die Umwandlung eines Zeilenvektors in einen Spaltenvektor oder umgekehrt bezeichnet man als
Transposition, das Ergebnis auch als den transponierten Vektor. Statt des hier (und von Matlab)
verwendeten Strichs findet man auch ein hochgestelltes ⊤.
Die Zahlen v
i
bezeichnet man als Komponenten des Vektors v, die Anzahl n der Komponen-
ten ist seine Dimension. Die Menge aller Vektoren mit reellen Komponenten und Dimension n
bezeichnet man als n-dimensionalen Vektorraum, IR
n
.
Vektoren bilden in Matlab die wichtigste Datenstruktur. Zeilenvektoren werden als Liste ohne
Kommata und in eckigen Klammern vereinbart:
>> v = [ 1 2 3 ]
v =
1 2 3
Bei Spaltenvektoren trennt man die Komponenten mit Semikolons:
>> u = [ 4; 5; 6 ]
u =
4
5
6
Die Transposition wird wie in Gl. 1.3 durch ein Apostroph bezeichnet:
>> u’
ans =
4 5 6
1.3.1 Rechenoperationen
Mit Vektoren sind folgende f¨ ur uns wichtige Rechenoperationen erkl¨art:
Addition. Zwei Vektoren gleicher Dimension werden addiert, indem man die Komponenten addiert
(

Kr¨afteparallelogramm“, Abb. 1.2):
a +

b =
_
_
_
_
_
_
_
_
a
1
a
2
.
.
.
a
n
_
_
_
_
_
_
_
_
+
_
_
_
_
_
_
_
_
b
1
b
2
.
.
.
b
n
_
_
_
_
_
_
_
_
=
_
_
_
_
_
_
_
_
a
1
+b
1
a
2
+b
2
.
.
.
a
n
+b
n
_
_
_
_
_
_
_
_
. (1.4)
6 KAPITEL 1. ZAHLEN UND VEKTOREN
¸
`
.
.
.
.
.
. ·
/
/
/
/
/
/
/
/

´
´
´
´
´
´
´
´
´
´
´
´´
a
2
+b
2
a
2
b
2
a
1
b
1
a
1
+b
1

b
a
a +

b
/
/
/
/
/
/
/
/
/`
>
>
>
>
>
>
¸
`
.
.
. ·
/
/
/
/
/
/
/
/

`
`
`
`
`


b

b
a
α
.
¸
¸
.
(
a

b
)
/
|
b
|
=
λ

b
o
Abbildung 1.2: Links: Vektoraddition. Die Summe a +

b entsteht algebraisch durch Addition
der Komponenten und geometrisch durch Aneinanderlegen der Pfeile (

Kr¨afteparallelogramm“).
Rechts: Skalarprodukt. Das Skalarprodukt gibt die L¨ange der Projektion eines Vektors auf die
durch den zweiten Vektor definierte Richtung an.
Multiplikation mit einem Skalar. Die Multiplikation als Verallgemeinerung der Addition des
Vektors zu sich selbst (im Sinne von a+a = 2a) ist f¨ ur beliebige Zahlen (

Skalare“) λ ∈ IR erkl¨art:
λa = λ
_
_
_
_
_
_
_
_
a
1
a
2
.
.
.
a
n
_
_
_
_
_
_
_
_
=
_
_
_
_
_
_
_
_
λa
1
λa
2
.
.
.
λa
n
_
_
_
_
_
_
_
_
(1.5)
Skalarmultiplikation (dot product, inner product). Zwei Vektoren gleicher Dimension k¨onnen
nach folgender Regel multipliziert werden, wobei das Ergebnis eine Zahl (Skalar) ist:
(a

b) := a
1
b
1
+a
2
b
2
+. . . a
n
b
n
=
n

i=1
a
i
b
i
. (1.6)
Wegen (aa) =

a
2
i
ist
_
(a a) =: |a| die L¨ange oder Norm des Vektors a (Satz des Pythagoras).
Ein Vektor mit Norm 1 heißt Einheitsvektor; Ein beliebiger Vektor a kann durch Division durch
seine Norm in einen Einheitsvektor ¨ uberf¨ uhrt werdebn. Man schreibt
a
o
:=
a
|a|
(1.7)
Ist das Skalarprodukt zweier Vektoren null, so sind die Vektoren orthogonal (senkrecht) zuein-
ander. Dies sieht man sofort f¨ ur die Basisvektoren eines Standardkoordinatensystems, die f¨ ur drei
Dimensionen gegeben sind durch
e
1
:=
_
_
_
_
_
1
0
0
_
_
_
_
_
e
2
:=
_
_
_
_
_
0
1
0
_
_
_
_
_
e
3
:=
_
_
_
_
_
0
0
1
_
_
_
_
_
. (1.8)
1.3. VEKTOREN 7
Offenbar gilt (e
i
e
j
) = 0 f¨ ur alle i ,= j, d.h. die Basisvektoren stehen paarweise senkrecht aufein-
ander. Allgemein wird die Orthogonalit¨at zweier Vektoren durch das Verschwinden des Skalarpro-
duktes definiert.
Eine anschauliche Interpretation des Skalarproduktes im allgemeinen Fall ergibt sich aus Ab-
bildung 1.2. Die gepunktelte Linie gibt die durch den Vektor

b bzw. seinen Einheitsvektor

b
o
definierte Richtung wieder. Bezeichnet man mit

b

den darauf senkrecht stehenden Vektor (im
mehrdimensionalen Fall niummt man den, der außerdem noch in der durch a und

b aufgespannten
Ebene liegt), so gilt f¨ ur geeignete Konstanten λ, µ:
λ

b
o

b

= a. (1.9)
Hierbei ist λ die L¨ange der Projektion von a auf die Richtung von

b. Multipliziert man die Gleichung
skalar mit

b, so erh¨alt man wegen (

b

b) = 0
λ(

b
o

b) = (a

b) (1.10)
und weiter
λ =
(a

b)
|

b|
= |a|(

a
o

b
o
). (1.11)
Das Skalarprodukt beschreibt also die Projektion eines Vektors auf einen Anderen. Man kann dies
benutzen, um Winkel in Vektorr¨aumen zu definieren:
cos α = (

a
o

b
o
) =
(a

b)
|a||

b|
. (1.12)
In Matlab wird das Skalarprodukt als ein Spezialfall der Matrizenmultiplikation (s.u.) aufge-
fasst. Sind etwa
>> a = [ 1 2 3 ]
a =
1 2 3
>> b = [ 10 20 30 ]
b =
10 20 30
zwei Zeilenvektoren, so ist die Operation a * b nicht definiert. Da gleiche gilt, wenn a und b beide
als Spaltenvektoren definiert sind. Das Skalarprodukt sollte in diesem Fall den Wert 1 10 + 2
20 + 3 30 = 140 annehmen. Man erh¨alt es aus dem Befehl
>> a * b’
ans =
140
Weitere Produkte.
Weitere in MatLab definierte Produkte sind das ¨außere Produkt
>> a’ * b
ans =
10 20 30
20 40 60
30 60 90
8 KAPITEL 1. ZAHLEN UND VEKTOREN
und das komponentenweise Produkt
>> a .* b
ans =
10 40 90
Das ¨außere Produkt wird uns bei der Matrix-Multiplikation und in der multivariaten Statistik wie-
der begegnen. Das komponentenweise Produkt entspricht der Multiplikation abgetasteter Funktio-
nen.
1.3.2 Beispiele
1. Die x-y-Koordinaten einer Ebene bilden einen zwei-dimensionalen Vektorraum.
2. Misst man an einer Versuchsperson die f¨ unf Messgr¨oßen Gewicht, Volumen, K¨orpergr¨oße,
Beinl¨ange und Arml¨ange, so bilden diese Messungen einen f¨ unf-dimensionalen Daten- oder
Merkmalsvektor.
3. Leitet man simultan die Aktivit¨at von n Neuronen ab und teilt das Ergebnis in Zeitfenster
von 10 ms ein, so erh¨alt man f¨ ur jedes Zeitfenster einen n-dimensionalen Vektor dessen
Komponenten die Werte 0 (kein Aktionspotential im Zeitfenster) oder 1 (ein Aktionspotential
im Zeitfenster annehmen k¨onnen. Man bezeichnet diesen Vektor auch als den Zustandsvektor
der abgeleiteten Gruppe von Neuronen.
4. Misst man die L¨ange eines Pflanzenkeimlings jede Stunde w¨ahrend eines Zeitraums von 24
Stunden, so erh¨alt man 25 Einzelmessungen, die man zu einem 25-dimensionalen Vektor
zusammenfassen kann. Allgemeiner kann jede Abtastung einer Funktion als Vektor aufgefasst
werden.
Anschaulich sollte man sich Vektoren als geordnete Listen vorstellen, nicht unbedingt als Punkte
oder Pfeile im Raum. Man umgeht dann das Problem, dass Vektoren mit mehr als drei Dimensionen
(Listenpl¨atzen) nicht mehr vorstellbar sind. Dimensionen sind anschaulich so etwas wie Freiheits-
grade, bez¨ uglich derer eine vektorielle Gr¨oße unabh¨angig variieren kann. Die Beispiele zeigen, dass
es keinen Grund gibt, die Anzahl dieser Freiheitsgrade auf drei zu beschr¨anken. Auch im Fall von
mehr als drei Dimensionen bezeichnet man die Gesamtzahl aller Vektoren mit einer gegebenen
Dimension n als n-dimensionalen Vektorraum.
Literatur
Anton, H. (1998) Lineare Algebra. Einf¨ uhrung, Grundlagen,
¨
Ubungen. Heidelberg, Berlin: Spek-
trum Akademischer Verlag
Bortz, J. (2002) Statistik f¨ ur Sozialwissenschaftler. Berlin etc: Springer. 5. Auflage
Farin, G., Hansford, D. (2008) Mathematical Principles for Scientific Computing and Visualization.
Wellesley MA: A K. Peters Ltd.
Glaeser G. (2004) Der mathematische Werkzeugkasten. Anwendungen in Natur und Technik. M¨ unchen:
Elsevier Spektrum. Kapitel 4: Vektorrechenung
Wallisch, P., Lusignan, M., Benayoun, M., Baker, T.I., Dickey, A.S., Hatsopulos, N. (2008) Matlab
for Neuroscientists: An Introduction to Scientific Computing in Matlab. Academic Press.
Kapitel 2
Matrizen
2.1 Allgemeines
Matrizen

sind rechteckige Raster von Zahlen, in unseren Anwendungen stets reellen Zahlen, z.B.:
M =
_
_
_
_
_
m
11
m
12
m
13
m
14
m
21
m
22
m
23
m
24
m
31
m
32
m
33
m
34
_
_
_
_
_
(2.1)
M ist eine Matrix mit 3 Zeilen und 4 Spalten, oder kurz eine 34-Matrix. Die Komponenten haben
zwei Indizes, von denen der erste die Zeilennummer und der zweite die Spaltennummer bezeichnet.
Vektoren k¨onnen als spezielle Matrizen mit nur einer Spalte bzw. Zeile aufgefasst werden.
Genauer entspricht ein Spaltenvektor einer n 1-Matrix und ein Zeilenvektor einer 1 n-Matrix.
Vertauscht man die Spalten und Zeilenindizes der Matrixkomponenten, so entsteht die trans-
ponierte (oder gest¨ urzte) Matrix M

, im Beispiel:
M

=
_
_
_
_
_
_
_
_
m
11
m
21
m
31
m
12
m
22
m
32
m
13
m
23
m
33
m
14
m
24
m
34
_
_
_
_
_
_
_
_
(2.2)
Aus der 34-Matrix M ist dabei die 43-Matrix M

entstanden. Die Transposition von Matrizen
ist damit v¨ollig analog zu der von Vektoren, wenn man, wie beschrieben, Vektoren als einzeilige
oder einspaltige Matrizen auffasst.
2.2 Matrixmultiplikation
Matrizen beschreiben Abbildungen zwischen Vektorr¨aumen. Quadratische Matrizen (also solche
mit gleich vielen Zeilen und Spalten) entsprechen Abbildungen von einem Vektorraum auf sich
selbst. D.h., jedem Vektor v wird durch die Vorschrift
u = Mv (2.3)

Der Name

Matrix“ (Plural: Matrizen) geht auf den englischen Mathematiker James Joseph Sylvester (1814-
1897) zur¨ uck. Determinanten wurden schon lange vorher zur L¨osung von Gleichungssystemen verwendet.
9
10 KAPITEL 2. MATRIZEN
m = 4 Spalten
p = 3 Spalten
p = 3 Spalten
n
=
2
Z
e
i
l
e
n
m
=
4
Z
e
i
l
e
n
n
=
2
Z
e
i
l
e
n

=
a
11
a
12
a
13
a
14
b
11
b
21
b
31
b
41
c
11
Abbildung 2.1: Matrixmultiplikation. Die Multiplikation einer 24-Matrix A mit einer 43-Matrix
B ergibt eine 23-Matrix C. Die Komponente c
11
= a
11
b
11
+a
12
b
21
+a
13
b
31
+a
14
b
41
=

m
j=1
a
1j
b
j1
und die in ihre Berechnung einfließenden Komponenten der Matrizen A und B sind grau unterlegt.
ein Vektor u zugeordnet. In Komponenten sieht diese Zuordnung so aus:
_
_
_
_
_
_
_
_
u
1
u
2
.
.
.
u
n
_
_
_
_
_
_
_
_
=
_
_
_
_
_
_
_
_
m
11
m
12
. . . m
1n
m
21
m
22
. . . m
2n
.
.
.
.
.
.
.
.
.
m
n1
m
n2
. . . m
nn
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
v
1
v
2
.
.
.
v
n
_
_
_
_
_
_
_
_
(2.4)
=
_
_
_
_
_
_
_
_
m
11
v
1
+m
12
v
2
+. . . +m
1n
v
n
m
21
v
1
+m
22
v
2
+. . . +m
2n
v
n
.
.
.
m
n1
v
1
+m
n2
v
2
+. . . +m
nn
v
n
_
_
_
_
_
_
_
_
=
_
_
_
_
_
_
_
_

n
j=1
m
1j
v
j

n
j=1
m
2j
v
j
.
.
.

n
j=1
m
nj
v
j
_
_
_
_
_
_
_
_
(2.5)
Die i-te Komponente des neuen Vektors u erh¨alt man also, indem man zun¨achst die i-te Zeile der
Matrix herausgreift. Eine solche Zeile kann f¨ ur sich genommen als Zeilenvektor aufgefasst werden.
Wir multiplizieren jetzt die erste Komponente dieser Zeile mit der ersten Komponente des Vektors
v, dann die zweiten Komponenten, und so fort. Am Ende addieren wir alle Produkte auf und
erhalten so das Ergebnis u
i
(

Zeile mal Spalte“). Dieses Multiplikationsschema setzt voraus, dass
die Matrix gerade soviele Spalten hat, wie der Vektor Komponenten (oder Zeilen), da sonst die
Paare f¨ ur die Multiplikation nicht aufgehen.
Allgemein kann man zwei Matrizen miteinander multiplizieren, wenn die erste so viele Spalten
hat wie die zweite Zeilen (Abb. 2.1). F¨ ur die Multiplikation einer nm-Matrix A mit einer mp-
Matrix B erh¨alt man eine n p-Matrix mit den Komponenten
c
ik
=
m

j=1
a
ij
b
jk
. (2.6)
Ist n = p = 1, so handelt es sich um die Multiplikation eines Zeilenvektors mit einem Spaltenvektor;
das Ergebnis ist eine Zahl. Es ist gerade das oben bereits eingef¨ uhrte Skalarprodukt der beiden
beteiligten Vektoren. Ist m = 1, so wird ein Spaltenvektor mit einem Zeilenvektor multipliziert,
wobei eine n p-Matrix entsteht (sog. ¨außeres Produkt oder Tensorprodukt). Man sieht schon an
2.2. MATRIXMULTIPLIKATION 11
Tabelle 2.1: Rechenregeln f¨ ur die Multiplikation von Matrizen
Assoziativit¨at (AB)C = A(BC)
Distributivit¨at A(B +C) = AB +AC
Transposition (AB)

= B

A

a.
¸
`
x
y
Z
Z
Z
,

_
1 0
0 2
_
¸
`
x
y
/
/
/
/
/
/
,
b.
¸
`
x
y
Z
Z
Z
,

_
−1 0
0 1
_
¸
`
x
y
`
`
`
,
c.
¸
`
x
y
Z
Z
Z
,

_
cos ϕ −sin ϕ
sin ϕ cos ϕ
_
¸
`
x
y
.
.
.
\
\
\
/
/
/
/
\
\
\
.
.
.
,
d.
¸
`
x
y
Z
Z
Z
,

_
1 0
1 1
_
¸
`
x
y
Z
Z
Z
/
/
/
/
/
/
Z
Z
Z
,
Abbildung 2.2:
¨
Ahnlichkeitstransformationen in der Ebene. a. Expansion in y-Richtung. b. Spie-
gelung an der y-Achse. c. Drehung um den Ursprung mit Drehwinkel ϕ. d. Scherung. Die Matrizen
der gezeigten Transformationen sind jeweils angegeben. Durch Verkettung der Grundtypen lassen
sich alle m¨oglichen
¨
Ahnichkeitstransformationen der Ebene erzeugen.
diesem Beispiel, dass die Matrixmultiplikation nicht kommutativ ist. Das gilt im Allgemeinen auch
f¨ ur quadratische Matrizen. Weitere Regeln f¨ ur die Matrix-Multiplikation zeigt Tabelle 2.1.
Die quadratische Matrix
E =
_
_
1 0
0 1
_
_
(2.7)
bezeichnet man als die 2 2 Einheitsmatrix. Multipliziert man einen 2-dimensionalen Vektor mit
dieser Matrix, so bleibt er unver¨andert. Die Einheitsmatrix in h¨oheren Dimensionen ist entspre-
chend definiert, ihre Koeffizienten entlang der Diagonalen haben den Wert 1, alle anderen Koeffi-
zienten haben den Wert 0.
Die durch die Matrixmultiplikation beschriebene Abbildung eines Vektors auf einen anderen
Vektor ist linear, d.h. es gilt:
M( u +v) = M u +Mv (2.8)
M(λ u) = λM u f¨ ur λ ∈ IR (2.9)
Umgekehrt kann man zeigen, dass jede lineare Abbildung zwischen endlich-dimensionalen Vek-
torr¨aumen durch eine Matrixmultiplikation beschrieben werden kann.
12 KAPITEL 2. MATRIZEN
2.3 Beispiele
2.3.1
¨
Ahnlichkeitstransformationen in der Ebene
¨
Ahnlichkeitstransformationen in der Ebene sind Abbildungen, die Geraden wieder in Geraden
¨ uberf¨ uhren und parallele Geraden wieder in Parallelen. Beispiele sind Drehung, Spiegelung, Sche-
rung und Verschiebung. Sieht man einmal von der Verschiebung ab, so werden die ¨ ubrigen
¨
Ahn-
lichkeitstransformationen in der Ebene durch 22-Matrizen beschrieben. Man ¨ uberlegt sich leicht,
dass die Transformationseigenschaften f¨ ur Geraden aus der Linearit¨at der Matrix-Operation folgt:
• Ursprungsgeraden werden auf Ursprungsgeraden abgebildet.
Ist g ein Vektor, so ist durch λg eine Gerade durch den Koordinatenursprung gegeben, wobei
λ die nat¨ urlichen Zahlen durchl¨auft. Aus der Linearit¨at folgt nun
M(λg) = λ(Mg).
Dies ist wieder eine Ursprungsgerade, allerdings in der neuen Richtung Mg.
• Parallelen zu Ursprungsgeraden werden auf Parallelen abgebildet.
Sind g und v zwei Vektoren, so ist durch λg +v eine zu λg parallele Gerade gegeben. Der
Vektor v beschreibt die Verschiebung zwischen den Parallelen. Das Bild der Parallelen unter
M ist
λ(Mg) + (Mv).
Dies ist eine zu Mg parallele Gerade mit der Verschiebung Mv.
Einige spezielle Beispiele mit den zugeh¨origen Matrizen zeigt Abb. 2.2.
Achsen, die bei der Transformation erhalten bleiben, heißen Eigenvektoren der Matrix. Ist e
ein Eigenvektor der Matrix M, so gilt Me = λe, wobei λ eine reelle Zahl ist. Der Eigenvektor e
wird also durch Multiplikation mit der Matrix, deren Eigenvektor er ist, h¨ochstens in seiner L¨ange
ver¨andert, nicht aber in seiner Richtung; die durch alle Vielfache von e definierte Ursprungsgerade
bleibt unver¨andert. Die Streckung in Abb. 2.2a hat die Eigenvektoren (0, 1)

(λ = 1) und (1, 0)

(λ = 2). Die Spiegelung in Abb. 2.2b hat die Eigenvektoren (0, 1)

(Eigenwert λ = −1) und (1, 0)

(λ = 1). Drehungen (Abb. 2.2c) haben f¨ ur ϕ ,= nπ ¨ uberhaupt keine Eigenvektoren und die Scherung
in Abb. 2.2d hat als einzigen Eigenvektor (0, 1)

mit λ = 1.
Die mit der Transformation verbundene Fl¨achenvergr¨oßerung entspricht dem Betrag der De-
terminante der Transformationsmatrix
det M := (m
11
m
22
−m
12
m
21
). (2.10)
In Abb. 2.2a ist die Fl¨achenvergr¨oßerung 2, in den anderen Beispielen hat sie den Wert 1.
2.3.2 Lineares Gleichungssystem
Lineare Gleichungssysteme k¨onnen als Matrixgleichungen geschrieben werden, bei denen Vektoren
die Unbekannten sind. Wir betrachten ein einfaches Beispiel, das durch die Computertomographie
motiviert ist.
Aus Abbildung 2.3 erh¨alt man vier Gleichungen f¨ ur die vier Unbekannten x
1
bis x
4
:
x
1
+ x
3
= d
1
x
2
+ x
4
= d
2
x
2
+ x
3
= d
3
x
1
+ x
2
= d
4
(2.11)
2.3. BEISPIELE 13
x
3
x
1
x
4
x
2
` `

¸
d
1
d
2
d
3
d
4
Abbildung 2.3: Vier Volumenzellen eines K¨orpers werden
durch Roentgenstrahlen in den angegebenen Richtungen
durchleuchtet. Die Gesamtabsorptionen d
1
bis d
4
ergebe-
nen sich durch Summation der Absorptionskoeffizienten der
durchlaufenen Voxel. Wie groß sind die einzelnen Absorp-
tionen?
Nat¨ urlich kann man dieses Gleichungssystem leicht elementar nach den vier Unbekannten
au߬osen. Ein systematisches Verfahren, das man auch in Programmen wie Matlab leicht ein-
setzten kann, schreibt das Problem zun¨achst in eine Matrix-Gleichung um:
_
_
_
_
_
_
_
_
1 0 1 0
0 1 0 1
0 1 1 0
1 1 0 0
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
x
1
x
2
x
3
x
4
_
_
_
_
_
_
_
_
=
_
_
_
_
_
_
_
_
d
1
d
2
d
3
d
4
_
_
_
_
_
_
_
_
. (2.12)
Wir bezeichnen die Matrix mit M. Die Gleichung w¨are gel¨ost, wenn man auf beiden Seiten

durch
die Matrix M dividieren“ k¨onnte. Leider ist die Division durch Matrizen nicht definiert. Man
kann jedoch in vielen F¨allen eine so genannte inverse Matrix M
−1
berechnen, mit der Eigenschaft
M
−1
M = MM
−1
= I; hierbei ist I die Einheitsmatrix (in Matlab:

eye“), deren diagonale
Komponenten alle 1 sind, w¨ahrend die anderen verschwinden. Es gilt Iv = v f¨ ur alle v. Mit Hilfe
der inversen Matrix kann man schreiben:
_
_
_
_
_
_
_
_
x
1
x
2
x
3
x
4
_
_
_
_
_
_
_
_
= M
−1
_
_
_
_
_
_
_
_
d
1
d
2
d
3
d
4
_
_
_
_
_
_
_
_
(2.13)
=
1
2
_
_
_
_
_
_
_
_
1 0 −1 1
−1 0 1 1
1 0 1 −1
1 1 −1 −1
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
d
1
d
2
d
3
d
4
_
_
_
_
_
_
_
_
(2.14)
Die inverse Matrix existiert nur, wenn die Ausgangsmatrix quadratisch ist und auch dann nur,
wenn sie nicht

singul¨ar“ ist. W¨ urde man in dem o.a. Gleichungssystem z.B. eine Gleichung doppelt
verwenden und daf¨ ur eine andere streichen, so w¨are die Inversion nicht mehr m¨oglich. Allgemein
entsteht dieses Problem, wenn eine der Gleichungen aus den anderen durch Linearkombination
vorhersagbar ist. Dies ist auch der Grund, weshalb in Gl. 2.11 eine diagonale statt einer weiteren
horizontalen Projektion gew¨ahlt wurde. Man braucht mindestens 4 unabh¨angige Gleichungen um 4
Unbekannte zu bestimmen. Hat man weniger als 4 Gleichungen, gibt es im Allgemeinen viele L¨osun-
gen (unterbestimmtes Problem). Hat man mehr als 4 Gleichungen, ist das System ¨ uberbestimmt
14 KAPITEL 2. MATRIZEN
und die Gleichungen k¨onnen nur noch n¨aherungsweise befriedigt werden. Solche Optimall¨osungen
¨ uberbestimmter Gleichunssysteme findet man mit Hilfe der so genannten pseudoinversen Matrizen.
Das Berechnen der inversen Matrix mit Papier und Bleistift ist nicht einfacher, als das direkte
L¨osen des Gleichungssystems. Der Vorteil liegt in der Verf¨ ugbarkeit numerischer Routinen zum
Invertieren von Matrizen, in Matlab etwa durch den Befehl

¸“.
2.3.3 Markoff-Ketten

(Probabilistische Matrizen)
Ein Student S sei daf¨ ur bekannt, dass er jeden Abend eine von drei Kneipen besucht. Dabei soll
die Wahrscheinlichkeit, mit der er eins dieser drei Lokale ausw¨ahlt, davon abh¨angen, welches er
am Tag zuvor besucht hat. Wir nehmen folgende Verteilung an:
• Wenn S am Tag t den

Ammerschlag“ (l
1
) besucht hat, findet man ihn am n¨achsten Tag
(t +1) mit 60 % Wahrscheinlichkeit wieder im

Ammerschlag“, und mit jeweils 20 % Wahr-
scheinlichkeit im

Jazzkeller“ oder im

Stern“.
• Wenn S am Tag t den

Jazzkeller“ (l
2
) besucht hat, findet man ihn am n¨achsten Tag (t +1)
mit 100 % Wahrscheinlichkeit im

Stern“.
• Wenn S am Tag t den

Stern“ (l
3
) besucht hat, findet man ihn am n¨achsten Tag (t +1) mit
10 % Wahrscheinlichkeit im

Ammerschlag“, mit 80 % Wahrscheinlichkeit im

Jazzkeller“
und mit 10 % wieder im

Stern“.
Wir bezeichnen mit p
ij
die Wahrscheinlichkeit, dass S an einem Tag in Lokal l
i
verkehrt,
wenn er am Tag vorher in Lokal l
j
war (bedingte Wahrscheinlichkeit). Wir erhalten dann die
Wahrscheinlichkeitsmatrix
P =
_
_
_
_
_
0.6 0 0.1
0.2 0 0.8
0.2 1.0 0.1
_
_
_
_
_
(2.15)
Die Spalten dieser Matrix addieren sich zu eins.
Mit q
t
i
bezeichnen wir die Wahrscheinlichkeit, dass S am Tag t das Lokal i besucht. Da S an
jedem Tag genau ein Lokal besucht, muss gelten

3
i=1
q
t
i
= 1 f¨ ur alle t. Wir k¨onnen dann das
Verhalten von S als Matrixgleichung formulieren:
_
_
_
_
_
q
t+1
1
q
t+1
2
q
t+1
3
_
_
_
_
_
=
_
_
_
_
_
0.6 0 0.1
0.2 0 0.8
0.2 1.0 0.1
_
_
_
_
_
_
_
_
_
_
q
t
1
q
t
2
q
t
3
_
_
_
_
_
(2.16)
oder k¨ urzer
q
t+1
= Pq
t
. (2.17)
Wir nehmen nun an, dass S am Tag 1 den Ammerschlag besucht, q
1
= (1, 0, 0)

. Dann erhalten
wir folgende Wahrscheinlichkeitsverteilungen f¨ ur die folgenden Tage:

Andrei Andrejewitsch Markoff (1856-1922), russischer Mathematiker. Nach englischer Transskription des Na-
mens auch

Markov-Ketten“
2.3. BEISPIELE 15
1 2 3 4 . . . ∞
Ammerschlag 1 0.6 0.38 0.262 . . . 0.1190
Jazzkeller 0 0.2 0.28 0.348 . . . 0.4048
Stern 0 0.2 0.34 0.390 . . . 0.4762
Beginnt S im Stern, so erh¨alt man:
1 2 3 4 5 . . . ∞
Ammerschlag 0 0.1 0.07 0.125 0.0947 . . . 0.1190
Jazzkeller 0 0.8 0.10 0.678 0.1826 . . . 0.4048
Stern 1 0.1 0.83 0.197 0.7227 . . . 0.4762
In diesem Fall pendelt S also eine Weile zwischen Jazzkeller und Stern hin und her, doch stellt
sich am Ende das gleiche Gleichgewicht wie oben ein. Dieses Gleichgewicht gibt an, wo wir S mit
der gr¨oßten Wahrscheinlichkeit finden, wenn wir nicht wissen, wo er am vorherigen Tag gewesen
ist.
Wir bezeichnen die Wahrscheinlichkeitsverteilung im Gleichgewicht mit q

. Da im Gleichge-
wicht keine Ver¨anderung mehr stattfindet, muss gelten:
q

= Pq

, (2.18)
d.h., q

ist Eigenvektor von P mit Eigenwert 1.
2.3.4 Kovarianzmatrix
In einer Messung werden von n = 6 Versuchspersonen je 3 Messgr¨oßen erhoben, z.B. K¨orpergr¨oße,
Gewicht und Alter. Man erh¨alt folgende (fiktiven) Daten:
VP Gr¨oße/m (X) Gewicht/kg (Y ) Alter/Jahre (Z)
1 1.53 52 13
2 1.98 98 19
3 1.72 65 48
4 0.92 14 3
5 2.01 105 27
6 1.83 89 61
Durchschnitt 1.665 70.5 28.5
16 KAPITEL 2. MATRIZEN
Wir subtrahieren zun¨achst die Mittelwerte und orden die Daten zu einer 6 3-Matrix D:
D =
_
_
_
_
_
_
_
_
_
_
_
_
_
_
X
1

¯
X Y
1

¯
Y Z
1

¯
Z
X
2

¯
X Y
2

¯
Y Z
2

¯
Z
X
3

¯
X Y
3

¯
Y Z
3

¯
Z
X
4

¯
X Y
4

¯
Y Z
4

¯
Z
X
5

¯
X Y
5

¯
Y Z
5

¯
Z
X
6

¯
X Y
6

¯
Y Z
6

¯
Z
_
_
_
_
_
_
_
_
_
_
_
_
_
_
=
_
_
_
_
_
_
_
_
_
_
_
_
_
_
−0.135 −18.5 −15.5
0.315 27.5 −9.5
0.055 −5.5 19.5
−0.745 −56.5 −25.5
0.345 34.5 −1.5
0.165 18.5 32.5
_
_
_
_
_
_
_
_
_
_
_
_
_
_
(2.19)
Als n¨achstes berechnen wir die Matrixmultiplikation
C :=
1
n
D

D
=
1
n
_
_
_
_
_
−0.135 0.315 0.055 −0.745 0.345 0.165
−18.5 27.5 −5.5 −56.5 34.5 18.5
−15.5 −9.5 19.5 −25.5 −1.5 32.5
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
−0.135 −18.5 −15.5
0.315 27.5 −9.5
0.055 −5.5 19.5
−0.745 −56.5 −25.5
0.345 34.5 −1.5
0.165 18.5 32.5
_
_
_
_
_
_
_
_
_
_
_
_
_
_
=
_
_
_
_
_
0.137 11.318 4.003
11.318 975.58 318.08
4.003 318.08 403.25
_
_
_
_
_
. (2.20)
C ist eine 33-Matrix, die auf der Diagonalen die Stichprobenvarianz der drei Messgr¨oßen (K¨orper-
gr¨oße, Gewicht, Alter) enth¨alt und auf den ¨ ubrigen Feldern die entsprechenden Kovarianzen. Die
Anzahl 3 der Zeilen und Spalten ergibt sich aus der Anzahl der Messgr¨oßen (Gr¨oße, Gewicht, Al-
ter). F¨ ur n Messgr¨oßen erh¨alt man eine n n-Matrix. Die Anzahl der Versuchspersonen geht in
die Dimensionalit¨at der Matrix nicht ein. Allgemein gilt:
C :=
1
n
D

D (2.21)
=
1
n
_
_
_
_
X
1

¯
X X
2

¯
X X
3

¯
X X
4

¯
X X
5

¯
X X
6

¯
X
Y
1

¯
Y Y
2

¯
Y Y
3

¯
Y Y
4

¯
Y Y
5

¯
Y Y
6

¯
Y
Z
1

¯
Z Z
2

¯
Z Z
3

¯
Z Z
4

¯
Z Z
5

¯
Z Z
6

¯
Z
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
X
1

¯
X Y
1

¯
Y Z
1

¯
Z
X
2

¯
X Y
2

¯
Y Z
2

¯
Z
X
3

¯
X Y
3

¯
Y Z
3

¯
Z
X
4

¯
X Y
4

¯
Y Z
4

¯
Z
X
5

¯
X Y
5

¯
Y Z
5

¯
Z
X
6

¯
X Y
6

¯
Y Z
6

¯
Z
_
_
_
_
_
_
_
_
_
_
_
_
2.3. BEISPIELE 17
-0.75 -0.5 -0.25 0 0.25 0.5 0.75
-0.75
-0.5
-0.25
0
0.25
0.5
0.75
Abbildung 2.4: Interpretation einer 2
2-Matrix A als Vektorfeld, d.h. als Ab-
bildung x → A x. Die Pfeile zeigen die
jeweils in der Ebene auftretenden Vek-
toren. Die Kurven sind Bahnen (Trajek-
torien), deren lokale Tangenten jeweils
durch die Pfeile gegeben sind. Sie sind
L¨osungen der zweidimensionalen Diffe-
rentialgleichung 2.25.
F¨ uhrt man die Matrixmultiplikation aus, so erh¨alt man Summen von Produkten, die gerade
den Stichprobenvarianzen bzw. -Kovarianzen entsprechen.
C =
1
n
_
_
_
_
_
_
_
_
_
_
_
3

i=1
(X
i

¯
X)
2
3

i=1
(X
i

¯
X)(Y
i

¯
Y )
3

i=1
(X
i

¯
X)(Z
i

¯
Z)
3

i=1
(Y
i

¯
Y )(X
i

¯
Y )
3

i=1
(Y
i

¯
Y )
2
3

i=1
(Y
i

¯
Y )(Z
i

¯
Z)
3

i=1
(Z
i

¯
Z)(X
i

¯
X)
3

i=1
(Z
i

¯
Z)(Y
i

¯
Y )
3

i=1
(Z
i

¯
Z)
2
_
_
_
_
_
_
_
_
_
_
_
(2.22)
=:
_
_
_
_
_
var X cov XY cov XZ
cov XY var Y cov Y Z
cov XZ cov Y Z var Z
_
_
_
_
_
(2.23)
Die Matrix C ist symmetrisch, d.h. es gilt C = C

; die Kovarianz von X und Y ist gleich der
von Y und X.
Die großen Matrizen, die wir in diesem Abschnitt ausgeschrieben haben, sehen vielleicht kom-
pliziert aus, vereinfachen aber die Auswertung statistischer Daten mit Programmen wie Matlab
ungemein. Wenn die Datenmatrix einmal definiert ist, braucht man nur noch
1
n
D

D zu berechnen
und hat damit alle (Ko)varianzen schon bestimmt. Die Kovarianzmatrix wird uns im Zusammen-
hang mit der mehrdimensionalen Normalverteilung noch einmal begegnen.
2.3.5 Lineare Vektorfelder
Die Transformationen aus Beispiel 2.3.1 k¨onnen auch als Vektorfelder aufgefasst werden, indem
man annimmt, dass jedem Ort x der Ebene ein Vektor A x zugeordnet ist, den man von x aus
abtr¨agt. Man erh¨alt dann ein Feld von Vektoren (hier als Pfeile vorgestellt), die jeweils von x bis
x +A x reichen.
18 KAPITEL 2. MATRIZEN
Ein Beispiel zeigt Abbildung 2.4 f¨ ur die Matrix
A =
_
_
−0.3 0.5
−0.5 −0.3
_
_
(2.24)
Im Sinne von Abschnitt 2.3.1 handelt es sich hierbei um eine Drehung mit gleichzeitiger Kontrakti-
on. Man erkennt das an dem nach innen gerichteten Wirbelmuster der Pfeile. Die durchgezogenen
Linien zeigen Bahnkurven einer gedachten Bewegung, die lokal immer genau in Richtung der Pfeile
verl¨auft. Mathematisch sind das L¨osungen der linearen, zweidimensionalen Differentialgleichung
_
_
x

1
x

2
_
_
= A
_
_
x
1
x
2
_
_
. (2.25)
Kapitel 3
Funktionen
3.1 Funktionen und Abbildungen
Der Funktionsbegriff ist das zentrale Konzept der Analysis, die f¨ ur die Auswertung und Modellie-
rung von Daten von gr¨oßter Bedeutung ist.
¨
Uberbegriff ist die Relation, die Zuordnungen zwischen
den Elementen zweier Mengen (Definitionsbereich D, Wertebereich W) definiert. Relationen sind
dann Mengen geeordneter Paare aus Elementen von D und W, d.h. Teilmengen des cartesischen
Produktes DW. Abbildungen (mappings) und Funktionen (functions) sind spezielle Relationen,
die eine Eindeutigkeitsbedingung erf¨ ullen:
Eine Abbildung A ist eine Vorschrift, die jedem Element eines so genannten Definitionsbereichs
D (genau) ein Element eines Wertebereichs W zuordnet. In mathematischer Formulierung:
A : D →W; und A(d) = w.
Hierbei sind D und W (nicht notwendigerweise verschiedene) Mengen und d ∈ D; w ∈ W. Sind D
und W Teilmengen der reellen Zahlen, so nennt man A eine Funktion. Das Wort

Abbildung“ ist
allgemeiner und schließt mehrdimensionale Definitions- und Wertebereiche ein.
Wir betrachten in der Regel Funktionen der Zeit oder Funktionen r¨aumlicher Variablen. Ei-
nige wichtige Spezialf¨alle zeigt Tabelle 3.1. Die Polynomfunktion enth¨alt die drei vorhergehenden
Tabelle 3.1: Einige wichtige Funktionen.
Name Symbol Definition Ableitung
Identit¨at id id(x) := x id

(x) ≡ 1
Gerade – f(x) = c +sx f

(x) ≡ s
Parabel – f(x) = x
2
f

(x) = 2x
Polynom (vom Grad n) – p(x) =
n

i=0
a
i
x
i
p

(x) =
n

i=1
ia
i
x
i−1
Exponentialfunktion exp exp(x) = e
x
:=

i=0
x
i
i!
exp

(x) = exp(x)
Sinusfunktion sin sin(x) :=

i=0
(−1)
i
x
2i+1
(2i + 1)!
sin

(x) = cos(x)
19
20 KAPITEL 3. FUNKTIONEN
` ` `
x
y
z
·
-
-
-
-
-
- ¸
,,
x
o
.
.
.
.
.
. ·
,,
y
o
= f(x
o
)
,,
z
o
= g(y
o
)
= g(f(x
o
))
f
g
f ◦ g
Abbildung 3.1: Verkettung von Funktionen
Funktionen (Identit¨at, Gerade, Parabel) als Spezialf¨alle.
Rechenarten, die f¨ ur Zahlen definiert sind, k¨onnen auf Funktionen ¨ ubertragen werden. So kann
man z.B. zwei Funktionen addieren, indem man ihre Werte punktweise addiert. Genauer formuliert:
hat man zwei Funktionen f und g mit dem gleichen Definitionsbereich, so kann man eine Funktion
h = f + g definieren, die jedem x aus dem gemeinsamen Definitionsbereich den Wert h(x) :=
f(x) +g(x) zuweist. Genauso kann man bei der Multiplikation, der Subtraktion, und, solange der
Nenner von null verschieden ist, bei der Division von Funktionen verfahren.
Eine neue Rechenart, die speziell f¨ ur Funktionen definiert ist, ist die Verkettung oder Kompo-
sition. Wir betrachten zwei Funktionen f, g mit der Eigenschaft, dass der Wertebereich von g im
Definitionsbereich von f enthalten ist. Die Komposition h := f ◦ g ist dann die

Hintereinander-
Ausf¨ uhrung“ von g und f, h(x) = f(g(x)). Ist zum Beispiel f(x) = exp(x) und g(x) = −x
2
, so
erhalten wir
h(x) = f(g(x)) = exp(−x
2
). (3.1)
h ist als Gaußsche Funktion (

Glockenkurve“) bekannt.
Gilt f¨ ur zwei Funktionen f und g die Beziehung f ◦g = id, so ist f die Umkehrfunktion (inverse
Funktion) von g und umgekehrt. (Mit id ist dabei die in Tabelle 3.1 eingef¨ uhrte Identit¨atsfunktion
gemeint, die jede Zahl sich selbst zuordnet.) Wir schreiben g = f
−1
. Die inverse Funktion der
Identit¨at id ist sie selbst. Weitere Beispiele f¨ ur Funktionen und ihre Inversen sind quadratische
Parabel und Wurzelfunktion oder Eponentialfunktion und Logarithmus.
¸
`
g
g
g
,
,
x
sgn(x)
a.
¸
`
Z
Z
Z
Z
Z
Z
Z
Z
`
`
`
`
`
`
`
`
x
[x[
b.
Abbildung 3.2: a. Die Signums-Funktion (sgn). b. Die Absolutwert-Funktion.
3.2.

GLATTHEIT“: STETIGKEIT UND DIFFERENZIERBARKEIT 21
¸
`

f

(x
o
)
1
x
o
x
f(x)
Abbildung 3.3: Die Ableitung einer
Funktion f am Punkts x
o
ist die
Steigung einer Tangente, die den
Graphen der Funktion im Punkt
(x
o
, f(x
o
)) ber¨ uhrt.
3.2

Glattheit“: Stetigkeit und Differenzierbarkeit
3.2.1 Stetigkeit
Eine Funktion heißt stetig an einem Punkt x
o
ihres Definitonsbereichs, wenn f¨ ur jede gegen x
o
konvergierende Folge (im Definitionsbereich), die Folge der zugeh¨origen Funktionswerte gegen den
Funktionswert an der Stelle x
o
, f(x
o
) konvergiert:
f( lim
x→x
o
x) = lim
x→x
o
f(x). (3.2)
Anschaulich formuliert bedeutet das, dass man den Graphen der Funktion zeichnen kann, ohne
den Zeichenstift vom Papier zu heben.
Ein Beispiel f¨ ur eine unstetige Funktion ist die Vorzeichen- oder Signum-Funktion,
sgn(x) :=
_
¸
¸
¸
_
¸
¸
¸
_
−1 if x < 0
0 if x = 0
1 if x > 0
. (3.3)
F¨ ur die Folge x
i
= −
1
i
f¨ ur i ∈ IN gilt offenbar lim
i→∞
x
i
= 0. Andererseits gilt sgn(x
i
) = −1 f¨ ur alle
i ∈ IN. Die Folge der Funktionswerte konvergiert also gegen −1, w¨ahrend die Folge der zugeh¨origen
Argumente gegen 0 geht:
lim
i→∞
f(x
i
) = −1 ,= 0 = f( lim
i→∞
x
i
). (3.4)
Offenbar wird die Stetigkeit durch die beiden Sp¨ unge der Funktion von −1 nach 0 und von 0 to
+1 verletzt.
Die in Tabelle 3.1 angegebenen Funktionen sind ¨ uberall (d.h. f¨ ur alle x) stetig. Ist f eine stetige
Funktion, und existiert die Umkehrfunktion f
−1
, so ist diese ebenfalls stetig. Das gleiche gilt f¨ ur
1
f
falls f(x) ,= 0. F¨ ur zwei stetige Funktionen f and g ist die punktweise berechnete Summe f +g
und das Produktf g, sowie die Verkettung f ◦ g wiederum stetige Funktionen.
3.2.2 Ableitung
Die Ableitung einer Funktion einer Variablen ist definiert als der Grenzwert:
df
dx
(x) = f

(x) := lim
h→0
f(x +h) −f(x)
h
; (3.5)
die Ableitung existiert dann und nur dann, wenn ein solcher Grenzwert eindeutig angegeben werden
kann. Wir nennen Funktionen differenzierbar an einem Punkt x, wenn die Ableitung existiert. Der
Graph von f hat in diesem Fall eine eindeutige Tangente an den Punkt (x, f(x)), deren Steigung
gleich der Ableitung ist (Abb. 3.3).
22 KAPITEL 3. FUNKTIONEN
Ein einfaches Beispiel ist die Funktion f(x) = ax f¨ ur eine beliebige Konstante a ∈ IR. Aus
Gl. 3.5, erh¨alt man:
f

(x) = lim
h→0
f(x +h) −f(x)
h
= lim
h→0
a(x +h) −ax
h
= lim
h→0
ah
h
= a.
Das bedeutet, dass f eine konstante Steigung a hat.
Ein Beispiel f¨ ur eine Funktion, die in x = 0 nicht differenzierbar ist, ist die Betragsfunktion
f(x) = [x[ (Abb. 3.2b). In diesem Fall nimmt der Bruch in Gl. 3.5 den Wert 1 an, wenn man h > 0
w¨ahlt und den Wert −1 f¨ ur h < 0. Da h aber auf beliebige Weise gegen Null gehen kann, heißt das,
dass kein eindeutiger Grenzwert existiert. Anschaulich kann keine Tangente an den Punkt (0, 0)
gezeichnet werden, weil der Graph dort geknickt ist. An allen anderen Punkten ist die Funktion
differenzierbar.
Jede differenzierbare Funktion ist stetig, aber nicht umgekehrt. Die Betragsfunktion ist bereits
ein Beispiel f¨ ur eine stetige Funktion, die nicht differenzierbar ist. Summen, Produkte, Inverse und
Verkettungen von differenzierbaren Funktionen sind ebenefalls differenzierbar.
F¨ ur geeignete Funktionen kann die Ableitung kann in jedem Punkt x bestimmt werden. Daher
ist, f

(x) wieder eine Funktion von x; sie ist immer stetig. Einige wichtige Regeln f¨ ur die Berech-
nung von Ableitungen sind in Tabelle 3.2 zusammengestellt. Die Ableitungen einiger spezieller
Funktionen zeigt Tabelle 3.1.
Da Ableitungen wieder Funktion sind, k¨onnen sie unter Umst¨anden wiederum differenziert
werden. Wir betrachten als Beispiel die Funktion f(x) = x
n
. Mit Hilfe der Potenzregel aus Ta-
belle 3.2 erhalten wir f

(x) = nx
n−1
. Wir k¨onnen nun die Regel noch einmal anwenden und
erhalten die zweite Ableitung f
′′
(x) = n(n − 1)x
n−2
. F¨ ur k ≤ n erhalten wir die k-te Ableitung
f
(k)
(x) = n(n−1)...(n−k +1)x
n−k
. Weiter folgt f
(k)
≡ 0 f¨ ur alle k > n. Insgesamt heißt das, dass
die Funktion f beliebig oft differenziert werden kann. Diese Eigenschaft haben alle in Tabelle 3.1
aufgef¨ uhrten Funktionen
Tabelle 3.2: Ableitungsregeln
Additionsregel: (f(x) +g(x))

= f

(x) +g

(x)
Produktregel: (f(x)g(x))

= f

(x)g(x) +f(x)g

(x)
Quotientenregel:
_
f(x)
g(x)
_

=
f

(x)g(x) −f(x)g

(x)
(g(x))
2
Potenzregel: (x
n
)

= nx
n−1
Kettenregel: [f(g(x))]

= f

(g(x))g

(x)
Umkehrfunktion (f
−1
(y))

=
1
f

(f
−1
(y))
3.2.

GLATTHEIT“: STETIGKEIT UND DIFFERENZIERBARKEIT 23
I(x)
I’(x)
I’’(x)
Abbildung 3.4: Eine Funktion I(x)
und ihre erste und zweite Ableitung.
Lokale Extrema von I zeigen sich als
Nullstellen von I

, Wendepunkte als
Nullstellen von I
′′
.
0
1
10
2
10
3
10
4
10
5
10
6
10
7
10
8
10
9
10
1
A
2
=
1
1
0
×
f
_
2
1
0
_
A
3
=
1
1
0
×
f
_
3
1
0
_
Abbildung 3.5: Ann¨aherung der
Fl¨ache unter der Funktion f(x)
durch zehn regelm¨aßig angeordnete
Rechtecke. Jedes Rechteck hat die
Seitelnl¨angen 1/10 und f(i/10) wo-
bei i von 1 bis 10 variiert. Die Sum-
me der Fl¨achen aller Rechtecke ap-
proximiert die Fl¨ache unter der Kur-
ve. Vgl. Gleichung 3.6.
Ableitungen k¨onnen benutzt werden, um Funktionsverl¨aufe qualitativ zu beschreiben. Einige
wichtige Charakteristika sind:
• Bereiche mit wachsendem bzw. fallendem Funktionswert k¨onnen durch Betrachtung des Vor-
zeichens von f

aufgefunden werden.
• Maxima sind Punkte, die die Bedingungen f

(x) = 0 und f
′′
(x) < 0 erf¨ ullen.
• Minima sind Punkte, die die Bedingungen f

(x) = 0 und f
′′
(x) > 0 erf¨ ullen.
• Wendepunkte verbinden Regionen mit positiver und negativer Steigung (

Linkskurve, Rechts-
kurve“). Sie erf¨ ullen die Bedingungen f
′′
(x) = 0, f
′′′
(x) ,= 0.
24 KAPITEL 3. FUNKTIONEN
3.3 Integrale
Anschaulich kann man das Integral als die Fl¨ache unter dem Graph einer Funktion auffassen; man
berechnet sie als Grenzwert der Summe:
_
1
0
f(x)dx = lim
n→∞
1
n
n

i=1
f(
i
n
). (3.6)
Das Ergebnis ist eine Zahl (bestimmtes Integral). In der Summe auf der rechten Seite der Gleichung
entspricht jeder Summand
1
n
f(
i
n
) der Fl¨ache eines der Rechtecke mit Breite
1
n
und H¨ohe f(
i
n
) aus
Abb. 3.5. Im Unterschied zur Fl¨ache hat das Integral ein Vorzeichen. Daher gilt z.B.
_
b
a
f(x)dx = −
_
a
b
f(x)dx. (3.7)
Eine Interpretation des Integrals, bei der auch die Vorzeichen sinnvoll ber¨ ucksichtigt sind, ist der
Mittelwert. Das bestimmte Integral kann als Mittelwert des Integranten, multipliziert mit der
L¨ange des Integrationsintervalls aufgefasst werden:
¯
f =
1
b −a
_
b
a
f(x)dx. (3.8)
Betrachtet man Integrale mit variablen Grenzen, z.B. Integrale ¨ uber das Intervall von 0 bis x,
so erh¨alt man das unbestimmte Integral, das wiederum eine Funktion von x ist:
F(x) :=
_
x
0
f(x

)dx

. (3.9)
Die Variable von F ist das x, das als obere Grenze im Integral steht. Außerdem gibt es eine

Integrationsvariable“, die wir mit x

bezeichnen. Sie l¨auft von 0 bis x und taucht auf der linken
Seite der Gleichung nicht mehr auf.
Integration ist die Umkehrung der Ableitung. Das genaue Verh¨altnis der beiden Operationen
beschreibt der Hauptsatz der Analysis:
_
b
a
F

(x)dx = F(b) −F(a). (3.10)
Neben bestimmten und unbestimmten Integralen betrachten wir h¨aufig Integrale ohne aus-
dr¨ ucklich angegebene Grenzen. Man meint dann, dass die Integration ¨ uber die ganzen reellen
Zahlen, also von −∞ bis +∞ l¨auft. Solche Integrale heißen

uneigentlich“:
_

−∞
exp(−x
2
)dx := lim
b→∞
_
b
−b
exp(−x
2
)dx =

π. (3.11)
Ingesamt kann man also drei Typen von Integralen unterscheiden: bestimmte Integrale werden ¨ uber
ein festes Intervall berechnet und ergeben einen bestimmten Zahlenwert. Unbestimmte Integrale
sind Funktionen, wobei eine der beiden Grenzen (in der Regel die obere) die Variable darstellt. Un-
eigentliche Integrale sind Grenzwerte bestimmter Integrale bei denen die Grenzen gegen unendlich
gehen.
Beispiel 1 Das Verh¨altnis von Ableitung und Integration kann durch folgendes Beispiel einer
Autofahrt veranschaulicht werden. Das Tachometer liefert momentane Geschwindigkeitswerte v(t).
3.4. VEKTORWERTIGE FUNKTIONEN 25
Ist die Dauer der Fahrt durch das Intervall [0, τ] gegeben, so erh¨alt man die insgesamt zur¨ uckgelegte
Strecke als das bestimmte Integral
_
τ
0
v(t)dt. Wir bezeichnen jetzt die Gesamtstrecke, die wir
bis zu einem Zeitpunkt t zur¨ uckgelegt haven, mit s(t) und erhalten f¨ ur diese Gesamtstrecke das
unbestimmte Integral s(t) =
_
t
0
v(t

)dt

. Die Ableitung von s ist offenbar v; der Haupsatz der
Analysis sagt dann
_
τ
0
v(t)dt = s(τ) −s(0). (3.12)
Man kann auch hier das Integral als eine Mittelung auffassen. Die mittlere Geschwindigkeit ist
(s(τ) −s(0))/τ.
Beispiel 2 Bei der Berechung der Einkommensteuer benutzt man eine

Progressionsfunktion“
ρ(x), die f¨ ur jedes Einkommen einen anderen Steuersatz festlegt. Gew¨ohnlich ist ρ(x) f¨ ur kleine x
(unter dem Grundfreibetrag) null und steigt dann bis zu einem H¨ochstsatz an. F¨ ur ein Einkommen
in H¨ohe x
o
sind dann Steueren in H¨ohe von
_
x
o
0
xρ(x)dx (3.13)
zu bezahlen.
Da die Integration die Umkehrung der Ableitung ist, kann man Regeln f¨ ur das Integrieren von
Funktionen aus den Ableitungsregeln erhalten. W¨ahrend allerdings das Bilden von Ableitungen
meist recht einfach ist, ist die Integration h¨aufig schwierig und zuweilen analytisch nicht m¨oglich.
So k¨onnen z.B. alle Potenzfunktionen nach der Regel aus Tabelle 3.2 abgeleitet werden. Eine
entsprechende Regel f¨ ur die Integration lautet:
_
x
0
x
p
dx =
1
p + 1
x
p+1
. (3.14)
Diese Regel funktioniert aber nicht f¨ ur p = −1, also f¨ ur die Potenzfunktion f(x) =
1
x
= x
−1
, da hier
eine Division durch null erfolgen w¨ urde. Durch andere
¨
Uberlegungen kann man zeigen, dass das
Integral der Funktion x
−1
auf eine ganz andere Funktionenklasse f¨ uhrt, n¨amlich den nat¨ urlichen
Logarithmus:
_
x
1
1
x
dx = ln x. (3.15)
Schließlich sei noch die Regel f¨ ur die Integration von verketteten Funktionen (

Substitution von
Variablen“) angef¨ uhrt; sie lautet
_
g(b)
g(a)
f(y)dy =
_
b
a
f(g(x))g

(x)dx. (3.16)
3.4 Vektorwertige Funktionen
Kurven in der Ebene oder im Raum k¨onnen als vektorwertige Funktionen aufgefasst werden, also
als Funktionen der Form
K : IR →IR
n
, K(t) =
_
_
_
_
_
_
_
_
k
1
(t)
k
2
(t)
.
.
.
k
n
(t)
_
_
_
_
_
_
_
_
. (3.17)
26 KAPITEL 3. FUNKTIONEN
−10
−5
0
5
10
−10
−5
0
5
10
0
10
20
30
40
−10
−5
0
5
10
−10
−5
0
5
10
−1
−0.5
0
0.5
1
a. b.
Abbildung 3.6: Beispiele f¨ ur dreidimensionale Plots aus Matlab. a. Expandierende Spirale
(Gl. 3.18) als Beispiel f¨ ur eine vektorwertige Funktion IR → IR
3
. b. Gabor-Funktion (Gl. 3.19)
als Beispiel f¨ ur eine

Landschaft“, IR
2
→IR.
Eine wichtige Anwendung solcher Funktionen sind Bahnkurven oder Trajektorien. Die Variable t
entspricht dann etwa der Zeit. Die Ableitung einer solchen Funktion ist wieder ein Vektor, dessen
L¨ange (Norm) die Geschwindigkeit der Bewegung entland der Bahnkurve ist.
Ein Beispiel f¨ ur eine solche Funktion zeigt Abb. 3.6a f¨ ur die Funktion
K(t) = (
t
5
sin t,
t
5
cos t, t)

(3.18)
und das Intervall t ∈ [0, 10π]. Der Matlab-Code zur Erzeugung dieser Graphik lautet:
>> t = 0:pi/50:10*pi;
>> plot3(0.2 t .* sin(t), 0.2 * t .* cos(t), t)
>> grid on; box on; square on
3.5 Funktionen von zwei und mehr Variablen
Funktionen zweier Variabler treten bei der Beschreibung von Verteilungen oder ortsabh¨angigen
Gr¨oßen in einer Ebene auf. Ein h¨aufig vorkommendes Beispiel ist die Verteilung von Lichtin-
tensit¨aten ¨ uber der Retina, die wir als Bildfunktion bezeichnen werden. Im allgemeinen ist der
Definitionsbereich einer Funktion von n Variablen eine Teilmenge des n-dimensionalen Raumes
IR
n
. Als Wertebereich betrachten wir zun¨achst weiterhin Teilmengen der reellen Zahlen IR. Man
schreibt f(x
1
, x
2
, ..., x
n
).
Als Beispiel f¨ ur eine Funktion IR
2
→IR betrachten wir eine so genannte Gabor-Funktion
f(x, y) = sin(x +
y
3
) exp¦−(x
2
+y
2
)/20¦ (3.19)
auf dem Interval −10 < x < 10, −10 < y < 10. Abb. 3.6b zeigt den Graphen der Funktion, erzeugt
durch den Matlab-Kode
>> [x,y] = meshgrid(-10:0.5:10);
>> mycolor = zeros(41,41);
>> mesh(x, y, sin(x+y/3) .* exp(-(x .∧ 2 + y .∧ 2)/20), mycolor);
>> box on; grid on; axes square
3.5. FUNKTIONEN VON ZWEI UND MEHR VARIABLEN 27
a.
x
o
y
o
n
q
p
x
o
→x
f(x, y
o
)
b.
y
o
→y
f(x
0
, y)
c.
Abbildung 3.7: a. Eine Funktion von zwei Variablen, F(x, y), beschreibt eine

Landschaft“ ¨ uber
ihrem Definitionsbereich. In der Abbildung sind die lokale Oberfl¨achennormale n am Punkt
(x
o
, y
o
, f(x
o
, y
o
)) sowie die zugeh¨origen partiellen Ableitungen p, q eingezeichnet. b., c. Schnitte
durch die Oberfl¨ache in x- bzw. y-Richtung, die f¨ ur die Berechnung der partiellen Ableitungen
ben¨otigt werden.
3.5.1 Ableitungen von Funktionen mehrerer Variabler
Abbildung 3.7 zeigt eine Funktion zweier Variabler als

Landschaft“. Die Vektoren p und q sind
tangential zu dieser Ober߬ache im Punkt (x
o
, y
o
, f(x
o
, y
o
)). Solche Tangentialvektoren erh¨alt man
anschaulich, indem man einen Schnitt durch den Graphen von f legt, der senkrecht auf der (x, y)-
Ebene steht und durch (x
o
, y
o
, f(x
o
, y
o
)) verl¨auft. Man betrachtet nun die dadurch entstehende
eindimensionale Funktion. Tangenten an diese Funktion sind durch eindimensionale Ableitung de-
finiert. Sie sind gleichzeitig sogennante Richtungsableitungen von f. Das Wort

Richtung“ bezieht
sich darauf, dass man Schnitte entlang beliebiger Richtungen in der (x, y)-Ebene w¨ahlen kann,
wobei die Steigung variieren kann. Es zeigt sich, dass es gen¨ ugt, Richtungsableitung in den Koor-
dinatenrichtungen zu betrachten; alle anderen Richtungsableitungen k¨onnen aus diesen berechnet
werden.
Wir betrachten den zweidimensionalen Fall aus Abb. 3.7 mit der Funktion f(x, y) und einem
Punkt (x
o
, y
o
) im Definitionsbereich von f. Wir erhalten einen Schnitt durch den Graphen in x-
Richtung, indem wir y an der Stelle y
o
fixieren und nur noch x variabel lassen. Dies ergibt die neue
Funktion:
g
y
o
(x) := f(x, y
o
). (3.20)
Der Index y
o
zeigt an, dass man f¨ ur jeden Wert y
o
eine neue Schnittfunktion erh¨alt. Die Funktion
g
y
o
ist eindimensional und ihre Ableitung ist bereits erkl¨art worden. Wir nennen g

y
o
(x) die erste
partielle Ableitung (oder partielle Ableitung nach der ersten Variablen) von f an der Stelle (x, y
o
)
28 KAPITEL 3. FUNKTIONEN
und schreiben:
g

y
o
(x) =:
∂f
∂x
(x, y
o
). (3.21)
Die erste partielle Ableitung ist wieder eine Funktion von von zwei Variablen. An jeder Stelle (x, y)
gibt diese Funktion die Steigung der Tangente an den Graphen von f in x-Richtung an. Die zweite
partielle Ableitung bestimmen wir analog durch Schnitt in y-Richtung.
F¨ ur eine Funktion von n Variablen kann man analog n partielle Ableitungen bestimmen. Prak-
tisch behandelt man dabei die Variablen, nach denen gerade nicht abgeleitet wird, als Konstanten.
Der Vektor dieser n partiellen Ableitung heißt Gradient der Funktion. man schreibt:
gradf(x
1
, x
2
, ..., x
n
) :=
_
∂f
∂x
1
(x
1
, x
2
, ..., x
n
),
∂f
∂x
2
(x
1
, x
2
, ..., x
n
), . . . ,
∂f
∂x
n
(x
1
, x
2
, ..., x
n
)
_
. (3.22)
Betrachtet man den Gradienten als einen Vektor im Definitionsbereich von f, so gibt er die Richtung
des steilsten Anstiegs auf dem Graphen an. Die Steigung entspricht der L¨ange des Gradienten.
Senkrecht zum Gradienten ist die Steigung null.
Beispiel 1. Wir betrachten die Funktion f(x, y) := ax + by mit Konstanten a, b ∈ IR. Der Graph
von f ist eine schiefe Ebene. In Schnittem in x-Richtung durch y
o
, f(x, y
o
) = ax+by
o
ist der Term
by
o
Konstant und verschwindet somit in den Ableitung. Wir erhalten
∂f
∂x
(x, y) = a and
∂f
∂y
(x, y) = b.
Der Gradient hat also den Wert (a, b), die Neigungsrichtung der Ebene. Er ist konstant, d.h. er
h¨angt nicht von x oder y ab. Dies entspricht der Tatsache, dass die Richtung steilsten Anstieges
auf der Ebene ¨ uberall die selbe ist.
Beispiel 2. Sei f(x, y) := x
2
+y
2
. Der Graph von f ist ein Paraboloid, d.h. eine Form ¨ahnlich einem
Zuckerhut mit der
¨
Offnung nach oben. In Schnitten in x-Richtung durch y
o
, f(x, y
o
) = x
2
+y
2
o
, ist
der Ausdruck y
2
o
konstant und wird somit in der Ableitung verschwinden. Man erh¨alt: obtain:
∂f
∂x
(x, y) = 2x and
∂f
∂y
(x, y) = 2y.
Der Gradient von f bilded ein radiales Muster von Vektoren, die vom Ursprung (der Spitze des
Zuckerhutes) nach außen zeigen.
3.5.2 Integrale von Funktionen mehrerer Ver¨anderlicher
Auch die Integration von Funktionen mehrerer Ver¨anderlicher kann durch R¨ uckgriff auf Schnitte
erkl¨art werden. Wir benutzen dazu die Intuition, dass das Integral einer (positiven) Funktion zweier
Variabler das Volumen unter dem Graphen ist. Statt in infinitesimal d¨ unne Schnitte zerlegen wir
das Volumen zun¨achst in Streifen, z.B. in x-Richtung. Quer zum Streifen mitteln wir vorl¨aufig ¨ uber
die Funktionswerte. F¨ ur eine Funktion f(x, y) fixieren wir also y an der Stelle y
o
und erhalten eine

Streifenfunktion“ g
y
o
(x), deren Integration wie zuvor erkl¨art ist:
_
b
a
g
y
o
(x)dx =:
_
b
a
f(x, y
o
)dx
. ¸¸ .
=:h(y
o
)
. (3.23)
3.6. LITERATUR 29
Die rechte Seite der Gleichung ist eine eindimensionale Funktion von y
o
, die ¨ uber x integriert
werden kann. Wir lassen jetzt den Index o weg und gehen anschaulich zu Streifen infintesimaler
Breite ¨ uber:
_
d
c
h(y)dy =:
_
d
c
_
_
b
a
f(x, y)dx
_
dy. (3.24)
Die Klammern auf der rechten Seite sind nicht wichtig. Tats¨achlich darf das Gesamtvolumen nicht
davon abh¨angen, ob wir die ersten Streifen in x- oder in y-Richtung gelegt haben. F¨ ur integrierbare
Funktionen gilt allgemein der Satz von Fubini:
_
d
c
_
b
a
f(x, y)dx dy =
_
b
a
_
d
c
f(x, y)dy dx. (3.25)
Unbestimmte und uneigentliche Integrale sind f¨ ur Funktionen mehrerer Variabler analog definiert.
Ebenso analog ist die Interpretation von Integralen ¨ uber mehrdimensionale Bereiche als Mittelung.
3.6 Literatur
Glaser G. 2004. Der mathematische Werkzeugkasten. Anwendungen in Natur und Technik. M¨ unchen:
Elsevier Spektrum. Kapitel 5, 7
Kemnitz A. (2006) Mathematik zum Studienbeginn 7. Auflage, Vieweg und Teubner
Kapitel 4
Kurven durch Datenpunkte
4.1 Allgemeines
4.1.1 Punkte und Kurven
Bei quantitativen Messungen werden h¨aufig Punkte von Kurven gemessen, z.B. die L¨ange einer
wachsenden Pflanze in Abh¨angigkeit von der Zeit (Wachstumskurve), die H¨aufigkeit richtiger Ent-
scheidungen einer Versuchsperson in einer Erkennungsaufgabe in Abh¨angigkeit von der Anzahl der
Versuchsdurchg¨ange (Lernkurve), die Wahrscheinlichkeit der Detektion eines Reizes in Abh¨angig-
keit von der Reizst¨arke (psychometrische Funktion), die Antwortrate eines visuellen Neurons in
Abh¨angigkeit von der Orientierung eines balkenf¨ormigen Reizes im Gesichtsfeld (Tuningkurve),
oder die Auswaschkurve eines radiaktiven Tracers durch regionalen Blutfluss im Gehirn zur Be-
stimmung der Auswaschrate. In solchen F¨allen misst man immer Funktionswerte an diskreten
Punkten auf der Kurve. Wir bezeichnen solche Punkte mit
(x
i
, y
i
), i = 1, ...., n. (4.1)
In Matlab w¨ urden die x und y-Werte jeweils zu einem n-dimensionalen Vektor zusammengefasst,
x, y.
In den oben angef¨ uhrten Beispielen gibt es jeweils zwei Typen von Variablen:
• Die unabh¨angige Variable wird vom Experimentator variiert bzw. ausgew¨ahlt. In den o.a.
Beispielen sind das die Zeit, die Anzahl der Lernschritte, die Reizst¨arke sowie die Orientierung
des Reizes im Gesichtsfeld. Wir bezeichnen diese Variable jeweils mit x.
• Die abh¨angige Variable oder Messgr¨oße wird in Abh¨angigkeit von der unabh¨angigen Variablen
gemessen. In den o.a. Beispielen sind das die L¨ange, die Anzahl richtiger Entscheidungen, die
Detektionswahrscheinlichkeit und die Aktivit¨at des Neurons, bzw. die verbleibende Konzen-
tration des Tracers. Wir bezeichnen diese Variable jeweils mit y.
Die Kurve, die durch die Einzelpunkte vermessen wird, ist mathematisch gesehen eine Funktion
f : x →y. (4.2)
Im Falle idealer (also nicht fehlerbehafteter) Messungen erwarten wir
y
i
= f(x
i
) f¨ ur alle i. (4.3)
30
4.2. AUSGLEICHSRECHNUNG (KURVENFITTEN) 31
In Matlab wird die Anwendung von Funktion auf Vektoren komponentenweise verstanden. An-
stelle von Gl. 4.3 kann man daher einfach schreiben
y = f(x) (4.4)
Ist die Funktion explizit gegeben, z.B. f(x) = x
2
, so muss die komponentenweise Ausf¨ uhrung in
Matlab ausdr¨ ucklich angegeben werden. Hierzu dient der Punkt

.“ vor dem Potenzoperator:
y = x . ∧ 2 (4.5)
Der Ausdruck x ∧ 2 (Quadrieren eines Vektors) ist in Matlab nicht definiert.
4.1.2 Interpolation und Ausgleichskurven
Da Messungen immer nur an einzelnen (

diskreten“) Orten vorliegen, gibt es immer viele m¨ogliche
Kurven, die durch die gefundenen Punkte verlaufen. Hinzu kommt, dass man h¨aufig gar nicht daran
interessiert ist, streng durch die Punkte verlaufende Kurven zu haben, weil die Messungen ohnehin
fehlerbehaftet sind und der

wirkliche“ Wert somit vom Messwert abweicht. Dies ist besonders dann
der Fall, wenn f¨ ur einen Wert der unabh¨angigen Variablen mehrere Einzelmessungen durchgef¨ uhrt
werden und dann deren Mittelwert und Streuung in das Diagramm eingetragen werden (Messpunkt
mit Fehlerbalken). Grunds¨atzlich gibt es f¨ ur die Bestimmung einer Kurve durch Messpunkte zwei
M¨oglichkeiten: Interpolation und Ausgleichsrechnung.
Interpolation. In diesem Fall legt man eine Kurve exakt durch die gemessenen Punkte. Meist
wird man linear interpolieren, d.h. man verbindet benachbarte Punkte durch eine Gerade. Die
Matlab-Routine plot macht das automatisch. Dabei entstehen in der Regel Knicks zwischen den
einzelnen Geradenst¨ ucken. Glattere Interpolationen erh¨alt man durch so genannte Polynom- bzw.
Spline-Interpolationen, auf die wir hier aber nicht n¨aher eingehen.
Interpolationen dienen meist graphischen Zwecken, z.B. um in Diagrammen mit mehreren Kur-
ven die Zusammengeh¨origkeit von Punkten zu zeigen. Außerdem erlauben sie Sch¨atzungen ¨ uber
Funktionswerte zwischen den Messpunkten. Diese Sch¨atzungen sind aber nur dann gut, wenn die
Abtastung dicht genug ist, um den wahren Verlauf der Kurve anzun¨ahern.
Ausgleichskurven (Fit-Kurven). Weiß man aus theoretischen Gr¨ unden, welchen Verlauf die
Funktion f hat, so kann man bessere Kurven zeichnen. In der Regel ist der Verlauf nur bis auf
eine Reihe von

Parametern“ bekannt. Nimmt man etwa aus theoretischen Gr¨ unden an, f sei eine
Gerade, so bleiben Steigung und Achsenabschnitt dieser Geraden zu bestimmen; vermutet man eine
Gaußsche Glockenkurve, so sind Mittelwert, Amplitude und Breite freie Parameter. Wir bezeichnen
solche Parameter als p
1
, p
2
, ... und schreiben sie ins Argument der Funktion: f(x; p
1
, p
2
, ...p
k
).
4.2 Ausgleichsrechnung (Kurvenfitten)
Die Aufgabe besteht darin, die Parameter eines Modells so zu bestimmen, dass die Kurve m¨oglichst
gut zu den Daten passt (engl: fit). Die Abweichung zwischen der Kurve und den Messwerten soll
also m¨oglichst klein und auf die Messpunkte gleichm¨aßig verteilt sein. Die Rechnung, die dies
liefert, bezeichnet man als Ausgleichsrechung.
Das Problem des Fittens von Kurven an Daten besteht aus folgenden Komponenten:
1. den Daten, gegeben als zwei Vektoren x und y gleicher Dimension, mit der Interpretation,
dass die Komponenten x(i) und y(i) die Koordinaten eines Messpunktes bilden.
32 KAPITEL 4. KURVEN DURCH DATENPUNKTE
Tabelle 4.1: Beispiele f¨ ur nichtlineare Fitfunktionen
Name Funktion Bemerkungen
Maximumskurven (z.B. Peak einer Tuningkurve)
Cosinus f(x; p
1
) := 1 +p
1
cos(x −p
2
)
−π < x < π
p
1
Spezifit¨at
p
2
Peak-Position
Gauß-Funktion f(x; p
1
, p
2
) := exp¦
(x −p
1
)
2
p
2
2
¦
−∞< x < ∞
0 < f(x) < 1
p
1
Peak-Position
p
2
Peak-Breite
S¨attigungskurven (z.B. Lernkurve)
Exponentalfunktion f(t; p
1
, p
2
) := 1 −p
1
exp¦−p
2

0 < x < ∞
0 < f(x) < 1
p
1
, p
2
Startwert
und Steigung
Sigmoide Verl¨aufe (z.B. Psychometrische Funktion)
Arcustangens
(Inverse der Tan-
gensfunktion)
f(x; p
1
, p
2
) := 1 +
2
π
arctanp
2
(x −p
1
)
−∞< x < ∞
0 < f(x) < 1
p
1
Wendepunkt
p
2
Steigung
Fehlerpunktion
(

error function“;
Verteilungsfunkti-
on der Normalver-
teilung)
f(x; p
1
, p
2
) :=
1

2πp
2
_
x
−∞
exp¦−
(x −p
1
)
2
2p
2
2
¦
−∞< x < ∞
0 < f(x) < 1
p
1
Wendepunkt
p
2
Kehrw. der Steig.
2. einem Modell f(x; p
1
, ..., p
k
) mit freien Parametern p
1
, ...p
k
. F¨ ur gegebene Parameter und
einen Wert der unabh¨angigen Variablen sagt das Modell den Messwert voraus. Die Wahl des
Funktionstyps f ergibt sich meist aus theoretischen
¨
Uberlegungen; im Zweifelsfall w¨ahlt man
den Funktionstyp, der mit weniger freien Parametern auskommt (vgl. Tabelle 4.1).
3. einer Fehlerfunktion, die angibt, wie gut die Modellierung der Daten durch das Modell ist. F¨ ur
einen gegebenen Satz von Messwerten h¨angt die Fehlerfunktion nur von den freien Parametern
des Modells ab. Die am meisten verwendete Fehlerfunktion ist die Summe der quadratischen
4.3. REGRESSIONSGERADE 33
Abweichungen E
ssd
(ssd steht f¨ ur sum of squared deviations):
E
ssd
(p
1
, ..., p
k
) =
n

i=1
(y
i
−f(x
i
; p
1
, ..., p
k
))
2
(4.6)
Das Quadrat wird gew¨ahlt, damit
¨
Uber- und Untersch¨atzungen der Messwerte sich nicht
gegenseitig aufheben. Dar¨ uberhinaus hat es angenehme mathematische Eigenschaften, auf
die wir sp¨ater noch zur¨ uckkommen m¨ ussen.
Eine andere Fehlerfunktion misst die Wahrscheinlichkeit, mit der die beobachtete Messung zu
erwarten ist, unter der Annahme, dass das Modell stimmt. Diese Wahrscheinlichkeit soll so
groß wie m¨oglich sein. Man bezeichnet die resultierende Sch¨atzung als Maximum Likelihood
Sch¨atzung (MLL).
4. einem Optimierungsverfahren, dass die Parameterwerte findet, bei denen die Fehlerfunktion
minimal (bzw. die Likelihood maximal) wird. In vielen F¨allen wird man diese Optimierung
numerisch l¨osen m¨ ussen, doch gibt es Spezialf¨alle, in denen analytische L¨osungen existieren
(z.B. sog. lineare Optimierungsprobleme).
Einfachstes (und wichtigstes) Beispiel einer solchen Ausgleichsrechnung ist die Bestimmung
einer Regressionsgeraden, die wir als Spezialfall der linearen Regression im n¨achsten Abschnitt
besprechen.
4.3 Regressionsgerade
Als lineare Regression bezeichnet man den Fall, dass man einen linearen Zusammenhang zwischen
x und y vermutet, die Fitfunkion lautet also in diesem Fall
f(x; a, b) := ax +b. (4.7)
Ein Beispiele hierf¨ ur w¨are etwa das Wachstum einer Pflanze als Funktion der Zeit. Erwartet man
einen exponentiellen Zusammenhang, so kann man durch Logarithmieren der Daten einen linearen
Zusammenhang erzeugen.
Die Gr¨oßen a und b sind hierbei die Parameter unseres Modells. Die Aufgabe besteht also
darin, a und b so zu bestimmen, dass der Fehler, d.h. die Abweichung zwischen Gerade und Daten,
minimal wird.
4.3.1 L¨osung in Matrix-Notation
Liegen n Messungen x
1
, . . . , x
n
vor, so betrachten wir f zun¨achst nur an den Stellen y
i
= f(x
i
).
Gl. 4.7 kann dann als Matrixgleichung geschrieben werden:
_
_
_
_
_
_
_
_
y
1
y
2
.
.
.
y
n
_
_
_
_
_
_
_
_
=
_
_
_
_
_
_
_
_
1 x
1
1 x
2
.
.
.
.
.
.
1 x
n
_
_
_
_
_
_
_
_
_
_
b
a
_
_
, (4.8)
oder k¨ urzer
y = Gp. (4.9)
34 KAPITEL 4. KURVEN DURCH DATENPUNKTE
Ziel der Ausgleichsrechnung ist die Bestimmung der Parameter p = (b, a)

, mit denen die
Modellwerte m¨oglichst genau mit den Datenwerten ¨ ubereinstimmen:
y ≈ Gp (4.10)
K¨onnten wir durch die Matrix G

dividieren“, so k¨onnten wir diese Gleichung nach p aufl¨osen und
h¨atten das Ergebnis. G ist aber eine n 2-Matrix und daher im Allgemeinen noch nicht einmal
quadratisch. Als eine Art Ersatz f¨ ur die Division durch G betrachten wir daher die Minimierungs-
aufgabe:
|y −Gp| →min; (4.11)
Der linke Ausdruck entspricht (bis auf eine Wurzel) der Summe der quadratischen Abweichungen
aus Gl. 4.6:
E
ssd
(a, b) =
n

i=1
(y
i
−(ax
i
+b))
2
= |y −Gp|
2
(4.12)
F¨ ur das Ergebnis der Optimierung ist die Wurzel als monotone Funktion ohne Bedeutung.
Matlab stellt zur L¨osung solcher Aufgaben eigene Rechenoperation bereit, n¨amlich den so
genannten Backslash-Operator (¸) und die etwas allgemeiner einsetzbare Moore-Penrose Pseu-
doinverse (pint). Die L¨osung der o.a. Minimierungsaufgabe liefert der Matlab-Befehl:
popt = G ¸ y. (4.13)
Liest man die rechte Seite dieser Gleichung r¨ uckw¨arts, so steht dort

y/G“, also

y dividiert durch
G“, was als Eselbr¨ ucke f¨ ur die Bedeutung des Backslash-Operators dienen kann.
Die Pseudoinverse erh¨alt man aus Gl. 4.9, indem man zun¨achst von links mit der transponierten
Designmatrix G

multipliziert:
G

y = G

Gp (4.14)
Da G

G immer eine quadratische Matrix ist, wird sie in vielen F¨allen auch invertierbar sein. Man
kann dann die Gleichung nach p freistellen:
(G

G)
−1
G

y = p. (4.15)
Beispiel
Wir wenden diese Vorgehensweise jetzt auf das Problem der Regessionsgeraden an. Hierzu betrach-
ten wir folgende

Messung:“
x 1.0 2.0 3.0 4.0 5.0 6.0 7.0 8.0 9.0 10.0
y 0.1 0.3 1.5 3.1 6.3 5.2 5.5 9.2 8.1 9.1
Die Eingabe in MatLab lautet:
>> x = (1:10)’ ;
>> y = [0.1 0.3 1.5 3.1 6.3 5.2 5.5 9.2 8.1 9.1]’ ;
>> plot(x,y,’o’)
Der letzte Befehl erzeugt eine Graphik der Datenpunkte.
Die Matrix G aus Gl. 4.8 erhalten wir in Matlab durch:
>> G = [ones(size(x)), x] ;
Mit Hilfe des Backslash-Operators erhalten wir jetzt die optimalen Parameter (als zweidimen-
sionalen Vektor):
4.3. REGRESSIONSGERADE 35
0 2 4 6 8 10 12
−2
0
2
4
6
8
10
12
Abbildung 4.1: Beispiel
f¨ ur die Berechnung einer
Regressionsgeraden mit
dem Matlab-Program
im Text.
popt = G ¸ y;
Wollen wir nun die Daten zusammen mit der Regressionsgeraden plotten, so m¨ ussen wir einige
Punkte entlang der Geraden ausrechnen. Wir verwenden f¨ ur diese Abtastpunkte die Bezeichnung
X und Y, im unterschied zu den Datenpunkten x, y.
X = (0:11)’;
Y = [ones(size(X)), X] * popt;
plot(X,Y,’-’,x,y,’o’)
Das Ergebnis dieser Rechnung zeigt Abb. 4.1.
4.3.2 Analytische Berechnung der Regressionsgeraden
Man kann die Regressionsgerade nat¨ urlich auch elementar berechnen. In diesem Fall geht man von
der allgemeinen Fehlerfunktion Gl. 4.6 aus und erh¨alt
E
ssd
(a, b) =
n

i=1
(y
i
−(ax
i
+b))
2
(4.16)
=
n

i=1
_
y
2
i
+a
2
x
2
i
+b
2
−2ax
i
y
i
−2by
i
+ 2abx
i
_
(4.17)
= a
2
n

i=1
x
2
i
+nb
2
+ 2ab
n

i=1
x
i
−2a
n

i=1
x
i
y
i
−2b
n

i=1
y
i
+
n

i=1
y
2
i
(4.18)
Die letzte Gleichung sieht zwar komplizierter aus als die erste, ist aber im Hinblick auf die
Aufgabe, Minimierung von E in a und b, tats¨achlich einfacher, wenn man bedenkt, dass die Summen
bei dieser Optimierung Konstanten sind. Das sind sie deshalb, weil wir die Messung als gegeben
voraussetzen und als Auswertung dieser Messung die Parameter a und b bestimmen wollen. Wir
f¨ uhren jetzt f¨ ur die Summen der Daten, bzw. ihrer Quadrate und Produkte die Bezeichnungen
36 KAPITEL 4. KURVEN DURCH DATENPUNKTE
Tabelle 4.2: Kenngr¨oßen des Datensatzes zur Bestimmung der Regressionsgeraden
Standard-Notation Matlab
s
x
=
n

i=1
x
i
sx = sum(x)
s
y
=
n

i=1
y
i
sy = sum(y)
s
xx
=
n

i=1
x
2
i
sxx = x * x’ (oder: sxx = sum(x . ∧ 2))
s
yy
=
n

i=1
y
2
i
syy = y * y’ (oder: syy = sum(y . ∧ 2))
s
xy
=
n

i=1
x
i
y
i
sxy = x * y’ (oder: sxy = sum(x . * y))
s
x
(Summe der x-Werte), s
y
(Summe der y-Werte), s
xx
(Summe der Quadrate der x-Werte), s
yy
(Summe der Quadrate der y-Werte) und s
xy
(Summe der Produkte der x- und y-Werte) ein. Die
Formeln finden sich in Tabelle 4.2.
Mit diesen Bezeichnungen erhalten wir aus Gl. 4.18
E(a, b) = a
2
s
xx
+nb
2
+ 2abs
x
−2as
xy
−2bs
y
+s
yy
. (4.19)
Man erkennt jetzt, dass E quadratisch von a und b abh¨angt. Zeichnet man in einem dreidimen-
sionalen Koordinatensystem E ¨ uber der (a, b)-Ebene auf, so erh¨alt man einen parabolischen Topf,
eine Art herumgedrehten Zuckerhut; Schnitte entlang der a und b-Achsen sind Parabeln.
Um das Minimum von E zu bestimmen, m¨ ussen wir jetzt die (partiellen) Ableitungen von E
nach a und b bestimmen und zu null setzen. Wir erhalten folgende Gleichungen:

∂a
E(a, b)
!
= 0 ⇔ as
xx
+bs
x
= s
xy
(4.20)
und

∂b
E(a, b)
!
= 0 ⇔ as
x
+nb = s
y
(4.21)
Aus diesen beiden Bestimmungsgleichungen erh¨alt man schließlich die L¨osungen:
a =
ns
xy
−s
x
s
y
ns
xx
−(s
x
)
2
und b =
s
y
s
xx
−s
x
s
xy
ns
xx
−(s
x
)
2
. (4.22)
a und b heißen auch Steigung und Achsenabschnitt der Regressionsgerade f¨ ur den Datensatz (x
i
, y
i
).
4.3.3 Vergleich der elementaren und der Matrix-Rechnung
Zum Vergleich der beiden Verfahren soll im Anschluss an diese elementare L¨osung noch einmal auf
die L¨osung mittels der Pseudoinversen zur¨ uckgekommen werden. Wir betrachten dazu zun¨achst
die Bestandteile:
G

G =
_
_
1 . . . 1
x
1
. . . x
n
_
_
_
_
_
_
_
1 x
1
.
.
.
.
.
.
1 x
n
_
_
_
_
_
=
_
_
n s
x
s
x
s
xx
_
_
(4.23)
4.4. ALLGEMEINE LINEARE REGRESSION (

GENERAL LINEAR MODELS“) 37
(G

G)
−1
=
1
s
xx
−(s
x
)
2
_
_
s
xx
−s
x
−s
x
n
_
_
(4.24)
G

y =
_
_
s
y
s
xy
_
_
(4.25)
Durch Ausmultiplizieren erh¨alt man
p
opt
=
1
ns
xx
−(s
x
)
2
_
_
s
y
s
xx
−s
x
s
xy
−s
x
s
y
+ns
xy
_
_
, (4.26)
in
¨
Ubereinstimmung mit Gl. 4.22.
4.4 Allgemeine lineare Regression (

general linear models“)
Die im vorigen Abschnitt betrachtete Regressionsgerade ist eine nach der Methode der kleinsten
Quadrate bestimmte Ausgleichsgerade f¨ ur einen gegebenen Datensatz. Im Sinne unseres allgemei-
nen Programms f¨ ur das Bestimmen von Ausgleichskurven ist die Situation dadurch ausgezeichnet,
dass die Optimierung analytisch ausgerechnet werden konnte. Allgemein kann man zeigen, dass
analytische Rechnungen immer dann m¨oglich sind, wenn das Modell linear in seinen Parametern
ist, d.h. wenn die Fitfunktion folgendermaßen dargestellt werden kann:
f(x; p
1
, ..., p
k
) =
k

l=1
p
l
g
l
(x). (4.27)
Dabei ist es v¨ollig gleichg¨ ultig, wie die Funktionen g
l
aussehen, insbesondere brauchen diese Funk-
tionen selbst nicht linear zu sein. Ohnehin interessieren ja nur die Werte g
l
(x
i
) an den St¨ utzstellen
(x
i
)
i=1,...,n
; man k¨onnte daher die kontinuierliche Gl. 4.27 auf diese x-Werte beschr¨anken und statt
der Funktionen g
l
eine Matrix mit beliebigen Koeffizienten g
li
ansetzen. Solche Probleme heißen
lineare Optimierungsprobleme weil die Funktionen g
l
linear kombiniert werden, und werden auch
in Matlab anders behandelt, als die nicht analytisch l¨osbaren. Ein wichtiger Fall ist die Regres-
sion auf ein Polynom, g
1
(x) = 1, g
2
(x) = x, g
3
(x) = x
2
, etc., von der die Regressionsgerade ein
Spezialfall ist.
Man schreibt das Modell an den Abtastpunkten wie in Gl. 4.8 als Matrixgleichung
_
_
_
_
_
_
_
_
f
1
f
2
.
.
.
f
n
_
_
_
_
_
_
_
_
=
_
_
_
_
_
_
_
_
g
1
(x
1
) g
2
(x
1
) . . . g
k
(x
1
)
g
1
(x
2
) g
2
(x
2
) . . . g
k
(x
2
)
.
.
.
.
.
.
.
.
.
g
1
(x
n
) g
2
(x
n
) . . . g
k
(x
n
)
_
_
_
_
_
_
_
_
_
_
_
_
_
p
1
.
.
.
p
k
_
_
_
_
_
(4.28)
oder abgek¨ urzt:

f = Gp. (4.29)
Die Situation ist damit v¨ollig analog wie im Fall der Regressionsgeraden. Im Detail gibt es zwei
Unterschiede: zun¨achst kann die Anzahl der freien Parameter gr¨oßer als zwei sein; p wird damit
zum k-dimensionalen Vektor und G zu einer nk-Matrix. Zweitens k¨onnen die g
i
beliebige Funk-
tionen sein, solange sie zu linear unabh¨angigen Spaltenvektoren in G f¨ uhren. Diese Unterschiede
38 KAPITEL 4. KURVEN DURCH DATENPUNKTE
¨andern aber nichts an der weiteren Behandlung, die genauso verl¨auft, wie im vorigen Abschnitt
beschrieben.
Schreibt man noch den Fehlerterm, also die Residuen der Regression explizit hin, so erh¨alt man
aus Gleichung 4.29 das so genannte

allgemeine lineare Modell“

f = Gp +ǫ. (4.30)
G heißt in diesem Zusammenhang

Design-Matrix“. Bei der Auswertung von Imaging-Daten etwa
in der funktionellen Kernspintomographie enth¨alt der Vektor

f die Messungen des BOLD-Signals
eines Voxels f¨ ur die verschiedenen Bedingungen und Versuchspersonen. Die Design-Matrix be-
schreibt das experimentelle Design, also die Bedingungen, unter denen die einzelnen Messungen
zustande gekommen sind. Aus den Regressionskoeffizienten p k¨onnen dann f¨ ur jeden

Kontrast“
(Vergleich der Bedingungen) die statistischen Signifikanzen bestimmt werden (vgl. Friston et al.
1995).
4.5 Nichtlineare Regression
In diesem Fall muss die Minimierung der Fehlerfunktion (z.B. Gl. 4.6) numerisch gel¨ost werden.
Hierzu h¨alt Matlab entsprechende Routinen bereit. Wichtigste Verfahren sind Gradientenabstieg
(im Fall explizit bestimmbarer partieller Ableitungen) und Simplex-Verfahren.
Bei der Anwendung dieser Verfahren muss man beachten, dass sie das Optimierungsproblem

iterativ“, d.h. schrittweise l¨osen. Im Fall einer Optimierung mit zwei Parametern kann man sich
die Fehlerfunktion E(a, b) als Gebirge ¨ uber der a, b-Ebene vorstellen. Beim Aufruf der Optimie-
rungsroutine gibt man einen Startpunkt (a
o
, b
o
) an von dem aus der Algorithmus dann einen Weg

bergab“ sucht. Der Algorithmus stoppt, wenn es keine solche Richtung mehr gibt. Hierbei k¨onnen
zwei Probleme auftreten:
1. Der Startpunkt liegt zuf¨alligerweise in einem Bereich des Fehlergebirges, der ganz oder fast
eben ist. Es gibt dann keine Richtung bergab und der Algorithmus scheitert.
2. Das Fehlergebirge weist mehrere

T¨aler“ (lokale Minima) auf. Die Wahl des Startpunktes
determiniert dann, welches dieser T¨aler gefunden wird. Der tiefste Punkt eines solchen Tales
ist nicht notwenigerweise der tiefste Punkt des ganzen Gebirges.
In beiden F¨allen kann es helfen, verschiedene Startpunkte auszuprobieren. Liefert der Algorithmus
f¨ ur verschiedene Startpunkte verschiedene L¨osungen, so ist die mit dem kleineren Fehler vorzu-
ziehen; ein allgemeines Verfahren zur Bestimmung des globalen Minimums gibt es nicht.
¨
Ubrigens
sei bemerkt, dass die o.a. Probleme bei der linearen Optimierung mit kleinsten Quadraten nicht
auftreten k¨onnen, da das Fehlergebirge hier einen parabolischen Topf bildet, der nur ein (globales)
Minimum und keine ebenen Bereiche besitzt.
4.6 Beispiele
4.6.1 Bildschirm-Kalibirierung
Bei der Untersuchung des visuellen Systems verwendet man zunehmend Reize, die ¨ uber Bild-
schirme oder Video-Beamer dargeboten werden. Dabei wird das gew¨ unschte Bild als Raster von
Helligkeitswerten angegeben, die in der Regel Zahlen I im Intervall [0, 1] sind. Auf das Problem
der Diskretisierung, das durch die Beschr¨ankung auf z.B. 2
8
= 256 Graustufen entsteht, wollen wir
hier nicht eingehen.
4.6. BEISPIELE 39
Die Helligkeit, die der Monitor abstrahlt, wird physikalisch als Radianz bezeichnet (Dimension:
Leistung pro Fl¨ache und bestrahltem Raumwinkel). Gewichtet man diese Intensit¨at mit der wel-
lenl¨angenabh¨angigen Empfindlichkeit des menschlichen Auges, so spricht man von der Leuchtdichte
L, die in Candela/m
2
gemessen wird. Der Zusammenhang zwischen der Bildintensit¨at I und der
am Monitor tats¨achlich entstehenden Leuchtdichte L ist nun nicht linear, sondern wird durch die
so genannte γ-Korrektur geregelt, die Eigenschaften des menschlichen Auges und der Phosphore
des Bildschirms in Betracht zieht. Um diese γ-Korrektur zu verstehen, m¨ ussen wir zun¨achst den
Begriff des Kontrasts einf¨ uhren.
Zeigt man zwei Felder mit jeweils konstanter Leuchtdichte L
1
und L
2
, L
1
≥ L
2
, so ist der
Kontrast dieser Felder durch die Beziehung
c :=
L
1
−L
2
L
1
+L
2
(4.31)
(so genannter Zweipunkt- oder Michelsen-Kontrast) definiert. Der Kontrast ist eine dimensionslose
Gr¨oße zwischen 0 und 1 und ¨andert seinen Wert nicht, wenn alle Leuchtdichten um einen festen
Faktor vergr¨oßert oder verkleinert werden. Addiert man dagegen etwas hinzu, etwa indem man
den Bildschirm durch Raumlicht beleuchtet, so nimmt der Kontrast ab. Ist L
2
= 0 und L
1
> 0, so
ist der Kontrast immer maximal.
Die Eichkurve eines Monitors gibt an, welche Leuchtdichte L abgestahlt wird, wenn ein Bild
mit der Bildintensit¨at I ∈ [0, 1] gezeigt wird. Die Kurve L(I) ist eine Exponentialfunktion,
L(I) = a r
I
. (4.32)
Dabei ist a = L
min
die kleinste am Monitor erzeugbare Leuchtdichte. Sie ist nicht null, bei
Kathodenstrahlr¨ohren z.B. wegen Streulicht von benachbarten Bildschirmteilen und der Vorhei-
zung der Bildr¨ohre. Mit r = L
max
/L
min
bezeichnen wir den Dynamik-Bereich des Bildschirms.
Er liegt bei Kathodenstrahlr¨ohren zwischen 40 und 200. Man ließt ab: L(0) = a = L
min
und
L(1) = a r = L
max
.
Der Sinn der exponentiellen Eichkurve besteht darin, gleiche Differenzen der Bildintensit¨at I
auf gleiche Kontraste abzubilden. Dass die Exponentialfunktion dies leistet, zeigt folgende
¨
Uberle-
gung. Wir betrachten den Kontrast zweier Bildschirmbereiche, die die Intensit¨aten I
o
und I
o
+∆I
darstellen. Der zugeh¨orige Kontrast ist:
c
∆I
=
L(I
o
+ ∆I) −L(I
o
)
L(I
o
+ ∆I) +L(I
o
)
=
ar
I
o
+∆I
−ar
I
o
ar
I
o
+∆I
+ar
I
o
(4.33)
Wir k¨onnen nun den Ausdruck ar
I
o
aus dem Bruch herausk¨ urzen und erhalten
c
∆I
=
r
∆I
−1
r
∆I
+ 1
. (4.34)
Der Kontrast c
∆I
h¨angt also nicht von I
o
, sondern nur von ∆I ab. Gleiche Intensit¨atsunterschiede
werden mit gleichem Kontrast abgebildet.
Will man bei sinnesphysiologischen Experimenten Luminanzen (und nicht Kontraste) vorschrei-
ben, so misst man zun¨achst die Funktion L(I) f¨ ur eine Reihe von I-Werten aus und fittet dann die
Funktion
L(I; a, r) := ar
I
(4.35)
durch diese Punkte. Diese Potenzgleichung kann man linearisieren, indem man auf beiden Seiten
den Logariothmus berechnet:
log L = log a +I log r. (4.36)
40 KAPITEL 4. KURVEN DURCH DATENPUNKTE
Durch Regression von log L auf I gewinnt man Sch¨atzungen f¨ ur a und r. Hat man dann einen
gew¨ unschten Luminanzwert L

, so berechnet man I

aus
I

=
log L

−log a
log r
. (4.37)
4.6.2 Psychometrische Funktion
Eine Versuchsperson betrachtet einen Bildschirm, an dem an einem von zwei Orten (

links“
und

rechts“) ein Stimulus auftreten kann. In jedem Versuchsdurchgang soll die Versuchsperson
angeben, ob der Stimulus links oder rechts erschienen ist (so genanntes two alternative forced
choice Paradigma; 2AFC). Im Experiment wird nun die Reizst¨arke variiert, so dass die Aufga-
be manchmal ganz einfach und manchmal unl¨osbar ist. Wir bezeichnen die Reizst¨arke mit x
und nehmen an, dass x aus dem Intervall [0, 1] stammt. Wir messen nun f¨ ur eine Anzahl von
Reizst¨arken x
i
die relative H¨aufigkeit richtiger Antworten der Versuchsperson und bezeichnen die-
se mit p(x
i
) = P(richtige Antwort[x = x
i
). Wir erwarten, dass p(x
i
) umso gr¨oßer ist, je gr¨oßer die
Reizst¨arke x ist. Ist x = 0, so kann die Versuchsperson nur raten, und wir erwarten p(0) =
1
2
. Im
Allgemeinen bezeichnen wir die Wahrscheinlichkeit, durch bloßes Raten eine richtige Antwort zu
geben (chance level), mit C.
Am Ende des Experiments liegen also eine Anzahl von Messungen f¨ ur y
i
= p(x
i
) vor. Wir
suchen nun eine Funktion Ψ(x) (sprich psi), die die Messwerte ann¨ahert. Wir bezeichnen sie als
psychometrische Funktion. Eine solche Funktion sollte monoton von C nach 1 wachsen und f¨ ur
große x eine S¨attigung zeigen. Der x-Wert, f¨ ur den sie den Mittelwert zwischen C und 1 annimmt,
heißt Wahrnehmungsschwelle. Die mathematische Beschreibung einer psychometrischen Funktion
wird im Allgemeinen ¨ uber zwei freie Parameter haben, die die Lage der Schwelle und die Steigung
an der Schwelle festlegen.
Wir betrachten nun der Einfachheit halber Funktionen, die Werte zwischen 0 und 1 annehmen.
Ist f(x) eine solche Funktion, so kann man sie mittels
Ψ(x) := C + (1 −C)f(x) (4.38)
auf das Intervall [C, 1] zusammenstauchen.
Geeignete Funktionen zum Fitten psychometrischer Funktionen sind die schon erw¨ahnte Arcus-
tangens-Funktion wie auch die Fehlerfunktion (Tabelle 4.1). Beide haben die Eigenschaft, dass sie
punktsymmetrisch zu ihrem Wendepunkt sind. Eine weitere f¨ ur psychometrische Funktionen h¨aufig
verwendete Fitfunktion ist die logistische Funktion
Ψ(x; µ, ϑ) := C +
1 −C
1 + exp¦−
x−µ
ϑ
¦
. (4.39)
Hierbei verschiebt der Parameter µ die Funktion entlang der x-Achse. Die Steigung wird durch
den Parameter ϑ bestimmt. Eine Funktion mit unsymmetrischem Verlauf, die sich f¨ ur viele psy-
chophysische Probleme bew¨ahrt hat, ist die Weibull-Funktion
Ψ(x; α, β) := 1 −(1 −C) exp¦−
_
x
α
_
β
¦ (4.40)
Hat man sich f¨ ur eine dieser Funktionen entschieden, so bestimmt man die Fehlerfunktion nach
Gl. 4.6. Das Minimierungsproblem ist nichtlinear, was bei der Verwendung von Matlab keine
Schwierigkeiten machen sollte. Man bestimmt die Parameter und sieht f¨ ur diese Parameter in der
Fitfunktion nach, wo sie den Wert 0.75 (oder allgemeiner C +(1 −C)/2) erreicht. Dieser Wert ist
die Schwelle.
4.6. BEISPIELE 41
4.6.3 Psychometrische Funktionen und Maximum-likelihood-Sch¨atzung
Im Fall der Psychometrischen Funktion ist Ψ(x) die Wahrscheinlichkeit, mit der bei Reizniveau x
die richtige Antwort gegeben wird. H¨alt man x fest, so handelt es sich um ein so genanntes Bernoulli-
Experiment (Binomialverteilung mit p = Ψ(x)). Die Antwort folgt einer Binomialverteilung. Der
erwartete Messfehler h¨angt daher von jeweiligen Wert Ψ(x) ab; er ist klein f¨ ur kleine und große
Werte von Ψ und groß f¨ ur mittlere Werte. Eine Ausgleichsrechnung, die versucht, alle Messwerte
m¨oglichst gleich gut anzun¨ahern ist also hier problematisch. Besser w¨are eine Ausgleichskurve, die
durch alle Fehlerbalken l¨auft.
Ein Verfahren, das dieses Problem l¨ost, ist der Maximum-likelihood Ansatz. Statt der gesamten
quadratischen Abweichung zwischen Kurve und Daten berechnet man hier die Wahrscheinlichkeit,
mit der die gefundenen Daten zu erwarten waren, in Abh¨angigkeit von den zugrundegelegten
Parametern der Kurve. Hierzu m¨ ussen wir uns zun¨achst die Verteilung der Rohdaten ansehen, die
im Fall des forced choice-Experimentes einer Binominalverteilung mit Parameter p := Ψ(x
i
) folgt.
Die Wahrscheinlichkeit, bei n Wiederholungen H richtige Entscheidungen zu treffen, ist dann:
P(H) =
_
_
n
H
_
_
p
H
(1 −p)
n−H
=
n!
H!(n −H)!
p
H
(1 −p)
n−H
(4.41)
Entsprechend erh¨alt man die Wahrscheinlichkeit, bei G¨ ultigkeit der psychometrischen Funktion
Ψ
µ,ϑ
in einer Messung mit den Reizst¨arken (x
1
, x
2
, ..., x
n
) die H¨aufigkeiten (H
1
, H
2
, ..., H
n
) zu
erhalten, als das Produkt
L(µ, ϑ) :=
n

i=1
_
_
n
H
i
_
_
Ψ
µ,ϑ
(x
i
)
H
i
(1 −Ψ
µ,ϑ
(x
i
))
n−H
i
. (4.42)
Man bezeichnet es als die

Likelihood“ von µ und ϑ. In der Praxis betrachtet man zumeist den
Logarithmus von L, den wir mit LL bezeichnen wollen:
LL(µ, ϑ) = log L(µ, ϑ) (4.43)
=
n

i=1
log
_
_
n
H
i
_
_
+
n

1=1
H
i
log Ψ
µ,ϑ
(s
i
) + (n −H
i
) log(1 −Ψ
µ,ϑ
(s
i
)) (4.44)
Bei der Maximierung spielen die in der ersten Summe zusammengefassten Binomialkoeffizienten
keine Rolle mehr, da sie nicht von den Parametern µ und ϑ der Fitfunktion abh¨angen.
Das Maximum-likelihood Verfahren setzt voraus, dass die Fehlerverteilungen jedes Messpunk-
tes explizit bekannt sind. Sind die Fehler an jedem Punkt mit der gleichen Standardabweichung
normalverteilt, so gehen Maximim-Likelihood und Kleinste Quadrate ineinander ¨ uber.
Literatur
Christensen R (2002) Plane Answers to Complex Questions. The Theory of Linear Models. Chapter
6: Regression Analysis. Springer Verlag
Macmillan NA, Creelman CD (1991) Detection Theory: A User’s Guide. Cambridge University
Press. (page 186-190: section on

psychometric functions“)
Friston KJ, Holmes AP, Worsley J-P, Frith CD, Frackowiak RSJ (1995) Statistical parametric
maps in functional imaging: a general linear approach. Human Brain Mapping 2:189- 210
Kapitel 5
Einfache statistische Tests
5.1 Statistische Testtheorie
Das Testen von Hypothesen ¨ uber Daten ist die wichtigste Anwendung der mathematischen Stocha-
stik in den empirischen Wissenschaften. Zur Erinnerung sollen hier die Grundideen kurz wiederholt
werden.
Eine einfache Testaufgabe k¨onnte z.B. darin bestehen, bei einem M¨ unzwurf festzustellen, ob die
geworfene M¨ unze

fair“ ist, ob also die Wahrscheinlichkeit, dass Kopf f¨allt, 1/2 betr¨agt. Um das
festzustellen, wirft man die M¨ unze n mal und erh¨alt eine Stichprobe (x
1
, ...x
n
) von Ausg¨angen. Die
x
i
k¨onnen dabei die Werte 0 (f¨ ur Kopf) und 1 (f¨ ur Zahl) annehmen. Man wird akzeptieren, dass
die M¨ unze fair ist, wenn die Anzahl der Zahl-W¨ urfe

ungef¨ahr“ der H¨alfte der Versuchs entspricht.
Sind es

deutlich“ mehr oder weniger, wird man die M¨ unze als unfair verwerfen.
Ein statistischer Test konkretisiert und quantifiziert diese Intuition. Er besteht aus drei Kom-
ponenten:
1. die zu testenden Hypothesen, die stets als eine so genannte Nullhypothese (H
o
) und ihr
logisches Gegenteil (die Alternative, H
1
) formuliert werden;
2. eine Pr¨ ufgr¨oße oder Statistik, d.h. eine aus der Stichprobe zu berechnende Zufallsvariable
(z.B. Mittelwert, Stichprobenvarianz, t-Wert o.¨a.);
3. eine Schranke, bei deren
¨
Uberschreitung durch die Pr¨ ufgr¨oße die Nullhypothese abgelehnt
wird. Bei der Bestimmung dieser Schranke geht die Wahrscheinlichkeit ein, mit der die
Pr¨ ufgr¨oße die Schranke ¨ uberschreitet, und zwar unter der Annahme, dass die Null-Hypothese
zutrifft.
5.1.1 Hypothesen
In unserem Beispiel wollen wir pr¨ ufen, ob die Wahrscheinlichkeit p, mit der der M¨ unzwurf zu dem
Ergebnis

Zahl“ f¨ uhrt, 0, 5 betr¨agt. Wir formulieren die Hypothesen H
o
und H
1
:
H
o
p = 0, 5 (Nullhypothese)
H
1
p ,= 0, 5 (Alternative)
Ergebnis des Tests wird eine Entscheidung f¨ ur eine der beiden Hypothesen sein. Man spricht
vom Annehmen bzw. Ablehnen der Nullhypothese H
o
. Anschaulich wird man in unserem Beispiel
die H
o
ablehnen, wenn der Mittelwert der x
i
stark von 0,5 abweicht. Liegt er in der N¨ahe von 0,5, so
42
5.1. STATISTISCHE TESTTHEORIE 43
Tabelle 5.1: Logische und statistische Schl¨ usse
Induktion Beobachtung ⇒ Behauptung (H
1
)
Kontraposition Negation der Beobachtung ⇒ Negation der Behauptung (H
1
= H
o
)
Statistischer Test P(Beobachtung[H
o
) klein
ist damit die Nullhypothese aber nicht etwa bewiesen, da man nie ausschließen kann, dass es noch
andere Hypothesen gibt, die das gleiche Ergebnis vorhersagen. F¨ ur eine M¨ unze, die beim M¨ unzwurf
50 mal Kopf und 50 mal Zahl ergibt, ist neben der offensichtlichen Hypothese p = 0, 5 beispielsweise
auch die Hypothese p = 0, 5001 akzeptabel. Wir begegnen hier der statistischen Variante eines
grunds¨atzlichen, erkenntnistheoretischen Problems: man kann mit Daten keine Theorien beweisen,
wohl aber widerlegen (so genanntes Falsifikationsprinzip). Man testet daher statt der eigentlich
interessierenden Hypothese ihr logisches Gegenteil, w¨ahrend das, was man eigentlich beweisen will,
in der Alternative H
1
formuliert ist. Kann man dann H
o
ablehnen, so ist man dem Beweis von H
1
so nahe gekommen wie ¨ uberhaupt m¨oglich. Leider hat man f¨ ur die Formulierung der Nullhypothese
nicht alle denkbaren Freiheiten, da die Wahrscheinlichkeiten der m¨oglichen Messergebnisse unter
Annahme der Nullhypothese bekannt sein m¨ ussen; die Formulierung der Alternative bleibt daher
zuweilen etwas unscharf.
Logisch entspricht dieses Vorgehen dem Prinzip der Kontraposition: Wenn aus einer theore-
tischen Annahme A notwendig eine bestimmte Beobachtung B folgt (A ⇒ B, z.B.

wenn es
geregnet hat, ist die Straße nass“), so ist der Umkehrschluss (B ⇒ A,

wenn die Straße nass ist,
hat es geregnet“) nicht notwendigerweise korrekt (es k¨onnte ja auch einen Wasserrohrbruch ge-
geben haben). Tritt die vorhergesagte Beobachtung aber nicht ein, und war sie von der Theorie
notwendig gefordert, so muss die Theorie falsch sein (B ⇒ A;

wenn die Straße nicht nass ist,
hat es nicht geregnet“).
Der Test lehnt die Null-Hypothese ab, wenn das gefundene Ergebnis unter der Annahme, dass
die Null-Hypothese zutr¨afe, unwahrscheinlich ist. Man muss daher versuchen, die Null-Hypothese
immer so zu formulieren, dass diese

Unwahrscheinlichkeit“ auch wirklich berechnet werden kann.
Hier kann man zwei Grundtypen von Null-Hypothesen (oder Tests) unterscheiden:


Zweiseitige“ Tests haben Nullhypothesen der Form H
o
: p = p
o
, legen also den Parameter
auf genau einen Wert fest. Die Null-Hypothese wird abglehnt, wenn p kleiner als p
o
−ǫ oder
gr¨oßer als p
o
+ǫ f¨ ur ein geeignetes ǫ (sprich: Epsilon) ist.


Einseitige“ Tests haben Nullhypothesen der Form H
o
: p ≤ p
o
, bzw. H
o
: p ≥ p
o
, lehnen
also nur ab, wenn die Abweichung nach einer Seite vorliegt.
Dar¨ uberhinaus gibt es weitere Typen von Hypothesen, z.B. solche die nicht nur Zahlen son-
dern ganze Verteilungen testen. So ¨ uberpr¨ uft z.B. der Wilcoxonsche u-Test die Gleichheit zweier
Verteilungen.
5.1.2 α- und β- Fehler (Fehler erster und zweiter Art)
Je nach dem, ob die Null-Hypothese zutrifft oder nicht, und je nach dem, ob der Test die Null-
hypothese ablehnt oder nicht, kann man vier Situationen unterscheiden, von denen zwei korrekte
Entscheidungen darstellen w¨ahrend die anderen Fehler sind:
44 KAPITEL 5. EINFACHE STATISTISCHE TESTS
in der Population gilt die
H
o
H
1
Test entscheidet H
o
korrekt β-Fehler
H
1
α-Fehler korrekt
Die beiden Fehler sind von sehr unterschiedlicher Art. Beim α-Fehler lehnt man die Nullhypothese
ab (sieht sie also als falsifiziert an), obwohl sie zutreffend ist. Beim β-Fehler akzeptiert man die
Nullhypothese, obwohl sie falsch ist, vergibt also sozusagen die M¨oglichkeit, eine falsche Hypothese
ihrer Falschheit zu ¨ uberf¨ uhren. Besonders klar wird dieser Unterschied, wenn man sich Hypothesen
¨ uber Nebenwirkungen von Medikamenten vorstellt. Testet man die Null-Hypothese

keine Neben-
wirkungen“ so besteht der α-Fehler darin, ein Medikament mit Nebenwirkungen auf den Markt zu
bringen, w¨ahrend im Fall des β-Fehlers ein unbedenkliches Medikament zur¨ uckgehalten w¨ urde. Im
Kontext einer wissenschaftlichen Publikation besteht der α-Fehler in der Ver¨offentlichung falscher
Ergebnisse, w¨ahrend beim β-Fehler zutreffende Ergebnisse zur¨ uckgehalten werden. Die statisti-
sche Testtheorie geht immer davon aus, dass der α-Fehler der gravierendere ist, der also in erster
Linie minimiert werden soll. In der Praxis ist das eher eine Aussage ¨ uber die Formulierung der
Hypothesen: Man muss H
o
immer so w¨ahlen, dass der gravierendere Fehler als α-Fehler erscheint.
5.1.3 Pr¨ ufgr¨oße, Schranke, Signifikanz
Ziel eines statistischen Testes ist es also, die Nullhypothese zu widerlegen und dabei die Wahr-
scheinlichkeit eines α-Fehlers gering zu halten. Dazu berechnet man zun¨achst aus der Stichprobe
eine so genannte Pr¨ ufgr¨oße oder Statistik. Im Beispiel des M¨ unzwurfs ist das der Mittelwert
¯ x =
1
n
n

i=1
x
i
. (5.1)
Dabei ist n der Stichprobenumfang. Wr w¨ahlen n = 10.
Wir berechnen nun die Wahrscheinlichkeit eines α-Fehlers. Der α-Fehler tritt auf, wenn die
Nullhypothese richtig ist und der Mittelwert ¯ x trotzdem stark von dem in diesem Fall zu erwarten-
den Wert 0, 5 abweicht. Nehmen wir an, wir w¨ urden die Nullhypothese

faire M¨ unze“ ablehnen,
wenn ¯ x (echt) gr¨oßer als 0, 7 oder (echt) kleiner als 0, 3 wird. Da wir den Stichprobenumfang
n = 10 gew¨ahlt haben, sind das die F¨alle ¯ x = 0; 0,1; 0, 2; 0, 8; 0, 9 und ¯ x = 1. Wie groß ist
dann die Wahrscheinlichkeit, einen α-Fehler zu begehen, d.h. abzulehnen, obwohl H
o
zutrifft? Wir
bezeichnen diese Wahrscheinlichkeit mit dem Buchstaben p; sie heißt Signifikanz des Tests.
Ein α-Fehler kann nur auftreten, wenn H
o
zutrifft. In unserem Beispiel ist die Verteilung der
Pr¨ ufgr¨oße f¨ ur diesem Fall leicht anzugeben, es handelt sich um eine Binomialverteilung mit Erwar-
tungswert r = 0, 5 und n = 10:
P
_
¯ x =
k
n
_
=
_
_
n
k
_
_
r
k
(1 −r)
n−k
(5.2)
=
_
_
n
k
_
_
(
1
2
)
n
=
1
2
n
n!
k!(n −k)!
(5.3)
Daraus liest man ab:
5.2. BEISPIEL 1: DER T-TEST 45
µ
o
p(¯ x)
¯ x
µ
o
−c µ
o
+c
Abbildung 5.1: Verteilungsdichte einer
kontinuierlichen Pr¨ ufgr¨oße ¯ x unter der
Null-Hypothese µ
o
= 0, 5. Der Test nimmt
H
o
an, wenn ¯ x zwischen den beiden blau-
en Markierungen liegt, wenn also [¯ x −
µ
o
[ < c gilt. Die Fl¨achen unter den bei-
den

Schw¨anzen“ der Verteilung addieren
sich zur Wahrscheinlichkeit eines Fehlers
1. Art, α, der sog. Signifikanz des Testes.
Das Beispiel zeigt die zweiseitige Testsitua-
tion. Mit nur einer blauen Markierung f¨ ur
das gleiche Kriterium erh¨alt man einen ein-
seitigen Test zum Signifikanzniveau α/2.
¯ x 0, 0 0, 1 0, 2 0, 3 0, 4 0, 5
P(¯ x) 0, 0010 0, 0098 0, 0439 0, 1172 0, 2051 0, 2461
¯ x 0, 6 0, 7 0, 8 0, 9 1, 0
P(¯ x) 0, 2051 0, 1172 0, 0439 0, 0098 0, 0010
Die Wahrscheinlichkeit daf¨ ur, dass ¯ x echt kleiner als 0,3 wird, betr¨agt dann
P(¯ x < 0,3) = 0,0010 + 0,0098 + 0,0439 = 0,0547. (5.4)
Genauso erh¨alt man
P(¯ x > 0,7) = 0,0439 + 0,0098 + 0,0010 = 0,0547. (5.5)
Insgesamt ergibt sich damit f¨ ur die zweiseitige Situation:
p = P(¯ x < 0,3[H
o
) + P(¯ x > 0,7[H
o
) = 0,1094 (5.6)
Unser Test hat also das Signifikanzniveau 0,1094. Die Wahrscheinlichkeit, dass er ablehnt, obwohl
H
o
zutrifft, betr¨agt 10,94 %.
H¨atten wir ¯ x < 0,2 oder ¯ x > 0,8 gefordert, so w¨are das Signifikanzniveau 0,0198 gewesen. In
der Praxis sieht man sich zun¨achst den gefundenen Wert der Pr¨ ufgr¨oße an, und betrachtet dann
die Signifikanz des Tests, der mit diesem Ergebnis gerade noch ablehnt. Diese Signifikanzwerte
sind als Funktion der Pr¨ ufgr¨oße in der Regel tabelliert. Die Berechnung dieser Tabellen, d.h.
die Bestimmung der Wahrscheinlichkeitsverteilung der Pr¨ ufgr¨oße unter der Annahme, dass die
Nullhypothese zutrifft, ist ein Problem der stochastischen Mathematik.
5.2 Beispiel 1: Der t-Test
Erhebt man zwei Stichproben f¨ ur eine Messgr¨oße in zwei Populationen, so erh¨alt man zwei Mit-
telwerte ¯ x
1
und ¯ x
2
mit den zugeh¨origen Standardabweichungen. Die Frage ist dann, ob die beiden
Mittelwerte signifikant voneinander abweichen. Dies wird z.B. dann der Fall sein, wenn die Diffe-
renz der Mittelwerte groß, ihre Streuung aber klein ist. Ist umgekehrt die Streuung deutlich gr¨oßer
als die Differenz der Mittelwerte, so kann es durchaus sein, dass die theoretischen Erwartungswerte
(d.h. die Mittelwerte der Grundgesamtheit) gleich sind.
46 KAPITEL 5. EINFACHE STATISTISCHE TESTS
0 10 20 30 40
0
5
10
15
Abbildung 5.2: Beispieldaten zumt-Test. Aus zwei unabh¨angigen Grundgesamtheiten werden Stich-
proben von jeweils 50 Exemplaren gezogen. Die Abbildung zeigt die Histogramme solcher Stich-
proben zusammen mit ihren Mittelwerten und Standardabweichungen. Der t-Test wird signifikant
auf dem 0,1%-Niveau.
Als Beispiel betrachten wir ein Experiment, in dem Versuchspersonen eine Navigationsaufgabe
in einer unbekannten, virtuellen (d.h. als interaktive Computergraphik pr¨asentierten) Umgebung
l¨osen sollen (Restat et al. 2004). Messgr¨oße (abh¨angige Variable) ist die Anzahl der Navigations-
fehler, d.h. die Anzahl von Wegentscheidungen, die vom Ziel wegf¨ uhren. Die beiden

Populationen“
sind zwei Gruppen von Versuchspersonen, die in zwei verschiedenen Varianten der Umgebung trai-
niert und getestet wurden. In Bedingung 1 war die Umgebung eben, in Bedingung 2 war sie in
Form eines gleichm¨aßigen Hanges geneigt.
Zur besseren Illustration der Testverfahren verwenden wir im folgenden fiktive Daten. Abb. 5.2
zeigt die Histogramme f¨ ur die Variablen x
1
und x
2
sowie die zugeh¨origen Mittelwerte und Fehler-
balken. Die Hypothesen lauten:
H
o
: Ex
1
−Ex
2
= 0
H
1
: Ex
1
−Ex
2
,= 0
Mit Ex bezeichnen wir dabei den Erwartungswert von x, d.h. den

Mittelwert der Grundgesamt-
heit“. Die Hypothesen formulieren einen zweiseitigen Test.
Die Pr¨ ufgr¨oße des t-Tests ist im wesentlichen die Differenz der Stichprobenmittelwerte dividiert
durch die Standardabweichung dieser Differenz. Wir setzen zun¨achst voraus, dass die Variablen x
1
und x
2
statistisch unabh¨angig voneinander sind. Im Beispiel w¨are diese Bedingung erf¨ ullt, wenn
das Navigationsexperiment in den beiden Bedingungen mit unterschiedlichen Versuchspersonen-
gruppen durchgef¨ uhrt wird. In diesem Fall ergibt sich die Varianz der Differenz einfach als die
Summe der Varianzen:
var(¯ x
1
− ¯ x
2
) = var ¯ x
1
+ var ¯ x
2
=
var x
1
n
1
+
var x
2
n
2
(5.7)
Wir gehen der Einfachheit halber davon aus, dass die Stichprobenumf¨ange n
1
und n
2
sowie die
Varianzen der beiden Variablen gleich sind. Als Pr¨ ufgr¨oße erh¨alt man dann:
t :=

n
[¯ x
1
− ¯ x
2
[
_
s
2
1
+s
2
2
(5.8)
dabei ist s
1
die Stichprobenvarianz von x
1
,
s
2
1
:=
1
n −1
_
_
n

i=1
x
2
1i

1
n
_
n

i=1
x
1i
_
2
_
_
=
1
n −1
_
n

i=1
x
2
1i
−n¯ x
2
1
_
, (5.9)
5.3. BEISPIEL 2: EIN RANG-TEST 47
und s
2
2
entsprechend die von x
2
.
Es sei noch einmal daran erinnert, dass die Pr¨ ufgr¨oße selbst wieder eine Zufallsvariable ist. Wie-
derholt man das Experiment, so werden die Messwerte x
1i
, x
2i
, ihre Mittelwerte und Standardab-
weichungen und auch die Pr¨ ufgr¨oße t einen anderen Wert liefern. Die Verteilung der Pr¨ ufgr¨oße ist
nun f¨ ur den beschriebenen Fall bekannt, wenn man zus¨atzlich annimmt, dass die Daten normalver-
teilt sind. Es handelt sich um die so genannte Studentsche t-Verteilung mit 2n−2 Freiheitsgraden.
Die Zahl der Freiheitsgrade ist ein Parameter der Verteilung, den wir nicht weiter zu interpretieren
brauchen.

Im Beispiel der Abb. 5.2 ergibt sich mit n = 50 der Pr¨ ufwert t = 3,386. F¨ ur den zweiseitigen
Test mit 98 Freiheitsgraden ließt man aus der Tabelle ab: p = 0,001. Die Wahrscheinlichkeit, einen
solch großen t-Wert zu erhalten, wenn die Grundgesamtheiten gleich sind (Nullhypothese), betr¨agt
also gerade nur 0, 1%. Wir k¨onnen die Nullhypothese damit ablehnen.
In dem Fall, dass die Messungen nicht statistisch unabh¨angig sind, spricht man von verbunde-
nen Stichproben oder einem t-Test mit Messwiederholung. Wir gehen hier nicht n¨aher auf diese
Situation ein.
Der t-Test geht davon aus, dass die Messgr¨oßen normalverteilt sind. Tests, die auf diese Annah-
me verzichten, heißen

nicht-parametrisch“. F¨ ur die Aufgabe zwei Verteilungen bzw. ihre Mittel-
werte zu vergleichen, gibt es als nicht-parametrische Tests z.B. den Vorzeichentes (sign test) und
Wilcoxons u-Test. Wenn die Annahme der Normalverteilung zutrifft, sind die parametrischen Tests
in der Regel vorzuziehen, weil sie bei gleicher Signifikanz α einen geringeren β-Fehler aufweisen.
Man spricht von einer h¨oheren

G¨ ute“ des Tests.
Der t-Test kann auch verwendet werden, um die Abweichung des Mittelwertes einer Stichprobe
von einem theoretischen Wert zu testen (Einstichproben-t-Test). In diesem Fall hat man die v¨ollig
analoge Pr¨ ufgr¨oße
t :=

n
[¯ x −µ
o
[
s
(5.10)
wobei µ
o
der theoretische Mittelwert und s die Stichprobenvarianz sind.
Der Einstichproben-t-Test entspricht unserem Beispiel des Testens der Fairness einer M¨ unze im
Fall kontinuierlicher Variabler oder großer Stichproben. Er wird z.B. in Verbindung mit der Re-
gressionsanalyse angewendet, um festzustellen, ob die Residuen der regression (Differenz zwischen
Daten und Fit) signifikant sind.
5.3 Beispiel 2: Ein Rang-Test
Ein Test f¨ ur die Gleichheit der Mittelwerte zweier Stichproben, der keine Annahmen ¨ uber die Ver-
teilung der Stichproben macht, ist der u-Test nach Mann, Wilcoxon und Whitney. Wir besprechen
hierzu nur ein Beispiel um die Arbeitsweise dieses Testes zu zeigen.
Gegeben seien zwei Stichproben mit den Stichprobenumf¨angen n = m = 4.
(x
i
)
i=1,...,n
= (6, 5, 15, 11)
(y
i
)
i=1,...,m
= (17, 12, 16, 10).
Wir werfen jetzt beide Stichproben zusammen, ordnen die Elemente der Gr¨oße nach an, und be-
stimmen die

Rangnummern“, d.h. die Position in der gemeinsamen Menge. Gleichzeitig markieren
wir, aus welcher Stichprobe die Werte kam.

Typischerweise ist die Zahl der Freiheitsgrade die Anzahl der Einzelmessungen minus der Zahl der aus diesen
Einzelmessungen bereits gesch¨atzten und f¨ ur die Berechnung verwendeten Gr¨oßen (z.B. Stichprobenmittelwert,
Stichprobenvarianz). Diese Korrektur h¨angt damit zusammen, dass z.B. die Stichprobenvarianz systematisch kleiner
ist als die Varianz der Grundgesamtheit, weil man zu ihrer Berechnung den Stichprobenmittelwert herangezogen
hat, der seinerseits mit der Abweichung der Stichprobe von der Grundgesamtheit variiert und daher einen Teil der
Varianz

abf¨angt“.
48 KAPITEL 5. EINFACHE STATISTISCHE TESTS
Wert 5 6 10 11 12 15 16 17
Herkunft X X Y X Y X Y Y
Rang 1 2 3 4 5 6 7 8
Sind die Stichproben ¨ahnlich, werden die X- und Y -Eintr¨age in der zweiten Zeile durchtmischt
sein. Wir bestimmen als n¨achstes die Summe der R¨ange getrennt f¨ ur die Werte aus den beiden
Stichproben und erhalten die

Rangsummen“
R
X
= 1 + 2 + 4 + 6 = 13
R
Y
= 3 + 5 + 7 + 8 = 23
Als Pr¨ ufgr¨oße dienen dann die u-Werte, die folgendermaßen definiert sind:
u
X
:= nm+
m(m+ 1)
2
−R
X
(5.11)
u
Y
:= nm+
n(n + 1)
2
−R
Y
. (5.12)
Im Beispiel erhalten wir u
X
= 13 und u
Y
= 3. Als Proberechnung kann man die Beziehung
u
X
+ u
Y
= nm benutzen, die wegen n = m = 4 in unserem Beipiel erf¨ ullt ist. Von diesen beiden
Gr¨oßen w¨ahlt man die kleinere und liest die Signifikanz aus der Tabelle ab. Im Beispiel k¨onnen wir
die Null-Hypothese (gleichheit der Mittelwerte) auf dem 10%-Niveau ablehnen.
5.3.1 Effektst¨arke
Die Signifikanz eines Ergebnisses kann bei starken Effekten schon mit geringen Stichprobenumf¨angen
erreicht werden, w¨ahrend schwache Effekte gr¨oßere Stichprobenumf¨ange erfordern. Die Signifikanz
selbst ist daher kein Maß f¨ ur die St¨arke eines Effektes. In neuerer Zeit ist es ¨ ublich geworden,
Effektst¨arken zus¨atzlich zur Signifikanz eines Ergebnisses anzugeben. Man kann auch im Vorhinein
den Stichprobenumfang absch¨atzen, der ben¨otigt wird, um Effekte einer bestimmten Mindestst¨arke
signifikant zu machen. Schw¨achere Effekte w¨ urden dann im Experiment garnicht nachweisbar sein.
Literatur
Bortz, J. (1999). Statistik f¨ ur Sozialwissenschaftler. Springer Verlag, Heidelberg, 5. Aufl..
Fisz, M. (1980). Wahrscheinlichkeitsrechnung und mathematische Statistik. VEB Deutscher Verlag
der Wissenschaften, Berlin.
Hussy, W., Jain A. (2002). Experimentelle Hypothesenpr¨ ufung in der Psychologie. Hogrefe, G¨ottin-
gen etc.
Larsen, R.J., Marx, M.L. (1986). An Introduction to Mathematical Statistics and Its Applications.
Prentice Hall, Englewood Cliffs, NJ.
Sachs, L. (1992). Angewandte Statistik. Springer Verlag, Berlin, Heidelberg, New York, 7. Aufl.
Restat, J., Steck, S. D., Mochnatzki, H. F., and Mallot, H. A. (2004). Geographical slant facilitates
navigation and orientation in virtual environments. Perception, 33:667 – 687.
Kapitel 6
Varianzanalyse
6.1 Einfaktorielle Varianzanalyse
Der t-Test und entsprechende nichtparametrische Verfahren werden benutzt, um die Gleichheit
von zwei Stichproben zu testen. In vielen F¨allen hat man jedoch mehr als zwei Stichproben zu
vergleichen, die in verschiedenen experimentellen Bedingungen erhoben wurden. Die unabh¨angi-
gen Variablen, nach denen diese Bedingungen variieren, bezeichnet mal als Faktoren. Im Fall der
einfaktoriellen Varianzanalye gen¨ ugt ein Faktor zur Beschreibung der Bedingungen; er kann kon-
tinuierlich oder nominal skaliert sein. In dem Beispiel aus den vorigen Kapitel (Restat et al. 2004)
k¨onnten wir also statt einer flachen und einer gleichm¨aßigen Hanglandschaft noch H¨ange mit ande-
ren Orientierungen oder H¨ ugellandschaften zulassen. Der Faktor w¨are dann die Landschaftsform,
die nominal skaliert ist und z.B. die Werte (oder Faktorstufen)

eben“,

Neigungsrichtung S¨ uden“,

Neigungsrichtung Osten“ und

H¨ ugelig“ annehmen kann. Die Frage, die man dann kl¨aren will, ist,
ob die Landschaftsform einen Einfluss auf die Navigationsleistung hat oder nicht. Weitere Beispiele
sind die Behandlung mit Medikamenten bzw. D¨ ungemitteln (Faktor = Medikament; Faktorstufen
= Dosis), das Geschlecht, oder eine Stimulation in einem sinnesphysiologischen Experiment (Fak-
tor = Reizst¨arke, Faktorstufen = jeweils gew¨ahlte Werte). H¨aufig hat man mehrere unabh¨angige
Faktoren, deren Wirkungen man voneinander abtrennen will. In diesem Fall spricht man von einer
mehrfaktoriellen Varianzanalyse (s.u.).
In Sinne des letzten Kapitels m¨ usste man bei 4 Faktorstufen 4 3/2 = 6 Paarvergleiche
durchf¨ uhren. Neben dem großen Rechnenaufwand entsteht dabei das Problem, dass mit steigen-
der Anzahl von durchgef¨ uhrten Tests das Risiko steigt, dass einzelne Paarvergleiche zuf¨allig das
Signifikanzniveau erreichen. Anders formuliert, ist eine Aussage, die auf sechs einzelnen Tests mit
Signifikanzniveau α beruht, insgesamt weniger signifikant als eine, die mit einem solchen Test belegt
ist. Man kann versuchen, dies durch erh¨ohte Signifikanzforderung an die Einzeltests zu kompensie-
ren (sog. Bonferoni-Korrektur), senkt damit aber die G¨ ute des Gesamtverfahrens.
Die Varianzanalyse (engl.: analysis of variance, ANOVA) l¨ost dieses Problem. Im einfaktoriellen
Fall haben wir wieder eine Messgr¨oße x, die wir in unserem Beispiel als Anzahl der Navigationsfehler
auffassen wollen. Mit x
1
bis x
k
bezeichnen wir die Messungen, die zu den Faktorstufen 1, ..., k
durchgef¨ uhrt wurden, also z.B. die Fehlerzahlen in der flachen, der geneigten und der h¨ ugeligen
Umgebung. Die Anzahl der Messungen soll jeweils n
i
betragen, wobei wir die Gesamtzahl

k
i=1
n
i
mit n bezeichnen. Die Einzelmessungen bezeichnen wir mit einem zweiten Index, x
ij
, wobei j jetzt
von 1 bis n
i
l¨auft. Im Beispiel ist also x
ij
die Fehlerh¨aufigkeit der j-ten Versuchsperson in der i-ten
Landschaft. Eine
¨
Ubersicht ¨ uber die Daten und Bezeichnungen gibt Tabelle 6.1.
Die Hypothesen, die man in diesem Fall testen will, lauten:
49
50 KAPITEL 6. VARIANZANALYSE
Tabelle 6.1: Datentabelle zur einfaktoriellen Varianzanalyse
Faktor

Landschaft“
Stufen 1: flach 2: geneigt 3: h¨ ugelig
Einzel- x
11
x
21
x
31
messungen x
12
x
22
x
32
.
.
.
.
.
.
.
.
.
x
1n
1
x
2n
2
x
3n
3
Summen

n
1
j=1
x
1j
=: x

n
2
j=1
x
2j
=: x

n
3
j=1
x
3j
=: x

Gruppenmittel ¯ x

:= x

/n
1
¯ x

:= x

/n
2
¯ x

:= x

/n
3
Gesamtsumme x
··
:=

k
i=1

n
1
j=1
x
ij
Gesamtmittel ¯ x
··
:= x
··
/n
H
o
: Ex
1
= Ex
2
= ... = Ex
k
H
1
: Es gibt mindestens zwei Gruppen (Faktorstufen) l, m, so dass Ex
l
,= Ex
m
.
In der Varianzanalyse formuliert man die zu testenden Hypothesen h¨aufig auch durch ein so ge-
nanntes Modell der Form
x
ij
= µ +α
i

ij
. (6.1)
Dabei ist µ Erwartungswert ¨ uber alle Bedingungen, angen¨ahert durch ¯ x
··
aus Tabelle 6.1. Die α
i
sind die Erwartungswerte pro Bedingung oder Faktorstufe, angen¨ahert durch die x

/n
i
, und die
ǫ
ij
beschreiben den verbleibenden Fehler, von dem man in der parametrischen ANOVA annimmt,
dass er normalverteilt sei. Gl. 6.1 kann auch als Regressionsgleichung aufgefasst werden und stellt
insofern eine Verbindung zu den allgemeinen linearen Modellen aus Abschnitt 4.4 her.
Man geht diese Fragestellung so an, dass man zun¨achst die Varianz ¨ uber alle Messwerte betrach-
tet. Gilt die H
o
und sind ¨ uberdies auch noch die Varianzen innerhalb der einzelnen Gruppen gleich,
so ist die Gesamtvarianz gleich der Summe der Gruppenvarianzen

. Sind jedoch die Gruppenmit-
telwerte verschieden, so wird sich das bei der Berechnung der Gesamtvarianz so auswirken, dass
ein gr¨oßerer Wert entsteht. Letztlich fragt man also danach, ob die Varianz zwischen den Grup-
pen gr¨oßer ist, als die Varianz innerhalb der Gruppen. Kleine Unterschiede zwischen den Gruppen
k¨onnen also durch große Variation innerhalb der Gruppen verdeckt werden. Ein Beispiel zeigt Ta-
belle 6.2: Bei der Variablen x ist die Varianz in den Gruppen null, die Unterschiede zwischen den
Gruppen sind daher relevant. Bei der Variablen y ist die gleiche Gesamtvarianz vorhanden (gleiche
Einzelwerte!), doch entsteht diese Varianz bereits innerhalb der Gruppen.
Wir verwenden im folgenden die in Tabelle 6.1 eingef¨ uhrte Notation. Ein Punkt im Index (z.B.
x

bedeutet, dass ¨ uber den Index, der durch den Punkt ersetzt wurde, summiert wurde, x

ist
also die Summe der Messwerte in Gruppe i. Die Anzahl der Summanden in dieser Gruppe sind die
schon besprochenen n
i
. Zwei Punkte im Index bedeuten, dass ¨ uber beide Indizes summiert wurde,
x
··
ist also die Summe aller Messwerte. Querstriche bedeuten Mittelwerte. Zus¨atzlich schreiben wir

Dies gilt streng genommen nur unter der Annahme, dass die Populationen statistisch unabh¨angig sind; vgl.
Bemerkung am Ende des Abschnitts
6.1. EINFAKTORIELLE VARIANZANALYSE 51
Tabelle 6.2: Beispiel zur Varianzzerlegung. Beide Messungen haben die gleiche Gesamtvarianz aber
unterschiedliche Gruppenvarianzen.
x
1
x
2
x
3
1 2 3
1 2 3
1 2 3
1 2 3
¯ x

= 1 2 3
y
1
y
2
y
3
1 3 3
3 3 1
2 1 2
2 1 2
¯ y

= 2 2 2
immer auch die Formeln mit Summenzeichen etc. aus, um den Vergleich der beiden Notationen zu
erm¨oglichen.
Statt der Varianzen betrachten wir die Summen der quadratischen Abweichungen. F¨ ur die
Stichprobe insgesamt gilt:
Q
gesamt
=
k

i=1
n
i

j=1
(x
ij
− ¯ x
··
)
2
=
k

i=1
n
i

j=1
_
_
x
ij

1
n
k

i=1
n
i

j=1
x
ij
_
_
2
(6.2)
Die Variablen x und y aus Tabelle 6.2 liefern hier genau das gleiche Ergebnis Q
gesamt
= 8, weil die
Reihenfolge der Terme in der Summe keine Rolle spielt.
Innerhalb jeder Gruppe erhalten wir die quadratischen Abweichungen:
Q
i
=
n
i

j=1
(x
ij
− ¯ x

)
2
=
n
i

j=1
_
_
x
ij

1
n
i
n
i

j=1
x
ij
_
_
2
. (6.3)
Die Summe dieser Q
i
ist ein Maß f¨ ur die gesamte quadratische Variation innerhalb der Gruppen:
Q
innerhalb
=
k

i=1
Q
i
=
k

i=1
n
i

j=1
(x
ij
− ¯ x

)
2
=
k

i=1
n
i

j=1
_
_
x
ij

1
n
i
n
i

j=1
x
ij
_
_
2
. (6.4)
F¨ ur die Variable x in Tabelle 6.2 nehmen alle Q
i
und Q
innerhalb
den Wert 0 an; f¨ ur die Variable y
ist Q
1
= Q
3
= 2, Q
2
= 4 und Q
innerhalb
= 8.
Schließlich k¨onnen wir noch die quadratischen Abweichungen betrachten, die entstehen, wenn
wir jeden Wert durch sein Gruppenmittel ersetzen und dann die gesamte Abweichung bestimmen:
Q
zwischen
:=
k

i=1
n
i
(¯ x

− ¯ x
··
)
2
=
k

i=1
n
i
_
_
1
n
i
n
i

j=1
x
ij

1
n
k

i=1
n
i

j=1
x
ij
_
_
2
(6.5)
Der Faktor n
i
erkl¨art sich dabei daraus, dass jeder Eintrag in Gruppe i durch das Gruppenmittel
¯ x

ersetzt wurde; dieser Wert tritt daher n
i
mal auf. F¨ ur die Variable x in Tabelle 6.2 nimmt
Q
zwischen
den Wert 8 an, f¨ ur y ist Q
zwischen
= 0. Allgemein kann man zeigen, dass die Beziehung
Q
gesamt
= Q
innerhalb
+Q
zwischen
(6.6)
52 KAPITEL 6. VARIANZANALYSE
f¨ ur unabh¨angige Zufallsvariable immer gilt (vgl. etwa Fisz 1980, p. 611).
Als Pr¨ ufgr¨oße w¨ahlt man nun das Verh¨altnis zwischen den Stichprobenvarianzen in den Grup-
pen und zwischen den Gruppen. Dabei muss man wegen der unterschiedlichen Anzahl von Zahlen
bzw. Mittelwerten, ¨ uber die die Varianzen bestimmt werden, noch bestimmte Vorfaktoren ber¨ uck-
sichtigen

. Die Pr¨ ufgr¨oße lautet:
F =
Varianz zwischen den Gruppen
Varianz innerhalb der Gruppen
=
1
k−1
Q
zwischen
1
n−k
Q
innerhalb
(6.7)
Setzt man hier die oben angegeben Ausdr¨ ucke f¨ ur Q
zwischen
und Q
innerhalb
ein, so erh¨alt man eine
etwas un¨ ubersichtliche aber korrekte Formel f¨ ur F. Einfachere und vor allem leichter implemen-
tierbare Ausdr¨ ucke erh¨alt man durch Anwendung der so genannten Steinerschen Formel
1
n
n

i=1
_
a
i

1
n
n

i=1
a
i
_
2
=
1
n
n

i=1
a
2
i

_
1
n
n

i=1
a
i
_
2
, (6.8)
die man durch Ausrechnen des binomischen Ausdrucks elementar beweisen kann.
Als Regel f¨ ur die Berechnung der Pr¨ ufgr¨oße halten wir fest:
F =
n −k
k −1
k

i=1
x
2

n
i

x
2
··
n
k

i=1
n
i

j=1
x
2
ij

k

i=1
x
2

n
i
(6.9)
=
n −k
k −1
k

i=1
1
n
i
_
_
n
i

j=1
x
ij
_
_
2

1
n
_
_
k

i=1
n
i

j=1
x
ij
_
_
2
k

i=1
n
i

j=1
x
2
ij

k

i=1
1
n
i
_
_
n
i

j=1
x
ij
_
_
2
(6.10)
Die Zufallsvariable F folgt der so genannten Fisherschen F-Verteilung mit

Freiheitsgraden“ k −1
und n − k. Diese Verteilung ist tabelliert. F¨ ur einen gegebenen Wert der Pr¨ ufgr¨oße wird die die
Signifikanz automatisch in MatLab bestimmt oder aus entsprechenden Tabellen (z.B. in Bortz
1999) abgelesen.
Wie beim t-Test haben wir vorausgesetzt, dass die Populationen x
i
statistisch unabh¨angig
sind. Hierzu muss jede experimentelle Bedingung von unterschiedlichen Versuchspersonengruppen
durchgef¨ uhrt werden; man nennt dies

between subject design“. Bevorzugt man f¨ ur ein gegebe-
nes Experiment die Messung aller Bedingungen an ein und der selben Versuchspersonengruppe,
so spricht man von einem “within subject design”. In diesem Fall ist die Voraussetzung der Un-
abh¨angigkeit nicht erf¨ ullt. Man muss dann so genannte Tests “mit Messwiederholung” (“repeated
measures ANOVA”) anwenden, wie z.B. in Lehrb¨ uchern von Bortz (1999) oder Sachs & Hedderich
(2009) beschrieben.
Eine nicht-parametrische Variante der Varianzanalyse ist der Friedman-Test, vgl. z.B. Larsen
& Marx (1986).

Man w¨ urde eigentlich erwarten, dass die Stichprobenvarianz zwischen den Gruppen durch die Formel
V
zwischen
= Q
zwischen
/k gegeben wird. Tats¨achlich kann man aber zeigen, dass der so definierte Sch¨atzer
den tats¨achlichen Wert um den Faktor k/(k − 1) untersch¨atzt. Der so genannte erwartungstreue Sch¨atzer ist
daher V
zwischen
= Q
zwischen
/(k − 1). Analog erh¨alt man den erwartungstreuen Sch¨atzer von V
innerhalb
zu
Q
innerhalb
/(n −k).
6.1. EINFAKTORIELLE VARIANZANALYSE 53
a.
¸
`
Faktor 1
x
µ
kein Effekt
b.
¸
`
Faktor 1
x
µ
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
He1
µ +α
1
µ +α
3
c.
¸
`
Faktor 1
x
µ
He2
µ +β
1
µ +β
2
d.
¸
`
Faktor 1
x
µ
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
He1+2
e.
¸
`
Faktor 1
x
µ
.
.
.
.
.
.
.
.
. ~
~
~
~
~
~
~
~
~
Int
f.
¸
`
Faktor 1
x
µ
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
He1+Int
g.
¸
`
Faktor 1
x
µ
.
.
.
.
.
.
.
.
.
~
~
~
~
~
~
~
~
~
He2+Int
h.
¸
`
Faktor 1
x
µ
.
.
.
.
.
.
.
..
.
.
.
.
.
.
.
.
.
He1+2+Int
Abbildung 6.1:
¨
Ubersicht ¨ uber m¨ogliche Effekte in einer zweifaktoriellen ANOVA mit drei Stufen
f¨ ur Faktor 1 (horizontale Achse) und zwei Stufen f¨ ur Faktor 2 (blaue und rote Linien). a. Kein
Effekt; in Gl. 6.11 gilt α
i
= β
j
= (αβ)
ij
= 0. b. Haupteffekt 1 ohne weitere Effekte. c. Haupteffekt
2 ohne weitere Effekte. d. Kombination beider Haupteffekte. e. Interaktion ohne Haupteffekte. f.
Haupteffekt 1 zusammen mit einer Interaktion. g. Haupteffekt 2 zusammen mit einer Interaktion.
h. Haupteffekte 1 und 2 gemeinsam mit einer Interaktion.
54 KAPITEL 6. VARIANZANALYSE
6.2 Zweifaktorielle Varianzanalyse
In vielen F¨allen werden die verschiedenen experimentellen Bedingungen nach mehr als einem Faktor
geordnet sein. Behandelt man etwa mit zwei Medikamenten gleichzeitig, so kann man fragen, ob
(i) Medikament 1 einen Effekt hat, ob (ii) Medikament 2 einen Effekt hat, oder ob (iii) die beiden
Medikamente nur in Kombination, nicht aber alleine wirken. Ein entsprechendes experimentelles
Design hat zwei Faktoren, deren Faktorstufen der Dosierung der beiden Medikamente entsprechen.
Man spricht in den o.a. F¨allen (i) und (ii) von Haupteffekten, im Fall (iii) von einer Interaktion.
Das lineare Modell f¨ ur den zweifaktoriellen Fall lautet:
x
ijk
= µ +α
i

j
+ (αβ)
ij

ijk
. (6.11)
x
ijk
ist die k-te Einzelmessung in der Experimentalbedingung, in der der Faktor 1 die Faktorstufe i
annimmt und Faktor 2 die Faktorstufe j. Liegt ein Haupteffekt in Faktor 1 vor, so werden die α
i
,= 0
sein, bei einem Haupteffekt in Faktor 2 sind entsprechend die β
j
,= 0. Der Ausdruck (αβ)
ij
ist nicht
als Produkt gemeint, sondern als Koeefizient der Interaktion; liegt eine solche vor, sind diese Werte
von null verschieden. Der verbleibende Fehler ǫ tr¨agt drei Indizes, da er f¨ ur jede Einzelmessung
angenommen werden muss. Wie schon bei der einfaktoriellen ANOVA nimmt man an, dass die
ǫ
ijk
und damit die x
ijk
normalverteilt sind. Sind sie statistisch unabh¨angig voneinander, spricht
man on einer ANOVA ohne Messwiederholung. Sind sie dagegen abh¨angig, etwa weil die gleiche
Versuchsperson k in einem

within subject design“ in allen Bedingungen getestet wurde, liegt eine
ANOVA mit Messwiederholung (

repeated measures ANOVA“) vor.
Die Reihenfolge, in der die drei Faktorstufen in Abb. 6.1 auf der horizontalen Achse aufgetragen
sind, spielt in der Analyse keine Rolle. Dementsprechend m¨ ussen die Kurven f¨ ur die Messwerte x
im Allgemeinen keine Geraden sein. Letztlich testet die ANOVA immer nur, ob die Mittelwerte
der jeweiligen Gruppen voneinander abweichen oder nicht.
6.3 Literatur
Bortz, J. (1999). Statistik f¨ ur Sozialwissenschaftler. Springer Verlag, Heidelberg, 5. Aufl..
Fisz, M. (1980). Wahrscheinlichkeitsrechnung und mathematische Statistik. VEB Deutscher Verlag
der Wissenschaften, Berlin.
Larsen, R.J., Marx, M.L. (1986). An Introduction to Mathematical Statistics and Its Applications.
Prentice Hall, Englewood Cliffs, NJ.
Sachs, L., Hedderich J. (2009). Angewandte Statistik. Springer Verlag, Berlin, Heidelberg, New
York, 13. Aufl.
Restat, J., Steck, S. D., Mochnatzki, H. F., and Mallot, H. A. (2004). Geographical slant facilitates
navigation and orientation in virtual environments. Perception, 33:667 – 687.
Kapitel 7
Bivariate Statistik und die
2-dimensionale Normalverteilung
In diesem Kapitel betrachten wir die h¨aufige Situation, dass in einer Messung gleichzeitig, d.h.
f¨ ur einen Wert der unabh¨angigen Variablen, zwei unterschiedliche abh¨angige Variable x und y
gemessen werden. Hier sind einige Beispiele f¨ ur diese Situation:


Merkmalsvektoren“: bei einem Exemplar misst man zwei (oder mehrere) Merkmale, z.B. die
L¨ange des Hinterlaufs und die L¨ange der Ohrmuschel bei einer Maus, Frequenzen mehrerer
Allele in einer Population, Zeitdauer und Maximalamplitude eines Aktionspotentials oder die
Intensit¨at einer Vokalisation in verschiedenen Frequenzb¨andern.
• Zustandsgr¨oßen: bei einem neuronalen Netzwerk misst man zu einem Zeitpunkt die Aktivit¨at
zweier (oder mehrerer) Zellen. In einer Blutprobe k¨onnte man z.B. den Sauerstoffgehalt und
den Zuckergehalt gleichzeitig messen.
• Positionsmessungen: In der Ebene sind Positionsmessungen immer zweidimensional, z.B. in
Form einer x- und einer y-Koordinate. Beispiele sind Messung von Blickbewegungen (Sakka-
den auf geblitzte Ziele), die G¨ ute mit der ein vorher gesehener Ort mit verbundenen Augen
aufgesucht werden kann (

walking without vision“), oder die Genauigkeit von Zeigebewegun-
gen mit dem Finger. Im Praktikum betrachten wir Zeigebewegungen mit der Computermaus.
Multivariate Messungen sind eigentlich nicht die Ausnahme, sondern die Regel. Ein Extremfall ist
die Aufzeichnung von Bildern, bei der man den Intensit¨atswert jedes Pixels als eigene Variable
auffassen kann. Wir werden im n¨achsten Kapitel auf solche multivariate Probleme zur¨ uckkommen.
Hier besch¨aftigen wir uns zun¨achst mit dem zweidimensionalen Fall.
7.1 Korrelation und Kovarianz
Die Messwerte im bivariaten Fall bilden zweidimensionale Vektoren der Form (x
i
, y
i
). Dabei indi-
ziert i die unabh¨angige Variable, also etwa den Zeitpunkt, zu dem ein Systemzustand gemessen
wird, die Nummer des Versuchsdurchgangs beim Zeigeversuch, oder das M¨auseexemplar, dessen ta-
xonomische Merkmale im Vektor zusammengefasst sind. Wir nehmen an, dass n solcher Messungen
vorliegen.
Eine wichtige Kenngr¨oße f¨ ur die Beziehung der Messgr¨oßen zueinander ist die Kovarianz. Sie
betrachtet Abweichungen der Messgr¨oßen von ihren Mittelwerten. Weichen bei ein und dem selben
55
56 KAPITEL 7: BIVARIATE STATISTIK
Exemplar beide Messgr¨oßen in der Regel gleichsinnig von ihrem Mittelwert ab, ist also bei un-
gew¨ohnlich großem x auch y vergr¨oßert bzw. bei kleinem x auch y eher klein, so ist die Kovarianz
positiv. Ist das Gegenteil der Fall (großes x und kleines y bzw. kleines x und großes y), so ist sie
negativ. Man schreibt:

cov(x, y) :=
1
n
n

i=1
(x
i
− ¯ x)(y
i
− ¯ y); (7.1)
dabei bezeichnen
¯ x :=
1
n
n

i=1
x
i
und ¯ y :=
1
n
n

i=1
y
i
(7.2)
die Mittelwerte von x und y. Durch Ausrechnen der Klammern in Gl. 7.1 erh¨alt man die Gleichung
cov(x, y) :=
1
n
n

i=1
(x
i
− ¯ x)(y
i
− ¯ y) =
1
n
n

i=1
x
i
y
i
− ¯ x¯ y, (7.3)
die man zum praktischen Ausrechnen der Kovarianz benutzt.
Die Kovarianz einer Variablen mit sich selbst bezeichnet man als Varianz; sie kann nicht negativ
werden.
var(x) := cov(x, x) =
1
n
n

i=1
(x
i
− ¯ x)
2
=
1
n
n

i=1
x
2
i
− ¯ x
2
. (7.4)
Normalisiert man die Kovarianz auf die Varianzen der beteiligten Variablen, so entsteht eine Gr¨oße,
die auf Werte zwischen −1 und +1 beschr¨ankt ist; man bezeichnet sie als Korrelation:
cor(x, y) :=
cov(x, y)
_
var(x) var(y)
. (7.5)
In Abschnitt 2.3.4 wurde dargestellt, wie man die Varianzen und Kovarianzen eines dreidimen-
sionalen Datensatzes mit Hilfe einer Matrixmultiplikation aus einer 3 n Datenmatrix bestimmt.
Die Rechnung liefert eine symmetrische

Kovarianzmatrix“, auf deren Diagonale die Varianzen ste-
hen, w¨ahrend die Kovarianzen jeweils am Kreuzungspunkt der den Variablen zugeprdneten Spalten
und Zeilen auftauchen.
7.2 Regressionsgeraden und Hauptachsen
Tr¨agt man die zweidimensionalen Messwerte (x
i
, y
i
) in ein Diagramm ein, so erh¨alt man eine
Punktwolke. Der Mittelpunkt oder richtiger der Schwerpunkt dieser Punktwolke ergibt sich aus den
Mittelwerten der beiden Variablen; er hat die Koordinaten (¯ x, ¯ y). Die Gesamtfl¨ache der Punktwolke
h¨angt mit der Varianz und Kovarianz der Variablen zusammen, dabei gibt var(x) die Ausdehnung
in x-Richtung an, var(y) die Ausdehung in y-Richtung und cov(x, y) die Abweichung der Grund-
fl¨ache von dem aus den beiden Varianzen gebildeten Rechteck. Ist die Kovarianz groß, so h¨angen
die beiden Messgr¨oßen linear zusammen, und die Punktwolke wird entlang einer Geraden elongiert
sein, die diagonal in dem von den Varianzen aufgespannten Rechteck liegt.
Will man den linearen Zusammenhang zwischen x und y aus den Daten sch¨atzen, so gibt es
drei M¨oglichkeiten (vgl. Abb. 7.1):

Die Formel 7.1 gilt streng genommen nur f¨ ur die Grundgesamtheiten der Zufallsvariablen x und y. Hat man
dagegen reale Stichproben, so ist cov(x, y) ebenfalls vom Zufall abh¨angig und wird bei einer exakten Wiederholung
des Experiments im Allgemeinen nicht genau gleich herauskommen. In diesem Fall kann man also nur einen Sch¨atz-
wert f¨ ur die Kovarianz bestimmen. Man kann ausrechnen, dass ein erwartungstreuer Sch¨atzer der Kovarianz durch
eine modifizierte Gleichung gegeben wird, in der man den Faktor
1
n
durch
1
n−1
ersetzt. Wir werden dieses Problem
hier nicht weiter verfolgen, vgl. aber die Bemerkung nach Gl. 5.9 auf Seite 46.
7.3. EXKURS: ELLIPSEN 57
-4 -2 0 2 4
-8
-6
-4
-2
0
2
4
¯ x
¯ y
a.
-4 -2 0 2 4
-8
-6
-4
-2
0
2
4
¯ x
¯ y
b.
-4 -2 0 2 4
-8
-6
-4
-2
0
2
4
¯ x
¯ y
c.
Abbildung 7.1: Zweidimensionale Punktwolke. Die Daten sind zuf¨allig aus einer zweidimensionalen
Normalverteilung gezogen. a. Regressionsgerade der Regression von y auf x (vgl. Abschnitt 4.3)
minimiert die vertikalen Abst¨ande der Punkte von der Geraden. b. Regression von x auf y minimiert
die horizontalen Abst¨ande der Punkte von der Geraden. c. Die Hauptachse minimiert die senkrecht
zur Gerade gemessenen Abst¨ande der Punkte.
1. Regression von y auf x: Dieser Fall wurde im Kapitel

Kurvenfitten“ besprochen. Man erh¨alt
eine Gerade, die die Abst¨ande der Punkte in y-Richtung minimiert (Abb. 7.1a).
2. Regression von x auf y: Vertauscht man die Rollen von x und y bei der Berechnung der
Regressionsgeraden, so erh¨alt man wiederum eine Gerade, die aber jetzt den Fehler in x-
Richtung minimiert. Die beiden Regressionsgeraden sind im allgemeinen nicht gleich; sie
weichen umso mehr voneinander ab, je kleiner der Korrelationskoeffizient cor(x, y) wird
(Abb. 7.1b).
3. Schließlich gibt es die M¨oglichkeit, die Abweichung zwischen Datenpunkten und Fitgerade
senkrecht zu dieser Geraden zu messen. In diesem Fall liefert die Vertauschung von x und
y die gleiche Gerade. Man bezeichnet sie als Hauptachse der Punktwolke. N¨ahert man die
Punktwolke durch eine Ellipse an, so entspricht sie der großen Achse dieser Ellipse (Abb. 7.1c).
7.3 Exkurs: Ellipsen
Punktwolken wie die in Abb. 7.1 gezeigten kann man durch Ellipsen beschreiben, die einen be-
stimmten Prozentsatz der Messpunkte einschließen. In diesem Abschnitt beprechen wir kurz die
analytische Geometrie solcher Ellipsen, in Matrix-Darstellung. Er vertieft das Verst¨andnis der
zweidimensionalen Normalverteilung, kann aber beim ersten Lesen ¨ ubersprungen werden.
Beliebige Ellipsen kann man sich aus einem Kreis entstanden denken, indem man nacheinander
zwei der in Abschnitt 2.3.1 bereits eingef¨ uhrten
¨
Ahnlichkeitstransformationen auf ihn anwendet.
Der Kreis wird zuerst entlang der Koordinatenachsen gestreckt oder gestaucht, wodurch eine ach-
senparallele Ellipse entsteht (Abb. 7.2b). Achsenparallel soll dabei bedeuten, dass die große und
kleine Achse der Ellipse entlang der x
1
- bzw. x
2
-Achse des Koordinatensystems liegen. Hatte der
Kreis den Radius 1, so entsprechen die Halbachsen gerade den Streckungs- bzw. Stauchungsfakto-
ren der Transformation. Im zweiten Schritt wird die Ellipse dann noch gedreht, wobei die L¨angen
der Halbachsen nicht mehr ver¨andert werden (Abb. 7.2c).
58 KAPITEL 7: BIVARIATE STATISTIK
a.
x
2
x
1
b.
y
2
y
1
b.
z
2
z
1
Abbildung 7.2: Entstehung einer Ellipse aus einem Kreis (a.) durch achsenparallele Streckung bzw.
Stauchung (b.) und nachfolgende Drehung (c.) Die große und kleine Achse der Ellipse ist ebenfalls
eingezeichnet.
Ein Kreis um den Koordinatenursprung mit Radius 1 enth¨alt alle Punkte (Vektoren) der Ebene,
die die Bedingung
x
2
1
+x
2
2
= x

x = 1 (7.6)
erf¨ ullen. Als Streckung/Stauchung betrachten wir nun eine Matrix A der Form:
A =
_
_
λ
1
0
0 λ
2
_
_
. (7.7)
Man ¨ uberzeugt sich leicht davon, dass die Vektoren e
1
= (1, 0)

und e
2
= (0, 1)

Eigenvektoren
dieser Matrix sind und zwar mit den Eigenwerten λ
1
bzw. λ
2
. Die Koordinatentransformation, die
den
¨
Ubergang von Abbildung 7.2a nach Abb. 7.2b beschreibt, lautet nun:
x →y := A x. (7.8)
Wir l¨osen diese Gleichung nach x auf und setzen dies in die Bestimmungsgleichung des Kreises
(Gl. 7.6) ein:
(A
−1
y)

(A
−1
y) = 1 (7.9)
y

(A
−1
)

A
−1
y = 1. (7.10)
Hierbei wurde die Beziehung (AB)

= B

A

benutzt, die f¨ ur die Transposition allgemein gilt.
Gleichung 7.10 ist die Gleichung der achsenparallelen Ellipse aus Abb. 7.2b. Wir f¨ uhren f¨ ur die
Matrix in der Mitte des Ausdrucks 7.10 den neuen Namen M ein und erhalten:
M := (A
−1
)

A
−1
=
_
_
1
λ
2
1
0
0
1
λ
2
2
_
_
. (7.11)
Die entsprechenden Gleichungen der Ellipse in Matrixschreibweise und konventioneller Schreibwese
lauten
y

My = 1 ⇐⇒
y
2
1
λ
2
1
+
y
2
2
λ
2
2
= 1. (7.12)
Hieraus ließt man ab, dass die L¨angen der Halbachsen der Ellipse y

My = 1 die Wurzeln der
Eigenwerte von M sind. M ist eine beliebige diagonale 2 2-Matrix.
7.4. DIE ZWEIDIMENSIONALE NORMALVERTEILUNG 59
Die Drehung beschreiben wir nun durch eine Matrix
D =
_
_
cos φ sin φ
−sin φ cos φ
_
_
(7.13)
und eine Transformation
y →z := Dy = DA x. (7.14)
Bevor wir die Bestimmungsgleichung der Ellipse, y

My = 1, transformieren, beachten wir, dass die
Inverse einer Drehmatrix mit Drehwinkel φ gleich der Drehmatrix mit Winkel −φ ist. Weiterhin
ist cos(−φ) = cos φ und sin(−φ) = −sin φ. Man hat daher:
D
−1
=
_
_
cos φ −sin φ
sin φ cos φ
_
_
= D

. (7.15)
Die Eigenschaft D
−1
= D

ist charakteristisch f¨ ur Drehungen und Spiegelungen. Matrizen, die
diese Eigenschaft erf¨ ullen, heißen unit¨ar.
Wir setzen nun Gl. 7.14 in die Bestimmunggleichung der Ellipse ein und erhalten:
(D
−1
z)

M(D
−1
z) = 1 (7.16)
z

DMD

z = 1. (7.17)
Dies ist die allgemeine Bestimmungsgleichung einer Ellipse in Matrixschreibweise. Die Matrix
DMD

ist symmetrisch; ihre Eigenvektoren sind die Richtungen der großen und kleinen Halb-
achse der Ellipse. Die Wurzeln der Eigenwerte sind die L¨angen der Halbachsen.
7.4 Die zweidimensionale Normalverteilung
7.4.1 Unkorrelierte Daten
Wir kehren nun zur Betrachtung einer zweidimensionalen Stichprobe (x
1
, y
1
), (x
2
, y
2
), . . . (x
n
, y
n
)
zur¨ uck. Ein besonders wichtiger Fall in praktischen Messproblemen besteht darin, dass die Gr¨oßen
x und y normalverteilt sind. Misst man etwa eine große Stichprobe von x und tr¨agt die relative
H¨aufigkeit der erhaltenen x-Werte gegen diese x-Werte auf, so erh¨alt man ein Histogramm der
x-Werte. In der Grundgesamtheit entspricht dem Histogramm die so genannte Verteilungsdichte
oder Dichtefunktion, die f¨ ur die Normalverteilung die bekannte Form hat:
p(x) =
1
_
2π var(x)
exp
_

1
2
(x − ¯ x)
2
var(x)
_
(7.18)
Die Wurzel aus der Varianz bezeichnet man dabei auch als Standardabweichung, σ :=
_
var(x).
Hat jetzt y die gleiche Verteilung und sind x und y unkorreliert, so erh¨alt man die gemeinsame
Verteilungsdichte (in der Stichprobe: das gemeinsame Histogramm) einfach durch Multiplikation
der einzelnen Dichten

:
p(x, y) =
1

_
var(x) var(y)
exp
_

1
2
_
(x − ¯ x)
2
var(x)
+
(y − ¯ y)
2
var(y)
__
(7.19)

Allgemein gilt, dass Daten mit unabh¨angigen Verteilungen auch unkorreliert sind. Nur f¨ ur die Normalverteilung
gilt auch die Umkehrung: unkorrelierte, normalverteilte Daten sind auch unabh¨angig.
60 KAPITEL 7: BIVARIATE STATISTIK
Gleichung 7.19 beschreibt eine zweidimensionale Glockenfl¨ache ¨ uber der (x, y)-Ebene. Die Glocken-
form selbst ist f¨ ur die weitere Diskussion von untergeordneter Bedeutung. Wir betrachten daher
jetzt nur noch H¨ohenlinien der Glockenfl¨ache. Solche H¨ohenlinien erh¨alt man, wenn man p(x, y)
konstant setzt. Wir w¨ahlen p
o
:= e
−1/2
/(2π
_
var(x) var(y)) und erhalten als Gleichung der H¨ohen-
linie:
(x − ¯ x)
2
var(x)
+
(y − ¯ y)
2
var(y)
= 1 (7.20)
Ist var(x) = var(y) =: σ
2
, so beschreibt diese Gleichung einen Kreis mit dem Radius σ um den
Schwerpunkt der Punktwolke, (¯ x, ¯ y). Auch alle anderen H¨ohenlinien sind in diesem Fall Kreise um
diesen Punkt, nat¨ urlich mit verschiedenen Radien.
Sind die Varianzen ungleich, z.B. var(x) > var(y), so erh¨alt man eine

achsenparallele“ Ellipse,
also eine Ellipse, deren große Halbachse horizontal (in x-Richtung) und deren kleine Halbachse
vertikal (in y-Richtung) verl¨auft. Ist var(y) > var(x), so ist die gr¨oßere Halbache vertikal. In
beiden F¨allen fallen die Halbachsen der Ellipse mit den Achsen des Koordinatensystems zusammen;
schr¨age Ellipsen k¨onnen bei unkorrelierten Daten nicht vorkommen. Im Allgemeinen bezeichnen
wir die H¨ohenlinie einer zweidimensionalen Normalverteilung als Fehlerellipse.
Zum Schluss dieses Abschnitts sei noch auf die Matrix-Schreibweise der Gleichung 7.20 hinge-
wiesen, die uns sp¨ater die Definition mehrdimensionaler Normalverteilungen erleichtern wird:
(x − ¯ x, y − ¯ y)
_
_
1
var(x)
0
0
1
var(y)
_
_
_
_
x − ¯ x
y − ¯ y
_
_
= 1 (7.21)
7.4.2 Korrelierte Daten
Im Fall korrelierter Daten wird die Ellipse, die die Punktwolke umschließt, von den Koordinaten-
achsen weggedreht sein. Die Gleichungen solcher Ellipsen enthalten nicht nur Terme in x
2
und
y
2
, sondern auch einen Mischterm in xy. In der Matrix-Schreibweise (Gl. 7.21) erh¨alt man solche
Terme einfach, indem man die dort mit Nullen besetzen Nebendiagonalen mit den entsprechenden
Faktoren besetzt. Wie schon erw¨ahnt, wird dabei die Kovarianz eine Rolle spielen.
Ohne die Ausrechnung im Detail vorzuf¨ uhren, geben wir hier lediglich das Ergebnis an. Die
Fehlerellipse einer allgemeinen zweidimensionalen Zufallsvariablen hat die Form:
(x − ¯ x, y − ¯ y)
_
_
δ var(y) −δ cov(x, y)
−δ cov(x, y) δ var(x)
_
_
_
_
x − ¯ x
y − ¯ y
_
_
= 1. (7.22)
mit
δ :=
1
var(x) var(y) − cov
2
(x, y)
(7.23)
Die Matrix in Gl. 7.22 entspricht damit der Matrix DMD

in der allgemeinen Ellipsengleichung,
Gl. 7.17. Gleichung 7.22 geht in Gl. 7.21 ¨ uber, wenn die Kovarianz null wird.
Die Matrix in Gl. 7.22 ist nichts anderes als die Inverse der so genannten Kovarianzmatrix C
des Datensatzes,
C :=
_
_
var(x) cov(x, y)
cov(x, y) var(y)
_
_
. (7.24)
Man erh¨alt damit die allgemeine Form der zweidimensionalen Normalverteilung:
p(x, y) =
1


det C
exp
_

1
2
(x − ¯ x, y − ¯ y)C
−1
(x − ¯ x, y − ¯ y)

_
(7.25)
7.5. FEHLERELLIPSEN F
¨
UR STICHPROBEN 61
-6 -4 -2 0 2 4
-8
-6
-4
-2
0
2
4
¯ x
¯ y
Abbildung 7.3: Fehlerellipse f¨ ur die Stichprobe aus
Abb. 7.1. Die lange Achse der Ellipse liegt in Rich-
tung der ersten Hauptachse des Datensatzes. Im Fall
normalverteilter Daten liegen innerhalb der Ellipse
39,35% der Punkte.
Dabei bezeichnet det die Determinante der Matrix,
det C = var(x) var(y) − cov
2
(x, y); (7.26)
sie ist ein Maß f¨ ur Gesamtvarianz der Verteilung.
Gleichung 7.25 zeigt die zweidimensionale Normalverteilung in gr¨oßtm¨oglicher Analogie zum
eindimensionalen Fall. Im Vergleich zum eindimensionalen Fall wird die Division durch die Vari-
anz (im Exponenten) durch die Multiplikation mit der Inversen der Kovarianzmatrix ersetzt, die
Standardabweichung im Vorfaktor wird durch die Wurzel aus der Determinante der Kovarianzma-
trix ersetzt. Setzt man im eindimensionalen Fall als Kovarianzmatrix die 1 1 Matrix mit dem
einzigen Koeffizienten var(x) an, so gehen beide Gleichungen ineinander ¨ uber, bis auf den Nor-
mierungsfaktor, der im zweidimensionalen Fall 1/(2π) lautet und im eindimensionalen Fall 1/

2π.
Im allgemeinen, n-dimensionalen Fall lautet der Normierungsfaktor 1/


n
.
7.5 Fehlerellipsen f¨ ur Stichproben
Zu einer gegebenen Stichprobe kann man die Kovarianzmatrix nach den Gleichungen 7.1 - 7.4 sowie
7.24 leicht ausrechnen. Die Fehlerellipse hat dann die Gleichung:
(x − ¯ x, y − ¯ y)C
−1
(x − ¯ x, y − ¯ y)

= 1 (7.27)
Um diese Ellipse zu plotten, bestimmt man zun¨achst die Achsen. Man erh¨alt sie als die Eigenvek-
toren der Matrix C
−1
. Wir bezeichnen sie mit e
1
und e
2
. Wir zeigen jetzt, dass die Eigenvektoren
von C auch Eigenvektoren von C
−1
sind. Sei also e ein Eigenvektor von C mit Eigenwert λ ,= 0.
Man hat dann:
Ce = λe. (7.28)
Multipliziert man von links mit C
−1
, so erh¨alt man
C
−1
Ce = λC
−1
e (7.29)
1
λ
e = C
−1
e. (7.30)
e ist also auch Eigenvektor von C
−1
, allerdings mit Eigenwert 1/λ. Da man die Eigenvektoren
nach der Gr¨oße der zugeh¨origen Eigenwerte anordnet, ist der erste Eigenvektor einer 2 2 Matrix
der zweite Eigenvektor der Inversen dieser Matrix und umgekehrt.
62 KAPITEL 7: BIVARIATE STATISTIK
F¨ ur unsere Fehlerellipse ben¨otigen wir die Eigenwerte und Eigenvektoren von C
−1
. Wir brau-
chen aber, wie gerade gesehen, zu ihrer Bestimmung die Inversion von C garnicht auszuf¨ uhren.
Es gen¨ ugt, wenn wir die Eigenvektoren und Eigenwerte von C berechnen; wir bezeichnen sie mit
λ
1
, e
1
und λ
2
, e
2
.
Wir suchen nun eine parametrische Beschreibung der Ellipse, die wir in eine Plot-Routine
eingeben k¨onnen. Dazu denken wir uns einen um den Mittelpunkt der Datenwolke umlaufenden
Zeiger. Zu jedem Winkel φ soll dann die L¨ange dieses Zeigers angegeben werden. Die L¨ange in
Richtung des ersten Eigenvektors erhalten wir aus folgende
¨
Uberlegung:
Es sei r die gesuchte L¨ange, der Punkt auf der Ellipse ist also re
1
. Aus der Bestimmungsglei-
chung folgt:
1 = (re
1
)

C
−1
(re
1
) (7.31)
=
r
2
λ
1
|e
1
|
2
(7.32)
und weiter r =

λ
1
. Analog bestimmt man die L¨ange in Richtung des zweiten Eigenvektors.
Schließlich erh¨alt man die Gleichung der Fehlerellipse:
r(φ) = (¯ x, ¯ y)

+
_
λ
1
cos φ e
1
+
_
λ
2
sin φ e
2
. (7.33)
Wir zeichnen diese Kurve f¨ ur φ ∈ (0, 2π) ¨ uber die Datenwolke und erhalten damit die gew¨ unschte
Fehlerellipse.
F¨ ur eine zweidimensionale Normalverteilung enth¨alt die Fehlerellipse 39,35 % der Messwerte.
Man erh¨alt den Wert durch Integration der Verteilungsdichte ¨ uber die Fehlerellipse. Wir betrach-
ten hier die Standardnormalverteilung, bei der die Kovarianzmatrix die Einheitsmatrix ist und
intergrieren ¨ uber eine Kreisscheibe mit dem Radius 1
_
π
−π
_
1
0
1

exp¦−
r
2
2
¦rdrdφ = (7.34)
=
_
1
0
r exp¦−
r
2
2
¦dr =
_
−exp¦−
r
2
2
¦
_
1
0
= 1 −
1

e
= 0.3935. (7.35)
Eine Ellipse mit verdoppelten Halbachen enth¨alt nach analoger Rechnung 86,47 % der Messwerte.
Zum Schluss betrachten wir noch die Fl¨ache der Fehlerellipse aus Gleichung 7.33. Sind a und
b die Halbachsen einer Ellipse, so betr¨agt ihre Fl¨ache A = πab. F¨ ur die Matrix-Schreibweise
Gl. 7.27 gilt A = π

det C (vgl. Gl. 7.26). Rechnet man λ
1
und λ
2
explizit aus, so sieht man die
¨
Aquivalenz der beiden Definitionen. Die Fl¨ache betr¨agt also gerade das π-Fache der Wurzel der
Determinante der Kovarianzmatrix. Diese Determinante ist damit so etwas wie die Gesamtvarianz
des Zufallsvektors (x, y).
7.6 Literatur
Rencher, A. C. (2002). Methods of Multivariate Analysis. 2. Edition. Wiley Interscience (John
Wiley and Sons). Kapitel 4.
Kapitel 8
Hauptachsentransformation
Die Hauptachsentransformation (englisch principal component analysis, PCA) ist ein Verfahren,
mit dem man multivariate Daten bearbeitet, in denen sich eine Anzahl von Faktoren (Ursachen,
Quellen, etc.) ¨ uberlagert. Im Allgemeinen hat man mehr Messungen als Faktoren und will die
zugrundeliegenden Faktoren herausfiltern. Wir beginnen mit einigen Beispielen. Eine umfassende
Darstellung mit mathematischen Grundlagen findet man in Mardia et al. (1979) und Rencher
(2002).
8.1 Beispiele
8.1.1 Durchschnittsnoten
Von einer Gruppe von n Sch¨ ulern sollen Noten in m F¨achern vorliegen. Pro Sch¨ uler hat man
also einen m-dimensionalen Datenvektor x
i
= (x
i1
, x
i2
, ..., x
im
)

. Es soll nun eine Gesamtnote pro
Sch¨ uler ermittelt werden. Im einfachsten Fall k¨onnte das der Mittelwert der Noten sein, also
y
i
=
1
m
m

j=1
x
ij
=
_
1
m
, ...,
1
m
_
_
_
_
_
_
x
i1
.
.
.
x
im
_
_
_
_
_
. (8.1)
Hat nun ein Sch¨ uler eine besondere Sprachbegabung, so w¨ urde bei der Hinzunahme einer weite-
ren Fremdsprache in den F¨acherkanon der Notendurchschnitt vermutlich besser ausfallen. Man
k¨onnte daher gewichtete Mittelwerte betrachten, in denen zum Beispiel alle Sprachen zusammen
genommen genau so viel z¨ahlen, wie alle naturwissenschaftlichen F¨acher. Allgemein kann man einen
solchen gewichteten Mittelwert mit Koeffizienten (Gewichten) w
1
, ..., w
m
folgendermaßen angeben
y
i
=
m

j=1
w
j
x
ij
= (w
1
, ..., w
m
)
_
_
_
_
_
x
i1
.
.
.
x
im
_
_
_
_
_
, (8.2)
wobei wir die w
j
stets so w¨ahlen wollen, dass die Summe ihrer Quadrate 1 ergibt. Ist dies nicht der
Fall, so erhalten wir Gewichte im gleichen Verh¨altnis, indem wir alles durch
_

j
w
2
j
dividieren.
Bei der Festlegung der Mischungsverh¨altnisse interessieren zwei Fragen:
63
64 KAPITEL 8. HAUPTACHSENTRANSFORMATION
1. Welcher Mischungsvektor w gibt die Variation im Datensatz am besten wieder? Bei welcher
Mittelung sind also gute und schlechte Sch¨ uler anhand ihrer gemittelten Note noch ausrei-
chend unterscheidbar?
2. Braucht man zur befriedigenden Beschreibung der Daten neben der Angabe

gut“ vs.

schlecht“
noch weitere Angaben, z.B.

sprachlich begabt“ vs.

naturwissenschaftlich begabt“. Wie viele
solcher Faktoren (oder Achsen) werden ben¨otigt?
8.1.2 Genetische Variation
In n Populationen einer Art werden Allelfrequenzen von m Allelen bestimmt. Man m¨ochte dann
wissen, ob die beobachtete Variation

homogen“ ist, oder ob sich taxonomisch relevante Cluste-
rungen (d.h. Ko-variationen) verschiedener Gene zeigen.
F¨ ur jede Population erh¨alt man einen m-dimensionalen Merkmalsvektor, den man sich als Punkt
in einem m-dimensionalen

Merkmalsraum“ denkt

. Kann man nun zwei Unterarten unterscheiden,
so sollten die Merkmalsvektoren der zugeh¨origen Populationen in zwei getrennten Clustern im
diesem Merkmalsraum liegen. Die Richtung, entlang derer die Cluster separiert sind, ist ein Vektor
w im Merkmalsraum, hat also gerade so viele Komponenten, wie Allele untersucht wurden. Da
hier nur die Richtung interessiert, definieren wir w wie oben als Einheitsvektor,

w
2
j
= w

w = 1.
Projiziert man die Datenpunkte auf die durch w definierte Ursprungsgerade, so erh¨alt man zwei
H¨aufungspunkte, die den beiden Unterarten entsprechen. Die Projektion entspricht mathematisch
dem Skalarprodukt (vgl. Kapitel ??):
y
i
:= w

x
i
=
m

j=1
w
j
x
ij
(8.3)
Hierbei wird man w so w¨ahlen, dass die Projektionen der Datenvektoren m¨oglichst weit streuen,
dass also die Varianz der y
i
maximal wird.
Cavalli-Sforza et al. (1994) zeigen mit dieser Methode, dass die genetische Variation innerhalb
der Art Homo sapiens keinen taxonomischen Wert hat.
8.1.3

Spike-sorting“
Bei extrazellul¨aren elektrophysiologischen Ableitungen f¨ uhrt man eine Elektrode in das Gewebe ein
und zeichnet dann elektrische Aktivit¨aten auf, die u.a. auf Aktionspotentiale von Zellen zur¨ uckge-
hen, die sich in der N¨ahe der Elektrode befinden. Die zeitlichen Verl¨aufe solcher Aktionspotentiale
verschiedener Zellen unterscheidenen sich von einander, je nach dem, wie weit die Zelle von der
Elektrode entfernt ist, ob die Elektrode n¨aher zum Dendriten, zum Soma, oder zum Axon liegt,
usw. Außerdem gibt es zuf¨allige Schwankungen des Verlaufes der Aktionspotentiale jeder einzelnen
Zelle. Hat man nun eine Ableitung mit einer Anzahl n von Aktionspotentialen, so m¨ochte man
wissen, von wievielen verschiedenen Zellen die Potentiale stammen und jedes Potential einer der
Zellen zuordnen.
Wir gehen davon aus, dass keine zeitlichen
¨
Uberschneidungen zweier oder mehrerer Aktions-
potentiale auftreten. Man definiert dann zun¨achst die genauen Anfangszeitpunkte der Aktionspo-
tentiale und teilt den folgenden Zeitbereich von ca. 2 Millisekunden in m Schritte ein. Jedes der n
gemessenen Potentiale liefert dann einen m-dimensionalen Datenvektor (x
i1
, . . . x
ij
) = x
i
. Gesucht
ist die Anzahl der abgeleiteten Zellen und eine Sch¨atzung ihrer Potentialverl¨aufe f¨ ur den gleichen

Einen m-dimensionalen Raum kann man sich f¨ ur n > 3 nat¨ urlich nicht vorstellen. Die Unterscheidung von m
Dimensionen heißt hier, dass der Datenvektor zumindest im Prinzip auf m unabh¨angige Weisen variieren kann,
n¨amlich f¨ ur jedes betrachtete Allel.
8.1. BEISPIELE 65
in m Schritten abgetasteten Zeitbereich von 2 ms. Um diese zu bestimmen, muss man zun¨achst
geeignete Beschreibungsmerkmale f¨ ur die Aktionspotentiale finden, anhand derer die verschiedenen
Zellen unterschieden werden k¨onnen. Solche Beschreibungsmerkmale (engl. features) definiert man
mittels m-dimensionaler Vektoren w
l
, indem man als Merkmale die Projektionen der Messwerte
auf diese Vektoren bestimmt:
y
lj
:= w

l
x
j
=
m

j=1
w
lj
x
ij
(8.4)
Wie in den vorherigen Beispielen ist man wieder an Projektionen interessiert, durch die die y
m¨oglichst weit auseinander zu liegen kommen (vgl. Lewicki 1998).
8.1.4 Allometrie
Wir geben eine vereinfachte Version eines Beispiels aus Mardia (1979; Seite 241f).
Bei einer Stichprobe von 54 Apfelb¨aumen werden zwei Variable gemessen:
x

: Stammdurchmesser
y

: Gesamth¨ohe des Baumes
Da beide Variable in ganz verschiedenen Gr¨oßenordungen variieren, ist es sinnvoll, sie auf ihre
Varianzen zu normieren. Wir bilden die mittelwertfreien Variablen
x :=
x

− ¯ x
σ
x

und y :=
y

− ¯ y
σ
y

. (8.5)
Da hier bereits durch die Standardabweichungen dividiert wurde, bilden wir nun die zur Kovari-
anzmatrix analoge Korrelationsmatrix, die in der Stichprobe folgende Werte annimmt:
C
R
:=
_
_
var(x) cor(x, y)
cor(x, y) var(y)
_
_
=
_
_
1, 0 0, 5
0, 5 1, 0
_
_
(8.6)
Wir k¨onnen an diesem Beispiel einmal das Eigensystem der Matrix C
R
elementar berechnen.
Nat¨ urlich gibt es hierf¨ ur eine Funktion in MatLab.
Sei λ ein Eigenwert und e ein Eigenvektor, so gilt
C
R
e −λe = 0 oder
_
_
1, 0 −λ 0, 5
0, 5 1, 0 −λ
_
_
_
_
e
1
e
2
_
_
= 0.
Aus der Formulierung auf der rechten Seite folgt, dass die Determinante der Matrix verschwinden
muss, (1 −λ)
2
−1/4 = 0. Man erh¨alt die L¨osungen λ
1,2
= 1 ±0, 5. F¨ ur die Bestimmung der Eigen-
vektoren setzt man eine der beiden L¨osungen f¨ ur λ ein und l¨ost das enstehende Gleichungssystem
mit zwei Unbekannten. Das Endergebnis ist:
λ
1
=
3
2
; e
1
=
1

2
_
_
1
1
_
_
(8.7)
λ
2
=
1
2
; e
1
=
1

2
_
_
1
−1
_
_
(8.8)
Man interpretiert dieses Ergebnis so, dass man die B¨aume durch zwei unabh¨angige Gr¨oßen be-
schreiben kann, n¨amlich einer aus Stammdurchmesser und Wuchsh¨ohe gebildeten

St¨arke“ x + y
66 KAPITEL 8. HAUPTACHSENTRANSFORMATION
λ

1
= 0.4036 λ

2
= 0.3981 λ

3
= 0.0018 λ

4
= 0.3017 λ

5
= 0.0016 λ

6
= 0.0016
Abbildung 8.1: Oben: Beispiele aus einer Stichprobe von Bildern mit jeweils 16 16 = 256 Pixeln.
Unten: Die ersten sechs Hauptkomponenten des Datensatzes. λ

i
:= λ
i
/

256
i=1
λ
i
.
mit λ
1
/(λ
1
+ λ
2
) = 75 % der gesamten Varianz und einem

Formfaktor“ x − y mit 25 % der
gesamten Varianz. Die neuen Variablen sind unkorreliert. Man bezeichnet daher diese Rechnung
(Koordinatentransformation auf das Eigensystem der Korrelations- oder Kovarianzmatrix) auch
als Dekorrelation.
8.1.5 Bilder als multivariate Daten
Schwarz-weiße Bilder sind Anordnungen von Pixeln, deren Intensit¨atswerte als Komponenten ei-
nes hochdimensionalen Vektors ausgefasst werden k¨onnen. Wir werden sp¨ater noch genauer ¨ uber
Bildverarbeitung sprechen, betrachten hier aber schon einmal ein einfaches Beispiel.
H¨aufig ist man nun an der Frage interessiert, ob sich die Repr¨asentanten einer Bildklasse als
Superposition weniger

Urbilder“ mit wechselnden relativen Anteilen erkl¨aren lassen. Wenn das so
ist, braucht man z.B. bei der Daten¨ ubertragung nur noch diese Anteile zu ¨ ubertragen und kann
damit die
¨
Ubertragung beschleunigen. Ein Beispiel zeigt Abbildung 8.1. Hier reichen zwei Bilder
im Wesentlichen aus, um die Variation im Datensatz zu erkl¨aren; die verbleibende Variation ist
8.1. BEISPIELE 67
Rauschen und kann bei Kenntnis der Hauptkomponenten leicht unterdr¨ uckt werden. Auch bei
anderen Aufgaben wie etwa bei der Klassifikation ist diese Rauschunterdr¨ uckung von Vorteil.
Die

Urbilder“ geben immer die Abweichung vom Mittelwert der Stichprobe an, wobei der Mit-
telwert pixelweise, also als mittleres Bild, verstanden wird. Dementsprechend k¨onnen die

Urbilder“
negative Werte annehmen, da ein gegebenens Bild sowohl nach oben als auch nach unten von die-
sem Mittelwert abweichen kann. In Abb. 8.1 ist das Mittelwertsbild nicht gezeigt. Die

Urbilder“
in der unteren Reihe sind so dargestellt, dass ein mittleres Grau dem Wert 0 entspricht.
Bei Bilddaten muss man beachten, dass die Bilder, wie bei den ¨ ubrigen Beispielen auch, als
Vektoren und nicht etwa als Matrizen zu betrachten sind. In Matlab formt man sie daher in eine
einfache Liste um, indem man die einzelnen Bildzeilen hintereinanderh¨angt. Hinterher ben¨otigt man
dann eine Operation, die aus solchen Vektoren wieder Bilder macht, um die Ergebnisse darstellen
zu k¨onnen.
In diesem Sinne k¨onnen wir Bilder wieder als Datenvektoren mit Dimension m auffassen; im
Beispiel der Abb. 8.1 ist m = 16 16 = 256. Wir bezeichnen die gesuchten

Urbilder“ mit e
l
,
l = 1, ..., k, und fordern, dass diese Bilder

orthogonal“ sein sollen. D.h. es soll gelten
e

i
e
j
= 0 f¨ ur alle i ,= j. (8.9)
Die Rekonstruierbarkeit der gemessenen Bilder aus den Urbildern ist im Sinne einer gewichteten
¨
Uberlagerung (Superposition) der Urbilder gemeint. Es soll also gelten:
x
i
≈ µ +
k

l=1
a
il
e
l
(8.10)
oder genauer
n

i=1
| x
i
− µ −
k

l=1
a
il
e
l
| →minimal (8.11)
f¨ ur geeignete Koeffizienten a
il
. Mit µ := (

n
i=1
x
i
)/n bezeichnen wir das mittlere Bild. Die ent-
sprechenden Urbilder und Koeffizienten findent man mit Hilfe der Hauptachsentransformation.
In der Bildverarbeitung wendet man die Hauptachsentransformation auf Datens¨atze kleiner
Bilder an, die durch Zerteilen gr¨oßerer Bilder gewonnen wurden. Die Hauptkomponenten sind
dann Bildmerkmale oder features, nach denen man Bilder analysiert (so genannte Karhunen-Lo´eve-
Transformation). In einem Beispiel aus der Wahrnehmungsforschung wendet man die Hauptachsen-
transformation auf ganze Bilder, speziell Bilder von Gesichtern, an, um so

Merkmalsdimensionen“
wie z.B. m¨annlich/weiblich; jung/alt; europ¨aisch/asiatisch etc. zu definieren (Valentin et al. 1997,
Calder & Young 2005).
8.1.6 Zusammenfassung
Aus diesen Beispielen ergeben sich drei Grundanwendungen der Hauptachentransformation. Diese
schließen sich nicht gegenseitig aus, gehen aber auf leicht verschiedene Fragestellungen ein.
• Identifikation von

Faktoren“ oder relevanten Variablen. Diese Intention liegt den Beispielen

Notengeben“ und

Allometrie“ zugrunde. Die Faktoren sind die Hauptachen selbst.
• Klassifikation. In den Beispielen aus der Genetik und der Spike-Klassifizierung wurden die
mit den Faktoren assoziierten Werte f¨ ur die Klassifikation herangezogen.
• Datenreduktion. In vielen F¨allen kann man davon ausgehen, dass die h¨oheren Hauptachsen
kein Signal sondern den Messfehler widerspiegeln (Bildverarbeitung, Spike-Sorting). In die-
sem Fall erzeugt die Projektion auf den Unterraum der ersten k Hauptachsen eine optimale
Dimensionsreduktion der Daten, also eine mit minimalem Informationsverlust.
68 KAPITEL 8. HAUPTACHSENTRANSFORMATION
¸
x
¸
e
1
¸
x
¸
y
`
z
`
e
2
`
y
`
z
Abbildung 8.2: Projektion von dreidimensionalen Daten auf zweidimensionale Ebenen. Links: Die
Projektionen auf die Koordinatenebenen ((x, y), (x, z) und (y, z)) zeigen jeweils nur drei Punkt-
haufen. Die Projektion auf eine optimal separierende Ebene (aufgespannt durch e
1
und e
2
) zeigt
dagegen vier Punkthaufen. Rechts: Tats¨achliche Anordnung der Punkthaufen im dreidimensionalen
Raum. Die optimal separierende Ebene liegt schr¨ag in diesem Raum.
8.2 Merkmalsr¨aume, Projektionen und Rekonstruktionen
Gemeinsam ist den angef¨ uhrten Beispielen, dass hochdimensionale Datenvektoren vorliegen, die
man nicht mehr einfach in einem Diagramm visualisieren kann. Der zugeh¨orige Merkmalsraum, in
Beispiel 8.1.5 ist das ein 256-dimensionaler Zahlenraum, kann nat¨ urlich nicht mehr sinnvoll aufge-
zeichnet werden. Alles, was man noch zeichnen kann, sind Projektionen; dabei ist es entscheidend,
die richtigen Projektionsachsen zu finden.
Es sei x
i
= (x
i1
, x
i2
, ..., x
im
)

ein Vektor aus unserem m-dimensionalen Datensatz und w =
(w
1
, w
2
, ..., w
m
)

ein beliebiger Vektor in diesem Raum, von dem wir wieder annehmen wollen, dass
er die L¨ange (Norm) 1 hat. Es gilt also
| w| =
m

j=1
w
2
j
= 1. (8.12)
Die Projektion von x
i
auf w ist nun der Punkt auf der durch den Ursprung in Richtung w
verlaufenden Geraden, der dem Punkt x
i
am n¨achsten kommt. F¨allt man von x
i
aus ein Lot auf
die Gerade, so trifft sie es gerade an diesem Punkt.
Es ist ¨ ubrigens hilfreich, sich klar zu machen, dass die Projektion in vielen Dimensionen genauso
abl¨auft wie in zweien. Das liegt daran, dass x
i
und die Gerade immer in einer Ebene liegen, die
man sich herauszeichnen kann. Damit ist das Problem auf zwei Dimensionen reduziert.
Die Projektion von x
i
auf w erh¨alt man mit Hilfe des Skalarproduktes, vgl. Gl. 1.6:
P : x
i
→a
i
w = ( x

i
w) w =
_
_
m

j=1
x
ij
w
j
_
_
w. (8.13)
Dabei bezeichnet P die Projektionsoperation. Ist z.B. w ein Koordinatenvektor, z.B. w = (1, 0, 0, ...0)

,
so ist P( x
i
) = x
1i
. Die Projektion liefert also gewissermaßen die Koordinate des Punktes in Bezug
auf die Achse w. Wir bezeichnen diese Koordinate mit a
i
.
8.3. DURCHF
¨
UHRUNG DER HAUPTACHSENTRANSFORMATION 69
Projiziert man alle n Datenvektoren auf den gleichen Vektor w, so erh¨alt man n Zahlen
(a
1
, ..., a
n
). Im Allgemeinen m¨ochte man, dass diese Zahlen m¨oglichst verschieden sind, dass also
die Varianz der Projektion groß ist.
Projektionen h¨angen eng mit Koordinatentransformation zusammen. Wir betrachten hierzu ein
Beispiel im zweidimensionalen Raum. Wir bezeichnen die Koordinatenachsen mit den Buchstaben
u
1
:=
_
_
1
0
_
_
und u
2
:=
_
_
0
1
_
_
. (8.14)
Offenbar gilt u

1
u
1
= 1, u

2
u
2
= 1 und u

1
u
2
= 0. Man sagt, u
1
und u
2
bilden eine orthonormale
Basis. Die Komponenten eines Vektors x = (x
1
, x
2
)

erh¨alt man dann formal durch Projektion des
Vektors auf die Koordinatenachsen:
x
1
:= x

u
1
und x
2
:= x

u
2
. (8.15)
Umgekehrt kann man x als Summe der Basisvektoren darstellen:
x = x
1
u
1
+x
2
u
2
. (8.16)
Beide Eigenschaften einer Basis bleiben erhalten, wenn man zu beliebigen, aufeinander senkrecht
stehenden Basisvektoren e
1
, e
2
mit L¨ange 1 ¨ ubergeht. In diesem Fall kann man die Projektionswerte
y
1
= x

e
1
und y
2
:= x

e
2
(8.17)
also auch benutzen, um den Vektor x zu

rekonstruieren“:
x = y
1
e
1
+y
2
e
2
. (8.18)
Dieser Zusammenhang zwischen Projektion und Rekonstruktion, der eine Konsequenz der Ortho-
normalit¨at der Basis ist, gilt in beliebig vielen Dimensionen. In den Beispielen war meist von
Projektionsproblemen die Rede, im Fall der Bildrekonstruktion aus Urbildern aber auch von Re-
konstruktion. Beide Probleme sind ¨ uber den Begriff der Koordinatentransformation verbunden.
8.3 Durchf¨ uhrung der Hauptachsentransformation
Wir haben die Mathematik im Wesentlichen schon im vorigen Kapitel besprochen, und brauchen
dies hier nicht zu wiederholen. Die Hauptachsentransformation ist eine Koordinatentransformation
im Datenraum, bei der die Koordinatenachsen mit den Hauptachsen des Fehlerellipsoids in
¨
Uber-
einstimmung gebracht werden. Dabei wird die Numerierung der Achsen so vorgenommen, dass
die Achse mit der h¨ochsten Datenvarianz die Nummer 1 bekommt, die mit der zweith¨ochsten die
Nummer 2 und so fort.
Wir stellen jetzt die Schritte zur Durchf¨ uhrung der Hauptachsentransformation zusammen:
8.3.1 Datenmatrix
Wir gehen aus von einer Anzahl n von m-dimensionalen Datenvektoren
x
1
= (x
11
, x
12
, . . . x
1m
)
x
2
= (x
21
, x
22
, . . . x
2m
)
.
.
.
x
n
= (x
n1
, x
n2
, . . . x
nm
)
70 KAPITEL 8. HAUPTACHSENTRANSFORMATION
Wir berechnen als n¨achstes den mittleren Datenvektor
µ =
1
n
_
n

i=1
x
i1
,
n

i=1
x
i2
, ...,
n

i=1
x
im
_
(8.19)
Wir ziehen nun die Mittelwerte von den x
ij
ab und erhalten so genannte mittelwertsfreie Daten.
Mittelwertsfrei bedeutet nat¨ urlich nicht, dass die Daten keinen Mittelwert haben, sondern dass
dieser null wird. Wir verwenden weiter den Buchstaben x, gehen aber davon aus, dass

i
x
ij
nun
f¨ ur alle j verschwindet. Im Beispiel mit den Noten bedeutet dies, dass statt der tats¨achlichen Noten
eines Sch¨ ulers nur noch seine individuelle Abweichung vom Mittelwert ¨ uber alle Sch¨ uler betrachtet
wird.
Die mittelwertsfreien Daten ordnen wir in eine Datenmatrix
D =
_
_
_
_
_
_
_
_
x
11
x
12
. . . x
1m
x
21
x
22
. . . x
2m
.
.
.
.
.
.
.
.
.
x
n1
x
n2
. . . x
nm
_
_
_
_
_
_
_
_
(8.20)
Man erh¨alt dann die Kovarianzmatrix des Datensatzes aus der Beziehung
C =
1
n
D

D (8.21)
(vgl. Abschnitt 2.3.4).
An dieser Stelle sollte man sich davon ¨ uberzeugen, dass C tats¨achlich eine m m-Matrix ist
und nicht etwa eine n n-Matrix. Dieser Fehler tritt auf, wenn man D und D

verwechselt hat.
8.3.2 Eigensystem
Als n¨achstes bestimmt man das Eigensystem von C. Wir erinnern noch einmal an die Definition:
Ein Eigenvektor e einer mm-Matrix M ist ein m-dimensionaler Vektor mit der Eigenschaft:
Me = λe mit λ ∈ IR. (8.22)
Die Zahl λ ist der zu e geh¨orige Eigenwert. Ist e Eigenvektor, so auch jedes Vielfache von e.
Wir legen daher fest, dass wir unter Eigenvektoren stets Einheitsvektoren verstehen wollen. Eine
symmetrische m m-Matrix wie die Kovarianzmatrix kann maximal m verschiedene Eigenwerte
haben; die zugeh¨origen Eigenvektoren sind in diesem Fall paarweise orthogonal zueinander. Sind
zwei Eigenwerte λ
i
, λ
j
gleich, so ist jeder Vektor ae
i
+be
j
Eigenvektor; man erh¨alt eine Eigenebene.
Die Eigenvektoren e
j
, j = 1, ..., m sind die gew¨ unschten optimalen Achsen f¨ ur die Projektion.
Ergebnis der Projektion von Datenvektor x
i
auf Hauptachse e
j
sind die Werte a
ij
. Die zu den
Hauptachsen geh¨origen Eigenwerte λ
j
geben die nach der Projektion jeweils noch erhaltene Varianz
an. Der erste Eigenvektor, d.h. der mit dem gr¨oßten Eigenwert erh¨alt also die meiste Varianz. Wir
stellen die wichtigten Begriffe noch einmal zusammen:
1. Eigenvektoren der Kovarianzmatrix e
1
, ..., e
m
Andere Bezeichnungen: Hauptachsen, Hauptkomponenten, principal components
Eigenschaften: Die Hauptachsen sind m-dimensionale Einheitsvektoren. Im Fall normalver-
teilter Daten sind die Hauptachsen die Achsen des Fehlerellipsoids. Sie stehen immer senk-
recht aufeinander, d.h. es gilt e

i
e
j
= 0 f¨ ur alle i ,= j und e

i
e
i
= 1 f¨ ur alle i. Da es genau
8.4. LITERATUR 71
so viele Hauptachsen gibt, wie der Datenraum Dimensionen hat (n¨amlich m), definieren die
Hauptachsen eine orthonormale Koordinatentransformation.
Die Hauptachsen habe die gleiche Dimension wie die Datenvektoren und k¨onnen daher wie
Datenvektoren behandelt werden. Hauptachsen des Bilddatensatzes aus Abb. 8.1 sind al-
so wieder Bilder, Hauptachsen eines Datensatzes von Spikeverl¨aufen sind wieder zeitliche
Verl¨aufe und so fort. Dies ist besonders f¨ ur die konstruktive Interpretation der Hauptachen
interessant, wo man Datenvektoren durch
¨
Uberlagerung der Haupachsen approximiert.
2. Projektion des Datenvektors x
i
auf die Hauptachse e
j
:
Die a
ij
, definiert durch
a
ij
= ( x
i
e
j
), (8.23)
sind Zahlen, die als Koordinaten des Datenvektors e
i
in dem durch die Hauptachsen gebilde-
ten Koordinatensystem aufgefasst werden k¨onnen. In der englischsprachigen Literatur werden
sie als

scores“ bezeichnet. Die zweidimensionalen Plots in Abb. 8.2 heißen dementsprechend

score-score-plot“.
Wegen der Orthonormalit¨at der Hauptachsen gilt die Rekonstruktionsformel:
x
i
=
m

j=1
a
ij
e
j
(8.24)
3. Eigenwerte λ
i
der Kovarianzmatrix
Die Eigenwerte der Kovarianzmatrix sind gleich der Varianz der Projektionen auf den zu-
geh¨origen Eigenvektor:
var a
j
= λ
j
(8.25)
Die Summe der Eigenwerte ist die gesammte Varianz des Datensatzes.
4. Dimensionsreduktion
Die Hauptachsentransformation ist zun¨achst eine Koordinatentransformation und reduziert
daher die Anzahl der Dimensionen nicht. Will man jedoch Dimensionen weglassen, und dabei
m¨oglichst wenig Information (also Datenvarianz) verlieren, tut man das am besten, indem
man die Hauptachsen mit den kleinsten λ-Werten streicht. Ein allgemeines Verfahren, wie
man feststellt, welche Dimensionen noch ber¨ ucksichtigt werden sollten und welche man strei-
chen kann, gibt es nicht. Eine M¨oglichkeit besteht darin, so viele Dimensionen zu betrachten,
dass die Summe der ber¨ ucksichtigten Eigenwerte z.B. 90 % der Gesamtsumme der Eigenwerte
betr¨agt. Etwas systematischer ist es, die λ-Werte in abfallender Reihe in einem S¨aulendia-
gramm darzustellen und dann im Verlauf der Einh¨ ullenden einen

Knick“ zu suchen, d.h. ein
λ
k
mit der Eigenschaft dass alle λ
i
mit i > k ungef¨ahr gleich λ
k
sind. Das bedeutet, dass die
Residuen x
i

k
j=1
a
ij
e
j
eine ungef¨ahr kugelf¨ormige Punktwolke bilden.
8.4 Literatur
Calder A.J., Young, A. W. (2005) Understanding the recognition of facial identity and facial
expression. Nature Reviews Neuroscience, 6:641-651
Cavalli-Sforza, L. L., Menozzi, P., and Piazza, A. (1994). The history and geography of human
genes. Princeton University Press, Princeton, NJ.
Lewicki, M. S. (1998). A review of methods for spike sorting: the detection and classification of
neural action potentials. Network: Computation in Neural Systems, 9:R53 – R78.
72 KAPITEL 8. HAUPTACHSENTRANSFORMATION
Mardia, K. V., Kent, J. T., and Bibby, J. M. (1979). Multivariate Analysis. Academic Press,
London.
Rencher, A. C. (2002). Methods of Multivariate Analysis. John Wiley, New York. 2. Aufl. 2002.
Kapitel 12.
Valentin, D., Abdi, H., Edelman, B., and O’Toole, A. J. (1997). Principal component and neural
network analysis of face images: What can be generalized in gender classification? Journal of
Mathematical Psychology, 41:398 – 413.
Kapitel 9
Fourier-Analyse
9.1 Periodische Funktionen
9.1.1 Spannungsverl¨aufe
Periodische Funktionen treten in vielen Zusammenh¨angen auf und sind bei der Analyse von
zeitabh¨angigen Variablen von gr¨oßter Bedeutung. Als Beispiele disktieren wir Spannungsverl¨aufe,
wie sie etwa in einem Dynamo oder Generator produziert werden. Die Periode ist in diesem Fall
durch eine Umdrehung des Generators gegeben ist. F¨ ur periodische Funktionen gilt allgemein
U(t +T) = U(t) f¨ ur alle t (9.1)
Hierbei ist T die Periodendauer. Offenbar folgt sofort U(t +nT) = U(t) f¨ ur n ∈ IN.
Sinusspannung
Die wichtigste Funktion zu Beschreibung von Spannungsverl¨aufen ist die Sinus-Funktion,
U(t) = U
o
sin(ωt +ϕ) (9.2)
Hierbei ist U
o
die Amplitude, ϕ die Phase und ω die so genannte Kreisfrequenz. Da die Periode
des Sinus

nat¨ urlicherweise“ 2π oder 360

betr¨agt, schwingt die Spannung genau dann einmal pro
Zeiteinheit, wenn ω = 2π betr¨agt. Die Einheit der Frequenz ist das Hertz; 1 Hz entspricht einer
Schwingung pro Sekunde. Man verwendet folgende Bezeichnungen f¨ ur die Frequenz:
f =
1
T
=
ω

Frequenz (Hz = 1/s)
T =
1
f
=

ω
Periodendauer (s)
ω =

T
= 2πf Kreisfrequenz (rad/s)
(9.3)
Rechteckspannung
Als Rechteckspannung bezeichnet man im Intervall [0, T] den Verlauf
U(t) =
_
_
_
U
o
f¨ ur 0 ≤ t < τ
0 f¨ ur τ ≤ t < T
. (9.4)
73
74 KAPITEL 9. FOURIER-ANALYSE
a.
0 0.5 1 1.5 2
-0.2
0
0.2
0.4
0.6
0.8
1
1.2
b.
0 0.5 1 1.5 2
-0.2
0
0.2
0.4
0.6
0.8
1
1.2
c.
0 0.5 1 1.5 2
-0.2
0
0.2
0.4
0.6
0.8
1
1.2
d.
0 0.5 1 1.5 2
-0.2
0
0.2
0.4
0.6
0.8
1
1.2
Abbildung 9.1: Approximation of the “box function” (Equation 9.6 with ω = 1) by a Fourier-sine-
series (Equation 9.8). For explanations see text.
Außerhalb des Intervalls wird die Funktion periodisch fortgesetzt. Das Verh¨altnis von Einschaltzeit
und Gesamtzeit, τ/T bezeichnet man als Tastverh¨altnis (duty cycle). Die Rechteckspannung hat
einen Gleichspannungsanteil von U
o
τ/T, den man durch Subtraktion eliminieren kann. Man spricht
dann von bimodaler Rechteckspannung.
Allgemeine periodische Funktionen
Allgemeine periodische Funktionen werden h¨aufig als Summen von Sinus- und Kosinuswellen aus-
gedr¨ uckt. Dass dies m¨oglich ist, ist das zentrale Ergebnis der Theorie der Fourier-Reihen, auf die
wir in diesem Kapitel noch weiter eingehen. Man nennt solche Summen auch

trigonometrische
Polynome“ und schreibt:
p
n
(x) :=
a
o
2
+
n

k=1
a
k
cos kωx +
n

k=1
b
k
sin kωx. (9.5)
Dabei ist ω/2π die

Grundfrequenz“; die anderen auftretenden Frequenzen kω/2π sind Vielfache
dieser Grundfrequenz und werden als

Harmonische“,

Obert¨one“ oder

Oberwellen“ bezeichnet.
Diese Bezeichnung stammt aus der Akustik, wo die H¨ohe eines Tons durch die Grundfrequenz
gegeben ist, w¨ahrend die Verteilung der Obert¨one die Klangfarbe betimmt. Spielt man also etwa
den Kammerton a
1
auf dem Klavier, auf einer Fl¨ote, singt man ihn auf dem Vokal A oder O,
so hat man stets die gleiche Grundfrequenz von 440 Hz, jedoch eine andere Zusammensetzung
der Obert¨one. Diese Zusammensetzung wird durch die Koeffizienten a
k
und b
k
bestimmt; man
bezeichnet sie auch als

(Klang-)Spektrum“.
9.2. FOURIER-REIHEN 75
Der Begriff Spektrum stammt urspr¨ unglich aus der Optik, wo man durch die Zerlegung eines
Mischlichtes mit einem Prisma die einzelnen spektralen Komponeten, also elektromagnetischen
Sinuswellen bestimmter Frequenzen, trennen kann. Mischlichter k¨onnen beliebige Frequenzen ent-
halten, sind also nicht auf ganzzahlige Vielfache einer Grundfrequenz beschr¨ankt. In Der Fourier-
Analyse wird der Begriff Sprektum generell f¨ ur die Gesamtheit der Koeffizienten der Sinus- und
Kosinuskomponenten eingesetzt
9.2 Fourier-Reihen
Wir werden in den n¨achsten Kapiteln sehen, dass dies erhebliche Vorteile f¨ ur verschiedene Ana-
lyseverfahren hat. Hier betrachten wir zun¨achst kurz die Theorie (vgl. Tolstov 1962, Bracewell
1986).
9.2.1 Beispiele
Wir beginnen mit der bereits besprochenen Rechteckfunktion mit Tastverh¨altnis 1/2,
b(x) :=
_
_
_
1 if mod(x, T) < T/2
0 else
(9.6)
(see Figure 9.1). It can be approximated by a series of sine waves given by the equation
g
n
(x) =
1
2
+
2
π
sin νx +
2

sin 3νx +. . . +
2
(2n −1)π
sin(2n −1)νx (9.7)
=
1
2
+
2
π
n

k=1
sin(2k −1)νx
2k −1
(9.8)
Here, we have used the frequency
ν :=

T
. (9.9)
We call such series (including also cosine values) “trigonometric polynomials” or Fourier series.
Fig. 9.1 shows the first steps of that series, i.e. the functions g
1
(x) (Fig. 9.1a) through g
4
(x)
(Fig. 9.1d). In the lower part of each panel, the next term of the sum is shown which is then
accumulated to the overall approximation in the following panel. For each x satisfying mod (x, T) ,=
0.5 and mod(x, T) ,= 1, i.e. for each x where b(x) is continuous, the series converges towards the
true functional value:
lim
n→∞
g
n
(x) = b(x). (9.10)
Figure 9.2 shows a slightly more general case where the sinusoids needed to reconstruct the
signal have different phases. The periodic function is now a random noise functionon the interval
[0, 1], which is periodically repeatet along the real axis. The relevance of the phases of the sinusoidal
components can be seen by checking the value at x = 1 of the correction term (lower sinusoid in
each panel); while this is zero for all frequencies in Fig. 9.1, the value now changes from panel to
panel.
76 KAPITEL 9. FOURIER-ANALYSE
a.
0 0.5 1 1.5 2
-0.2
0
0.2
0.4
0.6
0.8
1
1.2
b.
0 0.5 1 1.5 2
-0.2
0
0.2
0.4
0.6
0.8
1
1.2
c.
0 0.5 1 1.5 2
-0.2
0
0.2
0.4
0.6
0.8
1
1.2
d.
0 0.5 1 1.5 2
-0.2
0
0.2
0.4
0.6
0.8
1
1.2
e.
0 0.5 1 1.5 2
-0.2
0
0.2
0.4
0.6
0.8
1
1.2
f.
0 0.5 1 1.5 2
-0.2
0
0.2
0.4
0.6
0.8
1
1.2
g.
0 0.5 1 1.5 2
-0.2
0
0.2
0.4
0.6
0.8
1
1.2
h.
0 0.5 1 1.5 2
-0.2
0
0.2
0.4
0.6
0.8
1
1.2
Abbildung 9.2: Approximation of an arbitrary periodic function by a Fourier-series. For explana-
tions see text.
9.2. FOURIER-REIHEN 77
Z
Z
Z
Z
Z
Z
˜
b
k
˜ a
k
A
k
φ
k
Abbildung 9.3: Geometrical interpretation of the re-
lation of the quantities a
k
, b
k
, A
k
and φ
k
as described
in 9.18
.
9.2.2 Finding the coefficients
So far, we have seen that trigonometric polynomials can approximate continuous functions. As
already mentioned above, we may write the general form of such polynomials as
p
n
(x) :=
a
o
2
+
n

k=1
a
k
cos kνx +
n

k=1
b
k
sin kνx. (9.11)
Here, ν/2π is again the fundamental frequency of the signal, i.e. p
n
repeats itself with a wave-length
of T = 2π/ν.
How can we find the coefficients a
k
, b
k
? If we assume that every continuous periodic function
can in fact be written as a trigonometric polynomial (a fact that we do not prove here), we can
find the coefficients by exploiting the so-called orthogonality relations of sinusoids which hold for
all k, l > 0:
_

0
sin kxsin lxdx =
_
_
_
π if k = l
0 if k ,= l
(9.12)
_

0
cos kxcos lxdx =
_
_
_
π if k = l
0 if k ,= l
(9.13)
_

0
sin kxcos lxdx = 0 (9.14)
With these relations, we obtain:
a
k
=
2
T
_
T
0
g(x) cos kνxdx; k ∈ ¦0, 1, 2, . . .¦ (9.15)
b
k
=
2
T
_
T
0
g(x) sin kνxdx; k ∈ ¦1, 2, 3, . . .¦ (9.16)
We call a
k
the Fourier-sine coefficient for the frequency kν and b
k
the Fourier-cosine coefficient for
the frequency kν.
Clearly, if g(x) = sin mνx, i.e., if the original function is a sine, we have a
k
= 0 for all k, b
m
= 1,
and b
k
= 0 for all k ,= m.
9.2.3 Complex notation
For each frequency, the sine and cosine components in Eq. 9.11 add up to a general sinusoidal of
the form
f
k
(x) = a
k
cos kνx +b
k
sin kνx =: A
k
cos(kνx −φ
k
) (9.17)
78 KAPITEL 9. FOURIER-ANALYSE
Joint amplitude and phase can be obtained from the addition theorems of trigonometry. Simple
calculation yields:
A
k
=
_
a
2
k
+b
2
k
φ
k
= arctan
a
k
b
k
. (9.18)
The notations can be simpified by the use of complex numbers. Complex numbers arise in
algebra from solving quations like x
2
+1 = 0. The solution of this equation, i.e. the square root of
−1 is called the imaginary unit i =

−1. Complex numbers are linear combinations of a real and
an imaginary part,
z = a +ib (9.19)
where a = Re(z) and b = Im(z) are real numbers.
In the summing operation, complex numbers behave like two-dimensional vectors,
z
1
+z
2
= (a
1
+ib
1
) + (a
2
+ib
2
) = a
1
+a
2
. ¸¸ .
Re(z
1
+z
2
)
+i (b
1
+b
2
)
. ¸¸ .
Im(z
1
+z
2
)
. (9.20)
Multiplication, however, turns out to be somewhat more tricky:
z
1
z
2
= (a
1
+ib
1
)(a
2
+ib
2
) = a
1
a
2
+ia
1
b
2
+ia
2
b
1
+ (i)
2
b
1
b
2
= a
1
a
2
−b
1
b
2
. ¸¸ .
Re(z
1
z
2
)
+i (a
1
b
2
+a
2
b
1
)
. ¸¸ .
Im(z
1
z
2
)
. (9.21)
To each complex number z = a + ib is associated a socalled complex conjugate z

= a − ib.
From the above multiplication rule, it follows that zz

= a
2
+b
2
, a real number. The square root of
zz

is called the absolute value or modulus of z. In the 2D vector analogy, it is the squared length
of the vector.
The usefulness of complex numbers in Fourier theory rests on Euler’s formula extending the
exponential function to complex numbers:
exp¦iϕ¦ = cos ϕ +i sin ϕ (9.22)
exp¦z¦ = exp¦Re(z)¦(cos Im(z) +i sin Im(z)) (9.23)
Euler’s formula can be inverted to
cos ϕ =
1
2
_
e

+e
−iϕ
_
(9.24)
sin ϕ =
1
2i
_
e

−e
−iϕ
_
. (9.25)
The crucial step is now to switch from sinusoidal functions to complex exponentials by the
above formulae. For each individual frequency, we obtain:
f
k
(x) = a
k
cos kνx +b
k
sin kνx = A
k
cos(kνx −φ
k
) (9.26)
= c
−k
exp¦−ikνx¦ +c
k
exp¦ikνx¦. (9.27)
Finally, eq. 9.11 reduces to
p
n
(x) :=
n

k=−n
c
k
exp¦ikνx¦ (9.28)
9.3. NON-PERIODIC FUNCTIONS: THE FOURIER TRANSFORM 79
with
c
o
=
a
o
2
=
c
k
=
1
2
(a
k
−ib
k
)
c
−k
=
1
2
(a
k
+ib
k
).
We will use the complex notation in the sequel.
9.3 Non-periodic functions: the Fourier transform
The generalization to non-periodic functions is mathematically difficult, but intuitively quite easy,
if we consider functions of increasing period length T. For a given T, for example T = 2π, we have
coefficients at the multiples of the wave length ν = 2π/T = 1,
ω = kν =
2kπ
T
∈ ¦1, 2, 3, 4, 5, . . .¦. (9.29)
If the period is twice as long, T = 4π, we obtain ν = 1/2 and
ω = kν =
2kπ
T
∈ ¦
1
2
, 1,
3
2
, 2,
5
2
, . . .¦. (9.30)
In the end, if the period is infinite (i.e. if the function is no more periodic at all), we get a
“coefficient” for every value of ω, i.e. a function of frequency. Switching back to the complex
notation, we thus obtain the Fourier transform:
˜ g(ω) :=
_

−∞
g(x) exp¦iωx¦dx. (9.31)
By the same token, the trigonometric series becomes:
g(x) :=
1

_

−∞
˜ g(ω) exp¦−iωx¦dx (9.32)
Eq. 9.31 is called the Fourier forward transformation and Eq. 9.32 the Fourier backward trans-
formation. Applying both in a sequence reconstructs the original function as long as this was
continuous and its square was integrable.
The function ˜ g(ω) in Eq. 9.31 is a complex function of the real argument ω. By Euler’s formula
(Eq. 9.22) the complex number ˜ g(ω
o
) = ˜ g
c

o
) + i˜ g
s

o
) for each ω
o
gives the amplification and
phase shift of the component with spatial frequency ω
o
. If only the spatial frequencies present in
a pattern are to be considered, one often uses the so-called power spectrum of g, i.e. the square
of the absolute value (modulus) of ˜ ω. A famous theorem in Fourier theory states that the power
spectrum equals the Fourier transform of the autocorrelation function given by:
Φ
gg
(y) :=
_
g(x)g(x +y)dx, (9.33)
in formal notation:
˜
Φ
gg
(ω) = [˜ g(ω)[
2
= ˜ g˜ g

. (9.34)
We will discuss the autocorrelation function in more detail in the chapter on time series.
80 KAPITEL 9. FOURIER-ANALYSE
ω
Im
˜
f(ω)
Re
˜
f(ω)
a. ω
Im
˜
f(ω)
Re
˜
f(ω)
b.
Abbildung 9.4: Complex Fourier transform of an excentric Gaussian, exp¦−(x −x
o
)
2
¦. a. 3D plot
showing the complex functional values of each frequency ω as “vectors”, or pointers in the complex
plane. b. Real and imaginary parts of the same function shown separately. The lengths of the
pointers in Fig. a correspond to the power of the signal (Fourier transform of autocorrelation). The
angle of the pointer in the complex plane is the Fourier phase.
9.4 Fourier-transforms in two and more dimensions
The Fourier transform generalizes to functions of two or more variables, such as images or spatio-
temporal intensity distributions. The sinusoidal must in this case be replaced by a plane wave,
e.g.
sin(ω
x
x +ω
y
y) = sin( ω x). (9.35)
Intuitively, these plane waves look like corrugated surfaces or wash-boards whose contour lines
form a set of parallel straight lines. The orientation of theses contour lines is orthogonal to the
vector (ω
x
, ω
y
), the separation of wave peaks (wave length) is 2π/
_
ω
2
x

2
y
.
The Fourier transform then becomes a complex function of two or more real frequency variables:
˜ g(ω
x
, ω
y
) :=
_

−∞
_

−∞
g(x, y) exp¦i(ω
x
x +ω
y
y)¦dxdy. (9.36)
Each point in the frequency plane (ω
x
, ω
y
) corresponds to one plane wave.
9.5 Summary
1. Every (sufficiently) continuous function can be unambiguously and reversibly represented by
its Fourier transform:
forward: ˜ g(ω) :=
_
g(x) exp¦iωx¦dx, (9.37)
backward: g(x) :=
1

_
˜ g(ω) exp¦−iωx¦dx.
The real and imaginary part of ˜ g are also called the Fourier cosine and Fourier sine transforms.
Intuitively, Equation 9.37 says that every continuous function can be represented as the sum
of sine and cosine functions.
2. (Shift theorem.) Let g(x) be a function with Fourier transform ˜ g(ω) and s ∈ IR a number
specifying a shift of g. The shifted version of g, g
s
(x) := g(x +s) has the Fourier transform
˜ g
s
(ω) = exp¦−iωs¦˜ g(ω) (9.38)
9.6. REFERENCES 81
9.6 References
Bracewell, R. N. (1986). The Fourier transform and its applications. McGraw-Hill, New York, 2.
edition.
Tolstov, G. P. (1962). Fourier Series. Prentice-Hall, Inc., Englewood Cliffs, NJ.
Kapitel 10
Time Series Analysis
10.1 Time series
A series of measurements taken over a continuous temporal variable, either at regular or at arbitrary
intervals, is called a time series. We will use both the continuous formulation x(t) for some time
interval (t
o
, t
1
) and a sequence notation x
i
, i = 1, 2, ....
The idea of time series analysis is to find regularities in time series and, mostly in stock marked
applications, to predict future development of these series. Here, we are not so much interested in
predictions, but in identifying underlying rules. Both problems are, however, related since regula-
rities can be used to make predictions. We start by constructung some typical series.
10.1.1 White noise
Assume a time series is sampled at distrete times yielding the values
x
1
, x
2
, x
3
, ... (10.1)
We assume that each value is drawn from a fixed random distribution. For example, we could toss
a coin at each time and set x
t
to 1 or 0 depending on the outcome of the coin toss. In this case, it
is clear that the values at time t and time t +1 will be uncorrelated, as will be all combinations x
t
and x
t+τ
. Generally, a time series satisfying this condition, i.e., the uncorrelatedness of neighboring
points, is called a white noise process.
Uncorrelatedness can be obtained with the described binary distribution (the coin toss) as well
as with other random distributions from which the individual x
i
are drawn. The most important
noise process is Gaussian white noise where the value at each instant in time is drawn from a
normal distribution. The motivation for the term “white” noise will become clear below.
If we add up the individual x
i
values iteratively, we obtain a new time series y
i
defined by
y
0
= 0 (10.2)
y
i
= y
i−1
+x
i
=
i

j=1
x
j
This time series is called a (one-dimensional) random walk. Two-dimensionmal random walks can
be defined analoguously and can be used to model chance level in experiments measuring animal
trajectories.
82
10.1. TIME SERIES 83
0 0.5 1
−1
−0.8
−0.6
−0.4
−0.2
0
0.2
0.4
0.6
0.8
1
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
−1
−0.8
−0.6
−0.4
−0.2
0
0.2
0.4
0.6
0.8
1
0 0.5 1
−1
−0.8
−0.6
−0.4
−0.2
0
0.2
0.4
0.6
0.8
1
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
−1
−0.8
−0.6
−0.4
−0.2
0
0.2
0.4
0.6
0.8
1
time frequency
v
a
l
u
e
Abbildung 10.1: Discrete white noise processes (left) and the underlying distributions (right). Top:
uniform distribution in the intervall (−0.5, 0.5). Bottom: normal duistribution (“Gaussian white
noise”) with standard deviation 0.3.
10.1.2 Variance
The variance of the random distribution, from which the individual samples are drawn, is also the
variance of the random process. Throughout this chapter, we will assume that the average value
of the time series is zero. We consider the values of x obtained at different instances of time as
samples and obtain the variance
γ
x
:= lim
T→∞
1
T
_
T
0
x
2
(t)dt (10.3)
or, in discrete notation
γ
x
:= lim
N→∞
1
N
N

i
x
2
i
. (10.4)
Usually, the limit is not actually evaluated but replaced by some sufficiently large value of T. We
can ignore the particular choice of T altogether as long as we are only interested in the position
of peaks in the auto- and crosscorrelation functions decribed below. In the following text, we will
not be strict with the time interval as long as no confusions can arise.
10.1.3 Moving averages
Consider a new time series y
i
generated from the white noise process by the following rule:
y
i
=
1
2
(x
i
+x
i−1
) (10.5)
84 KAPITEL 10. TIME SERIES ANALYSIS
Clearly, this is not a white noise process, since samples y
i
= (x
i
+x
i−1
)/2 and y
i+1
= (x
i+1
+x
i
)
share the component x
i
. The series y
i
is a low-pass filtered version of the original series x
i
. Eq. 10.5
can be considered a discrete convolution of the series (x
i
)
i
with the kernel (
1
2
,
1
2
). Of course, other
smoothing schemes can be described by choosing appropriate convolution kernels. Low-pass filtered
versions of a white noise process are sometimes called pink noise.
10.1.4 Point processes
If the random process can only take the values zero or one, an alternative way of representing it is
by reporting the time steps, where a one occured. For example, the series 1, 0, 0, 1, 1, 0, 0, 0, 1, 1, 0, 1
would thus be represented as 1, 4, 5, 9, 10, 12. This type of random process is called a point process
since it give the point in time, where something happend, without specifying the event itself. An
example from physics is radioactive decay. In biology, point processes arise in the description of
spike series or behavioral events.
A related scheme is counting the number of subsequent zeros until the next value of one occurs
(“runlength encoding”). For eample, the series 1, 0, 0, 1, 1, 0, 0, 0, 1, 1, 0, 1 would thus be represented
as (1, 3, 1, 4, 1, 2). Clearly, this is most appropriate for series where ones are rare as compared to
the time rate of sampling.
10.1.5 Markov chains
In Section 2.3.3, we have already seen an example for a markov chain, i.e. an random process swit-
ching between discrete states (the pub visited by the student) with fixed probabilities of transition.
Markov chains are a general tool for the analysis of behavior and, in particular, in speech proces-
sing. Here, the discrete states are the sylables produced by the subject and sylable recognition is
guided by known or estimated transition probabilities between sylables.
As compared to the example from Section ??, a general Markov chain is defined by the rule that
the probability distribution of the state x
i
at time i depends on the previous outcome x
i−1
and
maybe earlier outcomes x
i−k
. However, the range of previous states affecting the current state ist
limited by some threshold k
max
. Earlier outcomes do not affect the current probabilities. General
Markov chains may thus involve higher order transition matrices and continuous outcomes.
An example for a Markov chain with continuous outcome and k
max
= 1 is the random walk
described in Section 10.1.1.
10.2 Periodicity: The Autocorrelation function
An important property of a time series concerns its internal dependencies: how strong does a value
at time t depend on values taken at time t−1, t−2, or generally at time t−τ. As often in statistics,
we replace dependency with correlation and study the autocorrelation function
Φ
xx
(τ) :=
_
x(t)x(t −τ)dt, (10.6)
or, in discrete notation,
Φ
xx
(τ) :=

i
x
i
x
i−τ
. (10.7)
The integral is taken over the available data set. Since we are usually interested only in peaks of
the autocorrelation function, normalizing factors are not important.
10.2. PERIODICITY: THE AUTOCORRELATION FUNCTION 85
x(t)
˜ x(ω)
Φ
xx
(t)
Φ
xx
(t) = |˜ x(ω)|
2
¸
autocorrelation
modulus squared
¸
· ·
Fourier
transform
Fourier
transform
Abbildung 10.2: Auto-
correlation and power
spectrum, illustrating
the Wiener-Khinchin
theorem.
Properties
1. Φ
xx
(τ) takes its maximal value at shift τ = 0.
Φ
xx
(0) ≥ Φ
xx
(τ) for all τ. (10.8)
This is due to the fact that the maximal similarity between x(t) and x(t−τ) is of course obtai-
ned for τ = 0. If a normalization is needed, it is often convenient to consider Φ
xx
(τ)/Φ
xx
(0).
Indeed, when ignoring the normalization factor, Φ
xx
(0) is simply the variance γ
X
of the signal
as defined in Eq. 10.3.
2. The auto-correlation function is symetric,
Φ
xx
(−τ) = Φ
xx
(τ). (10.9)
3. If x(t) is periodic with length T, the autocorrelation function will also be periodic with length
T, i.e. it will have a peak at t = T.
4. Let y(t) be a shifted version of x(t), i.e. y(t) = x(t +a). Then, the autocorrelation functions
of x and y are the same. This implies for example, that the autocorrelations of the sine and
the cosine function are the same. In both cases, the first peak outside the cordinate origin will
appear at T = 2π/ω, indicating the frequency of the sinusoidal. The phase (sine vs. cosine)
is lost.
5. The Fourier transform of the autocorrelation function equals the absolute value (modulus)
of the complex Fourier transfrom of x:
˜
Φ
xx
(ω) = |˜ x(ω)|
2
(10.10)
(Wiener

- Khinchin

theorem). This function is also known as the power spectrum (dt: Lei-
stungsdichtespektrum) of x. For an illustration of this theorem, see Fig. 10.2.
6. If x is a white noise process, x(t) will be uncorrelated with x(t − τ) for all τ ,= 0, i.e.
Φ
xx
(0) = 1 and Φ
xx
(t) = 0 for all t ,= 0. The Fourier transform of this so-called impulse
function, i.e. the power spectrum of the white noise process, is a constant, indicating that all
temporal frequencies are included in the process. This is why the name “white” noise was
choosen in the first place. Similiarly, low-pass filtering of a white noise process reduces the
higher frequencies, leading two a higher relative content of low frequencies. In analogy to the
visual spectrum where low frequencies appear red, such noise processes are sometimes called
pink.

Norbert Wiener, 1894-1964.

Alexandr Yakovlevich Khichin, 1894-1959.
86 KAPITEL 10. TIME SERIES ANALYSIS
Application
The main application of both the autocorrelation function and the power spectrum is to find
periodicities in time series. As compared to simple Fourier transform, it has the advantage of
neglecting phase differences, i.e. periodicities in the sine and cosine components both contribute
to the same peak.
10.3 Influences between two time series: Crosscorrelation
If two simultaneous time series are considered, x(t) and y(t), say, one may be interested to know
whether the x(t) influences y(t) or the other way round. This can be studied by the crosscorrelation
function:
Φ
xy
(τ) :=
1

γ
x
γ
y
_
x(t)y(t −τ)dt. (10.11)
Again, integration is taken over the biggest available interval.
Properties
1. The autocorrelation defined above can be considered the crosscorrelation of a function with
itself. The crosscorrelation function does not generally peak at zero.
2. The symmetry relation generalizes to:
Φ
xy
(−τ) = Φ
yx
(τ). (10.12)
In general, therefore, the crosscorrelation function is not symmetric.
3. If y(t) follows x(t) with some delay a, i.e., y(t) = x(t −a), the crosscorrelation function of x
and y will have a peak at τ = −a.
Φ
xy
(τ) :=
_
x(t)y(t −τ)dt =
_
x(t)x(t −τ −a)dt = Φ
xx
(τ +a) (10.13)
Φ
xy
(−a) = Φ
xx
(0). (10.14)
This is the most important property of the cross-correlation function. If x drives y with some
delay, this delay can be detected as an off-zero peak in Φ
xy
.
4. There exists also a relation to the Fourier transforms of x and y, expressed in complex number
notation:
˜
Φ
xy
(ω) = ˜ x(ω)˜ y(ω)

(10.15)
Here, the asterisk denotes the complex conjuate, i.e. (a+ib)

= (a−ib). Since (a+ib)(a−ib) =
a
2
+b
2
, eq. 10.15 is consistent with eq. 10.10.
˜
Φ
xy
is sometimes called the cross-spectrum.
Application
Cross-correlations are frequently applied in the analysis of multiple spike trains. If a peak is found
in the cross-correlation of spike trains from two different cells, it is often assumed that the leading
cell is driving the trailing cell. However, correlations may also arise from common input without
direct connectivity between the cells.
10.4. THE POISSON PROCESS 87
The cross-spectrum is used to define synchrony between EEG signals from multiple cortical
areas. A typical definition of coherence in EEG is
Coh
xy
(ω) :=
˜
Φ
xy
(w)
2
˜
Φ
xx
(w)
˜
Φ
yy
(w)
. (10.16)
This function can be integrated within each of the typical EEG frequency bands (e.g., α = 8−13 Hz,
β = 13 −30 Hz).
10.4 The Poisson process
As another application of time series analysis, we consider data giving the times of occurence of
an event. Examples for such point or signal processes include the measurement of the occurence of
a behavior (e.g. the interruption of a light beam by an animal passing by), the reported “flipping”
of the perception of a bistable figure such as the Necker cube, or neural spike trains.
Many such data can be described by Poisson

processes, which can be thought of as a generali-
zation of binomial distribution for rare events. In the case of the Poisson process (rather than the
Poisson distribution), the argument is as follows.
Consider a short time interval ∆t. We require that the probability of an event occuring in that
time interval is
p
1
(∆t) = λ∆t for λ > 0. (10.17)
The subscript 1 in p
1
indicates that one and only one event ist to take place in the interval ∆t.
Eq. 10.17 states that the probability for an an event occuring in a given interval is proportional to
the length of the interval. This will not hold for long intervals, since more than one event are then
likely to occur and p
1
will therefore decrease.
A second requirement states that events do not occur in pairs or triplets etc., but independent
of each other. Therefore, the probability that more than one event occurs during a short intervall
is zero,
p
o
(∆t) +p
1
(∆t) = 1. (10.18)
These two requirements define the Poisson process. It is possible to proove that the distribution
of the variable X
t
, i.e. the number of events occuring from time zero to time t, has the distribution
P(X
t
= i) =
(λt)
i
i!
exp(−λt). (10.19)
Here, i! is the factorial, i.e. i! = i (i − 1) (i − 2) ... 2 1, 0! = 1! = 1. Eq. 10.19 is the
standard Poisson distribution with parameter λt. Mean and variance of this distribution are equal
and take the value of the parameter, i.e. λt. The derivation of the distribution function from the
requirements can be found in Fisz (1980), Section 8.3.
Eq. 10.19 describes the number of events occuring in a time interval from 0 to t. In measure-
ments, we are often not so much interested in this number than in the interval, or pauses between
events. Let τ
k
be the time of occuring of the kth event. We can then measure an interval preceeding
the kth event. Its length is U
k
= τ
k
−τ
k−1
. Note that while X
t
is a discrete random variable, taking
values 1, 2, 3, ..., U
k
is a continuous variable with positive real values. We note without proof that
the probability density function of U is given by
p.d.f.(τ) = λexp¦−λτ¦ (10.20)
(cf. Fisz 1980, problem 8.13.3). The probability density function can be approximated in measu-
rements by histograms of the frequency of various interval durations.

Sim´eon Denis Poisson, 1781-1840
88 KAPITEL 10. TIME SERIES ANALYSIS
10.5 References and suggested reading
Fisz M. (1980) Wahrscheinlichkeitsrechung und mathematische Statistik, 10. Auflage. Berlin: VEB
Deutscher Verlag der Wissenschaften.
Shumway RH, Stoffler DS. (2000) Time Series Analysis and Its Applications. New York: Springer.
Kapitel 11
Lineare Systemtheorie

11.1 Linear systems
In systems theory, a system is defined as a mapping assigning to each input function an output
function. The term mapping was defined in Section 3.1 as a generalization of the notion of a
function, where the range and the domain are not number sets. In the case of s system, range and
domain are sets of functions, the input being in the domain set and the output being in the range
set. In functional analysis, such systems are also known as “operators”. They are closely related
to vector-valued functions of multiple variables. In these, the variable vector can be interpreted as
a sampling of the input function and the functional value as a sampling of the output function.
...
11.2 Elektronische Schaltkreise
11.2.1 Passive Schaltelemente
Bisher haben wir freie Ladungen in elektrischen Feldern betrachtet. In der Elektrotechnik hat man
dagegen immer Ladungen, die sich in Leitern bewegen. Das ¨andert nichts an den grunds¨atzlichen
Begriffen, f¨ uhrt aber dazu, dass Stromfl¨ usse in Schaltkreisen betrachtet werden m¨ ussen. Solche
Schaltkreise enthalten neben Leitern verschiedene Schaltelemente, die man in passive und aktive
einteilt. Passive Schaltelemente sind linear, d.h. sie reagieren auf die Summe zweier Spannungs-
verl¨aufe mit der Summe der Antworten, die sie auf die einzelnen Spannungsverl¨aufe geben w¨ urden
(Superpositionsprinzip). Die wichtigsten passiven Schaltelemente sind Widerstand, Kondensator,
und Spule.
Ohmscher Widerstand
Als Leiter bezeichnet man Stoffe, in denen Ladungstr¨ager relativ frei beweglich sind. In metalli-
schen Leitern werden diese Ladungstr¨ager durch Elektronenen geliefert, die sich im so genannten
Leitungsband, einer energetischen Anregunsstufe befinden, in der eine solche Verschiebung m¨oglich
ist. In Halbleitern sind die Ladungstr¨ager fester gebunden. In Elektrolyten sind die Ladungstr¨ager
Ionen, z.B. Na
+
oder Cl

.

Dieses Kapitel ist noch unter Bearbeitung
89
90 KAPITEL 11. LINEARE SYSTEMTHEORIE
Grunds¨atzlich gilt f¨ ur Leitung in Materialien das Ohmsche Gesetz, nach dem der durch den
Leiter fließende Strom der anliegenden Spannung proportional ist:
U = RI. (11.1)
Der Proportionalit¨atsfaktor R heißt (Ohmscher) Widerstand; seine Einheit ist das Ohm. In einem
Widerstand von einem Ohm fließt bei einer Spannung von einem Volt ein Strom von einem Ampere.
Statt des Widerstandes gibt man zuweilen auch seinen Kehrwert an, den man als Leitf¨ahigkeit
bezeichnet; Einheit ist das Siemens, das einfach der Kehrwert des Ohm darstellt.
Der Widerstand kann intuitiv als eine Art Reibung verstanden werden, die beim Fließen des
Stromes ¨ uberwunden werden muss. H¨angt man mehrere Widerst¨ande hintereinandern (

in Serie“),
so addieren sich die einzelnen Widerst¨ande zu einem Gesamtwiderstand. Schaltet man sie parallel,
so dass der Strom durch mehrere Pfade gleichzeitig fließen kann, sinkt der Gesamtwiderstand
entsprechend ab. In gleicher Weise steigt der Widerstand beim Verl¨angern eines Leitungsdrahtes
an, w¨ahrend er beim Verdicken des Drahtes absinkt.
Durch den Stromfluss im Widerstand w¨armt dieser sich auf, es entsteht Ohmsche W¨arme.
Ausgehend von der Definition der Leistung, N = UI, erh¨alt man aus dem Ohmschen Gesetz:
N = RI
2
und N =
U
2
R
− (11.2)
Kondensator
Ein Kondensator besteht im Prinzip aus zwei parallel gegeneinander gestellten Leiterplatten, die
durch einen Isolator getrennt sind. Legt man nun eine Spannung an die beiden Platten an, so fließt
zun¨achst ein Strom in die Platten hinein. Die zugeh¨origen Ladungen sammeln sich in den Platten
und ziehen sich ¨ uber den isolierten Zwischenraum hinweg verm¨oge der Coulombchen Kraft an. Die
Ladung, die ein Kondesator pro von außen angelegter Spannung speichern kann, nennt man seine
Kapazit¨at, C. Ihre Einheit ist das Farad (1 Farad = 1 Coulomb/Volt).
Q =
_
t
2
t
1
I(t)dt = CU (11.3)
Kondensatoren wirken bei Gleichstr¨omen einfach als Isolator. Bei Wechselstr¨omen jedoch be- und
entladen sie sich im Rhythmus des Vorzeichenwechsels und sind daher f¨ ur die Dynamik von großer
Bedeutung.
Kapazit¨aten treten nat¨ urlich z.B. an biologischen Membranen auf, die selbst isolierend sind
und zwei ionenleitende Medien voneinander trennen (Hodgkin-Huxley-Theorie des Aktionspoten-
tials). Wichtig sind auch die Kapazit¨aten von Polarisationsschichten an Elektroden (
¨
Ubergang von
Ionen- auf Elektronenleitung), die bei der Interpretation elektrophysiologischer Messergebnisse
ber¨ ucksichtigt werden m¨ ussen.
Spule (Induktivit¨at)
Wechselstr¨ome erzeugen um sich herum ein wechselndes Magnetfeld, das seinerseits in den Leitern
wieder einen Strom induziert. Der Effekt ist besonders stark f¨ ur hohe Frequenzen und Leiter, die
zu Spulen aufgewickelt sind. Die in einer Spule selbst induzierte Spannung ist proportional der
Ableitung des Stroms. Die Proportionalit¨atskonstant heißt

Induktivit¨at“ L und hat die Einheit
Henry (1 Henry = 1 Volt Sekunde / Ampere = 1 Ohm Sekunde).
U
ind
(t) = L
dI(t)
dt
(11.4)
11.2. ELEKTRONISCHE SCHALTKREISE 91
Tabelle 11.1: Zusammenfassung: passive Schaltelemente
Spannung Strom
Widerstand U
R
(t) = RI
R
(t) I
R
(t) =
1
R
U
R
(t)
Kondensator U
C
(t) =
1
C
_
I
C
(t)dt I
C
(t) = C
dU
C
(t)
dt
Spule U
L
(t) = L
dI
L
(t)
dt
I
L
(t) =
1
L
_
U
L
(t)dt
F¨ ur bioelektrische Ph¨anomene spielen Induktivit¨aten keine Rolle. Wichtig sind sie jedoch in ver-
schiedenen Messger¨aten, z.B. im Kernspintomographen oder im Magnetencephalographen, sowie
f¨ ur die transcranielle Magnetstimulation.
11.2.2 Stromkreise
Kirchhoffsche Regeln
In elektronischen Schaltungen, wie auch zur Erkl¨arung bioelektrischer Vorg¨ange, betrachtet man in
der Regel Stromkreise, die aus Leitern und den o.a. passiven Schaltelementen bestehen. Dar¨ uber-
hinaus kommen vor allem in der Elektronik Halbleiterelemente oder R¨ohren hinzu, die sich nicht
passiv verhalten. Wir betrachten zun¨acht die Grundregeln solcher Schaltungen.
Topologisch kann man in Schaltungen Knoten und Schleifen oder Maschen unterscheiden. Kno-
ten befinden sich jeweils an Verzweigungen von Leitern oder zwischen zwei Schaltelementen. Formal
konzentriert man dann Widerstand, Kapazit¨at und Induktivit¨at des Leiters in ein Schaltelement
und behandelt die Verbindungslinien im gezeichneten Schaltkreis als ideale Leiter mit Widerstand,
Kapazit¨at und Induktivit¨at null. Maschen sind geschlossene Leiterz¨ uge mit den eingeschlossenen
Schaltelementen. Aus den grundlegenden Erhaltungss¨atzen der Physik leitet man die beiden Kirch-
hoffschen Regeln ab:
• Knotenregel: Jedem Knoten einer Schaltung muss ebensoviel Ladung zu- wie abfließen. Die
Summe aller in den Knoten gerichteten Str¨ome ist null,

k
I
k
= 0. (11.5)
Wertet man dabei in den Knoten gerichtete Str¨ome positiv, so muss man abfließende Str¨ome
negativ werten und umgekehrt.
• Maschenregel: Die Summe aller Spannungsabf¨alle an den Bauelementen, aus denen die Ma-
sche besteht, ist null,

k
U
k
= 0. (11.6)
Auch hier muss man beachten, dass der Umlaufsinn, in dem die Spannungsabf¨alle gerechnet
werden, fest gehalten wird, entweder im Uhrzeigersinn oder entgegengesetzt.
Mit Hilfe der Kirchhoffschen Regeln lassen sich Bestimmungsgleichungen f¨ ur Netzwerke auf-
stellen, aus denen das Verhalten des Schaltkreises vorhergesagt werden kann.
92 KAPITEL 11. LINEARE SYSTEMTHEORIE
Widerstandsnetze
Serienschaltung Abb. 11.4a zeigt einen Schaltkreis mit zwei Widerst¨anden in Serie (hinterein-
ander geschaltet). U
o
und I
o
sind die anliegende Spannung und der insgesamt fließende Strom. Aus
der Kirchhoffschen Maschenregel ließt man ab:
U
1
+U
2
−U
o
= 0.
Aus der Knotenregel folgt
I
1
= I
2
= I
o
oder, durch Einsetzen des Ohmschen Gesetzes
U
1
R
1
=
U
2
R
2
und weiter
U
1
U
2
=
R
1
R
2
.
Die Spannung verteilt sich als im Verh¨altnis der beiden Widerst¨ande. Kombiniert man Knoten-
und Maschengleichung, so folgt
U
1
=
R
1
R
1
+R
2
U
o
U
2
=
R
2
R
1
+R
2
U
o
(11.7)
Man bezeichne die Schaltung aus Abb. 11.4a auch als Spannungsteiler. Realisiert man die
Widerst¨ande z.B. durch einen langen, schlechten Leiter, so kann man beliebige Teilungsverh¨alt-
nisse herstellen, indem man mit einem Schleifkontakt an verschiedenen Stellen des Widerstandes
die Spannung abgreift. Die Teilwiderst¨ande vor und hinter dem Schleifkontakt sind dann die Wi-
derst¨ande R
1
und R
2
. Man bezeichnet solche Bauteile als Potentiometer.
Der Gesamtwiderstand zweier hintereinander geschalteter Widerst¨ande ergibt sich, indem man
das Ohmsche Gestz auf die Maschenregel U
1
+U
2
= U
o
anwendet:
R
1
I
1
+R
2
I
2
= U
o
=: R
ges
I
o
.
Wegen I
1
= I
2
= I
o
(Knotenregel) folgt:
R
ges
= R
1
+R
2
. (11.8)
Die Additivit¨at von hintereinander geschalteten Widerst¨anden hatten wir bei der Einf¨ uhrung des
spezifischen Widerstandes bereits benutzt.
Parallelschaltung F¨ ur die Parallelschaltung, Abb. 11.4b, gilt wiederum aus den Kirschhoffschen
Regeln
U
o
= U
1
= U
2
I
o
= I
1
+I
2
.
F¨ ur den Gesamtwiderstand erh¨alt man
1
R
ges
=
I
o
U
o
=
I
1
U
o
+
I
2
U
o
=
1
R
1
+
1
R
2
oder
R
ges
=
R
1
R
2
R
1
+R
2
.
11.3. LINEARE ELEKTRONISCHE FILTER 93
RC-Glied
Ein RC-Glied besteht aus einem Wiederstand und einer Kapazit¨at in Serie. Aus der Maschenregel
liest man ab: U
R
+ U
C
= U
o
; aus der Kontenregel entsprechend: C
dU
C
dt
=
U
R
R
. Ist U
o
konstant
(Gleichspannung), so wird wegen der Isolatoreigenschaft des Kondensators kein Strom fließen, I
o
=
0. H¨angt jedoch U
o
von der Zeit ab (Wechselspannung), so kann man aus den beiden Gleichungen
eine Differentialgleichung f¨ ur die Abh¨angigkeit von U
R
und U
C
von t angeben. Wir werden diese
Frage in Kapitel 11 wieder aufgreifen.
11.3 Lineare elektronische Filter
11.3.1 Schaltungen
Als elektronische Filter

bezeichnet man Bauelemente oder Schaltungen, die aus einem Signal be-
stimmte Komponenten

herausfiltern“, w¨ahrend andere unver¨andert durchgelassen werden. Der
Gedanke, dass ein Signal aus Komponenten aufgebaut ist, auf die das Filter unterschiedlich rea-
giert, f¨ uhrt zur¨ uck auf die Fourier-Analyse, die eine solche Zerlegung des Signals in Komponenten
darstellt.
Wir betrachten zun¨achst noch einmal das RC-Glied, das wir bereits in Kapitel ?? eingef¨ uhrt
hatten. F¨ ur die Spannung U
C
, die ¨ uber dem Kondensator anliegt, hatten wir dort die Gleichung
dU
C
dt
=
1
τ
(U(t) −U
C
(t)) (11.9)
mit der Zeitkonstante τ = RC hergeleitet. Schaltet man einen Gleichstrom U(t) = U
o
ein, so f¨allt
die Spannung anf¨anglich ¨ uber dem Widerstand ab. Mit dem Laden des Kondensators steigt jedoch
auch die dort anliegende Spannung, w¨ahrend der Stromfluss und damit der Spannungsabfall ¨ uber
dem Widerstand sinkt. Der Kondensator wirkt also als so genannter

leaky integrator“, ¨ahnlich
einem leckenden Reservoir, in das Wasser str¨omt. Man bezeichnet solche Filter auch als Tiefp¨asse.
In der Neurobiologie bezeichnet man derartiges Verhalten auch als

tonisch.“
Betrachtet man im RC-Glied den Spannungsabfall ¨ uber dem Widerstand, U
R
, so erh¨alt man
analog die Differentialgleichung
dU
R
dt
= −
1
τ
U
R
+
dU
dt
. (11.10)
Hier misst man eine Spannung vor allem in der Anfangsphase nach dem Einschalten, d.h. allgemein
bei einer
¨
Anderung der Eingangsspannung. Solche Systeme heißen Hochp¨asse; Neurone, die sich
so verhalten, nennt man

phasisch“.
Beide Gleichungen beschreiben Zusammenh¨ange zwischen Funktionen. Liegt zum Beispiel eine
Spannung U(t) an, so misst man ¨ uber dem Kondensator einen anderen Spannungsverlauf U
C
(t).
Wir schreiben U
C
(t) = DU(t). Dabei bezeichnet D einen Operator, also eine Abbildung von einer
Funktion auf eine andere. Dieser Operator ist linear, d.h. es gilt:
D(U
1
+U
2
) = D(U
2
) +D(U
2
) (11.11)
D(λU) = λD(U) f¨ ur alle λ ∈ IR (11.12)
Dabei ist zu beachten, dass U
1
und U
2
hier nicht Zahlen sondern Funktionen sind, also ganze
Spannungsverl¨aufe.

In technischen Zusammenh¨angen sagt man meist

das“ Filter.
94 KAPITEL 11. LINEARE SYSTEMTHEORIE
11.3.2 Antwort auf einen Sinusreiz
Im Fall einer konstant anliegenden Spannung und eines Schalters, der zum Zeitpunkt t = 0 ge-
schlossen wird, kann man die beiden Gleichungen leicht durch Einsetzen geeigneter Exponential-
funktionen l¨osen (vgl. Kapitel ??). Um die Antwort auf einen Sinusreiz zu berechnen, ben¨otigen wir
zun¨achst ein Hilfsresultat ¨ uber die Summe eines Sinus und eines Kosinussignals gleicher Frequenz:
a sin ωt +b cos ωt (11.13)
Wir definieren hierzu die neuen Gr¨oßen
ϕ := arctan
b
a
und A :=
_
a
2
+b
2
. (11.14)
Man hat sofort:
a = Acos ϕ und b = Asin ϕ (11.15)
Damit k¨onnen wir die Summe 11.13 umschreiben
a sin ωt +b cos ωt = A(cos ϕ sin ωt + sin ϕ cos ωt) (11.16)
= Asin(ωt +ϕ). (11.17)
Die Gleichheit mit der rechten Seite ergibt sich jetzt aus dem bekannten Additionstheorem f¨ ur den
Sinus, sin(α +β) = sin αcos β + cos αsin β. Mit ψ := arctan a/b = π/2 −ϕ erhalt man analog:
a sin ωt +b cos ωt = Acos(ωt −ψ). (11.18)
Mit Hilfe diese Resultats k¨onnen wir nun eine wichtige Eigenschaft der Sinusfunktion beweisen:
legt man eine sinusf¨ormige Spannung an die Hoch- und Tiefp¨asse der Abb. 11.6 an, erh¨alt man
wieder sinusf¨ormige Verl¨aufe, allerdings mit ver¨anderter Phase und Amplitude. Die Frequenz ¨andert
sich nicht. Tats¨achlich ist dies eine allgemeine Eigenschaft linearer, zeitinvarianter Systeme.
Wir setzen also als zeitabh¨angige Spannungsquelle (Eingangsspannung) an
U(t) = U
o
sin ωt (11.19)
und erwarten die L¨osungen
U
R,C
= AU
o
sin(ωt +ϕ). (11.20)
Tiefpass. Einsetzen in die Gleichung des Tiefpasses, Gl 11.9, ergibt:
ωAU
o
cos(ωt +ϕ) =
U
o
τ
sin ωt −
AU
o
τ
sin(ωt +ϕ) (11.21)
Wir k¨ urzen nun U
o
heraus, sammeln die Terme mit (ωt +ϕ) auf die linke Seite und substituieren
ωt +ϕ =: α:
ωAcos α +
A
τ
sin α =
1
τ
sin(α −ϕ). (11.22)
Vergleich mit Gl. 11.17 liefert:
ω
2
A
2
+
A
2
τ
2
=
1
τ
2
⇒ A =
1

1 +ω
2
τ
2
(11.23)
ϕ = −arctan ωτ (11.24)
11.3. LINEARE ELEKTRONISCHE FILTER 95
Hochpass. Einsetzen in die Gleichung des Hochpasses, Gl 11.10, ergibt:
ωAU
o
cos(ωt +ϕ) = −
AU
o
τ
sin(ωt +ϕ) +ωU
o
cos(ωt) (11.25)
Wir k¨ urzen nun U
o
heraus, sammeln die Terme mit (ωt +ϕ) auf die linke Seite und substituieren
ωt +ϕ =: α:
ωAcos α +
A
τ
sin α = ω cos(α −ϕ). (11.26)
Vergleich mit Gl. 11.18 liefert:
ω
2
A
2
+
A
2
τ
2
= ω
2
⇒ A =
ωτ

1 +ω
2
τ
2
(11.27)
ϕ = arctan
1
ωτ
(11.28)
Bemerkung. Formal einfacher geht das mit komplexen Zahlen, unter Verwendung der Euler-
schen Formel:
e

= cosφ +i sin φ. (11.29)
Wir f¨ uhren die Rechnung hier f¨ ur den Tiefpass noch einmal durch. Sei U(t) = U
o
e
iωt
; wir erwarten
dann die L¨osung U
C
= zU
o
e
iωt
f¨ ur eine komplexe Konstante z. Einsetzen in Gl. 11.9 liefert:
izωU
o
e
iωt
=
1
τ
(u
o
e
iωt
−zU
o
e
iωt
). (11.30)
Der Faktor U
o
e
iωt
k¨ urzt sich jetzt einfach heraus und wir erhalten
izω =
1
τ
(1 −z) (11.31)
und weiter
z =
1
1 +iωτ
=
1 −iωτ
1 +ω
2
τ
2
. (11.32)
Den letzten Schritt bezeichnet man als

Rationalmachen des Nenners“ durch Erweiterung des
Bruches mit der konjugiert Komplexen 1 −iωτ.
Dr¨ uckt man den komplexen Verst¨arkungsfaktor z nach Betrag und Phase aus, erh¨alt man:
[z[ = 1/
_
1 +ω
2
τ
2
(11.33)
argz = φ = arctan
Im z
Rez
= −arctan ωτ, (11.34)
in
¨
Ubereinstimmung mit Gl. 10.15 und 10.16.
A und ϕ h¨angen von der Frequenz des Eingangssignals ω ab. Man bezeichnet A(ω) als Amplituden-
frequenzgang (oder Modulations¨ ubertragungsfunktion) und ϕ(ω) als Phasengang. Eine Auftragung
von A in doppellogarithmischer Darstellung und von φ in einfach logarithmischer Darstellung be-
zeichnet man als Bodediagram.
Die Abschw¨achung A(ω) = c
out
(ω)/c
in
(ω) wird in Dezibel gemessen. Dabei bezeichnet eine Ab-
schw¨achung von 10 dB ein Verh¨altnis von 1 zu 10.
Hochpass/Tiefpass im Bode-Diagramm
Alle Schaltkreise aus den passiven Elementen haben die Eigenschaft, dass Sinuswellen mit phasen-
verschobenen Sinuswellen beantwortet werden. Die Funktionen A(ω) und ϕ(ω) beschreiben diesen
Zusammenhang vollst¨andig, wegen der Fourier-Zerlegung und der Linearit¨at. Phasenverschiebun-
gen k¨onnen mit Lissajou-Figuren bestimmt werden.
96 KAPITEL 11. LINEARE SYSTEMTHEORIE
11.4 Faltung und Impulsantwort
Neben der Systemidentifikation mit Sinusfunktionen kann man auch andere Funktionen als Ein-
gangsfunktionen. Hierf¨ ur kommen praktisch Rauschfunktionen (vgl. Abschnitt 10.1.1) und Stu-
fenfunktionen in Frage. Theoretisch bedeutsam ist dar¨ uberhinaus die Impulsfunktion, ein kurzer,
starker Puls, dessen Integral den Wert 1 hat. Formal stellt man sich solche Impulse als Grenzwert
einer Folge von Funktionen vor, z.B.
f
i
(t) :=
_
_
_
i f¨ ur −
1
i
< t ≤ 0
0 sonst
(11.35)
δ(t) = lim
i→∞
f
i
(t). (11.36)
Mathematisch etwas unsauber kann man sagen, dass δ(t) = 0 f¨ ur alle t ,= 0 und
_

−∞
δ(t)dt = 1.
Dieses Ergebnis erh¨alt man auch f¨ ur andere Folgen von Funktionen, z.B. Gauß-Funktionen deren
Breite gegen null geht w¨ahrend gleichzeitig die Amplitude gegen unendlich geht.
Man nennt δ den Dirac-Impuls oder die δ-Funktion. Mathematisch handelt es sich eigentlich
garnicht um eine Funktion, da der Funktionswert an der Stelle t = 0 (

∞“) keine Zahl ist. Eine
formal befriedigende Definition von δ erh¨alt man aus der Theorie der so genannten Distributionen
in der Funktionalanalysis.
Die Bedeutung des δ-Impulses ergibt sich aus der
¨
Uberlegung, dass jede Funktion f(t) formal
in eine Folge zeitlich aufeinanderfolgener Pulse zerlegt werden kann, wobei der Puls an der Stelle t

die Amplitude f(t

) und damit die Form f(t

)δ(t−t

) hat. Dies ist v¨ollig analog zu der Zerlegung in
Rechtecke, die wir zur EInf¨ uhrung des Integralberiffs in Abb. 3.5 vorgenommen hatten. Setzt man
die Funktion aus den Pulsen wieder zusammen, erh¨alt man die (etwas tautologische) Gleichung
f(t) =
_

−∞
f(t

)δ(t −t

)dt

(11.37)
Der Nutzen dieser Gleichung ergibt sich aus der Linearit¨at des Systems. Nimmt man an, dass
man die Antwort des Systems auf einen δ-Impuls kennt, und dass sich diese Impulsantwort in
Abh¨angigkeit vom Zeitpunkt des Anlegens des δ-Impulses nicht ver¨andert, so kann man die Antwort
auf eine beliebige Eingangsfunktion jetzt vorhersagen. Wir bezeichnen die Impulsantwort mit g(t).
δ(t) −→Filter −→ g(t) (11.38)
f(t) =
_

−∞
f(t

)δ(t −t

)dt

−→Filter −→ h(t) =
_

−∞
f(t

)g(t −t

)dt

(11.39)
11.5 Zusammenhang mit Fourier-Transformation
Sei U(t) ein Signal, das wir als Fourierreihe darstellen k¨onnen:
U(t) = a
o
+

k=1
a
k
cos(2πkt) +

k=1
b
k
sin(2πkt) (11.40)
= a
o
+

k=1
c
k
sin(2πkt +γ
k
) (11.41)
Hierbei wurde die zweite Darstellung mit Gl. 11.17 gewonnen. Legen wir diese Spannung als Ein-
gangssignal an einen Schaltkreis mit Amplitudenfrequenzgang A(ω) und Phasengang ϕ(ω) an, so
erh¨alt man:
11.5. ZUSAMMENHANG MIT FOURIER-TRANSFORMATION 97
U
out
= a
o
A(0) +

k=1
c
k
A(2kπ) sin(2πkt +γ
k
+ϕ(2kπ)) (11.42)
Die rechte Seite der letzten Gleichung bezeichnet man als Faltung (engl.: convolution).
Impulsantwort und Amplituden/Phasen-Frequenzgang: Frequenzgang ist FT der Impulsant-
wort.
98 KAPITEL 11. LINEARE SYSTEMTHEORIE
¸
input f(t)
linear system
¸
output h(t)
Abbildung 11.1: Black box representation of a “system”. A system is defined here by its input-
output relations, i.e. as a mapping that maps an input function f(t) to an output function g(t). In
mathematrics (functional analysis), such mappings are known as “operators”.
R
_ _ ¸

U
¸
I
U = R I
a.
C
_ _ ¸

U
¸
I
U =
1
C
_
I dt
b.
C
_ _ ¸

U
¸
I
U = L
dI
dt
c.
Abbildung 11.2: Die wichtigsten passiven Schaltelemente. a. Ohmscher Widerstand: Der Span-
nungsabfall ¨ uber den Widerstand ist proportional zum durchfließenden Strom. b. Kondesator (Ka-
pazit¨at): Die Spannung ¨ uber dem Kondensator ist proportional zur hineingeflossenen Ladung. c.
Spule (Induktivit¨at): Die indurierte Spannung ist proporational zur
¨
Anderung des Stromflusses.
g
¸
I
1
·
I
2
¡
I
3
`
I
4

k
I
k
= 0
a.
g
g g
g
_

_

U
1
_ ¸ _

U
2
¸

_

U
3
_

U
4

k
U
k
= 0
b.
Abbildung 11.3: Kirchhoffsche Regeln. a. Knotenregel: Die Summe aller Str¨ome, die in einen Knoten
hineinfließen (oder aus ihm heraus) ist null. c. Maschenregel: Die Summe aller gleichsinnig (mit
oder gegen dem Uhrzeigersinn) gemessenen Spannungen in einer Masche ist null.
11.5. ZUSAMMENHANG MIT FOURIER-TRANSFORMATION 99
a.
`

U
o
I
o
R
1
R
2
_ ¸ _

U
1
_ ¸ _

U
2
g
¸
I
1
¸
I
2
b.
`

U
o
I
o
R
1
¸

_

U
1
R
2
¸

_

U
2
g
g
·
I
1
·
I
2
Abbildung 11.4: Einfache Schaltkreise aus Widerst¨anden. a. Schaltung von zwei Widerst¨anden in
Serie. b. Parallelschaltung.
`

U
o
I
o
C
R
Abbildung 11.5: RC-Glied
100 KAPITEL 11. LINEARE SYSTEMTHEORIE
'

U
o
R
1
R
2
¸

_

V
Allpass
U
2
(t) = U
o
(t)
R
2
R
1
+R
2
a.
'

U
o
C
R
¸

_

V
Hochpass
dU
R
(t)
dt
= −
1
RC
U
R
(t) +
dU
o
(t)
dt
b.
'

U
o
R
C
¸

_

V
Tiefpass
dU
C
(t)
dt
=
1
RC
(U
o
(t) −U
C
(t))
c.
Abbildung 11.6: Einfache Filterschaltungen. a. Spannungsteiler (Allpass). b Hochpass. c Tiefpass.
0.1 0.2 0.5 1 2 5 10 20
90.
0.
30.
45.
60.
0.1 0.2 0.5 1 2 5 10 20
0.1
0.2
0.3
0.5
1.0
Abbildung 11.7: Bode Diagramm des Hochpasses. Oben: Amplitudenfrequenzgang (Modulati-
ons¨ ubertragungsfunktion), unten: Phasengang.
11.5. ZUSAMMENHANG MIT FOURIER-TRANSFORMATION 101
¸
δ-Puls, δ(t)
lineares System
¸
Impulsantwort g(t)
¸
x(t) =
_
x(τ)δ(t −τ)dτ
Faltung mit g
¸
y(t) =
_
x(τ)g(t −τ)dτ
¸
Modulation, exp¦iωt¦
lineares System
¸
M
¨
UF, ˜ g(ω)
¸
˜ x(ω) =
_
x(t)e
iωt

Multiplikation mit
M
¨
UF
¸
˜ y(ω) =
˜ g(ω)˜ x(ω)
Abbildung 11.8: Systemidentifikation. Oben: Faltung mit der Impulsantwort. Unten: Multiplikation
mit der Modulations-
¨
Ubertragungsfunktion (M
¨
UF). Beide Beschreibungen sind aquivalent (Satz
von Wiener-Khinchin).
Kapitel 12
Bildverarbeitung
12.1 Bilder
Bilder sind zweidimensionale Verteilungen von Farb- oder Grauwerten. Im Computer sind solche
Bilder immer abgetastet und diskretisiert:
Abtastung: Im Ort ist das Bild in so genannte Pixel (

picture elements“) eingeteilt, die in
Matlab von oben links gez¨ahlt werden, beginnend mit (1, 1). Das Pixel mit der Nummer (i, j)
befindet sich in Zeile i und Spalte j. Wir bezeichnen die Breite des Bildes (Anzahl der Spalten)
mit I, die H¨ohe (Anzahl der Zeilen) mit J.
Diskretisierung: Die kontinuierlichen Farb- bzw. Grauwerte nat¨ urlicher Bilder werden im Com-
puter als diskrete Zahlen dargestellt. Matlab verwendet drei Zahltypen:
• uint8 (unsigned integer, 8 bit). Dies sind die Farb- oder Graustufen von 0 bis 255. Drei
Farbwerte zu jeweils acht bit ergeben 24 bit oder 2
24
= 16.777.216 verschiedene Farben.
• uint16 (unsigned integer, 16 bit). Dies sind die Farb- oder Graustufen von 0 bis 65535.
• double (double precision floating point). In diesem Fall werden die Farb- bzw. Grauwerte im
Intervall [0, 1] als Fließkommazahlen dargestellt.
Die Zuordung von Pixel und Farbwert erfolgt auf eine von zwei Weisen:
• RGB-Bilder (

true color image“): Hier werden f¨ ur jedes Pixel drei Farbwerte gespeichert. Dies
kann mit jeder oder oben genannten Au߬osungen geschehen. Verwendet man z.B. uint8, so
ist das Bild eine I J 3-Matrix von 8-bit-Zahlen.


indexed images“: Braucht man weniger Farbabstufungen, so kann man diese in einer Palette
oder Farbkarte (colormap) definieren, deren Farben von 1 bis n durchnummeriert sind. F¨ ur
jedes Pixel gibt man dann diese Nummer (

index“) als Integer-Zahl an. Bei der Darstellung
des Bildes muss dann jeweils in der Farbkarte nachgeschlagen werden, welche Farbe zu der
am Pixel gespeicherten Nummer geh¨ort. Benutzt man etwa eine Palette von 16 Farb- und
Intensit¨atswerten, so besteht das Bild aus einer I J-Matrix von Indexwerten, sowie einer
Farbkarte von 16 3 Farbwerte. Diese Zahlwerte k¨onnen wieder vom Typ uint8, uint16,
oder double, sein.
102
12.2. FILTERUNG 103
Grauwertbilder werden in Matlab als Spezialfall von indizierten Bildern behandelt, bei dem
die Farbkarte nur Eintr¨age mit jeweils drei gleichen Werten f¨ ur R, G, und B enth¨alt. Der
Befehl colormap(gray) erzeugt eine solche Farbkarte.
Der Matlab-Befehl pixval zeigt in einem gegebenen Bild die (i, j)-Koordinaten sowie den Wert
des Pixels an, ¨ uber dem sich der Mauszeiger gerade befindet.
F¨ ur den Computer sind Bilder also zun¨achst nichts anderes als Matrizen von Farb- und In-
tensit¨atswerten, die f¨ ur sich genommen keinerlei Bedeutung haben. Will man Regionen im Bild
abgrenzen und ausmessen, Objekte auffinden oder Bewegungen detektieren, so muss man von die-
sen Matrizen ausgehen. Die Bildverarbeitung untersucht Operationen und Algorithmen, die solche
Leistungen erbringen.
Durch den Einsatz von Kameras f¨ ur Messprobleme aller Art kommt der Bildverarbeitung zu-
nehmend Bedeutung f¨ ur Auswerteprobleme zu. Beispiele sind die
¨
Uberwachung von Bewegungen
von Tieren (

tracking“) in Verhaltenexperimenten, die verschiedenen tomographischen oder bild-
gebenden Verfahren in der Medizin, oder die quantitative Auswertung anatomischer und histo-
logischer Bilder. Methoden der Bildverarbeitung kommen dar¨ uber hinaus generell zum Einsatz,
wenn zweidimensionale Verteilungen von Daten betrachtet werden, zum Beispiel also auch in der
Chromatographie und in der Akustik (Sonagramme).
12.2 Filterung
Auf Bilder k¨onnen wie auf Matrizen und Vektoren die g¨angigen Rechenarten angewandt werden,
die dann wiederum komponentenweise (pixelweise) erkl¨art sind. Die Addition von zwei Bildern
entspricht damit anschaulich dem
¨
Uberblenden zweier Bilder aus zwei Projektoren, bei der ja
auch die Intensit¨atswerte der ¨ ubereinanderfallenden Pixel addiert werden. Eine weitere wichtige
Operation ist die Verschiebung bei der z.B. jeder Intensit¨atswert durch den des linken Nachbarpixels
ersetzt wird.
Aus Verschiebung, Multiplikation und Addition erzeugt man die wichtigste Bildverarbeitungs-
operation, n¨amlich die die Filterung oder Korrelation mit einer Maske. Wir betrachten als einfaches
Beispiel ein Bild, das durch eine Grauwertmatrix G gegeben ist. Will man nun das Bild

gl¨atten“,
d.h. unsch¨arfer machen und damit etwa st¨orende Rauschmuster unterdr¨ ucken, so kann man ein
neues Bild H erstellen, indem man an jedem Pixel (i, j) ¨ uber die n¨achsten Nachbarn mittelt, z.B.:
H(i, j) :=
1
5
(G(i, j) +G(i −1, j) +G(i + 1, j) +G(i, j −1) +G(i, j + 1)). (12.1)
Eine Verst¨arkung der Kontraste zwischen verschiedenen Pixeln kann man erzielen, indem man von
jedem Grauwert den mittleren Grauwert der Nachbarschaft abzieht, z.B.:
H(i, j) := G(i, j) −
1
4
(G(i −1, j) +G(i + 1, j) +G(i, j −1) +G(i, j + 1)). (12.2)
F¨ ur Pixel, die z.B. am linken Rand des Bildes liegen, wird z.B. i = 1 und daher i −1 = 0. G(0, j)
existiert aber gar nicht. Man muss also die Formel am Rand entsprechend modifizieren. In der Regel
setzt man außerhalb des Bildes liegende Pixel einfach null (G(0, j) := 0) oder setzt die Bildmatrix
am Rand konstant fort (G(0, j) := G(1, j)). Matlab bietet beide M¨oglichkeiten als Optionen an.
In jedem Fall ist die Gr¨oße des Ergebnisbildes gleich der des Eingangsbildes.
Der Einfluss eines Pixels G(i, j) auf ein Pixel H(k, l) des neuen Bildes h¨angt hier nur von der
Differenz der Koordinaten (k −i, l −j) = (m, n) ab, d.h. es wird an jeder Stelle im Bild die gleiche
Operation vollzogen. Solche Operationen heißen

ortsinvariant“ oder

translationsinvariant“. Den
104 KAPITEL 12. BILDVERARBEITUNG
1
2
3
4
5
1
2
3
4
5
G(l) H(l)
a. Korrelation
,
,
,
,
,
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
¸
¸
¸
¸
¸
.
.
.
.
..
.
.
.
.
..
.
.
.
.
..
.
.
.
.
..
-
-
-
-
-- ¸
-
-
-
-
-- ¸
-
-
-
-
-- ¸
-
-
-
-
-- ¸
,
.
.
.
.
.
.
.
-
-
-
-
-
-
- _
.
.
.
.
.. ¸
-
-
-
-
-- ¸ C(0)
C
(−
1)
C
(1)
H(3) =
1

n=−1
C(n)G(3 + n)
1
2
3
4
5
1
2
3
4
5
G(l) H(l)
b. Faltung
,
,
,
,
,
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
¸
¸
¸
¸
¸
.
.
.
.
..
.
.
.
.
..
.
.
.
.
..
.
.
.
.
..
-
-
-
-
-- ¸
-
-
-
-
-- ¸
-
-
-
-
-- ¸
-
-
-
-
-- ¸
, .
.
.
.
.
.
.
-
-
-
-
-
-
-
_ .
.
.
.
.. ¸
-
-
-
-
-- ¸
C(0)
C
(−
1)
C
(1)
C
(1)
C
(−
1)
H(3) =
1

n=−1
C(n)G(3 − n)
Abbildung 12.1: Korrelation und Faltung. Beide Operationen unterscheiden sich nur in der Art,
wie die Pixel der Maske numeriert werden. Bei der Korrelation (a.) geschieht das aus der Sicht des
Ergebnisbildes H. Stellt man sich vor, man blicke von H

zur¨ uck“ auf G, dann sind die negativ
indizierten Pixel rechts, die positiv indizierten Pixel links. Die Maske beschreibt die Konvergenz
(das

Einsammeln“) von Signalen aus dem Eingangsbild. Zur Bestimmung der Signalst¨arke an
einem Pixel des Ergebnisbildes muss die Maske nicht bewegt werden. Bei der Faltung (b.) sind
die Pixel der Maske aus der Sicht des Eingangsbildes numeriert. Stellt man sich vor, man blicke
von G

vorw¨arts“ auf H, dann sind die negativ indizierten Pixel links, die positiv indizierten
rechts. Die Maske beschreibt die Divergenz (das

Verteilen“) von Signalen aus dem Eingangsbild.
Zur Bestimmung der Signalst¨arke an einem Pixel des Ergebnisbildes muss die Maske ¨ uber das
Eingangsbild verschoben werden.
allgemeinsten Fall dieser Art von Operation erh¨alt man, wenn man f¨ ur jede Koordinatendifferenz
(m, n) ein

Gewicht“ C(m, n) angibt, mit dem das betrachtete Pixel auf ein anderes einwirkt. Wir
nennen die Matrix C eine Maske und schreiben:
H = G⊗C,
H(k, l) =
M

m=−M
N

n=−N
C(m, n) G(k +m, l +n). (12.3)
Hierbei sind wir davon ausgegangen, dass die Komponenten der Matrix C nicht wie ¨ ublich von
0 aus nummeriert sind, sondern von −M bis M bzw. −N bis N. Die Anzahlen der Zeilen und
Spalten sind also immer ungerade. F¨ ur die beiden oben genannten Beispiele (Gl. 12.1 und 12.2)
hat man
C =
0 1/5 0
1/5 1/5 1/5
0 1/5 0
bzw. C =
0 −1/4 0
−1/4 1 −1/4
0 −1/4 0
. (12.4)
Die Operation aus Gl. 12.3 heißt Korrelation oder Filterung. In Matlab wird sie von der
Funktion imfilter(G,C) ausgef¨ uhrt. Zuweilen benutzt man auch die Faltung (engl. convolution),
die mathematisch weitgehend ¨aquivalent zur Korrelation ist. Die Intuition ist jedoch anders: bei
der Korrelation gibt der Maskeneintrag C(m, n) an, wie stark ein um (m, n) verschobenes Pixel
des Eingangsbildes das aktuelle Pixel des Ergebnisbildes beeinflusst. Bei der Faltung geht man
vom Eingangsbild aus; der Maskeneintrag C(m, n) gibt dann an, wie stark das aktuelle Pixel des
Eingangsbildes ein um (m, n) verschobenes Pixel des Ergebnisbildes beeinflusst (vgl. Abb. 12.1).
Die Gleichung f¨ ur die Faltung lautet:
12.2. FILTERUNG 105
H = G∗ C,
H(k, l) =
M

m=−M
N

n=−N
C(m, n) G(k −m, l −n). (12.5)
Faltung und Korrelation gehen also ineinander ¨ uber, wenn man die Maske um 180

dreht, oder
eine Punktspiegelung an ihrem mittleren Pixel vornimmt. Bei punktsymetrischen Masken (d.h.
Masken mit der Eigenschaft C(−m, −n) = C(m, n) liefern Korrelation und Faltung das gleiche
Ergebnis.
Faltung und Korrelation sind Operationen, die ein Bild in ein anderes ¨ uberf¨ uhren. Diese
¨
Uberf¨ uhrung ist linear, d.h. es gilt:
(F +G) ∗ C = F ∗ C +G∗ C; (λF) ∗ C = λ(F ∗ C), (12.6)
(F +G) ⊗C = F ⊗C +G⊗C; (λF) ⊗C = λ(F ⊗C). (12.7)
Dabei ist λ ∈ IR eine reelle Zahl; Addition von Bildern und die Multiplikation mit λ sind pixelweise
gemeint. Will man also etwa Bilder mitteln (d.h. die Grauwerte pixelweise addieren und durch die
Gesamtzahl der Bilder dividieren), so ist es gleichg¨ ultig, ob man eine Filterungsoperation vor oder
nach der Mittelung anwendet.
Nur f¨ ur die Faltung gelten noch zwei weitere Beziehungen:
Assoziativit¨at: Ist G ein Bild und sind C, D zwei Masken, so gilt
(G∗ C) ∗ D = G∗ (C ∗ D). (12.8)
Statt ein Bild nacheinander mit zwei Masken zu falten, kann man also auch zun¨achst die
Masken miteinander falten und dann die neue kombinierte Maske auf das Bild anwenden.
Die entsprechende Formel f¨ ur die Korrelation lautet (G⊗C) ⊗D = G⊗(C ∗ D).
Kommutativit¨at: Faltet man ein Bild mit zwei Masken C, D nacheinander, so spielt die Rei-
henfolge dieser Masken keine Rolle:
G∗ C ∗ D = G∗ D ∗ C. (12.9)
Die Maske ist wie das Bild eine Matrix, wenn auch in der Regel viel kleiner als das Bild. Bis
auf die Randeffekte an Stellen, an denen die Maske ¨ uber das Bild hinausgreift, gilt jedoch
auch hier die Vertauschbarkeit: G∗ C = C ∗ G.
Die Korrelation ist dagegen nicht kommutativ. Vertauscht man die Reihenfolge von Bild und
Maske, so erh¨alt man ein punktsymetrisch gespiegeltes Ergebnis.
Durch die Faltungsoperation k¨onnen Bildwerte entstehen, die negativ oder gr¨oßer als 255 sind. 8-bit
Bilder werden in solchen F¨allen

trunkiert“, d.h. im Intervall von 0 bis 255 wird auf ganze Zahlen
gerundet und Werte ¨ uber 255 bzw. unter 0 werden auf 255 bzw. 0 gesetzt. Will man die damit
verbundenen Rechenfehler vermeiden, muss man die Bilder vor der Filterung in Gleitkommazahlen
(

double“) umwandeln. Bei Masken mit rein positiven Eintr¨agen wird der Wertebereich von 0
bis 255 nicht verlassen, solange man die Summe der Eintr¨age auf 1 normiert, d.h. jeden Eintrag
durch die Summe der Eintr¨age teilt. In diesem Fall ist allerdings die Maske nicht mehr ganzzahlig;
wendet man sie auf ein 8-bit Bild an, entstehen wieder Rundungsfehler. Auch dieses Problem
entf¨allt, wenn man von vorne herein mit Gleitkommazahlen rechnet. Da der Bildschirm nur eine
feste Grauwertskala von schwarz bis weiß zur Verf¨ ugung stellt, muss man bei negativen Bildwerten
die 0 durch ein mittleres Grau darstellen. Negative Werte erscheinen dann dunker, positive heller.
106 KAPITEL 12. BILDVERARBEITUNG
1 2 3 4 5 6 7 8 9 10 11
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
Abbildung 12.2: Iterated convolu-
tion of a point image with a
box-shaped mask. The first functi-
on (g
0
(x), light black line) shiws
the original image, the second
function(g
1
(x), heavy black line) re-
produces the mask. The further ite-
rations are: g
2
(x), light blue line;
g
3
(x), heavy blue line; g
4
(x), light
green line, and g
5
(x), heavy green
line.
F¨ ur Farbbilder gestaltet sich die Definition der Filterung etwas schwieriger. Im einfachsten Fall
benutzt man einfach die gleiche Maske f¨ ur jeden der drei Farbkan¨ale separat und setzt die drei
Ergebnisse wieder zu einem RGB-Bild zusammen. Im Allgemeinen hat man f¨ ur jede Verschiebung
in der Maske 3 3 Gewichte, die die Einfl¨ usse aller drei Farbkan¨ale des Eingangsbildes auf jeden
der drei Farbkan¨ale des Ausgangsbildes wiedergeben.
Example 1
Consider a one-dimensional “image” with pixels numbered (−5, ..., −2, −1, 0, 1, 2, ..., 5) and inten-
sities
G
o
(i) =
_
_
_
1 for i = 0
0 for i ,= 0
. (12.10)
As a mask, consider the 3-pixel mask m = (
1
3
,
1
3
,
1
3
). We will now denote by
G
k
= G
k−1
∗ m (12.11)
the k-fold convolution of G
o
with the mask m. The result is shown in the following table:
k g
k
(−5) g
k
(0) g
k
(5)
0 0 0 0 0 0 1 0 0 0 0 0
1 0 0 0 0 1 1 1 0 0 0 0 /3
2 0 0 0 1 2 3 2 1 0 0 0 /9
3 0 0 1 3 6 7 6 3 1 0 0 /27
4 0 1 4 10 16 19 16 10 4 1 0 /81
5 1 5 15 30 45 51 45 30 15 5 1 /243
As can be seen from Figure 12.2, the functions g
k
(x) approach a bell-shaped curve for large k.
Indeed, the central limit theorem guarantees that this limit function is the Gaussian.
12.2. FILTERUNG 107
Y
=
2
;

=
1
Y
=
3
;

=
2
Y
=
4
;

=
3
Y
=
5
;

=
4
Y
=
6
;

=
5
Y
=
7
;

=
6
Y
=
8
;

=
5
Y
=
9
;

=
4
Y
=
1
0
;

=
3
Y
=
1
1
;

=
2
Y
=
1
2
;

=
1
x
2
=
1 2 3 4 5 6
1 1,1 1,2 1,3 1,4 1,5 1,6
2 2,1 2,2 2,3 2,4 2,5 2,6
x
1
= 3 3,1 3,2 3,3 3,4 3,5 3,6
4 4,1 4,2 4,3 4,4 4,5 4,6
5 5,1 5,2 5,3 5,4 5,5 5,6
6 6,1 6,2 6,3 6,4 6,5 6,6
Abbildung 12.3: Convolution and the probability distribution of sums. The black table shows the
possible outcomes of a pair of dice rolled together. The blue boxes group all outcomes yielding
the same sum. Clearly, the sum 2 will occur less frequently than the sum 7, say, since six possible
outcomes yield 7 while only one possible outcome yields 2.
Example 2
The discrete, two-dimensional convolution operation introduced in Eg. 12.5 is a basic operation
occuring in many fields of mathematics and quite different contexts. In its continuous version, it
is the basis of linear systems theory discussed in Chapter 11. Here we briefly discuss a further
application of discrete convolution in probablity theory.
When rolling a pair of dice, the probablity of obtaining a particular number on each individual
die is equally distributed, i.e.
P(x
i
= j) =
1
6
for i = 1, 2 and j = 1, ..., 6. (12.12)
Let Y denote the sum of the points from the two dice. Clearly, Y can vary between 2, if both
dice show “1”, and 12, if both dice show “6”. The probability of these results equals
_
1
6
_
2
=
1
36
.
Intermediate sums such as 5 can be obtainted by a number of pairs, i.e., (1, 4), (2, 3), (3, 2), (4, 1),
and therefore have higher probabilities, in our example
4
36
.
In general, all possible outcomes yielding the sum i can be written as (j, i−j), or more explicitly
P(Y = i) =
min(6,i−1)

j=max(i−6,1)
P(X
1
= j) P(X
2
= i −j) (12.13)
As depicted in Fig. 12.3, P(Y = i) takes a triangular shape, just as the convolution of the box
function with itself (light blue line in Fig. 12.2. In general, the distribution density function of a
108 KAPITEL 12. BILDVERARBEITUNG
sum of two random variables can be shown to equal the convolution of the distribution density
functions of the two individual distribution functions.
12.3 Kantendetektion
Kanten sind Stellen im Bild, an denen sich der Grauwert sprunghaft oder zumindest

schnell“
¨andert. Kanten haben folgende Eigenschaften:
• Orientierung: Kanten sind lokal immer linienhaft; das Bild ¨andert sich senkrecht zur Kante
schnell, in Richtung der Kante jedoch wenig oder gar nicht. Kleine Linienst¨ ucke, die den
Ort und die lokale Richtung der Kante angeben, heißen

Kantensegmente“, ihr Winkel zur
Horizontalen

Orientierung“. Er liegt zwischen −90

und 90

.
• Polarit¨at: Zwei Kanten gleicher Orientierung haben die gleiche Polarit¨at, wenn der hellere
Bildteil bei beiden Segmenten auf der gleichen Seite liegt. Orientierung und Polarit¨at k¨onnen
zu einem Winkel zwischen −180

und 180

zusammen gefasst werden.
• Sprung- und Konturkanten: Sprungkanten sind Grenzen zwischen Regionen unterschiedli-
cher Bildintensit¨at. Sie k¨onnen antisymmetrische durch Masken der Form (−0.5, 0, 0.5) bzw.
(0.5, 0, −0.5) betont werden. Konturkanten bestehen aus zwei nahe beieinander liegenden
Sprungkanten gleicher Orientierung und entgegengesetzter Polarit¨at. Sie k¨onnen durch sym-
metrische Masken der Form (−0.5, 1, −0.5) bzw. (0.5, −1, 0.5) betont werden.
• Aufl¨osung (scale): Kanten treten auf unterschiedlichen Aufl¨osungsniveaus auf, die mit
verschiedenen breiten Masken bearbeitet werden m¨ ussen.
In einem Kantenbild nimmt ein Pixel den Wert 0 an, wenn dort keine Kante detektiert wurde,
und den Wert 1, wenn eine Kante detektiert wurde. Ein einfacher, h¨aufig verwendeter Kantende-
tektor ist der Sobel-Operator; er benutzt zwei orientierte Kantenfilter
V =
−1 0 1
−2 0 2
−1 0 1
und H =
1 2 1
0 0 0
−1 −2 −1
f¨ ur die Betonung horizontaler und vertikaler Kanten. Die beiden entstehenden Bilder werden pi-
xelweise quadriert und dann zusammenaddiert:
G
out
= (G
in
⊗V )
2
+ (G
in
⊗H)
2
.
Als Kantenelemente werden solche Pixel angesehen, an denen G
out
einen vorgegebenen Schwellwert
¨ ubersteigt. Der Sobel-Operator wertet die Steigung im Grauwertgebirge in der steilsten Richtung
aus; anschaulich liefert er das Quadrat der L¨ange des Gradienten (Vektor der partiellen Ableitun-
gen) des Grauwertgebirges. Er ist nichtlinear.
12.4 Korrelation und Schablonenfilter (matched filter)
Wir haben schon darauf hingewiesen, dass die Maske einer Filteroperation als kleines Bild aufgefasst
werden kann. Dieses Bild schiebt man gewissermaßen ¨ uber das zu bearbeitende große Bild. Die
pixelweise Multiplikation von Bild und Maske mit anschließender Summation liefert dabei ein umso
gr¨oßeres Ergebnis, je ¨ahnlicher sich Bild und Maske lokal sind. Will man z.B. in einem eingescannten
12.5. BEWEGUNG 109
Text den Buchstaben “A” in aufrechter Orientierung und in 9 Pixel Gr¨oße suchen, so kann man
eine Maske der Form
A :=
0 0 0 0 1 0 0 0 0
0 0 0 1 1 1 0 0 0
0 0 1 1 1 1 1 0 0
0 0 1 1 0 1 1 0 0
0 1 1 1 0 1 1 1 0
0 1 1 0 0 0 1 1 0
1 1 1 1 1 1 1 1 1
1 1 0 0 0 0 0 1 1
1 1 0 0 0 0 0 1 1
(12.14)
definieren, und mit dieser das Bild korrelieren. An den Stellen, an denen ein “A” weiß auf schwarzem
Grund gedruckt ist, wird diese Maske den maximalen Ausgang liefern.
Um dies einzusehen, betrachten wir die Anzahl der in der Maske A mit dem Wert 1 besetzten
Pixel. Im Beispiel der Gl 12.14 sind das w
M
= 40. Die restlichen s
M
= 41 Pixel der Maske sind
schwarz (0). Legt man diese Maske auf ein rein weißes Bild, also eine Fl¨ache, deren s¨amtliche Pixel
den Wert 1 haben, so wird der Ausgang der Filterungsoperation w
M
= 40 betragen. Da die Maske
keine negativen Gewichte enth¨alt, ist dies der maximal m¨ogliche Wert. Legt man nun die Maske
auf ein Bild mit schwarzen und weißen Pixeln, so wird das Ergebnis der Filterung H so lange den
Maximalwert H = w
M
annehmen, wie alle schwarzen Pixel des Bildes unter schwarzen Pixeln der
Maske liegen. Das

dunkelste“ Bild, d.h. das Bild mit den meisten schwarzen Pixeln, das noch
H = w
M
liefert, hat ¨ uberall dort schwarze Pixel, wo auch die Maske schwarze Pixel hat, zeigt also
ebenfalls ein

A“. Wir bezeichnen die Anzahl der weißen Pixel im Bild mit w
B
und betrachten das
Verh¨altnis S := H/w
B
. Dieses Verh¨altnis nimmt seinen Maximalwert an, wenn das Bild mit der
Maske ¨ ubereinstimmt, da dann H = w
M
maximal und w
B
klein ist. Schiebt man nun die Maske
¨ uber das Bild, so kann man ein

A“ an den Stellen detektieren, wo H/w
B
oder allgemeiner
S(k, l) =

m

n
A(m, n) G(k +m, l +n)
_
m

n
G
2
(k +m, l +n)
(12.15)
ein Maximum hat. Bezeichnet man mit E eine Maske in gleicher Gr¨oße wie A, deren s¨amtliche
Eintr¨age 1 sind, und mit G
2
das pixelweise Quadrat von G, so kann man auch schreiben:
S =
G⊗A

G
2
⊗E
. (12.16)
Dabei ist die Division punktweise gemeint.
¨
Ubersteigt S einen Schwellwert, so deutet dies auf die
Gegenwart des Buchstabens A im Bild hin.
Das Verfahren funktioniert auch f¨ ur kontinuierliche Grauwerte. Mathematisch ist es eine Kon-
sequenz der so genannten Cauchy-Schwarzschen Ungleichung.
12.5 Bewegung
Wir betrachten zwei Bilder einer Zeitfolge, G
1
und G
2
. Ver¨anderungen im Bild kann man detektie-
ren, indem man die Bilder einfach voneinander abzieht. Solche Ver¨anderungen gehen jedoch nicht
immer auf Bewegungen zur¨ uck, sondern k¨onnen z.B. auch durch Ver¨anderungen der Beleuchtung
110 KAPITEL 12. BILDVERARBEITUNG
verursacht sein. Auch wenn Bilddifferenzen durch Bewegungen erzeugt sind, kann man aus dem Dif-
ferenzbild im Allgemeinen nicht ablesen, in welche Richtung die Bewegung erfolgt ist. Ein einfacher
Bewegungsdetektor, der diese Information liefert, kann folgendermaßen konstruiert werden:
Wir betrachten zun¨achst den Fall einer Bewegung um 3 Pixel nach rechts und 1 Pixel nach
unten. In diesem Fall wird man erwarten, dass in der bewegten Bildregion die Beziehung
G
2
(i, j) = G
1
(i −3, j −1) (12.17)
gilt. Um dies zu ¨ uberpr¨ ufen, ben¨otigen wir zun¨achst eine Verschiebungsoperation. Bildverschiebun-
gen k¨onnen als Filterungen realisiert werden. F¨ ur die Verschiebung um den Vektor (3, 1) ben¨otigen
wir z.B. folgende 7 3 Maske:
S
3,1
=
-3 -2 -1 0 1 2 3
-1 1 0 0 0 0 0 0
0 0 0 0 0 0 0 0
1 0 0 0 0 0 0 0
(12.18)
Man pr¨ uft leicht nach, dass die Beziehung G
2
= G
1
⊗S
3,1
gilt.
Als Evidenz f¨ ur die Verschiebung des ganzen Bildes um 3 Pixel nach rechts und 1 Pixel nach
unten betrachten wir jetzt die quadratische Differenz zwischen G
2
und G
1
⊗S
3,1
:
SSD
3,1
:= |G
2
−G
1
⊗S
3,1
|
2
. (12.19)
Mit den Doppelstrichen || bezeichnen wir dabei die

Norm“ eines Bildes (hier des Differenzbildes),
das dabei als Vektor aller seiner Pixel aufgefasst wird, |G| :=
_

i,j
G(i, j)
2
. Die Abk¨ urzung SSD
steht f¨ ur sum of squared differences. SSD
3,1
ist also eine Zahl, die Null wird, wenn G
2
und die
verschobene Version von G
1
exakt ¨ ubereinstimmen, und die umso gr¨oßer wird, je mehr die Bilder
voneinander abweichen.
Um die Bewegung zu messen, m¨ ussen wir diese Operation f¨ ur alle Bewegungen (v
1
, v
2
) in einem
realistischen Bereich durchf¨ uhren und dann die Bewegung ausw¨ahlen, die die kleinste quadratische
Differenz erzeugt.
Bewegungsdetektion ist eine gut untersuchte Bildverarbeitungsoperation, bei der viele Varian-
ten m¨oglich sind. Hier wurde nur die Grundidee des so genannten Korrelationsverfahrens skizziert;
detailiertere Darstellungen finden sich in der zitierten Literatur.
12.6 Literatur
B. J¨ahne. Digitale Bildverarbeitung. Springer Verlag, Berlin, Heidelberg, New York, 5. Auflage,
2005.
B. D. Lucas, T. Kanade, An iterative image registration technique with an application to ste-
reo vision. Proceedings of the 7th International Joint Conference on Artificial Intelligence
(IJCAI’81), pp 674-679, 1981.
H. A. Mallot. Sehen und die Verarbeitung visueller Information. Eine Einf¨ uhrung. Vieweg Verlag,
Wiesbaden, 2. Auflage, 2000.
A. Rosenfeld und A. C. Kak. Digital Picture Processing, Vols. 1 und 2. Academic Press, Orlando,
Fla. and London, 2. Auflage, 1982.
E. Trucco und A. Verri. Introductory techniques for 3–D computer vision. Prentice Hall, 1998.