You are on page 1of 47

Einf

¨
uhrung in die
Wahrscheinlichkeitstheorie
Thomas Richthammer
Vorlesung an der TUM im WS 2011/2012
10. Februar 2012
Inhaltsverzeichnis
1 Wahrscheinlichkeitsr¨aume 3
1.1 Einf¨ uhrende Beispiele . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2 Axiomatische Beschreibung . . . . . . . . . . . . . . . . . . . . . . . . 4
1.3 Wahl des Wahrscheinlichkeitsraums . . . . . . . . . . . . . . . . . . . . 6
1.4 Diskrete Wahrscheinlichkeitsmaße . . . . . . . . . . . . . . . . . . . . . 7
1.5 Stetige Wahrscheinlichkeitsmaße . . . . . . . . . . . . . . . . . . . . . . 10
1.6 Verteilungsfunktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2 Zufallsvariablen 14
2.1 Verteilung einer Zufallsvariable . . . . . . . . . . . . . . . . . . . . . . 14
2.2 Simulation von Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . 17
2.3 Transformation von Zufallsvariablen: . . . . . . . . . . . . . . . . . . . 18
3 Bedingte Wahrscheinlichkeiten und Verteilungen 21
3.1 Bedingte Wahrscheinlichkeiten . . . . . . . . . . . . . . . . . . . . . . . 21
3.2 Bedingte Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.3 Unabh¨angigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
4 Erwartungswert 27
4.1 Erwartungswert . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
4.2 Kovarianz und Varianz . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
4.3 Verwendung von Indikatorfunktion und Bedingungen . . . . . . . . . . 32
4.4 Momentenerzeugende Funktionen . . . . . . . . . . . . . . . . . . . . . 34
5 Beispiele f¨ ur Zufallsvariablen 35
5.1 Zuf¨allige Ereignisse in diskreter Zeit . . . . . . . . . . . . . . . . . . . . 35
5.2 Zuf¨allige Ereignisse in stetiger Zeit . . . . . . . . . . . . . . . . . . . . 37
5.3 Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
6 Grenzwerts¨atze 43
6.1 Gesetz der großen Zahl . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
6.1.1 Schwaches Gesetz der großen Zahl . . . . . . . . . . . . . . . . . 43
6.1.2 Starkes Gesetz der großen Zahl . . . . . . . . . . . . . . . . . . 44
6.2 Zentraler Grenzwertsatz . . . . . . . . . . . . . . . . . . . . . . . . . . 46
1 Wahrscheinlichkeitsr¨aume 3
Vorwort
Dieses Skript ist eine Weiterentwicklung des Skriptes zur Vorlesung “Einf¨ uhrung in
die Wahrscheinlichkeitstheorie” vom Wintersemester 2010/11. Besonderer Dank geht
an die Studenten R. Hager, P. Hoffmann und A. Leitner, die eine erste Version dieses
Skripts geTEXt haben, und an alle Studenten der Vorlesung, die mich auf Fehler im
Skript hingewiesen haben.
Zur Verwendung des Skripts im Wintersemester 2011/12: Das Skript enth¨alt im We-
sentlichen alles, was in der Vorlesung besprochen wurde, abgesehen von Bildern und
Skizzen.
1 Wahrscheinlichkeitsr¨aume
1.1 Einf¨ uhrende Beispiele
Viele Vorg¨ange des t¨aglichen Lebens sind mit einer gewissen Unsicherheit behaftet. Bei-
spiele hierf¨ ur sind Wettervorhersage, Lotto, Aktienkurse, die Ausbreitung von Krank-
heiten, das Verhalten großer Teilchenmengen (Physik), das Verhalten großer Menschen-
massen z.B. bei Panik, die Wartezeit in Warteschlangen, u.s.w.
Die Wahrscheinlichkeitstheorie, ein Teilgebiet der Stochastik, dient zur mathematischen
Beschreibung solcher Ph¨anomene. Diese Vorlesung soll eine erste Einf¨ uhrung in dieses
Gebiet vermitteln.
Ziel der Vorlesung ist:
• die pr¨azise Beschreibung unsicherer Situationen,
• die Quantifizierung des Zufalls,
• Gesetzm¨aßigkeiten zu erkennen und zu erkl¨aren.
Betrachten wir zun¨achst ein paar einfache konkrete Situationen:
(a) Einmaliges Werfen eines W¨ urfels. Diese Situation wird komplett beschrieben
durch die Menge der m¨oglichen Ergebnisse {1, 2, 3, 4, 5, 6}, sowie deren Wahr-
scheinlichkeiten:
Ergebnis 1 2 3 4 5 6
Wahrscheinlichkeit
1
6
1
6
1
6
1
6
1
6
1
6
(b) Zuf¨allige Bruchstelle einer Fahrzeugachse (der L¨ange 1). Die Menge der m¨oglichen
Bruchstellen kann beschrieben werden durch [0, 1]. Dass die Achse exakt an einer
festen Stelle x ∈ [0, 1] bricht, z.B. x = 0.233517..., ist extrem unwahrscheinlich
(d.h. dies hat Wahrscheinlichkeit 0). Die Angabe der Einzelwahrscheinlichkeiten
ist daher zur Beschreibung der Bruchstelle ungeeignet. Sinnvoll dagegen ist z.B.
die Betrachtung der Wahrscheinlichkeit f¨ ur einen Bruch in [0,
1
2
]. Aus Symmetrie-
gr¨ unden w¨ urde man hierf¨ ur annehmen, dass diese Wahrscheinlichkeit
1
2
ist.
1.2 Axiomatische Beschreibung 4
(c) Schadensf¨alle einer Versicherung. Ein m¨ogliches Ergebnis w¨are hier z.B. durch
die Angabe der Zeitpunkte aller Schadensf¨alle bestimmt. Sinnvoll w¨are hier z.B.
die Betrachtung der Wahrscheinlichkeit daf¨ ur dass in einem gewissen Zeitraum 3
Schadensf¨alle stattfinden, oder daf¨ ur dass zwischen 2. und 3. Schadensfall h¨ochs-
tens 2 Tage liegen.
Diese Beispiele sollen zeigen, dass es zur Beschreibung eines probabilistischen Sachver-
halts oft nicht ausreicht, die Wahrscheinlichkeiten aller m¨oglicher Einzelergebnisse zu
betrachten. Stattdessen sollten besser Mengen von Ergebnissen (sogenannte Ereignisse)
betrachtet werden. Im n¨achsten Abschnitt beschreiben wir zuf¨alliges Verhalten durch
eine Funktion, die jedem Ereignis (das f¨ ur uns interessant ist) seine entsprechende
Wahrscheinlichkeit zuordnet.
Bemerkung: Die Wahrscheinlichkeitstheorie gibt keine Antwort auf die Frage: Was
ist Zufall? Diese Frage ist Gegenstand der Philosophie (vgl. naive, frequentistische,
subjektive Interpretation). Die Mathematik soll unabh¨angig von der Interpretation
von Wahrscheinlichkeit funktionieren.
1.2 Axiomatische Beschreibung
F¨ ur die Beschreibung einer Situation mit Unsicherheit (=Zufallsexperiment) soll ein
mathematisches Modell verwendet werden, bestehend aus:
• Ω = Menge aller Ergebnisse (d.h. aller m¨oglichen Ausg¨ange des Experiments).
• F = Menge aller Ereignisse, die wir zur Beschreibung des Experiments verwenden
wollen. Ein Ereignis ist hierbei eine gewisse Menge von Ergebnissen, d.h. eine
Teilmenge von Ω.
• P = Abbildung, die jedem Ereignis eine Wahrscheinlichkeit zuordnet.
Einige Eigenschaften sollten Ω, F, P sinnvollerweise grunds¨atzlich haben, unabh¨angig
von der Art des betrachteten Zufallsexperiments. Diese werden in einer axiomatischen
Definition zusammengefasst:
Definition:
• Ein Mengensystem F ⊂ P(Ω) heißt σ-Algebra auf Ω = ∅, falls
(S1) Ω ∈ F
(S2) F¨ ur jedes A ∈ F ist auch A
c
(= Ω −A) ∈ F.
(S3) F¨ ur beliebige A
i
∈ F, i ∈ I (mit I abz¨ahlbar), ist auch

i∈I
A
i
∈ F.
• Eine Abbildung P : F → [0, 1] heißt Wahrscheinlichkeitsmaß auf (Ω, F) falls:
(P1) P(Ω) = 1
(P2) F¨ ur disjunkte A
i
∈ F, i ∈ I (mit I abz¨ahlbar), ist P(

i∈I
A
i
) =

i∈I
P(A
i
).
• Die Menge Ω = ∅ heißt Ergebnisraum. Ist F eine σ-Algebra auf Ω, so heißt (Ω, F)
Ereignisraum. Ist P ein Wahrscheinlichkeitsmaß auf (Ω, F), so heißt (Ω, F, P)
Wahrscheinlichkeitsraum.
1.2 Axiomatische Beschreibung 5
Bemerkung:
• (P1) = Normiertheit (Ω enth¨alt mit Sicherheit alle m¨oglichen Ergebnisse)
(P2) = σ-Additivit¨at (vgl. Massenfunktion)
• Warum statt F nicht einfach ganz P(Ω)?
Dann ist Forderung (P2) zu stark (→ Banach-Tarski-Paradox)
• Warum Abz¨ahlbarkeit? Sonst Probleme z.B. bei “zuf¨alliger Bruchstelle”:
P([0, 1]) = P(

x
{x}) =

x
P({x}) = 0
• Warum nicht einfach nur f¨ ur endliche I?
Unendliche I n¨otig f¨ ur Betrachtung von Grenzprozessen
• (S1) n¨otig f¨ ur (P1), (S3) n¨otig f¨ ur (P2)
(S2),(S3): Abgeschlossenheitsaxiome: Bestimmte Mengenoperationen auf Ereig-
nissen ergeben wieder Ereignisse
Bemerkung: Alle Mengenoperationen lassen sich auf Komplementbildung und Verei-
nigung zur¨ uckf¨ uhren, z.B. A ∩ B = (A
c
∪ B
c
)
c
, A −B = A ∩ B
c
,

i∈I
A
i
= (

i∈I
A
c
i
)
c
,
daher gilt f¨ ur eine σ-Algebra:
• ∅ = Ω
c
= Ω −Ω ∈ F
• F¨ ur A, B ∈ F ist auch A −B ∈ F
• F¨ ur A
i
∈ F, i ∈ I (mit I abz¨ahlbar) ist auch

i∈I
A
i
∈ F
Aus (P1) und (P2) folgen viele weitere Eigenschaften von Wahrscheinlichkeitsmaßen.
Satz: Sei P ein Wahrscheinlichkeitsmaß auf (Ω, F), und seien A, B, A
i
∈ F.
(a) Additivit¨at: A ∩ B = ∅ ⇒ P(A ∪ B) = P(A) + P(B)
insbesondere: P(A
c
) = 1 −P(A)
(b) Monotonie: A ⊂ B ⇒ P(B) = P(A) + P(B −A)
insbesondere: A ⊂ B ⇒ P(A) ≤ P(B)
(c) σ-Stetigkeit:
A
n
↑ A (d.h. A
1
⊂ A
2
⊂ A
3
... mit

n
A
n
= A) ⇒ P(A
n
) ↑ P(A)
A
n
↓ A (d.h. A
1
⊃ A
2
⊃ A
3
... mit

n
A
n
= A) ⇒ P(A
n
) ↓ P(A)
(d) Ein-/Ausschluß-Formel: P(
n

i=1
A
i
) =
n

k=1
(−1)
k+1

J⊂{1,...,n}:|J|=k
P(

j∈J
A
j
),
d.h. P(A
1
∪ A
2
∪ ... ∪ A
n
) =
n

i=1
P(A
i
) −

1≤i
1
<i
2
≤n
P(A
i
∩ A
2
) + ...,
also insbesondere P(A ∪ B) = P(A) + P(B) −P(A ∩ B)
Beweis:
(a) Additivit¨at folgt aus (P2), mit B := A
c
folgt der Rest.
(b), (c): Hausaufgabe, (d) beweisen wir sp¨ater.
1.3 Wahl des Wahrscheinlichkeitsraums 6
1.3 Wahl des Wahrscheinlichkeitsraums
Bemerkung:
• Vor der Bearbeitung eines Problems sollte immer zuerst das verwendete Modell
angegeben werden, d.h. der zugrundeliegende Wahrscheinlichkeitsraum (Ω, F, P),
sowie die Interpretation eines Ereignisses x ∈ Ω.
• Die Wahl des Modells kann nicht mathematisch begr¨ undet werden (aber manche
Modelle sind plausibler als andere).
• Verschiedene Modelle k¨onnen zum gleichen Ziel f¨ uhren.
Der Ergebnisraum Ω sollte alle m¨oglichen Ergebnisse enthalten. Der Grad der Verein-
fachung h¨angt davon ab, an was genau man interessiert ist.
Beispiel: Einmaliges W¨ urfeln. M¨ogliche Ergebnismengen sind:
(a) Ω = (R
3
)
N
mit N := Anzahl der Atome des W¨ urfels
(x
1
, ..., x
N
) ∈ Ω: x
i
:= Position des i-ten Atoms nach dem Wurf in R
3
Problem: Wahl von P ist kompliziert, die Lage jedes einzelnen Atoms interessiert
normalerweise gar nicht!
(b) Ω = {1, 2, ..., 6, 0} wobei 0 = unklarer Ausgang, z.B. W¨ urfel bleibt auf Kante
stehen. Normalerweise wird 0 einfach ignoriert. Dies f¨ uhrt zu:
(c) Ω = {1, ..., 6}. Hier beschreibt x ∈ Ω die Augenzahl.
(d) Ω = {0, 1} mit 0 = “gerade Augenzahl”, 1 = “ungerade Augenzahl”
Problem: Ereignis “Augenzahl ist 4” kann nicht beschrieben werden!
Bei der Wahl des Ereignisraumes legt man in der Regel zun¨achst fest, welche Art von
elementaren Ereignissen auf jeden Fall betrachtet werden sollen.
Definition: F¨ ur ein gegebenes Mengensystem S ⊂ P(Ω) bezeichne σ(S) die kleinste
σ-Algebra, die S enth¨alt. Ist σ(S) = F, so heißt F die von S erzeugte σ-Algebra, und
S heißt Erzeuger von F.
Bemerkung: Die kleinste σ-Algebra, die S enth¨alt, kann man explizit konstruieren:
Sei F der Durchschnitt aller σ-Algebren, die S enthalten. Dann ist F tats¨achlich eine
σ-Algebra, die S enth¨alt, und f¨ ur jede weitere σ-Algebra F

, die S enth¨alt, gilt F

⊃ F.
Beispiel:
• Falls Ω abz¨ahlbar ist (z.B. endlich), w¨ahlt man in der Regel S = {{ω} : ω ∈ Ω}.
Man erh¨alt dann σ(S) = P(Ω) (denn jede Teilmenge ist abz¨ahlbare Vereinigung
von 1-elementigen Mengen).
1.4 Diskrete Wahrscheinlichkeitsmaße 7
• Falls Ω ein topologischer Raum ist (z.B. R
n
oder eine Teilmenge davon), w¨ahlt
man in der Regel S als das System aller offenen Mengen. Man erh¨alt dann σ(S) =:
B

, die sogenannte Borel-σ-Algebra.
Bemerkung:
• Oft ist Ω = R, F = B
R
=: B. Es gilt B = P(R), aber B enth¨alt alle Mengen, die
man in gewisser Weise “sinnvoll definieren” kann.
• B hat neben der Menge der offenen Mengen noch weitere n¨ utzliche Erzeuger, z.B.
S

:= {(−∞, c] : c ∈ R} oder S

:= {[a, b] : a ≤ b ∈ R}.
Die Betrachtung von Erzeugern hat einen weiteren Vorteil:
Satz: (Eindeutigkeitssatz.) Seien P
1
, P
2
Wahrscheinlichkeitsmaße auf (Ω, F), und sei
S ⊂ P(Ω) ∩-stabil (d.h. A, B ∈ S ⇒ A ∩ B ∈ S) mit σ(S) = F. Ist P
1
(A) =
P
2
(A) ∀A ∈ S, dann gilt bereits P
1
(A) = P
2
(A) ∀A ∈ F, d.h. ein Wahrscheinlich-
keitsmaß ist durch seine Werte auf S bereits eindeutig festgelegt.
Beweis: Maßtheorie.
Beispiel: Sei Ω = N, F = P(N) und P ein Wahrscheinlichkeitsmaß. S = {∅, {1}, {2}, ...}
ist ein ∩-stabiler Erzeuger von F. Dass P durch seine Werte auf S eindeutig festgelegt
ist, sieht man hier auch direkt: P(A) = P(

x∈A
{x}) =

x∈A
P({x}).
Die Wahl eines geeigneten Wahrscheinlichkeitsmaßes ist in der Regel der schwierigste
Teil der Modellbildung. In der Vorlesung betrachten wir meist diskrete oder stetige
Wahrscheinlichkeitsmaße. Wie man diese konstruiert, wird in den n¨achsten beiden Ab-
schnitten besprochen.
1.4 Diskrete Wahrscheinlichkeitsmaße
Ist Ω abz¨ahlbar, kann man ein geeignetes P definieren, indem man die Wahrscheinlich-
keit aller Ergebnisse angibt:
Definition: Sei Ω abz¨ahlbar.
• Eine Funktion ρ : Ω → [0, 1] mit

x∈Ω
ρ(x) = 1 heißt Z¨ahldichte.
• P(A) :=

x∈A
ρ(x) heißt diskretes Wahrscheinlichkeitsmaß mit Z¨ahldichte ρ.
Bemerkung: P ist ein Wahrscheinlichkeitsmaß auf (Ω, P(Ω)), denn
(P1) ergibt sich aus Normiertheit,
(P2) aus dem verallgemeinertem Kommutativit¨atsgesetz
Das wichtigste Beispiel ist die diskrete Gleichverteilung.
1.4 Diskrete Wahrscheinlichkeitsmaße 8
Definition: Sei Ω endlich. Das Wahrscheinlichkeitsmaß auf (Ω, P(Ω)) mit Z¨ahldichte
ρ(x) :=
1
|Ω|
, x ∈ Ω heißt (diskrete) Gleichverteilung auf Ω : U

.
Bemerkung: Ist P = U

die Gleichverteilung auf (Ω, P(Ω)), so ist
P(A) =

x∈A
ρ(x) =

x∈A
1
|Ω|
=
|A|
|Ω|
´ =
# betrachtete Ergebnisse
# m¨ogliche Ergebnisse
.
Beispiel: Man w¨ahle rein zuf¨allig eine Zahl aus N = {1, 2, 3, ...}. Mit welcher Wahr-
scheinlichkeit ist die Zahl gerade? (Vermutete Antwort:
1
2
.)
L¨osung: Wahrscheinlichkeitsraum: Ω = N, F = P(N), A = {2, 4, 6, ...}. Was ist P?
Wir verfolgen drei Ans¨atze:
(a) Da die Zahl rein zuf¨allig gew¨ahlt werden soll, w¨ urden wir gerne eine Z¨ahldichte ρ
w¨ahlen mit ρ(n) = c ≥ 0 konstant. Falls c = 0, so folgt

n∈N
ρ(n) = 0 = 1. Falls c > 0,
so folgt

n∈N
ρ(n) = ∞· c = ∞ = 1. In beiden F¨allen ergibt sich ein Widerspruch zur
Normiertheitsbedingung. Wir sehen also, dass es keine Gleichverteilung auf N gibt!
(b) Wir w¨ahlen ein großes N und P = U
{1,2,...,2N}
. Hier gilt wie vermutet P(A) =
N
2N
=
1
2
. (Aber die zuf¨allige Zahl ist hier immer ≤ 2N.)
(c) Wir w¨ahlen P mit Z¨ahldichte ρ so dass ρ(n + 1) =
1
2
ρ(n) ∀n ∈ N. (Diese Wahl ist
nat¨ urlich etwas beliebig.) Es gilt dann ρ(n) =
1
2
ρ(n −1) = . . . =
1
2
n−1
ρ(1)∀n ∈ N, und
aus der Normiertheit folgt 1 =

n∈N
ρ(n) =

n∈N
1
2
n−1
ρ(1) =
1
1−
1
2
ρ(1) = 2ρ(1), d.h.
ρ(1) =
1
2
und somit ρ(n) =
1
2
n
. Hieraus ergibt sich
P(A) =

n∈A
ρ(n) =

m∈N
1
2
2m
=

m∈N
1
4
m
=
1
1 −
1
4
−1 =
1
3
.
Wir stellen fest: Die Aufgabe ist schlecht gestellt. Es ist nicht klar, was “rein zuf¨allig
in N” bedeutet.
Bemerkung: Die Formel P(A) =
|A|
|Ω|
sieht leicht aus, aber es kann ziemlich schwierig
sein, die Anzahl der Elemente einer Menge richtig zu z¨ahlen!
Beispiel: Es wird drei mal gew¨ urfelt. Bestimmen Sie die Wahrscheinlichkeiten der
Ereignisse A = “Summe = 5”, B = “6 dabei”, C = “jeder Wert mehr als vorher”.
L¨osung: Wahrscheinlichkeitsraum: Ω = {1, ..., 6}
3
= {(x
1
, x
2
, x
3
) : x
i
∈ {1, ..., 6}}
(mit x
i
= Ergebnis im i-ten Wurf), F = P(Ω), P = U

. Es gilt |Ω| = 216.
(a) A = {(1, 2, 2), (2, 1, 2), (2, 2, 1), (1, 1, 3), (1, 3, 1), (3, 1, 1)}. Wir erhalten |A| = 6 und
somit P(A) =
6
216
=
1
36
.
(b) B = B
1
∪ B
2
∪ B
3
wobei B
i
= {(x
1
, x
2
, x
3
) ∈ Ω : x
i
= 6}. Wir versuchen zun¨achst
|B| = |B
1
| +|B
2
| +|B
3
| = 3 · 36. Dies ist aber falsch, denn die B
i
sind nicht disjunkt!
1.4 Diskrete Wahrscheinlichkeitsmaße 9
Das Ergebnis (6, 2, 6) wurde z.B. doppelt gez¨ahlt. Ein richtiges Ergebnis erh¨alt man
mit der Einschluss-Ausschluss-Formel:
P(B) =
3

i=1
P(B
i
) −

1≤i≤j≤3
P(B
i
∩ B
j
) + P(B
1
∩ B
2
∩ B
3
) = 3 ·
1
6
−3 ·
1
6
2
+
1
6
3
.
Einfacher ist: P(B) = 1 −P(B
c
) = 1 −(
5
6
)
3
.
(c) C = {(x
1
, x
2
, x
3
) ∈ Ω : x
1
< x
2
< x
3
}, also |C| =
_
6
3
_
= 5 · 4 und P(C) =
5·4
6
3
.
Beispiel: Poker wird mit 4 ×13 = 52 Karten gespielt. Eine Poker-Hand besteht aus 5
Karten. Man bestimme die Wahrscheinlichkeit daf¨ ur, folgendes Blatt zu erhalten:
(a) einen Zwilling (aber nichts besseres) (b) zwei Zwillinge (aber nichts besseres)
L¨osung: Ω = Menge aller Kombinationen von 5 aus 52 Karten, F = P(Ω), P = U

.
(a) |A| = 13
_
4
2
__
12
3
_
4
3
. (W¨ahle zuerst Wert f¨ ur den Zwilling, und 2 entsprechende Kar-
ten, dann drei weitere Werte und je eine Karte.) Es folgt P(A) ≈ 42.3%.
(b) |B| =
_
13
2
__
4
2
_
2
· 11 · 4. (W¨ahle zuerst zwei Werte und je zwei Karten, dann einen
weiteren Wert und eine Karte.) Es folgt P(B) ≈ 4.8%.
Beispiel: n Bosonen (z.B. H
2
- Atome) werden auf N Zellen (des Ort-/Impulsraumes)
verteilt. Wie hoch ist die Wahrscheinlichkeit, dass keine Zelle doppelt besetzt ist?
L¨osung: Wir verfolgen zwei verschiedene L¨osungsans¨atze:
(1) Wir setzen Ω = {1, ....., N}
n
, F = P(Ω), P = U

. F¨ ur x ∈ Ω bezeichne x
i
die Zelle
f¨ ur Teilchen i. Das Ereignis ist dann A = {(x
1
, ....., x
n
) : x
i
alle verschieden}, und es
gilt
P(A) =
|A|
|Ω|
=
N · (N −1) · ... · (N −n + 1)
N
n
=
N!
(N −n)!
1
N
n
.
(2) Wir setzem Ω = {(k
1
, ...., k
N
) ∈ Z
N
: k
i
≥ 0, k
1
+....+k
N
= n}, F = P(Ω), P = U

.
F¨ ur k ∈ Ω bezeichne k
i
die Anzahl von Teilchen in Zelle i. Das Ereignis ist dann
A = {k ∈ Ω : k
i
∈ {0, 1}}. Es gilt |A| =
_
N
n
_
. (W¨ahle n der Zellen zur Besetzung.) F¨ ur
|Ω| verwenden wir einen Trick: Wir beschreiben das Ergebnis k
1
= 3, k
2
= 2, k
3
= 0.....
durch: ooo|oo||o|oo|....|o. (o sind die n Teilchen, | sind N − 1 Zellw¨ande). Es ist dann
|Ω| =
_
n+N−1
n
_
. (W¨ahle n von (n + N −1) Pl¨atzen f¨ ur die Teilchen.) Es folgt
P(A) =
|A|
|Ω|
=
N!
(N −n)!
·
1
N · (N + 1) · .... · (N + n −1)
.
Die Ergebnisse sind je nach Wahl des Modells verschieden. In physikalischen Experi-
menten zeigt sich, dass das Modell (b) die Realit¨at besser beschreibt. (Bosonen sind
nicht unterscheidbar, und in (b) haben wir die Gleichverteilung auf Konfigurationen
von nicht unterscheidbarer Teilchen.)
1.5 Stetige Wahrscheinlichkeitsmaße 10
1.5 Stetige Wahrscheinlichkeitsmaße
Interpretiert man P als Massenverteilung ergibt sich folgendes Bild:
• Ist Ω abz¨ahlbar, so sitzt die Masse in abz¨ahlbar vielen Punkten: “Massenpunkte”
• Ist dagegen Ω = R
n
, so ist die Masse ¨ uber ganz Ω verschmiert: “Massendichte”
Definition: f : R
n
→R heißt (Borel-) messbar, falls f
−1
(A) ∈ B
R
n f¨ ur alle A ∈ B.
Bemerkung:
• “Praktisch alle interessanten Funktionen” sind messbar (→ Maßtheorie), z.B.
stetige Funktionen oder Indikatorfunktion: 1
A
(x) :=
_
1 f¨ ur x ∈ A
0 f¨ ur x / ∈ A
mit A ∈ B
R
.
• F¨ ur messbare Funktionen f ≥ 0 existiert das Lebesgue-Integral (→ Maßtheorie):
_
f(x)dλ
n
(x) =
_
f(x)dx =
_
dxf(x) =
_
dx
1
...dx
n
f(x
1
, ..., x
n
).
• Ist f ≥ 0 Riemann-integrierbar, so ist f messbar, und das Lebesgue-Integral ist
gleich dem Riemann-Integral.

_
1
A
(x)dλ
n
(x) = λ
n
(A). λ
n
ist das sogenannte Lebesguemaß. λ
1
ist die L¨ange, λ
2
die Fl¨ache, λ
3
das Volumen.
Definition:
• Eine messbare Funktion f : R
n
→ [0, ∞) mit
_
f(x)dx = 1 (Normierung) heißt
Dichtefunktion (auf R
m
).
• P(A) :=
_
A
f(x)dx =
_
f(x)1
A
(x)dx heißt stetiges Wahrscheinlichkeitsmaß
mit Dichtefunktion f.
Bemerkung: P ist tats¨achlich ein Wahrscheinlichkeitsmaß auf (R
n
, B
R
n):
(P1) P(R
n
) =
_
f(x)dx = 1 wegen Normierung.
(P2) folgt aus den Eigenschaften des Lebesgue-Integrals.
Bemerkung: f(x) ist ein gewisses Maß daf¨ ur, wie wahrscheinlich der Punkt x ist.
Aber f(x) = P({x}), sondern: P({x}) =
_
{x}
f(y)dy =
_
x
x
f(y)dy = 0.
Auch hier ist das wichtigste Beispiel die Gleichverteilung.
Definition: Sei S ∈ B
R
n mit 0 < λ
n
(S) < ∞. Das Maß mit Dichtefunktion f(x) =
c · 1
S
(x) =
1
λ
n
(S)
1
S
(x) heißt (stetige) Gleichverteilung auf S: U
S
.
Bemerkung: Ist P = U
S
, so sind alle x ∈ S “gleichwahrscheinlich” und es gilt:
∀A ∈ B
S
: P(A) =
_
A
f(x)dx =
_
1
λ
n
(S)
1
A
(x)dx =
λ
n
(A)
λ
n
(S)
=
“Volumen von A

“Volumen von S

.
1.5 Stetige Wahrscheinlichkeitsmaße 11
Beispiel: Romeo und Julia treffen sich heimlich. Beide haben eine Versp¨atung von
zwischen 0-1 Stunde. Muss einer auf den anderen l¨anger als 1/4 Stunde warten, begeht
er Selbstmord. Bestimme die Wahrscheilichkeit f¨ ur ein “gl¨ uckliches Ende”!
L¨osung: Wir setzen Ω = [0, 1]
2
, F = B

, P = U

. F¨ ur t ∈ Ω sei t
1
die Versp¨atung
von Romeo und t
2
die Versp¨atung von Julia. Das betrachtete Ereignis ist dann A :=
{(t
1
, t
2
) : |t
1
− t
2
| ≤
1
4
}, d.h. ein Quadrat weniger zweier Dreiecke. Ω ist ein Quadrat
mit Fl¨ache λ
2
(Ω) = 1. Es folgt
P(A) =
λ
2
(A)
λ
2
(Ω)
= λ
2
(A) = 1 −
1
2
· 2 · (
3
4
)
2
= 1 −(
3
4
)
2
=
7
16
.
Alternativ (aber schwieriger) kann man P(A) =
_
1
A
(x)dx auch berechnen durch
_
dx
1
_
dx
2
1
A
(x) =
_ 1
4
0
dx
1
_ 1
4
+x
1
0
dx
2
+
_ 3
4
1
4
dx
1
_ 1
4
+x
1

1
4
+x
1
dx
2
+
_
1
3
4
dx
1
_
1

1
4
+x
1
dx
2
=
7
16
.

Beispiel: (Bertrandsches Paradox.) In einem Kreis mit Radius 1 wird zuf¨allig eine
Sehne gezogen. Mit welcher Wahrscheinlichkeit ist diese l¨anger als die Seite des einbe-
schriebenen gleichseitigen Dreiecks?
L¨osung: Wir beschreiben drei L¨osungsvarianten:
(1) Wir beschreiben die Sehne durch ihren Mittelpunkt. Ω = {(x, y) : x
2
+ y
2
≤ 1},
F = B

, P = U

. Das Ereignis A wird dann gerade durch den Inkreis des Dreiecks
beschrieben (Radius
1
2
). Es folgt P(A) =
λ
2
(A)
λ
2
(Ω)
=
(
1
2
)
2
π
1
2
π
=
1
4
.
(2) Wir beschreiben die Sehne durch ihren Mittelpunktswinkel. Ω = (0, π), F = B

, P =
U

. Das Ereignis ist dann A = (
2
3
π, π), also P(A) =
λ
1
(A)
λ
1
(Ω)
=
π
3
π
=
1
3
.
(3) Wir beschreiben die Sehne durch ihren Abstand zum Mittelpunkt. Ω = [0, 1], F =
B

, P = U

. Das Ereignis ist dann A = [0,
1
2
], also P(A) =
λ
1
(A)
λ
1
(Ω)
=
1
2
.
Dass man verschiedene Antworten erh¨alt erscheint paradox, ist es aber nicht. Es kommt
eben darauf an, wie genau der Zufallsmechanismus aussieht, mit dem die Kante gew¨ahlt
wird. “Rein zuf¨alliges” ziehen einer Sehne l¨asst verschiedene Interpretationen zu.
Bemerkung: Man kann auch Zufallsexperimente betrachten, die stetige und diskrete
Anteile haben. Ist zum Beispiel Ω = {(x
1
, x
2
) : x
1
∈ N, x
2
∈ R} = N×R und F = B

, so
kann ein Wahrscheinlichkeitsmaß definieren durch P(A) =

x
1
_
dx
2
f(x
1
, x
2
)1
A
(x
1
, x
2
)
mit f : N ×R → [0, ∞) messbar und normiert:

x
1
_
dx
2
f(x
1
, x
2
) = 1.
1.6 Verteilungsfunktion 12
1.6 Verteilungsfunktion
S = {(−∞, c] : c ∈ R} ist ein ∩-stabiler Erzeuger von B, daher ist nach dem Ein-
deutigkeitssatz jedes Wahrscheinlichkeitsmaß P auf (R, B) schon durch seine Werte
P((−∞, c]) eindeutig festgelegt. Dies gibt Anlass zu folgender Definition:
Definition: Die Verteilungsfunktion eines Wahrscheinlichkeitsmaßes P auf (R, B)
ist die Funktion
F : R → [0, 1], F(c) := P((−∞, c]).
Bemerkung:
• Ist P diskret mit Dichte ρ(x), x ∈ S, so ist F(c) =

x∈S:x≤c
ρ(x).
• Ist P stetig mit Dichte f(x), so ist F(c) =
_
c
−∞
f(x)dx.
Wir verwenden im Folgenden eine Kurzschreibweisen f¨ ur Limiten:
F(c−) := lim
x→c−
F(x), F(c+) := lim
x→c+
F(x), F(∞) := lim
x→∞
F(x), F(−∞) := lim
x→−∞
F(x).
Lemma: Sei F die Verteilungsfunktion von P. Dann ist F(c−) = P((−∞, c)).
Beweis: Sei c
n
↑ c dann ist F(c−) = lim
n
F(c
n
) = lim
n
P((−∞, c
n
]) = P((−∞, c)),
denn (−∞, c
n
] ↑ (−∞, c).
Hieraus folgt insbesondere, dass ich die Wahrscheinlichkeiten aller Intervalle leicht
durch F ausdr¨ ucken lassen, z.B. P([a, b]) = P((−∞, b]) −P((−∞, a)) = F(b) −F(a−).
Der folgende Satz liefert ein einfaches Kriterium, welche Funktionen Verteilungsfunk-
tionen sind:
Satz: Eine Funktion F : R → [0, 1] ist genau dann eine Verteilungsfunktion, wenn gilt:
(i) F ist monoton wachsend (d.h. c
1
≤ c
2
⇒ F(c
1
) ≤ F(c
2
)).
(ii) F ist rechtsstetig (d.h. F(c+) = F(c)).
(iii) F(∞) = 1, F(−∞) = 0.
Beweis: F¨ ur eine Verteilungsfunktion sind die Eigenschaften (i), (ii), (iii) leicht nach-
zuweisen (Hausaufgabe). Jedes F mit den Eigenschaften (i), (ii), (iii) ist eine Vertei-
lungfunktion (n¨achstes Kapitel).
Es ergibt sich also, dass die Wahrscheinlichkeitsmaße auf (R,B) eindeutig den Funk-
tionen F : R → [0, 1] mit den Eigenschaften (i), (ii), (iii) entsprechen: F¨ ur jedes P
hat die Verteilungsfunktion die entsprechenden Eigenschaften, und f¨ ur jede Funktion
mit diesen Eigenschaften gibt es ein passendes Wahrscheinlichkeitsmaß P. In wichtigen
F¨allen, l¨asst sich P sogar explizit aus F bestimmen:
1.6 Verteilungsfunktion 13
Satz: Sei F die Verteilungsfunktion von P und sei S ⊂ R diskret (d.h. eine abz¨ahlbare
Menge ohne H¨aufungspunkte).
(a) P ist diskretes Wahrscheinlichkeitsmaß auf S ⇔
F ist st¨ uckweise konstant mit Sprungstellen h¨ochstens in S.
In diesem Fall gilt ρ(x) = F(x) −F(x−) f¨ ur x ∈ S.
(b) P ist stetig mit Dichte f, so dass f stetig auf R −S ⇔
F ist stetig auf R und stetig diffbar auf R −S.
In diesem Fall gilt f(x) = F

(x) f¨ ur x ∈ R −S.
Beweis:
(a) Sei P diskret mit Dichte ρ(x), x ∈ S, dann ist F(c) =

x∈S:x≤c
ρ(x) st¨ uckweise
konstant mit Sprungstellen h¨ochstens in S und Sprungh¨ohen F(x) −F(x−) = ρ(x). Ist
umgekehrt F st¨ uckweise konstant mit Sprungstellen h¨ochstens in S und sei P

diskret
mit Dichte ρ

(x) := F(x)−F(x−), dann folgt wie eben, dass F

st¨ uckweise konstant ist
mit Sprungstellen h¨ochstens in S und Sprungh¨ohen ρ

(x). Also haben F, F

dieselben
Sprungstellen und Sprungh¨ohen, d.h. F = F

und somit P = P

.
(b) Sei P stetig mit Dichte f, so dass f stetig ist auf R −S. Es gilt
F(x + h) −F(x) = P((x, x + h]) =
_
x+h
x
f(y)dy →
_
x
x
f(y) = 0 f¨ ur h → 0,
mit monotoner Konvergenz (Maßtheorie!), d.h. F ist stetig. Ferner ist f¨ ur x / ∈ S
1
h
(F(x + h) −F(x)) =
1
h
_
x+h
x
f(y)dy → f(x) f¨ ur h → 0,
d.h. F

(x) = f(x) und insbesondere ist F stetig diffbar auf R − S. Ist umgekehrt F
stetig und stetig diffbar auf R − S und sei P

stetig mit Dichte f

(x) = F

(x) f¨ ur
x ∈ R − S, dann folgt wie eben, dass F

stetig ist und stetig diffbar auf R − S mit
(F

)

= f

= F

. Hieraus folgt F = F

und somit P = P

.
Bemerkung:
• Teil (b) ist wichtig zur Bestimmung von Dichten
• Es gilt nicht: P stetig ⇔ F stetig
• Es gibt Wahrscheinlichkeitsmaße auf (R, B), die weder diskret noch stetig sind.
Analog kann man eine mehrdimensionale Verteilungsfunktion f¨ ur ein Wahrschein-
lichkeitsmaß P auf (R
n
, B
R
n) definieren: F
P
(c
1
, ..., c
n
) = P((−∞, c
1
] × ... × (∞, c
n
]).
Diese Funktion hat ¨ahnliche Eigenschaften wie im 1-dimensionalen, insbesondere fol-
gende, die man zur Berechnung von Dichten verwenden kann: Ist F stetig, “st¨ uckweise”
stetig diffbar, so ist P stetig mit Dichte f(x
1
, ..., x
n
) =

∂x
1
...

∂x
n
F(x
1
, ..., x
n
).
2 Zufallsvariablen 14
2 Zufallsvariablen
2.1 Verteilung einer Zufallsvariable
Manchmal interessiert bei einem Zufallsexperiment (Ω, F, P) nicht genau das Ergebnis
ω ∈ Ω, sondern eine Eigenschaft des Ergebnisses: X(ω).
Definition: Sei (Ω, F, P) ein Wahrscheinlichkeitsraum und (Ω

, F

) ein Ereignisraum.
• Eine Abbildung X : Ω → Ω

heißt (Ω

-wertige) Zufallsvariable (ZVe), falls
{X ∈ A

} := X
−1
A

= {ω ∈ Ω : X(ω) ∈ A

} ∈ F ∀A

∈ F

(∗)
• F¨ ur A

∈ F

sei P

(A

) := P({X ∈ A

}). P

heißt die Verteilung von X. Man
schreibt dann X ∼ P

oder P

= P ◦ X
−1
.
Lemma: Die Verteilung P

einer ZVe X ist ein Wahrscheinlichkeitsmaß auf (Ω

, F

).
Beweis: P

: F

→ [0, 1] ist wohldefiniert (da X ZVe ist) und erf¨ ullt die Axiome:
(P1) P

(Ω

) = P(X ∈ Ω

) = P(Ω) = 1
(P2) Seien A
i
, i ∈ I disjunkt (I abz¨ahlbar). Es gilt dann
P

(

i∈I
A

i
) = P(X ∈

i∈I
A

i
) = P(

i∈I
{X ∈ A

i
}) =

i∈I
P(X ∈ A
i
) =

i∈I
P

(A
i
).

Bemerkung:
• Formal ist X eine Funktion Ω → Ω

, und ω ∈ Ω wird zuf¨allig gem¨aß P gew¨ahlt.
Wird ω zuf¨allig gew¨ahlt, ist auch der Wert X(ω) zuf¨allig. Daher kann man sich
X vorstellen als eine Gr¨oße mit zuf¨alligem Wert, z.B. eine zuf¨allige reelle Zahl.
Die Verteilung P ◦ X
−1
beschreibt das gesamte zuf¨allige Verhalten von X.
• F¨ ur Ereignisse, die das Verhalten von X betreffen, verwenden wir eine Kurz-
schreibweise, z.B.:
{X ∈ A} := {ω ∈ Ω : X(ω) ∈ A} ist das Ereignis, dass X einen Wert in A hat.
{X ≤ c} := {ω ∈ Ω : X(ω) ≤ c} ist das Ereignis, dass X einen Wert ≤ c hat.
• Die definierende Eigenschaft (*) einer ZVe, pr¨ ufen wir hier in der Regel nicht
nach. Diese Eigenschaft ist in allen Beispielen der Vorlesung automatisch erf¨ ullt.
• Spezialfall: Ist Ω

= R, so heißt X eine reelle Zufallsvariable.
Bemerkung: Jede Eigenschaft eines Wahrscheinlichkeitsmaßes kann auf eine ZVe X
¨ ubertragen werden (mittels der Verteilung von X), z.B.:
• X heißt diskret, falls P ◦ X
−1
diskret ist, d.h. falls es eine Z¨ahldichte ρ(x) auf
einer abz¨ahlbaren Teilmenge S ⊂ Ω

gibt, so dass
P(X = x) = P

({x}) = ρ(x) ∀x ∈ S.
2.1 Verteilung einer Zufallsvariable 15
• X heißt stetig, falls P ◦X
−1
stetig ist, d.h. falls es eine Dichte f(x) gibt, so dass
P(X ∈ A) = P

(A) =
_
A
f(x)dx ∀A ∈ F

.
• Die Verteilungsfunktion von X ist die Verteilungsfunktion von P ◦ X
−1
, d.h.
F
X
(c) = P ◦ X
−1
((−∞, c]) = P(X ∈ (−∞, c]) = P(X ≤ c).
Beispiel: Zwei W¨ urfel werden geworfen. Man bestimme die Verteilung der Summe der
Augenzahlen und die Wahrscheinlichkeit daf¨ ur, dass die Summe zwischen 5 und 8 liegt.
L¨osung: Wir w¨ahlen Ω = {1, ...., 6}
2
, F = P(Ω), P = U

. Die Summe Z kann im
Modell definiert werden durch Z : Ω → R, Z(i, j) = i + j. Die Menge S der m¨ogliche
Werte von Z ist abz¨ahlbar: S = {2, 3, ..., 12}. Daher ist Z eine diskrete Zufallsvariable.
Die Z¨ahldichte berechnet man durch ρ(k) = P(Z = k), k ∈ S, z.B:
P(Z = 2) = P({(1, 1)}) =
1
36
, P(Z = 3) = P({(1, 2), (2, 1)}) =
2
36
. Man erh¨alt somit
k 2 3 4 5 6 7 8 9 10 11 12
ρ(k)
1
36
2
36
3
36
4
36
5
36
6
36
5
36
4
36
3
36
2
36
1
36
F¨ ur die Berechnung der Wahrscheinlichkeit gibt es zwei M¨oglichkeiten. Entweder man
verwendet P und die Definition von Z
P(5 ≤ Z ≤ 8) = P({(i, j) : 5 ≤ i + j ≤ 8}) = P({(1, 4), ..., (6, 2)}) =
20
36
,
oder man verwendet die Verteilung von Z, d.h. die Z¨ahldichte ρ
P(5 ≤ Z ≤ 8) = P(Z ∈ {5, 6, 7, 8}) =
8

k=5
ρ(k) =
4 + 5 + 6 + 5
36
=
20
36
.

Beispiel: Eine Lampe im Abstand L vom Boden eines Zimmers strahlt gleichm¨assig
in alle Richtungen. Um die Leuchtintensit¨at am Boden zu bestimmen, betrachten wir
ein Photon, das von der Lampe in einer zuf¨alligen Richtung ausgesandt wird. Sei X der
Auftreffort des Photons am Boden. Wir nehmen an, dass die gesuchte Leuchtintensit¨at
der Dichte von X entspricht.
L¨osung: Sei Ω = (−
π
2
,
π
2
) (θ ∈ Ω sei der Ausfallwinkel), F = B

, P = U

. Der
Auftreffort kann beschrieben werden durch X : Ω → R, X(θ) = Ltan(θ). X hat
beliebige Werte in R und f¨ ur c ∈ R ist
F
X
(c) = P(X ≤ c) = P({θ ∈ Ω : Ltan(θ) ≤ c}) = P
_
_

π
2
, tan
−1
(
c
L
)
¸
_
=
tan
−1
(
c
L
) +
π
2
π
,
also f
X
(c) = F

X
(c) =
1
π
·
1
1+
c
2
L
2
·
1
L
=
1
πL
·
1
1+
c
2
L
2
.
2.1 Verteilung einer Zufallsvariable 16
Betrachtet man mehrere (reelle) ZVen X
1
, ..., X
n
, so kann man die X
i
als Komponenten
eines zuf¨alligen Vektors X betrachten: X : Ω → R
n
, X = (X
1
, ..., X
n
). P ◦ X
−1
heißt dann gemeinsame Verteilung der X
i
. Die gemeinsame Verteilung beschreibt
das gemeinsame zuf¨allige Verhalten aller ZVen. Das gemeinsame Verhalten beinhaltet
nat¨ urliche insbesondere das Verhalten der einzelnen ZVen:
Lemma: Bestimmung der Einzelverteilungen aus der gemeinsamen Verteilung.
(a) Sind X
1
, .., X
n
diskret mit gemeinsamer Z¨ahldichte ρ(x
1
, ..., x
n
), so ist auch X
1
diskret mit Z¨ahldichte ρ
1
(x
1
) =

x
2
....x
n
ρ(x
1
, ..., x
n
).
(b) Sind X
1
, .., X
n
stetig mit gemeinsamer Dichte f(x
1
, .., x
n
), so ist auch X
1
stetig
mit Dichte f
1
(x
1
) =
_
dx
2
....
_
dx
n
f(x
1
, ....x
n
).
Beweis: (a) funktioniert analog zu (b), und f¨ ur (b) berechnet man f¨ ur A ∈ B:
P(X
1
∈ A) = P((X
1
, .., X
n
) ∈ A ×R
n−1
) =
_
A×R
n−1
dx
1
...dx
n
f(x
1
, ..., x
n
)
=
_
A
dx
1
_
dx
2
...
_
dx
n
f(x
1
, ..., x
n
) =
_
A
dx
1
f
1
(x
1
).

Beispiel: Ein Punkt im Einheitskreis wird rein zuf¨allig gew¨ahlt. Man bestimme die
gemeinsame Verteilung des Abstands zum Mittelpunkt und des Winkels mit der x-
Achse, und berechne daraus die Einzelverteilungen.
L¨osung: Ω = {(x, y) ∈ R
2
: x
2
+ y
2
≤ 1}, F = B

, P = U

. Die betrachteten Gr¨oßen
sind die ZVen R : Ω → [0, 1] und Φ : Ω → [0, 2π), deren Werte R(x, y) und Φ(x, y)
eindeutig durch (x, y) bestimmt sind gem¨aß x +iy = re

. F¨ ur a ∈ [0, 1], b ∈ [0, 2π) ist
F
R,Φ
(a, b) = P(R ≤ a, Φ ≤ b) =
a
2
π ·
b

1
2
π
= a
2
b

(Fl¨ache eines Kreissegments).
Die gemeinsame Dichte ist also f
R,Φ
(a, b) = ∂a∂bF
R,Φ
(a, b) = 2a
1

, (a, b) ∈ [0, 1] ×
[0, 2π). Die Einzeldichten ergeben sich aus obigem Lemma durch Integration: f
R
(r) =
_
dϕf
R,Φ
(r, ϕ) =
_

0
2r
1

= 2r, r ∈ [0, 1] und f
Φ
(ϕ) =
_
drf
R,Φ
(r, ϕ) =
_
1
0
2r
1

=
1
π
,
d.h. der Winkel ist gleichverteilt (wie zu erwarten).
Bemerkung: Interessieren bei einem Zufallsexperiment nur die Gr¨oßen X
1
, ..., X
n
hat
man bei der Modellierung zwei M¨oglichkeiten:
1. Man definiert (Ω, F, P) und X
1
, ..., X
n
als Funktionen auf Ω.
2. Man definiert die gemeinsame Verteilung P

von X
1
, ..., X
n
.
Die Wahrscheinlichkeit, dass die ZVen Werte in A ∈ B
R
n annehmen, ist in beiden F¨allen
bestimmbar: P((X
1
, ..., X
n
) ∈ A) = P

(A) .
2.2 Simulation von Zufallsvariablen 17
2.2 Simulation von Zufallsvariablen
Aus Kapitel 1.6 ist noch nachzutragen, dass zu einer Funktion mit den Eigenschaften
(i)-(iii) immer ein zugeh¨origes Wahrscheinlichkeitsmaß existiert. Dieses Wahrschein-
lichkeitsmaß erh¨alt man am einfachsten als Verteilung einer geeignet definierten ZVe,
der sogenannten Quantil-Transformation.
Satz: Sei F : R → [0, 1] monoton wachsend, rechtsstetig und F(∞) = 1, F(−∞) = 0.
Sei (Ω, F, P) = ((0, 1), B
(0,1)
, U
(0,1)
) und X : (0, 1) → R die “linksstetige Umkehrfunk-
tion” von F, d.h.
X(w) = inf{c ∈ R : F(c) > w}.
Dann ist F
X
= F, d.h. F ist die Verteilungsfunktion von P ◦ X
−1
.
Beweis: Es gilt F(c) ≥ w genau dann, wenn X(w) ≤ c. Somit ist
F
X
(c) = P(X ≤ c) = P({w ∈ Ω : X(w) ≤ c}) = P({w ∈ Ω : F(c) > ω}) = F(c).

Bemerkung: Ist F explizit berechenbar und hat man einen U
(0,1)
Zufallsgenerator (wie
er in jedem Taschenrechner eingebaut ist), so kann der Satz dazu verwendet werden,
um eine Zufallsvariable X mit der vorgegebenen Verteilung zu simulieren, d.h. einen
zuf¨alligen Wert zu erzeugen, der gem¨aß der Verteilungsfunktion F verteilt ist.
Beispiel: Die Exponentialverteilung ist stetig mit Dichte f(x) = e
−x
, x > 0. Wie kann
man einen zuf¨allige exponentialverteilte Zahl erzeugen?
L¨osung: Zun¨achst bestimmt man die Verteilungsfunktion: F¨ ur c ≤ 0 ist F(c) = 0
und f¨ ur c ≥ 0 ist F(c) =
_
c
−∞
e
−x
dx = 1 − e
−c
. Die linksstetigen Umkehrfunktion
X(ω) = F
−1
(ω) aus dem Satz erh¨alt man durch Umformung:
1 −e
−c
= ω ⇔ 1 −ω = e
−c
⇔ c = −ln(1 −ω).
Zur Erzeugung der gew¨ unschten Zahl kann man dann so vorgehen:
• Erzeuge ω ∈ (0, 1) mit U
(0,1)
.
• X(ω) = −ln(1 −w) ist die gesuchte Zahl.

2.3 Transformation von Zufallsvariablen: 18
2.3 Transformation von Zufallsvariablen:
Transformationen von ZVen kann man einfach punktweise definieren, z.B.:
• Sind X, Y : Ω →R ZVen, so ist X + Y : Ω →R, (X + Y )(ω) := X(ω) + Y (ω).
• Ist X : Ω → Ω

eine ZVe und g : Ω

→ Ω

messbar, so ist g(X) : Ω → Ω

,
g(X)(ω) := g(X(ω)).
Bemerkung: Man interpretiert X + Y als Summe der beiden zuf¨alligen Werte X, Y
und g(X) als Funktionswert des zuf¨alligen Wertes X. Man kann zeigen, dass X + Y
und g(X) wieder ZVen sind.
Wir betrachten nun folgendes Problem: Gegeben ist eine ZVe mit bekannter Verteilung.
Man bestimme die Verteilung einer gewissen Transformation dieser ZVe.
Beispiel: (X, Y ) sei gleichverteilt auf {−1, 0, 1}
2
. Was ist die Verteilung von Z = XY ?
L¨osung:
X, Y haben die gemeinsame Z¨ahldichte ρ(x, y) =
1
9
f¨ ur alle −1 ≤ x, y ≤ 1. Z = g(X, Y )
mit g : R
2
→ R, g(x, y) = xy. Die m¨oglichen Werte von Z sind {−1, 0, 1}, und die
Z¨ahldichte ρ
Z
erh¨alt man durch aufsummieren, z.B.
ρ
Z
(−1) = P(Z = −1) = P((X, Y ) ∈ {(1, −1), (−1, 1)}) = ρ(1, −1) + ρ(−1, 1) =
2
9
.
Analog erh¨alt man ρ
Z
(1) =
2
9
und ρ
Z
(0) =
5
9
.
Beispiel: Sei X gleichverteilt auf [−2, 2]. Man bestimme die Verteilung von Y = X
2
.
L¨osung: Die m¨oglichen Werte von Y sind [0, 4]. F¨ ur c ∈ [0, 4] ist
F
Y
(c) = P(Y ≤ c) = P(X
2
≤ c) = P(−

c ≤ X ≤

c) =
_

c


c
f(x)dx =
2

c
4
=

c
2
,
also f
Y
(c) = F

Y
(c) =
1
4

c
, d.h. f
Y
(y) =
1
4

y
1
{0≤y≤4}
bzw. f
Y
(y) =
1
4

y
, 0 ≤ y ≤ 4.

Beispiel: Sei X stetig mit Dichte f. Man bestimme die Dichte von Y = X
2
.
L¨osung: Y kann nur nichtnegative Werte annehmen, und f¨ ur c ≥ 0 ist
F
Y
(c) =
_

c


c
f(x)dx = F
X
(

c) −F
X
(−

c).
Das Integral kann zwar nicht weiter vereinfacht werden, aber die Ableitung davon kann
man bestimmen:
f
Y
(c) = F

Y
(c) = F

X
(

c) ·
1
2

c
+ F

X
(−

c) ·
1
2

c
=
1
2

c
(f(

c) + f(−

c)).

2.3 Transformation von Zufallsvariablen: 19
Beispiel: X, Y haben die gemeinsame Dichte f(x, y) =
1
2
xy
2
· e
−x−y
, x, y ≥ 0. Man
bestimme die gemeinsame Verteilung von U = X + Y, V =
X
X+Y
.
L¨osung: (U, V ) = g(X, Y ) = (u(X, Y ), v(X, Y )) mit u(x, y) = x + y, v(x, y) =
x
x+y
.
g : (0, ∞)
2
→ (0, ∞) × (0, 1) ist bijektiv mit Umkehrfunktion: x = uv = x(u, v), y =
u −uv = y(u, v). Nun gibt es zwei M¨oglichkeiten fortzufahren:
(1) Integration bez¨ uglich dxdy:
F
U,V
(a, b) = P(U ≤ a, V ≤ b) = P(X + Y ≤ a,
X
X + Y
≤ b) =
_
A
f(x, y)dxdy = (∗)
mit A = {(x, y) ∈ [0, ∞)
2
: x + y ≤ a,
x
x+y
≤ b}. Um A auf dxdy aufteilen zu k¨onnen,
macht man eine Skizze und bestimmt den Schnittpunkt der Kurven x+y = a,
x
x+y
= b,
d.h. y = a −x, y = (
1
b
−1)x. Dieser hat die Korrdinaten (c, d) mit c = ab, d = a −ab.
Es folgt (∗) =
_
c
0
dx
_
a−x
(
1
b
−1)x
dy
1
2
xy
2
e
−x−y
. Dieses Integral kann nun berechnet werden,
und hieraus ergibt sich f
U,V
(a, b) = ∂
U

V
F
U,V
(a, b) f¨ ur (a, b) ∈ (0, ∞) ×(0, 1).
(2) Integration bez¨ uglich dudv: g ist ein Diffeomorphismus (g bijektiv, g, g
−1
stetig
diffbar). Will man (∗) durch Integration ¨ uber dudv berechnen ben¨otigt man die Jacobi-
Matrix von g bzw. g
−1
: Formal gilt
dudv =
d(u, v)
d(x, y)
dxdy, wobei
d(u, v)
d(x, y)
:= | det Dg(x, y)| mit Dg =
_
∂u
∂x
∂u
∂y
∂v
∂x
∂v
∂y
_
, bzw.
dxdy =
d(x, y)
d(u, v)
dudv, wobei
d(x, y)
d(u, v)
:= | det Dg
−1
(u, v)| mit Dg
−1
=
_
∂x
∂u
∂x
∂v
∂y
∂u
∂y
∂v
_
.
F¨ ur beliebiges A ∈ B
R
2 ist dann
P((U, V ) ∈ A) = P(g(X, Y ) ∈ A) = P((X, Y ) ∈ g
−1
A)
=
_
g
−1
(A)
dxdyf(x, y) =
_
A
dudv
d(x, y)
d(u, v)
f(x(u, v), y(u, v)),
d.h. die gemeinsame Dichte von U, V ist dann
f
U,V
(u, v) =
d(x, y)
d(u, v)
f(x(u, v), y(u, v)).
In unserem Beispiel ist x = uv, y = u −uv und damit
d(x, y)
d(u, v)
=
¸
¸
¸ det
_
v u
1 −v −u
_
¸
¸
¸ = |v · (−u) −u · (1 −v)| = | −u| = u
und
f(x(u, v), y(u, v)) =
1
2
(uv)(u −uv)
2
e
−u
=
1
2
(1 −v)
2
u
3
e
−u
,
also f
U,V
(u, v) =
1
2
(1 −v)
2
u
4
e
−u
, (u, v) ∈ (0, ∞) ×(0, 1).
Dies funktioniert ganz allgemein, solange g ein Diffeomorphismus ist:
2.3 Transformation von Zufallsvariablen: 20
Satz: Sei X eine R
n
-wertige Zufallsvariable mit Dichte f, und sei g : M → N ein
Diffeomorphismus (M, N ⊂ R
n
offen, g, g
−1
stetig differenzierbar) mit P(X ∈ M) = 1.
Dann ist Y = g(X) stetig mit Dichte
f
Y
(y) = |Dg
−1
(y)|f
X
(g
−1
(y)), y ∈ N.
Beweis: Wie im Beispiel vorher.
Bemerkung:
• Besonders wichtig ist der eindimensionale Spezialfall: Ist X eine reelle ZVe mit
Dichte f, M, N ⊂ R Intervalle mit P(X ∈ M) = 1 und g : M → N ein
Diffeomorphismus, dann ist Y = g(X) eine reelle ZVe mit Dichte
f
Y
(y) = |(g
−1
)

(y)|f
X
(g
−1
(y)).
• Ist g nicht bijektiv, kann Methode (2) nicht verwendet werden!
• Ist g : R
n
→ R, so kann man Methode (2) anwenden, falls man g zu einem
Diffeomorphismus erg¨anzen kann.
Beispiel: Sei (X
1
, X
2
) gleichverteilt auf [0, 1]
2
. Was ist die Dichte von Y = X
1
X
2
?
L¨osung: Wir betrachten wieder beide M¨oglichkeiten (1) und (2). Die gemeinsame
Dichte von X
1
, X
2
ist f
X
1
,X
2
(x
1
, x
2
) = 1, x
1
, x
2
∈ [0, 1].
(1) Y hat Werte in [0, 1] und f¨ ur c ∈ [0, 1] ist
F
Y
(c) = P(Y ≤ c) = P(X
1
X
2
≤ c) = 1 −P(X
1
X
2
> c) = 1 −
_
1
c
dx
1
_
1
c
x
1
dx
2
1
= 1 −[x
1
−c ln(x
1
)]
1
c
= .... = 1 −(1 −c + c · ln(c)) = c −c · ln(c),
also f
Y
(c) = 1 −ln(c) −c ·
1
c
, d.h. f
Y
(y) = −ln(y), 0 < y < 1.
(2) Wir betrachten Z
1
= X
1
, Z
2
= Y = X
1
X
2
, d.h. Z = g(X) mit g : (0, 1)
2

{(z
1
, z
2
) : 0 < z
2
< z
1
< 1}, g(x
1
, x
2
) = (x
1
, x
1
x
2
). g ist ein Diffeomorphismus mit
Umkehrabbildung g
−1
: x
1
= z
1
, x
2
=
z
2
z
1
. Nach obigem Satz ist
f
Z
1
,Z
2
(z
1
, z
2
) =
¸
¸
¸ det
_
1 0
z
2
−z
2
1
1
z
1
_
¸
¸
¸ =
1
z
1
, 0 < z
2
< z
1
< 1.
Die Dichte von Y = Z
2
ist daher
f
Y
(y) =
_
1
z
2
dz
1
f
Z
1
,Z
2
(z
1
, y) =
_
1
y
dz
1
1
z
1
= ln(z
1
)|
1
y
= −ln(y), 0 < y < 1.

3 Bedingte Wahrscheinlichkeiten und Verteilungen 21
3 Bedingte Wahrscheinlichkeiten und Verteilungen
In diesem Abschnitt soll untersucht werden, wie sich Wahrscheinlichkeiten bzw. Ver-
teilungen ver¨andern, falls zus¨atzliche Informationen zur Verf¨ ugung stehen.
3.1 Bedingte Wahrscheinlichkeiten
Definition: Sei (Ω, F, P) ein Wahrscheinlichkeitsraum und B ∈ F mit P(B) = 0. Die
(bedingte) Wahrscheinlichkeit von A ∈ F gegeben B sei
P(A|B) :=
P(A ∩ B)
P(B)
.
Lemma: P(.|B) ist wieder ein Wahrscheinlichkeitsmaß auf (Ω, F).
Beweis: Es ist P(Ω|B) =
P(Ω∩B)
P(B)
= 1, und f¨ ur disjunkte Mengen A
i
gilt
P(
_
i
A
i
|B) =
P(

i
(A
i
∩ B))
P(B)
=
P(

i
(A
i
∩ B))
P(B)
=

i
P(A
i
∩ B)
P(B)
=

i
P(A
i
|B),
den auch die B ∩ A
i
sind dann disjunkt.
Was beschreibt das neue Wahrscheinlichkeitsmaß P(.|B)? Es gilt P(B|B) = 1, also ist
das Ergebnis des Zufallsexperiments mit Sicherheit in B. F¨ ur Ereignisse A
1
, A
2
⊂ B
dagegen bleibt die relative Wahrscheinlichkeit unver¨andert:
P(A
1
|B)
P(A
2
|B)
=
P(A
1
∩ B)/P(B)
P(A
2
∩ B)/P(B)
=
P(A
1
)
P(A
2
)
.
P(.|B) ist also im Prinzip die gleiche Wahrscheinlichkeitsverteilung wie P, abgesehen
davon, dass Ergebnisse in B
c
ignoriert werden. Man interpretiert P(.|B) daher als
Verteilung eines Zufallsexperiments, das eigentlich durch P beschrieben wird, unter
der zus¨atzlichen Information, dass das Ergebnis des Experiments in B liegt.
Beispiel: Beim W¨ urfeln mit zwei W¨ ufeln ergibt sich die Summe 5. Wie ist die Augen-
zahl des ersten W¨ urfels verteilt?
L¨osung: Sei Ω = {1, ..., 6}
2
, F = P(Ω), P = U

. Die Augenzahlen der W¨ urfel werden
beschrieben durch die Projektionen X
1
, X
2
mit X
i
(x
1
, x
2
) := x
i
. Man sieht leicht, dass
P(X
1
= k) =
1
6
f¨ ur alle k ∈ {1, 2, 3, 4, 5, 6}, d.h. X
1
ist gleichverteilt auf {1, 2, 3, 4, 5, 6}.
Dies ber¨ ucksichtigt jedoch nicht die gegebene Information. Gesucht ist hier stattdessen
P(X
1
= k|B) mit B := {X
1
+ X
2
= 5}. Es ist
k 1 2 3 4 5 6
P(X
1
= k|B)
1
4
1
4
1
4
1
4
0 0
,
denn P(B) = P({1, 4}, ..., {4, 1}) =
4
36
und beispielsweise P({X
1
= 1} ∩ B) =
P({(1, 4}) =
1
36
, also P(X
1
= 1|B) =
1
4
. Durch die Zusatzinformation haben sich also
die Wahrscheinlichkeiten von 1, 2, 3, 4 erh¨oht, dagegen sind 5, 6 jetzt ausgeschlossen.

3.1 Bedingte Wahrscheinlichkeiten 22
Satz: (Fallunterscheidungsformel f¨ ur Wahrscheinlichkeiten.) Sei (Ω, F, P) ein Wahr-
scheinlichkeitsraum und A ∈ F. F¨ ur jede Partition B
i
, i ∈ I, von Ω (d.h. B
i
∈ F
disjunkt,

i
B
i
= Ω) gilt
P(A) =

i
P(A|B
i
)P(B
i
).
Beweis: A ∩ B
i
ist eine Partition von A, daher gilt

i
P(A|B
i
)P(B
i
) =

i
P(A ∩ B
i
)
P(B
i
)
P(B
i
) =

i
P(A ∩ B
i
) = P(
_
i
(A ∩ B
i
)) = P(A).

Die Fallunterscheidungsformel ist n¨ utzlich bei der Bestimmung von P(A). Dabei ist
es aber oft schwierig, eine Partition B
i
zu finden, die die Berechnung von P(A|B
i
)
m¨oglichst einfach macht.
Beispiel: Im sogenannten Auktionsproblem oder Heiratsproblem, stehen n Objekte zur
Verf¨ ugung, die man hintereinander sieht. Man m¨ochte genau eines ausw¨ahlen, muss bei
jedem sofort entscheiden, ob man es will oder nicht. Was ist eine gute Strategie, um
mit m¨oglichst hoher Wahrscheinlichkeit das beste Objekt zu erhalten?
L¨osung: Sei A das Ereignis, das beste Objekt zu bekommen. Eine m¨ogliche Strategie
besteht darin, zu warten bis man k der Objekte gesehen hat, und dann das n¨achste zu
nehmen, das besser ist als alle bisherigen. (Falls kein besseres mehr kommt geht man
leer aus.) Zumindest dann wenn das zweitbeste Objekt unter den ersten k, und das
beste unter den letzten n−k ist, bekommt man das beste. Insofern ist P(A) mindestens
k
n
n−k
n−1
( ≈
1
4
f¨ ur k :=
n
2
). Wir wollen P(A) f¨ ur beliebiges k genauer bestimmen und
versuchen, k optimal zu w¨ahlen.
Seien dazu 1, 2, 3, ..., n die n Objekte, sortiert nach aufsteigendem Wert. Sei Ω die
Menge der Permutationen von {1, 2, ..., n}, d.h. Ω = {σ : {1, 2, ..., n} → {1, 2, ..., n} : σ
bijektiv}, F = P(Ω), P = U

. F¨ ur σ ∈ Ω sei σ(i) das i-te Objekt. F¨ ur die Berechnung
von P(A) bedingen wir auf die Position des besten Objekts: B
i
:= {σ : σ(i) = n}.
Die B
i
bilden eine Partition. F¨ ur i ≤ k ist P(A|B
i
) = 0, denn dann besteht keine
M¨oglichkeit das beste Objekt zu erhalten. F¨ ur i > k ist
P(A|B
i
) = P(max{σ(1), ...σ(i −1)} ∈ {σ(1)...σ(k)}) =
k
i −1
,
denn unter den i −1 Anfangsobjekten ist das beste mit gleicher Wahrscheinlichkeit an
jeder Stelle. Aus Symmetriegr¨ unden gilt ferner P(B
i
) =
1
n
f¨ ur alle 1 ≤ i ≤ n. Mit der
Fallunterscheidungsformel folgt nun
P(A) =
n

i=1
P(A|B
i
)P(B
i
) =
n

i=k+1
k
i −1
1
n
=
k
n
n

i=k+1
1
i −1

k
n
_
n
k
1
x
dx = −
k
n
log
k
n
.
F¨ ur f(x) := −x log x ist f

(x) = −log x − 1, also hat f ein Maximum bei x =
1
e
.
Also wird P (zumindest f¨ ur große n) maximal f¨ ur
k
n

1
e
, und die entsprechende
Wahrscheinlichkeit ist dann P(A) ≈
1
e
≈ 0, 37 (praktisch unabh¨angig von der Anzahl
n der Objekte).
3.2 Bedingte Verteilungen 23
3.2 Bedingte Verteilungen
Ein Zufallsexperiment liefert zwei Werte X, Y . Was ist die Verteilung von X bei be-
kanntem Wert Y = y? Falls X, Y diskret sind, liefert das letzte Kapitel die Antwort:
P(X = x|Y = y) =
ρ
X,Y
(x, y)
ρ
Y
(y)
falls P(Y = y) = 0.
Ist Y stetig, ist zwar P(Y = y) = 0, dennoch gehen wir analog vor: Im diskreten Fall
ist die Verteilung von X bei gegebenem Y = y bestimmt durch die renormalisierte
Z¨ahlichte ρ(., y), also definieren wir im stetigen Fall die bedinge Verteilung durch die
geeignet renormalisierte Dichtefunktion f(., y).
Definition: Bedingte Verteilung.
• Sind X, Y diskret, so definieren wir ρ
X
(x|Y = y) :=
ρ
X,Y
(x,y)
ρ
Y
(y)
als bedingte Z¨ahldichte von X gegeben Y = y, falls ρ
Y
(y) = 0.
• Sind X, Y stetig, so definieren wir f
X
(x|Y = y) :=
f
X,Y
(x,y)
f
Y
(y)
als bedingte Dichte von X gegeben Y = y, falls f
Y
(y) = 0.
In beiden F¨allen bezeichnen wir mit P
X
(.|Y = y) die zugeh¨orige Verteilung, die soge-
nannte bedingte Verteilung von X, gegeben den Wert von Y .
¨
Ahnlich kann man
vorgehen bei mehr als zwei Zufallsvariablen oder im gemischt diskret-stetigen Fall.
Bemerkung:
• Man kann leicht nachpr¨ ufen, dass ρ
X
(.|Y = y) und f
X
(.|Y = y) die Normalisie-
rungsbedingung erf¨ ullen.
• Obige Definition impliziert, dass sich die gemeinsame Verteilung von (X, Y ) z.B.
aus der Verteilung von Y und der bedingter Verteilung von X gegeben Y er-
gibt: f
X,Y
(x, y) = f
Y
(y) · f
X
(x|Y = y). Bei der Modellierung gen¨ ugt es also,
entsprechende Verteilungen und bedingte Verteilungen anzugeben.
Beispiel: Ein zuf¨alliger Punkt (X, Y ) der Menge {(x, y) : x, y > 0, x + y ≤ 1} wird
gem¨aß der Dichte f
X,Y
(x, y) = x gew¨ahlt. Bestimmen Sie P(X ≥
1
2
|Y =
1
3
).
L¨osung: Die bedingte Dichte ist f
X
(x|Y =
1
3
) = cx, 0 < x <
2
3
. Die neue Normalisie-
rungskonstante c ergibt sich aus
_
2/3
0
xdx =
2
9
, d.h. c =
9
2
. Es folgt
P(X ≥
1
2
|Y =
1
3
) =
_
1
1
2
f
X
(x|Y =
1
3
)dx =
_ 2
3
1
2
9
2
xdx =
7
16
.

Beispiel: Eine seltene Krankheit betrifft 1 unter 10000 Personen. Ein Bluttest bez¨ uglich
dieser Krankheit liefert bei gesunden Personen ein korrektes Ergebnis mit 99% und bei
kranken Personen mit 95%. Bei der Blutuntersuchung einer Person ergibt sich ein po-
sitives Testresultat. Mit welcher Wahrscheinlichkeit ist die Person wirklich krank?
3.3 Unabh¨angigkeit 24
L¨osung: Seien X
1
, X
2
ZVen mit Werten in {g, k}. Hierbei bedeutet g gesund, k krank,
X
1
sei der wirkliche Gesundheitszustand und X
2
das Testergebnis. Gegeben sind:
P(X
1
= k) =
1
10000
, P(X
2
= k|X
1
= k) = 0.95, P(X
2
= g|X
1
= g) = 0.99,
d.h. gegeben sind die Verteilung von X
1
und die bedingte Verteilung von X
2
. Damit
ist das Problem vollst¨andig modelliert. Wir erhalten
P(X
1
= k|X
2
= k) =
P(X
1
= k, X
2
= k)
P(X
2
= k)
=
0.95 ·
1
10000
0.95
1
10000
+ 0.01
9999
10000
≈ 1%.
Im zweiten Schritt haben wir die Wahrscheinlichkeiten durch Fallunterscheidung nach
den m¨oglichen Werten von X
1
berechnet. Obiges Ergebnis ist vielleicht etwas ¨ uberra-
schend: der Test scheint doch eigentlich recht gut zu sein scheint. Die Erkl¨arung f¨ ur
das Ergebnis liegt darin, dass die Krankheit so selten ist: Unter 10000 Personen ist
nur einer wirklich krank. Unter den 9999 gesunden haben im Durchschnitt 1 %, also
ca. 100 ein positives Testresultat. Um dem schlechten Testverhalten abzuhelfen, sollte
man also den Test wiederholen, bzw. auf andere Anzeichen testen.
3.3 Unabh¨angigkeit
Von Unabh¨angigkeit spricht man, falls sich die Wahrscheinlichkeit nicht ¨andert durch
zus¨atzliche Information. Bei Ereignissen A, B ∈ F bedeutet dies: P(A) = P(A|B) =
P(A∩B)
P(B)
. d.h. P(A ∩ B) = P(A)P(B).
Definition: Unabh¨angigkeit von Ereignissen. Sei (Ω, F, P) ein Wahrscheinlich-
keitsraum und A
i
∈ F.
(a) A
1
, A
2
unabh¨angig :⇔ P(A
1
∩ A
2
) = P(A
1
)P(A
2
)
(b) A
i
, i ∈ I paarweise unabh¨angig :⇔ P(A
i
∩ A
j
) = P(A
i
)P(A
j
) ∀i = j
(c) A
i
, i ∈ I unabh¨angig :⇔ f¨ ur jedes endliche J ⊂ I : P(

i∈J
A
i
) =

i∈J
P(A
i
)
Beispiel: Seien A, B unabh¨angig. Man zeige: A, B
c
sind auch unabh¨angig.
L¨osung: P(A ∩ B
c
) = P(A) −P(A ∩ B) = P(A) −P(A)P(B) = P(A)(1 −P(B)) =
P(A)P(B
c
).
Beispiel: Eine M¨ unze wird zweimal geworfen. Zeigen Sie, dass folgende Ereignisse
paarweise unabh¨angig, aber nicht unabh¨angig sind:
A = “1. M¨ unze Zahl”, B = “2. M¨ unze Zahl”, C = “beide M¨ unzen gleich”
L¨osung: Wir w¨ahlen Ω = {0, 1}
2
, F = P(Ω), P = U

. Dr¨ uckt man alle Ereignisse
als Teilmengen von Ω aus erh¨alt man P(A) = P(B) = P(C) =
1
2
und P(A ∩ B) =
P(A ∩ C) = P(B ∩ C) =
1
4
, aber P(A ∩ B ∩ C) =
1
4
.
Analog definiert man Unabh¨angigkeit f¨ ur Zufallsvariablen:
3.3 Unabh¨angigkeit 25
Definition: Unabh¨angigkeit von ZVen.
Sei (Ω, F, P) ein Wahrscheinlichkeitsraum und X
i
: (Ω, F) → (Ω
i
, F
i
) ZVen, i ∈ I.
(a) X
1
, X
2
unabh¨angig :⇔
P(X
1
∈ A
1
, X
2
∈ A
2
) = P(X
1
∈ A
1
)P(X
2
∈ A
2
) ∀A
1
∈ F
1
, A
2
∈ F
2
(b) X
i
, i ∈ I paarweise unabh¨angig :⇔
P(X
i
∈ A
i
, X
j
∈ A
j
) = P(X
i
∈ A
i
)P(X
j
∈ A
j
) ∀A
i
∈ F
i
, A
j
∈ F
j
, i = j ∈ I
(c) X
i
, i ∈ I unabh¨angig :⇔
f¨ ur jedes endliche J ⊂ I, A
i
∈ F
i
: P(X
i
∈ A
i
∀i ∈ J) =

i∈J
P(X
i
∈ A
i
).
Bemerkung:
• Wir betrachten {X ∈ A} f¨ ur beliebige A, da beliebige Informationen ¨ uber X
ber¨ ucksichtigt werden sollen.
• Statt jeweils alle A
i
∈ F
i
, gen¨ ugt es nur A
i
∈ S
i
zu betrachten, wobei S
i
ein
∩-stabiler Erzeuger von F
i
ist. (Dies folgt aus dem Eindeutigkeitssatz.)
• X
1
, ..., X
n
unabh¨angig ⇔ ∀A
i
∈ F
i
: P(X
i
∈ A
i
∀1 ≤ i ≤ n) =
n

i=1
P(X
i
∈ A
i
).
(Man setze f¨ ur festes J in obiger Definition einfach A
i
:= Ω
i
f¨ ur i / ∈ J.)
Auch auf der Ebene von Dichtefunktionen kann Unabh¨angigkeit durch entsprechende
Produktformeln charakterisiert werden:
Satz: Seien X
1
, ..., X
n
reele Zufallsvariablen.
(a) F¨ ur X
1
, ..., X
n
diskret: X
1
, ..., X
n
unabh. ⇔ ρ
X
1
,..,X
n
(x
1
, ..., x
n
) =

n
i=1
ρ
X
i
(x
i
)
(b) F¨ ur X
1
, ..., X
n
stetig: X
1
, ..., X
n
unabh. ⇔ f
X
1
,...,X
n
(x
1
, ..., x
n
) =

n
i=1
f
X
i
(x
i
)
Beweis: (b) ist Hausaufgabe. Wir zeigen (a):
“⇒”: Dies folgt sofort aus der Definition mit A
i
:= {x
i
}.
”⇐”: F¨ ur beliebige A
i
∈ F
i
ist
P(X
1
∈ A
1
, ..., X
n
∈ A
n
) =

x
1
∈A
1
,...,x
n
∈A
n
ρ
X
1
,..,X
n
(x
1
, ..., x
n
) =

x
1
∈A
1
...

x
n
∈A
n
n

i=1
ρ
X
i
(x
i
)
=

x
1
∈A
i
ρ
X
1
(x
1
) · ... ·

x
n
∈A
n
ρ
X
n
(x
n
) = P(X
1
∈ A
1
) · ... · P(X
n
∈ A
n
).

Bemerkung:
• X, Y unabh¨angig ⇔ ρ
X
(x) = ρ
X
(x|Y = y) bzw. f
X
(x) = f
X
(x|Y = y) ⇔ das
Verhalten von Y ist irrelevant f¨ ur die Verteilung von X. (Dies folgt direkt aus
dem letzten Satz.)
• Sind f
1
, f
2
Z¨ahldichten bzw. Dichtefunktion und gilt f
X,Y
(x, y) = f
1
(x)f
2
(y),
so folgt sofort, dass X, Y unabh¨angig sind mit Dichten f
1
, f
2
, denn dann ist
automatisch f
X
(x) =
_
dyf
X,Y
(x, y) = f
1
(x), und analog f
Y
(y) = f
2
(y).
3.3 Unabh¨angigkeit 26
Beispiel: : Seien X
1
, X
2
.... die bin¨are Nachkommastellen einer zuf¨allige Zahl X in
[0, 1]. Man zeige: X
1
, X
2
, ... sind unabh¨angig, und X
i
ist gleichverteilt auf {0, 1}.
L¨osung: Es ist X =

i
X
i
2
i
. Es gen¨ ugt zu zeigen, dass ρ
X
1
,...,X
n
(k
1
, ..., k
n
) =
1
2
· ... ·
1
2
.
Nach obiger Bemerkung folgt dann, dass X
1
, ..., X
n
unabh¨angig sind mit Dichte ρ
i
(k
i
) =
1
2
, also gleichverteilt. Damit ist dann auch jede endliche Teilmenge der X
i
unabh¨angig.
Seien also k
i
∈ {0, 1}, dann ist mit c :=

i
k
i
2
i
ρ
X
1
,...,X
n
(k
1
, ..., k
n
) = P(X
1
= k
1
, ..., X
n
= k
n
) = P(c ≤ X < c +
1
2
n
) =
P(X ∈ [c, c +
1
2
n
)) =
λ([c, c +
1
2
n
))
λ([0, 1])
=
1
2
n
.

Satz: (Vererbung von Unabh¨angigkeit.) Seien X
i
, i ∈ I unabh¨angige ZVen, J
k
⊂ I
disjunkt und f
k
: ×
i∈J
k

i
→ Ω
(k)
. Dann sind die ZVen Y
k
:= f
k
(X
i
: i ∈ J
k
), k ∈ K,
auch wieder unabh¨angig, (z.B. Y
1
= f
1
(X
1
, X
2
), Y
2
= f
2
(X
4
, X
7
, X
3
)).
Beweis: Hausaufgabe (im Spezialfall).
Beispiel: Eine M¨ unze wird 100 Mal geworfen. Y
1
bzw. Y
2
gebe an wie oft “Zahl” bei
den ersten 50 bzw. n¨achsten 50 W¨ urfen f¨allt. Man zeige, dass Y
1
, Y
2
unabh¨angig sind.
L¨osung: Sei X
i
das Ergebnis des i-ten Wurfes, (1 ˆ = Zahl; 0 ˆ = Kopf). Die X
i
sind dann
unabh¨angig, und es ist Y
1
= f
1
(X
1
, ..., X
50
) und Y
2
= f
2
(X
51
, ..., X
100
) mit f
1
(x) =
f
2
(x) =

50
i=1
x
i
. Nach dem Satz sind daher Y
1
, Y
2
unabh¨angig.
Satz: (Faltung von ZVen.) Seien X
1
, X
2
unabh¨angig und Y = X
1
+ X
2
.
(a) Sind X
1
, X
2
diskret mit Z¨ahldichten ρ
1
, ρ
2
, dann ist Y diskret mit Z¨ahldichte
ρ(k) =

l
ρ
1
(l)ρ
2
(k −l).
(b) Sind X
1
, X
2
stetig mit Dichten f
1
, f
2
, dann ist Y stetig mit Dichte
f(y) =
_
dxf
1
(x)f
2
(y −x).
Beweis: (b) ist Hausaufgabe und (a) folgt aus
ρ(k) = P(X
1
+ X
2
= k) =

k
1
,k
2
:k
1
+k
2
=k
ρ
X
1
,X
2
(k
1
, k
2
) =

k
1
,k
2
:k
1
+k
2
=k
ρ
1
(k
1

2
(k
2
).
Mit l := k
1
ist k
2
= k −l und die Summe hat die gegebene Form.
4 Erwartungswert 27
4 Erwartungswert
4.1 Erwartungswert
Der Erwartungswert E(X) ist Mittelwert einer reellen ZVe X : Ω → R, wobei jeder
m¨ogliche Wert mit seiner Wahrscheinlichkeit gewichtet wird. (Dies entspricht also dem
Massenschwerpunkt einer Massenverteilung.)
Der Erwartungswert wird schrittweise definiert:
• Ist X ≥ 0 eine Treppenfunktion, d.h. X =

N
n=1
a
n
1
A
n
mit N ∈ N, a
n
≥ 0,
A
n
∈ B, setzt man E(X) :=

N
n=1
a
n
P(A
n
).
• Ist X ≥ 0 beliebig, approximiert man X von unten durch Treppenfunktionen X
n
,
d.h. X
n
↑ X, und setzt dann E(X) := lim
n→∞
E(X
n
).
• F¨ ur beliebiges X setzt man E(X) := E(X
+
)−E(X

). Hierbei ist X
+
= |X|·1
{X>0}
der Positiv-Teil und X

= |X| · 1
{X<0}
der Negativ-Teil von X.
• L
1
sei die Menge aller ZVen X mit E(|X|) < ∞, d.h. E(X
+
), E(X

) < ∞.
Bemerkung:
• F¨ ur Details, siehe Maßtheorie. Insbesondere im 1. und 2. Schritt ist zu zeigen, dass
E(X) wohldefiniert ist, also nicht von der speziellen Darstellung von X abh¨angt.
• Im dritten Schritt kann es passieren, dass E(X
+
) oder E(X

) unendlich sind. Falls
beide unendlich sind, ist der Erwartungswert nicht definiert. Falls einer unendlich
ist, ist E(X) = ∞ bzw. −∞. F¨ ur X ∈ L
1
sind beide endlich, und daher ist E(X)
definiert und hat einen endlichen Wert.
Satz: Erwartungswert von diskreten und stetigen ZVen. Sei g : R
n
→R messbar. Sind
X
1
, ..., X
n
reelle ZVen mit gemeinsamer Z¨ahldichte ρ bzw. Dichte f, dann ist
E(g(X
1
, ..., X
n
)) =

k
1
,...,k
n
g(k
1
, ..., k
n
)ρ(k
1
, ..., k
n
), bzw.
E(g(X
1
, ..., X
n
)) =
_
g(x
1
, ..., x
n
)f(x
1
, ..., x
n
)dx
1
...dx
n
.
Insbesondere ist f¨ ur eine reelle ZVe mit Z¨ahldichte ρ bzw. Dichte f
E(X) =

k
kρ(k) bzw. E(X) =
_
xf(x)dx.
Beweis: Maßtheorie.
Bemerkung:
• Im Satz sind die Gleichungen so zu verstehen, dass die eine Seite genau dann
wohldefiniert ist, wenn es die andere Seite ist. Beispielsweise im Falle von X mit
Z¨ahldichte existiert der Erwartungswert genau dann, wenn die Reihe konvergiert.
4.1 Erwartungswert 28
• F¨ ur unsere Zwecke kann man die Gleichungen aus dem Satz als Definition des
Erwartungswerts ansehen.
• Man beachte, dass der Erwartungswert jeweils nur von der Verteilung abh¨angt.
Beispiel: Erwartungswert der Augenzahl bei einmaligem Werfen eines W¨ urfels.
L¨osung: E(X) =

6
k=1
k ·
1
6
= 3, 5.
Beispiel: Erwartungswert f¨ ur X mit der Dichte f(x) =
1
π
·
1
1+x
2
(Cauchy-Verteilung).
L¨osung: E(X) =
_
xf(x)dx =
_

−∞
1
π
·
x
1+x
2
=
_
1

ln(1 + x
2
)
¸

−∞
= ∞ − ∞. Der
Erwartungswert ist also nicht definiert!
Satz: (Eigenschaften des Erwartungswerts.) Sei (Ω, F, P) ein Wahrscheinlichkeits-
raum, seien X, Y reelle ZVen, A ∈ F, a, b ∈ R.
(a) E(1
A
) = P(A), E(1) = E(1

) = 1
(b) Linearit¨at: E(aX + bY ) = a · E(X) + b · E(Y )
(c) Monotonie: X ≤ Y ⇒E(X) ≤ E(Y )
(d) Multiplikativit¨at: X,Y unabh¨angig ⇒E(XY ) = E(X)E(Y )
Beweis: (f¨ ur diskrete ZVen). Seien X, Y diskret mit gemeinsamer Dichte ρ.
(a) E(1
A
) = 1 · P(1
A
= 1) + 0 · P(1
A
= 0) = P(A), denn {1
A
= 1} = A.
(b) Mit g(x, y) = ax + by folgt aus dem letzten Satz
E(aX + bY ) =

x,y
(ax + by)ρ(x, y) = a

x
x

y
ρ(x, y) + b

y
y

x
ρ(x, y)
= a

x

X
(x) + b

y

Y
(y) = aE(X) + bE(Y ).
(c) Nach (b) ist E(Y ) −E(X) = E(Y −X) =

x,y
(y −x
. ¸¸ .
≥0
) · ρ(x, y) ≥ 0.
(d) Mit g(x, y) = xy folgt aus dem letzten Satz
E(XY ) =

x,y
xyρ(x, y) =

x,y
xyρ
X
(x)ρ
Y
(y) = (

x

X
(x))(

y

Y
(y)) = E(X)E(Y ).

Bemerkung:
• Im Satz ist implizit vorausgesetzt, dass die Erwartungswerte existieren.
• Per Induktion verallgemeinert man (b), (d) auf endliche Summen und Produkte.
4.2 Kovarianz und Varianz 29
4.2 Kovarianz und Varianz
Definition: Sei L
2
:= {X : Ω →R ZVe : E(X
2
) < ∞}.
Bemerkung:
• Es gilt L
2
⊂ L
1
und man kann zeigen, dass L
1
und L
2
Vektorr¨aume sind.
• F¨ ur X, Y ∈ L
2
ist E(XY ) wohldefiniert.
Definition: F¨ ur X, Y ∈ L
2
ist die Kovarianz definiert durch
Cov(X, Y ) := E[(X −E(X))(Y −E(Y ))] = E(XY ) −E(X)E(Y ).
F¨ ur X
1
, ..., X
n
∈ L
2
wird (E(X
i
))
i
als Erwartungsvektor und (Cov(X
i
, X
j
))
i,j
als
Kovarianzmatrix bezeichnet.
Bemerkung:
• Die Gleichheit in der Definition ergibt sich durch Ausmultiplizieren aus der Li-
nearit¨at des Erwartungswerts.
• Interpretation der Kovarianz: das Vorzeichen von Cov(X, Y ) bestimmt sich dar-
aus, ob X−E(X) und Y −E(Y ) bevorzugt gleiches Vorzeichen oder verschiedenes
Vorzeichen haben. Cov(X, Y ) ist also ein gewisses Maß daf¨ ur, ob X und Y lieber
gleichzeitig relativ große und relativ kleine Werte annehmen (bezogen auf den
jeweiligen Mittelwert) oder nicht. Man bezeichnet bei
Cov(X, Y )
_
¸
_
¸
_
> 0 X, Y als positiv korreliert
< 0 X, Y als negativ korreliert
= 0 X, Y als unkorreliert
• Aus der Multiplikativit¨atsregel des Erwartungswerts folgt sofort, dass unabh¨angi-
ge ZVen automatisch unkorreliert sind.
Satz: (Eigenschaften der Kovarianz.). Seien X, Y, X
i
, Y
i
∈ L
2
, a
i
, b
i
, c ∈ R, 1 ≤ i ≤ n.
(a) Symmetrie: Cov(X, Y ) = Cov(Y, X).
(b) Bilinearit¨at: Cov(

i
a
i
X
i
,

j
b
j
Y
j
) =

i

j
a
i
b
j
Cov(X
i
, Y
j
).
(c) Konstanten: Cov(X, Y + c) = Cov(X, Y ), Cov(X, c) = 0.
(d) C := (Cov(X
i
, X
j
))
ij
ist positiv semidefinit: ∀v ∈ R
n
: v
T
Cv =

i,j
v
i
C
ij
v
j
≥ 0.
4.2 Kovarianz und Varianz 30
Beweis: (a) ist klar
(b) Wegen (a) gen¨ ugt es die Linearit¨at in der ersten Komponente zu zeigen:
Cov
_

i
a
i
X
i
, Y
_
= E
_
_

i
a
i
X
i
−E(

i
a
i
X
i
)
__
Y −E(Y )
_
_
= E
_

i
a
i
(X
i
−E(X
i
))(Y −E(Y ))
_
=

i
a
i
E
_
(X
i
−E(X
i
))(Y −E(Y ))
_
=

i
a
i
Cov(X
i
, Y ).
(c) Cov(X, c) = E((X −E(X))(c −E(c))) = E(0) = 0 und der Rest folgt mit (b).
(d) F¨ ur v ∈ R
n
ist wegen (b) unter Verwendung von Z :=

i
v
i
X
i

i,j
v
i
Cov(X
i
, X
j
)v
j
= Cov
_

i
v
i
X
i
,

j
v
j
X
j
_
= Cov(Z, Z) = E((Z −E(Z))
2
) ≥ 0.

Definition: F¨ ur X ∈ L
1
ist die Varianz definiert durch
V(X) := Cov(X, X) = E[(X −E(X))
2
] = E(X
2
) −E(X)
2
.
Bemerkung:
• Aus der Definition folgt sofort V(X) ≥ 0. F¨ ur X ∈ L
1
kann V(X) = ∞ sein. F¨ ur
X ∈ L
2
ist V(X) < ∞.
• V(X) = E[(X − E(X))
2
] ist der durchschnittliche quadratische Abstand von X
zu seinem Mittelwert. V(X) ist also ein gewisses Maß daf¨ ur, wie stark die Werte
von X streuen.
Satz: (Eigenschaften der Varianz.) Seien X, X
i
∈ L
2
und c ∈ R, 1 ≤ i ≤ n.
(a) Konstanten: V(X + c) = V(X), V(cX) = c
2
V(X), V(c) = 0.
(b) Summenregel: V(

i
X
i
) =

i
V(X
i
) +

i=j
Cov(X
i
, X
j
). Insbesondere gilt f¨ ur
unabh¨angige X
1
, ..., X
n
V(

i
X
i
) =

i
V(X
i
).
Beweis: Diese Eigenschaften ergeben sich sofort aus V(X) = Cov(X, X) und den
Eigenschaften der Kovarianz.
Beispiel: Man bestimme E und V f¨ ur die Augensumme bei 12 Mal W¨ urfeln.
L¨osung: Seien X
1
, ..., X
12
die erzielten Augenzahlen. Die X
i
sind unabh¨angig und
gleichverteilt auf {1, ..., 6}. Wir verfolgen 2 Ans¨atze:
(1) E(X) =

k

X
(k), E(X
2
) =

k
k
2
ρ
X
(k). Um diese Summen zu berechnen,
ben¨otigen wir ρ
X
. Diese Z¨ahldichte zu bestimmen, ist aber sehr aufw¨andig, daher be-
schreiten wir einen Alternativweg:
4.2 Kovarianz und Varianz 31
(2) Wir bestimmen zun¨achst E(X
i
) und V(X
i
):
E(X
i
) =
6

k=1
k
1
6
=
1 + ... + 6
6
=
7
2
und E(X
2
i
) =
6

k=1
k
2
1
6
=
1
2
+ ... + 6
2
6
=
91
6
,
also V(X
i
) = E(X
2
i
) −E(X
i
)
2
=
91
6

49
4
=
35
12
. Mit den Rechenregeln f¨ ur E und V folgt
nun E(X) =

i
E(X
i
) = 42 und V(X) =

i
V(X
i
) = 35. Letzteres gilt, da die X
i
unabh¨angig sind.
Bisweilen ist es sinnvoll ZVen auf eine Normalform zu bringen,
Definition: F¨ ur X ∈ L
2
heißt X

:=
X−E(X)

V(X)
die Standardisierung von X.
Bemerkung:
• Nach den Rechenregeln f¨ ur E und V ist E(X

) =
1

V(X)
(E(X) −E(X)) = 0 und
V(X

) = (
1

V(X)
)
2
V(X) = 1. X

ist also eine gr¨oßenbereinigte Version von X.
• X

hat die gleiche Wahrscheinlichkeitsverteilung wie X, abgesehen davon dass
die Werte entsprechend verschoben und gestaucht wurden.
Definition:
• F¨ ur X ∈ L
1
ist die Standardabweichung definiert durch σ(X) :=
_
V(X).
• F¨ ur X, Y ∈ L
2
ist die Korrelation definiert durch ρ(X, Y ) :=
Cov(X,Y )
σ(X)σ(Y )
.
Bemerkung:
• Es gilt ρ(X, Y ) = E(
X−E(X)
σ(X)
Y −E(Y )
σ(Y )
) = E(X

Y

) = Cov(X

, Y

).
• Cov und V haben die sch¨oneren Eigenschaften, und sind daher zum Rechnen
besser geeignet. Daf¨ ur haben σ und ρ die interessantere Interpretation:
• Da V ein Maß f¨ ur die durchschnittliche quadratische Abweichung vom Mittel-
wert ist, kann σ als Maß f¨ ur die durchschnittliche Abweichung vom Mittelwert
betrachtet werden.
• ρ(X, Y ) = E(X

Y

) ist ein Maß f¨ ur die Tendenz, dass X

und Y

gleichgroße
Werte haben. Nach dem folgenden Lemma ist ρ(X, Y ) ∈ [−1, 1] und die ex-
tremalen F¨alle werden erreicht durch ρ(X, X) = 1 (Gr¨oße genau gleich) und
ρ(X, −X) = −1 (Gr¨oße genau gegenl¨aufig).
Lemma: F¨ ur X, Y ∈ L
2
ist ρ(X, Y ) ∈ [−1, 1].
Beweis: Die Behauptung folgt mittels der Rechenregeln aus
0 ≤ V(X

±Y

) = V(X

) +V(Y

) ±2Cov(X

, Y

) = 2 ±2ρ(X, Y ).

4.3 Verwendung von Indikatorfunktion und Bedingungen 32
4.3 Verwendung von Indikatorfunktion und Bedingungen
Ist X =

i
1
A
i
, so haben wir f¨ ur jedes A
i
, das eintritt, 1
A
i
= 1, d.h. X ist die Anzahl
von allen Ereignissen A
i
die eintreten. Hier kann man den Erwartungswert (und die
Varianz) besonders einfach berechnen:
Satz: Ist X =

i
1
A
i
mit A
i
∈ F, 1 ≤ i ≤ n, so ist
E(X) =

i
P(A
i
) und E(X
2
) =

i
P(A
i
) +

i=j
P(A
i
∩ A
j
).
Beweis: E(

i
1
A
i
) =

i
E(1
A
i
) =

i
P(A
i
) und die zweite Gleichung folgt ebenso,
da X
2
= (

i
1
A
i
)
2
=

i
1
2
A
i
+

i=j
1
A
i
1
A
j
=

i
1
A
i
+

i=j
1
A
i
∩A
j
.
Beispiel: Wir w¨ahlen rein zuf¨allig eine 8-stellige Codezahl mit Ziffern aus {1, ..., 6}.
Man bestimme, wie viele verschiedenen Ziffer die Codezahl im Durchschnitt hat.
L¨osung: Sei Ω {1, ..., 6}
8
, F = P(Ω), P = U

. Sei X die Anzahl der verschiedenen
Ziffern, die in der Codezahl vorkommen. Es ist X =

1
A
i
, wobei A
i
das Ereignis ist,
dass Ziffer i vorkommt. P(A
i
) und P(A
i
∩A
j
) sind aber nicht so leicht zu bestimmen.
Leichter ist P(A
c
i
) = (
5
6
)
8
und P(A
c
i
∩ A
c
j
) = (
4
6
)
8
. Daher setzen wir Y :=

i
1
A
c
i
die
Anzahl der Ziffern, die nicht vorkommen. Es gilt X = 6−Y und E(Y ) und V(Y ) ergeben
sich aus dem vorhergehenden Satz: E(Y ) = 6(
5
6
)
8
≈ 1, 4, E(Y
2
) = 6(
5
6
)
8
+6·5(
4
6
)
8
≈ 2, 6,
also V(Y ) = E(Y
2
) − E(Y )
2
= 0, 6. Hieraus folgt sofort E(X) = 6 − E(Y ) ≈ 4, 6 und
V(X) = V(Y ) ≈ 0, 6.
Beispiel: Man zeige mittels Indikatorfunktionen die Einschluss-Ausschlussformel:
P
_
n
_
i=1
A
i
_
=
n

k=1
(−1)
k+1

J⊂{1,...,n}:|J|=k
P
_

j∈J
A
j
_
f¨ ur A
i
∈ F.
L¨osung: Schreibt man die Wahrscheinlichkeiten als Erwartungen von Indikatorfunk-
tionen, so gen¨ ugt es wegen der Linearit¨at der Erwartung zu zeigen, dass
1

i
A
i
=
n

k=1
(−1)
k+1

J:|J|=k
1

j∈J
A
j
, d.h. 1 −1

i
A
i
=
n

k=0
(−1)
k

J:|J|=k
1

j∈J
A
j
.
Dies zeigt man unter Verwendung von 1 −1
A
= 1
A
c und 1
∩A
i
=

1
A
i
: Es ist
1 −1

i
A
i
= 1
(

i
A
i
)
c = 1

i
A
c
i
=

i
1
A
c
i
=

i
(1 −1
A
i
) =

J

i∈J
(−1
A
i
) und

k
(−1)
k

J:|J|=k
1

i∈J
A
i
=

k
(−1)
k

J:|J|=k

i∈J
1
A
i
=

k

J:|J|=k

i∈J
(−1
A
i
).

4.3 Verwendung von Indikatorfunktion und Bedingungen 33
Eine andere Methode zur Berechnung des Erwartungswerts beruht auf einer Fallunter-
scheidungsformel analog zu der f¨ ur Wahrscheinlichkeiten. Hierbei steht E(X|Y = y)
f¨ ur den Erwartungswert von X unter dem Wahrscheinlichkeitsmaß P(.|Y = y).
Satz: Seien X, Y reelle Zufallsvariablen. Hat Y Z¨ahldichte ρ bzw. Dichte f so gilt
E(X) =

y
E(X|Y = y)ρ(y) bzw. E(X) =
_
dyE(X|Y = y)f(y),
falls die rechte Seite definiert ist. Zusammenfassend schreibt man diese Formel auch in
der Form E(X) = E(E(X|Y )) (“Turmeigenschaft f¨ ur den Erwartungswert”).
Beweis: (f¨ ur X, Y diskret.) E(X|Y = y) =

x

X
(x|Y = y) =

x
x
ρ
X,Y
(x,y)
ρ
Y
(y)
, also

y
E(X|Y = y)ρ(y) =

y

x
x
ρ
X,Y
(x, y)
ρ
Y
(y)
ρ
Y
(y) =

x

y

X,Y
(x, y) = E(X).

Beispiel: Ein Stab der L¨ange 1 bricht an einer zuf¨alligen Stelle. Der rechte Teil wird
weggeworfen, der linke Teil bricht wieder an einer zuf¨alligen Stelle, und der rechte Teil
wird wieder weggeworfen. Wie groß ist der restliche Teil im Durchschnitt?
L¨osung:
Sei Y die Restl¨ange nach dem ersten Bruch und X die Restl¨ange nach dem zweiten
Bruch. Die Verteilung von Y ist U
[0,1]
und die bedingte Verteilung von X, gegeben
Y = y, ist U
[0,y]
. Wir verfolgen 2 Ans¨atze:
(1) Aus den gegebenen Verteilungen bestimmt man die gemeinsame Dichte f
X,Y
(x, y) =
f
Y
(y)f
X
(x|Y = y) = 1
[0,1]
(y)
1
y
1
[0,y]
(x), und berechnet hieraus E(X) =
_
dxdyxf
X,Y
(x, y).
Aufgrund der Struktur des Problems ist aber folgender Ansatz einfacher:
(2) Es ist E(X|Y = y) =
y
2
(Erwartungswert von U
[0,y]
). Mit dem Satz erhalten wir
also
E(X) =
_
dyE(X|Y = y)f
Y
(y) =
1
2
_
dyyf
Y
(y) =
1
2
E(Y ) =
1
4
,
denn Y ∼ U
[0,1]
impliziert E(Y ) =
1
2
.
Bei komplizierteren Aufgaben sind folgende einfache Tatsachen oft n¨ utzlich:
Satz: Sind X, Y unabh¨angige Zufallsvariablen, so ist E(X|Y = y) = E(X).
Beweis: Bei Unabh¨angigkeit ist die bedingte Verteilung identisch mit der unbedingten
Verteilung. Hieraus folgt sofort die Behauptung.
Satz: Sind X, Y Zufallsvariablen, so ist E(f(X, Y )|Y = y) = E(f(X, y)|Y = y).
Beweis: Hausaufgabe f¨r den Fall X, Y diskret.
Bemerkung: Bei beiden hier vorgestellten Berechnungsmethoden des Erwartungs-
werts besteht das Problem nicht in der Anwendung der Formeln, sondern darin, f¨ ur
eine gegebene ZVe X geeignete Indikatorfunktionen oder eine geeignete Bedingung Y
zu finden, die das Problem vereinfachen!
4.4 Momentenerzeugende Funktionen 34
4.4 Momentenerzeugende Funktionen
Definition: Die momentenerzeugende Funktion (MF) einer reellen ZVe X ist
M
X
: R →R, M
X
(t) = E(e
tX
), t ∈ R.
Bemerkung:
• M
X
ist nur sinnvoll falls E wenigstens f¨ ur t in einer Umgebung von 0 endlich ist.
(Dies soll im Folgenden generell vorausgesetzt sein.) In diesem Fall ist X
n
∈ L
1
f¨ ur alle n.
• Mit den Formeln f¨ ur den Erwartungswert von diskreten bzw. stetigen ZVen folgt:
M
X
(t) =

k
e
tk
ρ
X
(k) f¨ ur X diskret, M
X
(t) =
_
dxe
tx
f
X
(x) f¨ ur X stetig
Satz: (Eigenschaften von M
X
.) Seien X, Y reelle ZVen, a, b ∈ R.
(a) Momente: E(X
n
) =
d
n
dx
n
M
X
(t)|
t=0
(b) Lineare Transformation: M
aX+b
(t) = e
bt
M
X
(at)
(c) Produkteigenschaft: Sind X, Y unabh¨angig, so ist M
X+Y
(t) = M
X
(t) · M
Y
(t).
(d) Eindeutigkeit: Ist M
X
= M
Y
in einer Umgebung der 0, so haben X, Y die gleiche
Verteilung.
Beweis: (in Teilen)
(a)F¨ ur n = 1 ist
d
dt
M
X
(t) =
d
dt
E(e
Xt
) = E(
d
dt
e
Xt
) = E(Xe
Xt
) und mit t = 0 folgt die
Formel. F¨ ur n = 2 ist
d
2
d
2
t
M
X
(t) =
d
dt
M
X
(X · e
Xt
) = E(X
2
· e
Xt
) und mit t = 0 folgt
die Formel. F¨ ur allgemeines n argumentiert man induktiv. Die Vertauschbarkeit von E
und Ableitung muss hierbei noch genauer begr¨ undet werden (vgl. Maßtheorie).
(b) E(e
t(aX+b)
) = E(e
tb
· e
atX
) = e
tb
· E(e
(at)X
).
(c) E(e
t(X+Y )
) = E(e
tX
· e
tY
) = E(e
tX
)E(e
tY
).
(d) Analog zur Eindeutigkeit bei der Fourier-Transformation.
Beispiel: Man bestimme die MF von X ∼ U
[0,1]
.
L¨osung: M
X
(t) = E(e
tX
) =
_
e
tX
f(x)dx =
_
1
0
e
tX
dx =
1
t
e
tX
|
1
0
=
e
t
−1
t
. F¨ ur t = 0 ergibt
sich M
X
(0) = 1.
Bemerkung: : Analog definiert man die (gemeinsame) MF von reellen ZVen X
1
, ..., X
n
als M
X
1
...X
n
: R
n
→ R mit M
X
1
...X
n
(t
1
...t
n
) = E(e
t
1
X
1
+...+t
n
X
n
). Diese hat auch wieder
Eigenschaften ¨ahnlich zu denen in obigem Satz.
5 Beispiele f¨ ur Zufallsvariablen 35
5 Beispiele f¨ ur Zufallsvariablen
5.1 Zuf¨allige Ereignisse in diskreter Zeit
Wir betrachten diskrete Zeitpunkte n = 1, 2, . . .. Zu jedem Zeitpunkt wird ein Ex-
periment mit zwei m¨oglichen Ausg¨angen (Niete/Treffer) durchgef¨ uhrt. Die einzelnen
Experimente seien dabei unabh¨angig. Standardbeispiel ist hierbei der unendlich oft
wiederholte M¨ unzwurf (mit etwa “Zahl” als Treffer).
Definition: Eine Folge von ZVen X
n
, n ≥ 1, heißt Bernoulli-Folge oder Bernoulli-
Prozess mit Parameter p ∈ (0, 1), falls die X
n
unabh¨angig sind mit Z¨ahldichte ρ(0) =
1 −p (Niete) und ρ(1) = p (Treffer). p wird auch als Trefferwahrscheinlichkeit bezeich-
net. In einem Bernoulli-Prozess betrachtet man außer den X
n
auch folgende ZVen:
• N
A
, A ⊂ N: Anzahl von Treffern in A.
• T
i
, i ≥ 1: Wartezeit zwischen (i−1)-ten und i-ten Treffer (0-ter Treffer bei n = 0).
• S
i
, i ≥ 1: Wartezeit bis zum i-ten Treffer.
Man kann die Verteilungen dieser Zufallsvariablen leicht bestimmen:
Satz: Sei X
n
, n ≥ 1, eine Bernoulli-Folge mit Parameter p.
a) Sind A
1
, A
2
... disjunkt, so sind N
A
1
, N
A
2
, ... unabh¨angig.
Ist |A| = n, so ist ρ
N
A
(k) =
_
n
k
_
p
k
(1 −p)
n−k
, k = 0, 1, ..., n.
b) T
1
, T
2
, ... sind unabh¨angig und ρ
T
i
(k) = p(1 −p)
k−1
, k = 1, 2, 3...
c) S
1
, S
2
, ...S
n
: Z¨ahldichte ρ
S
1
...S
n
(k
1
, ..., k
n
) = p
n
(1 −p)
k
n
−n
, 0 < k
1
< ... < k
n
.
Beweis:
(a) N
A
i
=

k∈A
i
1
{X
k
=1}
=

k∈A
i
X
k
. Nach den Vererbungseigenschaften der Un-
abh¨angigkeit sind die N
A
i
daher unabh¨angig. F¨ ur A = {m
1
, ..., m
n
} ist P(N
A
= k) =

x
P(X
m
1
= x
1
, ..., X
m
n
= x
n
) =

x
p
k
(1 − p)
n−k
, wobei ¨ uber alle x
i
∈ {0, 1} sum-
miert wird, von denen genau k 1 und n −k 0 sind. Die Anzahl solcher Folgen ist
_
n
k
_
,
daher folgt f¨ ur die Wahrscheinlichkeit: P(N
A
= k) =
_
n
k
_
p
k
(1 −p)
n−k
.
(c) Wir setzen x
k
j
:= 1 und x
i
= 0 sonst. Damit erhalten wir P(S
1
= k
1
, ..., S
n
= k
n
) =
P(X
i
= x
i
∀1 ≤ i ≤ k
n
) = p
n
(1 −p)
k
n
−n
, denn genau n der x
i
sind 1.
(b) P(T
1
= l
1
, ..., T
n
= l
n
) = P(S
1
= l
1
, ..., S
n
= l
1
+ ... + l
n
) = p
n
(1 − p)
l
1
+...+l
n
−n
=

n
i=1
p(1 −p)
l
i
−1
. Hieraus erh¨alt man die Unabh¨angigkeit und die Z¨ahldichte.
Die in (a) und (b) definierten Verteilungen kommen in Anwendungen h¨aufig vor und
bekommen daher eigene Bezeichnungen:
5.1 Zuf¨allige Ereignisse in diskreter Zeit 36
Definition+Satz: Sei p ∈ (0, 1) und n ∈ N.
(a) X heißt binomialverteilt mit Parametern n, p (X ∼ Bin
n,p
) falls X diskret ist
mit Z¨ahldichte ρ
X
(k) =
_
n
k
_
p
k
(1 −p)
n−k
, k = 0, ..., n.
Es gilt E(X) = np, V(X) = np(1 −p).
(b) X heißt geometrisch verteilt mit Parameter p (X ∼ Geo
p
), falls X diskret ist
mit Z¨ahldichte ρ
X
(k) = p(1 −p)
k−1
, k = 1, 2...
Es gilt E(X) =
1
p
, V(X) =
1−p
p
2
.
Beweis:
(a) Eine M¨oglichkeit ist, die Formeln f¨ ur Erwartungswert und Varianz zu verwenden
und die entstehenden Summen vereinfachen. Einfacher argumentiert man mit dem
Bernoulli-Prozess: X = N
{1,...,n}
= X
1
+... +X
n
. Die X
i
sind unabh¨angig mit E(X
i
) =
1 · p +0 · (1 −p) = p, E(X
2
i
) = 1
2
· p +0
2
· (1 −p) = p, also V(X
i
) = p
2
−p = p(1 −p).
Es folgt
E(X) =
n

i=1
E(X
i
) =
n

i=1
p = np und V(X) =
n

i=1
V(X
i
) = np(1 −p).
(b) Wieder kann man entweder die Formeln f¨ ur Erwartungswert und Varianz verwenden
oder mit dem Bernoulli-Prozess argumentieren: X = T sei die Wartezeit bis zum ersten
Erfolg in einer Bernoulli-Folge mit Parameter p. Wir bestimmen E(T) durch Bedingen
auf X
1
: Falls X
1
= 1, so ist T = 1, also E(T|X
1
= 1) = 1. Falls X
1
= 0, so ist T = 1+T

,
wobei T

die Wartezeit nach der Zeit 1 auf den ersten Erfolg ist. T

ist unabh¨angig von
X
1
und T

∼ T, also ist E(T|X
1
= 0) = E(1+T

|X
1
= 0) = 1+E(T

|X
1
= 0) = 1+E(T).
Es folgt
E(T) = E(T|X
1
= 0)P(X
1
= 0) +E(T|X
1
= 1)P(X
1
= 1) = (1 +E(T))(1 −p) + 1 · p.
Wegen E(T) =

k
kp(1 −p)
k−1
< ∞ folgt hieraus durch umformen E(T) =
1
p
. Analog
berechnet man E(T
2
) (Hausaufgabe) und erh¨alt hieraus V(T).
Beispiel:
Seien T
1
, T
2
, T
3
unabh¨angig und geometrisch verteilt mit Parameter p. Man berechne
P(T
1
+ T
2
+ T
3
≥ 5).
L¨osung:
Wir betrachten die T
i
als entsprechende Wartezeiten im Bernoulli-Prozess und dr¨ ucken
das betrachtete Ereignis durch andere Zufallsvariablen aus: P(T
1
+ T
2
+ T
3
≥ 5) =
P(S
3
≥ 5) = P(N
{1,...,4}
≤ 2) =

2
k=0
_
4
k
_
p
k
(1−p)
4−k
= (1−p)
4
+4p(1−p)
3
+6p
2
(1−p)
2
.

5.2 Zuf¨allige Ereignisse in stetiger Zeit 37
5.2 Zuf¨allige Ereignisse in stetiger Zeit
Zun¨achst ben¨otigen wir eine weitere diskrete Verteilung:
Definition+Satz: X heißt Poisson-verteilt mit Parameter λ > 0 (X ∼ Poi
λ
), falls
X diskret ist mit Z¨ahldichte ρ
X
(k) = e
−λ λ
k
k!
, k = 0, 1, 2, ... Es gilt E(X) = λ, V(X) = λ.
Beweis: Hausaufgabe.
Die Poisson-Verteilung approximiert die Anzahl von Erfolgen (in einem Bernoulli-
Prozess) in sehr großen Zeitintervallen bei sehr kleiner Trefferwahrscheinlichkeit:
Satz: (Poisson-Approximation.) Sei λ > 0, p
n
> 0 mit np
n
→ λ f¨ ur n → ∞.
F¨ ur Y
n
∼ Bin
n,p
n
, Y ∼ Poi
λ
ist P(Y
n
= k) → P(Y = k) f¨ ur n → ∞.
(F¨ ur großes n und kleines p
n
ist also Bin
n,p
n
≈ Poi
λ
mit λ = np
n
.)
Beweis:
P(Y
n
= k) =
_
n
k
_
p
k
n
(1 −p
n
)
n−k
=
1
k!
(np
n
)
k
n
n
n −1
n
...
n −k + 1
n
(1 −p
n
)
−k
(1 −
np
n
n
)
n
.
Es gilt (np
n
)
k
→ λ
k
,
n−i
n
→ 1, (1 −p
n
)
−k
→ 1 und (1 −
np
n
n
)
n
→ e
−λ
.
Nun kommen wir zur Definition eines Prozesses von zuf¨alligen Zeitpunkten in stetiger
Zeit. Wir betrachten jetzt also beliebige Zeitpunkte t > 0. Da die Menge der Zeitpunkte
¨ uberabz¨ahlbar ist, ist es nicht praktikabel bei jedem einzelnen Zeitpunkt zu entscheiden,
ob ein Treffer stattfindet oder nicht (wie bei der Definition des Bernoulli-Prozesses).
Sinnvoll dagegen ist die Verwendung der anderen Zufallsvariablen:
• N
A
, A ⊂ (0, ∞): Anzahl von Treffern in A.
• T
i
, i ≥ 1: Wartezeit zwischen (i−1)-ten und i-ten Treffer (0-ter Treffer bei t = 0).
• S
i
, i ≥ 1: Wartezeit bis zum i-ten Treffer.
Um die Verteilung dieser Zufallsvariablen festzulegen, machen wir folgende (nat¨ urliche)
Modellannahmen:
(i) Was in disjunkten Intervallen passiert ist unabh¨angig
(ii) F¨ ur ein kleines Intervall A: N
A
≤ 1
(iii) F¨ ur ein kleines Intervall A: P(N
A
= 1) ≈ αλ
1
(A)
Ist h = λ
1
(A) die L¨ange von A, so kann man (ii),(iii) wie folgt pr¨azisieren:
P(N
A
≥ 2) = o(h), P(N
A
= 1) = αh + o(h) f¨ ur h → 0.
5.2 Zuf¨allige Ereignisse in stetiger Zeit 38
Definition+Satz: Ein Prozess von Ereignissen in stetiger Zeit erf¨ ulle (i),(ii),(iii). Sind
dann A
1
, A
2
... ∈ B
(0,∞)
disjunkt, so sind N
A
1
, N
A
2
, ... unabh¨angig und es gilt
N
A
∼ Poi
λ
A
mit λ
A
= αλ
1
(A).
Ein Prozess mit diesen Eigenschaften heißt Poisson-Prozess (PP) zum Parameter α.
α nennt man auch die Rate des PP.
Beweis: (Skizze.) Die Unabh¨angigkeit der N
A
i
folgt aus (i). Um N
A
∼ Poi
λ
A
zu
zeigen, zerlegen wir A in n Teilmengen A
i
der L¨ange λ
1
(A
i
) =
λ
1
(A)
n
. Mit (ii),(iii) ist
dann P(N
A
i
= 1) =
α·λ
1
(A)
n
+ o(
1
n
) und P(N
A
i
= 0) = 1 −
α·λ
1
(A)
n
+ o(
1
n
), d.h. bis auf
o(
1
n
) bilden die N
A
i
einen Bernoulli-Prozess mit Erfolgswahrscheinlichkeit p
n
:=
α·λ
1
(A)
n
.
Es folgt P(N
A
= k) =
_
n
k
_
p
k
n
(1 − p
n
)
n−k
+ n · o(
1
n
). Der zweite Term geht gegen 0,
und der erste Term gegen e
−λ
A
λ
k
A
k!
, denn wegen np
n
= αλ
1
(A) kann man die Poisson-
Approximation verwenden.
Satz: Wir betrachten einen Poisson-Prozess mit Rate α.
(a) Sind A
i
, i ≥ 1, disjunkt, so sind N
A
i
unabh¨angig und N
A
i
∼ Poi
λ
A
i
.
(b) Die T
n
, n ≥ 1, sind unabh¨angig mit Dichte f(t) = αe
−αt
1
{t>0}
(c) Die S
1
, ..., S
n
haben die gemeinsame Dichte f
S
1
...S
n
(s
1
, ..., s
n
) = α
n
e
−αs
n
1
{0<s
1
<....<s
n
}
.
Beweis: (a) ist gerade die Definition des Poisson-Prozesses. Wir beweisen (c),(b) f¨ ur
n = 2. F¨ ur gr¨oßere n funktioniert es analog.
(c) F¨ ur beliebige s

1
< s
1
< s

2
< s
2
ist
P(s

1
< S
1
≤ s
1
, s

2
< S
2
≤ s
2
) = P(N
[0,s

1
]
= 0, N
(s

1
,s
1
]
= 1, N
(s
1
,s

2
]
= 0, N
(s

2
,s
2
]
≥ 1)
= P(N
[0,s

1
]
= 0)P(N
(s

1
,s
1
]
= 1)P(N
(s
1
,s

2
]
= 0)P(N
(s

2
,s
2
]
≥ 1)
= e
−αs

1
(αs

1
)
0
0!
e
−α(s
1
−s

1
)
(α(s
1
−s

1
))
1
1!
e
−α(s

2
−s
1
)
(α(s

2
−s
1
))
0
0!
_
1 −e
−α(s
2
−s

2
)
(α(s
2
−s

2
))
0
0!
_
= α(s
1
−s

1
)(e
−αs

2
−e
−αs
2
).
Andererseits ist die Wahrscheinlichkeit von der Form
_
s
1
s

1
dt
1
_
s
2
s

2
dt
2
f(t
1
, t
2
), daher er-
halten wir die Dichte durch partielles ableiten:
f
S
1
,S
2
(s
1
, s
2
) = ∂
s
1

s
2
P(.....) = α · αe
−αs
2
= α
2
e
−αs
2
.
(b) S
1
= T
1
, S
2
= T
1
+ T
2
. Die Transformation s
1
= t
1
, s
2
= t
1
+ t
2
ist ein Diffeomor-
phismus mit Jacobi-Determinante J =
_
1 0
1 1
_
, det J = 1. Nach Transformationssatz
und (c) folgt daher f
T
1
,T
2
(t
1
, t
2
) = α
2
e
−α(t
1
+t
2
)
· 1 = αe
−αt
1
αe
−αt
2
. Hieraus folgt die
Behauptung.
5.3 Normalverteilung 39
Definition+Satz: T heißt exponentialverteilt mit Parameter α > 0 (T ∼ Exp
α
),
falls T stetig ist mit Dichte f
T
(t) = αe
−αt
, t > 0. Es gilt E(T) =
1
α
und V(T) =
1
α
2
.
Beweis:
E(T) =
_

0
tf(t)dt =
_

0
αte
−αt
dt = [−t · e
−αt
]

0
+
_

0
e
−αt
dt =
1
α
e
−αt
|

0
=
1
α
,
und analog E(T
2
) =
_

0
t
2
f(t)dt = ... =
2
α
2
, also V(T) = E(T
2
) −E(T)
2
=
1
α
2
.
Eine wichtige Eigenschaft der Exponentialverteilung ist die “Ged¨achtnislosigkeit”:
Satz: (Ged¨achtnislosigkeit.) F¨ ur T ∼ Exp
α
ist
P(T > s + t|T > t) = P(T > s),
d.h. die bisherige Wartezeit hat keinen Einfluss auf die zus¨atzliche Wartezeit.
Beweis: Hausaufgabe.
5.3 Normalverteilung
Die Normalverteilung spielt eine wichtige Rolle in vielen Anwendungen; warum dies so
ist, zeigt sich aber erst im Abschnitt ¨ uber den zentralen Grenzwertsatz.
Definition: X heißt normalverteilt mit Parametern m ∈ R, v > 0 (X ∼ N
m,v
),
falls X stetig ist mit Dichte ϕ
m,v
(x) =
1

2πv
e

(x−m)
2
2v
. N
0,1
nennt man auch Standard-
Normalverteilung und setzt ϕ(x) := ϕ
0,1
(x) =
1


e

x
2
2
und Φ(c) :=
_
c
−∞
ϕ(x)dx.
Es ist nicht so einfach zu sehen, ob ϕ
m,v
¨ uberhaupt eine Dichtefunktion ist:
Lemma: F¨ ur alle m ∈ R, v > 0 ist
_
ϕ
m,v
(x)dx = 1.
Beweis: Mit der Substitution y =
x−m

v
ergibt sich
I :=
_
1

2πv
e

(x−m)
2
2v
dx =
_
1


e

y
2
2
dy, und somit
I
2
=
1

_
dxdye

x
2
2
e

y
2
2
=
1

_

0
dr
_

0
dϕ r · e

r
2
2
=
_

0
dr r · e

r
2
2
= −e

r
2
2
|

0
= 1.
Hier sind wir zu Polarkoordinaten ¨ ubergegangen: x = r cos ϕ, y = r sin ϕ. Man erh¨alt
r
2
= x
2
+ y
2
und f¨ ur die Jacobi-Matrix J =
_
r cos ϕ −r sin ϕ
r sin ϕ r cos ϕ
_
ergibt sich | det J| =
r cos
2
ϕ + r sin
2
ϕ = r und somit dxdy = rdrdϕ.
5.3 Normalverteilung 40
Bemerkung: Φ(c) =
1


_
c
−∞
e

x
2
2
kann nicht analytisch integriert werden. Φ kann
man entweder mittels numerischer Integration berechnen, oder man verwendet ent-
sprechende Tabellen, die die Werte von Φ(c) f¨ ur c > 0 enthalten. F¨ ur die Werte c < 0
verwendet man dann einfach die Relation Φ(−x) + Φ(x) = 1.
Satz: Eigenschaften der Normalverteilung.
(a) F¨ ur X ∼ N
m,v
und Y := aX + b mit a = 0 ist Y ∼ N
am+b,a
2
v
.
(b) F¨ ur X ∼ N
m,v
ist E(X) = m, V(X) = v und M
X
(t) = e
mt+
v
2
t
2
.
(c) Sind X
1
∼ N
m
1
,v
1
und X
2
∼ N
m
2
,v
2
unabh¨angig, so gilt X
1
+X
2
∼ N
m
1
+m
2
,v
1
+v
2
.
L¨osung:
(a) Nach Hausaufgabe ist f
Y
(y) = f
X
(
y−b
a

1
|a|
=
1

2πv
1
|a|
e

(
y−b
a
−m)
2
2v
=
1

2πa
2
v
·e

(y−ma−b)
2
2a
2
v
.
(b) F¨ ur X ∼ N
0,1
ist nach Hausaufgabe M
X
(t) = e
t
2
2
. Aus M

X
(t) = te
t
2
2
, M

X
(t) =
(1+t
2
)e
t
2
2
folgt E(X) = 0, E(X
2
) = 1, also V(X) = 1. Nun betrachten wir Y = aX+b.
F¨ ur a =

v, b = m ist Y ∼ N
m,v
nach (a), und wir erhalten M
Y
(t) = M
X
(at) · e
tb
,
E(Y ) = aE(X) + b = b, V(Y ) = a
2
V(X) = v. Hieraus ergeben sich die Behauptungen.
(c) M
X
1
+X
2
(t) = M
X
1
(t)M
X
2
(t) = e
m
1
t+
v
1
2
t
2
e
m
2
t+
v
2
2
t
2
= e
(m
1
+m
2
)t+
v
1
+v
2
2
t
2
ist die Mo-
mentenerzeugende Funktion von N
m
1
+m
2
,v
1
+v
2
. Nach dem Eindeutigkeitssatz folgt die
Behauptung.
Nun betrachten wir lineare Transformationen unabh¨angiger normalverteilter ZVen:
Definition: Sei X = AZ + b (Matrixmultiplikation und Vektoraddition) mit
b =
_
_
_
b
1
.
.
.
b
m
_
_
_
∈ R
m
, A =
_
_
_
a
11
. . . a
1n
.
.
.
.
.
.
a
m1
. . . a
mn
_
_
_
∈ R
m×n
und Z =
_
_
_
Z
1
.
.
.
Z
n
_
_
_
mit unabh¨angigen
Z
i
∼ N
0,1
, d.h. die X
i
seien Linearkombinationen der Z
i
:
X
1
= a
11
Z
1
+ ... + a
1n
Z
n
+ b
1
, . . . , X
m
= a
m1
Z
1
+ ... + a
mn
Z
n
+ b
m
.
Die X
i
heißen multivariat normalverteilt: X ∼ N
b,C
mit C := AA
T
.
Bemerkung:
• Ist X multivariat normalverteilt, so ist nach dem letzten Satz jedes X
i
normal-
verteilt. Umgekehrt sind normalverteilte Zufallsvariablen nicht unbedingt gemein-
sam multivariat normalverteilt. Die multivariate Normalverteilung ist eine sehr
spezielle gemeinsame Verteilung normalverteilter ZVen.
• C = AA
T
ist automatisch symmetrisch und positiv semidefinit. Wir zeigen um-
gekehrt, dass abgesehen von dieser Einschr¨ankung zu vorgegebenen Parametern
b, C genau eine zugeh¨orige multivariate Normalverteilung N
b,C
existiert.
• Im Gegensatz dazu k¨onnen verschiedene Matrizen A zur gleichen multivariaten
Normalverteilung f¨ uhren, n¨amlich wenn C = AA
T
gleich ist.
5.3 Normalverteilung 41
Beispiel: Ist b =
_
_
_
m
1
.
.
.
m
n
_
_
_
, A =
_
_
_
σ
1
0
.
.
.
0 σ
n
_
_
_
und C = AA
T
=
_
_
_
σ
2
1
0
.
.
.
0 σ
2
n
_
_
_
f¨ ur
gegebene m
i
, σ
i
∈ R und X = AZ + b ∼ N
m,C
, so sind die X
i
= σ
i
Z
i
+ σ
2
i
∼ N
m
i

2
i
unabh¨angig. Unabh¨angige Normalverteilungen entsprechen demnach genau N
b,C
mit
C Diagonalmatrix.
Satz: Ist b ∈ R
n
und C ∈ R
n×n
symmetrisch und positiv semidefinit, so gibt es eine
zugeh¨orige multivariate Normalverteilung (N
b,C
).
Beweis: Es gen¨ ugt ein A ∈ R
n×n
zu finden mit AA
T
= C, denn dann w¨ahlt man
Z
1
, ..., Z
n
unabh¨angig ∼ N
0,1
und setzt X = AZ + b, und erh¨alt so X ∼ N
b,C
. Da C
symmetrisch ist, gibt es eine orthogonale Matrix M (M
−1
= M
T
) und eine Diagonal-
matrix D mit C = MDM
−1
. Seien d
i
die Diagonaleintr¨age von D, d.h. die Eigenwerte
von C. Da C positiv semi-definit ist, gilt d
i
≥ 0, denn f¨ ur jeden Eigenvektor v
i
ist
0 ≤ v
t
i
Cv
i
= v
t
i
d
i
v
i
= d
i
v
i

2
. Sei

D die Diagonalmatrix mit Diagonaleintr¨agen

d
i
.
A := M

DM
−1
hat dann die gew¨ unschte Eigenschaft:
AA
T
= M

DM
−1
(M
−1
)
T

D
T
M
T
= M

D

DM
T
= MDM
T
= C.
denn M
−1
(M
−1
)
T
= M
T
(M
−1
)
T
= (M
−1
M)
T
.
Hieraus folgt die Existenz der multivariaten Normalverteilung zu vorgegebenen Para-
metern. Deren Eindeutigkeit folgt aus dem folgenden Satz ((b) oder (c)), ebenso wie
die Bedeutung der Parameter ((a)):
Satz: Sei X = AZ + b ∼ N
b,C
wie in obiger Definition.
(a) X hat Erwartungsvektor b, Kovarianzmatrix C.
(b) Ist A invertierbar, so gilt f
X
(x
1
, ..., x
m
) =
1
(2π)
m
2
1
| det C|
1
2
e

1
2
(x−b)
T
C
−1
(x−b)
.
(c) M
X
(t
1
, ..., t
m
) = e
1
2
t
T
Ct+t
T
b
(d) Ist Y = BX + c mit B ∈ R
k×m
, c ∈ R
m
, so ist Y ∼ N
Bb+c,BCB
T .
Beweis:
(a) E(X
i
) = E(

j
a
ij
Z
j
+ b
i
) =

j
a
ij
E(Z
j
) + b
i
= b
i
wegen E(Z
j
) = 0 und
Cov(X
i
, X
j
) = Cov
_

k
a
ik
Z
k
+ b
i
,

l
a
jl
Z
l
+ b
j
_
=

k

l
a
ik
a
jl
Cov(Z
k
, Z
l
)
=

k,l:k=l
a
ik
a
jl
· 0 +

k,l:k=l
a
ik
a
jl
V(Z
k
) =

k
a
ik
a
jk
= (AA
T
)
ij
.
(b) Es ist f
Z
(z
1
, ..., z
m
) =

i
f
Z
i
(z
i
) =
1


me

1
2
(z
2
1
+...+z
2
m
)
=
1
(2π)
m/2
e

1
2
z
T
z
. Die Behaup-
tung folgt damit aus dem Transformationssatz: x = Az + b ist ein Diffeomorphismus,
z = A
−1
(x −b),
dx
dz
= A, | det A| = | det C|
1
2
wegen | det A|
2
= | det Adet A
T
| = | det C|
und z
T
z = (x −b)
T
(A
−1
)
T
(A
−1
)(x −b) = (x −b)
T
C
−1
(x −b).
5.3 Normalverteilung 42
(c) Sei
¯
X =

i
t
i
X
i
, so ist
¯
X ∼ N
m,v
mit m = E(

i
t
i
X
i
) =

i
t
i
E(X
i
) =

i
t
i
b
i
und v = V(

i
t
i
X
i
) = Cov(

i
t
i
X
i
,

j
t
j
X
j
) =

i,j
t
i
t
j
Cov(X
i
, X
j
) =

i,j
t
i
t
j
c
ij
.
Hiermit ergibt sich
M
X
(t
1
, ..., t
n
) = E(e

i
t
i
X
i
) = E(e
¯
X
) = M¯
X
(1) = e
m·1+
v
2
·1
2
= e
1
2
t
T
Ct+t
T
b
.
(d) Y = BX + c = B(AZ + b) + c = (BA)Z + (Bb + c) ist multivariat normalverteilt
mit Kovarianzmatrix BA(BA)
T
= BAA
T
B
T
= BCB
T
.
Bemerkung:
• Normalerweise ist Unabh¨angigkeit eine st¨arkere Eigenschaft als Unkorreliertheit.
F¨ ur multivariat normalverteilte ZVen X
i
sind diese Eigenschaften aber identisch:
Die X
i
sind genau dann unkorreliert, wenn C eine Diagonalmatrix ist. Nach
obigem Beispiel bedeutet das aber gerade, dass die X
i
unabh¨angig sind.
• Nach (d) ist jede affine Transformation einer multivariaten Normalverteilung wie-
der multivariat normalverteilt. Ist insbesondere X ∼ N
0,I
und M orthogonal
(M
−1
= M
T
), so ist Y := MX ∼ N
0,I
, denn Y hat Kovarianzmatrix MM
T
= I.
Demnach sind unabh¨angige Standardnormalverteilungen invariant unter beliebi-
gen Drehungen.
• Die Dichte der multivariaten Normalverteilung ist zum Rechnen relativ unhand-
lich. Oft verwendet man besser die Definition der multivariaten Normalverteilung
und obige Unabh¨angigkeitsaussagen.
Beispiel: Seien X
1
, X
2
unabh¨angig und N
0,1
-verteilt. Bestimmen Sie die Verteilung
von Y
1
= 2X
1
−3X
2
, Y
2
= 3X
1
+ 2X
2
.
Beweis: (Y
1
, Y
2
) ist nach Definition multivariat normalverteilt mit E(Y
1
) = 0 +0 = 0,
V(Y
1
) = 4 + 9 = 13, E(Y
2
) = 0, V(Y
2
) = 13 und Cov(Y
1
, Y
2
) = Cov(2X
1
−3X
2
, 3X
1
+
2X
2
) = 6 −6 = 0, d.h. Y
1
, Y
2
sind unabh¨angig und N
0,13
-verteilt.
6 Grenzwerts¨atze 43
6 Grenzwerts¨atze
6.1 Gesetz der großen Zahl
Eine empirische Beobachtung bei h¨aufigem W¨ urfeln mit einem fairen W¨ urfel ist, dass
der Mittelwert von n W¨ urfen
X
1
+...+X
n
n
ungef¨ahr 3, 5 = E(X
i
) ist. Anders ausgedr¨ uckt:
Der Stichprobenmittelwert (zeitliches Mittel) ist ungef¨ahr gleich dem Erwartungswert
(Mittelwert bei einem Experiment). Bevor wir diesen Sachverhalt erkl¨aren k¨onnen,
m¨ ussen wir ihn pr¨azise beschreiben, z.B. als
X
1
+ ... + X
n
n
→E(X
i
) f¨ ur n → ∞,
wobei aber nicht klar ist, was mit der Konvergenz von Zufallsvariablen gemeint ist. Es
kann ja durchaus vorkommen, dass X
i
= 1 f¨ ur alle i. In diesem Fall konvergiert der
Mittelwert gegen 1 = E(X
i
), andererseits ist dies aber auch extrem unwahrscheinlich.
Gemeint ist hier also so etwas wie: der Mittelwert ist f¨ ur große n mit hoher Wahrschein-
lichkeit nahe bei E(X
i
). Hierf¨ ur sind unterschiedliche mathematische Pr¨azisierungen
m¨oglich, die jeweils zu unterschiedlichen Gesetzen der großen Zahl f¨ uhren.
6.1.1 Schwaches Gesetz der großen Zahl
Definition: (Stochastische Konvergenz.) Seien Y
n
, Y : Ω → R Zufallsvariablen.
Wir schreiben Y
n
→ Y stochastisch (oder Y
n
p

Y ), wenn
∀ > 0 : P(|Y
n
−Y | > ) → 0.
Bemerkung: Dies kann man folgendermaßen interpretieren: Der Wert von Y
n
liegt
f¨ ur großes n nahe bei Y . Bei fester Schranke > 0 gibt es f¨ ur jedes n Ausnahmebe-
obachtungen ω ∈ {|Y
n
− Y | > }, aber diese werden bei wachsendem n zunehmend
unwahrscheinlich.
Um Wahrscheinlichkeiten wie in obiger Definition absch¨atzen zu k¨onnen ben¨otigen wir
geeignete Werkzeuge:
Satz: Sei X eine reelle Zufallsvariable und a > 0.
(a) Ist X ≥ 0 und X ∈ L
1
, so gilt P(X ≥ a) ≤
E(X)
a
(Markov-Ungleichung).
(b) Ist X ∈ L
2
, so gilt P(|X −E(X)| ≥ a) ≤
V(X)
a
2
(Chebyshev-Ungleichung).
Beweis:
(a) Um eine Wahrscheinlichkeit gegen einen Erwartungswert absch¨atzen zu k¨onnen,
m¨ ussen wir zun¨achst eine Zufallsvariable gegen eine Indikatorfunktion absch¨atzen. Hier
ist X ≥ a1
{X≥a}
, denn ist X < a, so ist die rechte Seite 0 und die linke ≥ 0. Ist X ≥ a,
so ist die rechte Seite a und die linke ≥ a. Wegen der Monotonie der Erwartung folgt
E(X) ≥ E(a1
{X≥a}
) = aE(1
{X≥a}
) = aP(X ≥ a).
6.1 Gesetz der großen Zahl 44
(b) Durch Anwendung von (a) auf Y := (X −E(X))
2
≥ 0 (Y ∈ L
1
) erh¨alt man
P(|X −E(X)| ≥ a) = P(Y ≥ a
2
) ≤
E(Y )
a
2
=
V(X)
a
2
.
Satz: (Schwaches Gesetz der großen Zahl.) Sind X
1
, X
2
... unabh¨angig, mit glei-
cher Verteilung und mit X
i
∈ L
2
, so gilt
X
1
+ ... + X
n
n
→E(X
i
) stochastisch f¨ ur n → ∞.
Beweis: Sei m = E(X
i
), v = V(X
i
). (Wegen der gleichen Verteilung ergeben sich
gleiche Erwartungswerte und gleiche Varianzen.) Es gilt
E
_
X
1
+ ... + X
n
n
_
=
1
n
E(

i
X
i
) =
1
n

i
E(X
i
) =
1
n
nm = m
und
V
_
X
1
+ ... + X
n
n
_
=
1
n
2
V(

i
X
i
) =
1
n
2

i
V(X
i
) =
1
n
2
nv =
v
n
.
Sei > 0, so folgt aus der Ungleichung von Chebyshev:
P

¸
¸
X
1
+ ... + X
n
n
−m
¸
¸
¸ >
_

v/n

2
→ 0.

6.1.2 Starkes Gesetz der großen Zahl
Definition: (Fast sichere Konvergenz.) Seien Y
n
, Y : Ω →R reelle Zufallsvariablen.
Wir schreiben Y
n
→ Y fast sicher (oder f.s.), falls P(Y
n
→ Y ) = 1.
Bemerkung: Dies kann man folgendermaßen Interpretieren: F¨ ur praktisch jede Be-
obachtung ω gilt: Y
n
(ω) → Y (ω). Es gibt zwar Ausnahmen, aber diese haben Wahr-
scheinlichkeit 0.
Satz: (Starkes Gesetz der großen Zahl.) Sind X
1
, X
2
... unabh¨angig, mit gleicher
Verteilung und mit X
i
∈ L
1
, so gilt
X
1
+ ... + X
n
n
→E(X
i
) fast sicher f¨ ur n → ∞.
Beweis: probability theory
Das starke Gesetz der großen Zahl ist tats¨achlich “st¨arker” als das schwache, da es
dieses impliziert. Um sich davon zu ¨ uberzeugen, gen¨ ugt es nachzupr¨ ufen, dass fast
sichere Konvergenz stochastische Konvergenz impliziert:
6.1 Gesetz der großen Zahl 45
Lemma: Seien Y
n
, Y : Ω →R reelle Zufallsvariablen.
Y
n
→ Y fast sicher ⇒ Y
n
→ Y stochastisch.
Beweis: Sei > 0. Es gilt
{|Y
n
−Y | > } ⊂ {∃n

≥ n : |Y
n
−Y | > } =: A
n
↓ A :=

n
A
n
mit
A = {∀n∃n

≥ n : |Y
n
−Y | > } ⊂ {Y
n
→ Y }.
Gilt nun Y
n
→ Y fast sicher, so folgt P(A) = 0, und mit der σ-Stetigkeit von P folgt
P(A
n
) → 0. Es folgt Y
n
→ Y stochastisch.
Bemerkung:
• Zu beiden Gesetzen gibt es Verallgemeinerungen, z.B. auf den Fall, dass die X
n
nicht mehr unabh¨angig sind oder nicht mehr die gleiche Verteilung haben.
• Das schwache GgZ trifft eine Aussage f¨ ur das Verhalten nach endlicher Zeit n,
daf¨ ur hat die Ausnahmemenge (zwar kleine) aber doch positive Wahrscheinlich-
keit, genauer gilt:
P

¸
¸
X
1
+ ... + X
n
n
−E(X
i
)
¸
¸
¸ >
_

V(X
i
)
n
2
.
Man kann also absch¨atzen, wie nahe man beim Erwartungswert nach n Experi-
menten liegt. Das schwache Gesetz ist daher vor allem f¨ ur die Praxis interessant.
• Das starke GgZ trifft eine Aussage f¨ ur das Verhalten nach “unendlicher”, d.h.
beliebig langer Zeit, daf¨ ur hat die Ausnahmemenge Wahrscheinlichkeit 0. Das
starke Gesetz ist daher eher theoretisch interessant.
• Beide Konvergenztypen von Zufallsvariablen haben viele der Eigenschaften der
normalen Konvergenz von reellen Zahlen, z.B. gilt f¨ ur reelle Zufallsvariablen
X
n
, Y
n
, X, Y mit X
n
→ X, Y
n
→ Y , reelle Zahlen c
n
, c mit c
n
→ c und eine
stetige Funktion h : R →R auch
X
n
+ Y
n
→ X + Y, c
n
X
n
→ cX und h(X
n
) → h(X).
6.2 Zentraler Grenzwertsatz 46
6.2 Zentraler Grenzwertsatz
Die Normalverteilung taucht in der Praxis in vielen verschiedenen Zusammenh¨angen
auf. Immer dann wenn ein zuf¨alliger Wert S das Resultat vieler kleiner zuf¨alliger Be-
standteile ist, ist S ungef¨ahr normalverteilt.
Zur Motivation des folgenden Satzes betrachten wir S
n
∼ Bin
n,p
. S
n
kann interpretiert
werden als die Anzahl der Erfolge bis zum Zeitpunkt n in einem Bernoulliprozess X
i
,
i ≥ 1, mit Erfolgswahrscheinlichkeit p. S
n
= X
1
+... +X
n
ist das Resultat vieler kleiner
Bestandteile, daher sollte S

n
=
S
n
−E(S
n
)

V(S
n
)
=
S
n
−np

np(1−p)
ungef¨ahr N
0,1
-verteilt sein. Was
bedeutet das f¨ ur die Z¨ahldichte?
Ein m¨oglicher Wert von S

n
ist von der Form k

n
=
k
n
−np

np(1−p)
mit k
n
∈ {0, 1, ...n}. Zwei
m¨ogliche Werte haben den Abstand
1

np(1−p)
. Um die diskrete Verteilung von S

n
und
die stetige Standard-Normalverteilung ¨ uberhaupt vergleichen zu k¨onnen muss man die
Punktmasse von S

n
also mit der Masse der Normalverteilung auf einem Intervall der
L¨ange
1

np(1−p)
vergleichen. Wir erwarten demnach, dass f¨ ur große n
P(S
n
= k
n
) = P(S

n
= k

n
) ≈
_
k

n
+
1
2

np(1−p)
k

n

1
2

np(1−p)
ϕ(x)dx ≈
1
_
np(1 −p)
ϕ(k

n
).
Satz: (Grenzwertsatz von deMoivre-Laplace.) Seien S
n
∼ Bin
n,p
und a, b ∈ R.
(a) F¨ ur beliebige Folgen k
n
∈ {0, ..., n} mit k

n
∈ [a, b] gilt
ϕ(k

n
)
_
np(1 −p)P(S
n
= k
n
)
→ 1 f¨ ur n → ∞,
und zwar sogar gleichm¨aßig f¨ ur alle solchen Folgen.
(b) Es gilt
P(a ≤ S

n
≤ b) →
_
b
a
ϕ(x)dx = Φ(b) −Φ(a).
Beweis: −. Den Grenzwert in (a) erh¨alt man durch Anwenden der Stirling-Formel f¨ ur
n! und anschließende geeignete Taylor-Approximation. (b) folgt aus (a) durch aufsum-
mieren der Wahrscheinlichkeiten.
Bemerkung:
• (a) heißt “lokale Normalapproximation” und kann verwendet werden zur Ann¨ahe-
rung von Wahrscheinlichkeiten der Form P(S
n
= k).
• (b) heißt “Normalapproximation” und kann verwendet werden zur Ann¨aherung
von Wahrscheinlichkeiten der Form P(a

≤ S
n
≤ b

).
6.2 Zentraler Grenzwertsatz 47
F¨ ur die Konvergenz in (b) gen¨ ugt F
S

n
(c) → Φ(c) f¨ ur alle c ∈ R, denn dann folgt
P(a < S

n
≤ b) = F
S

n
(b) − F
S

n
(a) → Φ(b) − Φ(a). Dies motiviert den folgenden
Konvergenzbegriff:
Definition: (Verteilungskonvergenz.) Seien Y
n
, Y reelle Zufallsvariablen. Man schreibt
Y
n
→ Y in Verteilung (oder Y
n
d
→Y ), wenn
F
Y
n
(c) → F
Y
(c) f¨ ur alle Stetigkeitsstellen c von F
Y
.
Bemerkung: Die Verteilungsfunktion Φ der Standard-Normalverteilung ist ¨ uberall
stetig, daher muss dann obige Konvergenz f¨ ur alle c ∈ R gelten.
Obige Definition ¨ uber die Verteilungsfunktion ist f¨ ur viele Zwecke praktisch. F¨ ur unsere
Zwecke ist es aber einfacher, mit momentenerzeugenden Funktionen zu argumentieren:
Lemma: Seien Y
n
, Y reelle Zufallsvariablen, deren momentenerzeugende Funktionen
existieren. Falls M
Y
n
(t) → M
Y
(t) f¨ ur alle t ∈ R, so gilt Y
n
→ Y in Verteilung.
Beweis: −.
Satz: (Zentraler Grenzwertsatz.) Sind X
1
, X
2
, ... ∈ L
2
unabh¨angig, mit gleicher
Verteilung und m := E(X
i
), v := V(X
i
) > 0, so gilt f¨ ur S
n
:= X
1
+ ... + X
n
:
S

n
=
S
n
−E(S
n
)
_
V(S
n
)
=
X
1
+ ... + X
n
−nm

nv
→ N
0,1
in Verteilung.
Beweis: (F¨ ur den Fall, dass X
i
eine Momentenerzeugende Funktion besitzt.) Wir
betrachten die Standardisierungen X

i
=
X
i
−m

v
. Es ist dann
S

n
=
X
1
+ ... + X
n
−nm

nv
=
X

1
+ ... + X

n

n
und E(X

i
) = 0 und V(X

i
) = 1. Die momentenerzeugende Funktion von S

n
ist daher
M
S

n
(t) = E
_
e
X

1
+...+X

n

n
t
_
= E
_
e
X

1
t

n
· ... · e
X

n
t

n
_
= E
_
e
X

1
t

n
_
...E
_
e
X

n
t

n
_
,
wegen der Unabh¨angigkeit der Zufallsvariablen. Die Erwartungen im letzten Term sind
gerade M
X

i
(
t

n
), und da die X
i
die gleiche Verteilung haben, sind diese momentener-
zeugenden Funktionen alle gleich. Nach Taylorentwicklung ist f¨ ur festes t
M
X

i
(
t

n
) = M
X

i
(0) + M

X

i
(0)
t

n
+
1
2
M

X

i
(0)(
t

n
)
2
+ o((
t

n
)
2
)
= 1 +E(X

i
)
t

n
+
1
2
E((X

i
)
2
)(
t

n
)
2
+ o(
1
n
) = 1 +
t
2
2n
+ o(
1
n
).
Es folgt
M
S

n
(t) =
_
1 +
t
2
2n
+ o(
1
n
)
_
n
→ e
t
2
/2
.
Dies ist aber gerade die momentenerzeugende Funktion der Standard-Normalverteilung.
Mit dem Lemma folgt daher die Behauptung.

Inhaltsverzeichnis
1 Wahrscheinlichkeitsr¨ume a 1.1 Einf¨hrende Beispiele . . . . . . . . u 1.2 Axiomatische Beschreibung . . . . 1.3 Wahl des Wahrscheinlichkeitsraums 1.4 Diskrete Wahrscheinlichkeitsmaße . 1.5 Stetige Wahrscheinlichkeitsmaße . . 1.6 Verteilungsfunktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 3 4 6 7 10 12 14 14 17 18 21 21 23 24 27 27 29 32 34 35 35 37 39 43 43 43 44 46

2 Zufallsvariablen 2.1 Verteilung einer Zufallsvariable . . . . . . . . . . . . . . . . . . . . . . 2.2 Simulation von Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . 2.3 Transformation von Zufallsvariablen: . . . . . . . . . . . . . . . . . . . 3 Bedingte Wahrscheinlichkeiten und Verteilungen 3.1 Bedingte Wahrscheinlichkeiten . . . . . . . . . . . . . . . . . . . . . . . 3.2 Bedingte Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3 Unabh¨ngigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . a 4 Erwartungswert 4.1 Erwartungswert . . . . . . . . . . . . . 4.2 Kovarianz und Varianz . . . . . . . . . 4.3 Verwendung von Indikatorfunktion und 4.4 Momentenerzeugende Funktionen . . .

. . . . . . . . . . . . . . . . Bedingungen . . . . . . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

5 Beispiele fur Zufallsvariablen ¨ 5.1 Zuf¨llige Ereignisse in diskreter Zeit . . . . . . . . . . . . . . . . . . . . a 5.2 Zuf¨llige Ereignisse in stetiger Zeit . . . . . . . . . . . . . . . . . . . . a 5.3 Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 Grenzwerts¨tze a 6.1 Gesetz der großen Zahl . . . . . . . . . . 6.1.1 Schwaches Gesetz der großen Zahl 6.1.2 Starkes Gesetz der großen Zahl . 6.2 Zentraler Grenzwertsatz . . . . . . . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

1 Wahrscheinlichkeitsr¨ume a

3

Vorwort
Dieses Skript ist eine Weiterentwicklung des Skriptes zur Vorlesung “Einf¨hrung in u die Wahrscheinlichkeitstheorie” vom Wintersemester 2010/11. Besonderer Dank geht an die Studenten R. Hager, P. Hoffmann und A. Leitner, die eine erste Version dieses Skripts geTEXt haben, und an alle Studenten der Vorlesung, die mich auf Fehler im Skript hingewiesen haben. Zur Verwendung des Skripts im Wintersemester 2011/12: Das Skript enth¨lt im Wea sentlichen alles, was in der Vorlesung besprochen wurde, abgesehen von Bildern und Skizzen.

1
1.1

Wahrscheinlichkeitsr¨ume a
Einfuhrende Beispiele ¨

Viele Vorg¨nge des t¨glichen Lebens sind mit einer gewissen Unsicherheit behaftet. Beia a spiele hierf¨r sind Wettervorhersage, Lotto, Aktienkurse, die Ausbreitung von Kranku heiten, das Verhalten großer Teilchenmengen (Physik), das Verhalten großer Menschenmassen z.B. bei Panik, die Wartezeit in Warteschlangen, u.s.w. Die Wahrscheinlichkeitstheorie, ein Teilgebiet der Stochastik, dient zur mathematischen Beschreibung solcher Ph¨nomene. Diese Vorlesung soll eine erste Einf¨hrung in dieses a u Gebiet vermitteln. Ziel der Vorlesung ist: • die pr¨zise Beschreibung unsicherer Situationen, a • die Quantifizierung des Zufalls, • Gesetzm¨ßigkeiten zu erkennen und zu erkl¨ren. a a Betrachten wir zun¨chst ein paar einfache konkrete Situationen: a (a) Einmaliges Werfen eines W¨rfels. Diese Situation wird komplett beschrieben u durch die Menge der m¨glichen Ergebnisse {1, 2, 3, 4, 5, 6}, sowie deren Wahro scheinlichkeiten: Ergebnis 1 2 3 4 5 6 Wahrscheinlichkeit 1 1 1 1 1 1 6 6 6 6 6 6 (b) Zuf¨llige Bruchstelle einer Fahrzeugachse (der L¨nge 1). Die Menge der m¨glichen a a o Bruchstellen kann beschrieben werden durch [0, 1]. Dass die Achse exakt an einer festen Stelle x ∈ [0, 1] bricht, z.B. x = 0.233517..., ist extrem unwahrscheinlich (d.h. dies hat Wahrscheinlichkeit 0). Die Angabe der Einzelwahrscheinlichkeiten ist daher zur Beschreibung der Bruchstelle ungeeignet. Sinnvoll dagegen ist z.B. die Betrachtung der Wahrscheinlichkeit f¨r einen Bruch in [0, 1 ]. Aus Symmetrieu 2 gr¨nden w¨rde man hierf¨r annehmen, dass diese Wahrscheinlichkeit 1 ist. u u u 2

1.2

Axiomatische Beschreibung

4

(c) Schadensf¨lle einer Versicherung. Ein m¨gliches Ergebnis w¨re hier z.B. durch a o a die Angabe der Zeitpunkte aller Schadensf¨lle bestimmt. Sinnvoll w¨re hier z.B. a a die Betrachtung der Wahrscheinlichkeit daf¨r dass in einem gewissen Zeitraum 3 u Schadensf¨lle stattfinden, oder daf¨r dass zwischen 2. und 3. Schadensfall h¨chsa u o tens 2 Tage liegen. Diese Beispiele sollen zeigen, dass es zur Beschreibung eines probabilistischen Sachverhalts oft nicht ausreicht, die Wahrscheinlichkeiten aller m¨glicher Einzelergebnisse zu o betrachten. Stattdessen sollten besser Mengen von Ergebnissen (sogenannte Ereignisse) betrachtet werden. Im n¨chsten Abschnitt beschreiben wir zuf¨lliges Verhalten durch a a eine Funktion, die jedem Ereignis (das f¨r uns interessant ist) seine entsprechende u Wahrscheinlichkeit zuordnet. Bemerkung: Die Wahrscheinlichkeitstheorie gibt keine Antwort auf die Frage: Was ist Zufall? Diese Frage ist Gegenstand der Philosophie (vgl. naive, frequentistische, subjektive Interpretation). Die Mathematik soll unabh¨ngig von der Interpretation a von Wahrscheinlichkeit funktionieren.

1.2

Axiomatische Beschreibung

F¨r die Beschreibung einer Situation mit Unsicherheit (=Zufallsexperiment) soll ein u mathematisches Modell verwendet werden, bestehend aus: • Ω = Menge aller Ergebnisse (d.h. aller m¨glichen Ausg¨nge des Experiments). o a • F = Menge aller Ereignisse, die wir zur Beschreibung des Experiments verwenden wollen. Ein Ereignis ist hierbei eine gewisse Menge von Ergebnissen, d.h. eine Teilmenge von Ω. • P = Abbildung, die jedem Ereignis eine Wahrscheinlichkeit zuordnet. Einige Eigenschaften sollten Ω, F, P sinnvollerweise grunds¨tzlich haben, unabh¨ngig a a von der Art des betrachteten Zufallsexperiments. Diese werden in einer axiomatischen Definition zusammengefasst: Definition: • Ein Mengensystem F ⊂ P(Ω) heißt σ-Algebra auf Ω = ∅, falls (S1) Ω ∈ F (S2) F¨r jedes A ∈ F ist auch Ac (= Ω − A) ∈ F. u (S3) F¨r beliebige Ai ∈ F, i ∈ I (mit I abz¨hlbar), ist auch i∈I Ai ∈ F. u a • Eine Abbildung P : F → [0, 1] heißt Wahrscheinlichkeitsmaß auf (Ω, F) falls: (P1) P (Ω) = 1 (P2) F¨r disjunkte Ai ∈ F, i ∈ I (mit I abz¨hlbar), ist P ( i∈I Ai ) = i∈I P (Ai ). u a • Die Menge Ω = ∅ heißt Ergebnisraum. Ist F eine σ-Algebra auf Ω, so heißt (Ω, F) Ereignisraum. Ist P ein Wahrscheinlichkeitsmaß auf (Ω, F ), so heißt (Ω, F, P ) Wahrscheinlichkeitsraum.

bei “zuf¨lliger Bruchstelle”: a a P ([0. mit B := Ac folgt der Rest.. Ai ∈ F. (a) Additivit¨t: A ∩ B = ∅ ⇒ P (A ∪ B) = P (A) + P (B) a insbesondere: P (Ac ) = 1 − P (A) (b) Monotonie: A ⊂ B ⇒ P (B) = P (A) + P (B − A) insbesondere: A ⊂ B ⇒ P (A) ≤ P (B) (c) σ-Stetigkeit: An ↑ A (d. ∪ An ) = i=1 P (Ai ) − 1≤i1 <i2 ≤n P (Ai ∩ A2 ) + . mit An ↓ A (d.B. Satz: Sei P ein Wahrscheinlichkeitsmaß auf (Ω... (c): Hausaufgabe. A1 ⊂ A2 ⊂ A3 ..h..h.B..1.. i∈I Ai = ( i∈I Ac )c . (d) beweisen wir sp¨ter. mit n An = A) n An = A) n n ⇒ ⇒ P (An ) ↑ P (A) P (An ) ↓ P (A) P( Aj ). 1]) = P ( x {x}) = x P ({x}) = 0 • Warum nicht einfach nur f¨r endliche I? u Unendliche I n¨tig f¨r Betrachtung von Grenzprozessen o u • (S1) n¨tig f¨r (P1). also insbesondere P (A ∪ B) = P (A) + P (B) − P (A ∩ B) Beweis: (a) Additivit¨t folgt aus (P2)..h. A1 ⊃ A2 ⊃ A3 .. u u i daher gilt f¨r eine σ-Algebra: u • ∅ = Ωc = Ω − Ω ∈ F • F¨r A. z. a .2 Axiomatische Beschreibung 5 Bemerkung: • (P1) = Normiertheit (Ω enth¨lt mit Sicherheit alle m¨glichen Ergebnisse) a o (P2) = σ-Additivit¨t (vgl. A ∩ B = (Ac ∪ B c )c . B ∈ F ist auch A − B ∈ F u • F¨r Ai ∈ F. P (A1 ∪ A2 ∪ . B.. (d) Ein-/Ausschluß-Formel: P ( i=1 Ai ) = n (−1)k+1 J⊂{1. Massenfunktion) a • Warum statt F nicht einfach ganz P(Ω)? Dann ist Forderung (P2) zu stark (→ Banach-Tarski-Paradox) • Warum Abz¨hlbarkeit? Sonst Probleme z.n}:|J|=k k=1 j∈J d.. F).(S3): Abgeschlossenheitsaxiome: Bestimmte Mengenoperationen auf Ereignissen ergeben wieder Ereignisse Bemerkung: Alle Mengenoperationen lassen sich auf Komplementbildung und Vereinigung zur¨ckf¨hren. i ∈ I (mit I abz¨hlbar) ist auch u a i∈I Ai ∈ F Aus (P1) und (P2) folgen viele weitere Eigenschaften von Wahrscheinlichkeitsmaßen.. a (b). (S3) n¨tig f¨r (P2) o u o u (S2). und seien A.. A − B = A ∩ B c .

3 Wahl des Wahrscheinlichkeitsraums 6 1.. Ist σ(S) = F. . ... 0} wobei 0 = unklarer Ausgang. d. 6. 1} mit 0 = “gerade Augenzahl”.3 Wahl des Wahrscheinlichkeitsraums Bemerkung: • Vor der Bearbeitung eines Problems sollte immer zuerst das verwendete Modell angegeben werden. W¨rfel bleibt auf Kante u stehen. .. Normalerweise wird 0 einfach ignoriert. 2. xN ) ∈ Ω: xi := Position des i-ten Atoms nach dem Wurf in R3 Problem: Wahl von P ist kompliziert. Der Grad der Vereino fachung h¨ngt davon ab. M¨gliche Ergebnismengen sind: u o (a) Ω = (R3 )N mit N := Anzahl der Atome des W¨rfels u (x1 .. welche Art von a elementaren Ereignissen auf jeden Fall betrachtet werden sollen. F.B. an was genau man interessiert ist. und f¨r jede weitere σ-Algebra F .. a u a Beispiel: • Falls Ω abz¨hlbar ist (z. die S enth¨lt. endlich). w¨hlt man in der Regel S = {{ω} : ω ∈ Ω}. Dies f¨hrt zu: u (c) Ω = {1. a a Man erh¨lt dann σ(S) = P(Ω) (denn jede Teilmenge ist abz¨hlbare Vereinigung a a von 1-elementigen Mengen). Dann ist F tats¨chlich eine a σ-Algebra. so heißt F die von S erzeugte σ-Algebra. und a S heißt Erzeuger von F. • Die Wahl des Modells kann nicht mathematisch begr¨ndet werden (aber manche u Modelle sind plausibler als andere). die S enth¨lt. . • Verschiedene Modelle k¨nnen zum gleichen Ziel f¨hren. a Beispiel: Einmaliges W¨rfeln. Definition: F¨r ein gegebenes Mengensystem S ⊂ P(Ω) bezeichne σ(S) die kleinste u σ-Algebra. gilt F ⊃ F. die S enthalten.1. P ).h. 1 = “ungerade Augenzahl” Problem: Ereignis “Augenzahl ist 4” kann nicht beschrieben werden! Bei der Wahl des Ereignisraumes legt man in der Regel zun¨chst fest. 6}. o u Der Ergebnisraum Ω sollte alle m¨glichen Ergebnisse enthalten. Hier beschreibt x ∈ Ω die Augenzahl.B. Bemerkung: Die kleinste σ-Algebra. sowie die Interpretation eines Ereignisses x ∈ Ω. z.. die Lage jedes einzelnen Atoms interessiert normalerweise gar nicht! (b) Ω = {1. die S enth¨lt.. kann man explizit konstruieren: a Sei F der Durchschnitt aller σ-Algebren. die S enth¨lt. der zugrundeliegende Wahrscheinlichkeitsraum (Ω. (d) Ω = {0..

aber B enth¨lt alle Mengen. (P2) aus dem verallgemeinertem Kommutativit¨tsgesetz a Das wichtigste Beispiel ist die diskrete Gleichverteilung.h. a • P (A) := x∈A ρ(x) heißt diskretes Wahrscheinlichkeitsmaß mit Z¨hldichte ρ. denn (P1) ergibt sich aus Normiertheit. In der Vorlesung betrachten wir meist diskrete oder stetige Wahrscheinlichkeitsmaße. u S := {(−∞. S = {∅.h. {2}.4 Diskrete Wahrscheinlichkeitsmaße 7 • Falls Ω ein topologischer Raum ist (z. dann gilt bereits P1 (A) = P2 (A) ∀A ∈ F. Beweis: Maßtheorie. a Bemerkung: P ist ein Wahrscheinlichkeitsmaß auf (Ω. A. {1}. F = BR =: B. Die Betrachtung von Erzeugern hat einen weiteren Vorteil: Satz: (Eindeutigkeitssatz. . Ist P1 (A) = P2 (A) ∀A ∈ S. Wie man diese konstruiert.4 Diskrete Wahrscheinlichkeitsmaße Ist Ω abz¨hlbar. die a man in gewisser Weise “sinnvoll definieren” kann. wird in den n¨chsten beiden Aba schnitten besprochen.1. c] : c ∈ R} oder S := {[a. • B hat neben der Menge der offenen Mengen noch weitere n¨tzliche Erzeuger. kann man ein geeignetes P definieren. die sogenannte Borel-σ-Algebra. B ∈ S ⇒ A ∩ B ∈ S) mit σ(S) = F. ein Wahrscheinlichkeitsmaß ist durch seine Werte auf S bereits eindeutig festgelegt. 1] mit x∈Ω ρ(x) = 1 heißt Z¨hldichte. a • Eine Funktion ρ : Ω → [0. 1. F). und sei S ⊂ P(Ω) ∩-stabil (d. P(Ω)). Die Wahl eines geeigneten Wahrscheinlichkeitsmaßes ist in der Regel der schwierigste Teil der Modellbildung. b] : a ≤ b ∈ R}.} ist ein ∩-stabiler Erzeuger von F. Bemerkung: • Oft ist Ω = R.B.. sieht man hier auch direkt: P (A) = P ( x∈A {x}) = x∈A P ({x}).) Seien P1 . . d. Beispiel: Sei Ω = N. Es gilt B = P(R). P2 Wahrscheinlichkeitsmaße auf (Ω. Dass P durch seine Werte auf S eindeutig festgelegt ist.B. w¨hlt a man in der Regel S als das System aller offenen Mengen. indem man die Wahrscheinlicha keit aller Ergebnisse angibt: Definition: Sei Ω abz¨hlbar. Rn oder eine Teilmenge davon). z. Man erh¨lt dann σ(S) =: a BΩ .. F = P(N) und P ein Wahrscheinlichkeitsmaß.

x3 ) : xi ∈ {1.. . (1. (b) B = B1 ∪ B2 ∪ B3 wobei Bi = {(x1 . 1. 3). dass es keine Gleichverteilung auf N gibt! (b) Wir w¨hlen ein großes N und P = U{1. d. 2). P(Ω)) mit Z¨hldichte a 1 ρ(x) := |Ω| . = 2n−1 ρ(1)∀n ∈ N. L¨sung: Wahrscheinlichkeitsraum: Ω = {1. Wir sehen also.. (2. (a) A = {(1. so folgt n∈N ρ(n) = 0 = 1.4 Diskrete Wahrscheinlichkeitsmaße 8 Definition: Sei Ω endlich. w¨rden wir gerne eine Z¨hldichte ρ a a u a w¨hlen mit ρ(n) = c ≥ 0 konstant. 4. 1. F = P(N). Falls c = 0. .. 1). 2). |Ω| |Ω| # m¨gliche Ergebnisse o x∈A Beispiel: Man w¨hle rein zuf¨llig eine Zahl aus N = {1.. In beiden F¨llen ergibt sich ein Widerspruch zur Normiertheitsbedingung. B = “6 dabei”.}. Bemerkung: Ist P = UΩ die Gleichverteilung auf (Ω. denn die Bi sind nicht disjunkt! . Falls c > 0. (Diese Wahl ist a a 2 1 1 nat¨rlich etwas beliebig..}. und u 1 1 aus der Normiertheit folgt 1 = n∈N ρ(n) = n∈N 2n−1 ρ(1) = 1− 1 ρ(1) = 2ρ(1).) a 2 N 2N = (c) Wir w¨hlen P mit Z¨hldichte ρ so dass ρ(n + 1) = 1 ρ(n) ∀n ∈ N. 1)}. ρ(1) = 1 2 und somit ρ(n) = P (A) = n∈A 1 . F = P(Ω). (2. A = {2..2... . Mit welcher Wahra a scheinlichkeit ist die Zahl gerade? (Vermutete Antwort: 1 . 3. 3 Wir stellen fest: Die Aufgabe ist schlecht gestellt. so ist P (A) = x∈A ρ(x) = 1 |A| # betrachtete Ergebnisse = = . 2. 1). P(Ω)). x ∈ Ω heißt (diskrete) Gleichverteilung auf Ω : UΩ . . Dies ist aber falsch.. . 6}3 = {(x1 . 6.) Es gilt dann ρ(n) = 2 ρ(n − 1) = . Hier gilt wie vermutet P (A) = a 1 .. .. x2 .. x3 ) ∈ Ω : xi = 6}. Wir versuchen zun¨chst a |B| = |B1 | + |B2 | + |B3 | = 3 · 36. Bemerkung: Die Formel P (A) = |A| sieht leicht aus.2N } . 3. Es ist nicht klar. 2n 2 Hieraus ergibt sich 1 m∈N ρ(n) = 22m = 1 1 = m 4 1− m∈N 1 4 1 −1= . die Anzahl der Elemente einer Menge richtig zu z¨hlen! a Beispiel: Es wird drei mal gew¨rfelt. Das Wahrscheinlichkeitsmaß auf (Ω. 6}} o (mit xi = Ergebnis im i-ten Wurf).. 2. P = UΩ . Bestimmen Sie die Wahrscheinlichkeiten der u Ereignisse A = “Summe = 5”.) 2 L¨sung: Wahrscheinlichkeitsraum: Ω = N. x2 . 1. (Aber die zuf¨llige Zahl ist hier immer ≤ 2N .. Wir erhalten |A| = 6 und 6 1 somit P (A) = 216 = 36 . aber es kann ziemlich schwierig |Ω| sein. Es gilt |Ω| = 216. a a so folgt n∈N ρ(n) = ∞ · c = ∞ = 1. (1. was “rein zuf¨llig a in N” bedeutet.h. (3.1. 2. Was ist P ? o Wir verfolgen drei Ans¨tze: a (a) Da die Zahl rein zuf¨llig gew¨hlt werden soll. C = “jeder Wert mehr als vorher”.

.. Es ist dann a |Ω| = n+N −1 .1.. x3 ) ∈ Ω : x1 < x2 < x3 }.. k2 = 2.. 6) wurde z.4 Diskrete Wahrscheinlichkeitsmaße 9 Das Ergebnis (6. 6 (c) C = {(x1 . und 2 entsprechende Kara u 2 3 ten.B.3%. k3 = 0.. Das Ereignis ist dann A = {(x1 . dass keine Zelle doppelt besetzt ist? L¨sung: Wir verfolgen zwei verschiedene L¨sungsans¨tze: o o a (1) Wir setzen Ω = {1.. und in (b) haben wir die Gleichverteilung auf Konfigurationen von nicht unterscheidbarer Teilchen.) . · (N + n − 1) Die Ergebnisse sind je nach Wahl des Modells verschieden. |Ω| (N − n)! N · (N + 1) · . 6 6 6 Einfacher ist: P (B) = 1 − P (B c ) = 1 − ( 5 )3 . kN ) ∈ ZN : ki ≥ 0. dann einen a 2 2 weiteren Wert und eine Karte.. P = UΩ . x2 . F = P(Ω). dann drei weitere Werte und je eine Karte. | sind N − 1 Zellw¨nde). doppelt gez¨hlt.) Es folgt a a u n P (A) = |A| N! 1 = · . k1 +. (W¨hle n von (n + N − 1) Pl¨tzen f¨r die Teilchen. F¨r k ∈ Ω bezeichne ki die Anzahl von Teilchen in Zelle i. (o sind die n Teilchen. (W¨hle zuerst zwei Werte und je zwei Karten. 1}}.. Es gilt |A| = N .. H2 .+kN = n}. 2 (b) |B| = 13 4 · 11 · 4.... Eine Poker-Hand besteht aus 5 Karten. dass das Modell (b) die Realit¨t besser beschreibt. (Bosonen sind a nicht unterscheidbar. Ein richtiges Ergebnis erh¨lt man a a mit der Einschluss-Ausschluss-Formel: 3 P (B) = i=1 P (Bi ) − 1≤i≤j≤3 P (Bi ∩ Bj ) + P (B1 ∩ B2 ∩ B3 ) = 3 · 1 1 1 − 3 · 2 + 3.|o.. also |C| = 6 3 = 5 · 4 und P (C) = 5·4 ...B. o (a) |A| = 13 4 12 43 ..8%. . Wie hoch ist die Wahrscheinlichkeit. xn ) : xi alle verschieden}.. F¨r x ∈ Ω bezeichne xi die Zelle u f¨r Teilchen i. F = P(Ω).. Beispiel: n Bosonen (z. (W¨hle n der Zellen zur Besetzung.) Es folgt P (A) ≈ 42. Man bestimme die Wahrscheinlichkeit daf¨r.) Es folgt P (B) ≈ 4.. folgendes Blatt zu erhalten: u (a) einen Zwilling (aber nichts besseres) (b) zwei Zwillinge (aber nichts besseres) L¨sung: Ω = Menge aller Kombinationen von 5 aus 52 Karten..Atome) werden auf N Zellen (des Ort-/Impulsraumes) verteilt. 63 Beispiel: Poker wird mit 4 × 13 = 52 Karten gespielt.) F¨r a u n |Ω| verwenden wir einen Trick: Wir beschreiben das Ergebnis k1 = 3. In physikalischen Experimenten zeigt sich.. P = UΩ . · (N − n + 1) N! 1 |A| = = . P (A) = n |Ω| N (N − n)! N n (2) Wir setzem Ω = {(k1 . N }n .. 2. P = UΩ .. Das Ereignis ist dann u A = {k ∈ Ω : ki ∈ {0.... und es u gilt N · (N − 1) · .. (W¨hle zuerst Wert f¨r den Zwilling.. F = P(Ω). durch: ooo|oo||o|oo|. . .

• 1A (x)dλn (x) = λn (A)..B. sondern: P ({x}) = {x} f (y)dy = x f (y)dy = 0. u Bemerkung: • “Praktisch alle interessanten Funktionen” sind messbar (→ Maßtheorie). stetige Funktionen oder Indikatorfunktion: 1A (x) := 0 f¨r x ∈ A u / • F¨r messbare Funktionen f ≥ 0 existiert das Lebesgue-Integral (→ Maßtheorie): u f (x)dλn (x) = f (x)dx = dxf (x) = dx1 . a Definition: • Eine messbare Funktion f : Rn → [0. λ2 a 3 die Fl¨che. u x Aber f (x) = P ({x}). so sitzt die Masse in abz¨hlbar vielen Punkten: “Massenpunkte” a a • Ist dagegen Ω = Rn . • P (A) := A f (x)dx = mit Dichtefunktion f . (S) Bemerkung: Ist P = US . Definition: Sei S ∈ BRn mit 0 < λn (S) < ∞.5 Stetige Wahrscheinlichkeitsmaße 10 1. wie wahrscheinlich der Punkt x ist. so ist f messbar. λn (S) λ (S) “Volumen von S . z. λn ist das sogenannte Lebesguemaß.dxn f (x1 . BRn ): a (P1) P (Rn ) = f (x)dx = 1 wegen Normierung. 1 f¨r x ∈ A u mit A ∈ BR .. Das Maß mit Dichtefunktion f (x) = c · 1S (x) = λn1 1S (x) heißt (stetige) Gleichverteilung auf S: US . • Ist f ≥ 0 Riemann-integrierbar.. xn ). falls f −1 (A) ∈ BRn f¨r alle A ∈ B..1. Bemerkung: f (x) ist ein gewisses Maß daf¨r. so ist die Masse uber ganz Ω verschmiert: “Massendichte” ¨ Definition: f : Rn → R heißt (Borel-) messbar. so sind alle x ∈ S “gleichwahrscheinlich” und es gilt: ∀A ∈ BS : P (A) = A f (x)dx = 1 λn (A) “Volumen von A 1A (x)dx = n = . ∞) mit Dichtefunktion (auf Rm ). λ das Volumen.. (P2) folgt aus den Eigenschaften des Lebesgue-Integrals. .5 Stetige Wahrscheinlichkeitsmaße Interpretiert man P als Massenverteilung ergibt sich folgendes Bild: • Ist Ω abz¨hlbar. und das Lebesgue-Integral ist gleich dem Riemann-Integral. f (x)dx = 1 (Normierung) heißt f (x)1A (x)dx heißt stetiges Wahrscheinlichkeitsmaß Bemerkung: P ist tats¨chlich ein Wahrscheinlichkeitsmaß auf (Rn . Auch hier ist das wichtigste Beispiel die Gleichverteilung. λ1 ist die L¨nge.

2 λ (Ω) 4 (2) Wir beschreiben die Sehne durch ihren Mittelpunktswinkel. x2 ) = 1. Es folgt a P (A) = λ2 (A) 1 3 3 7 = λ2 (A) = 1 − · 2 · ( )2 = 1 − ( )2 = . Ω = [0. also P (A) = λ1 (A) = 1 . P = UΩ . x2 ) mit f : N × R → [0. 2 λ (Ω) 2 Dass man verschiedene Antworten erh¨lt erscheint paradox. 16 Beispiel: (Bertrandsches Paradox.5 Stetige Wahrscheinlichkeitsmaße 11 Beispiel: Romeo und Julia treffen sich heimlich. y) : x2 + y 2 ≤ 1}. die stetige und diskrete Anteile haben. begeht a er Selbstmord. ist es aber nicht. Ω = (0. Bestimme die Wahrscheilichkeit f¨r ein “gl¨ckliches Ende”! u u Losung: Wir setzen Ω = [0.) In einem Kreis mit Radius 1 wird zuf¨llig eine a Sehne gezogen. ein Quadrat weniger zweier Dreiecke. x2 ∈ R} = N×R und F = BΩ . ∞) messbar und normiert: x1 dx2 f (x1 . 1]2 . Beide haben eine Versp¨tung von a zwischen 0-1 Stunde. .1. F¨r t ∈ Ω sei t1 die Versp¨tung u a ¨ von Romeo und t2 die Versp¨tung von Julia. π). F = BΩ . 1]. 2 (Ω) λ 2 4 4 16 1A (x)dx auch berechnen durch 1 +x1 4 Alternativ (aber schwieriger) kann man P (A) = 1 4 1 +x1 4 3 4 1 1 dx1 dx2 1A (x) = 0 dx1 0 dx2 + 1 4 dx1 − 1 +x1 4 dx2 + 3 4 dx1 − 1 +x1 4 dx2 = 7 . F = BΩ . a a Bemerkung: Man kann auch Zufallsexperimente betrachten. Das betrachtete Ereignis ist dann A := a 1 {(t1 . P = UΩ . wie genau der Zufallsmechanismus aussieht. 3 λ (Ω) 3 (3) Wir beschreiben die Sehne durch ihren Abstand zum Mittelpunkt. F = 1 BΩ . Das Ereignis ist dann A = ( 2 π. Ω = {(x. also P (A) = λ1 (A) = π = 1 . d. Ist zum Beispiel Ω = {(x1 . Es kommt a eben darauf an. 1 ]. so kann ein Wahrscheinlichkeitsmaß definieren durch P (A) = x1 dx2 f (x1 . Das Ereignis A wird dann gerade durch den Inkreis des Dreiecks 2 ( 1 )2 π 2 beschrieben (Radius 1 ). mit dem die Kante gew¨hlt a wird.h. Mit welcher Wahrscheinlichkeit ist diese l¨nger als die Seite des einbea schriebenen gleichseitigen Dreiecks? Losung: Wir beschreiben drei L¨sungsvarianten: o ¨ (1) Wir beschreiben die Sehne durch ihren Mittelpunkt. x2 ) : x1 ∈ N. Es folgt P (A) = λ2 (A) = 12 π = 1 . π). P = π 1 3 UΩ . F = BΩ . P = UΩ . x2 )1A (x1 . Ω ist ein Quadrat mit Fl¨che λ2 (Ω) = 1. Muss einer auf den anderen l¨nger als 1/4 Stunde warten. “Rein zuf¨lliges” ziehen einer Sehne l¨sst verschiedene Interpretationen zu. t2 ) : |t1 − t2 | ≤ 4 }. Das Ereignis ist dann A = [0.

Hieraus folgt insbesondere. B) schon durch seine Werte P ((−∞.B. l¨sst sich P sogar explizit aus F bestimmen: a a . (ii). cn ] ↑ (−∞. x→c− x→c+ x→∞ x→−∞ Lemma: Sei F die Verteilungsfunktion von P . dass ich die Wahrscheinlichkeiten aller Intervalle leicht durch F ausdr¨cken lassen. c]) eindeutig festgelegt. a)) = F (b) − F (a−). (iii) ist eine Verteilungfunktion (n¨chstes Kapitel). Wir verwenden im Folgenden eine Kurzschreibweisen f¨r Limiten: u F (c−) := lim F (x). Dies gibt Anlass zu folgender Definition: Definition: Die Verteilungsfunktion eines Wahrscheinlichkeitsmaßes P auf (R. so ist F (c) = c −∞ x∈S:x≤c ρ(x). welche Funktionen Verteilungsfunktionen sind: Satz: Eine Funktion F : R → [0. F (∞) := lim F (x). Beweis: Sei cn ↑ c dann ist F (c−) = limn F (cn ) = limn P ((−∞. f (x)dx. F (−∞) = 0. (ii). F (c+) := lim F (x). Dann ist F (c−) = P ((−∞. Bemerkung: • Ist P diskret mit Dichte ρ(x). daher ist nach dem Eindeutigkeitssatz jedes Wahrscheinlichkeitsmaß P auf (R. dass die Wahrscheinlichkeitsmaße auf (R. c] : c ∈ R} ist ein ∩-stabiler Erzeuger von B. (iii) entsprechen: F¨r jedes P u hat die Verteilungsfunktion die entsprechenden Eigenschaften. (iii) F (∞) = 1. 1] mit den Eigenschaften (i).1. 1] ist genau dann eine Verteilungsfunktion. Beweis: F¨r eine Verteilungsfunktion sind die Eigenschaften (i). (iii) leicht nachu zuweisen (Hausaufgabe). c)). u Der folgende Satz liefert ein einfaches Kriterium. (ii) F ist rechtsstetig (d. c1 ≤ c2 ⇒ F (c1 ) ≤ F (c2 )). a Es ergibt sich also. P ([a.B) eindeutig den Funktionen F : R → [0.h. b]) − P ((−∞. und f¨r jede Funktion u mit diesen Eigenschaften gibt es ein passendes Wahrscheinlichkeitsmaß P . (ii).h. F (c+) = F (c)). b]) = P ((−∞. c)). F (c) := P ((−∞.6 Verteilungsfunktion 12 1. so ist F (c) = • Ist P stetig mit Dichte f (x). F (−∞) := lim F (x). x ∈ S. 1]. denn (−∞. c]). In wichtigen F¨llen. wenn gilt: (i) F ist monoton wachsend (d. z. Jedes F mit den Eigenschaften (i). cn ]) = P ((−∞. c). B) ist die Funktion F : R → [0.6 Verteilungsfunktion S = {(−∞.

... F = F und somit P = P ∗ . u mit monotoner Konvergenz (Maßtheorie!). so ist P stetig mit Dichte f (x1 .. In diesem Fall gilt f (x) = F (x) f¨r x ∈ R − S. ∂xn F (x1 . dann ist F (c) = x∈S:x≤c ρ(x) st¨ckweise u konstant mit Sprungstellen h¨chstens in S und Sprungh¨hen F (x) − F (x−) = ρ(x).h.. u o In diesem Fall gilt ρ(x) = F (x) − F (x−) f¨r x ∈ S.h. Ist umgekehrt F stetig und stetig diffbar auf R − S und sei P ∗ stetig mit Dichte f ∗ (x) = F (x) f¨r u x ∈ R − S.. dann folgt wie eben. Analog kann man eine mehrdimensionale Verteilungsfunktion f¨r ein Wahrscheinu lichkeitsmaß P auf (Rn . . xn ). a (a) P ist diskretes Wahrscheinlichkeitsmaß auf S ⇔ F ist st¨ckweise konstant mit Sprungstellen h¨chstens in S. cn ]). o (b) Sei P stetig mit Dichte f .. d. Hieraus folgt F = F ∗ und somit P = P ∗ . .. Also haben F. . insbesondere fola gende. Bemerkung: • Teil (b) ist wichtig zur Bestimmung von Dichten • Es gilt nicht: P stetig ⇔ F stetig • Es gibt Wahrscheinlichkeitsmaße auf (R. cn ) = P ((−∞..h.h. xn ) = ∂x1 . die weder diskret noch stetig sind. d. dass F ∗ st¨ckweise konstant ist u ∗ mit Sprungstellen h¨chstens in S und Sprungh¨hen ρ (x). so dass f stetig ist auf R − S. Ferner ist f¨r x ∈ S u / 1 1 (F (x + h) − F (x)) = h h x+h f (y)dy → f (x) x f¨r h → 0. . BRn ) definieren: FP (c1 . dann folgt wie eben. × (∞.1. F ∗ dieselben o o ∗ Sprungstellen und Sprungh¨hen. x + h]) = x f (y)dy → x f (y) = 0 f¨r h → 0. so dass f stetig auf R − S F ist stetig auf R und stetig diffbar auf R − S. dass F ∗ stetig ist und stetig diffbar auf R − S mit (F ∗ ) = f ∗ = F . x ∈ S. F (x) = f (x) und insbesondere ist F stetig diffbar auf R − S.. die man zur Berechnung von Dichten verwenden kann: Ist F stetig.6 Verteilungsfunktion 13 Satz: Sei F die Verteilungsfunktion von P und sei S ⊂ R diskret (d.. Ist o o umgekehrt F st¨ckweise konstant mit Sprungstellen h¨chstens in S und sei P ∗ diskret u o mit Dichte ρ∗ (x) := F (x)−F (x−). F ist stetig. u d. eine abz¨hlbare a Menge ohne H¨ufungspunkte). Es gilt x+h x F (x + h) − F (x) = P ((x.. “st¨ckweise” u ∂ ∂ stetig diffbar. u ⇔ Beweis: (a) Sei P diskret mit Dichte ρ(x). Diese Funktion hat ¨hnliche Eigenschaften wie im 1-dimensionalen. u (b) P ist stetig mit Dichte f . B).. c1 ] × .

u • Spezialfall: Ist Ω = R. falls P ◦ X −1 diskret ist. {X ≤ c} := {ω ∈ Ω : X(ω) ≤ c} ist das Ereignis. . z.2 Zufallsvariablen 14 2 2. F ). und ω ∈ Ω wird zuf¨llig gem¨ß P gew¨hlt. Bemerkung: Jede Eigenschaft eines Wahrscheinlichkeitsmaßes kann auf eine ZVe X ubertragen werden (mittels der Verteilung von X). sondern eine Eigenschaft des Ergebnisses: X(ω). F. a • F¨r Ereignisse. falls es eine Z¨hldichte ρ(x) auf a einer abz¨hlbaren Teilmenge S ⊂ Ω gibt.B. Es gilt dann a P (X ∈ Ai ) = Ai ) = P ( {X ∈ Ai }) = P ( Ai ) = P (X ∈ i∈I i∈I i∈I i∈I i∈I P (Ai ). Man u schreibt dann X ∼ P oder P = P ◦ X −1 . Beweis: P : F → [0. ist auch der Wert X(ω) zuf¨llig. z. o a a Die Verteilung P ◦ X −1 beschreibt das gesamte zuf¨llige Verhalten von X. P heißt die Verteilung von X. F ) ein Ereignisraum. Diese Eigenschaft ist in allen Beispielen der Vorlesung automatisch erf¨llt. eine zuf¨llige reelle Zahl. Definition: Sei (Ω. • Die definierende Eigenschaft (*) einer ZVe. so heißt X eine reelle Zufallsvariable.: {X ∈ A} := {ω ∈ Ω : X(ω) ∈ A} ist das Ereignis. dass X einen Wert in A hat.: ¨ • X heißt diskret.1 Zufallsvariablen Verteilung einer Zufallsvariable Manchmal interessiert bei einem Zufallsexperiment (Ω. Daher kann man sich a a a X vorstellen als eine Gr¨ße mit zuf¨lligem Wert. dass X einen Wert ≤ c hat. P ) ein Wahrscheinlichkeitsraum und (Ω .h. z. Bemerkung: • Formal ist X eine Funktion Ω → Ω .B. P ) nicht genau das Ergebnis ω ∈ Ω. falls {X ∈ A } := X −1 A = {ω ∈ Ω : X(ω) ∈ A } ∈ F ∀A ∈ F (∗) • F¨r A ∈ F sei P (A ) := P ({X ∈ A }).B. d. die das Verhalten von X betreffen. i ∈ I disjunkt (I abz¨hlbar). pr¨fen wir hier in der Regel nicht u nach. 1] ist wohldefiniert (da X ZVe ist) und erf¨llt die Axiome: u (P1) P (Ω ) = P (X ∈ Ω ) = P (Ω) = 1 (P2) Seien Ai . • Eine Abbildung X : Ω → Ω heißt (Ω -wertige) Zufallsvariable (ZVe). F. so dass a P (X = x) = P ({x}) = ρ(x) ∀x ∈ S. verwenden wir eine Kurzu schreibweise. Lemma: Die Verteilung P einer ZVe X ist ein Wahrscheinlichkeitsmaß auf (Ω . a a a Wird ω zuf¨llig gew¨hlt.

• Die Verteilungsfunktion von X ist die Verteilungsfunktion von P ◦ X −1 . Z(i.. π ) (θ ∈ Ω sei der Ausfallwinkel). P (Z = 3) = P ({(1. L¨sung: Sei Ω = (− π . 2)}) = oder man verwendet die Verteilung von Z. dass die Summe zwischen 5 und 8 liegt. Daher ist Z eine diskrete Zufallsvariable. (2. Sei X der a Auftreffort des Photons am Boden. c]) = P (X ≤ c). Entweder man u o verwendet P und die Definition von Z P (5 ≤ Z ≤ 8) = P ({(i. F = BΩ .B: a 1 2 P (Z = 2) = P ({(1. 3. Man erh¨lt somit a k ρ(k) 2 1 36 3 2 36 4 3 36 5 4 36 6 5 36 7 6 36 8 5 36 9 4 36 10 11 12 3 36 2 36 1 36 F¨r die Berechnung der Wahrscheinlichkeit gibt es zwei M¨glichkeiten. X hat beliebige Werte in R und f¨r c ∈ R ist u FX (c) = P (X ≤ c) = P ({θ ∈ Ω : L tan(θ) ≤ c}) = P also fX (c) = FX (c) = 1 π π c − . 6}2 . z. betrachten wir a ein Photon. Der o 2 2 Auftreffort kann beschrieben werden durch X : Ω → R. 1)}) = 36 .. FX (c) = P ◦ X −1 ((−∞. d. .h. dass die gesuchte Leuchtintensit¨t a der Dichte von X entspricht. d.h. c]) = P (X ∈ (−∞. Die Menge S der m¨gliche o Werte von Z ist abz¨hlbar: S = {2. j) : 5 ≤ i + j ≤ 8}) = P ({(1. 36 36 Beispiel: Eine Lampe im Abstand L vom Boden eines Zimmers strahlt gleichm¨ssig a in alle Richtungen. P = UΩ . . so dass P (X ∈ A) = P (A) = A f (x)dx ∀A ∈ F . 1)}) = 36 . F = P(Ω). 6. Die Summe Z kann im a ¨ Modell definiert werden durch Z : Ω → R.2.1 Verteilung einer Zufallsvariable 15 • X heißt stetig.. tan−1 ( ) 2 L = c tan−1 ( L ) + π 2 . 36 P (5 ≤ Z ≤ 8) = P (Z ∈ {5. falls es eine Dichte f (x) gibt. a Die Z¨hldichte berechnet man durch ρ(k) = P (Z = k). 7. . Um die Leuchtintensit¨t am Boden zu bestimmen. 12}. 4).. u Losung: Wir w¨hlen Ω = {1. Wir nehmen an. falls P ◦ X −1 stetig ist.. X(θ) = L tan(θ). 8}) = k=5 ρ(k) = 4+5+6+5 20 = . k ∈ S..h. 2). die Z¨hldichte ρ a 8 20 . Beispiel: Zwei W¨rfel werden geworfen. π · 1 2 1+ c 2 L · 1 L = 1 πL · 1 2 1+ c 2 L .. Man bestimme die Verteilung der Summe der u Augenzahlen und die Wahrscheinlichkeit daf¨r. d. das von der Lampe in einer zuf¨lligen Richtung ausgesandt wird.. j) = i + j. ... (6. P = UΩ .

xn ) A×Rn−1 dx1 dx2 . Xn als Funktionen auf Ω. Das gemeinsame Verhalten beinhaltet a nat¨rliche insbesondere das Verhalten der einzelnen ZVen: u Lemma: Bestimmung der Einzelverteilungen aus der gemeinsamen Verteilung. y) ∈ R2 : x2 + y 2 ≤ 1}. ... Man bestimme die a a gemeinsame Verteilung des Abstands zum Mittelpunkt und des Winkels mit der xAchse. Xn .Φ (a...... (a... und f¨r (b) berechnet man f¨r A ∈ B: u u P (X1 ∈ A) = P ((X1 .. xn ) = A dx1 f1 (x1 ). d.h... P = UΩ . . b ∈ [0. dass die ZVen Werte in A ∈ BRn annehmen.... P ) und X1 . . y) bestimmt sind gem¨ß x + iy = reiϕ .. L¨sung: Ω = {(x. F¨r a ∈ [0. 2π). 1]. Xn .. y) und Φ(x. b) = ∂a∂bFR.... ist in beiden F¨llen a bestimmbar: P ((X1 ... Xn diskret mit gemeinsamer Z¨hldichte ρ(x1 . Beispiel: Ein Punkt im Einheitskreis wird rein zuf¨llig gew¨hlt. 2π). Die betrachteten Gr¨ßen o o sind die ZVen R : Ω → [0. deren Werte R(x. der Winkel ist gleichverteilt (wie zu erwarten). xn ).Φ (r. . Die Wahrscheinlichkeit.xn ρ(x1 .Φ (a. 2π) ist a u b a2 π · 2π b = a2 FR..xn ).. . 2. Man definiert (Ω.. und berechne daraus die Einzelverteilungen.dxn f (x1 . 1] und Φ : Ω → [0. 1] × [0. Man definiert die gemeinsame Verteilung P von X1 . . F. (a) Sind X1 . Φ ≤ b) = 2π 1 2π (Fl¨che eines Kreissegments). F = BΩ . a 1 Die gemeinsame Dichte ist also fR.. a (b) Sind X1 ... Xn ) ∈ A × Rn−1 ) = = A dx1 . Die gemeinsame Verteilung beschreibt das gemeinsame zuf¨llige Verhalten aller ZVen.... .. 1] und fΦ (ϕ) = drfR...1 Verteilung einer Zufallsvariable 16 Betrachtet man mehrere (reelle) ZVen X1 . dxn f (x1 . y) eindeutig durch (x. Die Einzeldichten ergeben sich aus obigem Lemma durch Integration: fR (r) = 2π 1 1 1 1 dϕfR. b) = 2a 2π . X = (X1 ... r ∈ [0. ...Φ (a.. Xn ) ∈ A) = P (A) ... Xn stetig mit gemeinsamer Dichte f (x1 . ϕ) = 0 2r 2π = 2r.. so kann man die Xi als Komponenten eines zuf¨lligen Vektors X betrachten: X : Ω → Rn . b) ∈ [0. .Φ (r. xn ). ϕ) = 0 2r 2π = π . . . . Bemerkung: Interessieren bei einem Zufallsexperiment nur die Gr¨ßen X1 .. so ist auch X1 a diskret mit Z¨hldichte ρ1 (x1 ) = x2 . . Xn hat o man bei der Modellierung zwei M¨glichkeiten: o 1... .. b) = P (R ≤ a. Beweis: (a) funktioniert analog zu (b)... dxn f (x1 . . .2. so ist auch X1 stetig mit Dichte f1 (x1 ) = dx2 .. Xn ). P ◦ X −1 a heißt dann gemeinsame Verteilung der Xi .. xn )..

2. 1).h.6 ist noch nachzutragen.1) . X(w) = inf{c ∈ R : F (c) > w}. um eine Zufallsvariable X mit der vorgegebenen Verteilung zu simulieren. Dieses Wahrscheino lichkeitsmaß erh¨lt man am einfachsten als Verteilung einer geeignet definierten ZVe. • X(ω) = − ln(1 − w) ist die gesuchte Zahl. rechtsstetig und F (∞) = 1. d. Zur Erzeugung der gew¨nschten Zahl kann man dann so vorgehen: u • Erzeuge ω ∈ (0. 1) mit U(0. F ist die Verteilungsfunktion von P ◦ X −1 . Wie kann man einen zuf¨llige exponentialverteilte Zahl erzeugen? a L¨sung: Zun¨chst bestimmt man die Verteilungsfunktion: F¨r c ≤ 0 ist F (c) = 0 o a u c und f¨r c ≥ 0 ist F (c) = −∞ e−x dx = 1 − e−c . 1) → R die “linksstetige Umkehrfunktion” von F . Bemerkung: Ist F explizit berechenbar und hat man einen U(0. U(0.2 Simulation von Zufallsvariablen 17 2. P ) = ((0. dass zu einer Funktion mit den Eigenschaften (i)-(iii) immer ein zugeh¨riges Wahrscheinlichkeitsmaß existiert. Satz: Sei F : R → [0. a a Beispiel: Die Exponentialverteilung ist stetig mit Dichte f (x) = e−x .1) Zufallsgenerator (wie er in jedem Taschenrechner eingebaut ist). Beweis: Es gilt F (c) ≥ w genau dann. d. Somit ist FX (c) = P (X ≤ c) = P ({w ∈ Ω : X(w) ≤ c}) = P ({w ∈ Ω : F (c) > ω}) = F (c). der gem¨ß der Verteilungsfunktion F verteilt ist. F (−∞) = 0. Dann ist FX = F . F. wenn X(w) ≤ c. d. einen zuf¨lligen Wert zu erzeugen. Sei (Ω. so kann der Satz dazu verwendet werden. Die linksstetigen Umkehrfunktion u X(ω) = F −1 (ω) aus dem Satz erh¨lt man durch Umformung: a 1 − e−c = ω ⇔ 1 − ω = e−c ⇔ c = − ln(1 − ω).2 Simulation von Zufallsvariablen Aus Kapitel 1.1) ) und X : (0. x > 0.1) . a der sogenannten Quantil-Transformation. B(0. .h.h. 1] monoton wachsend.

B. F¨r c ∈ [0. Y ) a 2 mit g : R → R. Beispiel: Sei X stetig mit Dichte f . 4] ist o o u √ √ FY (c) = P (Y ≤ c) = P (X ≤ c) = P (− c ≤ X ≤ c) = 2 √ √ 2 c c f (x)dx = = . −1). y) = xy. so ist X + Y : Ω → R. Beispiel: (X. z. 1)}) = ρ(1. Wir betrachten nun folgendes Problem: Gegeben ist eine ZVe mit bekannter Verteilung. 1}. • Ist X : Ω → Ω eine ZVe und g : Ω → Ω messbar.3 Transformation von Zufallsvariablen: Transformationen von ZVen kann man einfach punktweise definieren. y) = 9 f¨r alle −1 ≤ x. Man bestimme die Dichte von Y = X 2 . 2 c 2 c 2 c . und die o Z¨hldichte ρZ erh¨lt man durch aufsummieren. L¨sung: Die m¨glichen Werte von Y sind [0. Y haben die gemeinsame Z¨hldichte ρ(x. Man bestimme die Verteilung einer gewissen Transformation dieser ZVe. (X + Y )(ω) := X(ω) + Y (ω). L¨sung: Y kann nur nichtnegative Werte annehmen. Y ) ∈ {(1. dass X + Y a und g(X) wieder ZVen sind. Y a und g(X) als Funktionswert des zuf¨lligen Wertes X. Bemerkung: Man interpretiert X + Y als Summe der beiden zuf¨lligen Werte X. 0. Y ) sei gleichverteilt auf {−1.3 Transformation von Zufallsvariablen: 18 2. 9 Analog erh¨lt man ρZ (1) = a 2 9 5 und ρZ (0) = 9 .h. 4]. Man kann zeigen. Man bestimme die Verteilung von Y = X 2 . Die m¨glichen Werte von Z sind {−1. aber die Ableitung davon kann man bestimmen: √ √ √ √ 1 1 1 fY (c) = FY (c) = FX ( c) · √ + FX (− c) · √ = √ (f ( c) + f (− c)). fY (y) = 1 √ 1 4 y {0≤y≤4} bzw. so ist g(X) : Ω → Ω . g(x. fY (y) = 0 ≤ y ≤ 4. Z = g(X. y ≤ 1. 1}2 . 2]. Was ist die Verteilung von Z = XY ? L¨sung: o 1 u X.: • Sind X. a a 2 ρZ (−1) = P (Z = −1) = P ((X.2.B. 0. und f¨r c ≥ 0 ist o u √ c FY (c) = − c √ √ √ f (x)dx = FX ( c) − FX (− c). g(X)(ω) := g(X(ω)). Das Integral kann zwar nicht weiter vereinfacht werden. 4 c d. 4 y also fY (c) = FY (c) = 1 √ . Beispiel: Sei X gleichverteilt auf [−2. 1) = . z. (−1. Y : Ω → R ZVen. √ 4 2 − c √ c 1 √ . −1) + ρ(−1.

∞) × (0. 1). v) wobei := | det Dg(x. die gemeinsame Dichte von U. 2 2 1 also fU. v). ∞)2 → (0.h. dudv = d(x. y = u − uv = y(u. Will man (∗) durch Integration uber dudv berechnen ben¨tigt man die Jacobio ¨ −1 Matrix von g bzw. v). y) := | det Dg −1 (u.V (a. y) = x + y. = d(u. v) = d(x. v)).2. v). x+y = b. v) = 2 (1 − v)2 u4 e−u . v) dxdy. Dies funktioniert ganz allgemein. solange g ein Diffeomorphismus ist: . b) = P (U ≤ a. y) dxdy = d(x. y = a − x. y)| mit Dg = d(x. v)| mit Dg −1 = d(u. v) g −1 (A) A d.V (u. v)) = (uv)(u − uv)2 e−u = (1 − v)2 u3 e−u . b) ∈ (0.3 Transformation von Zufallsvariablen: 19 1 Beispiel: X. b) = ∂U ∂V FU. v) In unserem Beispiel ist x = uv. V ) = g(X. v) und v u 1 − v −u = |v · (−u) − u · (1 − v)| = | − u| = u 1 1 f (x(u. y) = x+y . ∂x ∂v ∂y ∂v d(x. o x macht man eine Skizze und bestimmt den Schnittpunkt der Kurven x + y = a. b c a−x Es folgt (∗) = 0 dx ( 1 −1)x dy 1 xy 2 e−x−y . v) ∈ (0. y) = f (x(u. v(x. v). y) wobei ∂u ∂x ∂v ∂x ∂u ∂y ∂v ∂y ∂x ∂u ∂y ∂u . x+y ≤ b}. x L¨sung: (U.h. b) f¨r (a. V = X+Y . Dieser hat die Korrdinaten (c. v). Y ) ∈ A) = P ((X. Y )) mit u(x. y) dudv dxdyf (x. g. y = u − uv und damit d(x. y ≥ 0. d(u. y) = 2 xy 2 · e−x−y .V (a. v(X. y(u. Y haben die gemeinsame Dichte f (x. y) f (x(u. 2 b und hieraus ergibt sich fU. 1). Um A auf dxdy aufteilen zu k¨nnen. v) d(u. o g : (0. y(u. x.V (a. d. y) = det d(u. d(u. d = a − ab. V ist dann fU. (u. Y ) = (u(X. F¨r beliebiges A ∈ BR2 ist dann u P ((U. V ≤ b) = P (X + Y ≤ a. 1) ist bijektiv mit Umkehrfunktion: x = uv = x(u. y)dxdy = (∗) A x mit A = {(x. Y ) ∈ g −1 A) d(x. Nun gibt es zwei M¨glichkeiten fortzufahren: o (1) Integration bez¨glich dxdy: u FU. d) mit c = ab. Dieses Integral kann nun berechnet werden. V ) ∈ A) = P (g(X.V (u. g −1 stetig u diffbar). ∞) × (0. y(u. ∞) × (0. X ≤ b) = X +Y f (x. bzw. Y ). ∞)2 : x + y ≤ a. g : Formal gilt d(u. u (2) Integration bez¨glich dudv: g ist ein Diffeomorphismus (g bijektiv. y) dudv. Man X bestimme die gemeinsame Verteilung von U = X + Y. v) . v)). y = ( 1 − 1)x. y) ∈ [0.

kann Methode (2) nicht verwendet werden! • Ist g : Rn → R.2. x2 ) = 1. Bemerkung: • Besonders wichtig ist der eindimensionale Spezialfall: Ist X eine reelle ZVe mit Dichte f . 1]. = 1 − (1 − c + c · ln(c)) = c − c · ln(c). fY (y) = − ln(y). so kann man Methode (2) anwenden.. y) = y dz1 1 = ln(z1 )|1 = − ln(y). 1] ist u 1 1 FY (c) = P (Y ≤ c) = P (X1 X2 ≤ c) = 1 − P (X1 X2 > c) = 1 − c dx1 c x1 dx2 1 = 1 − [x1 − c ln(x1 )]1 = . Beweis: Wie im Beispiel vorher. x2 = z1 . z2 ) = det Die Dichte von Y = Z2 ist daher 1 1 1 z2 2 −z1 0 1 z1 = 1 .. g ist ein Diffeomorphismus mit z2 Umkehrabbildung g −1 : x1 = z1 . z2 ) : 0 < z2 < z1 < 1}. fY (y) = z2 dz1 fZ1 .. 0 < y < 1.X2 (x1 . .Z2 (z1 . falls man g zu einem Diffeomorphismus erg¨nzen kann. 1]2 . x2 ∈ [0. Dann ist Y = g(X) stetig mit Dichte fY (y) = |Dg −1 (y)|fX (g −1 (y)). z1 0 < z2 < z1 < 1. und sei g : M → N ein Diffeomorphismus (M. M. Z = g(X) mit g : (0. (1) Y hat Werte in [0. g −1 stetig differenzierbar) mit P (X ∈ M ) = 1. Z2 = Y = X1 X2 . a Beispiel: Sei (X1 . g. • Ist g nicht bijektiv.h. x2 ) = (x1 . c also fY (c) = 1 − ln(c) − c · 1 . X2 ist fX1 . N ⊂ R Intervalle mit P (X ∈ M ) = 1 und g : M → N ein Diffeomorphismus. y z1 0 < y < 1. Was ist die Dichte von Y = X1 X2 ? L¨sung: Wir betrachten wieder beide M¨glichkeiten (1) und (2). Die gemeinsame o o Dichte von X1 . Nach obigem Satz ist fZ1 .h.Z2 (z1 .3 Transformation von Zufallsvariablen: 20 Satz: Sei X eine Rn -wertige Zufallsvariable mit Dichte f . N ⊂ Rn offen. X2 ) gleichverteilt auf [0. c (2) Wir betrachten Z1 = X1 . 1)2 → {(z1 . x1 . x1 x2 ). y ∈ N. d. dann ist Y = g(X) eine reelle ZVe mit Dichte fY (y) = |(g −1 ) (y)|fX (g −1 (y)). g(x1 . d. 1] und f¨r c ∈ [0.

Wie ist die Augenu u zahl des ersten W¨rfels verteilt? u L¨sung: Sei Ω = {1. 5. . Dies ber¨cksichtigt jedoch nicht die gegebene Information. abgesehen davon. Die (bedingte) Wahrscheinlichkeit von A ∈ F gegeben B sei P (A|B) := P (A ∩ B) . also ist das Ergebnis des Zufallsexperiments mit Sicherheit in B. d. 4 erh¨ht. 2. 2. 5. Beweis: Es ist P (Ω|B) = P( i P (Ω∩B) P (B) = 1. Es ist k P (X1 = k|B) 1 1 4 2 1 4 3 1 4 4 1 4 5 6 . also P (X1 = 1|B) = 4 .3 Bedingte Wahrscheinlichkeiten und Verteilungen 21 3 Bedingte Wahrscheinlichkeiten und Verteilungen In diesem Abschnitt soll untersucht werden.. 4}. a Beispiel: Beim W¨rfeln mit zwei W¨feln ergibt sich die Summe 5. {4. P ) ein Wahrscheinlichkeitsraum und B ∈ F mit P (B) = 0. F = P(Ω)..|B) daher als Verteilung eines Zufallsexperiments. 4. F¨r Ereignisse A1 . X2 mit Xi (x1 . F).1 Bedingte Wahrscheinlichkeiten Definition: Sei (Ω. dass das Ergebnis des Experiments in B liegt. P = UΩ . .. dass 1 u P (X1 = k) = 6 f¨r alle k ∈ {1. 6}2 . P (A2 |B) P (A2 ∩ B)/P (B) P (A2 ) P (. falls zus¨tzliche Informationen zur Verf¨gung stehen.|B)? Es gilt P (B|B) = 1. 2. o . 4. und f¨r disjunkte Mengen Ai gilt u i Ai |B) = P( i (Ai ∩ B)) P ( i (Ai ∩ B)) = = P (B) P (B) P (Ai ∩ B) = P (B) P (Ai |B). Man interpretiert P (.|B) ist wieder ein Wahrscheinlichkeitsmaß auf (Ω. 3. a a u 3.. 1}) = 36 und beispielsweise P ({X1 = 1} ∩ B) = 1 1 P ({(1. A2 ⊂ B u dagegen bleibt die relative Wahrscheinlichkeit unver¨ndert: a P (A1 ∩ B)/P (B) P (A1 ) P (A1 |B) = = . wie sich Wahrscheinlichkeiten bzw. F. unter der zus¨tzlichen Information. 6}. dagegen sind 5. Was beschreibt das neue Wahrscheinlichkeitsmaß P (. 4}) = 36 . 3.h.. 6}. Die Augenzahlen der W¨rfel werden o u beschrieben durch die Projektionen X1 . X1 ist gleichverteilt auf {1. 3.|B) ist also im Prinzip die gleiche Wahrscheinlichkeitsverteilung wie P . das eigentlich durch P beschrieben wird. i den auch die B ∩ Ai sind dann disjunkt. 0 0 4 denn P (B) = P ({1. dass Ergebnisse in B c ignoriert werden. Man sieht leicht. P (B) Lemma: P (. Durch die Zusatzinformation haben sich also die Wahrscheinlichkeiten von 1.. x2 ) := xi . Gesucht ist hier stattdessen u P (X1 = k|B) mit B := {X1 + X2 = 5}. 6 jetzt ausgeschlossen. Verteilungen ver¨ndern.

F¨r i ≤ k ist P (A|Bi ) = 0. n die n Objekte.... i Beweis: A ∩ Bi ist eine Partition von A.σ(k)}) = k . 37 (praktisch unabh¨ngig von der Anzahl e n der Objekte). .. F¨r jede Partition Bi . Mit der u u Fallunterscheidungsformel folgt nun n P (A) = i=1 P (A|Bi )P (Bi ) = k 1 k 1 k = ≈ i−1n n i=k+1 i − 1 n i=k+1 n n n k k k 1 dx = − log . von Ω (d. und dann das n¨chste zu a nehmen. eine Partition Bi zu finden. Insofern ist P (A) mindestens k n−k ( ≈ 1 f¨r k := n ).. n} → {1.. P = UΩ .) Zumindest dann wenn das zweitbeste Objekt unter den ersten k. stehen n Objekte zur Verf¨gung. 3. F. . sortiert nach aufsteigendem Wert.... daher gilt P (A|Bi )P (Bi ) = i i P (A ∩ Bi ) P (Bi ) = P (Bi ) P (A ∩ Bi ) = P ( i i (A ∩ Bi )) = P (A). a Seien dazu 1.. P ) ein Wahru scheinlichkeitsraum und A ∈ F.. das beste Objekt zu bekommen. die man hintereinander sieht. F¨r die Berechnung u u von P (A) bedingen wir auf die Position des besten Objekts: Bi := {σ : σ(i) = n}. und die entsprechende u u k e a Wahrscheinlichkeit ist dann P (A) ≈ 1 ≈ 0. F = P(Ω). . d. F¨r i > k ist o u P (A|Bi ) = P (max{σ(1).. x n n F¨r f (x) := −x log x ist f (x) = − log x − 1. Eine m¨gliche Strategie o o besteht darin. (Falls kein besseres mehr kommt geht man leer aus. i Bi = Ω) gilt P (A) = P (A|Bi )P (Bi ).h. die die Berechnung von P (A|Bi ) m¨glichst einfach macht. zu warten bis man k der Objekte gesehen hat.) Sei (Ω..h. i ∈ I. 2. n} : σ bijektiv}. Sei Ω die Menge der Permutationen von {1. . Was ist eine gute Strategie. um mit m¨glichst hoher Wahrscheinlichkeit das beste Objekt zu erhalten? o L¨sung: Sei A das Ereignis. . und das beste unter den letzten n−k ist.3. Dabei ist u es aber oft schwierig. F¨r σ ∈ Ω sei σ(i) das i-te Objekt. 2. i−1 denn unter den i − 1 Anfangsobjekten ist das beste mit gleicher Wahrscheinlichkeit an 1 jeder Stelle. Bi ∈ F u disjunkt. muss bei u o a jedem sofort entscheiden. also hat f ein Maximum bei x = 1 . das besser ist als alle bisherigen. Die Fallunterscheidungsformel ist n¨tzlich bei der Bestimmung von P (A). Man m¨chte genau eines ausw¨hlen. .σ(i − 1)} ∈ {σ(1). u e Also wird P (zumindest f¨r große n) maximal f¨r n ≈ 1 . bekommt man das beste. denn dann besteht keine u M¨glichkeit das beste Objekt zu erhalten.. n}. 2. k optimal zu w¨hlen. Die Bi bilden eine Partition... Ω = {σ : {1. Aus Symmetriegr¨nden gilt ferner P (Bi ) = n f¨r alle 1 ≤ i ≤ n.1 Bedingte Wahrscheinlichkeiten 22 Satz: (Fallunterscheidungsformel f¨r Wahrscheinlichkeiten. ob man es will oder nicht. o Beispiel: Im sogenannten Auktionsproblem oder Heiratsproblem. 2. Wir wollen P (A) f¨r beliebiges k genauer bestimmen und u u n n−1 4 2 versuchen.

In beiden F¨llen bezeichnen wir mit PX (. Ahnlich kann man vorgehen bei mehr als zwei Zufallsvariablen oder im gemischt diskret-stetigen Fall. Die neue Normalisie¨ 3 3 2/3 2 9 rungskonstante c ergibt sich aus 0 xdx = 9 .|Y = y) und fX (.Y (x.Y (x.Y (y) ρY als bedingte Z¨hldichte von X gegeben Y = y. y) = x gew¨hlt. c = 2 . gegeben den Wert von Y . Y ) z. falls ρY (y) = 0. so definieren wir fX (x|Y = y) := X. Bei der Modellierung gen¨gt es also. Ist Y stetig. ist zwar P (Y = y) = 0. dennoch gehen wir analog vor: Im diskreten Fall ist die Verteilung von X bei gegebenem Y = y bestimmt durch die renormalisierte Z¨hlichte ρ(. Definition: Bedingte Verteilung. • Sind X. Bemerkung: • Man kann leicht nachpr¨fen. liefert das letzte Kapitel die Antwort: P (X = x|Y = y) = ρX.B. die sogea o ¨ nannte bedingte Verteilung von X. Bestimmen Sie P (X ≥ 1 |Y = 3 ). Y ) der Menge {(x. aus der Verteilung von Y und der bedingter Verteilung von X gegeben Y ergibt: fX. Bei der Blutuntersuchung einer Person ergibt sich ein positives Testresultat. u • Obige Definition impliziert. Y . d. Es folgt 1 1 P (X ≥ |Y = ) = 2 3 1 1 2 ρ (x.|Y = y) die zugeh¨rige Verteilung.3.y) 1 fX (x|Y = )dx = 3 2 3 1 2 9 7 xdx = .h. 0 < x < 2 ..2 Bedingte Verteilungen Ein Zufallsexperiment liefert zwei Werte X. y).Y (y) fY als bedingte Dichte von X gegeben Y = y. falls fY (y) = 0. Y diskret sind.2 Bedingte Verteilungen 23 3. Beispiel: Ein zuf¨lliger Punkt (X. x + y ≤ 1} wird a 1 gem¨ß der Dichte fX. 2 16 Beispiel: Eine seltene Krankheit betrifft 1 unter 10000 Personen..|Y = y) die Normalisieu rungsbedingung erf¨llen. y) : x. a a 2 Losung: Die bedingte Dichte ist fX (x|Y = 1 ) = cx. so definieren wir ρX (x|Y = y) := X. u entsprechende Verteilungen und bedingte Verteilungen anzugeben. a • Sind X. dass ρX (. Y diskret. Was ist die Verteilung von X bei bekanntem Wert Y = y? Falls X. Ein Bluttest bez¨glich u dieser Krankheit liefert bei gesunden Personen ein korrektes Ergebnis mit 99% und bei kranken Personen mit 95%. y) = fY (y) · fX (x|Y = y). y) ρY (y) falls P (Y = y) = 0.y) f (x. y > 0. dass sich die gemeinsame Verteilung von (X.Y (x. Y stetig. y). also definieren wir im stetigen Fall die bedinge Verteilung durch die a geeignet renormalisierte Dichtefunktion f (. Mit welcher Wahrscheinlichkeit ist die Person wirklich krank? .

Unter den 9999 gesunden haben im Durchschnitt 1 %. Dr¨ckt man alle Ereignisse o a u 1 als Teilmengen von Ω aus erh¨lt man P (A) = P (B) = P (C) = 2 und P (A ∩ B) = a P (A ∩ C) = P (B ∩ C) = 1 . P = UΩ . falls sich die Wahrscheinlichkeit nicht ¨ndert durch a a zus¨tzliche Information. P (X2 = g|X1 = g) = 0.95 · 10000 P (X1 = k.h.99. i ∈ I unabh¨ngig :⇔ f¨r jedes endliche J ⊂ I : P ( a u i∈J Ai ) = i∈J P (Ai ) Beispiel: Seien A. B ∈ F bedeutet dies: P (A) = P (A|B) = a P (A∩B) . Um dem schlechten Testverhalten abzuhelfen. B = “2. 10000 P (X2 = k|X1 = k) = 0. Gegeben sind: P (X1 = k) = 1 . Obiges Ergebnis ist vielleicht etwas uberrao ¨ schend: der Test scheint doch eigentlich recht gut zu sein scheint. Bei Ereignissen A. 3. 4 4 Analog definiert man Unabh¨ngigkeit f¨r Zufallsvariablen: a u . d. A2 unabh¨ngig :⇔ P (A1 ∩ A2 ) = P (A1 )P (A2 ) a (b) Ai .3 Unabh¨ngigkeit a 24 L¨sung: Seien X1 . aber nicht unabh¨ngig sind: a a A = “1.3. Hierbei bedeutet g gesund. F. aber P (A ∩ B ∩ C) = 1 . B unabh¨ngig. F = P(Ω). k}. P (B) Definition: Unabh¨ngigkeit von Ereignissen. o X1 sei der wirkliche Gesundheitszustand und X2 das Testergebnis. Wir erhalten a P (X1 = k|X2 = k) = 1 0. Zeigen Sie.01 10000 Im zweiten Schritt haben wir die Wahrscheinlichkeiten durch Fallunterscheidung nach den m¨glichen Werten von X1 berechnet. (a) A1 . dass folgende Ereignisse u paarweise unabh¨ngig. Man zeige: A. X2 ZVen mit Werten in {g. Die Erkl¨rung f¨r a u das Ergebnis liegt darin. dass die Krankheit so selten ist: Unter 10000 Personen ist nur einer wirklich krank. 100 ein positives Testresultat. 1 P (X2 = k) 0. d. M¨nze Zahl”. Beispiel: Eine M¨nze wird zweimal geworfen. P ) ein Wahrscheinlicha keitsraum und Ai ∈ F. Sei (Ω. 1}2 . X2 = k) = 9999 ≈ 1%.95 10000 + 0. P (A ∩ B) = P (A)P (B).95. also ca. C = “beide M¨nzen gleich” u u u L¨sung: Wir w¨hlen Ω = {0. B c sind auch unabh¨ngig.3 Unabh¨ngigkeit a Von Unabh¨ngigkeit spricht man.h. a a L¨sung: P (A ∩ B c ) = P (A) − P (A ∩ B) = P (A) − P (A)P (B) = P (A)(1 − P (B)) = o P (A)P (B c ). Damit ist das Problem vollst¨ndig modelliert. k krank. auf andere Anzeichen testen. gegeben sind die Verteilung von X1 und die bedingte Verteilung von X2 . i ∈ I paarweise unabh¨ngig :⇔ P (Ai ∩ Aj ) = P (Ai )P (Aj ) ∀i = j a (c) Ai . M¨nze Zahl”. sollte man also den Test wiederholen. bzw.

) • Sind f1 . (a) X1 .xn ∈An ρX1 (x1 ) · .Xn (x1 .. a so folgt sofort... ⇔ ρX1 . Fi ) ZVen.. u • Statt jeweils alle Ai ∈ Fi . i ∈ I paarweise unabh¨ngig :⇔ a P (Xi ∈ Ai . gen¨gt es nur Ai ∈ Si zu betrachten. Xn reele Zufallsvariablen.. y) = f1 (x)f2 (y)....... xn ∈An i=1 ρXi (xi ) x1 ∈A1 . ⇔ fX1 .3. xn ) = X1 .Xn (x1 .. .. (a) F¨r X1 . a Sei (Ω.. wobei Si ein u ∩-stabiler Erzeuger von Fi ist. f2 . Xj ∈ Aj ) = P (Xi ∈ Ai )P (Xj ∈ Aj ) ∀Ai ∈ Fi .Y (x.. Bemerkung: • X...3 Unabh¨ngigkeit a 25 Definition: Unabh¨ngigkeit von ZVen. ”⇐”: F¨r beliebige Ai ∈ Fi ist u n P (X1 ∈ A1 . • X1 . fX (x) = fX (x|Y = y) ⇔ das a Verhalten von Y ist irrelevant f¨r die Verteilung von X. f2 Z¨hldichten bzw. Xn stetig: u X1 ... X2 unabh¨ngig :⇔ a P (X1 ∈ A1 . Xn unabh. · xn ∈An ρXn (xn ) = P (X1 ∈ A1 ) · . . xn ) = n i=1 n i=1 ρXi (xi ) fXi (xi ) Beweis: (b) ist Hausaufgabe. (Dies folgt aus dem Eindeutigkeitssatz. da beliebige Informationen uber X u ¨ ber¨cksichtigt werden sollen.. .. ... · P (Xn ∈ An ). Y unabh¨ngig ⇔ ρX (x) = ρX (x|Y = y) bzw... F) → (Ωi . (Man setze f¨r festes J in obiger Definition einfach Ai := Ωi f¨r i ∈ J..Y (x.) u u / Auch auf der Ebene von Dichtefunktionen kann Unabh¨ngigkeit durch entsprechende a Produktformeln charakterisiert werden: Satz: Seien X1 . (Dies folgt direkt aus u dem letzten Satz. F.. Y unabh¨ngig sind mit Dichten f1 .. Ai ∈ Fi : P (Xi ∈ Ai ∀i ∈ J) = u Bemerkung: • Wir betrachten {X ∈ A} f¨r beliebige A. dass X. .. y) = f1 (x)... i ∈ I... Aj ∈ Fj . Xn unabh¨ngig ⇔ ∀Ai ∈ Fi : P (Xi ∈ Ai ∀1 ≤ i ≤ n) = a i=1 P (Xi ∈ Ai ). . . Dichtefunktion und gilt fX... . .Xn (x1 . X2 ∈ A2 ) = P (X1 ∈ A1 )P (X2 ∈ A2 ) ∀A1 ∈ F1 . xn ) = x1 ∈A1 . .. P ) ein Wahrscheinlichkeitsraum und Xi : (Ω.) n i∈J P (Xi ∈ Ai ).. Xn unabh. Wir zeigen (a): “⇒”: Dies folgt sofort aus der Definition mit Ai := {xi }. A2 ∈ F2 (b) Xi .. Xn diskret: u (b) F¨r X1 ...... denn dann ist a automatisch fX (x) = dyfX.. i = j ∈ I (c) Xi . und analog fY (y) = f2 (y).. i ∈ I unabh¨ngig :⇔ a f¨r jedes endliche J ⊂ I.. Xn ∈ An ) = = x1 ∈Ai ρX1 ... ...

und Xi ist gleichverteilt auf {0. 0 = Kopf)... X7 .. )) = n 2 λ([0.. c + 21 )) 1 1 n = n... die bin¨re Nachkommastellen einer zuf¨llige Zahl X in a a [0.. Dann sind die ZVen Yk := fk (Xi : i ∈ Jk ). . X100 ) mit f1 (x) = a a f2 (x) = 50 xi .. ρ2 .. (b) Sind X1 .3 Unabh¨ngigkeit a 26 Beispiel: : Seien X1 . Y2 gebe an wie oft “Zahl” bei u den ersten 50 bzw. Jk ⊂ I a a disjunkt und fk : ×i∈Jk Ωi → Ω(k) . a 1 L¨sung: Es ist X = i Xii . . 1}.. X3 )). dass ρX1 . X50 ) und Y2 = f2 (X51 .. X2 ..... Y1 bzw. Es gen¨gt zu zeigen. . 1}. X2 stetig mit Dichten f1 . k1 . X2 .. i ∈ I unabh¨ngige ZVen.. . 1]) 2 1 )= 2n Satz: (Vererbung von Unabh¨ngigkeit. kn ) = P (X1 = k1 . also gleichverteilt. i=1 Satz: (Faltung von ZVen. Beispiel: Eine M¨nze wird 100 Mal geworfen. Die Xi sind dann o ˆ ˆ unabh¨ngig. c + λ([c.Xn (k1 . . f2 . X2 diskret mit Z¨hldichten ρ1 ... a (a) Sind X1 . Man zeige: X1 . und es ist Y1 = f1 (X1 . kn ) = 1 · ... Man zeige. auch wieder unabh¨ngig.... a 2 ki Seien also ki ∈ {0. Y1 = f1 (X1 . k2 ) = ρ1 (k1 )ρ2 (k2 ). a u a a L¨sung: Sei Xi das Ergebnis des i-ten Wurfes.k2 :k1 +k2 =k Mit l := k1 ist k2 = k − l und die Summe hat die gegebene Form. o u 2 2 Nach obiger Bemerkung folgt dann. Y2 unabh¨ngig sind. n¨chsten 50 W¨rfen f¨llt. a Beweis: Hausaufgabe (im Spezialfall).... (1 = Zahl. k ∈ K. Xn = kn ) = P (c ≤ X < c + P (X ∈ [c. Beweis: (b) ist Hausaufgabe und (a) folgt aus ρ(k) = P (X1 + X2 = k) = ρX1 .. dann ist mit c := i 2i ρX1 . .B. · 2 .) Seien Xi . dass X1 .. (z. X2 ).k2 :k1 +k2 =k k1 . 1]. Nach dem Satz sind daher Y1 .) Seien X1 . ...3. Y2 = f2 (X4 . dann ist Y diskret mit Z¨hldichte a a ρ(k) = l ρ1 (l)ρ2 (k − l).X2 (k1 .Xn (k1 .. Xn unabh¨ngig sind mit Dichte ρi (ki ) = a 1 . . Damit ist dann auch jede endliche Teilmenge der Xi unabh¨ngig.. dass Y1 . X2 unabh¨ngig und Y = X1 + X2 . dann ist Y stetig mit Dichte f (y) = dxf1 (x)f2 (y − x). sind unabh¨ngig. Y2 unabh¨ngig.

dxn . E(X− ) < ∞.4 Erwartungswert 27 4 4.. Satz: Erwartungswert von diskreten und stetigen ZVen. d.. . Xn )) = g(x1 .kn g(k1 . an ≥ 0.. Xn )) = k1 . X = An ∈ B. Insbesondere ist f¨r eine reelle ZVe mit Z¨hldichte ρ bzw. −∞. n=1 N n=1 an 1An mit N ∈ N.h. dass die eine Seite genau dann wohldefiniert ist. ist der Erwartungswert nicht definiert... Beweis: Maßtheorie.. E(X+ ). Hierbei ist X+ = |X|·1{X>0} u der Positiv-Teil und X− = |X| · 1{X<0} der Negativ-Teil von X..... wenn die Reihe konvergiert. • L1 sei die Menge aller ZVen X mit E(|X|) < ∞... .. . approximiert man X von unten durch Treppenfunktionen Xn . kn )ρ(k1 . Insbesondere im 1... dass E(X+ ) oder E(X− ) unendlich sind. Bemerkung: • F¨r Details... dann ist a E(g(X1 . . d..) Der Erwartungswert wird schrittweise definiert: • Ist X ≥ 0 eine Treppenfunktion. • Ist X ≥ 0 beliebig... d. . und setzt dann E(X) := limn→∞ E(Xn ). Sind X1 . xn )f (x1 .1 Erwartungswert Erwartungswert Der Erwartungswert E(X) ist Mittelwert einer reellen ZVe X : Ω → R. und 2. Falls beide unendlich sind. Xn reelle ZVen mit gemeinsamer Z¨hldichte ρ bzw. Bemerkung: • Im Satz sind die Gleichungen so zu verstehen. und daher ist E(X) u definiert und hat einen endlichen Wert.. Sei g : Rn → R messbar. Falls einer unendlich ist.h. Beispielsweise im Falle von X mit Z¨hldichte existiert der Erwartungswert genau dann. Dichte f . xn )dx1 . . a • Im dritten Schritt kann es passieren. ist E(X) = ∞ bzw. E(g(X1 .. .. siehe Maßtheorie. • F¨r beliebiges X setzt man E(X) := E(X+ )−E(X− ). kn ).. also nicht von der speziellen Darstellung von X abh¨ngt.h. F¨r X ∈ L1 sind beide endlich. setzt man E(X) := N an P (An )... dass u E(X) wohldefiniert ist. Schritt ist zu zeigen. a . wobei jeder m¨gliche Wert mit seiner Wahrscheinlichkeit gewichtet wird. wenn es die andere Seite ist.. (Dies entspricht also dem o Massenschwerpunkt einer Massenverteilung. bzw. Xn ↑ X. E(X) = xf (x)dx. Dichte f u a E(X) = k kρ(k) bzw.

dass die Erwartungswerte existieren. y) = x. E(1) = E(1Ω ) = 1 (b) Linearit¨t: E(aX + bY ) = a · E(X) + b · E(Y ) a (c) Monotonie: X ≤ Y ⇒ E(X) ≤ E(Y ) (d) Multiplikativit¨t: X.) Sei (Ω.y xyρX (x)ρY (y) = ( x xρX (x))( y yρY (y)) = E(X)E(Y ). (d) auf endliche Summen und Produkte. dass der Erwartungswert jeweils nur von der Verteilung abh¨ngt. P ) ein Wahrscheinlichkeitsraum. seien X. F. ∞ −∞ = 1 2π ln(1 + x2 ) = ∞ − ∞. 1 π Beispiel: Erwartungswert f¨r X mit der Dichte f (x) = u 1 L¨sung: E(X) = xf (x)dx = −∞ π · o Erwartungswert ist also nicht definiert! ∞ x 1+x2 · 1 1+x2 (Cauchy-Verteilung). (b) Mit g(x. y) = ax + by folgt aus dem letzten Satz E(aX + bY ) = x.4. y) ≥ 0. Y diskret mit gemeinsamer Dichte ρ.y (ax + by)ρ(x.y ≥0 (c) Nach (b) ist E(Y ) − E(X) = E(Y − X) = (d) Mit g(x. y) = a x x y ρ(x. x. denn {1A = 1} = A. • Man beachte.Y unabh¨ngig ⇒ E(XY ) = E(X)E(Y ) a a Beweis: (f¨r diskrete ZVen). a Beispiel: Erwartungswert der Augenzahl bei einmaligem Werfen eines W¨rfels. u (a) E(1A ) = 1 · P (1A = 1) + 0 · P (1A = 0) = P (A).y xyρ(x. Y reelle ZVen. y) = xy folgt aus dem letzten Satz E(XY ) = x. (a) E(1A ) = P (A). (y − x) · ρ(x. • Per Induktion verallgemeinert man (b). A ∈ F. b ∈ R. y) + b y y x ρ(x. . Seien X. 5. Der Satz: (Eigenschaften des Erwartungswerts. y) =a x xρX (x) + b y yρY (y) = aE(X) + bE(Y ).1 Erwartungswert 28 • F¨r unsere Zwecke kann man die Gleichungen aus dem Satz als Definition des u Erwartungswerts ansehen. u L¨sung: E(X) = o 6 k=1 k· 1 6 = 3. a. Bemerkung: • Im Satz ist implizit vorausgesetzt.

Y ) ist also ein gewisses Maß daf¨r. Y ∈ L2 ist die Kovarianz definiert durch u Cov(X. Xj ))ij ist positiv semidefinit: ∀v ∈ Rn : v T Cv = i. u Definition: F¨r X.j als u Kovarianzmatrix bezeichnet. ob X −E(X) und Y −E(Y ) bevorzugt gleiches Vorzeichen oder verschiedenes Vorzeichen haben. Yj ). Y ) := E[(X − E(X))(Y − E(Y ))] = E(XY ) − E(X)E(Y ). Bemerkung: • Die Gleichheit in der Definition ergibt sich durch Ausmultiplizieren aus der Linearit¨t des Erwartungswerts. Xj ))i. Satz: (Eigenschaften der Kovarianz. ai .). (b) Bilinearit¨t: Cov( a i ai X i . .2 Kovarianz und Varianz Definition: Sei L2 := {X : Ω → R ZVe : E(X 2 ) < ∞}. Xi . dass unabh¨ngia a ge ZVen automatisch unkorreliert sind. ob X und Y lieber u gleichzeitig relativ große und relativ kleine Werte annehmen (bezogen auf den jeweiligen Mittelwert) oder nicht. Y ∈ L2 ist E(XY ) wohldefiniert... Y ) = Cov(Y. Bemerkung: • Es gilt L2 ⊂ L1 und man kann zeigen. (c) Konstanten: Cov(X. a • F¨r X. Cov(X. F¨r X1 . Y als negativ korreliert   = 0 X. . Yi ∈ L2 . Y. j bj Y j ) = i j ai bj Cov(Xi . Y als unkorreliert • Aus der Multiplikativit¨tsregel des Erwartungswerts folgt sofort. (a) Symmetrie: Cov(X. 1 ≤ i ≤ n. a • Interpretation der Kovarianz: das Vorzeichen von Cov(X. Y als positiv korreliert  Cov(X. Seien X. Man bezeichnet bei   > 0 X. Y ) bestimmt sich daraus.j vi Cij vj ≥ 0. Y + c) = Cov(X. c ∈ R. bi . c) = 0. dass L1 und L2 Vektorr¨ume sind. Cov(X.4.2 Kovarianz und Varianz 29 4. X). (d) C := (Cov(Xi . Xn ∈ L2 wird (E(Xi ))i als Erwartungsvektor und (Cov(Xi . Y ) < 0 X. Y )..

.. (d) F¨r v ∈ Rn ist wegen (b) unter Verwendung von Z := i vi Xi u vi Cov(Xi . u u L¨sung: Seien X1 .4. wie stark die Werte u von X streuen. 1 ≤ i ≤ n. = i (c) Cov(X.. (b) Summenregel: V( i Xi ) = unabh¨ngige X1 . c) = E((X − E(X))(c − E(c))) = E(0) = 0 und der Rest folgt mit (b). Z) = E((Z − E(Z))2 ) ≥ 0. F¨r u u 2 X ∈ L ist V(X) < ∞. ben¨tigen wir ρX . daher beo a a schreiten wir einen Alternativweg: . i Beweis: Diese Eigenschaften ergeben sich sofort aus V(X) = Cov(X. 6}. ist aber sehr aufw¨ndig.) Seien X. Beispiel: Man bestimme E und V f¨r die Augensumme bei 12 Mal W¨rfeln. .. X) = E[(X − E(X))2 ] = E(X 2 ) − E(X)2 .. Xi ∈ L2 und c ∈ R. ... Um diese Summen zu berechnen.j i v i Xi . (a) Konstanten: V(X + c) = V(X). V(cX) = c2 V(X). V(c) = 0. X12 die erzielten Augenzahlen. Xj ). Xn V( a V(Xi ) + i=j Cov(Xi . Satz: (Eigenschaften der Varianz. Diese Z¨hldichte zu bestimmen. Bemerkung: • Aus der Definition folgt sofort V(X) ≥ 0.. Y ).2 Kovarianz und Varianz 30 Beweis: (a) ist klar (b) Wegen (a) gen¨gt es die Linearit¨t in der ersten Komponente zu zeigen: u a Cov i ai X i . Insbesondere gilt f¨r u i Xi ) = i V(Xi ). Y =E i ai Xi − E( i ai Xi ) Y − E(Y ) ai E (Xi − E(Xi ))(Y − E(Y )) i =E i ai (Xi − E(Xi ))(Y − E(Y )) = ai Cov(Xi . E(X ) = k k ρX (k). Wir verfolgen 2 Ans¨tze: a 2 2 (1) E(X) = k kρX (k).. X) und den Eigenschaften der Kovarianz.. Definition: F¨r X ∈ L1 ist die Varianz definiert durch u V(X) := Cov(X. Xj )vj = Cov i. F¨r X ∈ L1 kann V(X) = ∞ sein. Die Xi sind unabh¨ngig und o a gleichverteilt auf {1. j vj Xj = Cov(Z. • V(X) = E[(X − E(X))2 ] ist der durchschnittliche quadratische Abstand von X zu seinem Mittelwert. V(X) ist also ein gewisses Maß daf¨r.

dass X ∗ und Y ∗ gleichgroße u Werte haben. Y ∈ L2 ist die Korrelation definiert durch ρ(X. a Bisweilen ist es sinnvoll ZVen auf eine Normalform zu bringen. Y ) = E(X ∗ Y ∗ ) ist ein Maß f¨r die Tendenz.4.. u V(X) Bemerkung: • Nach den Rechenregeln f¨r E und V ist E(X ∗ ) = √ 1 u V(X ∗ ) = ( √ 1 V(X) V(X) (E(X) − E(X)) = 0 und )2 V(X) = 1.2 Kovarianz und Varianz 31 (2) Wir bestimmen zun¨chst E(Xi ) und V(Xi ): a 1 + . −X) = −1 (Gr¨ße genau gegenl¨ufig). 1]. Definition: • F¨r X ∈ L1 ist die Standardabweichung definiert durch σ(X) := u • F¨r X. X) = 1 (Gr¨ße genau gleich) und a o ρ(X. 1] und die extremalen F¨lle werden erreicht durch ρ(X. σ(X) V(X). . Y ) = E( X−E(X) Y σ(Y ) ) ) = E(X ∗ Y ∗ ) = Cov(X ∗ . X ∗ ist also eine gr¨ßenbereinigte Version von X. Y ∗ )..Y ) . und sind daher zum Rechnen o besser geeignet. Y ) := u Bemerkung: −E(Y • Es gilt ρ(X. + 62 91 = = . √ Definition: F¨r X ∈ L2 heißt X ∗ := X−E(X) die Standardisierung von X. Y ∗ ) = 2 ± 2ρ(X. Y ). Cov(X. Y ) ∈ [−1. 6 6 6 u also V(Xi ) = E(Xi2 ) − E(Xi )2 = 91 − 49 = 35 . Nach dem folgenden Lemma ist ρ(X. Y ) ∈ [−1. o • X ∗ hat die gleiche Wahrscheinlichkeitsverteilung wie X. abgesehen davon dass die Werte entsprechend verschoben und gestaucht wurden. Daf¨r haben σ und ρ die interessantere Interpretation: u • Da V ein Maß f¨r die durchschnittliche quadratische Abweichung vom Mittelu wert ist. + 6 7 1 = E(Xi ) = k = 6 6 2 k=1 6 6 und E(Xi2 ) = k=1 k2 1 12 + . kann σ als Maß f¨r die durchschnittliche Abweichung vom Mittelwert u betrachtet werden. • ρ(X. Letzteres gilt. da die Xi unabh¨ngig sind.. σ(X)σ(Y ) • Cov und V haben die sch¨neren Eigenschaften. Mit den Rechenregeln f¨r E und V folgt 6 4 12 nun E(X) = i E(Xi ) = 42 und V(X) = i V(Xi ) = 35.. Y ∈ L2 ist ρ(X. u Beweis: Die Behauptung folgt mittels der Rechenregeln aus 0 ≤ V(X ∗ ± Y ∗ ) = V(X ∗ ) + V(Y ∗ ) ± 2Cov(X ∗ . o a Lemma: F¨r X.

. 1Ai = 1..n}:|J|=k P j∈J Aj f¨r Ai ∈ F. u L¨sung: Schreibt man die Wahrscheinlichkeiten als Erwartungen von Indikatorfunko tionen. d. Hier kann man den Erwartungswert (und die Varianz) besonders einfach berechnen: Satz: Ist X = i 1Ai mit Ai ∈ F. Dies zeigt man unter Verwendung von 1 − 1A = 1Ac und 1∩Ai = 1−1 i 1Ai : Es ist (−1Ai ) und Ai k = 1( i Ai )c =1 Ai i Ac i = i k 1Ac = i i (1 − 1Ai ) = J i∈J (−1) k 1 J:|J|=k i∈J = k (−1) 1Ai = J:|J|=k i∈J k J:|J|=k i∈J (−1Ai ). 6. . Beispiel: Wir w¨hlen rein zuf¨llig eine 8-stellige Codezahl mit Ziffern aus {1.. P = UΩ . 4.. P (Ai ) und P (Ai ∩ Aj ) sind aber nicht so leicht zu bestimmen. 6 und V(X) = V(Y ) ≈ 0. X ist die Anzahl u von allen Ereignissen Ai die eintreten.. die nicht vorkommen.3 Verwendung von Indikatorfunktion und Bedingungen 32 4. 6 also V(Y ) = E(Y 2 ) − E(Y )2 = 0... die in der Codezahl vorkommen. dass Ziffer i vorkommt. so gen¨gt es wegen der Linearit¨t der Erwartung zu zeigen.h. 2 i 1Ai i E(1Ai ) = i P (Ai ) und die zweite Gleichung folgt ebenso. a a Man bestimme. wobei Ai das Ereignis ist. 1 ≤ i ≤ n. 6. wie viele verschiedenen Ziffer die Codezahl im Durchschnitt hat.. E(Y 2 ) = 6( 6 )8 +6·5( 4 )8 ≈ 2. F = P(Ω). Es ist X = 1Ai . 6}8 .. dass u a n n 1 i Ai = k=1 (−1) k+1 J:|J|=k 1 j∈J Aj . . so ist P (Ai ) i E(X) = Beweis: E( i 1Ai ) = da X 2 = ( i 1Ai )2 = und E(X 2 ) = i P (Ai ) + i=j P (Ai ∩ Aj ).3 Verwendung von Indikatorfunktion und Bedingungen Ist X = i 1Ai . 1−1 i Ai = k=0 (−1)k J:|J|=k 1 j∈J Aj . Hieraus folgt sofort E(X) = 6 − E(Y ) ≈ 4. so haben wir f¨r jedes Ai . 6. Es gilt X = 6−Y und E(Y ) und V(Y ) ergeben 5 5 sich aus dem vorhergehenden Satz: E(Y ) = 6( 6 )8 ≈ 1. 5 Leichter ist P (Ac ) = ( 6 )8 und P (Ac ∩ Ac ) = ( 4 )8 . . 6}.h. Beispiel: Man zeige mittels Indikatorfunktionen die Einschluss-Ausschlussformel: n n P i=1 Ai = k=1 (−1)k+1 J⊂{1.4.. d. das eintritt. Sei X die Anzahl der verschiedenen ¨ Ziffern. + i=j 1Ai 1Aj = i 1Ai + i=j 1Ai ∩Aj . Losung: Sei Ω {1. Daher setzen wir Y := i 1Ac die i j i 6 i Anzahl der Ziffern.

y) = 1 fY (y)fX (x|Y = y) = 1[0. Die Verteilung von Y ist U[0.y] (x). y)|Y = y).) E(X|Y = y) = u E(X|Y = y)ρ(y) = y y x x xρX (x|Y = y) = x x ρX.Y (x. die das Problem vereinfachen! .Y (x. Y reelle Zufallsvariablen.y] ). x y Beispiel: Ein Stab der L¨nge 1 bricht an einer zuf¨lligen Stelle. und der rechte Teil a wird wieder weggeworfen.1] und die bedingte Verteilung von X. Wie groß ist der restliche Teil im Durchschnitt? Losung: ¨ Sei Y die Restl¨nge nach dem ersten Bruch und X die Restl¨nge nach dem zweiten a a Bruch. Y unabh¨ngige Zufallsvariablen. und berechnet hieraus E(X) = dxdyxfX. Y )|Y = y) = E(f (X. gegeben Y = y. E(X) = dyE(X|Y = y)f (y). falls die rechte Seite definiert ist.y) . 2 2 4 1 denn Y ∼ U[0.Y (x.|Y = y). Satz: Sind X. u Satz: Seien X. Y Zufallsvariablen.1] impliziert E(Y ) = 2 . Beweis: Hausaufgabe f¨ den Fall X. Zusammenfassend schreibt man diese Formel auch in der Form E(X) = E(E(X|Y )) (“Turmeigenschaft f¨r den Erwartungswert”).Y (x. so ist E(f (X. Hieraus folgt sofort die Behauptung. r Bemerkung: Bei beiden hier vorgestellten Berechnungsmethoden des Erwartungswerts besteht das Problem nicht in der Anwendung der Formeln.4. u Beweis: (f¨r X. Hat Y Z¨hldichte ρ bzw. y). so ist E(X|Y = y) = E(X). Aufgrund der Struktur des Problems ist aber folgender Ansatz einfacher: (2) Es ist E(X|Y = y) = y (Erwartungswert von U[0. y) = E(X).y] . Hierbei steht E(X|Y = y) u f¨r den Erwartungswert von X unter dem Wahrscheinlichkeitsmaß P (. der linke Teil bricht wieder an einer zuf¨lligen Stelle. f¨r u eine gegebene ZVe X geeignete Indikatorfunktionen oder eine geeignete Bedingung Y zu finden. ρY (y) also x ρX. sondern darin. y) ρY (y) = ρY (y) xρX. Y diskret. ist U[0. a Beweis: Bei Unabh¨ngigkeit ist die bedingte Verteilung identisch mit der unbedingten a Verteilung. Dichte f so gilt a E(X) = y E(X|Y = y)ρ(y) bzw. Der rechte Teil wird a a weggeworfen. Wir verfolgen 2 Ans¨tze: a (1) Aus den gegebenen Verteilungen bestimmt man die gemeinsame Dichte fX.Y (x. Y diskret. Bei komplizierteren Aufgaben sind folgende einfache Tatsachen oft n¨tzlich: u Satz: Sind X.3 Verwendung von Indikatorfunktion und Bedingungen 33 Eine andere Methode zur Berechnung des Erwartungswerts beruht auf einer Fallunterscheidungsformel analog zu der f¨r Wahrscheinlichkeiten.1] (y) y 1[0. Mit dem Satz erhalten wir 2 also 1 1 1 E(X) = dyE(X|Y = y)fY (y) = dyyfY (y) = E(Y ) = .

.. (d) Analog zur Eindeutigkeit bei der Fourier-Transformation.) In diesem Fall ist X n ∈ L1 f¨r alle n.4 Momentenerzeugende Funktionen MX (t) = E(etX ). (a) Momente: E(X n ) = dn MX (t)|t=0 dxn (b) Lineare Transformation: MaX+b (t) = ebt MX (at) (c) Produkteigenschaft: Sind X..Xn : Rn → R mit MX1 . Y unabh¨ngig. a (d) Eindeutigkeit: Ist MX = MY in einer Umgebung der 0. u t(aX+b) tb atX tb (at)X (b) E(e ) = E(e · e ) = e · E(e ). u MX (t) = dxetx fX (x) f¨r X stetig u Satz: (Eigenschaften von MX . Y die gleiche Verteilung. Definition: Die momentenerzeugende Funktion (MF) einer reellen ZVe X ist MX : R → R.+tn Xn ). t F¨r t = 0 ergibt u Bemerkung: : Analog definiert man die (gemeinsame) MF von reellen ZVen X1 ... . Beispiel: Man bestimme die MF von X ∼ U[0. Die Vertauschbarkeit von E u und Ableitung muss hierbei noch genauer begr¨ndet werden (vgl. F¨r n = 2 ist d2 t MX (t) = dt MX (X · eXt ) = E(X 2 · eXt ) und mit t = 0 folgt u die Formel. (c) E(et(X+Y ) ) = E(etX · etY ) = E(etX )E(etY ).Xn (t1 . u • Mit den Formeln f¨r den Erwartungswert von diskreten bzw. so haben X.4 Momentenerzeugende Funktionen 34 4. a.. Y reelle ZVen.. t ∈ R. Maßtheorie). Beweis: (in Teilen) d d d (a)F¨r n = 1 ist dt MX (t) = dt E(eXt ) = E( dt eXt ) = E(XeXt ) und mit t = 0 folgt die u d2 d Formel. u (Dies soll im Folgenden generell vorausgesetzt sein.. Losung: MX (t) = E(etX ) = ¨ sich MX (0) = 1. a .) Seien X.4. stetigen ZVen folgt: u MX (t) = k etk ρX (k) f¨r X diskret. Xn als MX1 . so ist MX+Y (t) = MX (t) · MY (t).tn ) = E(et1 X1 +. etX f (x)dx = 1 tX e dx 0 = 1 etX |1 = 0 t et −1 ... Bemerkung: • MX ist nur sinnvoll falls E wenigstens f¨r t in einer Umgebung von 0 endlich ist. Diese hat auch wieder Eigenschaften ¨hnlich zu denen in obigem Satz..1] . b ∈ R. F¨r allgemeines n argumentiert man induktiv.

. .. 1. In einem Bernoulli-Prozess betrachtet man außer den Xn auch folgende ZVen: • NA . S2 ..... Hieraus erh¨lt man die Unabh¨ngigkeit und die Z¨hldichte.. von denen genau k 1 und n − k 0 sind.. A2 . T2 . Die Anzahl solcher Folgen ist n .. NA2 . .. Nach den Vererbungseigenschaften der Unabh¨ngigkeit sind die NAi daher unabh¨ngig. k daher folgt f¨r die Wahrscheinlichkeit: P (NA = k) = n pk (1 − p)n−k . Sn = kn ) = P (Xi = xi ∀1 ≤ i ≤ kn ) = pn (1 − p)kn −n .. . .. a) Sind A1 . . a a a i=1 p(1 − p) Die in (a) und (b) definierten Verteilungen kommen in Anwendungen h¨ufig vor und a bekommen daher eigene Bezeichnungen: .. unabh¨ngig.. sind unabh¨ngig und ρTi (k) = p(1 − p)k−1 . 0 < k1 < ..Sn : Z¨hldichte ρS1 . Sn = l1 + . 2..1 Beispiele fur Zufallsvariablen ¨ Zuf¨llige Ereignisse in diskreter Zeit a Wir betrachten diskrete Zeitpunkte n = 1. . a n k n−k Ist |A| = n... denn genau n der xi sind 1. Zu jedem Zeitpunkt wird ein Experiment mit zwei m¨glichen Ausg¨ngen (Niete/Treffer) durchgef¨hrt. . (b) P (T1 = l1 . disjunkt.. a c) S1 .. k = 1.. mn } ist P (NA = k) = a a u k n−k .. ... n ≥ 1. F¨r A = {m1 .. 2. . + ln ) = pn (1 − p)l1 +. u Definition: Eine Folge von ZVen Xn ..Sn (k1 .. i ≥ 1: Wartezeit zwischen (i−1)-ten und i-ten Treffer (0-ter Treffer bei n = 0). so sind NA1 .. kn ) = pn (1 − p)kn −n . .+ln −n = n li −1 . wobei uber alle xi ∈ {0. • Ti ... A ⊂ N: Anzahl von Treffern in A. Damit erhalten wir P (S1 = k1 . p wird auch als Trefferwahrscheinlichkeit bezeichnet. . 3. Xmn = xn ) = miert wird. n. a Beweis: (a) NAi = k∈Ai 1{Xk =1} = k∈Ai Xk . n ≥ 1.. Tn = ln ) = P (S1 = l1 . 1)... • Si . . eine Bernoulli-Folge mit Parameter p.5 Beispiele fur Zufallsvariablen ¨ 35 5 5. falls die Xn unabh¨ngig sind mit Z¨hldichte ρ(0) = a a 1 − p (Niete) und ρ(1) = p (Treffer).. so ist ρNA (k) = k p (1 − p) . Man kann die Verteilungen dieser Zufallsvariablen leicht bestimmen: Satz: Sei Xn ... heißt Bernoulli-Folge oder BernoulliProzess mit Parameter p ∈ (0. i ≥ 1: Wartezeit bis zum i-ten Treffer. b) T1 . < kn . Die einzelnen o a u Experimente seien dabei unabh¨ngig.. k = 0.. u k (c) Wir setzen xkj := 1 und xi = 0 sonst.. 1} sum¨ x p (1 − p) x P (Xm1 = x1 .. Standardbeispiel ist hierbei der unendlich oft a wiederholte M¨nzwurf (mit etwa “Zahl” als Treffer)..

. so ist T = 1.4} ≤ 2) = 2 = (1−p)4 +4p(1−p)3 +6p2 (1−p)2 . T2 . V(X) = 1−p .. L¨sung: o Wir betrachten die Ti als entsprechende Wartezeiten im Bernoulli-Prozess und dr¨cken u das betrachtete Ereignis durch andere Zufallsvariablen aus: P (T1 + T2 + T3 ≥ 5) = 4 k 4−k P (S3 ≥ 5) = P (N{1. die Formeln f¨r Erwartungswert und Varianz zu verwenden o u und die entstehenden Summen vereinfachen... so ist T = 1+T . T ist unabh¨ngig von a X1 und T ∼ T .. V(X) = np(1 − p). also E(T |X1 = 1) = 1. + Xn . 2. (b) Wieder kann man entweder die Formeln f¨r Erwartungswert und Varianz verwenden u oder mit dem Bernoulli-Prozess argumentieren: X = T sei die Wartezeit bis zum ersten Erfolg in einer Bernoulli-Folge mit Parameter p.... (a) X heißt binomialverteilt mit Parametern n. Man berechne a P (T1 + T2 + T3 ≥ 5). Analog berechnet man E(T 2 ) (Hausaufgabe) und erh¨lt hieraus V(T ). Falls X1 = 0... a Beispiel: Seien T1 . n. T3 unabh¨ngig und geometrisch verteilt mit Parameter p.. 1) und n ∈ N.1 Zuf¨llige Ereignisse in diskreter Zeit a 36 Definition+Satz: Sei p ∈ (0.5. also V(Xi ) = p2 − p = p(1 − p). falls X diskret ist mit Z¨hldichte ρX (k) = p(1 − p)k−1 . Es folgt n n n E(X) = i=1 E(Xi ) = i=1 p = np und V(X) = i=1 V(Xi ) = np(1 − p). Einfacher argumentiert man mit dem Bernoulli-Prozess: X = N{1. (b) X heißt geometrisch verteilt mit Parameter p (X ∼ Geo p ). k = 0.. a k Es gilt E(X) = np.n} = X1 + . k=0 k p (1−p) . 1 Wegen E(T ) = k kp(1 − p)k−1 < ∞ folgt hieraus durch umformen E(T ) = p . E(Xi ) = 1 · p + 0 · (1 − p) = p.. a 1 Es gilt E(X) = p . p2 Beweis: (a) Eine M¨glichkeit ist..p ) falls X diskret ist mit Z¨hldichte ρX (k) = n pk (1 − p)n−k . k = 1.. Die Xi sind unabh¨ngig mit E(Xi ) = a 2 2 2 1 · p + 0 · (1 − p) = p. Es folgt E(T ) = E(T |X1 = 0)P (X1 = 0) + E(T |X1 = 1)P (X1 = 1) = (1 + E(T ))(1 − p) + 1 · p. p (X ∼ Bin n. wobei T die Wartezeit nach der Zeit 1 auf den ersten Erfolg ist. also ist E(T |X1 = 0) = E(1+T |X1 = 0) = 1+E(T |X1 = 0) = 1+E(T ).. Wir bestimmen E(T ) durch Bedingen auf X1 : Falls X1 = 1.

. machen wir folgende (nat¨rliche) u Modellannahmen: (i) Was in disjunkten Intervallen passiert ist unabh¨ngig a (ii) F¨r ein kleines Intervall A: NA ≤ 1 u (iii) F¨r ein kleines Intervall A: P (NA = 1) ≈ αλ1 (A) u Ist h = λ1 (A) die L¨nge von A. Die Poisson-Verteilung approximiert die Anzahl von Erfolgen (in einem BernoulliProzess) in sehr großen Zeitintervallen bei sehr kleiner Trefferwahrscheinlichkeit: Satz: (Poisson-Approximation.. Y ∼ P oiλ ist u P (Yn = k) → P (Y = k) f¨r n → ∞.(iii) wie folgt pr¨zisieren: a a P (NA ≥ 2) = o(h).pn ≈ Poi λ mit λ = npn . i ≥ 1: Wartezeit zwischen (i−1)-ten und i-ten Treffer (0-ter Treffer bei t = 0). V(X) = λ. Es gilt E(X) = λ.pn . 1.) u Beweis: P (Yn = k) = n k 1 npn n nn−1 n−k+1 pn (1 − pn )n−k = (npn )k .) Sei λ > 0. . Wir betrachten jetzt also beliebige Zeitpunkte t > 0.. k = 0. (1 − pn )−k (1 − ) .5. a ¨ ob ein Treffer stattfindet oder nicht (wie bei der Definition des Bernoulli-Prozesses). a k! Beweis: Hausaufgabe. u (F¨r großes n und kleines pn ist also Bin n. i ≥ 1: Wartezeit bis zum i-ten Treffer.2 Zuf¨llige Ereignisse in stetiger Zeit a 37 5. so kann man (ii). u . ∞): Anzahl von Treffern in A. • Si . u F¨r Yn ∼ Binn. k k! n n n n n−i n Es gilt (npn )k → λk . • Ti . Nun kommen wir zur Definition eines Prozesses von zuf¨lligen Zeitpunkten in stetiger a Zeit. 2..2 Zuf¨llige Ereignisse in stetiger Zeit a Zun¨chst ben¨tigen wir eine weitere diskrete Verteilung: a o Definition+Satz: X heißt Poisson-verteilt mit Parameter λ > 0 (X ∼ Poi λ ). falls k X diskret ist mit Z¨hldichte ρX (k) = e−λ λ . Sinnvoll dagegen ist die Verwendung der anderen Zufallsvariablen: • NA . pn > 0 mit npn → λ f¨r n → ∞. Da die Menge der Zeitpunkte uberabz¨hlbar ist. ist es nicht praktikabel bei jedem einzelnen Zeitpunkt zu entscheiden. → 1. A ⊂ (0. Um die Verteilung dieser Zufallsvariablen festzulegen. P (NA = 1) = αh + o(h) f¨r h → 0. (1 − pn )−k → 1 und (1 − npn n ) n → e−λ .

N(s2 .. so sind NA1 . k! denn wegen npn = αλ1 (A) kann man die Poisson- Satz: Wir betrachten einen Poisson-Prozess mit Rate α. 1 Es folgt P (NA = k) = n pk (1 − pn )n−k + n · o( n ). det J = 1.h.. .. d. Der zweite Term geht gegen 0. A2 . s2 < S2 ≤ s2 ) = P (N[0. NA2 .s2 ] ≥ 1) (αs1 )0 −α(s1 −s1 ) (α(s1 − s1 ))1 −α(s2 −s1 ) (α(s2 − s1 ))0 (α(s2 − s2 ))0 e e 1 − e−α(s2 −s2 ) 0! 1! 0! 0! −αs2 −αs2 = α(s1 − s1 )(e −e ). daher er- fS1 . a (b) Die Tn . α nennt man auch die Rate des PP. Beweis: (Skizze. Hieraus folgt die Behauptung. t2 ) = α2 e−α(t1 +t2 ) · 1 = αe−αt1 αe−αt2 . (a) Sind Ai . . unabh¨ngig und es gilt a NA ∼ Poi λA mit λA = αλ1 (A). sn ) = αn e−αsn 1{0<s1 <.5..) = α · αe−αs2 = α2 e−αs2 . s2 = t1 + t2 ist ein Diffeomor1 0 phismus mit Jacobi-Determinante J = . Sn haben die gemeinsame Dichte fS1 .. Mit (ii).. = e−αs1 Andererseits ist die Wahrscheinlichkeit von der Form halten wir die Dichte durch partielles ableiten: s1 s1 dt1 s2 s2 dt2 f (t1 .s1 ] = 0. zerlegen wir A in n Teilmengen Ai der L¨nge λ1 (Ai ) = λ n .s1 ] = 0)P (N(s1 . S2 = T1 + T2 .(iii) ist a 1 1 1 1 dann P (NAi = 1) = α·λn(A) + o( n ) und P (NAi = 0) = 1 − α·λn(A) + o( n ).(b) f¨r u n = 2. ...s1 ] = 1. Beweis: (a) ist gerade die Definition des Poisson-Prozesses.S2 (s1 .(ii). Um NA ∼ Poi λA zu a 1 (A) zeigen.s2 ] = 0)P (N(s2 . N(s1 .. s2 ) = ∂s1 ∂s2 P (.. u o (c) F¨r beliebige s1 < s1 < s2 < s2 ist u P (s1 < S1 ≤ s1 . Nach Transformationssatz 1 1 und (c) folgt daher fT1 .s2 ] = 0.) Die Unabh¨ngigkeit der NAi folgt aus (i). bis auf 1 1 o( n ) bilden die NAi einen Bernoulli-Prozess mit Erfolgswahrscheinlichkeit pn := α·λn(A) .s2 ] ≥ 1) = P (N[0..Sn (s1 . F¨r gr¨ßere n funktioniert es analog.2 Zuf¨llige Ereignisse in stetiger Zeit a 38 Definition+Satz: Ein Prozess von Ereignissen in stetiger Zeit erf¨lle (i).T2 (t1 . . (b) S1 = T1 . Wir beweisen (c).<sn } ..∞) disjunkt. Die Transformation s1 = t1 . t2 ).. N(s1 . ∈ B(0. sind unabh¨ngig mit Dichte f (t) = αe−αt 1{t>0} a (c) Die S1 ... n ≥ 1. so sind NAi unabh¨ngig und NAi ∼ Poi λAi . λk A . disjunkt.(iii). k n und der erste Term gegen e−λA Approximation verwenden. Sind u dann A1 . Ein Prozess mit diesen Eigenschaften heißt Poisson-Prozess (PP) zum Parameter α. i ≥ 1.s1 ] = 1)P (N(s1 .....

Man erh¨lt a ¨ r cos ϕ −r sin ϕ r2 = x2 + y 2 und f¨r die Jacobi-Matrix J = u ergibt sich | det J| = r sin ϕ r cos ϕ r cos2 ϕ + r sin2 ϕ = r und somit dxdy = rdrdϕ.v ).v (x)dx = 1. a Beweis: Hausaufgabe..v uberhaupt eine Dichtefunktion ist: ¨ Lemma: F¨r alle m ∈ R. x−m √ v ergibt sich y2 1 √ e− 2 dy.) F¨r T ∼ Exp α ist a u P (T > s + t|T > t) = P (T > s). α α 1 . α2 also V(T ) = E(T 2 ) − E(T )2 = Eine wichtige Eigenschaft der Exponentialverteilung ist die “Ged¨chtnislosigkeit”: a Satz: (Ged¨chtnislosigkeit. v > 0 (X ∼ Nm. α2 und analog E(T 2 ) = ∞ 2 t f (t)dt 0 = . = 2 .1 (x) = x √1 e− 2 2π und Φ(c) := c −∞ ϕ(x)dx. t > 0. ob ϕm. Beweis: ∞ ∞ ∞ E(T ) = 0 tf (t)dt = 0 αte−αt dt = [−t · e−αt ]∞ + 0 0 e−αt dt = 1 −αt ∞ 1 e |0 = .3 Normalverteilung Die Normalverteilung spielt eine wichtige Rolle in vielen Anwendungen. die bisherige Wartezeit hat keinen Einfluss auf die zus¨tzliche Wartezeit. Es gilt E(T ) = α und V(T ) = α2 . ¨ Definition: X heißt normalverteilt mit Parametern m ∈ R. . 1 1 falls T stetig ist mit Dichte fT (t) = αe−αt . 0 r2 r2 Hier sind wir zu Polarkoordinaten ubergegangen: x = r cos ϕ. warum dies so ist.5.h. falls X stetig ist mit Dichte ϕm. N0. Es ist nicht so einfach zu sehen. d. 2π (x−m)2 1 √ e− 2v dx = 2πv und somit ∞ dxdye− 2 e− 2 = y2 1 2π ∞ 2π 0 dr 0 dϕ r · e− 2 = 0 r2 dr r · e− 2 = −e− 2 |∞ = 1.v (x) = √ 1 e− 2πv (x−m)2 2v . v > 0 ist u Beweis: Mit der Substitution y = I := I2 = 1 2π x2 ϕm. zeigt sich aber erst im Abschnitt uber den zentralen Grenzwertsatz. 5. y = r sin ϕ..3 Normalverteilung 39 Definition+Satz: T heißt exponentialverteilt mit Parameter α > 0 (T ∼ Exp α ).1 nennt man auch Standard2 Normalverteilung und setzt ϕ(x) := ϕ0.

u (c) Sind X1 ∼ Nm1 . (a) F¨r X ∼ Nm. a  . + a1n Zn + b1 . F¨r die Werte c < 0 u u verwendet man dann einfach die Relation Φ(−x) + Φ(x) = 1. u a . V(Y ) = a2 V(X) = v.v1 +v2 . und wir erhalten MY (t) = MX (at) · etb . Nun betrachten wir Y = aX + b. bm am1 . E(X 2 ) = 1. Hieraus ergeben sich die Behauptungen. . die die Werte von Φ(c) f¨r c > 0 enthalten. . .3 Normalverteilung 40 Bemerkung: Φ(c) = √1 −∞ e− 2 kann nicht analytisch integriert werden. Satz: Eigenschaften der Normalverteilung.. Xm = am1 Z1 + . d. Nach dem Eindeutigkeitssatz folgt die Behauptung.  b= . Die multivariate Normalverteilung ist eine sehr spezielle gemeinsame Verteilung normalverteilter ZVen. • C = AAT ist automatisch symmetrisch und positiv semidefinit.   . amn Zn Zi ∼ N0. (c) MX1 +X2 (t) = MX1 (t)MX2 (t) = em1 t+ 2 t em2 t+ 2 t = e(m1 +m2 )t+ 2 t ist die Momentenerzeugende Funktion von Nm1 +m2 . V(X) = v und MX (t) = emt+ 2 t . .5. dass abgesehen von dieser Einschr¨nkung zu vorgegebenen Parametern a b. + amn Zn + bm . . so ist nach dem letzten Satz jedes Xi normalverteilt. also V(X) = 1..v2 unabh¨ngig. n¨mlich wenn C = AAT gleich ist. Aus MX (t) = te . u E(Y ) = aE(X) + b = b. ..v ist E(X) = m. Bemerkung: • Ist X multivariat normalverteilt. Die Xi heißen multivariat normalverteilt: X ∼ Nb. F¨r a = v. b = m ist Y ∼ Nm. (b) F¨r X ∼ N0. MX (t) = u (1 + t2 )e 2 √ folgt E(X) = 0. o • Im Gegensatz dazu k¨nnen verschiedene Matrizen A zur gleichen multivariaten o Normalverteilung f¨hren.A= .v und Y := aX + b mit a = 0 ist Y ∼ Nam+b.v1 +v2 .C mit C := AAT . oder man verwendet entsprechende Tabellen.1 ist nach Hausaufgabe MX (t) = e .v nach (a). v1 2 v2 2 v1 +v2 2 Nun betrachten wir lineare Transformationen unabh¨ngiger normalverteilter ZVen: a Definition: Sei X = AZ + b (Matrixmultiplikation und Vektoraddition) mit       b1 a11 .a2 v .  ∈ Rm×n und Z =  . so gilt X1 + X2 ∼ Nm1 +m2 . Umgekehrt sind normalverteilte Zufallsvariablen nicht unbedingt gemeinsam multivariat normalverteilt.v1 und X2 ∼ Nm2 . . die Xi seien Linearkombinationen der Zi : X1 = a11 Z1 + . u (b) F¨r X ∼ Nm.. . .. ∈R .C existiert. Φ kann 2π man entweder mittels numerischer Integration berechnen. C genau eine zugeh¨rige multivariate Normalverteilung Nb. a1n Z1  .  ..  mit unabh¨ngigen m . . a Losung: ¨ 1 (a) Nach Hausaufgabe ist fY (y) = fX ( y−b )· |a| = a t2 y−b ( a −m)2 2v (y−ma−b)2 2a2 v v 2 c x2 1 − √1 e 2πv |a| t2 2 = √ 1 ·e− 2πa2 v t2 2 .h.1 . Wir zeigen umgekehrt.

. Da C a a symmetrisch ist. (b) Ist A invertierbar.C ). . ebenso wie die Bedeutung der Parameter ((a)): Satz: Sei X = AZ + b ∼ Nb.. tm ) = e 2 t 1 T Ct+tT b 1 1 m 1 (2π) 2 | det C| 2 e− 2 (x−b) 1 T C −1 (x−b) . u i 2 t t a 0 ≤ vi Cvi = vi di vi = di vi .. Zn unabh¨ngig ∼ N0. Beispiel: Ist b =  ... Beweis: (a) E(Xi ) = E( aij Zj + bi ) = aij E(Zj ) + bi = bi wegen E(Zj ) = 0 und ajl Zl + bj = l k l j j Cov(Xi . Deren Eindeutigkeit folgt aus dem folgenden Satz ((b) oder (c)).. so gibt es eine zugeh¨rige multivariate Normalverteilung (Nb. xm ) = (c) MX (t1 . so gilt fX (x1 . und erh¨lt so X ∼ Nb.σi2 Nb. | det A| = | det C| 2 wegen | det A|2 = | det A det AT | = | det C| dz und z T z = (x − b)T (A−1 )T (A−1 )(x − b) = (x − b)T C −1 (x − b). Kovarianzmatrix C. c ∈ Rm . Seien di die Diagonaleintr¨ge von D.+zm ) = (2π)m/2 e− 2 z z . Zl ) aik ajk = (AAT )ij . zm ) = i fZi (zi ) = √2πm e− 2 (z1 +..3 Normalverteilung 41     2 m1 σ1 0 σ1  . . mn 0 σn 0 2 gegebene mi . o Beweis: Es gen¨gt ein A ∈ Rn×n zu finden mit AAT = C..5. denn f¨r jeden Eigenvektor v√ist ist.. d.C . σi ∈ R und X = AZ + b ∼ Nm. 1 z = A−1 (x − b). . . Da C positiv semi-definit√ gilt di ≥ 0. (a) X hat Erwartungsvektor b.. (d) Ist Y = BX + c mit B ∈ Rk×m . A =   und C = AAT =  .C mit Satz: Ist b ∈ Rn und C ∈ Rn×n symmetrisch und positiv semidefinit. Unabh¨ngige Normalverteilungen entsprechen demnach genau a a C Diagonalmatrix. √ u A := M DM −1 hat dann die gew¨nschte Eigenschaft: √ √ √ √ T AAT = M DM −1 (M −1 )T D M T = M D DM T = M DM T = C. aik ajl · 0 + aik ajl Cov(Zk ..C wie in obiger Definition. die Eigenwerte a von C. . so sind die Xi = σi Zi + σi unabh¨ngig.BCB T . denn dann w¨hlt man u a Z1 . Die Behauptung folgt damit aus dem Transformationssatz: x = Az + b ist ein Diffeomorphismus. k 1 T = k. ..1 und setzt X = AZ + b. dx = A.  0   u  f¨r 2 σn ∼ Nmi .     . gibt es eine orthogonale Matrix M (M −1 = M T ) und eine Diagonalmatrix D mit C = M DM −1 .... . Sei D die Diagonalmatrix mit Diagonaleintr¨gen di . so ist Y ∼ NBb+c. Xj ) = Cov k aik Zk + bi ..l:k=l 1 2 2 1 1 (b) Es ist fZ (z1 . denn M −1 (M −1 )T = M T (M −1 )T = (M −1 M )T .h. Hieraus folgt die Existenz der multivariaten Normalverteilung zu vorgegebenen Parametern.C ..l:k=l aik ajl V(Zk ) = k..

Y2 = 3X1 + 2X2 .j ti tj cij . Bemerkung: • Normalerweise ist Unabh¨ngigkeit eine st¨rkere Eigenschaft als Unkorreliertheit. E(Y2 ) = 0. a • Nach (d) ist jede affine Transformation einer multivariaten Normalverteilung wieder multivariat normalverteilt. Y1 . denn Y hat Kovarianzmatrix M M T = I. Nach obigem Beispiel bedeutet das aber gerade. • Die Dichte der multivariaten Normalverteilung ist zum Rechnen relativ unhandlich. Y2 ) = Cov(2X1 − 3X2 . i.I und M orthogonal (M −1 = M T ). Beweis: (Y1 . a a F¨r multivariat normalverteilte ZVen Xi sind diese Eigenschaften aber identisch: u Die Xi sind genau dann unkorreliert. d. j tj Xj ) = Hiermit ergibt sich MX (t1 . Y2 ) ist nach Definition multivariat normalverteilt mit E(Y1 ) = 0 + 0 = 0. dass die Xi unabh¨ngig sind. Bestimmen Sie die Verteilung a von Y1 = 2X1 − 3X2 . . so ist X ∼ Nm. 3X1 + 2X2 ) = 6 − 6 = 0.. Oft verwendet man besser die Definition der multivariaten Normalverteilung und obige Unabh¨ngigkeitsaussagen.5. Demnach sind unabh¨ngige Standardnormalverteilungen invariant unter beliebia gen Drehungen.v mit m = E( und v = V( i ti Xi ) = Cov( i ti Xi . V(Y1 ) = 4 + 9 = 13...h.1 -verteilt. a . Xj ) = i.3 Normalverteilung 42 ¯ ¯ (c) Sei X = i ti Xi .I . V(Y2 ) = 13 und Cov(Y1 . a Beispiel: Seien X1 . Y2 sind unabh¨ngig und N0. (d) Y = BX + c = B(AZ + b) + c = (BA)Z + (Bb + c) ist multivariat normalverteilt mit Kovarianzmatrix BA(BA)T = BAAT B T = BCB T . wenn C eine Diagonalmatrix ist. so ist Y := M X ∼ N0.j v 2 1 T Ct+tT b i t i Xi ) ) = E(eX ) = MX (1) = em·1+ 2 ·1 = e 2 t ¯ ¯ . tn ) = E(e i ti Xi = i ti E(Xi ) = i ti bi ti tj Cov(Xi . X2 unabh¨ngig und N0. Ist insbesondere X ∼ N0.13 -verteilt.

Gemeint ist hier also so etwas wie: der Mittelwert ist f¨r große n mit hoher Wahrscheinu lichkeit nahe bei E(Xi ). o u 6. Y : Ω → R Zufallsvariablen. a o m¨ssen wir ihn pr¨zise beschreiben. Ist X ≥ a.. Bemerkung: Dies kann man folgendermaßen interpretieren: Der Wert von Yn liegt f¨r großes n nahe bei Y . was mit der Konvergenz von Zufallsvariablen gemeint ist.) Seien Yn . Um Wahrscheinlichkeiten wie in obiger Definition absch¨tzen zu k¨nnen ben¨tigen wir a o o geeignete Werkzeuge: Satz: Sei X eine reelle Zufallsvariable und a > 0. Hier u a a ist X ≥ a1{X≥a} . so ist die rechte Seite a und die linke ≥ a. In diesem Fall konvergiert der u Mittelwert gegen 1 = E(Xi ).+Xn ungef¨hr 3. Anders ausgedr¨ckt: u n Der Stichprobenmittelwert (zeitliches Mittel) ist ungef¨hr gleich dem Erwartungswert a (Mittelwert bei einem Experiment). z. Bevor wir diesen Sachverhalt erkl¨ren k¨nnen.. denn ist X < a. . Hierf¨r sind unterschiedliche mathematische Pr¨zisierungen u a m¨glich.1 Schwaches Gesetz der großen Zahl Definition: (Stochastische Konvergenz. wenn ∀ >0: P (|Yn − Y | > ) → 0. (a) Ist X ≥ 0 und X ∈ L1 . Beweis: (a) Um eine Wahrscheinlichkeit gegen einen Erwartungswert absch¨tzen zu k¨nnen. andererseits ist dies aber auch extrem unwahrscheinlich.B. Es kann ja durchaus vorkommen. so ist die rechte Seite 0 und die linke ≥ 0. so gilt P (X ≥ a) ≤ (b) Ist X ∈ L2 . aber diese werden bei wachsendem n zunehmend unwahrscheinlich. dass a u u a u der Mittelwert von n W¨rfen X1 +.1 Grenzwerts¨tze a Gesetz der großen Zahl Eine empirische Beobachtung bei h¨ufigem W¨rfeln mit einem fairen W¨rfel ist. + Xn → E(Xi ) n f¨r n → ∞. p Wir schreiben Yn → Y stochastisch (oder Yn →Y ). als u a X1 + .. Wegen der Monotonie der Erwartung folgt E(X) ≥ E(a1{X≥a} ) = aE(1{X≥a} ) = aP (X ≥ a). so gilt P (|X − E(X)| ≥ a) ≤ E(X) a (Markov-Ungleichung). u wobei aber nicht klar ist. dass Xi = 1 f¨r alle i. 5 = E(Xi ) ist.6 Grenzwerts¨tze a 43 6 6. die jeweils zu unterschiedlichen Gesetzen der großen Zahl f¨hren.1. V(X) a2 (Chebyshev-Ungleichung).. a o m¨ssen wir zun¨chst eine Zufallsvariable gegen eine Indikatorfunktion absch¨tzen. Bei fester Schranke > 0 gibt es f¨r jedes n Ausnahmebeu u obachtungen ω ∈ {|Yn − Y | > }.

. v = V(Xi ).. unabh¨ngig.. mit gleia cher Verteilung und mit Xi ∈ L2 .. gen¨gt es nachzupr¨fen. so folgt aus der Ungleichung von Chebyshev: P X1 + ..6.s. 2 n n = 1 V( n2 Xi ) = i V(Xi ) = i Sei > 0. u . + Xn → E(Xi ) fast sicher n Beweis: probability theory Das starke Gesetz der großen Zahl ist tats¨chlich “st¨rker” als das schwache. + Xn n X1 + .. da es a a dieses impliziert. dass fast u u ¨ sichere Konvergenz stochastische Konvergenz impliziert: f¨r n → ∞. falls P (Yn → Y ) = 1.2 Starkes Gesetz der großen Zahl Definition: (Fast sichere Konvergenz.. u Beweis: Sei m = E(Xi ). X2 . Es gibt zwar Ausnahmen.)..) Es gilt E und V X1 + . (Wegen der gleichen Verteilung ergeben sich gleiche Erwartungswerte und gleiche Varianzen.1 Gesetz der großen Zahl 44 (b) Durch Anwendung von (a) auf Y := (X − E(X))2 ≥ 0 (Y ∈ L1 ) erh¨lt man a P (|X − E(X)| ≥ a) = P (Y ≥ a2 ) ≤ E(Y ) V(X) = . + Xn −m > n ≤ v/n 2 → 0. + Xn n = 1 E( n Xi ) = i 1 n 1 n2 E(Xi ) = i 1 nm = m n 1 v nv = . + Xn → E(Xi ) stochastisch n f¨r n → ∞. Wir schreiben Yn → Y fast sicher (oder f. X2 .. 2 a a2 Satz: (Schwaches Gesetz der großen Zahl.. unabh¨ngig. Y : Ω → R reelle Zufallsvariablen. mit gleicher a 1 Verteilung und mit Xi ∈ L . aber diese haben Wahrscheinlichkeit 0...) Sind X1 . Bemerkung: Dies kann man folgendermaßen Interpretieren: F¨r praktisch jede Beu obachtung ω gilt: Yn (ω) → Y (ω). so gilt X1 + . so gilt X1 + ... Um sich davon zu uberzeugen.) Sind X1 .) Seien Yn . Satz: (Starkes Gesetz der großen Zahl. 6.1.

6. Das u starke Gesetz ist daher eher theoretisch interessant. Yn → Y fast sicher Beweis: Sei > 0. z. reelle Zahlen cn . daf¨r hat die Ausnahmemenge Wahrscheinlichkeit 0. z. cn Xn → cX und h(Xn ) → h(X). u beliebig langer Zeit. X. Yn . wie nahe man beim Erwartungswert nach n Experia menten liegt.B. . Bemerkung: • Zu beiden Gesetzen gibt es Verallgemeinerungen. auf den Fall. d. gilt f¨r reelle Zufallsvariablen u Xn . Es folgt Yn → Y stochastisch. Y : Ω → R reelle Zufallsvariablen. c mit cn → c und eine stetige Funktion h : R → R auch Xn + Yn → X + Y. u daf¨r hat die Ausnahmemenge (zwar kleine) aber doch positive Wahrscheinlichu keit. Es gilt {|Yn − Y | > } ⊂ {∃n ≥ n : |Yn − Y | > } =: An ↓ A := n ⇒ Yn → Y stochastisch. • Beide Konvergenztypen von Zufallsvariablen haben viele der Eigenschaften der normalen Konvergenz von reellen Zahlen. a • Das schwache GgZ trifft eine Aussage f¨r das Verhalten nach endlicher Zeit n. Das schwache Gesetz ist daher vor allem f¨r die Praxis interessant. genauer gilt: P X1 + . dass die Xn nicht mehr unabh¨ngig sind oder nicht mehr die gleiche Verteilung haben. + Xn − E(Xi ) > n ≤ V(Xi ) .B..h. n2 Man kann also absch¨tzen. Yn → Y .. An mit A = {∀n∃n ≥ n : |Yn − Y | > } ⊂ {Yn → Y }. so folgt P (A) = 0. Y mit Xn → X.1 Gesetz der großen Zahl 45 Lemma: Seien Yn . Gilt nun Yn → Y fast sicher. u • Das starke GgZ trifft eine Aussage f¨r das Verhalten nach “unendlicher”. und mit der σ-Stetigkeit von P folgt P (An ) → 0.

Zwei m¨gliche Werte haben den Abstand √ o 1 . a u (b) Es gilt b ∗ P (a ≤ Sn ≤ b) → a ϕ(x)dx = Φ(b) − Φ(a).6. Sn kann interpretiert werden als die Anzahl der Erfolge bis zum Zeitpunkt n in einem Bernoulliprozess Xi . Bemerkung: • (a) heißt “lokale Normalapproximation” und kann verwendet werden zur Ann¨hea rung von Wahrscheinlichkeiten der Form P (Sn = k). . i ≥ 1.1 -verteilt sein. n} mit kn ∈ [a.. .. b ∈ R.2 Zentraler Grenzwertsatz Die Normalverteilung taucht in der Praxis in vielen verschiedenen Zusammenh¨ngen a auf. und zwar sogar gleichm¨ßig f¨r alle solchen Folgen. + Xn ist das Resultat vieler kleiner S n −E(S ∗ a Bestandteile. Sn = X1 + . np(1−p) ∗ Um die diskrete Verteilung von Sn und die stetige Standard-Normalverteilung uberhaupt vergleichen zu k¨nnen muss man die o ¨ ∗ Punktmasse von Sn also mit der Masse der Normalverteilung auf einem Intervall der vergleichen. daher sollte Sn = S√ n ) = √ n −np ungef¨hr N0. a Zur Motivation des folgenden Satzes betrachten wir Sn ∼ Bin n. (b) folgt aus (a) durch aufsummieren der Wahrscheinlichkeiten..p und a.. Immer dann wenn ein zuf¨lliger Wert S das Resultat vieler kleiner zuf¨lliger Bea a standteile ist. ist S ungef¨hr normalverteilt.2 Zentraler Grenzwertsatz 46 6.) Seien Sn ∼ Bin n. dass f¨r große n u L¨nge √ 1 a np(1−p) ∗ kn + √ 2 1 np(1−p) P (Sn = kn ) = ∗ P (Sn = ∗ kn ) ≈ ϕ(x)dx ≈ 1 np(1 − p) ∗ kn − √ 1 2 np(1−p) ∗ ϕ(kn ).. Wir erwarten demnach. mit Erfolgswahrscheinlichkeit p. Was V(Sn ) np(1−p) bedeutet das f¨r die Z¨hldichte? u a ∗ ∗ Ein m¨glicher Wert von Sn ist von der Form kn = √kn −np o np(1−p) mit kn ∈ {0.n}.. Satz: (Grenzwertsatz von deMoivre-Laplace. • (b) heißt “Normalapproximation” und kann verwendet werden zur Ann¨herung a von Wahrscheinlichkeiten der Form P (a ≤ Sn ≤ b ). 1. . ∗ (a) F¨r beliebige Folgen kn ∈ {0.. Beweis: −.p . Den Grenzwert in (a) erh¨lt man durch Anwenden der Stirling-Formel f¨r a u n! und anschließende geeignete Taylor-Approximation. b] gilt u ∗ ϕ(kn ) np(1 − p)P (Sn = kn ) →1 f¨r u n → ∞.

+ Xn X1 + .1 nv in Verteilung. mit gleicher a Verteilung und m := E(Xi ).) Wir u i −m betrachten die Standardisierungen Xi∗ = X√v .. mit momentenerzeugenden Funktionen zu argumentieren: Lemma: Seien Yn .+Xn √ t n =E e ∗ t X1 √n · . dass Xi eine Momentenerzeugende Funktion besitzt. + Xn − nm √ = 1 √ nv n ∗ und E(Xi∗ ) = 0 und V(Xi∗ ) = 1.. 2n n Dies ist aber gerade die momentenerzeugende Funktion der Standard-Normalverteilung. + Xn : u ∗ Sn = Sn − E(Sn ) V(Sn ) = X1 + . X2 . und da die Xi die gleiche Verteilung haben.. v := V(Xi ) > 0. denn dann folgt u u u ∗ ∗ ∗ P (a < Sn ≤ b) = FSn (b) − FSn (a) → Φ(b) − Φ(a). .. Beweis: (F¨r den Fall. + Xn − nm √ → N0. · e ∗ t Xn √n =E e ∗ t X1 √n .. Falls MYn (t) → MY (t) f¨r alle t ∈ R.) Seien Yn ... Die Erwartungen im letzten Term sind a t gerade MXi∗ ( √n ). Y reelle Zufallsvariablen. u Obige Definition uber die Verteilungsfunktion ist f¨r viele Zwecke praktisch. ∈ L2 unabh¨ngig.) Sind X1 .. so gilt Yn → Y in Verteilung. wenn FYn (c) → FY (c) f¨r alle Stetigkeitsstellen c von FY . Dies motiviert den folgenden Konvergenzbegriff: Definition: (Verteilungskonvergenz. Mit dem Lemma folgt daher die Behauptung. so gilt f¨r Sn := X1 + . deren momentenerzeugende Funktionen existieren.6. wegen der Unabh¨ngigkeit der Zufallsvariablen. sind diese momentenerzeugenden Funktionen alle gleich.E e ∗ t Xn √n . Nach Taylorentwicklung ist f¨r festes t u t t 1 t t MXi∗ ( √ ) = MXi∗ (0) + MXi∗ (0) √ + MXi∗ (0)( √ )2 + o(( √ )2 ) n n 2 n n t 1 t 1 t2 1 = 1 + E(Xi∗ ) √ + E((Xi∗ )2 )( √ )2 + o( ) = 1 + + o( ).. n 2n n n 2 n Es folgt t2 1 n 2 + o( ) → et /2 .. Die momentenerzeugende Funktion von Sn ist daher M (t) = E e ∗ Sn ∗ ∗ X1 +.. u Bemerkung: Die Verteilungsfunktion Φ der Standard-Normalverteilung ist uberall ¨ stetig. Y reelle Zufallsvariablen.... F¨r unsere u u ¨ Zwecke ist es aber einfacher. u Beweis: −.. Satz: (Zentraler Grenzwertsatz. Man schreibt d Yn → Y in Verteilung (oder Yn →Y ).. ∗ MSn (t) = 1 + .2 Zentraler Grenzwertsatz 47 ∗ F¨r die Konvergenz in (b) gen¨gt FSn (c) → Φ(c) f¨r alle c ∈ R. daher muss dann obige Konvergenz f¨r alle c ∈ R gelten. Es ist dann ∗ Sn = ∗ X ∗ + .