Stochinf1 Christensen

Stochastik I
für Studierende der Informatik
Skript
Sommersemester 2014
Universität Hamburg - Fachbereich Mathematik
Sören Christensen
vorläufige Version: 28. Mai 2014

Vorwort
Dieses Vorlesungsmitschrift basiert auf einer Veranstaltung, die ich im Sommersemester

2014 im Rahmen des Bachelorprogramms Informatik an der Universität Hamburg gehalten
habe. Sie entsteht im Laufe der Vorlesung.
Inhaltsverzeichnis
1 Mathematische Beschreibung von Zufallssituationen 1
2 Bedingte Wahrscheinlichkeit und stochastische Unabhängigkeit 13
3 Ein Überblick über einige diskrete Verteilungen 21
4 Erwartungswerte und Momente 25
5 GGZ und ZGS 33
6 Allgemeine reelle Wahrscheinlichkeitsmaße 41
7 Ein Überblick über einige stetige Verteilungen 50

Kapitel 1
Mathematische Beschreibung von

Zufallssituationen
In diesem Kapitel beschäftigen wir uns mit der Frage, wie man Situationen der realen
Welt, die man als zufällig ansieht, mit Hilfe von mathematischen Begriffen beschreiben
kann. Die befriedigende Beantwortung dieser Frage hat historisch einige Zeit gedauert.
Wir erklären die Begriffsbildung anhand von Beispielen:
Beispiel 1.1. (1) einmaliger Würfelwurf:

Wie groß ist die Wahrscheinlichkeit, dass eine gerade Zahl gewürfelt wird?
(2) mehrfacher Münzwurf:

Wie groß ist die Wahrscheinlichkeit, beim 10-fachen Münzwurf genau 6 mal „Kopf“ zu
werfen?
(3) Glühbirne:
Sie beobachten eine Glühbirne. Wie groß ist die Wahrscheinlichkeit, dass diese in
diesem Jahr kaputt geht?
Mathematisches Modell 1.2. Zur mathematischen Beschreibung dieser Situationen

nutzen wir drei Objekte:
(i) Ergebnisraum
Zuerst nutzen wir eine Menge Ω, um alle möglichen, uns interessierenden Ergebnisse
des Zufallsexperiments zu beschreiben. In den Beispielen:
(1) Beim Würfelwurf haben wir sehr viele Informationen, z.B. wo der Würfel auf
der Tischplatte zum liegen kommt, die Temperatur des Würfels, . . .
KAPITEL 1. MATHEMATISCHE BESCHREIBUNG VON ZUFALLSSITUATIONEN 2
Wir interessieren uns hier aber nur für die Zahl, die oben liegt, also wählen wir
Ω = {1, 2, 3, 4, 5, 6}.
(2) Es entstehen endliche Folgen, z.B. „Kopf“, „Zahl“, „Zahl“, . . .

Wir schreiben kurz 0=„Zahl“
ˆ und 1=„Kopf“.
ˆ
Ω = {(ω1 , . . . , ω10 ) | ωi ∈ {0, 1} für alle i = 1, . . . , 10} = {0, 1}10
(3) Die Lebensdauer unserer Glühbirne ist eine reelle Zahl ≥ 0, also wählen wir
Ω = [0, ∞).
(ii) Ereignisraum
Oft interessieren wir uns nicht für Ergebnisse an sich, sondern dafür, ob bestimmte
Ereignisse A eingetreten sind, oder nicht. Ereignisse sind dabei Zusammenfassungen
von Ergebnissen, also Teilmengen von Ω:
(1) A = {2, 4, 6}=„gerade

ˆ Zahl geworfen“
(2) A = {(ω1 , . . . , ω10 ) ∈ Ω | |{i : ωi = 1}| = 6}=„genau
ˆ 6 mal Kopf geworfen“
(3) A = [0, 1]=„Glühbirne
ˆ geht dieses Jahr kaputt“
Da Ω = [0, ∞) „sehr groß“ (überabzählbar) ist, kann es hier aber auch sehr
komplizierte Ereignisse geben → technische Probleme.
Ereignisse sind bei uns also Mengen. Für Ereignisse A, B ⊆ Ω können wir mittels
Mengenoperationen neue Ereignisse bilden, z.B.:
• A ∪ B =A
ˆ tritt ein oder B tritt ein
• A ∩ B =A
ˆ tritt ein und B tritt ein
• A \ B =A
ˆ tritt ein und B tritt nicht ein
A ∩ B = ∅ bedeutet etwa, dass das Ereignis A und das Ereignis B nie gemeinsam
eintreten.
(iii) Wahrscheinlichkeitsmaße
Wir haben bisher Ergebnisse und Ereignisse beschrieben, aber noch nichts über Wahr-
scheinlichkeiten gesagt.
Wir möchten nun möglichst jedem Ereignis A ⊆ Ω eine Wahrscheinlichkeit P (A) ∈
[0, 1] zuordnen, formal also eine Abbildung
P : Pot(Ω) → [0, 1]
angeben. Aber welche solche Abbildungen P sind sinnvoll?

Wir wählen einen axiomatischen Zugang, indem wir anfangs alle Funktionen P zu-
lassen, die einige sinnvolle Eigenschaften haben und diese Wahrscheinlichkeitsmaße
nennen.
Wegen der unter (ii) in Beispiel 3 genannten technischen Probleme, klammern wir
dieses Beispiel erst einmal aus (wir kommen darauf im letzten Kapitel zurück) und
gelangen zu folgender Begriffsbildung:
Definition 1.3 (Wahrscheinlichkeitsraum, Wahrscheinlichkeitsmaß). Sei Ω eine nicht-

leere Menge, die endlich oder höchstens abzählbar unendlich ist. Jede Abbildung
P : Pot(Ω) → [0, 1] heißt (diskretes) Wahrscheinlichkeitsmaß, falls:
• P (Ω) = 1
„Die Wahrscheinlichkeit, dass überhaupt irgendein Ergebnis eintreten wird, ist = 1.“
• Sind A1 , A2 , · · · ⊆ Ω paarweise disjunkt1 , so gilt
P (A1 ∪ A2 ∪ . . . ) = P (A1 ) + P (A2 ) + . . .
„Wenn Ereignisse A1 , A2 , . . . sich gegenseitig ausschließen, so ist die Wahrschein-

lichkeit, dass eines dieser Ereignisse eintritt, die Summe der Einzelwahrscheinlich-
keiten.“
In diesem Fall heißt (Ω, P ) ein diskreter Wahrscheinlichkeitsraum2 .
Anmerkung. Ist Ω endlich, so heißt (Ω, P ) auch endlicher Wahrscheinlichkeitsraum. In

diesem Fall reicht es, die zweite Bedeutung für nur zwei Ereignisse nachzuweisen, das
heißt es reicht zu zeigen:
Für alle A, B ⊆ Ω mit A ∩ B = ∅ gilt P (A ∪ B) = P (A) + P (B).
Im Allgemeinen, d.h. für abzählbar unendliche Ω, reicht dies aber nicht!
Die beiden Forderungen an ein Wahrscheinlichkeitsmaß erscheinen sinnvoll, allerdings

auch etwas willkürlich, schließlich hätte man auch weitere Eigenschaften fordern können.
Diese kann man aber aus den vorigen folgern:
Satz 1.4 (Elementare Eigenschaften von Wahrscheinlichkeitsmaßen). Sei (Ω, P ) ein (dis-
kreter) Wahrscheinlichkeitsraum, dann gilt:
1
d.h. Ai ∩ Aj = ∅ ∀i 6= j
2
Die meisten der im folgenden behandelten Eigenschaften haben nichts mit der Annahme zu tun,
dass wir Ω als abzählbar vorausgesetzt haben. Ist dies doch der Fall, so machen wir dies dadurch deut-
lich, dass wir in diesem Fall explizit voraussetzen, dass ein diskreter Wahrscheinlichkeitsraum vorliegt,
wobei wir diskret dann nicht in Klammern schreiben; ansonsten nutzen wir die Bezeichnung (diskreter)
Wahrscheinlichkeitsraum oder kurz nur Wahrscheinlichkeitsraum.
(i) P (∅) = 0.
(ii) P (A ∪ B) = P (A) + P (B) für alle A, B ⊆ Ω mit A ∩ B = ∅.
(iii) P (Ac ) = 1 − P (A) für alle A ⊆ Ω, wobei Ac := Ω \ A.
(iv) Für alle A, B ⊆ Ω mit A ⊆ B gilt P (B \ A) = P (B) − P (A).
(v) Für alle A, B ⊆ Ω gilt P (A ∪ B) = P (A) + P (B) − P (A ∩ B).
(vi) Für alle A1 , A2 , · · · ⊆ Ω gilt P (A1 ∪ A2 ∪ . . . ) ≤ P (A1 ) + P (A2 ) + . . .
Beweis:(exemplarisch)
(i) Es gilt Ω = Ω ∪ ∅ ∪ ∅ ∪ ∅ ∪ ... und Ω ∩ ∅ = ∅, also:
1 = P (Ω) = P (Ω ∪ ∅ ∪ ∅ ∪ ∅...) = P (Ω) + P (∅) + P (∅) + ...

= 1 + P (∅) + P (∅) + ...,
⇒P (∅) = 0
(ii) Setze A1 := A, A2 := B, An = ∅ für alle n ≥ 3. Dann:
P (A ∪ B) = P (A1 ∪ A2 ∪ A ∪ ...) = P (A1 ) + P (A2 ) + P (A3 ) + · · · = P (A) + P (B)

| 3 {z } | {z }
=∅ =0
(v) A ∪ B = A ∪ (B \ A) und A ∩ (B \ A) = ∅, d.h. A und B \ A sind disjunkt, also:
P (A ∪ B) = P (A ∪ (B \ A))
= P (A) + P (B \ A)
= P (A) + P (B \ (A ∩ B))
(iv)
= P (A) + P (B) − P (A ∩ B)
Der folgende Satz ist der Schlüssel dazu, diskrete Wahrscheinlichkeitsmaße konkret zu
beschreiben.
Satz & Definition 1.5. (i) Sei (Ω, P ) ein diskreter Wahrscheinlichkeitsraum und
schreibe f (ω) := P ({ω}) für alle ω ∈ Ω. Dann heißt (f (ω))ω∈Ω Wahrscheinlich-
keitsvektor, Zähldichte, oder Elementarwahrscheinlichkeiten (von P ) und es gilt für
alle A ⊆ Ω:
X X
P (A) = f (ω) , insbesondere 1 = P (Ω) = f (ω)
ω∈A ω∈Ω
Das Wahrscheinlichkeitsmaß P kann also schon mittels der Elementarwahrschein-

lichkeit eindeutig beschrieben werden.
(ii) Ist umgekehrt f : Ω → [0, 1] eine Funktion mit

P
ω∈Ω f (ω) = 1, dann existiert genau
ein Wahrscheinlichkeitsmaß P auf Ω so, dass f Zähldichte von P ist.
Beweis:
(i) Da Ω höchstens abzählbar ist, können wir schreiben
A = {ω1 , ω2 , . . . } = {ω1 } ∪ {ω2 } ∪ · · · =: A1 ∪ A2 ∪ . . .
und die Ai sind paarweise disjunkt, also:
P (A) = P ({ω1 } ∪ {ω2 } ∪ . . . ) = P ({ω1 }) + P ({ω2 }) + . . .

X
= f (ω1 ) + f (ω2 ) + · · · = f (ω).
ω∈A
P
(ii) Wir definieren einfach P (A) := ω∈A f (ω). Dann rechnet man schnell nach, dass P
tatsächlich Wahrscheinlichkeitsmaß ist.
Der vorige Satz ermöglicht also die Angabe eines Wahrscheinlichkeitsmaßes durch die An-
gabe der Elementarwahrscheinlichkeiten. Damit können wir gleich ein wichtiges Beispiel
eines diskreten Wahrscheinlichkeitsmaßes angeben.
Definition 1.6 (Laplacemaß). Sei Ω eine endliche Menge. Das nach 1.5 eindeutig be-
stimmte Wahrscheinlichkeitsmaß P auf Ω mit
1
(f (ω) =)P ({ω}) = für alle ω ∈ Ω
|Ω|
heißt Laplacemaß oder Gleichverteilung auf Ω.
Beachte, dass die Definition sinnvoll ist, da f (ω) ∈ [0, 1] für alle ω ∈ Ω und
X X 1 1 X |Ω|
f (ω) = = 1= = 1.
ω∈Ω ω∈Ω |Ω| |Ω| ω∈Ω |Ω|
Ferner gilt für alle A ⊆ Ω

X 1 X |A|
P (A) = f (ω) = 1= .
ω∈A |Ω| ω∈A |Ω|
Bemerkung 1.7 (Zu den Beispielen). Um die Beipiele aus 1.1 abzuschließen, müssen
wir noch sinnvolle Wahrscheinlichkeitsmaße konkret angeben und die Wahrscheinlichkeit
der Ereignisse ausrechnen.
(1) einmaliger Würfelwurf:
Ω = {1, 2, 3, 4, 5, 6}
Wenn wir annehmen, dass der Würfel „fair“ ist, gelangen wir zu der Annahme
1
f (ω) := |Ω|
für alle ω ∈ Ω, also sollten wir P als Laplacemaß wählen.
Für A = {2, 4, 6} ergibt sich also
|A| 3 1
P (A) = = = .
|Ω| 6 2
(2) mehrfacher Würfelwurf:
Ω = {0, 1}10
Wenn wir erneut annehmen, dass die Münze „fair“ ist und die Würfe sich nicht
gegenseitig beeinflussen3 , ist es auch hier sinnvoll anzunehmen, dass alle Wurffolgen
1
die gleiche Wahrscheinlichkeit haben, wir also f (ω) := |Ω|
für alle ω ∈ Ω wählen, so
dass wir auch hier das Laplacemaß wählen.
|A|
Für A = {ω | |{i : ωi = 1}| = 6} ergibt sich: P (A) = |Ω|
. Hier ist das Ausrechnen
von |A| und |Ω| schon nicht mehr so einfach (wenn auch noch elementar möglich).
Wir behandeln dies systematischer in 1.8. Vorher aber noch folgende
Warnung: Es ist offensichtlich nicht immer sinnvoll, das Laplacemaß zu verwenden, z.B.
wenn die Münze verbeult ist. Man muss die Verwendung des Wahrscheinlich-
keitsmaßes stets begründen. Manchmal kann man dabei in Fallen tappen, etwa
hier:
Man würfelt zwei Würfel, die man nicht unterscheiden kann und notiert die
Ergebnisse dann stets geordnet. Wähle also
Ω = {(ω1 , ω2 ) | ω1 , ω2 ∈ {1, . . . , 6}, ω1 ≤ ω2 }.
Dann ist es nicht sinnvoll das Laplacemaß zu verwenden, denn etwa (1, 1) kann
nur durch eine Kombination an Würfeln erzeugt werden. (1, 2) durch zwei, so-
dass man besser das Wahrscheinlichkeitsmaß so wählen sollte, dass f ((1, 1)) =
1
2
f ((1, 2)).
Definition 1.8 (Urnenmodelle). In 1.7 haben wir gesehen, dass die Verwendung des
Laplacemaßes eng mit dem „Zählen“ (der Bestimmung der Anzahl von Elementen in einer
Menge) verbunden ist. Dies systematisieren wir jetzt.
3
Wir kommen später genauer darauf zurück.
1 4 6
2 3 5
7 ... n
Urne mit n Kugeln, wir ziehen k mal.
(1) Ziehen mit Reihenfolge und mit Zurücklegen
Modell:
ΩR,Z : = {1, . . . , n}k

(ω1 , . . . , ωk ) =
ˆ Zuerst wird ω1 gezogen, dann ω2 , . . .
|ΩR,Z | = nk
Standardmaß: Laplacemaß!
(2) Ziehen mit Reihenfolge und ohne Zurücklegen
Modell:
ΩR,−Z : = {ω ∈ {1, . . . , n}k | ∀i 6= j ∈ {1, . . . , k} : ωi 6= ωj }

(ω1 , . . . , ωk ) =
ˆ Zuerst wird ω1 gezogen, dann ω2 , . . .
n!
|ΩR,−Z | = n · (n − 1) · ... · (n − k + 1) =
(n − k)!
Beispiel: Ein Mann besitzt 5 Bücher, darunter eine Bibel und ein Telefonbuch, die ne-
beneinander im Regal stehen. Wie groß ist die Wahrscheinlichkeit, dass die
Bibel neben dem Telefonbuch steht?
n = k = 5, Ω = ΩR,−Z und
A = {ω ∈ ΩR,−Z | ∃i ∈ {1, . . . , 4} : (ωi = 1, ωi+1 = 2) ∨ (ωi = 2, ωi+1 = 1)}

Dann:
4
·

[ ·
|A| = {ω

: ωi = 1, ωi+1 = 2} ∪ {ω : ωi = 2, ωi+1 = 1}

i=1
4
" #
X
= |{ω : ωi = 1, ωi+1 = 2}| +|{ω : ωi = 2, ωi+1 = 1}|
i=1
| {z }
=3!
= 2 · 4!
2 · 4! 2
⇒ P (A) = =
5! 5
(3) Ziehen ohne Reihenfolge und ohne Zurücklegen
Modell:
Ω−R,−Z : = {ω ∈ {1, . . . , n}k | ω1 < · · · < ωk }

|Ω−R,−Z | = ?
Aber
Ω0−R,−Z : = {A ⊆ {1, . . . , n} | |A| = k}

!
n n!
|Ω0−R,−Z | = =
k (n − k)! · k!
und
ϕ : Ω−R,−Z → Ω0−R,−Z
(ω1 , . . . , ωk ) 7→ {ω1 , . . . , ωk }

n
ist bijektiv, also |Ω−R,−Z | = k
.
Beispiel: 3 Freundinnen machen bei einem Volkslauf mit 10000 Teilnehmern mit. Wie
groß ist die Wahrscheinlichkeit, dass alle 3 Startnummern ≤ 100 erhalten?
n := 10000 , k := 3 , A := {(ω1 , ω2 , ω3 ) | ∀i : ωi ≤ 100} ,

! !
100 10000
|A| = , |Ω| =
3 3

100
3
⇒P (A) =
10000
≈ 10−6
3
Hier ist die Annahme wesentlich, dass die Freundinnen die Startnummern un-
abhängig voneinander erhalten und nicht etwa alle drei gemeinsam.
(4) Ziehen ohne Reihenfolge und mit Zurücklegen
Modell:
Ω−R,Z : = {ω ∈ {1, . . . , n}k | ω1 ≤ · · · ≤ ωk }
Kein Laplaceraum!
Ansatz: Verwende besser (1)-(3) als (4). (Immer wenn möglich vom Laplaceraum star-
ten!)
Zusammenfassung
k mal Ziehen aus n Kugeln:
mit Zurücklegen ohne Zurücklegen

mit Reihenfolge Laplaceraum Laplaceraum
n!
|ΩR,Z | = nk |ΩR,−Z | = (n−k)!
ohne Reihenfolge kein Laplaceraum Laplaceraum

n
|Ω−R,−Z | = k
Beispiel 1.9. • Fahrstul in einem Gebäude mit 6 Stockwerken

Im Erdgeschoss steigen 3 Studenten ein, die alle unabhängig voneinander ausstei-
gen. Jedes Stockwerk habe die gleiche „Ausstiegswahrscheinlichkeit“.
Wie groß ist die Wahrscheinlichkeit, dass alle in verschiedenen Stockwerken aus-
steigen?
Modell: n := 5, k := 3, Ω = {1, . . . , 5}3 P Laplace (ist in vielen Alltagssituationen hier

diskussionswürdig).
A = {ω ∈ Ω | ωi 6= ωj ∀i 6= j}
|A| 5·4·3 12
P (A) = = =
|Ω| 53 25
• Lotto 6 aus 49
Wie groß ist die Wahrscheinlichkeit beim Lotto genau 4 richtige zu haben?
Ω = {ω ∈ {1, . . . , 49}6 | ω1 < · · · < ω6 }
A = {ω ∈ {1, . . . , 49}6 | ω1 , . . . , ω4 ∈ {1, . . . , 6}, ω5 , ω6 ∈ {7, . . . , 49}}

= {(ω1 , . . . , ω4 ) ∈ {1, . . . , 6}4 | ω1 < · · · < ω4 } × {(ω5 , ω6 ) ∈ {7, . . . , 49}2 | ω5 < ω6 }

6 43
|A| 4
· 2
⇒ P (A) = =
|Ω| 49
6
Zufallsvariablen und Verteilungen 1.10. Die vorigen Beispiele waren alle sehr einfa-
cher Struktur. In vielen Situationen ist man aber an der Modellierung weitaus komplexerer
Zufallsexperimente interessiert, studiert dann aber zumeist doch nur Teilaspekte.
Auch wenn man in Beispiel 1.1 (2) 10 Münzwürfe beobachtet, interessiert man sich viel-
leicht nur für die Anzahl der „Kopf“-Würfe dabei. Statt all der Tupel (ω1 , . . . , ω10 ) inter-
essiert man sich also nur für eine Zahl zwischen 0 und 10. Mathematisch betrachtet man
die Abbildung
X: Ω → {0, . . . , 10}
(ω1 , . . . , ω10 ) 7→ |{i | ωi = 1}|
Definition. Sei (Ω, P ) ein diskreter Wahrscheinlichkeitsraum und E eine Menge. Eine
Abbildung X : Ω → E heißt (E-wertige) Zufallsvariable, oder Zufallsgröße.
Ω E
Wenn man eine Zufallsgröße X vorliegen hat, so erhält man daraus ein Wahrscheinlich-
keitsmaß auf E:
Satz & Definition. Sei (Ω, P ) ein diskreter Wahrscheinlichkeitsraum und X : Ω → E

eine Zufallsgröße. Durch
P X (B) := P ({ω ∈ Ω | X(ω) ∈ B}) mit B⊆E
wird ein Wahrscheinlichkeitsmaß P X auf E definiert. Dieses wird als Verteilung von X
bezeichnet.4
Beweis:
• Es gilt:
P X (B) = P ({ω | X(ω) ∈ B}) ∈ [0, 1] ∀B ⊆ E.
P X (E) = P ({ω ∈ Ω | X(ω) ∈ E}) = P (Ω) = 1.

4
Formal tritt hier das Problem auf, dass wir E nicht als abzählbar vorausgesetzt haben, was wir
allerdings in Definition 1.3 gefordert haben. Das bereitet aber keine Probleme, da der Wertebereich von
X nur abzählbar ist und dies die einzigen Elemente in E sind, die uns interessieren.
• Für alle B1 , B2 , · · · ⊆ E paarweise disjunkt gilt:
P X (B1 ∪ B2 ∪ . . . ) =P ({ω ∈ Ω | X(ω) ∈ B1 ∪ B2 ∪ . . . })

=P ({ω | X(ω) ∈ B1 } ∪ {ω | X(ω) ∈ B2 } ∪ ...
|{z} )
| {z } | {z }
& ↓ .
disjunkt
=P ({ω | X(ω) ∈ B1 }) + P ({ω | X(ω) ∈ B2 }) + . . .
=P X (B1 ) + P X (B2 ) + . . .
Beispiel 1.11. Wir kommen noch einmal zurück auf die „Warnung“ aus 1.8 und gehen
von einem zweifachen Würfelwurf aus, bei dem wir beide Würfel unterscheiden können:
Ω ={(ω1 , ω2 ) | ω1 , ω2 ∈ {1, . . . , 6}} ,

ω1 =
ˆ Ergebnis des ersten Wurfs ,
ω2 =
ˆ Ergebnis des zweiten Wurfs ,
P = Laplacemaß
Nun „vergessen“wir die Reihenfolge und betrachten dazu:
X : Ω → E := {(ω1 , ω2 ) | ω1 ≤ ω2 }
(ω1 , ω2 ) 7→ (min{ω1 , ω2 }, max{ω1 , ω2 })
Dann gilt
1 1
P X ({(1, 1)}) = P ({(ω1 , ω2 ) | min{ω1 , ω2 } = max{ω1 , ω2 } = 1}) = P ({(1, 1)}) = =
Ω 36
und
2
P X ({(1, 2)}) = P ({(ω1 , ω2 ) | min{ω1 , ω2 } = 1, max{ω1 , ω2 } = 2}) = P ({(1, 2), (2, 1)}) = .
36
Zur Modellierung mit Zufallsgrößen 1.12. Bisher haben wir Zufallssituationen mo-
delliert, indem wir einen (diskreten) Wahrscheinlichkeitsraum (Ω, P ) angegeben haben,
bei dem Ω die Menge der Ergebnisse und P : Pot(Ω) → [0, 1] ein Wahrscheinlichkeits-
maß ist. Oft möchte man allerdings viele Zufallssituationen gleichzeitig beschreiben, was
den Raum sehr „unhandlich“ macht. Stattdessen lässt man in der Modellierung oft die
konkrete Realisierung von (Ω, P ) offen und nutzt zur Modellierung einfach Zufallsgrößen
X : Ω → E und spezifiziert nur deren Verteilung, also etwa in unserem Würfelwurfbei-
spiel:
Wir spezifizieren (Ω, P ) nicht direkt, sondern betrachten seine Zufallsgröße X : Ω →
E = {1, . . . , 6}, von der wir annehmen, dass X Laplaceverteilt ist, das heißt P X ist das
Laplacemaß auf {1, . . . , 6}.
Notation 1.13 (in der Wahrscheinlichkeitstheorie). Wie oben gesehen tauchen bei Zu-
fallsgrößen X : Ω → E oft Ereignisse der Form X −1 (B) = {ω ∈ Ω | X(ω) ∈ B} ⊆ Ω
auf. Dafür schreiben wir auch kurz
{X ∈ B} := {ω ∈ Ω | X(ω) ∈ B} ,
analog schreibt man
P (X ∈ B) := P ({X ∈ B}) := P X (B) ,
usw.
Kapitel 2
Bedingte Wahrscheinlichkeit und

stochastische Unabhängigkeit
Beispiel 2.1. Wir betrachten eine Urne mit w weißen und s schwarzen Kugeln, aus der
wir 2 Kugeln ohne Zurücklegen ziehen.
Modell: Wir denken uns die Kugeln durchnummeriert, wobei 1, . . . , w weiß sind und w +
1, . . . , w + s schwarz. Sei
Ω = {(k, l) | 1 ≤ k, l ≤ w + s, k 6= l}
und P das Laplacemaß auf Ω.
Betrachte die Ereignisse
B := {(k, l) ∈ Ω | k ≤ w} „1. Kugel ist weiß“

A := {(k, l) ∈ Ω | l ≤ w} „2. Kugel ist weiß“.
Es gilt
|Ω| = (w + s) · (w + s − 1),
w w

[ X
|A| = {(k, l) | k ∈ {1, ..., w + s} \ {l}} = (w + s − 1) = w · (w + s − 1),

l=1 l=1
w
P (A) = ,
w+s
das heißt, die Wahrscheinlichkeit, dass die 2. Kugel weiß ist, ist der Anteil der weißen
Kugeln.
Wenn man nun aber weiß, dass im 1. Zug schon eine weiße Kugel gezogen wurde, so ist
KAPITEL 2. BEDINGTE WAHRSCHEINLICHKEIT UND STOCHASTISCHE
UNABHÄNGIGKEIT 14
die Wahrscheinlichkeit anders. Intuitiv kann man vermuten, dass diese Wahrscheinlichkeit
w−1
gerade w+s−1
beträgt, denn es befinden sich ja noch w − 1 weiße Kugeln in der Urne und
w + s − 1 insgesamt.
Formal heißt das aber: Wir ordnen dem Ereignis A eine neue Wahrscheinlichkeit zu,
nämlich die Wahrscheinlichkeit für das Eintreten von A unter der Bedingung, dass B gilt.
Definition 2.2. Sei (Ω, P ) ein (diskreter) Wahrscheinlichkeitsraum und A, B ⊆ Ω mit

P (B) > 0. Dann nennen wir
P (A ∩ B)
P (A | B) :=
P (B)
die bedingte Wahrscheinlichkeit von A gegeben B.
Beispiel 2.3 (zu 2.1). Es gilt im Beispiel

|A∩B|
P (A ∩ B) |Ω| |A ∩ B| w · (w − 1) w−1
P (A | B) = = |B|
= = = ,
P (B) |Ω|
|B| s.o. w · (w + s − 1) w+s−1
wie vermutet.
Satz 2.4 (von der totalen Wahrscheinlichkeit und Bayes Formel). Sei (Ω, P ) ein diskreter
Wahrscheinlichkeitsraum und A, B1 , . . . , Bn ⊆ Ω mit P (Bi ) > 0 für alle i = 1, . . . , n und
B1 , . . . , Bn paarweise disjunkt und Ω = B1 ∪ · · · ∪ Bn . Dann gilt
(i) P (A) = P (A | B1 ) · P (B1 ) + · · · + P (A | Bn ) · P (Bn )
(ii) Falls P (A) > 0 gilt für alle k = 1, ..., n
P (A | Bk ) · P (Bk )
P (Bk | A) =
P (A | B1 ) · P (B1 ) + · · · + P (A | Bn ) · P (Bn )
Insbesondere gilt für n = 2, B = B1 und B2 = B c :
P (A | B) · P (B)
P (B | A) =
P (A | B) · P (B) + P (A | B c ) · P (B c )
UNABHÄNGIGKEIT 15
Beweis:
(i)
P (A | B1 ) · P (B1 ) + · · · + P (A | Bn ) · P (Bn )
P (A ∩ B1 ) P (A ∩ Bn )
= · P (B1 ) + · · · + · P (Bn )
P (B1 ) P (Bn )
= P (A ∩ B1 ) + · · · + P (A ∩ Bn )
B1 ,B2 ,...
= P ((A ∩ B1 ) ∪ · · · ∪ (A ∩ Bn ))
paarw. disj.
= P (A ∩ (B1 ∪ · · · ∪ Bn ))
| {z }
=Ω
= P (A)
(ii)
P (Bk ∩ A) P (A | Bk ) · P (Bk )
P (Bk | A) = = ,
P (A) P (A)
also die Behauptung mit (i).
Der Vorteil der Bayes-Formel ist, dass man „das Bedingen umkehren kann“. Man erhält
die bedingte Wahrscheinlichkeit gegeben A, wenn man die bedingten Wahrscheinlichkeiten
gegeben Bi kennt.
Beispiel 2.5. Eine 25-jährige Schwangere lässt sich beim Frauenarzt untersuchen. In
diesem Rahmen wird auf ihren Wunsch, aber ohne weitere Verdachtsmomente, ein Test
auf Trisomie 21 (Down-Syndrom) durchgeführt. Der Arzt erläutert:
• In 99% der Fälle, in denen Trisomie 21 vorliegt, ist der Test positiv. („Sensitivität“)
• In 98% der Fälle, in denen Trisomie 21 nicht vorliegt, ist der Test negativ. („Spe-
zifität“)
Was bedeutet es nun, wenn der Test tatsächlich positiv ausfällt?

Ereignisse:
B=
ˆ Trisomie 21 liegt vor , A=
ˆ Test ist positiv
Es gilt:
P (A | B) = 99% , P (A | B c ) = 1 − 98% = 2%
UNABHÄNGIGKEIT 16
Wir sind interessiert an der Wahrscheinlichkeit, dass Trisomie 21 vorliegt, wenn der Test
positiv ist, also an P (B | A). Zur Berechnung mit der Bayes-Formel fehlt die Wahrschein-
lichkeit P (B), also die Wahrscheinlichkeit, dass ein zufällig gewähltes Kind Trisimoie 21
hat.
1
Diese beträgt bei 25-jährigen Müttern in Deutschland etwa 1250
, also:
1 1249
P (B) = , P (B c ) = 1 − P (B) =
1250 1250
1
P (A | B) · P (B) 0, 99 · 1250
⇒P (B | A) = = 1 1249 ≤ 4%
P (A | B) · P (B) + P (A | B c ) · P (B c ) 0, 99 · 1250 + 0, 02 · 1250
Die Wahrscheinlichkeit, dass das Kind tatsächlich Trisomie 21 hat, wenn der Test an-
schlägt, ist also sehr gering. (In einer (nicht-repräsentativen) Umfrage unter Gynäkologen
haben über 90% dieser die Wahrscheinlichkeit auf ≥ 90% geschätzt).
Stochastische Unabhängigkeit von Ereignissen 2.6. Sind A, B ⊆ Ω Ereignisse mit
P (B) > 0, so kann man sich die Frage stellen, wann sich die Wahrscheinlichkeit von A
durch Bedingen auf B nicht ändert, das heißt
P (A ∩ B)
P (A | B) = P (A) ⇔ = P (A) ⇔ P (A ∩ B) = P (A) · P (B).
P (B)
Dies motiviert allgemeiner:
Definition. Sei (Ω, P ) ein (diskreter) Wahrscheinlichkeitsraum.
(i) A, B ⊆ Ω heißen stochastisch unabhängig, falls P (A ∩ B) = P (A) · P (B).3
(ii) Sind allgemein A1 , A2 , . . . An ⊆ Ω Ereignisse, so heißen diese stochastisch unabhän-

gig, falls für alle I ⊆ {1, . . . , n}, I = {i1 , . . . , ik } =
6 ∅ gilt:
P (Ai1 ∩ · · · ∩ Aik ) = P (Ai1 ) · · · · · P (Aik )

Bemerkung. Bei 3 Ereignissen A, B, C ist zu prüfen, ob:
P (A ∩ B) = P (A) · P (B) , P (A ∩ C) = P (A) · P (C) , P (B ∩ C) = P (B) · P (C) und

P (A ∩ B ∩ C) = P (A) · P (B) · P (C).
Es reicht weder nur die ersten drei Bedingungen zu prüfen, noch nur die letzte (vergleiche
Übung).
Definition 2.7 (Stochastische Unabhängigkeit von Zufallsgrößen). Seien (Ω, P ) ein (dis-
kreter) Wahrscheinlichkeitsraum und
X1 : Ω → E1 , X2 : Ω → E2 , . . . , Xn : Ω → En ,
Zufallsgrößen. Dann nennen wir X1 , . . . , Xn stochastisch unabhängig, wenn für alle B1 ⊆

E1 , . . . , Bn ⊆ En die Ereignisse {X1 ∈ B1 }, . . . , {Xn ∈ Bn } stochastisch unabhängig sind.
3
beachte: Hier ist die Voraussetzung P (B) > 0 nicht nötig!
UNABHÄNGIGKEIT 17
Beachte, dass im obigen Setting die Abbildung (X1 , . . . , Xn ) : Ω → E1 × · · · × En wieder

eine Zufallsgröße ist. Die stochastische Unabhängigkeit von X1 , . . . , Xn lässt sich einfach
anhand der zugehörigen Zähldichte beschreiben:
Satz 2.8. Sei (Ω, P ) ein diskreter Wahrscheinlichkeitsraum und X1 : Ω →

E1 , . . . , Xn : Ω → En Zufallsgrößen. Dann ist äquivalent:
(i) X1 , . . . Xn sind stochastisch unabhängig.
(ii)
P (X1 , = x1 , . . . , Xn = xn ) = P (X1 = x1 ) · · · · · P (Xn = xn )
für alle x1 ∈ E1 , . . . , xn ∈ En , das heißt die Zähldichte von (X1 , . . . Xn ) hat Produkt-
gestalt.
Beweis:
(i) ⇒ (ii): Seien X1 , . . . , Xn unabhängig und x1 ∈ E1 , . . . , xn ∈ En . Schreiben B1 :=

{x1 }, . . . , Bn := {xn }, dann folgt:
P (X1 = x1 , . . . , Xn = xn ) = P (X1 ∈ B1 , . . . , Xn ∈ Bn )
unabh.
= P (X1 ∈ B1 ) · · · · · P (Xn ∈ Bn )
= P (X1 = x1 ) · · · · · P (Xn = xn )
(ii) ⇒ (i): Es gelte nun (i). Seien B1 ⊆ E1 , . . . , Bn ⊆ En . Es gilt:

X
P (X1 ∈ B1 , . . . , Xn ∈ Bn ) = P (X1 = x1 , . . . , Xn = xn )
x1 ∈B1 ,...,xn ∈Bn
(ii) X
= P (X1 = x1 ) · · · · · P (Xn = xn )
x1 ∈B1 ,...,xn ∈Bn
   
X X
= P (X1 = x1 ) · · · · ·  P (Xn = xn )
x1 ∈B1 xn ∈Bn
= P (X1 ∈ B1 ) · · · · · P (Xn ∈ Bn )
Zur Verteilung von Summen unabhängiger Zufallsgrößen 2.9. Seien X, Y unab-

hängige Zufallsgrößen mit Werten in R und Z := X + Y . Man nennt die Verteilung von
Z auch Faltung der Verteilungen von X und Y , in Zeichen:
PZ = PX ∗ PY
UNABHÄNGIGKEIT 18
Dann gilt für für diskrete Wahrscheinlichkeitsräume und alle z
P (Z = z) = P (X + Y = z)
 
[
= P {X + y = z, Y = y}
y∈Y (Ω)
paarw. X
= P (X + y = z, Y = y)
disj.
y∈Y (Ω)
X,Y X
= P (X = z − y) · P (Y = y)
unabh.
y∈Y (Ω)
Bezeichnen fX und fY die Zähldichten von X und Y , so gilt also für die Zähldichte von
Z
X
fZ (z) = fX (z − y) · fY (y)
y
Diese Formel wird als Faltung von fX und fY bezeichnet. Oft sind Faltungen allerdings
schwierig konkret zu berechnen.
Mehrstufige Modelle 2.10. Oft betrachtet man Zufallssituationen, die aus n nachein-
ander ausgeführten Zufallsexperimenten bestehen. Wesentlich zur richtigen Modellierung
ist die:
Multiplikationsformel. Sei (Ω, P ) (diskreter) Wahrscheinlichkeitsraum und

A1 , . . . , An ⊆ Ω, mit P (A1 ∩ · · · ∩ An−1 ) > 0. Dann gilt:
P (A1 ∩ · · · ∩ An ) = P (A1 ) · P (A2 | A1 ) · · · · · P (An | A1 ∩ · · · ∩ An−1 )
Beweis: Es gilt:
P (A1 ) · P (A2 | A1 ) · · · · · P (An | A1 ∩ · · · ∩ An−1 )

P (A2 ∩ A1 ) P (A3 ∩ A2 ∩ A1 ) P (A1 ∩ · · · ∩ An )
=P (A1 ) · · · ··· ·
P (A1 ) P (A2 ∩ A1 ) P (A1 ∩ · · · ∩ An−1 )
=P (A1 ∩ · · · ∩ An )
Mit dieser Formel im Hinterkopf können wir mehrstufige Zufallsexperimente mit Bäumen
lösen. Exemplarisch betrachten wir:
Hardy-Weinberg-Gesetz 2.11. Für ein Gen gebe es die Allele A, a, also die Genotypen
AA, Aa, aa. Wir nehmen an, dass die relative Häufigkeit dafür u, 2v, w betragen. Ferner
sei das Gen nicht wesentlich für die Partnerwahl. Wie ändert sich dann die Verteilung
UNABHÄNGIGKEIT 19
der Gene in der Nachkommengeneration?

Wir betrachten
Ω = {(ω1 , ω2 , ω3 ) | ω1 , ω2 , ω3 ∈ {AA, Aa, aa}} ,
wobei
ω1 = Genotyp der Mutter , ω2 = Genotyp des Vaters , ω3 = Genotyp des Kindes.
ω1 ω2 ω3
1
AA AA
1
2v 2
AA Aa AA
1
u w 2
2v
· Aa . . . aa Aa
w 1
aa . . . Aa
Man definiert nun das Wahrscheinlichkeitsmaß auf Ω, indem man gemäß 2.10 die be-
UNABHÄNGIGKEIT 20
dingten Wahrscheinlichkeiten multipliziert, also (siehe Baum)
P ((AA; AA; AA)):=u · u · 1 = u2 ,

P ((AA; AA; x)) :=0 für x 6= AA ,
1
P ((AA; Aa; AA)) :=u · 2v · = uv ,
2
1
P ((AA; Aa; Aa)) :=u · 2v · = uv ,
2
P ((AA; aa; Aa)) :=u · w · 1 = uw ,
P ((AA; aa; x)) :=0 für x 6= Aa.
..
.
Durch Abzählen erhält man so das Hardy-Weinberg-Gesetz:
P ({ω | ω3 = AA})=u ,
P ({ω | ω3 = Aa}) =2v ,
P ({ω | ω3 = aa}) =w
Die Verteilung ändert sich also nicht, wenn kein Selektionsdruck vorliegt.
Kapitel 3
Ein Überblick über einige diskrete

Verteilungen
In diesem Abschnitt behandeln wir wichtige diskrete Wahrscheinlichkeitsmaße und ihre

Beziehung untereinander.
Laplace-Verteilung 3.1. (Siehe auch 1.6)
• Grundraum: Ω: endliche Menge.

1
• Zähldichte: f (ω) = |Ω|
.
|A|
• Es gilt dann: P (A) = |Ω|
.
• Typische Anwendung: Das Laplacemaß wird immer dann verwendet, wenn jedes
Elementarereignis {ω} die gleiche Wahrscheinlichkeit besitzt.
Beschreibt etwa X das Ergebnis eines fairen Würfels, so kann man X Laplaceverteilt
auf {1, . . . , 6} modellieren.
Bernoulli-Verteilung 3.2. • Grundraum: Ω = {0, 1}.
• Parameter: p ∈ (0, 1).
• Zähldichte: f (0) = 1 − p, f (1) = p.
• In Zeichen: Ber(p).
• Typische Anwendung: Ergebnis eines Zufallsexperiments, bei dem es nur 2 Ergeb-

nisse gibt.
Binomialverteilung 3.3. • Grundraum: Ω = {0, . . . , n}.

KAPITEL 3. EIN ÜBERBLICK ÜBER EINIGE DISKRETE VERTEILUNGEN 22
• Parameter: n ∈ N, p ∈ (0, 1).

n
• Zähldichte: f (k) = k
· pk · (1 − p)n−k .
• Nachweis der Dichteeigenschaft: Es gilt f ≥ 0 X und

n n
!
n k Binom.
p (1 − p)n−k (p + (1 − p))n = 1n = 1.
X X
f (k) = =
k=0 k=0 k Lehrsatz
• In Zeichen: Bin(n, p).
• Zusammenhang zu anderen Verteilungen:

Sind X1 , . . . , Xn unabhängig und Ber(p)-verteilt, so gilt:
X
P (X1 + · · · + Xn = k) = P (X1 = x1 , . . . , Xn = xn )
(x1 ,...,xn )∈{0,1}n
x1 +···+xn =k
Unabh.
pk (1 − p)n−k
X
=
)∈{0,1}n
(x1 ,...,xn
|{i : xi =1}|=k
!
1.8 n k
= p (1 − p)n−k ,
k
also gilt X := X1 + . . . Xn ∼ Bin(n, p), d.h. P X = Bin(n, p).
• Typische Anwendung: Der vorige Punkt motiviert die folgende Anwendung.

Führt man das gleiche Zufallsexperiment mit nur zwei Ausgängen unabhängig von-
einander n-mal durch und ist die Wahrscheinlichkeit für Ausgang 1 ( Erfolg) p, so
modelliert X ∼ Bin(n, p) die Anzahl der Experimente, bei denen Ausgang 1 einge-
treten ist.
Hypergeometrische Verteilung 3.4. • Grundraum: Ω = {0, . . . , n}.
• Parameter: N ∈ N, M ∈ {0, . . . , N }, n ∈ {0, . . . , N }.

−M
(Mk )·(Nn−k )
• Zähldichte: f (k) = N (wobei jl := 0, falls j > l).
(n)
• Nachweis der Dichteeigenschaft: Aus den Grundvorlesungen ist (vielleicht) bekannt:
n
! ! !
X M N −M N
· = ,
k=0 k n−k n
also gilt:
n
X
f (k) = 1 , f (k) ≥ 0 X.
k=0
• In Zeichen: Hyp(N, M, n).


Fallls M , N „groß“ gegenüber n ist, so gilt
M
Hyp(N, M, n) ≈ Bin(n, p) , p= .
N
(Für eine Präzisierung siehe Irle, 5.11).
• Typische Anwendung: Hat man eine Urne mit N Kugeln, von denen M weiß und N −
M schwarz sind und zieht man n Kugeln ohne Zurücklegen, so ist Hyp(N, M, n)({k})
die Wahrscheinlichkeit genau k weiße zu ziehen. (Siehe 1.8)
Poisson-Verteilung 3.5. • Grundraum: N0 .
• Parameter: λ ∈ (0, ∞).

λk −λ
• Zähldichte: f (k) = k!
e
• Nachweis der Dichteeigenschaft: Es gilt f ≥ 0 X und

∞
−λ λk Reihenent-
e−λ eλ = 1.
X X
f (k) = e =
k=0 k!
wicklung ex
k∈N0
• In Zeichen: Poi(λ).

n→∞
Ist (pn )n∈N eine Folge von Zahlen in (0, 1) mit n·pn −−−→ λ, so gilt für alle k ∈ N0 4 :
!
n k
Bin(n, pn )({k}) = p · (1 − pn )n−k
k n
λk (1 − pn )n k−1
k
n · pn Y n−l

= k
·
k! λ (1 − pn ) l=0 n
| {z }
n→∞
−−−→e−λ
n→∞
−−−→ Poi(λ)({k})
also gilt für „großes“ n und „kleines“ p:
Bin(n, p) ≈ Poi(n · p)
Was hierbei „groß“ und „klein“ bedeutet, muss anhand von Fehlerabschätzungen für
jedes Einzelproblem spezifiziert werden. Als Faustregel kann man anwenden, dass
man die Poissonapproximation oft sinnvoll nutzen kann, wenn n ≥ 50 und p ≤ 5%.
Als Beispiel etwa: Ein Insekt hat n = 1000 Nachkommen, die alle unabhängig mit
einer Wahrscheinlichkeit von p = 1/1000 das geschlechtsreife Alter erreichen. Dann
4
Im letzten Schritt ist etwas klassische Analysis nötig; auf die Details gehen wir hier nicht ein.
beschreibt eine Bin(n, p)-verteilte Zufallsgröße X die Anzahl der geschlechtsreifen

Nachkommen. Die Wahrscheinlichkeit für mindestens 2 geschlechtsreife Nachkom-
men beträgt dann
P (X ≥ 2) = 1 − P (X ≤ 1) = 1 − Bin(n, p)({1}) − Bin(n, p)({0})

! !
n 1 n 0
=1− p · (1 − p)n−1 − p · (1 − p)n−0 ≈ 26, 4%.
1 0
Andererseits kann man die Poissonapproximation nutzen:
P (X ≥ 2) = 1 − P (X ≤ 1) = 1 − Bin(n, p)({1}) − Bin(n, p)({0})

≈ 1 − Poi(n · p)({1}) − Poi(n · p)({0}) = 1 − 11 e−1 /1! − 10 e−1 /0! ≈ 26, 4%.
• Typische Anwendung: Man wählt oft X Poi-verteilt, wenn X der Ausgang eines
zufälligen Zählvorgangs ist, etwa:
– X: Anzahl der Druckfehler in einem Skript,

– X: Anzahl der Transistoren, die an einem Tag ausfallen,
– X: Anzahl der Kunden, die an einem Vormittag einen Laden betreten, . . .
Kapitel 4
Erwartungswerte und Momente
Oft ist es erhellend, beim Studium von Zufallsgrößen deren „mittleren“ Wert anzugeben.
Die am häufigsten verwendete Begriffsbildung dafür ist folgende:
Definition 4.1. Sei (Ω, P ) ein diskreter Wahrscheinlichkeitsraum und X eine Zufalls-
größe mit Werten in E ⊆ R. Ist |x| · P (X = x) < ∞, so nennen wir
P
x∈E
X X
EP (X) := E(X) := x · P (X = x) = x · P (X = x)
x∈E x∈X(Ω)
den Erwartungswert von X. Wir sagen auch X sei integrierbar.
|x|·P (X = x) < ∞ ist immer erfüllt, wenn

P
Anmerkung 4.2. (i) Die Bedingung x∈E
|E| < ∞ (dann liegt eine ganz gewöhnliche Summe und keine Reihe vor). Ansonsten
garantiert die Bedingung gerade, dass der Erwartungswert überhaupt existiert.
(ii) Die Definition von E(X) hängt nur von der Verteilung von X ab. Haben also X, Y
die gleiche Verteilung, so gilt schon E(X) = E(Y ).
Weitere Darstellung von E(X) 4.3. (i) Sei X integrierbar, dann gilt
X
E(X) = X(ω) · P ({ω}).
ω∈Ω
(ii) Ist f : X(Ω) → R eine Funktion so, dass f (X) := f ◦ X integrierbar ist, so gilt
f (x) · P (X = x).
P
E(f (X)) = x∈E
Beweis:
(i) Für alle x ∈ E definieren wir Ωx := {X = x} = {ω | X(ω) = x}. Dann gilt

KAPITEL 4. ERWARTUNGSWERTE UND MOMENTE 26
S
Ω= x∈E Ωx und die Ωx sind paarweise disjunkt. Damit:
X X X
X(ω)P ({ω}) = X(ω) P ({ω})
ω∈Ω x∈E ω∈Ωx
| {z }
=x
X X
= x P ({ω})
x∈E ω∈Ωx
 
X [
= x·P  {ω}
x∈E ω∈Ωx
X
= x · P ( Ωx )
|{z}
x∈E
={X=x}
=E(X).
(ii) ähnlich.

1,

ω∈A
Beispiel 4.4. (i) Ist A ⊆ Ω, X = 1A , das heißt X(ω) = , so gilt:
0, ω 6∈ A

E(X) = 0 · P (X = 0) + 1 · P (X = 1}) = P (A)

| {z
=A
(ii) Ist X ∼ Poi(λ), so gilt:

X
E(X) = n · P (X = x)
n∈N0
| {z }
n
e−λ λn!
−λ
X λn
=e
n∈N (n − 1)!
λn−1
=λ · e−λ
X
n∈N (n − 1)!
| {z }
eλ
=λ
(iii) Sei X ∼ Bin(n, p). Dann:

n
X
E(X) = k · P (X = k)
k=0
n
!
n
pk (1 − p)n−k
X
= k
k=0 k
| {z }
n!
(n−k)!k!
n
(n − 1)!
pk−1 (1 − p)(n−1)−(k−1)
X
= n·p
k=1 ((n − 1) − (k − 1))!(k − 1)!
n−1
j=k−1 (n − 1)!
pj (1 − p)(n−1)−j
X
= n·p
j=0 (n − 1 − j)!j!
Bin.
= n · p · (p + (1 − p))n−1
Lehrsatz
= n·p·1
= n·p
Satz 4.5 (elementare Eigenschaften). Seien X, Y integrierbare Zufallsvariablen auf dem

gleichen diskreten Wahrscheinlichkeitsraum (Ω, P ), a ∈ R. Dann:
(i) E(a · X) = a · E(X)
(ii) E(X + Y ) = E(X) + E(Y )
(iii) Gilt X(ω) ≤ Y (ω) für alle ω ∈ Ω, so gilt E(X) ≤ E(Y ).
Beweis: Einfaches Nachrechnen, vgl. Ü.
Warnung. Im Allgemeinen gilt nicht:
E(X · Y ) = E(X) · E(Y )
Siehe auch 4.12.
Anmerkung 4.6 (zu Beispiel 4.4 (iii)). Der Erwartungswert der Binomialverteilung kann
viel einfacher folgendermaßen berechnet werden:
Sind X1 , . . . , Xn unabhängig mit P (Xi = 1) = p = 1 − P (Xi = 0) für alle i = 1, . . . , n, so
ist X := X1 + · · · + Xn nach 3.3 Bin(n, p)-verteilt. Also gilt für X ∼ Bin(n, p):
E(X) = E(X1 + · · · + Xn ) = E(X1 ) + · · · + E(Xn ) = n · p.

| {z } | {z }
p p
Beispiel 4.7 (Binary Search). Wir analysieren jetzt einen ersten Algorithmus, bei dem
der Zufall eine Rolle spielt: die binäre Suche. Dabei liegen 2n − 1 geordnete „Schlüsselele-
mente“
a1 , . . . , a2n −1
vor (z.B. Namen in lexikographischer Ordnung, Telefonnummern,. . . ). Zu jedem ai liegt

ein Datensatz bi vor. Wir betrachten den Ergebnisraum
Ω = {a1 , . . . , a2n −1 }
und suchen zu gegebenem ω ∈ Ω den zugehörigen Datensatz bzw. den Index i mit ω = ai .
Binäre Suche in einer Liste (c1 , . . . , c2k+1 ) bedeutet:
Teile diese auf in (c1 , . . . , ck ), (ck+1 ), (ck+2 , . . . , c2k+1 ). (identifiziere also ein mittleres
Element und alle links, bzw. rechts davon gelegenen). Dies wenden wir erst an auf
(a1 , . . . , a2n −1 ):
(a1 , . . . , a2n−1 −1 ), (a2n−1 ), (a2n−1 +1 , . . . , a2n −1 )
• Falls ω = a2n−1 , so sind wir fertig, das heißt i = 2n − 1,
• Falls ω < a2n−1 , machen wir mit der Liste (a1 , . . . , a2n−1 −1 ) weiter,
• Falls ω > a2n−1 , machen wir mit der Liste (a2n−1 +1 , . . . , a2n −1 ) weiter,
und iterieren dieses Vorgehen, bis ω eines der mittleren Elemente ist.
Wie lange dauert dies? Das hängt davon ab, welches ω wir vorliegen haben. Manchmal
reicht ein Schritt (ω = a2n−1 ), manchmal müssen wir sogar n-mal die Liste zerlegen (etwa
wenn ω = a1 ). Die benötigte Schrittzahl ist also abhängig vom (zufälligen) Element ω, das
vorliegt. Wir analysieren diese zufällige Schrittzahl nun, indem wir die mittlere Anzahl
untersuchen.
Wir betrachten dazu die Zufallsgröße
X : Ω → {1, . . . , n} ,
die jedem ω die nötige Schrittzahl zuordnet, das heißt, wie man sich leicht überlegt:
∀i = 1, . . . , 2k−1 : X(a(2i−1)·2n−k ) = k. (∗)
Wir nehmen an, dass wir ω gemäß Gleichverteilung gezogen haben. Betrachte also
P =Laplacemaß auf Ω. Dann:
|{ω | X(ω) = k}| (∗) 2k−1
P (X = k) = = n .
|Ω| 2 −1
E(X) beschreibt nun die mittlere Laufzeit der binären Suche:

n
X
E(X) = k · P (X = k)
k=1
n
X k · 2k−1
= n
k=1 2 − 1
n
1 X
= k · 2k−1
2n − 1 k=1
geom. 1
= n
(n · 2n − (2n − 1))
Summenformel 2 − 1
2n
= n· n −1
2 −1
Für große n wächst die erwartete Laufzeit also in der Ordnung n, das heißt in der Grö-
ßenordnung des für uns ungünstigsten ω.
Neben der Beschreibung des mittleren Wertes einer Zufallsgröße ist man auch an der
Beschreibung der „Streuung“ um diesen interessiert:
Definition 4.8. Sei X eine integrierbare Zufallsgröße. Dann heißt
Var(X) := E((X − E(X))2 ) = (x − E(X))2 P (X = x)
X
x∈E
die Varianz von X, falls dieser Erwartungswert existiert. Weiter heißt dann
q
Var(X)
Standardabweichung.
Anmerkung 4.9. Die Existenz von V ar(X) liegt genau dann vor, wenn E(X 2 ) < ∞.
Man spricht in diesem Fall auch von Quadratintegrierbarkeit.
Man kann ferner einsehen, dass aus der Existenz von V ar(X) schon die Integrierbarkeit
– also die Existenz von E(X) – folgt.
Satz 4.10. Ist X wie in 4.8, so gilt
Var(X) = E(X 2 ) − (E(X))2
Beweis: Schreibe µ := E(X).

Var(X) =E((X − E(X))2 )
=E(X 2 − 2µX + µ2 )
=E(X 2 ) − E(2µX) + E( µ2 )
|{z}
konstant
=E(X 2 ) − 2µE(X) + µ2
=E(X 2 ) − µ2
=E(X 2 ) − (E(X))2
Definition 4.11. Sind X, Y Zufallsgrößen, deren Varianzen existieren, so setzt man
Cov(X, Y ) := E[(X − E(X)) · (Y − E(Y ))]
und nennt dies die Kovarianz von X und Y . Gilt Cov(X, Y ) = 0, so heißen X und Y
unkorreliert.
Satz 4.12. (i) Sind X1 , X2 , . . . , Xn Zufallsgrößen, deren Varianzen existieren, so gilt:

n n
!
X X X
Var Xi = Var(Xi ) + Cov(Xi , Xj ).
i=1 i=1 i6=j
(ii) Sind X1 , X2 , . . . , Xn unabhängig, so sind sie auch unkorreliert. Zu diesem Fall gilt:
n n
!
X X
Var Xi = Var(Xi ) und E(X1 X2 ) = E(X1 )E(X2 ).
i=1 i=1
Warnung. Die Umkehrung von (ii) gilt i.a. nicht! (Siehe auch 4.14).
Beweis:
(i)
 !2 
n n
!
X X
Var Xi = E (Xi − E(Xi )) 
i=1 i=1
 
n
allg.
− E(Xi ))2 +
X X
= E  (Xi (Xi − E(Xi )) · (Xj − E(Xj ))
Bin. Formel
i=1 i6=j
n
X X
= Var(Xi ) + Cov(Xi , Xj )
i=1 i6=j
(ii) Sind X und Y unabhängig, so gilt

X
E(X · Y ) = x · y · P (X = x, Y = y)
x∈X(Ω)
y∈Y (Ω)
unabh. X
= x · y · P (X = x) · P (Y = y)
x,y
! !
X X
= x · P (X = x) · y · P (Y = y)
x y
= E(X) · E(Y )
Insbesondere gilt
Cov(X, Y ) = E[(X − E(X)) · (Y − E(Y ))] = E(X − E(X)) · E(Y − E(Y )) = 0 · 0 = 0

| {z }
unabh.
und die Formel für die Varianz folgt aus (i).

Beispiel 4.13. Wir berechnen die Varianz von X ∼ Bin(n, p). Dazu gehen wir vor wie
in 4.6 und schreiben X = X1 + · · · + Xn , X1 , · · · , Xn unabhängig und P (Xi = 1) = p =
1 − P (Xi = 0). Dann gilt
n n
!
X 4.12 X
Var(X) = Var Xi = Var(Xi ) = n · Var(X1 )
(ii)
i=1 i=1
und
4.10 4.6
Var(X1 ) = E( X12 ) − (E(X1 ))2 = p − p2 ,
|{z}
=X1
also:
Var(X) = n · (p − p2 ) = n · p · (1 − p)
Anmerkung 4.14. (i) Man kann Cov(X, Y ) deuten als Maß für den linearen Zusam-
menhang von X und Y :
Versucht man X dadurch zu approximieren, dass man eine lineare Funktion aY + b
von Y verwendet, so macht man einen Fehler, etwa gemessen gemäß

E (X − (aY + b))2 , a, b ∈ R.
Dieser Fehler wird minimiert durch die Wahl

Cov(X, Y )
a= , b = E(X) − a · Cov(X, Y ) ,
Var(X)
das heißt Cov(X, Y ) beschreibt die Steigung des linearen Zusammenhangs. Sind also
X, Y unkorreliert, so kann man dies so interpretieren, dass die lineare Abhängigkeit
0 ist. Der Begriff der Unabhängigkeit ist aber viel weitergehend.
(ii) Neben dem Erwartungswert gibt es noch weitere sinnvolle „Lagemaße“ für Zufalls-
größen. Beim Erwartungswert können „Außreißer“, das heißt sehr große Werte, die
mit relativ kleiner Wahrscheinlichkeit angenommen werden, den Wert stark beein-
flussen. Ein Maß, bei dem dies nicht so stark zum Tragen kommt, ist der Median.
So wird jedes m ∈ R bezeichnet, das folgendes erfüllt:
1 1
P (X ≤ m) ≥ und P (X ≥ m) ≥ .
2 2
Besonders in der Informatik, wo viele Zufallsgrößen Werte in N besitzen, ist folgende

Formel für den Erwartungswert oft nützlich, die wir jetzt nachliefern:
Satz 4.15. Hat die integrierbare Zufallsgröße X nur Werte in N, so gilt

∞
X
E(X) = P (X ≥ i)
i=1
Beweis: Wir zeigen diesen Satz nur für den Fall, dass X beschränkt ist, d.h. es existiert
M ∈ N so, dass X ≤ M . Ist ω ∈ Ω mit X(ω) = m, so gilt:
m
X M
X M
X
X(ω) = m = 1= 1{i≤m} = 1{i≤X(ω)}
i=1 i=1 i=1
und damit
M M M
!
X X X
E(X) = E 1{i≤X} = E 1{i≤X} = P (X ≥ i)
i=1 i=1 i=1
Kapitel 5
Gesetz der großen Zahl und

Zentraler Grenzwertsatz
Bei unserem axiomatischen Zugang zum Wahrscheinlichkeitsbegriff in Kapitel 1 blieb die

natürliche Idee auf der Strecke, dass Wahrscheinlichkeit als Grenzwert einer relativen
Häufigkeit bei unabhängiger Durchführung immer des gleichen Experiments interpretiert
werden kann. Wir werden in diesem Abschnitt sehen, dass man dies aber als Folgerung
aus den bisherigen Resultaten erhält (Gesetz der großen Zahl = GGZ).
Des weiteren gehen wir der Frage nach, wieso die Glockenkurve bei vielen Situationen der
realen Welt auftaucht (Zentraler Grenzwertsatz = ZGS).
Als Hilfsmittel verwenden wir folgende Ungleichung, die auch von eigenem Interesse ist.
Tschebyschev-Ungleichung 5.1. Sei X eine integrierbare Zufallsgröße. Dann gilt für
alle ε > 0:
Var(X)
P (|X − E(X)| ≥ ε) ≤ .
ε2
Beweis: Betrachte das Ereignis A = {ω ∈ Ω | |X(ω) − E(X)| ≥ ε}. Für ω ∈ Ac :
(X(ω) − E(X))2 ≥ 0 = ε2 · 1A (ω) ,
also insgesamt
Var(X) =E((X − E(X))2 )

≥E(ε2 · 1A )
=ε2 · P (A)
also
Var(X)
≥ P (|X − E(X)| ≥ ε).
ε2
KAPITEL 5. GGZ UND ZGS 34
Schwaches Gesetz der großen Zahl (GGZ) 5.2. Seien X1 , X2 , . . . quadratintegrier-

bare Zufallsgrößen.
1 Pn
(i) Sind X1 , X2 , . . . unabhängig und identisch verteilt5 , so gilt für das Mittel n i=1 Xi
und alle ε > 0:
n
!
1 X
n→∞
P Xi − E(X1 ) ≥ ε −−−→ 0.

n
i=1
(ii) Sind X1 , X2 , . . . unkorreliert und existiert ein M > 0 mit Var(Xi ) < M für alle
i ∈ N, so gilt für alle ε > 0:
n
!
1 X
n→∞
P (Xi − E(Xi )) ≥ ε −−−→ 0.

n i=1

Beweis: Wir zeigen (ii) zuerst und werden daraus direkt (i) erhalten.
Pn Pn
(ii) Es gilt E ( i=1 Xi ) = i=1 E(Xi ) und nach 4.12(ii) wegen der Unkorreliertheit:
n n
!
X X
Var Xi = Var(Xi ) (∗)
i=1 i=1
Damit folgt:
n
! n !
1 X X
P (Xi − E(Xi )) ≥ ε = P (Xi − E(Xi )) ≥n·ε

n i=1

i=1
Pn
5.1 Var ( i=1 Xi )
≤
(n · ε)2
Pn
(∗) Var(Xi )
i=1
=
(n · ε)2
n·M
≤ 2 2
ε ·n
M
=
nε2
n→∞
−−−→0.
(i) Da die Zufallsgrößen nun identisch verteilt sind, haben sie alle den gleichen Erwar-
tungswert
µ := E(X1 ) = E(X2 ) = . . .
i j
5
identische Verteilung bedeutet P X = P X für alle i, j. Diese Situation tritt auf, wenn man das
gleiche Experiment immer wiederholt.
und die gleiche Varianz
σ 2 := Var(X1 ) = Var(X2 ) = . . .
Die Unabhängigkeit impliziert ferner die Unkorreliertheit, also liefert (ii):

 
n n n
!
1 X 1 X 1X

P
 Xi − µ ≥ ε = P
Xi − E(Xi ) ≥ ε
n i=1 |{z} n
i=1 n i=1
1
=n nµ
n !
1 X
= P (Xi − E(Xi )) ≥ε

n
i=1

(ii)
−−→ 0.
Konvergenz in Wahrscheinlichkeit 5.3. Die Konvergenzaussage des GGZ passt zu

folgendem Konvergenzbegriff:
Definition. Seien Y, Y1 , Y2 , . . . Zufallsgrößen mit Werten in R. Gilt für alle ε > 0

n→∞
P (|Yn − Y | > ε) −−−→ 0 ,
so sagen wir Yn konvergiere gegen Y in Wahrscheinlichkeit oder auch stochastisch;

P
In Zeichen: Yn −→ Y in WK oder Yn −
→Y.
Das GGZ 5.2(i) lässt sich dann formulieren als: „Sind X1 , X2 , . . . unabhängig und iden-
1 Pn
tisch verteilt und Yn := n i=1 Xi das arithmetische Mittel, so gilt: Yn −→ E(X1 ) in
Wahrscheinlichkeit.“
Warnung: In der Stochastik gibt es aber viele weitere sinnvolle Konvergenzbegriffe, die
unterschieden werden müssen. Wir betrachten in dieser Vorlesung aber (explizit) nur den
oben genannten.
Anwendung auf relative Häufigkeit 5.4. Das GGZ macht also eine Aussage über
die Konvergenz des arithmetischen Mittels gegen den Erwartungswert. Im ersten Moment
sieht man nicht, ob auch die relativen Häufigkeiten des Auftretens eines Ereignisses gegen
die zugehörige Wahrscheinlichkeit konvergiert. Dies kann man aber als direkte Folgerung
erhalten:
Sind Y1 , Y2 , . . . unabhängig, identische verteilt (iid) mit Werten in E und A ⊆ E, so ist
n
1 1X
hn (A) := |{i ≤ n | Yi ∈ A}| = 1{Y ∈A}
n n i=1 i
die relative Häufigkeit des Auftretens eines Ergebnisses in A. Schreiben wir Xi := 1{Yi =A} ,
so ist das GGZ(i) anwendbar und wir erhalten
n
1X 4.4(i)
hn (A) = Xi −→ E(X1 ) = P (Y1 ∈ A) in Warhscheinlichkeit,
n i=1
das heißt die relative Häufigkeit des Auftretens von einem Ausgang in A konvergiert gegen
die zugehörige Wahrscheinlichkeit.
Beispiel 5.5. (Ein vorteilhaftes Spiel, bei dem man langfristig alles verliert)
Wir beginnen ein Spiel mit einem Anfangskapital von X0 = 1 Euro und setzen in jeder
Runde unser gesamtes Kapital. Es wird jeweils eine faire Münze geworfen und unser
Einsatz wird halbiert, wenn Kopf fällt, ansonsten erhalten wir 5/3 unseres Einsatzes.
Wir wählen ein Modell mit Zufallsgrößen: Seien Y1 , Y2 , · · · unabhängige Zufallsgrößen mit
P (Yi = 1/2) = 1/2 = P (Yi = 5/3). Das Ereignis {Yi = 1/2} beschreibe dabei das Ereignis,
dass im i-tern Wurf Kopf fällt. Die Wahl der Werte von Yi ist dabei gerade so getroffen,
dass
Xn = Y1 · Y2 · · · Yn
das Kapital nach n Spielen beschreibt. Dabei gilt

1 1 1 5
E(Yi ) = · + · = 13/12 > 1
2 2 2 3
und damit wegen der Unabhängigkeit nach Satz 4.12
n
13

E(Xn ) = E(Y1 ) · E(Y2 ) · · · E(Yn ) = → ∞ für n → ∞.
12
Im Erwartungswert wächst das Kapital des Spielers also über alle Grenzen.
Wir zeigen jetzt aber, dass Xn in Wahrscheinlichkeit gegen 0 konvergiert, d.h. das Kapitel
wird auf Dauer klein. Wir möchten das GGZ anwenden, und betrachten dafür
log(Xn ) = log(Y1 ) + · · · + log(Yn ),
wobei log(Y1 ), · · · , log(Yn ) unabhängig sind. Ferner gilt
µ := log(Yi ) = 1/2(log(1/2) + log(5/3)) < 0.
Das GGZ liefert für alle > 0
P (|1/n log(Xn ) − µ| > ) → 1,
also insbesondere für = −µ/2 > 0
P (1/n log(Xn ) − µ < −µ/2) → 1

d.h.
P (Xn < exp(µ/2 · n)) → 1
Beachte, dass exp(µ/2 · n) exponentiell schnell gegen 0 konvergiert. Das Kapital Xn kon-
vergiert also – in diesem Sinne – auch exponentiell schnell gegen 0.
Gauß’sche Glockenkurve 5.6. Den Graphen der Funktion
ϕ: R →R
1 t2
t 7→ √ e− 2
2π
bezeichnet man oft als Gauß’sche Glockenkurve.
0.4
0.3
0.2
0.1
0
−4 −2 0 2 4
ϕ heißt auch „Dichte der Standardnormalverteilung“(siehe folgendes Kapitel). Man findet

diese Form sehr oft, wenn man (in den unterschiedlichsten Bereichen) Messergebnisse als
Histogramm aufträgt. Der folgende Satz liefert dafür eine Erklärung:
Führt man ein Zufallsexperiment immer wieder unabhängig voneinander durch und stan-
dardisiert geeignet, so ist die Wahrscheinlichkeit, dass diese Standardisierung ≤ x ist,
asymptotisch die Fläche unter der Glockenkurve:
Zentraler Grenzwertsatz 5.7. Seien X1 , X2 , . . . unabhängig und identische verteilte

(iid) Zufallsgrößen mit Werten in R, µ := E(X1 ), σ 2 := Var(X1 ) ∈ (0, ∞) existieren.
Dann gilt
Pn !
X − nµ Z x
P i=1
√ i ≤ x −→ Φ(x) := ϕ(t)dt
nσ 2 −∞
Beweis: Hier nicht.
Es ist zu beachten, dass keine weitere Annahme an die Verteilung der Xi gemacht wird!
Als Spezialfall erhält man
Korollar 5.8 (de Moivre-Laplace). Ist Yn ∼ Bin(n, p) für alle n ∈ N, so gilt:

 
Yn − n · p
P q ≤ x −→ Φ(x) für alle x ∈ R
n · p(1 − p)
Pn
Beweis: Wir schreiben wieder Yn = i=1 Xi , Xi iid, P (Xi = 1) = p = 1 − P (Xi = 0). Es
2
gilt µ = E(Xi ) = p, σ := Var(Xi ) = p(1 − p), also:
  Pn !
Yn − np X − nµ
P q ≤ x = P i=1
√ i ≤x
np(1 − p) nσ 2
Somit folgt die Behauptung aus 5.7.
Beispiel 5.9 (Macht entschlossener Minderheiten). 1.002.000 Wähler sind zur Wahl zwi-
schen Partei A und B aufgerufen. Den meisten Wählern - nämlich einer Million - ist die
Wahl egal. Da aber Wahlpflicht herrscht, werfen sie eine Münze. Nur die restlichen 2000
Wähler unterstützen Partei A und wählen diese auf jeden Fall.
Mit welcher Wahrscheinlichkeit gewinnt Partei A die Wahl?
Seien dazu X1 , . . . , X1000000 iid Zufallsgrößen mit
1
P (Xi = 1) = = 1 − P (Xi = 0).
2
{Xi = 0}=
ˆ Wähler i wählt Partei B
{Xi = 1}=
ˆ Wähler i wählt Partei A
n := 1000000
Pn 1002000
Partei A erhält also 2000 + i=1 Xi Stimmen und gewinnt, wenn die Zahl > 2
ist.
Gesucht ist also die Wahrscheinlichkeit:

n n
! !
X 1002000 X n
P 2000 + Xi > = P Xi > − 1000
i=1 2 i=1 2
n
!
nX
= 1−P Xi ≤ − 1000
i=1 2
n
!
X1 n n
= 1−P Xi − n ≤ − 1000 −
i=1 2 2 2
P 
n
 qi=1 i
X − n2 −1000
= 1−P ≤q 
n 12 (1 − 12 ) n 12 (1 − 21 )
P 
n
 qi=1 i
X − n2 −1000 
= 1−P ≤
n 12 (1 − 12 ) 500
P 
n
 qi=1 i
X − n2
= 1−P ≤ −2
n 12 (1 − 12 )
ZGS
≈ 1 − Φ(−2)
Tabelle
≈ 97, 7%
oder PC
Idee vom Monte-Carlo-Verfahren 5.10. Grundidee: Möchte man ein stochastisches

Problem lösen, etwa einen Erwartungswert Ef (X) für eine Zufallsgröße X berechnen, so
ist dies oft nicht elementar möglich und auch numerisch nicht ganz einfach.
Lösung:
Erzeuge am PC ganz viele zufällige Realisierungen von X und nimm das Mittel der
Werte als Näherung für den gesuchten Erwartungswert.
Genauer:
gesucht v = Ef (X), f : R → R, X ZG
Wir nehmen an, wir haben n unabhängige, identisch verteilte Zufallsgrößen X1 , ..., Xn
(„Kopien“) vorliegen, die alle die gleiche Verteilung wie X besitzen. Dann schreibe
n
1X
vbn := f (Xi ).
n i=1
Dann gilt
n
1
• E vbn =
P
n
Ef (Xi ) = Ef (X) „vbn ist unverzerrt“
i=1 | {z }
=Ef (X)
n
1
• V ar(vbn ) = V ar(f (Xi )) = n1 V ar(f (X)), also gilt für die Standardabweichung
P
n2
i=1
q σ(f (X))
σ (vbn ) := V ar(vbn ) =: √
n
und damit σ(vbn ) → 0 mit Rate √1 .

n
• vbn → v stochastisch (vgl. GGZ 5.2).
Frage:
Wie weit ist vbn typischerweise von v entfernt? Nach dem ZGW können wir die Verteilung
von σbvnbv−v für „große“ n approximativ berechnen, also
( n)
P (|vbn − v| > ) = 1 − P (|vbn − v| ≤ ) = 1 − (P (vbn − v ≤ ) − P (vbn − v ≤ −)) ,
also erhalten wir nach dem ZGS

√
Z n
σ(f (X))
P (|vbn − v| > ) ≈ 1 − √
n
ϕ(t)dt.
− σ(f (X))
Es gilt Z 1,96
φ(t)dt ≈ 95%,
−1,96
also erhalten wir für = 1.96 σ(f√(X))

n
approximativ das 95%-Konfidenzintervall
σ (f (X)) σ (f (X))
vbn − 1.96 √ ≤ v ≤ vbn + 1.96 √ ,
n n
das heißt mit Wahrscheinlichkeit ≈ 95% liegt v in vbn ± 1.96 σ(f√(X))

n
.
√
In diesem Sinne konvergiert vbn mit Rate n gegen v.
Kapitel 6
Allgemeine reelle
Wahrscheinlichkeitsmaße
Beispiel 6.1.
(i) Einfacher Würfelwurf
• mögliche Ergebnisse: 1, 2, 3, 4, 5, 6
• Wir interessieren uns für ein bestimmtes Ereignis, z.B. „gerade Zahl fällt“.
• Wie groß ist die Wahrscheinlichkeit für dieses Ereignis?
(ii) Lebensdauer einer Glühbirne
• mögliche Ergebnisse: eine (reelle) Zahl ≥ 0

• Ein mögliches Ereignis ist z.B. „Glühbirne hält länger als 2 Jahre“.
• Wie groß ist die Wahrscheinlichkeit für dieses Ereignis?
Wie in Kapitel 1 festgestellt, können wir die Situation des ersten Beispiels bereits mit
unserer bisherigen Theorie behandeln, das zweite Beispiel allerdings nicht, denn dort liegt
der Ergebnisraum Ω = [0, ∞) oder Ω = R und dieser ist überabzählbar. Insbesondere tritt
das Problem aus, dass die Menge der Teilmengen von Ω, also die Menge aller Ereignisse,
extrem groß ist, was zu technischen Problem führt, die wir in dem bisherigen Setting
nicht lösen können. Wir erweitern nun die bisherigen Begriffsbildung so, dass wir nicht
mehr alle Teilmengen von Ω als Ereignisse zulassen, sondern nur noch eine Teilmenge der
Potenzmenge. Dieses Mengensystem soll dann aber einigen Bedingungen genügen. Das
sind die folgenden:
Definition 6.2 (σ-Algebra). Sei Ω eine nichtleere Menge. Dann heißt A ⊆ P ot(Ω) eine
σ-Algebra, falls:
KAPITEL 6. ALLGEMEINE REELLE WAHRSCHEINLICHKEITSMAßE 42
• Ω ∈ A,
• Ist A ∈ A, so auch Ac := {ω ∈ Ω : ω ∈
/ A} ∈ A,
• Sind A1 , A2 , ... ∈ A, so auch An = A1 ∪ A2 ∪ ... ∈ A.

S
n∈N
Bemerkung 6.3. (i) Offenbar ist die Potenzmenge selbst eine σ-Algebra.
(ii) Wir interpretieren A ⊆ P ot(Ω) so, dass dies all die Ereignisse sind, denen wir
später sinnvoll eine Wahrscheinlichkeit zuordnen können. So lassen sich die drei
Bedingungen wie folgt interpretieren:
• Ω ∈ A:
„Man kann Ω sinnvoll eine Wahrscheinlichkeit zuordnen.“
• Ist A ∈ A, so auch Ac := {ω ∈ Ω : ω ∈
/ A} ∈ A:
„Kann man A sinnvoll eine Wahrscheinlichkeit zuordnen, so auch dem Gegen-
ereignis Ac .“
• Sind A1 , A2 , ... ∈ A (abzählbar viele), so auch An = A1 ∪ A2 ∪ ... ∈ A:
S
n∈N
„Kann man A1 , A2 , ... sinnvoll eine Wahrscheinlichkeit zuordnen, so auch dem
S
Ereignis, dass mind. eines der Ereignisse eintritt, n∈N An .“
Mit dieser Begriffsbildung können wir ein mathematisches Modell für allgemeine Wahr-
scheinlichkeitsräume angeben:
Definition 6.4 (Wahrscheinlichkeitsraum). Ein Wahrscheinlichkeitsraum ist ein Tripel

(Ω, A, P ) bestehend aus:
(i) einer Menge Ω 6= ∅ „Ergebnisraum“
(ii) einer σ-Algebra A (⊆ P ot(Ω)) „Ereignisraum“
(iii) einer Abbildung P : A → [0, 1] („Wahrscheinlichkeitsmaß“) mit

1
• P (Ω) = 1
• Sind A1 , A2 , ... ∈ A paarweise disjunkt, so gilt
 
[ X
2
P An  = P (An )
n∈N n∈N
1
In Worten: „Die Wahrscheinlichkeit, dass überhaupt eines der Ergenis aus Ω eintritt, ist 1.“
2
In Worten: „Treten A1 , A2 , ... nie gemeinsam ein, so kann man die Wahrscheinlichkeiten addieren
und erhählt die Wahrscheinlichkeit, dass (mind.) eines der Ereignisse eintritt.“
Bemerkung 6.5. Ist Ω abzählbar („diskreter Wahrscheinlichkeitsraum“), so wählen wir

stets A = P ot(Ω). In diesem Fall haben wir gerade die Begriffsbildung aus Abschnitt 1.3.
Ist Ω = R, so wähle wir nicht A = P ot(Ω), sondern nur eine Teilmenge.
Definition und Satz 6.6 (Borel-σ-Algebra, reelles Wahrscheinlichkeitsmaß). Auf Ω = R

existiert eine kleinste σ-Algebra, die alle Intervalle enthält. Diese wird als Borel-σ-Algebra
bezeichnet, in Zeichen B.
Ein Wahrscheinlichkeitsmaß P auf (Ω, B) wird als reelles Wahrscheinlichkeitsmaß bezeich-
net.
Bemerkung 6.7. B enthält alle Intervalle, aber da es eine σ-Algebra ist darüber hinaus
auch alle abzählbaren Vereinigungen, deren Komplemente und abzählbare Vereinigungen
davon usw. B ist also extrem reichhaltig. Es ist elementar kaum möglich, eine Teilmenge
von R anzugeben, die nicht in B liegt. Alle bei uns auftauchenden Mengen werden in B
sein, sodass wir mit B fast so arbeiten können, als wäre es die Potenzmenge selbst.
Wir betrachten das Beispiel 6.1, Glühbirne: Hier wählen wir Ω = R und A = B mit
A = (2, ∞). Wie beschreibt man P nun? Man müsste ja P (B) für alle B ∈ B angeben.
Wie macht man das?
Definition und Satz 6.8 (Verteilungsfunktion). Ist P ein Wahrscheinlichkeitsmaß auf

R, so heißt die Funktion F : R −→ [0, 1], x 7−→ P ((−∞, x]) Verteilungsfunktion (VF)
von P und erfüllt
(i) F ist monoton wachsend,
(ii) F ist rechtsseitig stetig,
(iii) lim F (x) = 1, lim F (x) = 0.

x→∞ x→−∞
Beweis: Wir zeigen exemplarisch (i). Seien also x, y ∈ R mit x ≤ y. Dann gilt (−∞, x] ⊆
(−∞, y] und also
F (x) = P ((−∞, x]) = P ((−∞, y]\(x, y]) = P ((−∞, y])−P ((x, y]) ≤ P ((−∞, y]) = F (y).
Wir können also Wahrscheinlichkeitsmaßen auf R (die dem ersten Augenschein nach un-
vorstellbar komplex sind) eine reelle Funktion zuordnen, die deutlich handlicher aussieht.
Es ist daher erstaunlich, dass Verteilungsfunktionen Wahrscheinlichkeitsmaße schon ein-
deutig beschreiben:
Definition und Satz 6.9. Ist F : R −→ [0, 1] eine Funktion, die (i)-(iii) aus 6.8 erfüllt,
so nennen wir diese auch Verteilungsfunktion (VF).
Dazu existiert genau ein Wahrscheinlichkeitsmaß P so, dass F Verteilungsfunktion von
P ist.3
Es reicht also zur Beschreibung reeller Wahrscheinlichkeitsmaße stets eine Verteilungs-

funktion F anzugeben.
Rechenregeln: Ist F Verteilungsfunktion von P , so gilt für alle a < b:
• P ((a, b]) = P ((−∞, b]\(−∞, a]) = P ((−∞, b]) − P ((−∞, a]) = F (b) − F (a)
• P ({x}) = P ((−∞, x]) − P ((−∞, x)) = F (x) − lim&0 F (x − ), d.h die Wahrschein-
lichkeit eines Punktes entspricht gerade der Sprunghöhe von F an dieser Stelle.
Insbesondere falls P diskretes Wahrscheinlichkeitsmaß auf R (d.h. es existiert ein
Z ⊆ R abzählbar mit P (Z) = 1) ist, so erhält man die zugehörige Verteilungsfunk-
P
tion F durch Addition der Wahrscheinlichkeiten F (x) = z≤x P ({z}).
Beispiel 6.10. Wir betrachten erneut das Beispiel 6.1.
(i) Würfelwurf: Wir können natürlich den Münzwurf auch auf Ω = R betrachten, wo-
bei alle Werte außer 1, 2, ..., 6 die Wahrscheinlichkeit 0 erhalten, genauer: Wählen
wir Ω = R, A = B, so definieren wir P dadurch, dass die Punkte 1, ..., 6 jeweils
Wahrscheinlichkeit 1/6 haben. Die Verteilungsfunktion ergibt sich zu




 0, x<1



1/6, x ∈ [1, 2)






F (x) = 2/6, x ∈ [2, 3)
..



.






1,

x ≥ 6.
Also gilt P (A) = P ({2}) + P ({4}) + P ({6}) = 1/6 + 1/6 + 1/6 = 1/2
(ii) Glühbirne: Die Wahl von P ist hier auch inhaltlich unklar. Typisch ist die Exponen-
tialverteilung mit Parameter λ, d.h.

1 − e−λx

x≥0
F (x) =
0 x≤0

Eine Motivation dafür liefern wir später in Satz 7.4 nach.

3
Erst einmal ist der Begriff der Verteilungsfunktion und der Verteilungsfunktion von P also zu unter-
scheiden. Die vorigen beiden Sätze rechtfertigen gerade diese Form der Notation.
0.8
0.6
0.4
0.2
0
0 2 4 6 8
Abbildung 6.1: Verteilungsfunktion Würfelwurf
0.8
0.6
0.4
0.2
0
0 2 4 6
Abbildung 6.2: Verteilungsfunktion Glühbirnenbeispiel
Eine typische Beschreibung für stetige Verteilungsfunktionen liefert der folgende
Satz 6.11 (Dichte).

(i) Ist P ein Wahrscheinlichkeitsmaß auf R mit Verteilungsfunktion F und existiert
eine integrierbare Funktion f : R → [0, ∞) so, dass für alle x ∈ R gilt:
Zx
F (x) = f (t)dt,
−∞
so heißt f Wahrscheinlichkeitsdichte von P und für alle A ∈ B gilt

Z
P (A) = f (t)dt.4
A
4
Hier und im Folgenden treten immer wieder Integrale auf, die Sie in Ihrer bisherigen Ausbildung
(ii) Ist umgekehrt f : R → [0, ∞) eine Funktion mit

Z∞
f (t)dt = 1,
−∞
so ist f Dichte eines Wahrscheinlichkeitsmaßes auf R.
(iii) Ist F eine Verteilungsfunktion, die stetig differenzierbar ist, so ist f = F 0 die zuge-
hörige Wahrscheinlichkeitsdichte. Dies gilt auch noch, wenn F nur auf R\D mit D
abzählbar, stetig differenzierbar ist.
Beispiel 6.12. (i) Ein Beispiel für eine Dichte haben wir schon in Zusammenhang mit
R∞
dem ZGS kennengelernt. Man kann nachweisen, dass −∞ φ(t)dt = 1, also ist φ die
eine Dichte und die Funktion Φ ist gerade so gewählt, dass sie die Verteilungsfunktion
zu φ ist. Das zugehörige Wahrscheinlichkeitsmaß wird als Standardnormalverteilung
bezeichnet, siehe das kommende Kapitel.
(ii) Wir betrachten das Beispiel 6.1 (ii). Es gilt mit


0,

t<0
f (t) =
λe−λt ,

t≥0
Rx
für alle x ≤ 0 f (t)dt = 0 = F (x) und für alle x ≥ 0
−∞
Zx Zx
f (t)dt = λe−λt dt = [−e−λt ]x0 = F (x),
−∞ 0
d.h. f ist die Dichte der Exponentialverteilung. Damit gilt

Z Z∞
P (A) = P ((2, ∞)) = f (t)dt = λ e−λt dt = e−2λ .
(2,∞) 2
Beachte für die Verteilungsfunktion der Exp(λ)-Verteilung gilt: F 0 (x) = (1−e−λx )0 =

λe−λx .
In der Praxis spielen oft viele unterschiedliche Zufallsexperimente gleichzeitig eine Rolle,
etwa Münzwurf und Würfelwurf und Glühbirnen-Überlebensdauer und ... Daher reicht
Ω = R oft nicht direkt aus, d.h. Ω ist viel komplizierter. Oft interessiert man sich aber
nur für Teilaspekte und kann dies durch Zufallsgrößen auf den oben behandelten Fall
zurückführen.
nicht kennengelernt haben. Sie können diese stets als (ggf. uneigentliche) Riemannintegrale interpretieren
und sich auf den Fall beschränken, dass A ein kompaktes Intervall ist.
Definition 6.13 (Zufallsgröße). Ist (Ω, A, P ) ein Wahrscheinlichkeitsraum, so heißt jede

Abbildung X : Ω → R eine Zufallsgröße, wenn sie folgende technische Bedingung erfüllt:
Für alle A ∈ B gilt {X ∈ A} := {ω : X(ω) ∈ A} ∈ A.
Die Bedingung aus der Definition 6.13 stellt sicher, dass wir allen A ∈ B wieder eine
Wahrscheinlichkeit zuordnen, indem wir definieren
P X : B → [0, 1], P X (B) := P (X ∈ B). „Verteilung von X“.
Wir sagen auch „X hat die Verteilungsfunktion F “, wenn F die Verteilungsfunktion von
P X ist usw.
Der Begriff des Erwartungswertes ist schwierig direkt zu übertragen, da Summen bei
überabzählbar vielen Werten keine passende mathematische Beschreibung zulassen. Zur
Motivation der folgenden Begriffsbildung schreiben wir die uns bekannte Definition so
um, dass wir die Bergiffsbildung verallgemeinre können:
Motivation 6.14. Ist X eine Zufallsgröße mit Werten in N0 auf einem diskreten Wahr-
scheinlichkeitsraum und Verteilungsfunktion F , so gilt nach Satz 4.15
∞
X ∞
X ∞
X
E(X) = P (X ≥ i) = (1 − P (X ≤ i − 1)) = (1 − F (i − 1))
i=1 i=1 i=1
und wegen F (i − 1) = F (t) für alle t ∈ [i − 1, i) gilt

Z i Z i
1 − F (i − 1) = (1 − F (i − 1))dt = (1 − F (t))dt
i−1 i−1
und F (t) = 0 für t < 0. Damit folgt

∞
X ∞ Z i
X Z ∞
E(X) = (1 − F (i − 1)) = (1 − F (t))dt = (1 − F (t))dt
i=1 i=1 i−1 0
Z∞ Z0
= (1 − F (t))dt − F (t)dt
0 −∞
Auch wenn wir die ursprüngliche Definition des Erwartungswerts nicht direkt übertragen
konnten, so können wir die Formel in der letzten Zeile nun auch im allgemeinen Setting
sinnvoll hinschreiben. Auch wenn diese Darstellung erst einmal nichts mit unserer intuiti-
ven Vorstellung eines Erwartungswerts zu tun hat, nutzen wir dies als Definition. (Es ist
auch ein intuitiverer Zugang möglich, der hier allerdings zu weit führt).
Definition 6.15 (Erwartungswert). Ist X eine Zufallsgröße mit Verteilungsfunktion F ,

so heißt
Z∞ Z0
E(X) := (1 − F (t))dt − F (t)dt
0 −∞
der Erwartungswert von X, falls mindestens eines der Integrale auf der rechten Seite
endlich ist. Sind beide endlich, so heißt X integrierbar.
Mit dieser Definition werden wir aber fast nie arbeiten, sondern folgenden Satz benutzen:
Satz 6.16 (Zum Berechnen von Erwartungswerten:). • Ist Bild(X) abzählbar, so gilt
X
E(X) = xP (X = x)
x∈Bild(X)
und allgemeiner für alle g : R → R für die g(X) eine integrierbare Zufallsgröße ist,
gilt
X
E(g(X)) = g(x)P (X = x).
x∈Bild(X)
• Besitzt X die Dichte f , so gilt

Z∞
E(X) = tf (t)dt
−∞
oder im allgemeinen Fall

Z∞
E(g(X)) = g(t)f (t)dt,
−∞
unter der Voraussetzung, dass diese Integrale existieren.
Beachte, dass dabei formal einfach Summen durch Integrale erstehst werden.
Beispiel 6.17. Wir betrachten erneut das Beispiel 6.1.
(i) Hier sei X das Ergebnis des Münzwurfs und X(Ω) = {1, ..., 6} „abzählbar“. Dann
gilt
X 1
E(X) = xP (X = x) = (1 + 2 + ... + 6) = 3, 5.
x∈{1,...,6}
6
(ii) Hier sei X die Lebensdauer der Glühbirne, wobei X Exp(λ)-verteilt ist mit λ > 0
und Dichte 
0,

t≤0
f (t) = .
λe−λt ,

t≥0
Damit folgt
Z∞ Z∞ Z∞
−λt
E(X) = tf (t)dt = tλe dt = λ te−λt dt
−∞ 0 0
Z∞
 
1 −λt ∞ 1 −λt 

part.
= λ t· −
 e − 1· − e dt
Int. λ 0 λ
0
Z∞ ∞
1 −λt 1

= e−λt dt = − e =
λ 0 λ
0
Bemerkung 6.18. Wir wollen nun die restlichen bereits erlangten Resultate von diskreten
Wahrscheinlichkeitsräumen auf allgemeine übertragen.
• Die Begriffe bedingte Wahrscheinlichkeit und stochastische Unabhängigkeit werden

wortwörtlich wie für diskrete Wahrscheinlichkeitsräume definiert (siehe Kapitel 2).
Der Begriff der Faltung aus 2.9 wird ebenfalls analog definiert: Sind X, Y Zufalls-
größen, die stochastisch unabhängig sind, so heißt die Verteilung P X+Y die Faltung
von P X und P Y , in Zeichen P X+Y = P X ∗ P Y . Einzige kleine Änderung: Haben
X, Y Dichten fX und fY , so hat X + Y auch eine Dichte fX+Y , gegeben durch
Z∞
fX+Y (t) = fX (s)fY (t − s)ds.5
−∞
• Beim Erwartungswert und bei den Momenten wird die Definition aus 6.15 benutzt
und nicht die des Spezialfalls der diskreten. Die sonstigen Rechenregeln bleiben aber
gleich.
• Die Grenzwertsätze übertragen sich wortwörtlich.
5
Es werden also wieder Summen durch Integrale ersetzt.
Kapitel 7
Ein Überblick über einige stetige

Verteilungen
Rechteckverteilung R(a, b) 7.1. 1. Parameter: a, b ∈ R, a < b
2. Dichte: 
 1

, t ∈ [a, b]
b−a
f (t) =
0,

sonst
0.4
0.2
0
0 1 2 3 4
Abbildung 7.1: Dichte der Rechteckverteilung R(1,3)
Nachweis der Dichteeigenschaft
• f ≥0
R∞ Rb 1 1
• f (t)dt = b−a
dt = b−a
(b − a) = 1
−∞ a
KAPITEL 7. EIN ÜBERBLICK ÜBER EINIGE STETIGE VERTEILUNGEN 51
3. Verteilungsfunktion: 
0,

x≤a
F (x) = 
1, x≥b
und für x ∈ [a, b] ergibt sich
Zx Zx
1 x−a
F (x) = f (t)dt = dt = .
a
b−a b−a
−∞
0.8
0.6
0.4
0.2
0
0 1 2 3 4
Abbildung 7.2: Verteilungsfunktion der Rechteckverteilung R(1,3)
4. Momente:
Z∞ Zb b " #b
1 1 Z 1 t2
E(X) = tf (t)dt = t dt = tdt =
a
b−a b−a a b−a 2 a
−∞
2 2
b −a (b − a)(b + a) a+b
= = =
2(b − a) 2(b − a) 2
Ähnlich berechnet sich die Varianz zu
(b − a)2
V ar(X) = .
12
5. Zusammenhang zu anderen Verteilungen
Ist X eine Zufallsgröße mit streng monotoner Verteilungsfunktion F , so ist

die Zufallsgröße F (X) R(0, 1) verteilt.
Beweis: Wegen der strengen Monotonie existiert die Umkehrfunktion F −1 von

F . Es gilt für alle x ∈ [0, 1]
P (F (X) ≤ x) = P (F −1 (F (X)) ≤ F −1 (x)) = P (X ≤ F −1 (x)) = F (F −1 (x)) = x.

Also stimmt die Verteilungsfunktion von F (X) mit der R(0, 1)-Verteilung überein.
Normalverteilung N (µ, σ 2 ) 7.2. 1. Parameter: µ ∈ R, σ 2 > 0
2. Dichte: !
1 −(t − µ)2
f (t) = √ exp , t ∈ R.
2πσ 2 2σ 2
3. Verteilungsfunktion: Es existiert keine geschlossene Form der Verteilungsfunktion.
0.3
0.2
0.1
0
−4 −2 0 2 4
Abbildung 7.3: Dichte der N(1,2)-Verteilung
Abbildung 7.4: Verteilungsfunktion Φ der N(0,1)-Verteilung
4. Momente:
!
Z ∞
1 −(t − µ)2
E(X) = √ exp dt
−∞ 2πσ 2 2σ 2
also:
EX = µ und V ar(X) = σ 2
• Ist X N (0, 1)-verteilt, so hat die Zufallsgröße σX +µ eine N (µ, σ 2 )-Verteilung.

• Seien X1 , X2 , ... unabhängige, identisch verteilte Zufallsgrößen mit EXi = µ
und V ar(Xi ) = σ 2 ∈ (0, ∞) für i ∈ N. Der Zentrale Grenzwertsatz 5.7 besagt,
dass dann für alle x ∈ R
n
P 
X − nµ
 i=1 i
√

P ≤ x
 → Φ(x),
nσ 2

wobei Φ die Verteilungsfunktion von N (0, 1) sei.

In diesem Sinne ist die standardisierte Summe
n
Xi − nµ
P
i=1
√
nσ 2
asymptotisch normalverteilt.
Gamma-Verteilung G(ν, λ) 7.3. 1. Parameter: ν, λ > 0
2. Dichte: 
0,

t≤0
f (t) = 
λν tν−1 e−λt

Γ(ν)
, t ≥ 0,
dabei ist Γ die Gammafunktion
Z∞
Γ(ν) = sν−1 e−s ds.
0
Beachte, dass für alle n ∈ N Γ(n) = (n − 1)! gilt.
Abbildung 7.5: Gammafunktion
Nachweis der Dichteeigenschaft

• f ≥0
•
Z∞ Z∞ ν ν−1 −λt ∞
λ t e λ Z
f (t)dt = dt = (λt)ν−1 e−λt dt
Γ(ν) Γ(ν)
−∞ 0 0
Z∞
s=λt λ 1 Def Γ Γ(ν)
= sν−1 e−s ds = =1
ds
dt
=λ Γ(ν) λ Γ(ν)
0
3. Verteilungsfunktion: Es existiert für den allgemeinen Fall keine geschlossene Form

der Verteilungsfunktion (nur wieder in Termen der Gammafunktion).
4. Momente:
ν ν
EX = und V ar(X) = 2
λ λ
λ·1·e−λt
• Im Fall ν = 1 gilt für die Dichte für t ≥ 0 f (t) = Γ(1)
= λe−λt . Dies ist die
Dichte der Exp(λ)-Verteilung.
• Im allgemeinen Fall gilt falls X1 , ..., Xn unabhängig und Exp(λ)-verteilt sind,
so ist X1 + ... + Xn G(n, λ)-verteilt (Erlang-Verteilung).

n 1
• Ist n ∈ N, so heißt G ,
2 2
auch χ2 (Chi-Quadrat)-Verteilung zum Parameter
n.
Wir kommen jetzt zu einer wichtigen Eigenschaft der Exponentialverteilung zurück, die
deren Wahl beim Glühbirnenbeispiel motiviert:
Satz 7.4 (Gedächtnislosigkeit). Sei X eine Exp(λ)-verteilte Zufallsgröße, dann gilt für
alle s, t ≥ 0
P (X > s + t|X > s) = P (X > t).
Beweis:
P (X > s + t, X > s)
P (X > s + t|X > s) =
P (X > s)
P (X > s + t) 1 − P (X ≤ s + t)
= =
P (X > s) 1 − P (X ≤ s)
1 − (1 − e−λ(s+t) ) e−λ(s+t)
= −λs
= −λs
= e−λt
1 − (1 − e ) e
= P (X > t)
Bemerkung 7.5. Auf unser Glühbirnenbeispiel bezogen besagt diese Eigenschaft, dass
die Wahrscheinlichkeit, dass die Glühbirne in den ersten t Zeiteinheiten die gleiche ist
wie die Wahrscheinlichkeit, dass sie in den folgenden t Zeiteinheiten nach dem Zeitpunkt
s ausfällt, wenn wir wissen, dass sie in s noch brennt. Die Eigenschaft ist dann in der
Modellierung sinnvoll, wenn die Glühbirne keine Verschleißteile besitzt.
Umgekehrt kann man zeigen, dass die Exponentialverteilung die einzige stetige Verteilung
mit dieser Eigenschaft ist.

Stochinf1 Christensen

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Stochinf1 Christensen

Uploaded by

Copyright:

Available Formats

Stochastik I

für Studierende der Informatik

Universität Hamburg - Fachbereich Mathematik

vorläufige Version: 28. Mai 2014

Dieses Vorlesungsmitschrift basiert auf einer Veranstaltung, die ich im Sommersemester

1 Mathematische Beschreibung von Zufallssituationen 1

2 Bedingte Wahrscheinlichkeit und stochastische Unabhängigkeit 13

3 Ein Überblick über einige diskrete Verteilungen 21

4 Erwartungswerte und Momente 25

5 GGZ und ZGS 33

6 Allgemeine reelle Wahrscheinlichkeitsmaße 41

7 Ein Überblick über einige stetige Verteilungen 50

Mathematische Beschreibung von

Beispiel 1.1. (1) einmaliger Würfelwurf:

(2) mehrfacher Münzwurf:

Mathematisches Modell 1.2. Zur mathematischen Beschreibung dieser Situationen

(2) Es entstehen endliche Folgen, z.B. „Kopf“, „Zahl“, „Zahl“, . . .

Ω = {(ω1 , . . . , ω10 ) | ωi ∈ {0, 1} für alle i = 1, . . . , 10} = {0, 1}10

(1) A = {2, 4, 6}=„gerade

angeben. Aber welche solche Abbildungen P sind sinnvoll?

Definition 1.3 (Wahrscheinlichkeitsraum, Wahrscheinlichkeitsmaß). Sei Ω eine nicht-

• Sind A1 , A2 , · · · ⊆ Ω paarweise disjunkt1 , so gilt

P (A1 ∪ A2 ∪ . . . ) = P (A1 ) + P (A2 ) + . . .

„Wenn Ereignisse A1 , A2 , . . . sich gegenseitig ausschließen, so ist die Wahrschein-

In diesem Fall heißt (Ω, P ) ein diskreter Wahrscheinlichkeitsraum2 .

Anmerkung. Ist Ω endlich, so heißt (Ω, P ) auch endlicher Wahrscheinlichkeitsraum. In

Die beiden Forderungen an ein Wahrscheinlichkeitsmaß erscheinen sinnvoll, allerdings

(ii) P (A ∪ B) = P (A) + P (B) für alle A, B ⊆ Ω mit A ∩ B = ∅.

(iii) P (Ac ) = 1 − P (A) für alle A ⊆ Ω, wobei Ac := Ω \ A.

(iv) Für alle A, B ⊆ Ω mit A ⊆ B gilt P (B \ A) = P (B) − P (A).

(v) Für alle A, B ⊆ Ω gilt P (A ∪ B) = P (A) + P (B) − P (A ∩ B).

(vi) Für alle A1 , A2 , · · · ⊆ Ω gilt P (A1 ∪ A2 ∪ . . . ) ≤ P (A1 ) + P (A2 ) + . . .

(i) Es gilt Ω = Ω ∪ ∅ ∪ ∅ ∪ ∅ ∪ ... und Ω ∩ ∅ = ∅, also:

1 = P (Ω) = P (Ω ∪ ∅ ∪ ∅ ∪ ∅...) = P (Ω) + P (∅) + P (∅) + ...

(ii) Setze A1 := A, A2 := B, An = ∅ für alle n ≥ 3. Dann:

P (A ∪ B) = P (A1 ∪ A2 ∪ A ∪ ...) = P (A1 ) + P (A2 ) + P (A3 ) + · · · = P (A) + P (B)

(v) A ∪ B = A ∪ (B \ A) und A ∩ (B \ A) = ∅, d.h. A und B \ A sind disjunkt, also:

Das Wahrscheinlichkeitsmaß P kann also schon mittels der Elementarwahrschein-

(ii) Ist umgekehrt f : Ω → [0, 1] eine Funktion mit

(i) Da Ω höchstens abzählbar ist, können wir schreiben

A = {ω1 , ω2 , . . . } = {ω1 } ∪ {ω2 } ∪ · · · =: A1 ∪ A2 ∪ . . .

und die Ai sind paarweise disjunkt, also:

P (A) = P ({ω1 } ∪ {ω2 } ∪ . . . ) = P ({ω1 }) + P ({ω2 }) + . . .

heißt Laplacemaß oder Gleichverteilung auf Ω.

Ferner gilt für alle A ⊆ Ω

(1) einmaliger Würfelwurf:

(2) mehrfacher Würfelwurf:

Ω = {(ω1 , ω2 ) | ω1 , ω2 ∈ {1, . . . , 6}, ω1 ≤ ω2 }.

Urne mit n Kugeln, wir ziehen k mal.

(1) Ziehen mit Reihenfolge und mit Zurücklegen

ΩR,Z : = {1, . . . , n}k

(2) Ziehen mit Reihenfolge und ohne Zurücklegen

ΩR,−Z : = {ω ∈ {1, . . . , n}k | ∀i 6= j ∈ {1, . . . , k} : ωi 6= ωj }

A = {ω ∈ ΩR,−Z | ∃i ∈ {1, . . . , 4} : (ωi = 1, ωi+1 = 2) ∨ (ωi = 2, ωi+1 = 1)}

Ω−R,−Z : = {ω ∈ {1, . . . , n}k | ω1 < · · · < ωk }

Ω0−R,−Z : = {A ⊆ {1, . . . , n} | |A| = k}

n := 10000 , k := 3 , A := {(ω1 , ω2 , ω3 ) | ∀i : ωi ≤ 100} ,

(4) Ziehen ohne Reihenfolge und mit Zurücklegen

Ω−R,Z : = {ω ∈ {1, . . . , n}k | ω1 ≤ · · · ≤ ωk }

mit Zurücklegen ohne Zurücklegen

Beispiel 1.9. • Fahrstul in einem Gebäude mit 6 Stockwerken

Modell: n := 5, k := 3, Ω = {1, . . . , 5}3 P Laplace (ist in vielen Alltagssituationen hier

Ω = {ω ∈ {1, . . . , 49}6 | ω1 < · · · < ω6 }