Professional Documents
Culture Documents
Stochinf1 Christensen
Stochinf1 Christensen
Skript
Sommersemester 2014
Sören Christensen
In diesem Kapitel beschäftigen wir uns mit der Frage, wie man Situationen der realen
Welt, die man als zufällig ansieht, mit Hilfe von mathematischen Begriffen beschreiben
kann. Die befriedigende Beantwortung dieser Frage hat historisch einige Zeit gedauert.
Wir erklären die Begriffsbildung anhand von Beispielen:
(3) Glühbirne:
Sie beobachten eine Glühbirne. Wie groß ist die Wahrscheinlichkeit, dass diese in
diesem Jahr kaputt geht?
(i) Ergebnisraum
Zuerst nutzen wir eine Menge Ω, um alle möglichen, uns interessierenden Ergebnisse
des Zufallsexperiments zu beschreiben. In den Beispielen:
(1) Beim Würfelwurf haben wir sehr viele Informationen, z.B. wo der Würfel auf
der Tischplatte zum liegen kommt, die Temperatur des Würfels, . . .
KAPITEL 1. MATHEMATISCHE BESCHREIBUNG VON ZUFALLSSITUATIONEN 2
Wir interessieren uns hier aber nur für die Zahl, die oben liegt, also wählen wir
Ω = {1, 2, 3, 4, 5, 6}.
(3) Die Lebensdauer unserer Glühbirne ist eine reelle Zahl ≥ 0, also wählen wir
Ω = [0, ∞).
(ii) Ereignisraum
Oft interessieren wir uns nicht für Ergebnisse an sich, sondern dafür, ob bestimmte
Ereignisse A eingetreten sind, oder nicht. Ereignisse sind dabei Zusammenfassungen
von Ergebnissen, also Teilmengen von Ω:
Ereignisse sind bei uns also Mengen. Für Ereignisse A, B ⊆ Ω können wir mittels
Mengenoperationen neue Ereignisse bilden, z.B.:
• A ∪ B =A
ˆ tritt ein oder B tritt ein
• A ∩ B =A
ˆ tritt ein und B tritt ein
• A \ B =A
ˆ tritt ein und B tritt nicht ein
A ∩ B = ∅ bedeutet etwa, dass das Ereignis A und das Ereignis B nie gemeinsam
eintreten.
(iii) Wahrscheinlichkeitsmaße
Wir haben bisher Ergebnisse und Ereignisse beschrieben, aber noch nichts über Wahr-
scheinlichkeiten gesagt.
Wir möchten nun möglichst jedem Ereignis A ⊆ Ω eine Wahrscheinlichkeit P (A) ∈
[0, 1] zuordnen, formal also eine Abbildung
P : Pot(Ω) → [0, 1]
KAPITEL 1. MATHEMATISCHE BESCHREIBUNG VON ZUFALLSSITUATIONEN 3
• P (Ω) = 1
„Die Wahrscheinlichkeit, dass überhaupt irgendein Ergebnis eintreten wird, ist = 1.“
Satz 1.4 (Elementare Eigenschaften von Wahrscheinlichkeitsmaßen). Sei (Ω, P ) ein (dis-
kreter) Wahrscheinlichkeitsraum, dann gilt:
1
d.h. Ai ∩ Aj = ∅ ∀i 6= j
2
Die meisten der im folgenden behandelten Eigenschaften haben nichts mit der Annahme zu tun,
dass wir Ω als abzählbar vorausgesetzt haben. Ist dies doch der Fall, so machen wir dies dadurch deut-
lich, dass wir in diesem Fall explizit voraussetzen, dass ein diskreter Wahrscheinlichkeitsraum vorliegt,
wobei wir diskret dann nicht in Klammern schreiben; ansonsten nutzen wir die Bezeichnung (diskreter)
Wahrscheinlichkeitsraum oder kurz nur Wahrscheinlichkeitsraum.
KAPITEL 1. MATHEMATISCHE BESCHREIBUNG VON ZUFALLSSITUATIONEN 4
(i) P (∅) = 0.
Beweis:(exemplarisch)
P (A ∪ B) = P (A ∪ (B \ A))
= P (A) + P (B \ A)
= P (A) + P (B \ (A ∩ B))
(iv)
= P (A) + P (B) − P (A ∩ B)
Der folgende Satz ist der Schlüssel dazu, diskrete Wahrscheinlichkeitsmaße konkret zu
beschreiben.
Satz & Definition 1.5. (i) Sei (Ω, P ) ein diskreter Wahrscheinlichkeitsraum und
schreibe f (ω) := P ({ω}) für alle ω ∈ Ω. Dann heißt (f (ω))ω∈Ω Wahrscheinlich-
keitsvektor, Zähldichte, oder Elementarwahrscheinlichkeiten (von P ) und es gilt für
alle A ⊆ Ω:
X X
P (A) = f (ω) , insbesondere 1 = P (Ω) = f (ω)
ω∈A ω∈Ω
Beweis:
P
(ii) Wir definieren einfach P (A) := ω∈A f (ω). Dann rechnet man schnell nach, dass P
tatsächlich Wahrscheinlichkeitsmaß ist.
Der vorige Satz ermöglicht also die Angabe eines Wahrscheinlichkeitsmaßes durch die An-
gabe der Elementarwahrscheinlichkeiten. Damit können wir gleich ein wichtiges Beispiel
eines diskreten Wahrscheinlichkeitsmaßes angeben.
Definition 1.6 (Laplacemaß). Sei Ω eine endliche Menge. Das nach 1.5 eindeutig be-
stimmte Wahrscheinlichkeitsmaß P auf Ω mit
1
(f (ω) =)P ({ω}) = für alle ω ∈ Ω
|Ω|
Beachte, dass die Definition sinnvoll ist, da f (ω) ∈ [0, 1] für alle ω ∈ Ω und
X X 1 1 X |Ω|
f (ω) = = 1= = 1.
ω∈Ω ω∈Ω |Ω| |Ω| ω∈Ω |Ω|
Bemerkung 1.7 (Zu den Beispielen). Um die Beipiele aus 1.1 abzuschließen, müssen
wir noch sinnvolle Wahrscheinlichkeitsmaße konkret angeben und die Wahrscheinlichkeit
der Ereignisse ausrechnen.
KAPITEL 1. MATHEMATISCHE BESCHREIBUNG VON ZUFALLSSITUATIONEN 6
Ω = {1, 2, 3, 4, 5, 6}
Wenn wir annehmen, dass der Würfel „fair“ ist, gelangen wir zu der Annahme
1
f (ω) := |Ω|
für alle ω ∈ Ω, also sollten wir P als Laplacemaß wählen.
Für A = {2, 4, 6} ergibt sich also
|A| 3 1
P (A) = = = .
|Ω| 6 2
Ω = {0, 1}10
Wenn wir erneut annehmen, dass die Münze „fair“ ist und die Würfe sich nicht
gegenseitig beeinflussen3 , ist es auch hier sinnvoll anzunehmen, dass alle Wurffolgen
1
die gleiche Wahrscheinlichkeit haben, wir also f (ω) := |Ω|
für alle ω ∈ Ω wählen, so
dass wir auch hier das Laplacemaß wählen.
|A|
Für A = {ω | |{i : ωi = 1}| = 6} ergibt sich: P (A) = |Ω|
. Hier ist das Ausrechnen
von |A| und |Ω| schon nicht mehr so einfach (wenn auch noch elementar möglich).
Wir behandeln dies systematischer in 1.8. Vorher aber noch folgende
Warnung: Es ist offensichtlich nicht immer sinnvoll, das Laplacemaß zu verwenden, z.B.
wenn die Münze verbeult ist. Man muss die Verwendung des Wahrscheinlich-
keitsmaßes stets begründen. Manchmal kann man dabei in Fallen tappen, etwa
hier:
Man würfelt zwei Würfel, die man nicht unterscheiden kann und notiert die
Ergebnisse dann stets geordnet. Wähle also
Dann ist es nicht sinnvoll das Laplacemaß zu verwenden, denn etwa (1, 1) kann
nur durch eine Kombination an Würfeln erzeugt werden. (1, 2) durch zwei, so-
dass man besser das Wahrscheinlichkeitsmaß so wählen sollte, dass f ((1, 1)) =
1
2
f ((1, 2)).
Definition 1.8 (Urnenmodelle). In 1.7 haben wir gesehen, dass die Verwendung des
Laplacemaßes eng mit dem „Zählen“ (der Bestimmung der Anzahl von Elementen in einer
Menge) verbunden ist. Dies systematisieren wir jetzt.
3
Wir kommen später genauer darauf zurück.
KAPITEL 1. MATHEMATISCHE BESCHREIBUNG VON ZUFALLSSITUATIONEN 7
1 4 6
2 3 5
7 ... n
Modell:
Standardmaß: Laplacemaß!
Modell:
Standardmaß: Laplacemaß!
Beispiel: Ein Mann besitzt 5 Bücher, darunter eine Bibel und ein Telefonbuch, die ne-
beneinander im Regal stehen. Wie groß ist die Wahrscheinlichkeit, dass die
Bibel neben dem Telefonbuch steht?
n = k = 5, Ω = ΩR,−Z und
Dann:
4
·
[ ·
|A| = {ω
: ωi = 1, ωi+1 = 2} ∪ {ω : ωi = 2, ωi+1 = 1}
i=1
4
" #
X
= |{ω : ωi = 1, ωi+1 = 2}| +|{ω : ωi = 2, ωi+1 = 1}|
i=1
| {z }
=3!
= 2 · 4!
2 · 4! 2
⇒ P (A) = =
5! 5
(3) Ziehen ohne Reihenfolge und ohne Zurücklegen
Modell:
Aber
ϕ : Ω−R,−Z → Ω0−R,−Z
(ω1 , . . . , ωk ) 7→ {ω1 , . . . , ωk }
n
ist bijektiv, also |Ω−R,−Z | = k
.
Standardmaß: Laplacemaß!
Beispiel: 3 Freundinnen machen bei einem Volkslauf mit 10000 Teilnehmern mit. Wie
groß ist die Wahrscheinlichkeit, dass alle 3 Startnummern ≤ 100 erhalten?
100
3
⇒P (A) =
10000
≈ 10−6
3
Hier ist die Annahme wesentlich, dass die Freundinnen die Startnummern un-
abhängig voneinander erhalten und nicht etwa alle drei gemeinsam.
KAPITEL 1. MATHEMATISCHE BESCHREIBUNG VON ZUFALLSSITUATIONEN 9
Modell:
Kein Laplaceraum!
Ansatz: Verwende besser (1)-(3) als (4). (Immer wenn möglich vom Laplaceraum star-
ten!)
Zusammenfassung
k mal Ziehen aus n Kugeln:
A = {ω ∈ Ω | ωi 6= ωj ∀i 6= j}
|A| 5·4·3 12
P (A) = = =
|Ω| 53 25
• Lotto 6 aus 49
Wie groß ist die Wahrscheinlichkeit beim Lotto genau 4 richtige zu haben?
6 43
|A| 4
· 2
⇒ P (A) = =
|Ω| 49
6
KAPITEL 1. MATHEMATISCHE BESCHREIBUNG VON ZUFALLSSITUATIONEN 10
Zufallsvariablen und Verteilungen 1.10. Die vorigen Beispiele waren alle sehr einfa-
cher Struktur. In vielen Situationen ist man aber an der Modellierung weitaus komplexerer
Zufallsexperimente interessiert, studiert dann aber zumeist doch nur Teilaspekte.
Auch wenn man in Beispiel 1.1 (2) 10 Münzwürfe beobachtet, interessiert man sich viel-
leicht nur für die Anzahl der „Kopf“-Würfe dabei. Statt all der Tupel (ω1 , . . . , ω10 ) inter-
essiert man sich also nur für eine Zahl zwischen 0 und 10. Mathematisch betrachtet man
die Abbildung
X: Ω → {0, . . . , 10}
(ω1 , . . . , ω10 ) 7→ |{i | ωi = 1}|
Definition. Sei (Ω, P ) ein diskreter Wahrscheinlichkeitsraum und E eine Menge. Eine
Abbildung X : Ω → E heißt (E-wertige) Zufallsvariable, oder Zufallsgröße.
Ω E
Wenn man eine Zufallsgröße X vorliegen hat, so erhält man daraus ein Wahrscheinlich-
keitsmaß auf E:
wird ein Wahrscheinlichkeitsmaß P X auf E definiert. Dieses wird als Verteilung von X
bezeichnet.4
Beweis:
• Es gilt:
disjunkt
=P ({ω | X(ω) ∈ B1 }) + P ({ω | X(ω) ∈ B2 }) + . . .
=P X (B1 ) + P X (B2 ) + . . .
Beispiel 1.11. Wir kommen noch einmal zurück auf die „Warnung“ aus 1.8 und gehen
von einem zweifachen Würfelwurf aus, bei dem wir beide Würfel unterscheiden können:
X : Ω → E := {(ω1 , ω2 ) | ω1 ≤ ω2 }
(ω1 , ω2 ) 7→ (min{ω1 , ω2 }, max{ω1 , ω2 })
Dann gilt
1 1
P X ({(1, 1)}) = P ({(ω1 , ω2 ) | min{ω1 , ω2 } = max{ω1 , ω2 } = 1}) = P ({(1, 1)}) = =
Ω 36
und
2
P X ({(1, 2)}) = P ({(ω1 , ω2 ) | min{ω1 , ω2 } = 1, max{ω1 , ω2 } = 2}) = P ({(1, 2), (2, 1)}) = .
36
Zur Modellierung mit Zufallsgrößen 1.12. Bisher haben wir Zufallssituationen mo-
delliert, indem wir einen (diskreten) Wahrscheinlichkeitsraum (Ω, P ) angegeben haben,
bei dem Ω die Menge der Ergebnisse und P : Pot(Ω) → [0, 1] ein Wahrscheinlichkeits-
maß ist. Oft möchte man allerdings viele Zufallssituationen gleichzeitig beschreiben, was
den Raum sehr „unhandlich“ macht. Stattdessen lässt man in der Modellierung oft die
konkrete Realisierung von (Ω, P ) offen und nutzt zur Modellierung einfach Zufallsgrößen
X : Ω → E und spezifiziert nur deren Verteilung, also etwa in unserem Würfelwurfbei-
spiel:
Wir spezifizieren (Ω, P ) nicht direkt, sondern betrachten seine Zufallsgröße X : Ω →
E = {1, . . . , 6}, von der wir annehmen, dass X Laplaceverteilt ist, das heißt P X ist das
Laplacemaß auf {1, . . . , 6}.
KAPITEL 1. MATHEMATISCHE BESCHREIBUNG VON ZUFALLSSITUATIONEN 12
Notation 1.13 (in der Wahrscheinlichkeitstheorie). Wie oben gesehen tauchen bei Zu-
fallsgrößen X : Ω → E oft Ereignisse der Form X −1 (B) = {ω ∈ Ω | X(ω) ∈ B} ⊆ Ω
auf. Dafür schreiben wir auch kurz
{X ∈ B} := {ω ∈ Ω | X(ω) ∈ B} ,
usw.
Kapitel 2
Beispiel 2.1. Wir betrachten eine Urne mit w weißen und s schwarzen Kugeln, aus der
wir 2 Kugeln ohne Zurücklegen ziehen.
Modell: Wir denken uns die Kugeln durchnummeriert, wobei 1, . . . , w weiß sind und w +
1, . . . , w + s schwarz. Sei
Ω = {(k, l) | 1 ≤ k, l ≤ w + s, k 6= l}
Es gilt
|Ω| = (w + s) · (w + s − 1),
w w
[ X
|A| = {(k, l) | k ∈ {1, ..., w + s} \ {l}} = (w + s − 1) = w · (w + s − 1),
l=1 l=1
w
P (A) = ,
w+s
das heißt, die Wahrscheinlichkeit, dass die 2. Kugel weiß ist, ist der Anteil der weißen
Kugeln.
Wenn man nun aber weiß, dass im 1. Zug schon eine weiße Kugel gezogen wurde, so ist
KAPITEL 2. BEDINGTE WAHRSCHEINLICHKEIT UND STOCHASTISCHE
UNABHÄNGIGKEIT 14
die Wahrscheinlichkeit anders. Intuitiv kann man vermuten, dass diese Wahrscheinlichkeit
w−1
gerade w+s−1
beträgt, denn es befinden sich ja noch w − 1 weiße Kugeln in der Urne und
w + s − 1 insgesamt.
Formal heißt das aber: Wir ordnen dem Ereignis A eine neue Wahrscheinlichkeit zu,
nämlich die Wahrscheinlichkeit für das Eintreten von A unter der Bedingung, dass B gilt.
P (A ∩ B)
P (A | B) :=
P (B)
wie vermutet.
Satz 2.4 (von der totalen Wahrscheinlichkeit und Bayes Formel). Sei (Ω, P ) ein diskreter
Wahrscheinlichkeitsraum und A, B1 , . . . , Bn ⊆ Ω mit P (Bi ) > 0 für alle i = 1, . . . , n und
B1 , . . . , Bn paarweise disjunkt und Ω = B1 ∪ · · · ∪ Bn . Dann gilt
P (A | Bk ) · P (Bk )
P (Bk | A) =
P (A | B1 ) · P (B1 ) + · · · + P (A | Bn ) · P (Bn )
P (A | B) · P (B)
P (B | A) =
P (A | B) · P (B) + P (A | B c ) · P (B c )
KAPITEL 2. BEDINGTE WAHRSCHEINLICHKEIT UND STOCHASTISCHE
UNABHÄNGIGKEIT 15
Beweis:
(i)
P (A | B1 ) · P (B1 ) + · · · + P (A | Bn ) · P (Bn )
P (A ∩ B1 ) P (A ∩ Bn )
= · P (B1 ) + · · · + · P (Bn )
P (B1 ) P (Bn )
= P (A ∩ B1 ) + · · · + P (A ∩ Bn )
B1 ,B2 ,...
= P ((A ∩ B1 ) ∪ · · · ∪ (A ∩ Bn ))
paarw. disj.
= P (A ∩ (B1 ∪ · · · ∪ Bn ))
| {z }
=Ω
= P (A)
(ii)
P (Bk ∩ A) P (A | Bk ) · P (Bk )
P (Bk | A) = = ,
P (A) P (A)
also die Behauptung mit (i).
Der Vorteil der Bayes-Formel ist, dass man „das Bedingen umkehren kann“. Man erhält
die bedingte Wahrscheinlichkeit gegeben A, wenn man die bedingten Wahrscheinlichkeiten
gegeben Bi kennt.
Beispiel 2.5. Eine 25-jährige Schwangere lässt sich beim Frauenarzt untersuchen. In
diesem Rahmen wird auf ihren Wunsch, aber ohne weitere Verdachtsmomente, ein Test
auf Trisomie 21 (Down-Syndrom) durchgeführt. Der Arzt erläutert:
• In 99% der Fälle, in denen Trisomie 21 vorliegt, ist der Test positiv. („Sensitivität“)
• In 98% der Fälle, in denen Trisomie 21 nicht vorliegt, ist der Test negativ. („Spe-
zifität“)
B=
ˆ Trisomie 21 liegt vor , A=
ˆ Test ist positiv
Es gilt:
P (A | B) = 99% , P (A | B c ) = 1 − 98% = 2%
KAPITEL 2. BEDINGTE WAHRSCHEINLICHKEIT UND STOCHASTISCHE
UNABHÄNGIGKEIT 16
Wir sind interessiert an der Wahrscheinlichkeit, dass Trisomie 21 vorliegt, wenn der Test
positiv ist, also an P (B | A). Zur Berechnung mit der Bayes-Formel fehlt die Wahrschein-
lichkeit P (B), also die Wahrscheinlichkeit, dass ein zufällig gewähltes Kind Trisimoie 21
hat.
1
Diese beträgt bei 25-jährigen Müttern in Deutschland etwa 1250
, also:
1 1249
P (B) = , P (B c ) = 1 − P (B) =
1250 1250
1
P (A | B) · P (B) 0, 99 · 1250
⇒P (B | A) = = 1 1249 ≤ 4%
P (A | B) · P (B) + P (A | B c ) · P (B c ) 0, 99 · 1250 + 0, 02 · 1250
Die Wahrscheinlichkeit, dass das Kind tatsächlich Trisomie 21 hat, wenn der Test an-
schlägt, ist also sehr gering. (In einer (nicht-repräsentativen) Umfrage unter Gynäkologen
haben über 90% dieser die Wahrscheinlichkeit auf ≥ 90% geschätzt).
Stochastische Unabhängigkeit von Ereignissen 2.6. Sind A, B ⊆ Ω Ereignisse mit
P (B) > 0, so kann man sich die Frage stellen, wann sich die Wahrscheinlichkeit von A
durch Bedingen auf B nicht ändert, das heißt
P (A ∩ B)
P (A | B) = P (A) ⇔ = P (A) ⇔ P (A ∩ B) = P (A) · P (B).
P (B)
Dies motiviert allgemeiner:
Definition. Sei (Ω, P ) ein (diskreter) Wahrscheinlichkeitsraum.
Es reicht weder nur die ersten drei Bedingungen zu prüfen, noch nur die letzte (vergleiche
Übung).
Definition 2.7 (Stochastische Unabhängigkeit von Zufallsgrößen). Seien (Ω, P ) ein (dis-
kreter) Wahrscheinlichkeitsraum und
X1 : Ω → E1 , X2 : Ω → E2 , . . . , Xn : Ω → En ,
(ii)
für alle x1 ∈ E1 , . . . , xn ∈ En , das heißt die Zähldichte von (X1 , . . . Xn ) hat Produkt-
gestalt.
Beweis:
P (X1 = x1 , . . . , Xn = xn ) = P (X1 ∈ B1 , . . . , Xn ∈ Bn )
unabh.
= P (X1 ∈ B1 ) · · · · · P (Xn ∈ Bn )
= P (X1 = x1 ) · · · · · P (Xn = xn )
= P (X1 ∈ B1 ) · · · · · P (Xn ∈ Bn )
PZ = PX ∗ PY
KAPITEL 2. BEDINGTE WAHRSCHEINLICHKEIT UND STOCHASTISCHE
UNABHÄNGIGKEIT 18
P (Z = z) = P (X + Y = z)
[
= P {X + y = z, Y = y}
y∈Y (Ω)
paarw. X
= P (X + y = z, Y = y)
disj.
y∈Y (Ω)
X,Y X
= P (X = z − y) · P (Y = y)
unabh.
y∈Y (Ω)
Bezeichnen fX und fY die Zähldichten von X und Y , so gilt also für die Zähldichte von
Z
X
fZ (z) = fX (z − y) · fY (y)
y
Diese Formel wird als Faltung von fX und fY bezeichnet. Oft sind Faltungen allerdings
schwierig konkret zu berechnen.
Mehrstufige Modelle 2.10. Oft betrachtet man Zufallssituationen, die aus n nachein-
ander ausgeführten Zufallsexperimenten bestehen. Wesentlich zur richtigen Modellierung
ist die:
Beweis: Es gilt:
Mit dieser Formel im Hinterkopf können wir mehrstufige Zufallsexperimente mit Bäumen
lösen. Exemplarisch betrachten wir:
Hardy-Weinberg-Gesetz 2.11. Für ein Gen gebe es die Allele A, a, also die Genotypen
AA, Aa, aa. Wir nehmen an, dass die relative Häufigkeit dafür u, 2v, w betragen. Ferner
sei das Gen nicht wesentlich für die Partnerwahl. Wie ändert sich dann die Verteilung
KAPITEL 2. BEDINGTE WAHRSCHEINLICHKEIT UND STOCHASTISCHE
UNABHÄNGIGKEIT 19
wobei
ω1 ω2 ω3
1
AA AA
1
2v 2
AA Aa AA
1
u w 2
2v
· Aa . . . aa Aa
w 1
aa . . . Aa
Man definiert nun das Wahrscheinlichkeitsmaß auf Ω, indem man gemäß 2.10 die be-
KAPITEL 2. BEDINGTE WAHRSCHEINLICHKEIT UND STOCHASTISCHE
UNABHÄNGIGKEIT 20
P ({ω | ω3 = AA})=u ,
P ({ω | ω3 = Aa}) =2v ,
P ({ω | ω3 = aa}) =w
Die Verteilung ändert sich also nicht, wenn kein Selektionsdruck vorliegt.
Kapitel 3
• Typische Anwendung: Das Laplacemaß wird immer dann verwendet, wenn jedes
Elementarereignis {ω} die gleiche Wahrscheinlichkeit besitzt.
Beschreibt etwa X das Ergebnis eines fairen Würfels, so kann man X Laplaceverteilt
auf {1, . . . , 6} modellieren.
• In Zeichen: Ber(p).
also gilt:
n
X
f (k) = 1 , f (k) ≥ 0 X.
k=0
• Typische Anwendung: Hat man eine Urne mit N Kugeln, von denen M weiß und N −
M schwarz sind und zieht man n Kugeln ohne Zurücklegen, so ist Hyp(N, M, n)({k})
die Wahrscheinlichkeit genau k weiße zu ziehen. (Siehe 1.8)
• In Zeichen: Poi(λ).
Bin(n, p) ≈ Poi(n · p)
Was hierbei „groß“ und „klein“ bedeutet, muss anhand von Fehlerabschätzungen für
jedes Einzelproblem spezifiziert werden. Als Faustregel kann man anwenden, dass
man die Poissonapproximation oft sinnvoll nutzen kann, wenn n ≥ 50 und p ≤ 5%.
Als Beispiel etwa: Ein Insekt hat n = 1000 Nachkommen, die alle unabhängig mit
einer Wahrscheinlichkeit von p = 1/1000 das geschlechtsreife Alter erreichen. Dann
4
Im letzten Schritt ist etwas klassische Analysis nötig; auf die Details gehen wir hier nicht ein.
KAPITEL 3. EIN ÜBERBLICK ÜBER EINIGE DISKRETE VERTEILUNGEN 24
• Typische Anwendung: Man wählt oft X Poi-verteilt, wenn X der Ausgang eines
zufälligen Zählvorgangs ist, etwa:
Oft ist es erhellend, beim Studium von Zufallsgrößen deren „mittleren“ Wert anzugeben.
Die am häufigsten verwendete Begriffsbildung dafür ist folgende:
Definition 4.1. Sei (Ω, P ) ein diskreter Wahrscheinlichkeitsraum und X eine Zufalls-
größe mit Werten in E ⊆ R. Ist |x| · P (X = x) < ∞, so nennen wir
P
x∈E
X X
EP (X) := E(X) := x · P (X = x) = x · P (X = x)
x∈E x∈X(Ω)
(ii) Die Definition von E(X) hängt nur von der Verteilung von X ab. Haben also X, Y
die gleiche Verteilung, so gilt schon E(X) = E(Y ).
Weitere Darstellung von E(X) 4.3. (i) Sei X integrierbar, dann gilt
X
E(X) = X(ω) · P ({ω}).
ω∈Ω
(ii) Ist f : X(Ω) → R eine Funktion so, dass f (X) := f ◦ X integrierbar ist, so gilt
f (x) · P (X = x).
P
E(f (X)) = x∈E
Beweis:
S
Ω= x∈E Ωx und die Ωx sind paarweise disjunkt. Damit:
X X X
X(ω)P ({ω}) = X(ω) P ({ω})
ω∈Ω x∈E ω∈Ωx
| {z }
=x
X X
= x P ({ω})
x∈E ω∈Ωx
X [
= x·P {ω}
x∈E ω∈Ωx
X
= x · P ( Ωx )
|{z}
x∈E
={X=x}
=E(X).
(ii) ähnlich.
1,
ω∈A
Beispiel 4.4. (i) Ist A ⊆ Ω, X = 1A , das heißt X(ω) = , so gilt:
0, ω 6∈ A
−λ
X λn
=e
n∈N (n − 1)!
λn−1
=λ · e−λ
X
n∈N (n − 1)!
| {z }
eλ
=λ
KAPITEL 4. ERWARTUNGSWERTE UND MOMENTE 27
= n·p·1
= n·p
Anmerkung 4.6 (zu Beispiel 4.4 (iii)). Der Erwartungswert der Binomialverteilung kann
viel einfacher folgendermaßen berechnet werden:
Sind X1 , . . . , Xn unabhängig mit P (Xi = 1) = p = 1 − P (Xi = 0) für alle i = 1, . . . , n, so
ist X := X1 + · · · + Xn nach 3.3 Bin(n, p)-verteilt. Also gilt für X ∼ Bin(n, p):
Beispiel 4.7 (Binary Search). Wir analysieren jetzt einen ersten Algorithmus, bei dem
der Zufall eine Rolle spielt: die binäre Suche. Dabei liegen 2n − 1 geordnete „Schlüsselele-
mente“
a1 , . . . , a2n −1
Ω = {a1 , . . . , a2n −1 }
und suchen zu gegebenem ω ∈ Ω den zugehörigen Datensatz bzw. den Index i mit ω = ai .
Binäre Suche in einer Liste (c1 , . . . , c2k+1 ) bedeutet:
Teile diese auf in (c1 , . . . , ck ), (ck+1 ), (ck+2 , . . . , c2k+1 ). (identifiziere also ein mittleres
Element und alle links, bzw. rechts davon gelegenen). Dies wenden wir erst an auf
(a1 , . . . , a2n −1 ):
• Falls ω < a2n−1 , machen wir mit der Liste (a1 , . . . , a2n−1 −1 ) weiter,
• Falls ω > a2n−1 , machen wir mit der Liste (a2n−1 +1 , . . . , a2n −1 ) weiter,
und iterieren dieses Vorgehen, bis ω eines der mittleren Elemente ist.
Wie lange dauert dies? Das hängt davon ab, welches ω wir vorliegen haben. Manchmal
reicht ein Schritt (ω = a2n−1 ), manchmal müssen wir sogar n-mal die Liste zerlegen (etwa
wenn ω = a1 ). Die benötigte Schrittzahl ist also abhängig vom (zufälligen) Element ω, das
vorliegt. Wir analysieren diese zufällige Schrittzahl nun, indem wir die mittlere Anzahl
untersuchen.
Wir betrachten dazu die Zufallsgröße
X : Ω → {1, . . . , n} ,
die jedem ω die nötige Schrittzahl zuordnet, das heißt, wie man sich leicht überlegt:
Wir nehmen an, dass wir ω gemäß Gleichverteilung gezogen haben. Betrachte also
P =Laplacemaß auf Ω. Dann:
|{ω | X(ω) = k}| (∗) 2k−1
P (X = k) = = n .
|Ω| 2 −1
KAPITEL 4. ERWARTUNGSWERTE UND MOMENTE 29
Neben der Beschreibung des mittleren Wertes einer Zufallsgröße ist man auch an der
Beschreibung der „Streuung“ um diesen interessiert:
Definition 4.8. Sei X eine integrierbare Zufallsgröße. Dann heißt
Var(X) := E((X − E(X))2 ) = (x − E(X))2 P (X = x)
X
x∈E
die Varianz von X, falls dieser Erwartungswert existiert. Weiter heißt dann
q
Var(X)
Standardabweichung.
Anmerkung 4.9. Die Existenz von V ar(X) liegt genau dann vor, wenn E(X 2 ) < ∞.
Man spricht in diesem Fall auch von Quadratintegrierbarkeit.
Man kann ferner einsehen, dass aus der Existenz von V ar(X) schon die Integrierbarkeit
– also die Existenz von E(X) – folgt.
Satz 4.10. Ist X wie in 4.8, so gilt
Var(X) = E(X 2 ) − (E(X))2
=E(X 2 ) − 2µE(X) + µ2
=E(X 2 ) − µ2
=E(X 2 ) − (E(X))2
KAPITEL 4. ERWARTUNGSWERTE UND MOMENTE 30
und nennt dies die Kovarianz von X und Y . Gilt Cov(X, Y ) = 0, so heißen X und Y
unkorreliert.
(ii) Sind X1 , X2 , . . . , Xn unabhängig, so sind sie auch unkorreliert. Zu diesem Fall gilt:
n n
!
X X
Var Xi = Var(Xi ) und E(X1 X2 ) = E(X1 )E(X2 ).
i=1 i=1
Warnung. Die Umkehrung von (ii) gilt i.a. nicht! (Siehe auch 4.14).
Beweis:
(i)
!2
n n
!
X X
Var Xi = E (Xi − E(Xi ))
i=1 i=1
n
allg.
− E(Xi ))2 +
X X
= E (Xi (Xi − E(Xi )) · (Xj − E(Xj ))
Bin. Formel
i=1 i6=j
n
X X
= Var(Xi ) + Cov(Xi , Xj )
i=1 i6=j
= E(X) · E(Y )
Insbesondere gilt
Beispiel 4.13. Wir berechnen die Varianz von X ∼ Bin(n, p). Dazu gehen wir vor wie
in 4.6 und schreiben X = X1 + · · · + Xn , X1 , · · · , Xn unabhängig und P (Xi = 1) = p =
1 − P (Xi = 0). Dann gilt
n n
!
X 4.12 X
Var(X) = Var Xi = Var(Xi ) = n · Var(X1 )
(ii)
i=1 i=1
und
4.10 4.6
Var(X1 ) = E( X12 ) − (E(X1 ))2 = p − p2 ,
|{z}
=X1
also:
Var(X) = n · (p − p2 ) = n · p · (1 − p)
Anmerkung 4.14. (i) Man kann Cov(X, Y ) deuten als Maß für den linearen Zusam-
menhang von X und Y :
Versucht man X dadurch zu approximieren, dass man eine lineare Funktion aY + b
von Y verwendet, so macht man einen Fehler, etwa gemessen gemäß
E (X − (aY + b))2 , a, b ∈ R.
das heißt Cov(X, Y ) beschreibt die Steigung des linearen Zusammenhangs. Sind also
X, Y unkorreliert, so kann man dies so interpretieren, dass die lineare Abhängigkeit
0 ist. Der Begriff der Unabhängigkeit ist aber viel weitergehend.
(ii) Neben dem Erwartungswert gibt es noch weitere sinnvolle „Lagemaße“ für Zufalls-
größen. Beim Erwartungswert können „Außreißer“, das heißt sehr große Werte, die
mit relativ kleiner Wahrscheinlichkeit angenommen werden, den Wert stark beein-
flussen. Ein Maß, bei dem dies nicht so stark zum Tragen kommt, ist der Median.
So wird jedes m ∈ R bezeichnet, das folgendes erfüllt:
1 1
P (X ≤ m) ≥ und P (X ≥ m) ≥ .
2 2
Beweis: Wir zeigen diesen Satz nur für den Fall, dass X beschränkt ist, d.h. es existiert
M ∈ N so, dass X ≤ M . Ist ω ∈ Ω mit X(ω) = m, so gilt:
m
X M
X M
X
X(ω) = m = 1= 1{i≤m} = 1{i≤X(ω)}
i=1 i=1 i=1
und damit
M M M
!
X X X
E(X) = E 1{i≤X} = E 1{i≤X} = P (X ≥ i)
i=1 i=1 i=1
Kapitel 5
also insgesamt
also
Var(X)
≥ P (|X − E(X)| ≥ ε).
ε2
KAPITEL 5. GGZ UND ZGS 34
1 Pn
(i) Sind X1 , X2 , . . . unabhängig und identisch verteilt5 , so gilt für das Mittel n i=1 Xi
und alle ε > 0:
n
!
1 X
n→∞
P Xi − E(X1 ) ≥ ε −−−→ 0.
n
i=1
(ii) Sind X1 , X2 , . . . unkorreliert und existiert ein M > 0 mit Var(Xi ) < M für alle
i ∈ N, so gilt für alle ε > 0:
n
!
1 X
n→∞
P (Xi − E(Xi )) ≥ ε −−−→ 0.
n i=1
Beweis: Wir zeigen (ii) zuerst und werden daraus direkt (i) erhalten.
Pn Pn
(ii) Es gilt E ( i=1 Xi ) = i=1 E(Xi ) und nach 4.12(ii) wegen der Unkorreliertheit:
n n
!
X X
Var Xi = Var(Xi ) (∗)
i=1 i=1
Damit folgt:
n
! n !
1 X X
P (Xi − E(Xi )) ≥ ε = P (Xi − E(Xi )) ≥n·ε
n i=1
i=1
Pn
5.1 Var ( i=1 Xi )
≤
(n · ε)2
Pn
(∗) Var(Xi )
i=1
=
(n · ε)2
n·M
≤ 2 2
ε ·n
M
=
nε2
n→∞
−−−→0.
(i) Da die Zufallsgrößen nun identisch verteilt sind, haben sie alle den gleichen Erwar-
tungswert
µ := E(X1 ) = E(X2 ) = . . .
i j
5
identische Verteilung bedeutet P X = P X für alle i, j. Diese Situation tritt auf, wenn man das
gleiche Experiment immer wiederholt.
KAPITEL 5. GGZ UND ZGS 35
σ 2 := Var(X1 ) = Var(X2 ) = . . .
(ii)
−−→ 0.
Das GGZ 5.2(i) lässt sich dann formulieren als: „Sind X1 , X2 , . . . unabhängig und iden-
1 Pn
tisch verteilt und Yn := n i=1 Xi das arithmetische Mittel, so gilt: Yn −→ E(X1 ) in
Wahrscheinlichkeit.“
Warnung: In der Stochastik gibt es aber viele weitere sinnvolle Konvergenzbegriffe, die
unterschieden werden müssen. Wir betrachten in dieser Vorlesung aber (explizit) nur den
oben genannten.
Anwendung auf relative Häufigkeit 5.4. Das GGZ macht also eine Aussage über
die Konvergenz des arithmetischen Mittels gegen den Erwartungswert. Im ersten Moment
sieht man nicht, ob auch die relativen Häufigkeiten des Auftretens eines Ereignisses gegen
die zugehörige Wahrscheinlichkeit konvergiert. Dies kann man aber als direkte Folgerung
erhalten:
Sind Y1 , Y2 , . . . unabhängig, identische verteilt (iid) mit Werten in E und A ⊆ E, so ist
n
1 1X
hn (A) := |{i ≤ n | Yi ∈ A}| = 1{Y ∈A}
n n i=1 i
KAPITEL 5. GGZ UND ZGS 36
die relative Häufigkeit des Auftretens eines Ergebnisses in A. Schreiben wir Xi := 1{Yi =A} ,
so ist das GGZ(i) anwendbar und wir erhalten
n
1X 4.4(i)
hn (A) = Xi −→ E(X1 ) = P (Y1 ∈ A) in Warhscheinlichkeit,
n i=1
das heißt die relative Häufigkeit des Auftretens von einem Ausgang in A konvergiert gegen
die zugehörige Wahrscheinlichkeit.
Beispiel 5.5. (Ein vorteilhaftes Spiel, bei dem man langfristig alles verliert)
Wir beginnen ein Spiel mit einem Anfangskapital von X0 = 1 Euro und setzen in jeder
Runde unser gesamtes Kapital. Es wird jeweils eine faire Münze geworfen und unser
Einsatz wird halbiert, wenn Kopf fällt, ansonsten erhalten wir 5/3 unseres Einsatzes.
Wir wählen ein Modell mit Zufallsgrößen: Seien Y1 , Y2 , · · · unabhängige Zufallsgrößen mit
P (Yi = 1/2) = 1/2 = P (Yi = 5/3). Das Ereignis {Yi = 1/2} beschreibe dabei das Ereignis,
dass im i-tern Wurf Kopf fällt. Die Wahl der Werte von Yi ist dabei gerade so getroffen,
dass
Xn = Y1 · Y2 · · · Yn
d.h.
P (Xn < exp(µ/2 · n)) → 1
Beachte, dass exp(µ/2 · n) exponentiell schnell gegen 0 konvergiert. Das Kapital Xn kon-
vergiert also – in diesem Sinne – auch exponentiell schnell gegen 0.
ϕ: R →R
1 t2
t 7→ √ e− 2
2π
bezeichnet man oft als Gauß’sche Glockenkurve.
0.4
0.3
0.2
0.1
0
−4 −2 0 2 4
Es ist zu beachten, dass keine weitere Annahme an die Verteilung der Xi gemacht wird!
Als Spezialfall erhält man
KAPITEL 5. GGZ UND ZGS 38
Pn
Beweis: Wir schreiben wieder Yn = i=1 Xi , Xi iid, P (Xi = 1) = p = 1 − P (Xi = 0). Es
2
gilt µ = E(Xi ) = p, σ := Var(Xi ) = p(1 − p), also:
Pn !
Yn − np X − nµ
P q ≤ x = P i=1
√ i ≤x
np(1 − p) nσ 2
Beispiel 5.9 (Macht entschlossener Minderheiten). 1.002.000 Wähler sind zur Wahl zwi-
schen Partei A und B aufgerufen. Den meisten Wählern - nämlich einer Million - ist die
Wahl egal. Da aber Wahlpflicht herrscht, werfen sie eine Münze. Nur die restlichen 2000
Wähler unterstützen Partei A und wählen diese auf jeden Fall.
Mit welcher Wahrscheinlichkeit gewinnt Partei A die Wahl?
Seien dazu X1 , . . . , X1000000 iid Zufallsgrößen mit
1
P (Xi = 1) = = 1 − P (Xi = 0).
2
{Xi = 0}=
ˆ Wähler i wählt Partei B
{Xi = 1}=
ˆ Wähler i wählt Partei A
n := 1000000
Pn 1002000
Partei A erhält also 2000 + i=1 Xi Stimmen und gewinnt, wenn die Zahl > 2
ist.
KAPITEL 5. GGZ UND ZGS 39
Lösung:
Erzeuge am PC ganz viele zufällige Realisierungen von X und nimm das Mittel der
Werte als Näherung für den gesuchten Erwartungswert.
Genauer:
gesucht v = Ef (X), f : R → R, X ZG
Wir nehmen an, wir haben n unabhängige, identisch verteilte Zufallsgrößen X1 , ..., Xn
(„Kopien“) vorliegen, die alle die gleiche Verteilung wie X besitzen. Dann schreibe
n
1X
vbn := f (Xi ).
n i=1
Dann gilt
n
1
• E vbn =
P
n
Ef (Xi ) = Ef (X) „vbn ist unverzerrt“
i=1 | {z }
=Ef (X)
n
1
• V ar(vbn ) = V ar(f (Xi )) = n1 V ar(f (X)), also gilt für die Standardabweichung
P
n2
i=1
q σ(f (X))
σ (vbn ) := V ar(vbn ) =: √
n
KAPITEL 5. GGZ UND ZGS 40
Frage:
Wie weit ist vbn typischerweise von v entfernt? Nach dem ZGW können wir die Verteilung
von σbvnbv−v für „große“ n approximativ berechnen, also
( n)
Es gilt Z 1,96
φ(t)dt ≈ 95%,
−1,96
σ (f (X)) σ (f (X))
vbn − 1.96 √ ≤ v ≤ vbn + 1.96 √ ,
n n
Allgemeine reelle
Wahrscheinlichkeitsmaße
Beispiel 6.1.
(i) Einfacher Würfelwurf
• mögliche Ergebnisse: 1, 2, 3, 4, 5, 6
• Wir interessieren uns für ein bestimmtes Ereignis, z.B. „gerade Zahl fällt“.
• Wie groß ist die Wahrscheinlichkeit für dieses Ereignis?
Wie in Kapitel 1 festgestellt, können wir die Situation des ersten Beispiels bereits mit
unserer bisherigen Theorie behandeln, das zweite Beispiel allerdings nicht, denn dort liegt
der Ergebnisraum Ω = [0, ∞) oder Ω = R und dieser ist überabzählbar. Insbesondere tritt
das Problem aus, dass die Menge der Teilmengen von Ω, also die Menge aller Ereignisse,
extrem groß ist, was zu technischen Problem führt, die wir in dem bisherigen Setting
nicht lösen können. Wir erweitern nun die bisherigen Begriffsbildung so, dass wir nicht
mehr alle Teilmengen von Ω als Ereignisse zulassen, sondern nur noch eine Teilmenge der
Potenzmenge. Dieses Mengensystem soll dann aber einigen Bedingungen genügen. Das
sind die folgenden:
Definition 6.2 (σ-Algebra). Sei Ω eine nichtleere Menge. Dann heißt A ⊆ P ot(Ω) eine
σ-Algebra, falls:
KAPITEL 6. ALLGEMEINE REELLE WAHRSCHEINLICHKEITSMAßE 42
• Ω ∈ A,
• Ist A ∈ A, so auch Ac := {ω ∈ Ω : ω ∈
/ A} ∈ A,
Bemerkung 6.3. (i) Offenbar ist die Potenzmenge selbst eine σ-Algebra.
(ii) Wir interpretieren A ⊆ P ot(Ω) so, dass dies all die Ereignisse sind, denen wir
später sinnvoll eine Wahrscheinlichkeit zuordnen können. So lassen sich die drei
Bedingungen wie folgt interpretieren:
• Ω ∈ A:
„Man kann Ω sinnvoll eine Wahrscheinlichkeit zuordnen.“
• Ist A ∈ A, so auch Ac := {ω ∈ Ω : ω ∈
/ A} ∈ A:
„Kann man A sinnvoll eine Wahrscheinlichkeit zuordnen, so auch dem Gegen-
ereignis Ac .“
• Sind A1 , A2 , ... ∈ A (abzählbar viele), so auch An = A1 ∪ A2 ∪ ... ∈ A:
S
n∈N
„Kann man A1 , A2 , ... sinnvoll eine Wahrscheinlichkeit zuordnen, so auch dem
S
Ereignis, dass mind. eines der Ereignisse eintritt, n∈N An .“
Mit dieser Begriffsbildung können wir ein mathematisches Modell für allgemeine Wahr-
scheinlichkeitsräume angeben:
1
In Worten: „Die Wahrscheinlichkeit, dass überhaupt eines der Ergenis aus Ω eintritt, ist 1.“
2
In Worten: „Treten A1 , A2 , ... nie gemeinsam ein, so kann man die Wahrscheinlichkeiten addieren
und erhählt die Wahrscheinlichkeit, dass (mind.) eines der Ereignisse eintritt.“
KAPITEL 6. ALLGEMEINE REELLE WAHRSCHEINLICHKEITSMAßE 43
Bemerkung 6.7. B enthält alle Intervalle, aber da es eine σ-Algebra ist darüber hinaus
auch alle abzählbaren Vereinigungen, deren Komplemente und abzählbare Vereinigungen
davon usw. B ist also extrem reichhaltig. Es ist elementar kaum möglich, eine Teilmenge
von R anzugeben, die nicht in B liegt. Alle bei uns auftauchenden Mengen werden in B
sein, sodass wir mit B fast so arbeiten können, als wäre es die Potenzmenge selbst.
Wir betrachten das Beispiel 6.1, Glühbirne: Hier wählen wir Ω = R und A = B mit
A = (2, ∞). Wie beschreibt man P nun? Man müsste ja P (B) für alle B ∈ B angeben.
Wie macht man das?
Beweis: Wir zeigen exemplarisch (i). Seien also x, y ∈ R mit x ≤ y. Dann gilt (−∞, x] ⊆
(−∞, y] und also
F (x) = P ((−∞, x]) = P ((−∞, y]\(x, y]) = P ((−∞, y])−P ((x, y]) ≤ P ((−∞, y]) = F (y).
Wir können also Wahrscheinlichkeitsmaßen auf R (die dem ersten Augenschein nach un-
vorstellbar komplex sind) eine reelle Funktion zuordnen, die deutlich handlicher aussieht.
Es ist daher erstaunlich, dass Verteilungsfunktionen Wahrscheinlichkeitsmaße schon ein-
deutig beschreiben:
KAPITEL 6. ALLGEMEINE REELLE WAHRSCHEINLICHKEITSMAßE 44
Definition und Satz 6.9. Ist F : R −→ [0, 1] eine Funktion, die (i)-(iii) aus 6.8 erfüllt,
so nennen wir diese auch Verteilungsfunktion (VF).
Dazu existiert genau ein Wahrscheinlichkeitsmaß P so, dass F Verteilungsfunktion von
P ist.3
• P ((a, b]) = P ((−∞, b]\(−∞, a]) = P ((−∞, b]) − P ((−∞, a]) = F (b) − F (a)
• P ({x}) = P ((−∞, x]) − P ((−∞, x)) = F (x) − lim&0 F (x − ), d.h die Wahrschein-
lichkeit eines Punktes entspricht gerade der Sprunghöhe von F an dieser Stelle.
Insbesondere falls P diskretes Wahrscheinlichkeitsmaß auf R (d.h. es existiert ein
Z ⊆ R abzählbar mit P (Z) = 1) ist, so erhält man die zugehörige Verteilungsfunk-
P
tion F durch Addition der Wahrscheinlichkeiten F (x) = z≤x P ({z}).
(i) Würfelwurf: Wir können natürlich den Münzwurf auch auf Ω = R betrachten, wo-
bei alle Werte außer 1, 2, ..., 6 die Wahrscheinlichkeit 0 erhalten, genauer: Wählen
wir Ω = R, A = B, so definieren wir P dadurch, dass die Punkte 1, ..., 6 jeweils
Wahrscheinlichkeit 1/6 haben. Die Verteilungsfunktion ergibt sich zu
0, x<1
1/6, x ∈ [1, 2)
F (x) = 2/6, x ∈ [2, 3)
..
.
1,
x ≥ 6.
Also gilt P (A) = P ({2}) + P ({4}) + P ({6}) = 1/6 + 1/6 + 1/6 = 1/2
(ii) Glühbirne: Die Wahl von P ist hier auch inhaltlich unklar. Typisch ist die Exponen-
tialverteilung mit Parameter λ, d.h.
1 − e−λx
x≥0
F (x) =
0 x≤0
0.8
0.6
0.4
0.2
0
0 2 4 6 8
0.8
0.6
0.4
0.2
0
0 2 4 6
4
Hier und im Folgenden treten immer wieder Integrale auf, die Sie in Ihrer bisherigen Ausbildung
KAPITEL 6. ALLGEMEINE REELLE WAHRSCHEINLICHKEITSMAßE 46
(iii) Ist F eine Verteilungsfunktion, die stetig differenzierbar ist, so ist f = F 0 die zuge-
hörige Wahrscheinlichkeitsdichte. Dies gilt auch noch, wenn F nur auf R\D mit D
abzählbar, stetig differenzierbar ist.
Beispiel 6.12. (i) Ein Beispiel für eine Dichte haben wir schon in Zusammenhang mit
R∞
dem ZGS kennengelernt. Man kann nachweisen, dass −∞ φ(t)dt = 1, also ist φ die
eine Dichte und die Funktion Φ ist gerade so gewählt, dass sie die Verteilungsfunktion
zu φ ist. Das zugehörige Wahrscheinlichkeitsmaß wird als Standardnormalverteilung
bezeichnet, siehe das kommende Kapitel.
Rx
für alle x ≤ 0 f (t)dt = 0 = F (x) und für alle x ≥ 0
−∞
Zx Zx
f (t)dt = λe−λt dt = [−e−λt ]x0 = F (x),
−∞ 0
In der Praxis spielen oft viele unterschiedliche Zufallsexperimente gleichzeitig eine Rolle,
etwa Münzwurf und Würfelwurf und Glühbirnen-Überlebensdauer und ... Daher reicht
Ω = R oft nicht direkt aus, d.h. Ω ist viel komplizierter. Oft interessiert man sich aber
nur für Teilaspekte und kann dies durch Zufallsgrößen auf den oben behandelten Fall
zurückführen.
nicht kennengelernt haben. Sie können diese stets als (ggf. uneigentliche) Riemannintegrale interpretieren
und sich auf den Fall beschränken, dass A ein kompaktes Intervall ist.
KAPITEL 6. ALLGEMEINE REELLE WAHRSCHEINLICHKEITSMAßE 47
Die Bedingung aus der Definition 6.13 stellt sicher, dass wir allen A ∈ B wieder eine
Wahrscheinlichkeit zuordnen, indem wir definieren
Wir sagen auch „X hat die Verteilungsfunktion F “, wenn F die Verteilungsfunktion von
P X ist usw.
Der Begriff des Erwartungswertes ist schwierig direkt zu übertragen, da Summen bei
überabzählbar vielen Werten keine passende mathematische Beschreibung zulassen. Zur
Motivation der folgenden Begriffsbildung schreiben wir die uns bekannte Definition so
um, dass wir die Bergiffsbildung verallgemeinre können:
Motivation 6.14. Ist X eine Zufallsgröße mit Werten in N0 auf einem diskreten Wahr-
scheinlichkeitsraum und Verteilungsfunktion F , so gilt nach Satz 4.15
∞
X ∞
X ∞
X
E(X) = P (X ≥ i) = (1 − P (X ≤ i − 1)) = (1 − F (i − 1))
i=1 i=1 i=1
Z∞ Z0
= (1 − F (t))dt − F (t)dt
0 −∞
Auch wenn wir die ursprüngliche Definition des Erwartungswerts nicht direkt übertragen
konnten, so können wir die Formel in der letzten Zeile nun auch im allgemeinen Setting
sinnvoll hinschreiben. Auch wenn diese Darstellung erst einmal nichts mit unserer intuiti-
ven Vorstellung eines Erwartungswerts zu tun hat, nutzen wir dies als Definition. (Es ist
auch ein intuitiverer Zugang möglich, der hier allerdings zu weit führt).
der Erwartungswert von X, falls mindestens eines der Integrale auf der rechten Seite
endlich ist. Sind beide endlich, so heißt X integrierbar.
Mit dieser Definition werden wir aber fast nie arbeiten, sondern folgenden Satz benutzen:
Satz 6.16 (Zum Berechnen von Erwartungswerten:). • Ist Bild(X) abzählbar, so gilt
X
E(X) = xP (X = x)
x∈Bild(X)
und allgemeiner für alle g : R → R für die g(X) eine integrierbare Zufallsgröße ist,
gilt
X
E(g(X)) = g(x)P (X = x).
x∈Bild(X)
Beachte, dass dabei formal einfach Summen durch Integrale erstehst werden.
Beispiel 6.17. Wir betrachten erneut das Beispiel 6.1.
(i) Hier sei X das Ergebnis des Münzwurfs und X(Ω) = {1, ..., 6} „abzählbar“. Dann
gilt
X 1
E(X) = xP (X = x) = (1 + 2 + ... + 6) = 3, 5.
x∈{1,...,6}
6
(ii) Hier sei X die Lebensdauer der Glühbirne, wobei X Exp(λ)-verteilt ist mit λ > 0
und Dichte
0,
t≤0
f (t) = .
λe−λt ,
t≥0
Damit folgt
Z∞ Z∞ Z∞
−λt
E(X) = tf (t)dt = tλe dt = λ te−λt dt
−∞ 0 0
Z∞
1 −λt ∞ 1 −λt
part.
= λ t· −
e − 1· − e dt
Int. λ 0 λ
0
Z∞ ∞
1 −λt 1
= e−λt dt = − e =
λ 0 λ
0
KAPITEL 6. ALLGEMEINE REELLE WAHRSCHEINLICHKEITSMAßE 49
Bemerkung 6.18. Wir wollen nun die restlichen bereits erlangten Resultate von diskreten
Wahrscheinlichkeitsräumen auf allgemeine übertragen.
• Beim Erwartungswert und bei den Momenten wird die Definition aus 6.15 benutzt
und nicht die des Spezialfalls der diskreten. Die sonstigen Rechenregeln bleiben aber
gleich.
5
Es werden also wieder Summen durch Integrale ersetzt.
Kapitel 7
2. Dichte:
1
, t ∈ [a, b]
b−a
f (t) =
0,
sonst
0.4
0.2
0
0 1 2 3 4
• f ≥0
R∞ Rb 1 1
• f (t)dt = b−a
dt = b−a
(b − a) = 1
−∞ a
KAPITEL 7. EIN ÜBERBLICK ÜBER EINIGE STETIGE VERTEILUNGEN 51
3. Verteilungsfunktion:
0,
x≤a
F (x) =
1, x≥b
und für x ∈ [a, b] ergibt sich
Zx Zx
1 x−a
F (x) = f (t)dt = dt = .
a
b−a b−a
−∞
0.8
0.6
0.4
0.2
0
0 1 2 3 4
4. Momente:
Z∞ Zb b " #b
1 1 Z 1 t2
E(X) = tf (t)dt = t dt = tdt =
a
b−a b−a a b−a 2 a
−∞
2 2
b −a (b − a)(b + a) a+b
= = =
2(b − a) 2(b − a) 2
Ähnlich berechnet sich die Varianz zu
(b − a)2
V ar(X) = .
12
5. Zusammenhang zu anderen Verteilungen
Also stimmt die Verteilungsfunktion von F (X) mit der R(0, 1)-Verteilung überein.
2. Dichte: !
1 −(t − µ)2
f (t) = √ exp , t ∈ R.
2πσ 2 2σ 2
0.3
0.2
0.1
0
−4 −2 0 2 4
4. Momente:
!
Z ∞
1 −(t − µ)2
E(X) = √ exp dt
−∞ 2πσ 2 2σ 2
also:
EX = µ und V ar(X) = σ 2
KAPITEL 7. EIN ÜBERBLICK ÜBER EINIGE STETIGE VERTEILUNGEN 53
2. Dichte:
0,
t≤0
f (t) =
λν tν−1 e−λt
Γ(ν)
, t ≥ 0,
dabei ist Γ die Gammafunktion
Z∞
Γ(ν) = sν−1 e−s ds.
0
• f ≥0
•
Z∞ Z∞ ν ν−1 −λt ∞
λ t e λ Z
f (t)dt = dt = (λt)ν−1 e−λt dt
Γ(ν) Γ(ν)
−∞ 0 0
Z∞
s=λt λ 1 Def Γ Γ(ν)
= sν−1 e−s ds = =1
ds
dt
=λ Γ(ν) λ Γ(ν)
0
4. Momente:
ν ν
EX = und V ar(X) = 2
λ λ
5. Zusammenhang zu anderen Verteilungen
λ·1·e−λt
• Im Fall ν = 1 gilt für die Dichte für t ≥ 0 f (t) = Γ(1)
= λe−λt . Dies ist die
Dichte der Exp(λ)-Verteilung.
• Im allgemeinen Fall gilt falls X1 , ..., Xn unabhängig und Exp(λ)-verteilt sind,
so ist X1 + ... + Xn G(n, λ)-verteilt (Erlang-Verteilung).
n 1
• Ist n ∈ N, so heißt G ,
2 2
auch χ2 (Chi-Quadrat)-Verteilung zum Parameter
n.
Wir kommen jetzt zu einer wichtigen Eigenschaft der Exponentialverteilung zurück, die
deren Wahl beim Glühbirnenbeispiel motiviert:
Satz 7.4 (Gedächtnislosigkeit). Sei X eine Exp(λ)-verteilte Zufallsgröße, dann gilt für
alle s, t ≥ 0
P (X > s + t|X > s) = P (X > t).
Beweis:
P (X > s + t, X > s)
P (X > s + t|X > s) =
P (X > s)
P (X > s + t) 1 − P (X ≤ s + t)
= =
P (X > s) 1 − P (X ≤ s)
1 − (1 − e−λ(s+t) ) e−λ(s+t)
= −λs
= −λs
= e−λt
1 − (1 − e ) e
= P (X > t)
KAPITEL 7. EIN ÜBERBLICK ÜBER EINIGE STETIGE VERTEILUNGEN 55
Bemerkung 7.5. Auf unser Glühbirnenbeispiel bezogen besagt diese Eigenschaft, dass
die Wahrscheinlichkeit, dass die Glühbirne in den ersten t Zeiteinheiten die gleiche ist
wie die Wahrscheinlichkeit, dass sie in den folgenden t Zeiteinheiten nach dem Zeitpunkt
s ausfällt, wenn wir wissen, dass sie in s noch brennt. Die Eigenschaft ist dann in der
Modellierung sinnvoll, wenn die Glühbirne keine Verschleißteile besitzt.
Umgekehrt kann man zeigen, dass die Exponentialverteilung die einzige stetige Verteilung
mit dieser Eigenschaft ist.