Grundlagen Der Stochastik

Grundlagen der Stochastik
In Anlehnung an die Vorlesung Grundlagen der Stochastik an der Georg-August-Universit at G ottingen von PD Dr. Fiebig im Wintersemester 2007/2008
Kirsten Bolze
G ottingen, bolze@math.uni-goettingen.de
Frank Werner
G ottingen, fwerner@math.uni-goettingen.de
Inhaltsverzeichnis
Inhaltsverzeichnis
Inhaltsverzeichnis Literatur Vorwort 1 Grundbegrie 1.1 Einf uhrung . . . . . . . . . . . . . . . . . . . 1.1.1 Mengentheoretische Verkn upfungen . . 1.1.2 Relative H augkeiten . . . . . . . . . 1.1.3 Axiomatik nach Kolmogoro (1939) . 1.2 Laplace Experimente . . . . . . . . . . . . . . 1.3 Allgemeine diskrete Wahrscheinlichkeitsr aume 1.4 Siebformeln . . . . . . . . . . . . . . . . . . . 1.4.1 Allgemeine Siebformeln . . . . . . . . 1.4.2 Die Bonferroni-Ungleichungen . . . . . 1.4.3 Anwendung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . und -funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 4 5 6 7 7 8 8 11 13 15 15 17 20 22 26 26 27 28 31 31 33 38 40 43 45 48 48 51 56 59 60 60 60 62 64 65 69 72 72 73 74 77 77 78 78 80 82 82 83 84 85
2 Kombinatorik 2.1 Binomial- und Hypergeometrische Verteilung . . . . . . . . . . . 2.1.1 Ziehen mit Zur ucklegen (Binomialverteilung) . . . . . . . 2.1.2 Ziehen ohne Zur ucklegen (Hypergeometrische Verteilung) 2.2 Das Stimmzettelproblem . . . . . . . . . . . . . . . . . . . . . . .
3 Unabh angigkeit, bedingte Wahrscheinlichkeiten und mehrstuge Experimente 3.1 Unabh angigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2 Bedingte Wahrscheinlichkeiten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3 Mehrstuge Experimente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.1 Bemerkung zu bedingten Wahrscheinlichkeiten in mehrstugen Modellen . . 3.4 Produkt-Experimente und spezielle Verteilungen . . . . . . . . . . . . . . . . . . . . 3.4.1 Mit Produktexperimenten zusammenh angende Verteilungen . . . . . . . . . . 4 Zufallsvariablen, Verteilungen 4.1 Zufallsvariablen . . . . . . . . . . . . . . . . 4.1.1 Unabh angigkeit von Zufallsvariablen 4.2 Verteilungen . . . . . . . . . . . . . . . . . . 4.2.1 Eigenschaften der Possionverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5 Kenngr oen von Verteilungen 5.1 Der Erwartungswert . . . . . . . . . . . . . . . 5.1.1 Erwartungswerte einiger Verteilungen . 5.1.2 Eigenschaften des Erwartungswertes . . 5.1.3 Produktformel . . . . . . . . . . . . . . 5.2 Varianzen . . . . . . . . . . . . . . . . . . . . . 5.2.1 Varianzen einiger diskreter Verteilungen
6 Wahrscheinlichkeitsungleichungen und das SGGZ 6.1 Das schwache Gesetz groer Zahlen (SGGZ) . . . . . . . . . . . . . . . . . . . . . . . . . . 6.1.1 Spezialfall - Das SGGZ von Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . 6.2 Exponential-Ungleichungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 Faltung, bedingte Verteilungen und Korrelation 7.1 Die Faltung . . . . . . . . . . . . . . . . . . . . . . . . . 7.1.1 Spezialfall . . . . . . . . . . . . . . . . . . . . . . 7.1.2 Faltungen einiger wichtiger Verteilungen . . . . . 7.2 Bedingte Verteilungen . . . . . . . . . . . . . . . . . . . 7.2.1 Der bedingte Erwartungswert . . . . . . . . . . . 7.2.2 Die bedingte Erwartung . . . . . . . . . . . . . . 7.2.3 Anwendung der iterierten Erwartung . . . . . . . 7.2.4 Anwendung des allgemeineren Satzes (Satz 7.23) 7.3 Korrelation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Inhaltsverzeichnis
8 Erzeugende Funktion und Verzweigungsprozesse 8.1 Verzweigungsprozesse . . . . . . . . . . . . . . . . 8.1.1 Modellbildung . . . . . . . . . . . . . . . . 8.1.2 Motivation . . . . . . . . . . . . . . . . . . 8.1.3 Aussterbewahrscheinlichkeit . . . . . . . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
87 92 92 92 92 95 95 98 99 100 100 102 104 105 105 106 106 107 108 108 108 111 114 117 122 125 125 126 127 133 133 135 136 139 140 141 146 147 150 150 152 154 154 155 156 159 161 162 163
9 Grenzwertsatz von de Moivre-Laplace 9.1 Normalapproximation der Binomialverteilung . . . . . . . . . . . . . . . . . . . . . . . . . 9.2 Anwendung I: Normalapproximation der Binomialverteilung . . . . . . . . . . . . . . . . . 9.3 Anwendung II: Bestimmung eines Stichprobenumfangs . . . . . . . . . . . . . . . . . . . . 10 Allgemeine Modelle und stetige Verteilungen 10.1 Allgemeine Wahrscheinlichkeitsr aume und Zufallsvariablen . . . . . . . . . . . . . . . 10.2 Wahrscheinlichkeitsverteilungen auf R, reelle Zufallsvariablen, Verteilungsfunktionen 10.3 Stetige Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.4 Zufallsvariablen mit stetiger Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . 10.4.1 Die Gleichverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.4.2 Die Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.4.3 Die Exponentialverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.4.4 Die Pareto-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.4.5 Die Cauchy-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.4.6 Die Gamma-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.5 Berechnung und Transformation von Dichten . . . . . . . . . . . . . . . . . . . . . . 10.6 Erwartungswert und Varianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.7 Mehrdimensionale stetige Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . 10.8 Unabh angigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.9 Die mehrdimensionale Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . 10.9.1 Folgerungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.10Wahrscheinlichkeitsverteilungen und der zentrale Grenzwertsatz . . . . . . . . . . . . 10.10.1 Die Jensensche Ungleichung . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.10.2 Der zentrale Grenzwertsatz (ZGWS) . . . . . . . . . . . . . . . . . . . . . . . 11 Markov-Ketten mit endlichem Zustandsraum 11.1 Steuerung der Spr unge: Ubergangsmatrizen und -graphen . . . . 11.1.1 Potenzen der Matrix P . . . . . . . . . . . . . . . . . . . . 11.1.2 Die Periode einer Ubergangsmatrix . . . . . . . . . . . . . 11.2 Markov-Ketten . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.2.1 Drei elementare Wahrscheinlichkeiten von Markov-Ketten 11.3 Invariante Mae und Konvergenzs atze . . . . . . . . . . . . . . . 11.4 R uckkehrzeiten und starkes Gesetz . . . . . . . . . . . . . . . . . 11.4.1 Der R uckkehrzeitensatz . . . . . . . . . . . . . . . . . . . 11.5 Beispiele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.5.1 Irrfahrt auf ungerichtetem Graphen . . . . . . . . . . . . 11.5.2 Ehrenfeld-Diusion . . . . . . . . . . . . . . . . . . . . . . 12 Sch atzer und statistische Tests 12.1 Punktsch atzer . . . . . . . . . . . 12.1.1 ML-Sch atzer . . . . . . . 12.1.2 Erwartungstreue Sch atzer 12.2 Statistische Tests . . . . . . . . . 12.2.1 Der einseitige Gautest . 12.2.2 Der t-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
A Tabelle der Standardnormalverteilung
B Kenngr oen der wichtigsten Verteilungen 164 B.1 Diskrete Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164 B.2 Stetige Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165 Stichwortverzeichnis 166
Literatur
Literatur
[Dehling/Haupt] Herold Dehling, Beate Haupt : Einf uhrung in die Wahrscheinlichkeitstheorie und Statistik Springerverlag Berlin, 1. Auage 2007, 306 Seiten, ISBN: 3-540-20380-X [Krengel] Ulrich Krengel: Einf uhrung in die Wahrscheinlichkeitstheorie und Statistik Viewegverlag, 8. Auage 2005, 257 Seiten, ISBN: 3-834-80063-5
Vorwort
Vorwort
Dieses Skript ist unter einigem Arbeitsaufwand w ahrend der Vorlesung Grundlagen der Stochastik von PD Dr. Fiebig im Wintersemester 2007/2008 an der Georg-August-Universit at G ottingen entstanden. Der Begri der Stochastik umfasst heutzutage die Unterbegrie der Wahrscheinlichkeitstheorie und der Statistik. Die Wahrscheinlichkeitstheorie umfasst dabei die Wahrscheinlichkeitsgesetze und das Studium wahrscheinlichkeitstheoretischer Modelle mit mathematischen Methoden, w ahrend die Statistik sich mit der Analyse und Modellierung von Datenstrukturen befasst. Die Urspr unge der Stochastik als Wissenschaft gehen auf das Gl ucksspiel (W urfeln, Kartenspiel etc.) zur uck und liegen etwa um 1630. Als erste stellten Menschen wie Pascal oder Fermat Fragen wie Was ist wahrscheinlicher? Bei vier W urfen mit einem W urfel eine 6 oder bei 24 W urfen mit zwei W urfeln eine Doppel-6 zu haben? Der Begri der Wahrscheinlichkeit selbst wurde dann im Wesentlichen von Laplace (1749-1827) gepr agt. Die axiomatische Einf uhrung eines Wahrscheinlichkeitsraumes kam allerdings erst 1933 durch Kolmogoro. Heutzutage ndet die Stochastik in vielen Gebieten Anwendung. Zum Beispiel in der Informatik bei Datenkompression, Spracherkennung, maschinellem Lernen oder Netzwerken, in der Technik bei der Qualit atskontrolle oder der Signalerkennung, in der Finanzmathematik bei der Berechnung von Pr amien oder in der Biologie und Medizin bei der Bilderkennung oder der DNA-Analyse. In sich ist die Stochastik ein Wechselspiel zwischen Modellen und Daten, wobei von den Modellen aus Prognosen f ur die Daten get atigt werden und gleichzeitig mittels Daten bereits bestehende Modelle gepr uft und neue Modelle geschaen werden. Es handelt sich hierbei ausdr ucklich nur um eine studentische Mitschrift, nicht um ein oziell vom Dozenten herausgegebenes Skript. Trotz groer Anstrengungen sind sicherlich einige Fehler mathematischer wie auch sprachlicher Natur im Skript verblieben, was hoentlich nicht allzu groe Schwierigkeiten f ur das Verst andnis aufwerfen wird. G ottingen, 23. Januar 2009 Kirsten Bolze, Frank Werner
1 Grundbegrie
Motivation
Zur Motivation wollen wir zwei Beispiele f ur stochastische Modelle angeben. Europ aische Call-Option
Dieses Beispiel kommt aus der Finanzmathematik. Wir nehmen folgende Situation an: Zum Zeitpunkt t0 = 0 (heute) kaufe ich das Recht, zu einem Preis k eine Aktie zum Zeitpunkt t1 > 0 kaufen zu k onnen. Die Frage, die sich dort stellt, ist: Was kostet dieses Recht? Eine m ogliche Antwort auf diese Frage wurde 1973 durch Black / Scholes unter Benutzung eines stochastischen Modells zur Entwicklung der Preisentwicklung gegeben: C = S (0) ( ) k exp (r) t1 Dabei ist S (0) der heutige Preis der Aktie, r ein festgesetzter Zinssatz und die Voluntarit at (Schwankung) des Marktes. ist gegeben als
1 rt1 + 2 t2 log = t1
k S (0)
und ist die Verteilungsfunktion der Standard-Normalverteilung, d.h.
( ) =
x2 1 exp 2 2
dx
F ur dieses Modell wurde 1997 der Nobelpreis f ur Okonomie verliehen. Spracherkennung
Sei A die Mikrofonaufnahme eines gesprochenen Wortes. F ur jedes Wort wi in der deutschen Sprache sei Wi das Ereignis w wurde gesprochen i
durchlaufen, am gr oten ist. Praktisch lassen wir dabei i den Zahlenbereich i = 1, ..., 100.000 o.A. um alle W orter der deutschen Sprache abzudecken. Eine Spracherkennungssoftware tut nun Folgendes: Sie berechnet f ur jedes (!) i mit Hilfe stochastischer Aussprachemodelle die Wahrscheinlichkeit P (A | wi ). Aus Tabellen entnimmt sie zus atzlich die relative H augkeit P (Wi ) mit der das Wort wi in der deutschen Sprache auftritt. Dann nutzen wir die Bayes-Formel P (A | wi ) P (Wi ) P (wi | A) = 100.000 P (A | wk ) P (Wk )
k=1
achlich gesagt hat, d.h. mit unserem Modell das Gesucht ist nun das Wort wi , das der Sprecher tats Wort wi , f ur welches P (wi | A)
Der Nenner dieses Ausdrucks h angt nicht von i ab, daher ist P (wi | A) maximal genau dann, wenn P (A | wi ) P (Wi ) maximal ist.
Grundbegrie
1.1 Denition: Unter einem Zufallsexperiment verstehen wir ein Experiment, dessen Ausgang nicht durch die Versuchsbedingungen bestimmt ist. Unser Ziel in diesem Abschnitt soll es sein, Zufallsexperimente zu modellieren.
1 Grundbegrie
1.1
Einfu hrung
1.2 Denition: Ein diskreter Grundraum = {1 , 2 , ...} ist eine nicht leere, abz ahlbare (oder endliche) Menge. Ein Element nennen wir Ergebnis, eine Teilmenge A ein Ereignis. Beispiel 1.3: F ur einen W urfelwurf mit einem W urfel w are = {1, 2, 3, 4, 5, 6}. 5 entspricht dann dem Ergebnis 5 wurde geworfen und {2, 4, 6} dem Ereignis eine gerade Zahl wurde gew urfelt. 1.4 Denition: Sei ein diskreter Grundraum. Wir nennen das sichere Ereignis und das unm ogliche Ereignis. 1.1.1 Mengentheoretische Verkn upfungen
Beispiel 1.5: Wir betrachten einen zweifachen W urfelwurf. Ein geeigneter Grundraum hier ist = {1, 2, 3, 4, 5, 6) {1, 2, 3, 4, 5, 6) = {1, 2, 3, 4, 5, 6} = {(i, j ) | i, j N, 1 i, j 6} Wir betrachten die Ereignisse Beim ersten Wurf wird eine 6 gew urfelt A = Beim zweiten Wurf wird eine 3 gew urfelt Diese Ereignisse entsprechen dann den Teilmengen A = {(6, i) | i N, 1 i 6} und B = {(j, 3) | j N, 1 j 6} Dann ist A B = {(6, 3)} und das entspricht dem Ereignis, dass sowohl A als auch B eintreten, d.h. dass im ersten Wurf eine 6 und im zweiten Wurf eine 3 kommt. 1.6 Denition: Sei ein diskreter Grundraum und seien Ai , i N sowie A, B Ereignisse. Dann entsprechen A und B treten ein dem Ereignis A B A oder B treten ein dem Ereignis A B Jedes der Ai , i N ist eingetreten dem Ereignis Ai
iN 2
A =
Mindestens eins der Ai , i N ist eingetreten dem Ereignis A ist nicht eingetreten dem Ereignis Ac := \ A.
Ai
iN
Man kann sich mittels Venn-Diagrammen gut Verkn upfungen von Ereignissen verdeutlichen. 1.7 Denition: Sei ein diskreter Grundraum und seien Ai , i N paarweise disjunkte Ereignisse, d.h. i = j Ai Aj = Dann schreiben wir auch Ai =:
iN iN
Ai
1 Grundbegrie
1.1.2
Relative H augkeiten
Wir wollen nun Ereignissen Wahrscheinlichkeiten zuordnen. Unsere Motivation daf ur sind sogenannte relative H augkeiten : 1.8 Denition: Sei 0 ein diskreter Grundraum. Die relative H augkeit eines Ereignisses A 0 in einer Folge von Relationen 1 , 2 , ..., n aus gleichwertigen Experimenten ist deniert als rn (A) := Beispiel 1.9: Bei 300 W urfen einer Reizwecke landet 124 mal die Spitze oben, sonst landet der Kopf oben. Sei 1 das Ergebnis Spitze nach oben und 0 das Ergebnis Kopf nach oben. Dann ist := {0, 1}
300
1 # {j = 1, ..., n | j A} n
= {(1 , ..., 300 ) | i {0, 1} 1 i 300}
ein geeigneter Grundraum f ur dieses Experiment. Auerdem setzt man 0 := {0, 1} als den Grundraum f ur einen einfachen Wurf der Reizwecke fest. Entsprechend ist f ur n = 300 also = n 0 und es gilt rn ({1}) =
1 300
124.
Wir wollen nun einige oensichtliche Eigenschaften relativer H augkeiten in einem Lemma festhalten: 1.10 Lemma: Es gelten die folgenden Relationen: 0 rn (A) 1 A 0 . rn (0 ) = 1. rn (A + B ) = rn (A) + rn (B ) f ur A, B mit A B = . / gegen die Wahrscheinlichkeit P (A) Die Idee ist nun, dass die relativen H augkeiten rn (A) f ur n eines Ereignisses A konvergieren. Das macht in sofern Sinn, dass man beobachten kann, wie sich die relativen H augkeiten f ur immer gr oer werdendes n stabilsieren. Um diese Aussage auch beweisen zu k onnen, brauchen wir nun eine geeignete Axiomatik. 1.1.3 Axiomatik nach Kolmogoro (1939)
1.11 Denition: Ein diskreter Wahrscheinlichkeitsraum ist ein Paar (, P ), wobei ein diskreter Grundraum und P eine auf den Teilmengen P () denierte reellwertige Funktion ist, welche die folgenden Axiome erf ullt: (A1) Positivit at Es gilt P (A) 0 f ur alle A . (A2) Normiertheit Es gilt P () = 1. (A3) -Additivit at F ur jede Folge paarweise disjunkter Teilmengen A1 , A2 , ... gilt P
i=1
Ai
i=1
P (Ai )
P heit Wahrscheinlichkeitsma oder auch (Wahrscheinlichkeits-)Verteilung auf . P (A) ist die Wahrscheinlichkeit des Ereignisses A .
1 Grundbegrie
Folgerung 1.12 (Rechenregeln): (R1) Es ist P () = 0. (R2) Es gilt Additivit at, d.h.
n n
P
i=1
Ai
=
i=1
P (Ai )
f ur endlich viele paarweise disjunkte Mengen A1 , ..., An . Beweis: (R1) Setze Ai = f ur i = 1, 2, 3, .... Dann gilt R P () = P
i=1
Ai
(A3)
i=1
P (Ai ) =
i=1
P ()
Aus der Konvergenz der Summe folgt P () = 0. (R2) Setze in (A3) Ai = f ur i > n und benutze (R1). In der Stochastik sollten die Ergebnisse, die man aus der Modellierung erh alt, empirisch veriziert werden. Beim Wurf der Reizwecke setzt man z.B. = {0, 1}, P (1) = 0.4 und P (0) = 0.6 (wobei 1 Spitze oben bedeutet) und best atigt sich dies so in unserem Versuch mit 300 W urfen, denn r300 (1) = 124 176 0.4 und r300 (0) = 0.6 300 300
1.13 Denition: Sei eine Menge und A eine Teilmenge. Wir wollen das Komplement von A bezeichnen mit Ac := \ A Wir erinnern uns an die de Morganschen Regeln: 1.14 Hilfssatz: F ur zwei Mengen M und N gelten: Mc Nc = = (M N )
c c
(1.1) (1.2)
Mc Nc
(M N )
Beweis: Sei x M c N c . Dann gilt sicherlich entweder x M c oder x N c (oder beides), d.h. x / M oder x / N (oder beides). Daher ist x / M N und daher Ist andersherum x (M N ) , so ist x / M N und daher entweder x / N oder x / M (oder beides). Entsprechend gilt sicherlich x M c oder x N c was (1.1) zeigt. Sei x M c N c . Dann ist x M c und x N c , d.h. x / M und x / N . Daher gilt auch x / M N und entsprechend c x (M N )
c c
x (M N )
Ist andersherum x (M N ) , so ist x / M N , also x / M und x / N . Das hat aber x M c und x N c zur Folge und daher gilt x Mc Nc Das zeigt (1.2). Bemerkung 1.15: Nat urlich verallgemeinern die de Morganschen Regeln sich direkt auf unendliche Vereinigungen und Schnitte. Sind Ai , i N Mengen, so gilt:
i=1 i=1
Ac i Ac i
i=1
Ai
c
(1.3)
i=1
Ai
(1.4)
Der Beweis dieser Aussage ist analog zu Hilfssatz 1.14.
10
1 Grundbegrie
1.16 Lemma (weitere Rechenregeln): Sei (, P ) ein diskreter Wahrscheinlichkeitsraum. A, B und Ai seien Ereignisse f ur i N. Dann gilt: (R3) P (A) = 1 P (Ac ) (R4) P (A) 1 f ur alle A (R5) P (A \ B ) = P (A) P (B ) falls B A (R6) P (B ) P (A), wenn B A (R7) F ur beliebige endliche oder unendliche Folgen A1 , A2 , A3 , ... gilt P
i
(Monotonie) (Boolesche Ungleichung)
Ai
P (Ai )
i
(R8) Falls A1 A2 A3 ..., so gilt P (R9) Falls A1 A2 A3 ..., so gilt P

i=1 i=1
(Stetigkeit von unten) Ai = lim P (Ai )

i
(Stetigkeit von oben) Ai = lim P (Ai )

i
Beweis: Zum Beweis werden nur die Kolmogoro-Axiome sowie die Folgerungen (R1) und (R2) benutzt: (R3) Es gilt = A Ac mit A, Ac disjunkt und damit 1 = P () = P (A Ac ) = P (A) + P (Ac ). Durch Umstellen erh alt man P (A) = 1 P (Ac ). (R4) Da P (Ac ) 0 folgt mit (R3) P (A) = 1 P (Ac ) 1. (R5) Da A = (A \ B ) B eine disjunkte Vereinigung ist, gilt laut (R2) P (A) = P (A \ B ) + P (B ). (R6) Nach Rechenregel (R3) ist P (B ) = P (A) P (A \ B ). Auerdem ist P (A \ B ) 0 und es folgt die Behauptung. (R7) Setze B1 := A1 , B2 := A2 \ A1 , B3 := A3 \ (A1 A2 ), ... d.h. Bn := An \ (A1 A2 ... An1 ) f ur n N Die Bi sind paarweise disjunkt und Bi Ai f ur alle i N. Es gilt also Bi =
iN iN (A3) (R4) iN (A1) (A1) (A2) (R2)
Ai
und damit P
iN
Ai
=P
iN
Bi
iN
P (Bi )
P (Ai )
(R8) Setze die Bi wie eben. Dann gilt: P

i=1 (A3)
Ai
P
i=1
i=1
Bi
P (Bi )
n
=
(R2)
lim
P (Bi )
i=1 n
lim P
i=1
Bi
lim P (An )
1 Grundbegrie
11
(R9) Gilt A1 A2 ..., so ist oenbar Wir berechnen daher P

i=1
c Ac 1 A2 ... c
Ai
(1.4)
i=1
Ac i
(R3)
1P
Ac i
i=1
(R8)
1 lim P (Ac i)
i
(R3)
1 1 lim P (A1 )
i i
= was die Behauptung zeigt.
lim P (Ai )
1.2
Laplace Experimente
1.17 Denition: Ein Paar (, P ) heit Laplace-Raum, wenn = {1 , ..., n } endlich ist und f ur alle A P (A) = #A # g unstige F alle = # # m ogliche F alle
gilt. P heit Laplace-Verteilung oder diskrete Gleichverteilung auf = {1 , ..., n }. Bemerkung 1.18: Sei (, P ) ein Laplace-Raum. Dann ist P ({ }) = Beispiel 1.19: (1) Gegeben sei ein W urfel. Wir setzen als Grundraum = {1, 2, ..., 6} mit P als der Laplace-Verteilung. Uns interessiert das Ereignis A =gerade Zahl = {2, 4, 6}. Dann gilt: P (A) = #A #{2, 4, 6} 1 = = # 6 2 1 1 = # n
(2) Beim Wurf der Reizwecke liegt kein Laplace-Raum vor, da P (1) = 0.4 = 0.6 = P (0) (3) Man muss darauf achten den richtigen Laplace-Raum zu w ahlen. Beim (gleichzeitigen) Wurf zweier fairer M unzen ist die Wahrscheinlichkeit des Ereignisses B = einmal Kopf und einmal Zahl wird geworfen gesucht. Modell 1: Wir setzen := {KK, KZ, ZK, ZZ } als Laplace-Raum. Das liefert P (B ) = P ({KZ, ZK }) = #{ZK, KZ } 2 1 = = # 4 2
12
1 Grundbegrie
Modell 2: Wir setzen := {KK, KZ, ZZ } ohne Beachtung der Ordnung - das liefert P ({KZ }) = Dieses Ergebnis ist empirisch wiederlegbar. (4) Summe von Augenzahlen Es werde zwei Mal gew urfelt. Sei Am =Die Augensumme ist m f ur m = 2, 3, ..., 12. 2 Unser Modell ist = {1, 2, ..., 6} = {(i, j ) | 1 i, j 6} als Laplace-Raum, d.h. P (Am ) = Oenbar ist # = 36. Nun ergibt sich #A2 #A3 #A4 #A5 #A6 #A7 #A8 = #{(1, 1)} = #{(1, 2), (2, 1)} = #{(1, 3), (2, 2), (3, 1)} = #{(1, 4), (2, 3), (3, 2), (4, 1)} = #{(1, 5), (2, 4), (3, 3), (4, 2), (5, 1)} = #{(1, 6), (2, 5), (3, 4), (4, 3), (5, 2), (6, 1)} = #{(2, 6), (3, 5), (4, 4), (5, 3), (6, 2)} . . . = #{(6, 6)} = = = = = = = . . . = 1 2 3 4 5 6 5 P (A2 ) P (A3 ) P (A4 ) P (A5 ) P (A6 ) P (A7 ) P (A8 ) = = = = = = = . . . =
1 36 2 36 3 36 4 36 5 36 6 36 5 36
1 3
#Am #
#A12
1 P (A12 )
1 36
(5) Teilungsproblem des Luca Paccioli (1494) Zwei Spieler A und B wiederholen ein faires Spiel (z.B. M unzwurf). Wer zuerst sechs Spiele gewonnen hat, bekommt den gesamten Einsatz. Das Spiel muss beim Stand 5:3 abgebrochen werden. Wie ist der Einsatz gerecht aufzuteilen? Um diese Frage zu beantworten, betrachten wir Verl aufe, die zu einer Entscheidung f uhren. Es ergeben sich die folgenden Modelle: allen. Damit gehen Modell 1: A, BA, BBA, BBB. Bei dieser Betrachtung gewinnt A in 3 von 4 F an Spieler B. Einsatzes an Spieler A und 1 4
3 4
des
Modell 2: AAA, AAB, ABA, ABB, BAA, BAB, BBA, BBB. Nur bei BBB gewinnt B. Nach der Denition 7 1 des Laplace-Raums gehen 8 des Einsatzes an Spieler A und 8 an Spieler B. (6) Wir werfen 10 mal eine M unze. Gesucht ist die Wahrscheinlichkeit des Ereignisses C = mindestens 1 mal tritt Kopf auf Unser Modell ist := {K, Z }10 = {(a1 , ..., a10 ) | ai {K, Z }} als Laplace-Raum. Es folgt # = 1024 und wir berechnen P (C ) = #C #
mit Hilfe des Komplements von C , denn dieses ist einfacher zu bestimmen! P (C ) = 1 P (C c ) = 1 # { Es tritt kein mal Kopf auf } 1 1023 #C c =1 =1 = # # 1024 1024
(7) Maxima von Augenzahlen Es wird k mal gew urfelt. Sei m {1, 2, ..., 6} und das Ereignis Bm =h ochste Augenzahl ist m. Wir verwenden als Modell den Laplace-Raum := {1, ..., 6}k = {(a1 , ..., ak ) | ai {1, ..., 6}} F ur 1 m 6 setze Am als das Ereignis Am =alle Augenzahlen sind m fest und erhalte so P (Am ) = mk #Am = k. # 6
Dann gilt Bm = Am \ Am1 und Am1 Am . Die Rechenregel (R5) liefert nun P (Bm ) = P (Am ) P (Am1 ) =
(m 1)k mk (m 1)k mk = . k k 6 6 6k
1 Grundbegrie
13
1.3
Allgemeine diskrete Wahrscheinlichkeitsr aume und -funktionen
1.20 Lemma: Ist (, P ) ein diskreter Wahrscheinlichkeitsraum, so ist P festgelegt durch die Werte P ({ }) , Beweis: Sei A beliebig. Dann gilt
A=
A
{ } =
{ }
und diese Vereinigung ist abz ahlbar, da der Grundraum selbst schon abz ahlbar ist. Es folgt aus (A3): P (A) = P
A
{ }
P ({ }) .
Daher ist P durch die Werte in der Voraussetzung bereits festgelegt. Bemerkung 1.21: Wegen (A1) und (R4) ist bereits klar, dass 0 P ({ }) 1 f ur alle gilt. Genauso muss nach (A2) und (A3) auch P ({ })
(A3)
{ }
= P ()
(A2)
gelten. Das veranlasst uns zu folgender 1.22 Denition: Sei ein diskreter Grundraum. Eine Abbildung p : / [0, 1] mit der Eigenschaft
p ( ) = 1

heit Wahrscheinlichkeitsfunktion auf . Bemerkung 1.23: Ist P eine Wahrscheinlichkeitsverteilung auf , so ist p ( ) := P ({ }) wie oben gesehen eine Wahrscheinlichkeitsfunktion. Beispiel 1.24: Wir betrachten den zu einmaligem W urfeln geh origen Laplace-Raum. Dann ist die entsprechende Wahrscheinlichkeitsfunktion p gegeben durch p (1) = p (2) = ... = p (6) = Beispiel 1.25: Wir betrachten wieder unser Beispiel der Reizwecke. Die hier entstehende Wahrscheinlichkeitsfunktion p ist gegeben durch p (1) = 0.4, p (0) = 0.6. 1.26 Satz: Sei ein diskreter Grundraum und p eine Wahrscheinlichkeitsfunktion auf . Dann denieren wir durch P (A) :=
A
1 . 6
p ( ) , A
eine Wahrscheinlichkeitsverteilung P auf .
14
1 Grundbegrie
Beweis: Wir m ussen lediglich die Axiome (A1), (A2) und (A3) pr ufen. (A1) Sei A beliebig. Da p 0 gilt, folgt sofort P (A) =
A
p ( ) 0.
0
(A2) Oenbar ist P () =

p ( ) = 1.
(A3) Seien Ai paarweise disjunkt, i N. Dann ist P

i=1
Ai
p ( ) .
Ai
i=1
Per Denition ist p 0, d.h. diese Summe konvergiert absolut. Umordnung liefert wegen der Disjunktheit der Ai : P Das zeigt die Behauptung. Bemerkung 1.27: F ur diskrete Grundr aume haben wir also folgendes: Die Menge M aller Wahrscheinlichkeitsverteilungen P auf und die Menge aller Wahrscheinlichkeitsfunktionen p auf lassen sich bijektiv durch P p, p ( ) := P ({ }) , ineinander abbilden. Die Frage, die man sich also stellt ist, warum man nicht gleich nur mit Wahrscheinlichkeitsfunktionen arbeitet. Eine Antwort darauf ist leicht zu geben, denn im Fall eines nicht-diskreten Grundraumes wie = [0, 1] oder = R macht eine Frage nach P ({a}), a - also nach der Wahrscheinlichkeit eines einzelnen Ergebnisses - keinen Sinn! Diese Wahrscheinlichkeit w are stets 0. Man stelle sich Beispielsweise einen Zufallsgenerator vor, der gleichverteilt Zahlen aus [0, 1] zieht. Die Wahrscheinlichkeit, dass eine 0 gezogen wird, m usste dann 0 sein, aber die Summe u ber alle Zahlen der Wahrscheinlichkeiten w are weiterhin 1. Das macht schlicht und ergreifend keinen Sinn! Die Axiome (A1), (A2) und (A3) hingegen lassen sich auf allgemeine (nicht abz ahlbare) Grundr aume verallgemeinern und liefern so eine einheitliche Theorie f ur alle Wahrscheinlichkeitsr aume. Beispiel 1.28: Wir k onnen einen gef alschten W urfel modellieren durch p (1) := 0.1, p (2) = ... = p (5) = 0.175, p (6) = 0.2. Das deniert eine Wahrscheinlichkeitsfunktion auf = {1, 2, ..., 6}. Die zugeh orige Wahrscheinlichkeitsverteilung nach Satz 1.26 liefert dann die entsprechende gesuchte Wahrscheinlichkeitsverteilung. Beispiel 1.29: Auf = {2, 3, ..., 12} deniere die Wahrscheinlichkeitsfunktion p durch den Vektor 5 6 5 1 1 2 , , ..., , , , ..., 36 36 36 36 36 36 .
Ai
p ( ) =
P (Ai ) .
i=1
i=1 Ai
i=1
1 2 Damit ist nat urlich gemeint, dass p (2) = 36 , p (3) = 36 etc. ist. Diese Wahrscheinlichkeitsfunktion deniert als Wahrscheinlichkeitsverteilugn genau die Verteilung der Augensumme bei zweimaligem W urfeln.
1 Grundbegrie
15
1.4
Siebformeln
In diesem Abschnitt wollen wir Wahrscheinlichkeiten von Vereinigungen berechnen oder absch atzen, wenn wir die Wahrscheinlichkeiten von Durchschnitten kennen. Sei stets (, P ) ein Wahrscheinlichkeitsraum. 1.30 Lemma: Sind A1 , A2 Ereignisse, so gilt P (A1 A2 ) = P (A1 ) + P (A2 ) P (A1 A2 ) . Beweis: Setze B1 := A1 und B2 := A2 \ A1 = A2 \ (A1 A2 ). Dann ist A1 A2 = B1 B2 und B1 B2 = . Daher gilt: P (A1 A2 ) =
(R2)
P (B1 B2 ) P (B1 ) + P (B2 ) P (A1 ) + P (A1 \ (A1 A2 )) P (A1 ) + P (A2 ) P (A1 A2 ) .
=
(R5)
Das zeigt die Behauptung. Beispiel 1.31: Wir denieren das Ereignis A als A:= Eine in 1,2,...,100 rein zuf allig gew ahlte Zahl ist durch 2 oder durch 5 teilbar Um P (A) zu berechnen denieren wir A2 := Eine in 1,2,...,100 rein zuf allig gew ahlte Zahl ist durch 2 teilbar A5 := Eine in 1,2,...,100 rein zuf allig gew ahlte Zahl ist durch 5 teilbar Dann gilt A = A2 A5 , oenbar ist P (A2 ) = P (A2 A5 )
50 100 1 =2 , P (A5 ) = 20 100 1 5
und
= P ( Eine in 1,2,...,100 rein zuf allig gew ahlte Zahl ist durch 2 und durch 5 teilbar) 1 10 = . = P ( Eine in 1,2,...,100 rein zuf allig gew ahlte Zahl ist durch 10 teilbar) = 100 10 1 1 1 3 + = . 2 5 10 5
Nach Lemma 1.30 ist also P (A) = P (A2 ) + P (A5 ) P (A2 A5 ) =
Sind A1 , A2 , A3 nun drei Ereignisse, so ergibt sich als Siebregel P (A1 A2 A3 ) = P (A1 ) + P (A2 ) + P (A3 ) P (A1 A2 ) P (A1 A3 ) P (A2 A3 ) + P (A1 A2 A3 ) , wie man sich mit einem Venn-Diagramm schnell verdeutlichen kann. Aber diese Aussage folgt auch aus den folgenden allgemeinen Siebformeln. 1.4.1 Allgemeine Siebformeln
Sei (, P ) ein Wahrscheinlichkeitsraum und seien A1 , ..., An Ereignisse, n 2. Setze Sk :=

1i1 <i2 <...<ik n
P (Ai1 ... Aik )
f ur 1 k n. 1.32 Satz (Siebformel von Poincare-Sylvester): Unter obigen Voraussetzungen gilt

n n
P
i=1
Ai
=
k=1
(1)
k 1
Sk
16
1 Grundbegrie
Beweis: Wir zeigen die Aussage durch Induktion u ber n. Induktionsanfang (I.A.): Lemma 1.30 liefert
n k 1
P (A1 A2 ) = P (A1 ) + P (A2 ) P (A1 A2 ) =

= S1 = S2
k=1
(1)
Sk
Induktionsvoraussetzung (I.V.): Gelte

n n
P
i=1
Ai
=
k=1
(1)
k 1
Sk
f ur alle Ereignisse A1 , ..., Am . Induktionsschritt (n Wir setzen Dann gilt:

n+1
/ n + 1): B := A1 ... An
P
i=1
Ai
=
I.A.
P (B An+1 ) P (B ) + P (An+1 ) P (B An+1 )

n
=
I.V.
P
i=1 n
Ai
k 1
+ P (An+1 ) P Sk + P (An+1 ) P
Ai
i=1 n
An+1
k=1 n I.V.
(1) (1)
i=1
(Ai An+1 )
k 1 1i1 <i2 <...<ik n k 1
k=1
P (Ai1 ... Aik ) + P (An+1 ) P ((Ai1 An+1 ) ... (Aik An+1 ))
k=1
(1)
1i1 <i2 <...<ik n
k=1
(1)
k 1 1i1 <i2 <...<ik n k 1
P (Ai1 ... Aik ) + P (An+1 ) P (Ai1 ... Aik An+1 ) P (Ai1 ... Aik ) + P (An+1 )
k=1
(1)
1i1 <i2 <...<ik n n
P (Ai ) +
1in n k=2 k 1
(1)
k 1 1i1 <i2 <...<ik n
k=1
(1)
1i1 <i2 <...<ik n n1 k=1
P (Ai1 ... Aik An+1 ) P Ai1 ... Aik+1
P (Ai ) +
1in+1 n k 1
(1)
k 1i1 <i2 <...<ik+1 n
k=1
(1)
1i1 <i2 <...<ik n
P (Ai1 ... Aik An+1 )
1 Grundbegrie
17
n+1
=
i=1
P (Ai )
n1 k=1
(1)
k 1
1i1 <i2 <...<ik+1 n
P Ai1 ... Aik+1
+
1i1 <i2 <...<ik n n+1 n1 k=1
n1 P (A1 ... An ) P (Ai1 ... Aik An+1 ) (1) k 1
=
i=1
P (Ai )
n1
(1)
1i1 <i2 <...<ik+1 n+1
(1)
n+1
=
i=1
P (Ai ) +
n
P (A1 ... An )
n k=2
P Ai1 ... Aik+1
(1)
k 1
+ (1) P (A1 ... An )

n+1
1i1 <i2 <...<ik n+1
P (Ai1 ... Aik )
=
k=1
(1)
k 1
Sk
Es folgt die Behauptung. 1.4.2 Die Bonferroni-Ungleichungen
Sei (, P ) ein Wahrscheinlichkeitsraum und seien A1 , ..., An Ereignisse. Wir beweisen hier zun achst die folgende Variante der Siebformel: 1.33 Lemma: Es gilt
n n n
P
i=1
Ai
=
i=1
P (Ai )
i=1
Beweis: Wir setzen B1 := A1 und f ur 2 k n: Bk := Ak \ Dann gilt

k 1 i=1
i1
j =1
(Ai Aj )
(1.5)
Ai
= Ak \
n
k 1 i=1
(Ai Ak )
Ai =
i=1 i=1
Bi
und die Mengen Bi sind disjunkt. Auerdem gilt wegen

k 1 i=1
(Ai Ak ) Ak
k 1 i=1
auch P (Bk ) = P (Ak ) P
(Ai Ak )
18
1 Grundbegrie
Damit folgt dann:

n n
P
i=1
Ai
= P
i=1 n
Bi
=
i=1 n
P (Bi )
i1
=
i=1 n
P (Ai ) P
n
j =1
=
i=1
P (Ai )
i=1
was die Behauptung zeigt. Mit den Bezeichnungen Sk :=

1i1 <i2 <...<ik n
i1
(Aj Ai ) (Aj Ai )
j =1
P (Ai1 ... Aik )
f ur 1 k n kann man jetzt folgern: Folgerung 1.34: Sei (, P ) ein Wahrscheinlichkeitsraum und seien A1 , ..., An Ereignisse. Dann gilt f ur jedes m {1, ..., n} die Formel
n m
Ai
i=1
i=1
(1)
i1
Si + (1)
1i1 <...<im n
Beweis: Der Beweis erfolgt durch Induktion nach m n. Induktionsanfang (I.A.): Das ist genau die bereits gezeigte Gleichung (1.5). Induktionsvoraussetzung (I.V.): Gelte (1.6). Induktionsschritt (m < n, m / m + 1):
i1 1 j =1
(Ai1 ... Aim Aj )
(1.6)
Wir wollen Gleichung (1.5) auf den Term P

j =1
i1 1
aus der Induktionsvoraussetzung anwenden. Setze dazu f ur gegebene 1 j < i1 < ... < im n Bj := Ai1 ... Aim Aj Dann gilt: P
i1 1 j =1
(Ai1 ... Aim Aj )
(Ai1 ... Aim Aj )
(1.5)
i1 1 j =1
i1 1 j =1
Bj
i1 1 j =1
P (Bj )
j 1 k=1
(Bj Bk )
1 Grundbegrie
19
i1 1 j =1
P (Ai1 ... Aim Aj ) P

j 1 k=1
i1 1 j =1
(Ai1 ... Aim Aj Ai1 ... Aim Ak )
i1 1 j =1
P (Ai1 ... Aim Aj ) P

j 1 k=1
i1 1 j =1
(Ai1 ... Aim Aj Ak )
Setzen wir das nun in die Induktionsvoraussetzung ein, so erhalten wir

n
P
i=1 m I.V.
Ai
i1 1 j =1
i=1 m
(1)
i1
Si + (1)
m 1i1 <...<im n m 1i1 <...<im n
=
i=1
(1)
i1
Si + (1)
i1 1 j =1
(Ai1 ... Aim Aj )
P (Ai1 ... Aim Aj )
i1 1 j =1
j 1 k=1 i1
(Ai1 ... Aim Aj Ak )

m i1 1 1i1 <...<im n j =1 i1 1
i=1
(1)
Si + (1)
P (Ai1 ... Aim Aj )
+ (1)
m
m+1
j 1 k=1
1i1 <...<im n j =1 i1
(Ai1 ... Aim Aj Ak ) P Ai1 ... Aim+1
=
i=1
(1)
Si + (1)
m 1i1 <...<im+1 n
=Sm+1
+ (1)
m+1
m+1 1i1 <...<im+1 n i1
i1 1 j =1
Ai1 ... Aim+1 Aj P

i1 1 j =1
=
i=1
(1)
Si + + (1)
m+1 1i1 <...<im+1 n
was die Behauptung zeigt. Als einfache Folgerung erhalten wir nun 1.35 Satz (Bonferroni-Ungleichungen): Unter den Voraussetzungen wie oben gelten: (1) F ur ungerades m {1, ..., n} gilt
n m
Ai1 ... Aim+1 Aj
P
i=1
Ai
i=1
(1)
i1
Si
(2) F ur gerades m {1, ..., n} gilt P
Ai
i=1
i=1
(1)
i1
Si
20
1 Grundbegrie
Beweis: Nach Denition eines Wahrscheinlichkeitsraums ist f ur jede Auswahl 1 i1 < ... < im n Ist nun m {1, ..., n} ungerade, so folgt
n
i1 1 j =1
(Ai1 ... Aim Aj ) 0
P
i=1
Ai
(1.6)
i=1 m
(1)
i1
Si + (1)
m 1i1 <...<im n
=
i=1 m
(1) (1)
i1
Si Si
1i1 <...<im n
i1 1 j =1
i1 1 j =1
(Ai1 ... Aim Aj )
(Ai1 ... Aim Aj )
i1
i=1
Ganz analog gilt f ur jedes gerade m {1, ..., n}, dass

n
P
i=1
Ai
(1.6)
i=1 m
(1)
i1
Si + (1)
m 1i1 <...<im n
=
i=1 m
(1) (1)
i1
Si +
1i1 <...<im n
i1 1 j =1
i1 1 j =1
(Ai1 ... Aim Aj )
(Ai1 ... Aim Aj )
i1
Si
i=1
womit die Behauptung gezeigt ist. Bemerkung 1.36: F ur m = 1 liefert das genau die in (R7) unabh angig schon gezeigte Boolesche Ungleichung
n n
P
i=1
Ai
P (Ai )
i=1
(1.7)
1.4.3
Anwendung
Wir wollen hier eine Anwendung aus der Zuverl assigkeitstheorie diskutieren: Korollar 1.37: M ogen die Voraussetzungen von oben gelten. Sind A1 , ..., An Ereignisse mit P (Ai ) 1 i f ur Zahlen 0 i 1, i = 1, ..., n, so gilt
n n
P
i=1
Ai
i
i=1
1 Grundbegrie
21
Beweis: Es gilt
n
P
i=1
Ai
(R3)
1P 1P
n
Ai
i=1 n
(1.3)
Ac i
i=1
(1.7)
1 1 1
P (Ac i)
i=1 n
(R3)
i=1 n
(1 P (Ai ))
n
Das zeigt die Behauptung.
i=1
(1 1 i ) = 1
i
i=1
In der Anwendung sieht das so aus: Man betrachtet etwa ein System mit n Komponenten, welches nur funktioniert, wenn alle Komponenten funktionieren. Dann ist Ai = Die i-te Komponente ist intakt und
n i=1
Ai = Das System ist intakt
Man erh alt so eine Absch atzung f ur die Sicherheit des Systems, wenn man Absch atzungen f ur die Sicherheit der Komponenten hat. Beispiel 1.38: Ist etwa P (Ai ) 0.99 f ur alle i = 1, ..., n, also i = 0.01 f ur alle i = 1, ..., n, so ist das System immerhin noch mit Wahrscheinlichkeit n n P Ai 1 100 i=1 intakt.
22
2 Kombinatorik
Kombinatorik
Hier wollen wir das sogenannte Urnen- und F achermodell einf uhren. Dazu betrachten wir vier verschiedene Grundr aume I , II , III , IV die aus Urnen- bzw. F achermodellen entstehen und bestimmen ihre Kardinalit aten. In der Praxis werden I , II und III oft als Grundr aume f ur Laplace-R aume benutzt, IV ist spezieller. Beispiel 2.1: Wir wollen W urfeln als Urnenmodell realisieren. Dabei entspricht dann der erste Wurf dem Ziehen einer Kugel aus einer Urne mit sechs Kugeln, welche mit den Zahlen 1,2,3,4,5,6 beschriftet sind, und dem Zur ucklegen der Kugel nach dem Ziehen. Der zweite Wurf ist dann wieder das Ziehen einer Kugel aus der selben Urne mit zur ucklegen etc.. Das realisiert genau W urfeln als Laplace-Raum wie bereits bekannt.
Urnenmodell I:
k -faches Ziehen mit Zur ucklegen unter Ber ucksichtigung der Reihenfolge aus einer Urne mit n Kugeln, welche die Nummern 1 bis n tragen. Der Grundraum ist hier I = {(a1 , ..., ak ) | 1 ai n, i = 1, ..., n} wobei ai der Nummer der im iten Experiment gezogenen Kugel entspricht. Es ist #I = nk Das zugeh orige F achermodell sieht so aus: Man betrachtet k Kugeln, welche mit 1, ..., k nummeriert werden und verteilt diese Kugeln in n F acher. Dabei sind mehrere Kugeln pro Fach erlaubt. Notiert wird als ai die Nummer des Fachs, in welchem die Kugel mit der Aufschrift i gelandet ist. Der Grundraum der Ergebnisse ist dann genau wie oben schon eingef uhrt I = {(a1 , ..., ak ) | 1 ai n, i = 1, ..., n} Beispiel 2.2: Das F achermodell ndet etwa dann Verwendung, wenn sich k Kunden an n verf ugbaren Schaltern anstellen oder in der Informatik k Jobs auf n Prozessoren verteilt werden.
Urnenmodell II:
k -faches Ziehen ohne Zur ucklegen unter Ber ucksichtigung der Reihenfolge aus einer Urne mit n Kugeln, welche die Nummern 1 bis n tragen. Das ist oenbar nur f ur k n m oglich. Der Grundraum ist hier II = {(a1 , ..., ak ) | ai = aj f ur i = j und ai {1, ..., n} f ur i = 1, ..., k} wobei ai der Nummer der im iten Experiment gezogenen Kugel entspricht. Die Kardinalit at von II berechnet sich wie folgt: Beim Ziehen der ersten Kugel gibt es n M oglichkeiten, beim Ziehen der zweiten Kugel n 1 M oglichkeiten usw, daher ist n! =: (n)k #II = n (n 1) ... (n k + 1) = (n k )! Wir sprechen diese Zahl als n unten k. Das zugeh orige F achermodell sieht so aus: Man betrachtet k Kugeln, welche mit 1, ..., k nummeriert werden und verteilt diese Kugeln in n F acher. Diesmal ist aber jeweils maximal eine Kugel pro Fach erlaubt. Notiert wird als ai die Nummer des Fachs, in welchem die Kugel mit der Aufschrift i gelandet ist.
2 Kombinatorik
23
Bemerkung 2.3 (Spezialfall): Wir betrachten nun den Fall n = k , d.h. alle Kugeln werden gezogen. Dann erhalten wir hier als II genau die Menge aller Permutationen der Zahlen {1, ..., n}, da in den Tupeln (a1 , ..., an ) jede Zahl aus {1, ..., n} genau einmal auftaucht. Man sieht mit obiger Formel sofort #II = (n)n = n! Beispiel 2.4: (1) Wir wollen die Wahrscheinlichkeit f ur Fixpunkte von Permutationen berechnen. Dazu sei k = n und II mit der Laplace-Verteilung versehen. Entsprechend gilt dann f ur jede Permutation (a1 , ..., an ) II der Menge {1, ..., n}, dass P ({(a1 , ..., an )}) = 1 1 = #II n!
Sei nun Ai := {(a1 , ..., an ) II | ai = i} das Ereignis Die Permutation hat an der Stelle i einen Fixpunkt. Dann gilt #Ai (n 1)! 1 P (Ai ) = = = i = 1, ..., n #II n! n da Ai genau die Menge aller Permutationen von {1, ..., n} ist, welche i festh alt, also nur n 1-Zahlen aus {1, ..., n} \ {i} permutiert. Das entspricht genau einer Permutation der Zahlen {1, ..., n} \ {i} = {1, ..., n 1} und deren Anzahl ist wie oben gesehen genau (n 1)!. (2) Eine Person probiert ihre n Schl ussel zuf allig an einem Schloss durch. Nur einer der Schl ussel passt. Sei Bi das Ereignis der i-te Schl ussel passt. Wir bezeichnen die Schl ussel mit 1, ..., n und nehmen durch Umnummerieren stets an, dass 1 der passende Schl ussel ist. Als Modell verwenden wir wieder II als Laplace-Raum. Dann ist Bi {(a1 , ..., an ) II | ai = 1} und entsprechend P (Bi ) = wie oben. #Bi 1 = #II n
Urnenmodell III:
k -faches Ziehen ohne Zur ucklegen ohne Ber ucksichtigung der Reihenfolge aus einer Urne mit n Kugeln, welche die Nummern 1 bis n tragen. Das ist oenbar wieder nur f ur k n m oglich. Der Grundraum ist hier III = {T {1, ..., n} | #T = k } Einer Teilmenge T III entspricht dann das Experiment, dass genau die Kugeln mit den Zahlen i T gezogen wurden (Reihenfolge egal!). Die Kardinalit at von II berechnet sich mit dem Prinzip des Sch afers:1 Will man #III durch abz ahlen berechnen, so erscheint dies sehr schwer. Man deniert also f : II
1 Prinzip
/ III durch f ((a1 , ..., ak )) := {a1 , ..., ak }
des Sch afers:
Will man wissen, wie viele Schafe auf der Wiese stehen, so muss man nicht zwingend die Schafe selbst z ahlen. Man kann auch die Anzahl der Beine auf der Wiese z ahlen und durch die Anzahl der Beine pro Schaf teilen, das liefert das selbe Ergebnis: # Beine = # Schafe 4 Dieses Prinzip klingt zun achst sehr abstrus, aber oben wird die enorme M achtigkeit des Prinzips klar.
24
2 Kombinatorik
Diese Abbildung ist wohldeniert, da wir f ur jedes (a1 , ..., ak ) II gefordert hatten, dass die ai paarweise verschieden sind. Man erh alt als Bild unter f also tats achlich eine k -elementige Teilmenge von {1, ..., n}. Ganz oenbar ist f surjektiv und jede Menge {a1 , ..., ak } III (Schaf) hat genau k ! Urbilder (Beine) unter f , da es wie oben gesehen k ! Permutationen einer k -elementigen Menge gibt. Daher gilt: #III = #II Die Zahl
n k
(n)k 1 n! = = =: k! k! k ! (n k )!
n k
wird auch Binomialkoezient oder n u ber k genannt. Bemerkung 2.5 (Eigenschaften der Binomialkoezenten): (1) Es gilt n n = k nk (2) Der Binomische Lehrsatz besagt
n
(x + y ) =
k=0
n k nk x y k
(3) Die Anzahl der m oglichen Auswahlen 1 i1 < ... < ik n (2.1)
- wie sie etwa in Abschnitt 1.4.1 vorkommen - entspricht genau der Anzahl der k -elementigen Teilmengen von {1, ..., n} (einfach die Ordnung vergessen). Daher gibt es genau n k M oglichkeiten, Zahlen i1 , ..., ik wie in (2.1) auszuw ahlen. Beispiel 2.6: Ein klassisches Beispiel f ur das Urnenmodell III ist das gew ohnliche Lotto. Hier werden 6 Kugeln aus 49 m oglichen Kugel ohne Zur ucklegen und ohne Ber ucksichtigung der Reihenfolge gezogen, d.h. es ist n = 49 und k = 6. Man sieht an diesem Beispiel sehr deutlich, dass auch wirklich nur die Teilmenge T der gezogenen Kugeln entscheidend ist. Um die Wahrscheinlichkeit f ur 6 Richtige zu berechnen, betrachten wir III als Laplace-Raum und erhalten so f ur einen beliebigen festen Tip T = {a1 , ..., a6 } {1, ..., 49} die Wahrscheinlichkeit P (T ) = #T = #III 1
49 6
1 13.983.816
6 Richtige im Lotto erscheinen also als sehr unwahrscheinlich! Jetzt wollen wir noch das zugeh orige F achermodell entwickeln. Man betrachtet dazu die verschiedenen M oglichkeiten k nicht zu unterscheidende Kugeln auf n F acher zu verteilen. Dabei ist jeweils wieder maximal eine Kugel pro Fach erlaubt. Notiert wird als Ergebnis nur die Teilmenge der besetzten F acher.
Urnenmodell IV:
k -faches Ziehen mit Zur ucklegen ohne Ber ucksichtigung der Reihenfolge aus einer Urne mit n Kugeln, welche die Nummern 1 bis n tragen. Als Ergebnis notieren wir nur das Tupel (k1 , ..., kn ), wobei die Zahl ki angibt, wie oft die Kugel mit der Nummer i gezogen wurde. Zwangsl aug gilt dann
n
ki = k
i=1
2 Kombinatorik
25
Der Grundraum ist also

n
IV := Beispiel 2.7:
(k1 , ..., kn )
0 ki k i = 1, ...n und
ki = k
i=1
Wir haben n = 6 Kugeln und ziehen k = 10 mal. Dann ist das Ergebnis ein Vektor (3, 0, 2, 4, 0, 1) welcher symbolisiert, dass 3 mal Kugel Nummer 1 gezogen wurde, 0 mal Kugel Nummer 2, 2 mal Kugel Nummer 3 usw.. Bevor wir die Kardinalit at von IV bestimmen wollen wir kurz das zugeh orige F achermodell vorstellen. Man betrachte k Kugeln, die auf n F acher verteilt werden - mit erlaubter Mehrfachbesetzung der F acher - und z ahle als Ergebnis nur, wie viele Kugeln im i-ten Fach sind f ur i = 1, ..., n. Beispiel 2.8: In der Praxis ndet dieses Modell etwa Verwendung, wenn k Kunden sich an n Schaltern anstellen und man nachher die Auslastung der einzelnen Schalter betrachten will. Jetzt wollen wir #IV bestimmen. Auch dazu konstruieren wir wieder eine geeignete Abbildung in einen Raum, dessen Kardinalit at wir bereits kennen. Wir betrachten die Menge aller Folgen der Zahlen 0 und 1 der L ange n + k 1. Wir betrachten jetzt 0 als eine Kugel und 1 als die Markierung f ur n achstes Fach. Unter dieser Identikation wird etwa das Ergebnis (3, 0, 2, 4, 0, 1) aus Beispiel 2.7 zur Folge 000110010000110 Wollen wir eine Bijektion zwischen IV und einer Teilmenge von {(ai , ..., an ) | ai {0, 1} f ur i = 1, ..., n} erhalten, so muss jede der Folgen genau n 1 1en und k 0en enthalten. Unter dieser Bedingung erhalten wir oenbar eine Bijektion! Eine Folge der L ange n + k 1 mit genau n 1 1en und k 0en ist aber bereits eindeutig durch die Auswahl der Positionen der k 0en (also Kugeln) eindeutig bestimmt - die anderen Positionen m ussen 1en sein. Daher ist n+k1 #IV = # {T {1, ..., n + k 1} | #T = k } = k wie oben berechnet. In Beispiel 2.7 ergibt sich also #IV = 10 + 6 1 10 = 15! = 3003 10!(15 10)!
Wenn wir die Laplace-Verteilung annehmen, dann hat entsprechend jede Konguration die Wahrscheinlichkeit 1 P (k1 , k2 , ..., kn ) = 0, 00033 #IV 2.9 Denition: Wir denieren den Multinomialkoezient als n k! k ki = k falls k 0 1 i n, i k1 !k2 !...kn ! := i=1 k1 , k2 , ..., kn 0 sonst Bemerkung 2.10: F ur den Fall k = 2 kennen wir dies bereits als den Binomialkoezienten. Sei k = k1 + k2 , dann gilt: k k1 , k2 = k! k! = k1 ! k2 ! k1 !(k k1 )!
2.11 Lemma: Die Anzahl der M oglichkeiten eine Menge A der Kardinalit at k in n Teilmengen A1 , ..., An mit #Ai = ki
n
und
i=1
ki = k zu zerlegen ist gegeben durch k k1 , k2 , ..., kn = k! k1 ! k2 ! ... kn !
26
2 Kombinatorik
Beweis: k M oglichkeiten, Elemente auszuw ahlen. Dann ist #(A \ A1 ) = k k1 und es gibt f ur F ur A1 gibt es k 1 k k 1 k 2 k1 M o glichkeiten usw.. M o glichkeiten, Elemente auszuw a hlen. F u r A bleiben A2 nur noch k 3 k3 k2 Die Gesamtzahl der M oglichkeiten A in Teilmengen der Gr oe k1 , ..., kn zu zerlegen betr agt also k k1 = = k k1 k2 k k1 k2 k3 ... k k1 k2 ... kn1 kn
k! (k k1 )! (k k1 k2 )! kn ... k1 !(k k1 )! k2 !((k k1 k2 )! k3 !(k k1 k2 k3 )! kn k! k1 ! k2 ! ... kn !
Das zeigt die Behauptung. Beispiel 2.12 (zum Vergleich zu Beispiel 2.7): Wir wollen nun das obige Beispiel noch einmal bzgl. des Grundraums I = {(a1 , ..., ak ) | ai 1, ..., n f ur 1 i k } und der Laplace-Verteilung betrachten. Es werden 10 von 1 bis 10 nummerierte Kugeln auf 6 F acher verteilt. ai ist das Fach der i-ten Kugel. Sei Ak1 ,k2 ,...,k6 = {(a1 , ..., a6 ) | genau k1 der ai s sind 1, k2 der ai s sind 2, ..., kn der ai s sind 6} Laut Lemma 2.11 ist #Ak1 ,...,k6 = und daher gilt P (Ak1 ,k2 ,...,kn ) = Einsetzen in (2.2) liefert nun P (A3,0,2,4,0,1 ) = P (A10,0,0,0,0,0 ) = P (A2,2,2,2,1,1 ) = 10! 1 0, 0002 61 0 4! 0! 2! 3! 0! 1! 1 10! 0, 000000017 610 10! 1 10! 0, 0037 10 6 2! 2! 2! 2! 1! 1! 1 k! nk k1 ! ... kn ! (2.2) k k1 , ..., k6
Trotzdem: Gewisse Elementarteilchen (Bosonen) verteilen sich auf verschiedene Energiezust ande gem a der Laplace-Verteilung auf IV .
2.1
Binomial- und Hypergeometrische Verteilung
Wir betrachten eine Urne mit N Kugeln, wobei R rote Kugeln und N R weie Kugeln enthalten sind. Daraus wird eine Stichprobe im Umfang von n Kugeln auf 2 Arten (mit und ohne Zur ucklegen) gezogen. Gesucht ist die Wahrscheinlichkeit genau r rote Kugeln zu ziehen. 2.1.1 Ziehen mit Zur ucklegen (Binomialverteilung) I = {(a1 , a2 , ..., an ) | 1 ai N } mit der Laplace-Verteilung. Es seien die Kugeln 1, 2, ..., R die roten Kugeln. Gesucht ist P (Er ), wobei Er = {(a1 , a2 , ...an ) | #{i | ai {1, 2, ..., R}} = r} Er entspricht den r roten Kugeln, anders gesagt den r Erfolgen. Wir wollen nun #Er bestimmen: Sie I {1, 2, ..., n} die Indexmenge der Ziehungen, bei denen eine rote Kugel gezogen wurde. Dann ist Er die disjunkte Vereinigung aller Ereignisse EI = {(a1 , a2 , ..., an ) | ai {1, 2, ..., R} i I}
Gegeben sei
2 Kombinatorik
27
u ur festes I ist ber alle r-elementigen Teilmengen I {1, 2, ..., n}. F #EI = Rr (N R)nr und es gibt
n r
Teilmengen I {1, 2, ..., n} mit #I = r. Damit ist #Er 1 n = n Rr (N R)nr = #I N r n r R N 1 R N

nr
P (Er ) =
2.13 Denition (Binomialverteilung): F ur p [0, 1] und n N heit binn,p (j ) = b(n, p, j ) = n j p (1 p)nj , j 0jn
die Binomialverteilung mit Erfolgswahrscheinlichkeit p und Stichprobenumfang n. Beispiel 2.14 (M unzwurf ): n-maliges Werfen einer M unze ist wie Ziehen mit Zur ucklegen aus einer Urne mit 2 Kugeln. Wir modellieren mit Hilfe der Binomialverteilung: P ( k mal Kopf) = 2.1.2 n k 1 2
k
1 2
nk
n k
1 2
Ziehen ohne Zur ucklegen (Hypergeometrische Verteilung)
Man zieht eine Teilmenge T von n N Kugeln. Wir betrachten den Grundraum III = {T {1, 2, ..., N } | #T = n} und damit ist #III = Er
N n
. Die Kugeln 1, 2, ..., R seien rot. Hier ist
= {T {1, 2, ..., N } | # (T {1, ..., R}) = r, #T = n} = {T {1, 2, ..., N } | #(T {1, 2, ..., R}) = r, #(T {R + 1, ..., N }) = n r}
N R nr
Dabei gibt es genau R at r und r Teilmengen von {1,2,...,R} der Kardinalit dinalit at n r von {R + 1, ..., N }. Damit folgt #Er = 2.15 Denition: Wir nennen hyp(r, n, R, N ) := P (Er ) = #Er = #III R N R r nr
Teilmengen der Kar-
R r
N R nr N n
die hypergeometrische Verteilung zu den Parametern n, N und R. Beispiel 2.16 (Skat): Beim Skatspiel gibt es 32 Karten, darunter 4 Asse. 3 Spieler bekommen je 10 Karten. Es ist die Wahrscheinlichkeit f ur das Ereignis Spieler 1 bekommt 3 Asse gesucht. Modell: 32 Kugeln, davon R=4 rote Kugeln und n= 10 Ziehungen. Gesucht: P (3 Erfolge) = P (E3 ) Wir oben gesehen berechnet man mit der hypergeometrischen Verteilung: P (E3 ) = hyp(3, 10, 4, 32)
4 3 32 10
28 7
66 0, 073 899
28
2 Kombinatorik
2.2
Das Stimmzettelproblem
Die Ausz ahlung der Stimmen einer Wahl hat ergeben: Kandidat A gewinnt mit a Stimmen gegen uber Kandidat B mit b Stimmen, a > b. Gesucht ist die Wahrscheinlichkeit des Ereignisses 2.17 Satz: Wenn a > b, so ist E := A liegt w ahrend der gesamten Ausz ahlung in F uhrung.
P (E ) = und h angt damit nur vom Quotienten

b a
1+
b a b a
ab.
Beweis: Wir stellen die Ausz ahlung der Stimmzettel als Pfad da. Der Pfad B,B,A,A,A,B,A,A,B entspr ache dann also der Ausz ahlung erste Stimme f ur B, zweite Stimme f ur B, dritte Stimme f ur A usw. Graphisch kann man sich diesen beispielhaften Pfad wie folgt verdeutlichen: Stimmen f ur A 5 4 3 2 1 0 0 1 2 3 4
ur B 5 Stimmen f
Abbildung 1: Der Ausz ahlungspfad B,B,A,A,A,B,A,A,B Wir betrachten dazu also als Laplace-Raum. Ein Pfad aus wird oenbar schon durch die Zeitpunkte der A-Stimmen eindeutig festgelegt und hat logischerweise L ange a + b, daher gilt # = Wir wollen jetzt disjunkt zerlegen. Sei dazu E1 E2 E3 = {Pfade oberhalb der Diagonalen} = {Pfade durch (0, 1) , die nicht oberhalb der Diagonalen liegen} = {Pfade, die durch (1, 0) verlaufen}
3
= {Pfade von (0, 0) nach (b, a)}
a+b b
Da jeder Pfad, welcher oberhalb der Diagonalen verl auft, automatisch durch (0, 1) verlaufen muss, gilt dann =
i=1
Ei
2 Kombinatorik A 2 1 0 0 1 2 A 2 1 0 0 1 2 A 2 1 0 0 1 2
29
Abbildung 2: Von links nach rechts: Beispiel eines Pfades aus E1 , aus E2 und aus E3 Gesucht ist in diesem Zusammenhang nat urlich P ( E ) = P ( E1 ) = #E1 #
at #E3 von E3 ist oenbar und wir k onnen #E1 u ber #E1 = # #E2 #E3 berechnen. Die Kardinalit #E3 = a+b1 a = Anzahl der Pfade der L ange a + b 1 von (1, 0) nach (b, a)
da jeder Pfad aus E1 genau eins k urzer ist als ein Pfad aus . Jetzt verwenden wir folgendes 2.18 Lemma (Spiegelungsprinzip): Falls a > b, so gilt #E2 = #E3 Beweis: Da a > b ist, muss jeder Pfad aus E3 mindestens einmal die Diagonale schneiden (er beginnt ja schlielich bei (1, 0)!). Sei (c, d) der erste Schnittpunkt des Pfades mit der Diagonalen. Jetzt spiegeln wir den Teilpfad von (0, 0) nach (c, d) an der Diagonalen und erhalten insgesamt einen Pfad aus E2 . A 2 1 0 0 1 2 A 2 = 1 B 0 0 1 2 B
Abbildung 3: Verdeutlichung des Spiegelungsprinzips Diese Abbildung ist oenbar bijektiv. Damit folgt dann sofort #E1 = # 2#E3 = Daraus folgt P (E ) = #E # = = = = = und das zeigt die Behauptung. 1 2
a+b1 a a+b a
a+b a+b1 2 b a
12 12
b a+b a + b 2b a+b
(a + b 1)!a!b! a! (b 1)! (a + b)!
1 ab = a+b 1+
b a b a
30
2 Kombinatorik
Beispiel 2.19: Wir betrachten die Wahlergebnisse a = 100 a = 200 In beiden F allen ist und b = 50 und b = 100. (2.3) (2.4)
b 1 = a 2 und damit sagt uns obiger Satz, dass die Wahrscheinlichkeit, dass der siegende Kandidat A w ahrend der gesamten Ausz ahlung in F uhrung lag, in beiden F allen (2.3) und (2.4) bei P (E ) = liegt. 1 1+
1 2 1 2
1 3
3 Unabh angigkeit, bedingte Wahrscheinlichkeiten und mehrstuge Experimente
31
3
3.1
Unabh angigkeit, bedingte Wahrscheinlichkeiten und mehrstuge Experimente

Unabh angigkeit
Wir beginnen mit einem motivierenden Beispiel. Beispiel 3.1: Man betrachtet das Werfen zweier W urfel und die Ereignisse Augensumme ist gerade B = Mindestens eine 6 Wir fragen uns hier, ob das Eintreten von B die Wahrscheinlichkeit des Eintretens von A beeinusst. Dazu simulieren wir n = 10.000 W urfe mit zwei W urfeln und erhalten in unserer Simulation, dass das Ereignis A hA = 5069 mal, das Ereignis B hb = 3061 mal und das Ereignis A B (also A und B gleichzeitig) genau hAB = 1386 mal eintritt. Wenn B keinen Einuss auf das Eintreten von A hat, so sollte hA h AB n hB gelten. Wir k onnen diese Aussage auf relative H augkeiten umformen: hAB hA hB . n n n Der Ubergang von relativen H augkeiten zu Wahrscheinlichkeiten liefert nun die folgende 3.2 Denition: Sei (, P ) eine Wahrscheinlichkeitsraum. Zwei Ereignisse A, B heien unabh angig, falls P (A B ) = P (A) P (B ) gilt. Beispiel 3.3: Im Beispiel 3.1 oben vermutet man dann nach der Simulation, dass A und B nicht unabh angig sind, denn hA hB hAB = 0.1386 = 0.155 . n n n Um diese Aussage anhand der Denition nachzupr ufen betrachtet man = {1, 2, 3, 4, 5, 6} als LaplaceRaum und hat damit A = {(1, 1) , (1, 3) , (1, 5) , (2, 2) , ..., (6, 6)} , B = {(1, 6) , ..., (6, 6) , (6, 1) , ..., (6, 5)} . P (A) = Jetzt berechnet man noch und hat damit A B = {(2, 6) , (4, 6) , (6, 6) , (6, 2) , (6, 4)} P (A B ) = 11 1 und P (B ) = . 2 36 Also gilt #A = 18 und #B = 11. Das liefert
2
A =
#A B 5 11 1 11 = = = = P (A) P (B ) . # 36 78 2 36 Die angegebenen Ereignisse A und B sind also in der Tat abh angig. Beispiel 3.4: Betrachte wieder das Setting aus Beispiel 3.1 und das zus atzliche Ereignis C = Der erste Wurf ist eine 6 Wir wollen zeigen, dass A und C unabh angig sind. Dazu berechnen wir P (A C ) = P ({(6, 2), (6, 4), (6, 6)}) = was diese Aussage zeigt. 1 1 1 3 = = = P (A) P (C ) , 36 12 2 6
32
Beispiel 3.5: Wir betrachten eine Urne mit drei von 1 bis 3 nummerierten Kugeln, davon seien die Kugeln 1 und 2 rot und Kugel 3 wei. Wir wollen zwei Ziehungen durchf uhren und betrachten die Ereignisse A = B erster Zug rot = zweiter Zug wei
Ziehen wir mit Zur ucklegen, so ist oenbar = {(i, j ) | 1 i, j 3} und daher # = 9. Das liefert P (A) = 1 2 2 2 , P (B ) = , P (A B ) = P ({(1, 3) , (2, 3)}) = = = P (A) P (B ) . 3 3 # 9
Mit Zur ucklegen sind A und B also unabh angig. ucklegen, so ist oenbar = {(i, j ) | 1 i, j 3, i = j } und daher # = 6. Das Ziehen wir ohne Zur liefert P (A) = 2 , 3 2 1 = , # 3 2 2 = = P (A) P (B ) . # 6
P (B ) = P ({(1, 3) , (2, 3)}) = P (A B ) = P ({(1, 3) , (2, 3)}) = Ohne Zur ucklegen sind A und B also abh angig!
Bemerkung 3.6: Sei (, P ) ein Wahrscheinlichkeitsraum und seien A, B zwei Ereignisse mit A B = . Dann k onnen A und B oenbar nur dann unabh angig sein, wenn 0 = P (A B ) = P (A) P (B ) , d.h. wenn entweder P (A) = 0 oder P (B ) = 0 gilt. Jetzt wollen wir unsere Denition auf n Ereignisse A1 , ..., An des Wahrscheinlichkeitsraumes (, P ) verallgemeinern. Wir denieren dazu wie folgt: 3.7 Denition: Sei (, P ) ein Wahrscheinlichkeitsraum und seien A1 , ..., An Ereignisse. Wir nennen A1 , ..., An unabh angig, falls f ur jede Auswahl von k Indizes i i1 < ... < ik n, 1 k n beliebig, die Gleichung
k k
gilt.
j =1
Aij =
P Aij
j =1
Diese Denition mag zun achst etwas unintuitiv erscheinen, sie erm oglicht aber folgendes 3.8 Lemma: Sei (, P ) ein Wahrscheinlichkeitsraum und seien A1 , ..., An unabh angige Ereignisse. (1) F ur jede Auswahl 1 k n und 1 i1 < ... < ik n beliebig ist dann auch die entstehende angig. Teilfamilie Ai1 , ..., Aik unabh (2) Sei Bi = Ai oder Bi = Ac ur jedes 1 i n. Dann sind auch die Ereignisse B1 , ..., Bn unabh angig. i f Beweis: (1) Diese Aussage ist mit der Denition sofort klar. (2) Oenbar gen ugt es zu zeigen, dass die Ereignisse Ac angig sind. Den 1 , A2 , ..., An ebenfalls unabh allgemeinen Fall erhalten wir daraus durch iteriertes Anwenden und Umbennenen (das genaue Vorgehen daf ur kann man etwa bei [Dehling/Haupt] nachlesen.). Wir wollen die oenbar g ultige Gleichung P (Ac B ) = P (B ) P (A B ) (3.1)
33
nutzen. Seien nun 1 i1 < ... < ik n vorgegeben. Ist i1 > 1, so ist in unserem Setting nichts zu zeigen. Ist i1 = 1, so gilt P (Ac 1 ... Aik )
(3.1)
P (Ai2 ... Aik ) P (A1 Ai2 ... Aik ) P (Ai2 ) ... P (Aik ) P (A1 ) ... P (Aik )
k
Unabh angigkeit von A1 ,Ai2 ,...,Aik
(1 P (A1 ))
k
P Aij
j =2
P (Ac 1)
P Aij
j =2
Im Beweis des Lemmas haben wir schon gesehen, wieso wir in unserer Denition nicht nur die Unabh angigkeit aller Teilfamilien gefordert haben. Folgendes Beispiel zeigt, wie gravierend der Unterschied ist: Beispiel 3.9 (Paarweise Unabh angigkeit impliziert nicht Unabh angigkeit): Wir betrachten de dreifachen M unzwurf, also = {K, Z } mit der Laplace-Verteilung. Wir betrachten die Ereignisse A1 A2 A3 Scheinbar ist dann P (A1 ) = erster Wurf = zweiter Wurf = zweiter Wurf = dritter Wurf = erster Wurf = dritter Wurf 4 1 # {KKK, KKZ, ZZZ, ZZK } = = # 8 2 =
3
1 . Jetzt berechnen wir die Wahrscheinlichkeiten der Schnitte: und ganz analog P (A2 ) = P (A3 ) = 2
P (A1 A2 ) = Wegen
1 2
# {KKK, ZZZ } 1 = = P (A1 A3 ) = P (A2 A3 ) . # 4
1 2
1 4
sind also A1 , A2 und A3 paarweise unabh angig. Da aber 1 1 1 1 = 4 2 2 2
P (A1 A2 A3 ) = P ({KKK, ZZZ }) = P (A1 A2 ) = P (A1 A3 ) = P (A2 A3 ) = angig. sind die Ereignisse A1 , A2 und A3 insgesamt nicht unabh
Das ergibt anschaulich auch Sinn, schlielich erzwingt das Eintreten von A1 und A2 bereits das Eintreten von A3 und umgekehrt.
3.2
Bedingte Wahrscheinlichkeiten
Bei n Versuchen trete das Ereignis A B mit H augkeit hAB und das Ereignis B mit H augkeit hB = 0 auf. Anschaulich ist dann die relative H augkeit des Auftretens von A, gegeben B tritt auf gegeben als hAB = hB
hAB n hB n
in relativen H augkeiten. Der Ubergang von relativen H augkeiten zu Wahrscheinlichkeiten liefert uns jetzt folgende 3.10 Denition: Sei (, P ) ein Wahrscheinlichkeitsraum und seien A, B Ereignisse. Ist P (B ) > 0, so ist P (A | B ) := P (A B ) P (B )
die bedingte Wahrscheinlichkeit des Auftretens von A gegeben B .
34
Beispiel 3.11: Wir W urfeln einfach mit einem fairen W urfel. Dazu verwenden wir = {1, 2, 3, 4, 5, 6} mit der LaplaceVerteilung. Sei A = {4, 5, 6} und B = {2, 4, 6}. Dann ist P (A) = P (B ) = und P (A B ) = P ({4, 6}) = Das liefert P (A | B ) =
2 3
1 2 1 . 3
mit der Denition.
Anschaulich ergibt diese Aussage auch Sinn: Wenn man schon wei, dass eine gerade Zahl gew urfelt wurde, so ist die Wahrscheinlichkeit, dass der Wurf 4 ist, genau 2 . 3 Beispiel 3.12: Wir betrachten eine Familie mit zwei Kindern. Als Grundraum verwenden wir = {JJ, JM, M J, M M } mit der Laplace-Verteilung. Wir wollen nun die Wahrscheinlichkeit daf ur ausrechnen, dass die Familie zwei Jungen hat, wenn schon gegeben ist, dass sie mindestens einen Jungen hat. Seien also A := {JJ } B Dann ist A B = {JJ } und daher gilt P ( 2 Jungen | mindestens 1 Junge) = P (A | B ) = 3.13 Satz (Multiplikationsformel): Sei (, P ) ein Wahrscheinlichkeitsraum. (1) Sind zwei Ereignisse A, B gegeben, so gilt P (A B ) = P (A | B ) P (B ) . (2) Sind n Ereignisse A1 , ..., An gegeben, so gilt P (A1 ... An ) = P (A1 ) P (A2 | A1 ) P (A3 | A1 A2 ) ... P Beweis: (1) Es gilt per Denition P (A | B ) P (B ) = (2) Einsetzen der Denition liefert P (A1 ) P (A2 | A1 ) P (A3 | A1 A2 ) ... P
n
:= {JJ, JM, M J } . 1 P (A B ) = . P (B ) 3
An
n1 i=1
Ai
P (A B ) P (B ) = P (A B ) . P (B )
An
n1 i=1
Ai
= P (A1 )
k=2
P Ak
k
k 1 j =1
Aj
P
j =1
Aj
k 1 j =1
= P (A1 )
k=2
Aj
n
= P (A1 )
k=2
j =1
Aj
1 P
k 1 j =1
k=2
Aj
35
= P (A1 )
k=2
P
n
j =1
Aj
n1 k=1
1
k
P
j =1
Aj
= P (A1 ) P = P
n j =1
j =1
Das zeigt die Behauptung. Beispiel 3.14:
Aj .
Aj
1 P (A1 )
Wir wollen die Wahrscheinlichkeit berechnen, dass bei Skat jeder der drei Spieler genau ein Ass erh alt. Sei dazu Ai := der i-te Spieler hat genau ein Ass f ur i = 1, 2, 3 Mit der hypergeometrischen Verteilung sieht man schnell P (A1 ) =
4 1 28 9 32 10
, P (A2 | A1 ) =
3 1
19 9 22 10
, P (A3 | A1 A2 ) =
2 1
10 9 12 10
Mittels der Multiplikationsformel erhalten wir so die gesuchte Wahrscheinlichkeit: P (A1 A2 A3 ) = P (A1 ) P (A2 | A1 ) P (A3 | A1 A2 ) = 385 3 10 50 = . 899 7 33 899
3.15 Satz: Sei (, P ) ein Wahrscheinlichkeitsraum und P (B ) > 0. Dann denieren wir durch PB (A) := P (A | B ) , A eine Wahrscheinlichkeitsverteilung auf . Beweis: Wir m ussen die Axiome (A1) bis (A3) nachpr ufen: (A1) Sei A beliebig. Da P eine Wahrscheinlichkeitsverteilung auf ist, gilt PB (A) = P (A | B ) = (A2) Oenbar ist PB () = P ( | B ) = P ( B ) P (B ) = = 1. P (B ) P (B ) P (A B ) 0. P (B )
(A3) Seien Ai paarweise disjunkt, i N. Dann gilt PB

i=1
Ai
P P
i=1
Ai | B Ai B
i=1
= P =
(A3) f ur P
P (B )
i=1
(Ai B )
i=1
P (B )
i=1
P (Ai B ) = P (B )
PB (Ai ) .
36
Das zeigt die Behauptung. Bemerkung 3.16: Damit gelten die Rechenregeln (R1) bis (R9) auch f ur PB , d.h. zum Beispiel P (Ac | B ) = PB (Ac ) = 1 PB (A) = 1 P (A | B ) f ur zwei Ereignisse A, B , P (B ) > 0 usw.. Bemerkung 3.17: Die Wahrscheinlichkeitsfunktion pB zu PB ist oenbar gegeben als pB ( ) = PB ({ }) = Beispiel 3.18: Wir w urfeln zweifach mit einem fairen W urfel. Dazu nutzen wir wieder = {1, 2, 3, 4, 5, 6} als Grundraum mit der Laplace-Verteilung. Betrachte das Ereignis B = Augensumme ist 10 Dann ist P (B ) = durch den Vektor
6 36 2
P ({ } B ) = P (B )
P ({ }) P (B )
falls B , falls /B
A.
1 36
und die Wahrscheinlichkeitsfunktion pB auf der Menge der Augensummen ist 3 2 1 0, 0, 0, 0, 0, 0, 0, 0, , , 6 6 6
(pB (2) , pB (3) , ..., pB (12)) = gegeben. 3.19 Satz: Sei (, P ) ein Wahrscheinlichkeitsraum. (1)
(Formel von der totalen Wahrscheinlichkeit) Sei Bi , i I eine abz ahlbar unendliche oder endliche disjunkte Zerlegung von . Dann gilt f ur alle A die Formel P (A) =
iI
P (Bi ) P (A | Bi )
(3.2)
(2)
(Formel von Bayes) Seien die Voraussetzungen wie in (1). Ist P (A) > 0, so gilt f ur jedes k I : P (Bk | A) = P (A | Bk ) P (Bk ) P (A | Bi ) P (Bi ) (3.3)
iI
Beweis: (1) Mit der Mulitplikationsformel gilt

Bi =
P (A)
iI
Bi
iI
=
Bi Bj = f ur i=j
P
iI
(A Bi )
iI Multiplikationsformel
P (A Bi ) P (A | Bi ) P (Bi )
iI
was die Aussage zeigt.
37
(2) Hier folgt unter Benutzung von (1): P (Bk | A) = =

Multiplikationsformel
P (Bk A) P (A) P (A Bk ) P (A) P (A | Bk ) P (Bk ) P (A) P (A | Bk ) P (Bk ) . P (A | Bi ) P (Bi )
(3.2)
iI
Das zeigt ebenfalls die Behauptung. Beispiel 3.20: Eine Krankheit tritt bei 0.5% der Bev olkerung auf. Ein Test ist bei 99% der Kranken positiv, aber auch bei 2% der Gesunden. Gesucht ist die Wahrscheinlichkeit bei positivem Testergebnis die Krankheit zu haben. Betrachte nun folgendes Modell: Sei die Bev olkerung und P die Laplace-Verteilung. Sei weiterhin B1 die Menge der gesunden Menschen, B2 die der kranken Menschen und A die Menge der Menschen mit positivem Testergebnis . Dann ist = B1 B2 mit B1 B2 = . P (B1 ) = 0.995 P (B2 ) = 0.005 P (A|B1 ) = 0.02 P (A|B2 ) = 0.99 Mit der Formel von Bayes berechnet man P (B2 |A) =
2
P (A|B2 ) P (B2 ) P (A|Bi ) P (Bi )
i=1
= =
0.99 0.005 0.02 0.995 + 0.99 0.005 0.2
P (A|B2 ) P (B2 ) P (A|B 1) P (B1 ) + P (A|B2 ) P (B2 )
Das bedeutet, im Fall eines postitiven Test ist man nur mit einer Wahrscheinlichkeit von 20% wirklich erkrankt. Beispiel 3.21 (Simpson-Paradoxon): Im Folgenden werden wir ein Beispiel aus dem Bereich How to lie with statistics geben, d.h. es wird eine Aussage mit Daten belegt (wir werden hier vereinfachte Werte verwenden) die oensichtlich zu stimmen scheint. Bei genauerer Betrachtung und unter Ber ucksichtigung aller Werte im Detail ergibt sich jedoch genau die gegenteilige Aussage: University of Berkeley: In einem Jahr haben sich 1200 M anner und 900 Frauen um einen Studienplatz beworben. Zugelassen wurden 55% der M anner und nur 48, 9% der Frauen. Oensichtlich wurden die M anner bevorzugt, oder nicht? Eine genauere Betrachtung der Daten zeigt, dass es Bewerbungen in zwei F achern A und B gab. M anner beworben zugelassen 900 540=60% 300 120=40% 1200 660=55% Frauen beworben zugelassen 100 80=80% 800 360=45% 900 440=48,8%
Fach A Fach B Summe
Die Frauen wurden also in jedem Fach bevorzugt! Dies k onnen wir auch mit bedingten Wahrscheinlichkeiten nachrechnen: Seien Zm =zugelassene M anner, Am =Bewerber Fach A und Bm =Bewerber Fach B. Dann gilt
38
nach dem Satz der totalen Wahrscheinlichkeit: P (Zm ) = P (Zm |Am ) P (Am ) + P (Zm |Bm ) P (Bm ) = = 0.6 0.75 + 0.4 0.25 0.55
Seien nun entsprechend Zf =zugelassene Frauen, Af =Bewerberinnen Fach A und Bf =Bewerberinnen Fach B. P (Zf ) = P (Zf |Af ) P (Af ) + P (Zf |Bf ) P (Bf ) = = 1 8 + 0.45 9 9 0.488 0.8
Das Ergebnis kommt zustande, da sich anteilig viel mehr M anner als Frauen in Fach A beworben haben, wobei dort die Zulassung einfacher zu erringen war. Andererseits haben sich wesentlich mehr Frauen f ur Fach B entschieden, wo die Zulassung nur schwer zu erringen ist.
3.3
Mehrstuge Experimente
Wir betrachten aufeinanderfolgende Experimente, bei denen die Ergebnisse der ausgef uhrten Experimente die Wahrscheinlichkeiten f ur den Ausgang des n achsten Experiments bestimmen. Sei p1 der Wahrscheinlichkeitsvektor f ur die Ausg ange des ersten Experiments. Beim Ausgang a1 1 ist jeweils p2 ( |a1 ) ein Wahrscheinlichkeitsvektor f ur die Ausg ange des zweiten Experiments. Beispiel 3.22 (zweistuges Zufallsexperiment): In einer Urne benden sich 3 Kugeln, davon sind zwei rot und eine ist wei. Wir ziehen zwei Mal ohne Zur ucklegen. In der ersten Ziehung erh alt man mit einer Wahrscheinlichkeit von 2 3 eine rote Kugel und mit einer 1 Wahrscheinlichkeit von 3 eine weie Kugel, d.h. p1 (R) = 2 , 3 p1 (W ) = 1 . 3
In der zweiten Ziehung kann, wenn zuerst rot gezogen wurde, entweder rot oder wei jeweils mit der Wahrscheinlichkeit 1 2 gezogen werden oder wenn zu Beginn die weie Kugel gezogen wurde, mit Sicherheit nun eine rote Kugel gezogen werden. Das heit p2 (R, R) = bzw. p2 (R, W ) = 1, Der Grundraum des 2-stugen Modells ist = 1 2 = {(a1 , a2 ) | ai i } mit der Wahrscheinlichkeitsfunktion p(a1 , a2 ) := p(a1 ) p2 (a2 |a1 ). Das heit p(a1 , a2 ) ist das Produkt der Wahrscheinlichkeiten im Baumdiagramm entlang des Pfades: START a1 a2 . Im Bsp.: p(R|W ) = p1 (R) p2 (W |R) = 2 1 1 = . 3 2 3 p2 (W, W ) = 0. 1 , 2 p2 (R, W ) = 1 2
Bemerkung 3.23: F ur Teilmengen A , welche einer Menge von Pfaden entspricht, ist P (A) =
(a1 ,a2 )A
p1 (a1 ) p2 (a2 |a1 )
die Summe aller Pfadwahrscheinlichkeiten.
39
Beispiel 3.24: Es stehe Xi f ur das Ergebnis des i-ten Teilexperiments, i = 1, 2, dann gilt: 2 1 1 2 P (X2 = R) = P ( zweite Kugel ist rot) = P (R, R) + P (W, R) = + 1 = 3 2 3 3 3.25 Denition (n-stuges Experiment): Seien 1 , 2 , ..., n diskrete Grundr aume. Sei p1 eine Wahrscheinlichkeitsfunktion auf 1 (Startwahrscheinlichkeit). F ur jedes a1 1 sei eine Wahrscheinlichkeitsfunktion p2 (a2 |a1 ) auf den Ausgang des zweiten Teilexperiments gegeben. Allgemein: F ur jede Folge von Ausg angen a1 , a2 , ..., aj 1 mit ai i , 1 i j 1 der ersten j-1 Teilexperimente ist eine Wahrscheinlichkeitsfunktion pj (aj |a1 , ...aj 1 ) auf den Ausg angen aj j gegeben. F ur einen Pfad (a1 , ..., an ) 1 ... n setzt man p(a1 , ..., an ) = p1 (a1 ) p2 (a2 |a1 ) . . . pn (an |a1 , ..., an1 ). Dann ist p eine Wahrscheinlichkeitsfunktion auf = 1 ... n und deniert eine Wahrscheinlichkeitsverteilung P u ber P (A) := p(a1 , ..., an ), A .
(a1 ,...,an )A
P ist dann die Verteilung des mehrstugen Experiments. Beispiel 3.26 (Polyasches Urnenmodell): In diesem Modell, das urspr unglich dazu gedacht war, die Ausbreitung von Krankheiten zu simulieren, enth alt eine Urne r rote und s schwarze Kugeln. Eine Kugel wird gezogen, dann wird zur uckgelegt mit c Z zus atzlichen Kugeln der gleichen Farbe. Das heit f ur c = 1 entspricht dies dem Ziehen ohne Zur ucklegen und f ur c = 0 dem Ziehen mit Zur ucklegen. Ein graphisches Beispiel: }}}
2 } 3
1 3
} Q Q s Q } }}}
+
} }}}
3 } 4 } } }}}
A 1 A4 } A A A U }} }}}
1 } 2 }} }}}
1 A2 } A A A U }} }}}
Abbildung 4: Polyasches Urnenmodell mit c = 1, r = 2, s = 1. 2 3 1 1 2 + = = P (X1 = R) 3 4 3 2 3 Wir wollen nun zeigen, dass unabh angig vom gew ahlten c immer gilt: Die Wahrscheinlichkeit f ur 2.Kugel ist rot ist immer gleich der Wahrscheinlichkeit f ur 1.Kugel ist rot: Beweis: Es sind s r , p1 (S ) = p1 (R) = r+s r+s r+c s p2 (R|R) = , p2 (S |R) = r+s+c r+s+c P (X2 = R) = Dann ist
40
Damit ist P (X2 = R) = P (R, R) + P (S, R) = = = r r+c s r + r+s r+s+c r+s r+s+c r r+s r r+s s r+c + r+s+c r+s+c
= P (X1 = R). Man berechnet p(R, S, R, R) = p1 (R) p2 (S |R) p3 (R|RS ) p4 (R|RSR) =
s r+c r + 2c r r + s r + s + c r + s + 2c r + s + 3c
Bemerkung 3.27: Man beobachtet also: Ist (a1 , ..., an ) eine Ergebnis-Folge mit k roten Ziehungen (# {i | ai = R} = k ) so ist p(a1 , ..., an ) =
n1 i=0
1 r + s + ic
k 1 i=0
(k + ic)
nk1 i=0
(s + ic) .
Das heit die Wahrscheinlichkeit von (a1 , ..., an ) h angt nur von der Anzahl gezogener Kugeln ab, nicht von der Reihenfolge. Daher gilt p(a (1) , ..., a (n) ) = p(a1 , ..., an ) f ur jede Permutation von {1, ..., n}. Solche Verteilungen nennt man auch austauschbar. Aufgabe 3.28: Zeige damit P (Xj = R) = 3.3.1 r f ur alle j = 1, 2, ... r+s
Bemerkung zu bedingten Wahrscheinlichkeiten in mehrstugen Modellen
(1) Ist 1 ... n ein mehrstuges Modell mit Ubergangswahrscheinlichkeiten pj (aj | a1 , ..., aj 1 ) , so setzen wir (b1 , ..., bk ) := {(a1 , ..., an ) | ai = bi f ur 1 i k } als die Menge aller Pfade, die mit b1 , ..., bk beginnen fest. Dann gilt: P (b1 , ..., bk ) = p1 (b1 ) p2 (b2 | b1 ) ... pk (bk | b1 , ..., bk ) Beweis: Wir zeigen nur den Fall n = 2, k = 1, die anderen F alle u berlegt man sich analog (wobei der Beweis dann sehr Index-lastig wird). Es gilt P (b1 ) = P ({b1 } ) =
a2 2
1jn
p (b1 , a2 ) p1 (b1 ) p2 (a2 | b1 ) p2 (a2 | b1 )

=1
=
a2 2
= p 1 ( b1 )
a2 2
da p2 eine Wahrscheinlichkeitsfunktion ist. Das zeigt schon die Behauptung.
41
(2) Ganz analog gilt P (bk+1 , ..., bn | b1 , ..., bk ) = pk+1 (bk+1 | b1 , ..., bk ) pk+2 (bk+2 | b1 , ..., bk+1 ) ... pn (bn | b1 , ..., bn1 ) Beweis: Wir zeigen wieder nur den Fall n = 2, k = 1. Dort gilt P ( b2 | b1 ) =
Teil (1)
p (b1 , b2 ) p ( b1 ) p1 (b1 ) p2 (b2 | b1 ) p1 (b1 ) p2 (b2 | b1 ) .
= Das zeigt die Behauptung. Beispiel 3.29 (Ziehen aus zuf alliger Urne):
Wir betrachten vier Urnen U1 , U2 , U3 , U4 . Jede der Urnen enthalte drei Kugeln, wobei Ui genau i 1 rote und 3 (i 1) schwarze Kugeln enthalte. Unser mehrstuges Experiment sieht jetzt wie folgt aus: Schritt 1 W ahle rein zuf allig eine Urne. Schritt 2 Ziehe eine Kugel und notiere die Farbe. Dieses Experiment gestaltet sich etwa so:
P
J PPP 1 PP 4 J 1 1
P PP 4
J4 PP PP J
q ) J
J ^
A } } } A } } } A A A } } } A } } } U1 - Urne 1 U4 - Urne 4 A A A A U2 - Urne 2 U3 - Urne 3 A A A A 1 0 A1 A0 A A 2 2 1 1 A A 3 3 A3 A3 A A A A U A A U A A } } } } U A U A } }} }
1 4
START

Abbildung 5: Ziehen aus zuf alliger Urne Es ist also 1 = {1, 2, 3, 4}, wobei die Zahl i 1 dann einfach der Nummer der Urne im ersten Schritt entspricht. Wir sehen sofort, dass 1 p1 (1) = ... = p1 (4) = . 4 Weiter verwenden wir 2 = {R, S } was der Farbe der im zweiten Schritt gezogenen Kugel entsprechen soll. Da die Urne U1 keine roten Kugeln enth alt, ist also p2 (R | 1) = 0 und p2 (S | 1) = 1. Ganz analog enth alt die Urne U2 eine rote und zwei schwarze Kugeln, es ist also p2 (R | 2) = 2 1 und p2 (S | 2) = . 3 3
Ganz analog berechnet man die anderen Werte f ur p2 . Wir wollen nun folgende Frage beantworten: Was kann man u ahlte Urne aussagen, gegeben es wurde im zweiten Schritt ber die im ersten Schritt gew eine rote Kugel gezogen?
42
Zur Beantwortung setzen wir Bi A Urne i im ersten Schritt gew ahlt , i = 1, 2, 3, 4, := rote Kugel im zweiten Schritt gezogen . :=
Wie oben sieht man sofort, dass P (A | B1 ) = 0, P (A | B2 ) = 1 2 , P (A | B2 ) = , P (A | B3 ) = 1. 3 3
Mit der Formel von der totalen Wahrscheinlichkeit (3.2) folgt

4 4
P (A) =
i=1
P (A | Bi ) P (Bi ) =
i=1
p2 (R | i) p1 (i) =
1 . 2
Mit der Formel von Bayes (3.3) ergibt sich nun f ur die gesuchte Wahrscheinlichkeit P (Bk | A)
(3.3)
P (Bk | A)
4
P (A | Bk ) P (Bk ) P (A | Bi ) P (Bi )
=P (A)
i=1
2P (A | Bk ) P (Bk )
=1 4
= Als Vektor gilt also
1 P (A | Bk ) , 2
k = 1, 2, 3, 4.
(P (Bk | A))k=1,2,3,4 = Das ist die sogenannte
1 2 3 0, , , 6 6 6
1 1 1 a-posteriori-Verteilung auf den Urnennummern 1,2,3,4 zur a-priori-Verteilung 1 4, 4, 4, 4.
Der MAP-Sch atzer (MAP steht f ur maximum a-posteriori) der Urnennummer k w ahlt das k mit maxi malem P (Bk | A) aus - hier also k = 4. Das beantwortet die obige Frage. Beispiel 3.30: Wir betrachten eine leicht ge anderte Variante von Beispiel 3.29: Die Urne im ersten Schritt wird nicht ein zuf allig gew ahlt, sondern per M unzwurf bestimmt. Wir werfen dazu drei faire M unzen und w ahle die Urne, die so viele rote Kugeln enth alt, wie oft Kopf geworfen wurde. Wegen 3 1 P ({ZZZ }) = , P ({KZZ, ZKZ, ZZK }) = 8 8
1 3 3 1 usw. erhalten wir also die a-priori-Verteilung 8 , 8 , 8 , 8 . Wir denieren A und Bi , i = 1, 2, 3, 4 wie im Beispiel 3.29 oben und stellen uns die selbe Frage. Oenbar ist hier
P (A) = 0 und wie oben gilt (P (Bk | A))k=1,2,3,4 =
1 1 3 2 3 1 1 + + +1 = 8 3 8 3 8 8 2
P (A | Bk ) P (Bk )
1 2 k=1,2,3,4
1 1 1 0, , , 4 2 4
Hier w urde der MAP-Sch atzer also die Urne mit der Nummer k = 3 ausw ahlen.
43
3.4
Produkt-Experimente und spezielle Verteilungen
F ur i = 1, ..., n seien (i , Pi ) diskrete Wahrscheinlichkeitsr aume. Die stochastisch unabh angige Ausf uhrung mehrerer Experimente aus (i , Pi ), i = 1, ..., n, wird modelliert durch
n
:= 1 ... n =
i , P :=
i=1
P ,
i i=1
(3.4)
wobei die Produktverteilung P durch die Wahrscheinlichkeitsfunktion

n
p (a1 , ..., an ) =
i=1
Pi ({ai }) , (a1 , ..., an ) = {(b1 , ..., bn ) | bi i , i = 1, ..., n}
(3.5)
gegeben ist. 3.31 Denition: aume (i , Pi ) , i = Der Raum (, P ) wie in (3.4) deniert heit Produkt der Wahrscheinlichkeitsr 1, ..., n. Bemerkung 3.32: (, P ) ist selbst wieder ein Wahrscheinlichkeitsraum. Beweis: Es gen ugt zu zeigen, dass p wie in (3.5) eine Wahrscheinlichkeitsfunktion ist, denn oenbar ist als endliches Produkt abz ahlbarer Mengen selbst wieder abz ahlbar. Das p positiv und -additiv ist, also die Axiome (A1) und (A3) erf ullt, ist klar, denn jedes der Pi erf ullt diese Axiome. Auerdem gilt
n
P () =
(a1 ,...,an )
p (a1 , ..., an ) =
(a1 ,...,an )
P1 ({a1 }) ... Pn ({an }) =
k=1
ak k
Pk ({ak })
= 1
=1
(A3) f ur Pk
und das zeigt die Behauptung. Beispiel 3.33: Wir wollen das Produkt der Experimente W urfeln und M unzwurf bilden. Sei dazu 1 := {K, Z } ebenso mit der Laplace-Verteilung versehen wie 2 := {1, 2, 3, 4, 5, 6}. Dann ist = 1 2 = {(a1 , a2 ) | a1 {K, Z } , a2 {1, 2, 3, 4, 5, 6}} und es gilt p (a1 , a2 ) = P1 ({a1 }) P2 ({a2 }) =
=1 2
1 =6
1 12
f ur alle Tupel (a1 , a2 ) . Dieses Ergebnis ist nat urlich ziemlich eint onig, w urde man etwa eine gef alschte M unze verwenden, so w are das Ergebnis interessanter. Bemerkung 3.34: Man kann den Produktraum (, P ) auch als mehrstuges Modell mit den Ubergangswahrscheinlichkeiten pi (ai | a1 , ..., ai1 ) = Pi ({ai }) , 1 i n, ak k auassen. Man beachte, dass diese Ubergangswahrscheinlichkeiten nicht von den vorangehenden Stufen abh angen. 3.35 Denition: F ur Ereignisse Ai i , 1 i n denieren wir das Produktereignis in (, P ) als A := A1 A2 ... An = {(a1 , ..., an ) | ai Ai , 1 i n}
44
Bemerkung 3.36: Dann gilt P (A) =
Pk (Ak )
k=1
Beweis: Es ist P (A) =

Denition
P (A1 ... An ) p (a1 , ..., an )

(a1 ,...,an )A n
=
(a1 ,...,an )A k=1 n
Pk ({ak })
=
k=1 n ak Ak
Pk ({ak })
=
k=1
Pk (Ak ) ,
was die Behauptung zeigt. 3.37 Satz: Seien Ai i Ereignisse. Setze A ur 1 k n. F ur das Produktexpek := {(a1 , ..., an ) | ak Ak } f riment (, P ) wie in (3.4) gelten: (1) P (A ur jedes 1 k n. k ) = Pk (Ak ) f Beweis: (1) Es ist P (A i) =
Bemerkung 3.36 angig. (2) Die Ereignisse A 1 , ..., An sind in jedem Fall unabh
P (1 ... i1 Ai i+1 ... n ) P1 (1 ) ... Pi1 (i1 ) Pi (Ai ) Pi+1 (i+1 ) ... Pn (n ) Pi (Ai ) ,
= was die Behauptung zeigt. (2) F ur jede Teilfamilie gilt
A i1 , ..., Aik mit 1 ii < ... < ik n
j =1
A ij
=
Bemerkung 3.36
P (1 ... i1 1 Ai1 i1 +1 ...) Pi1 (Ai1 ) ... Pik (Aik ) P1 (1 ) ...

=1 P A i1 ... P Aik .
(1)
Das zeigt auch hier die Behauptung. Bemerkung 3.38: Mit Hilfe dieses Satzes k onnen wir sehr leicht einen Wahrscheinlichkeitsraum (, P ) konstruieren, der n unabh angige Ereignisse enth alt, die vorgegebene Wahrscheinlichkeiten p1 , ..., pn haben: Setze 1 = ... = n = {0, 1}, A1 = ... = An = {1} und denieren f ur jedes i = 1, ..., n Pi ({0}) := 1 pi , Pi ({1}) := pi
P i (Ai )
Nach dem Satz sind dann ten.
A 1 , ..., An
unabh angige Experimente mit den vorgegebenen Wahrscheinlichkei-
45
3.4.1
Mit Produktexperimenten zusammenh angende Verteilungen
(1) Binomialverteilung ( Z ahlen von Erfolgen) Ein Bernoulli-Experiment ist ein Experiment mit = {0, 1} und Erfolgswahrscheinlichkeit p (1) = p [0, 1], p (0) = 1 p. Setze p1 := p und p0 := 1 p. Das Produkt von n Bernoulli-Experimenten mit gleicher Erfolgswahrscheinlichkeit ist dann ur (a1 , ..., an ) = {0, 1} , p (a1 , ..., an ) = pa1 ... pan f Sei jetzt Ak := (a1 , ..., an )
n n
aj = k
j =1 n k
das Ereignis k Erfolge f ur 0 k n. Dann ist #Ak =
, f ur jedes (a1 , ..., an ) Ak gilt

nk
P ({(a1 , ..., an )}) = pk (1 p) und daher folgt P (Ak ) =
n k nk p (1 p) , 0 k n. k
Wir erhalten also genau die Binomialverteilung. (2) Multinomialverteilung ( Z ahlen von Ausg angen) Man f uhrt n identische, stochastisch unabh angige Experimente durch. Jedes Experiment hat r Ausg ange 1, ..., r, die mit Wahrscheinlichkeiten p1 , ..., pr auftreten. Modell: Seien i = {1, ..., r} und die Wahrscheinlichkeitsverteilungen Pi durch den Wahrscheinlichkeitsvektor (p1 , ..., pr ) gegeben (1 i n). Im Produktexperiment ist = 1 ... n = {1, ..., r}n und somit p(a1 , .., an ) = pa1 ... pan . Sei Ak1 ,...,kr das Ereignis in n Versuchen k1 mal den Ausgang 1, ..., kr mal den Ausgang r zu n ki = n und 0 ki f ur i i n gelten). Dann ist erhalten (dabei muss nat urlich
i=1
und
P =
P
i=1
P (Ak1 ,...,kr ) = die auf (k1 , ..., kr )
n k1 , ..., kr
n
kr 1 pk 1 ... pr
i=1
ki = n, 0 ki
gegebene Multinomialverteilung mit Parametern n und p1 , .., pr . Dabei muss nat urlich
r
pi = 1
i=1
gelten. Beispiel 3.39: Auf einem Gl ucksrad sind 3 Bereiche markiert. Beim zuf alligen Drehen stoppt das Rad mit Wahr3 im Bereich 1, mit p = im Bereich 2 und mit p3 = 1 scheinlichkeit p1 = 1 2 2 8 8 im Bereich 3. Dann ist P (5 mal 1, 3 mal 2, 2 mal 3) = P (A5,3,2 ) = 10 5, 3, 2 1 2
5
3 8
1 8
46
(3) Geometrische Verteilung ( Warten auf den ersten Erfolg) Gegeben sei ein n-faches Bernoulli-Experiment = {0, 1}n mit Erfolgswahrscheinlichkeit p [0, 1]. Sei f ur 1 k n Ak das Ereignis erster Erfolg im k -ten Versuch (1 k n). Dann ist P (Ak ) = (1 p)k1 p Beweis: Im Produktexperiment ist nat urlich Pi = P f ur jedes 1 i n, wobei P ({0}) = 1 p, P ({1}) = p. Oenbar entspricht f ur 1 k n das Ereignis Ak genau der Menge {0} ... {0} {1} ,
(k1)-mal
da ja vor dem Erfolg im k -ten Versuch nur Misserfolge auftreten d urfen. Gem a Bemerkung 3.36 gilt dann P (Ak ) = P ({0} ... {0} {1}) = was die Behauptung zeigt. Intuitiv richtig erscheint die Aussage auch f ur n pk := Pk (Ak ) = (1 p) / , also
k 1 k 1 i=1
Pi ({0}) Pk ({1}) = (1 p)
k 1
p,
p, k = 1, 2, ....
F ur den formalen Beweis ben otigt man Matheorie. Diese Gleichung deniert die geometrische Verteilung auf N mit P (1) = p, P (2) = (1 p) p, .... Dies ist tats achlich eine Wahrscheinlichkeitsverteilung auf N, da es sich um eine Wahrscheinlichkeitsfunktion handelt:
k=1
pk
p p p p p 1.
k=1
(1 p)k1 (1 p)k
=
geometrische Reihe
k=0
1 1 (1 p)
= =
(4) Negative Binomialverteilung ( k Misserfolge vor dem r-ten Erfolg) Wir betrachten ein n-faches Bernoulli-Experiment, n N, mit Erfolgswahrscheinlichkeit p [0, 1]. Seien r, k N mit k + r n. Setze A := genau k Misserfolge vor dem r-ten Erfolg. 3.40 Lemma: Es gilt P (A) = k+r1 r k p (1 p) k
Beweis: k +r Sei = {0, 1} der Produktraum mit der Verteilung, welche durch pi (1) = p, pi (0) = 1 p, 1 i k + r gegeben ist. Nat urlich soll dabei 1 f ur Erfolg und 0 f ur Misserfolg stehen. Nach der Binomialverteilung ist die Wahrscheinlichkeit, genau r 1 Erfolge und k Misserfolge vor dem r-ten Erfolg zu erhalten genau k + r 1 r 1 k+r 1(r 1) p (1 p) r1
47
und daher folgt P (A) = k + r 1 r 1 k p (1 p) r1 p

r ter Erfolg
= = was die Behauptung zeigt.
k+r1 r p (1 p)k , k
k+r1 k pr (1 p) k + r 1 (r 1)
Diese Verteilung nennt man auch die negative Binomialverteilung.
48
4 Zufallsvariablen, Verteilungen
4
4.1
Zufallsvariablen, Verteilungen
Zufallsvariablen
Das Ziel der Einf uhrung von Zufallsvariablen ist eine unkomplizierte Beschreibung von Ereignissen. Sie bilden ein wichtiges Handwerkszeug zur Formulierung und L osung von stochastischen Problemen. 4.1 Denition: Sei (, P ) ein diskreter Wahrscheinlichkeitsraum und = eine beliebige Menge. Eine Abbildung X: / urzt auch ZV) mit Werten in . heit Zufallsvariable (abgek Falls Rd so heit X ein d-dimensionaler Zufallsvektor, falls d = 1 ist, so nennen wir X reellwertige Zufallsvariable. Beispiel 4.2: Beim zweimaligen W urfeln ist = {1, ..., 6}2 und = (a1 , a2 ) mit 1 ai 6. Wir betrachten die Summe der Augenzahlen X ( ) := a1 + a2 , das Maximum der W urfelergebnisse oder das Produkt der Augenzahlen X ( ) := max {a1 , a2 } , X ( ) := a1 a2 .
Dann ist etwa X ( ) = a1 + a2 ist reellwertige Zufallsvariable mit Werten in = {2, ..., 12}. Bemerkung 4.3: X muss nicht injektiv und auch nicht surjektiv sein. X transportiert Wahrscheinlichkeitsmasse, z.B. wenn X ( ) = a1 + a2 ist P (X = 4) = P ({(a1 , a2 ) | a1 + a2 = 4}) = P ({(1, 3), (2, 2), (3, 1)}) = P ({(1, 3)}) + P ({(2, 2)}) + P ({(3, 1)}) = 1 1 1 1 + + = 36 36 36 12
Das heit, man bestimmt die Verteilung von X auf u ber Mengen wie X 1 ({4}). 1 X ist eine Abbildung von Mengen, d.h X : P ( ) P () A X 1 (A ) = { | X ( ) A }.
Die allgemeinen Regeln f ur Urbilder gelten nat urlich auch f ur Zufallsvariablen, wir wollen sie ohne Beweis in folgendem Lemma festhalten: 4.4 Lemma (Eigenschaften): Es gilt: (U1) X 1 (X ()) = und X 1 () = (U2) X 1
iI
A i A i
=
iI
X 1 (A i) X 1 (A i)
(U3) X 1
iI
=
iI
(U4) X 1 ( \ A ) = \ X 1 (A ) 4.5 Denition: Sei ohne Einschr ankung = X (). F ur einen diskreten Wahrscheinlichkeitsraum (, P ) wird durch P X : P ( ) / R, A P X (A ) := P (X 1 (A ))
eine Wahrscheinlichkeitsverteilung P X auf der diskreten Menge deniert. P X heit Verteilung von X auf (unter P ).
49
Beweis: Wir m ussen die Axiome (A1), (A2) und (A3) eines Wahrscheinlichkeitsraumes nachweisen: (A1) P X (A ) 0 gilt. (A2) P X ( )
Denition
P X 1 ( ) = P () = 1
(A3) Seien A 1 , A2 , ... disjunkte Teilmengen von . Dann gilt i=1 i=1
PX
A i
Denition
X 1
A i A i
=
(U3)
X 1
i=1
i=1
P
i=1
(A i)
-Additivit at
P (X 1 (A i )) P X (A i ).
Denition
i=1
Das zeigt, dass P X in der Tat ein Wahrscheinlichkeitsma auf ist. Bemerkung 4.6: Mittels Transport von P durch X entsteht also ein neuer Wahrscheinlichkeitsraum ( , P X ). Notation 1: Sei (, P ) diskreter Wahrscheinlichkeitsraum, X : eine Zufallsvariable. Man schreibt/meint (X = x) := { | X ( ) = x} , x und (X A) := {X A} = { | X ( ) A} , A .
Damit schreibt man P X (A) = P (X A) sowie P X ({x}) = P (X = x). Falls X reellwertig ist (d.h. R) so benutzt man auch (X x) = {X x} = { | X ( ) x}. Beispiel 4.7: Sei = {1, ..., 6}2 , P (a1 , a2 ) =
1 36
(a1 , a2 ) .
X (a1 , a2 ) = a1 + a2 mit = {2, 3, ..., 12}. F ur x gilt: P X = P X 1 ({x}) = X (a1 , a2 ) = max {a1 , a2 } mit = {1, ..., 6} F ur x gilt:
x1 36 13x 36
falls x = 2, ..., 7, . falls x = 8, ..., 12
P X (x) = P (X = x) = P ({a1 , a2 ) | max {a1 , a2 } = x}) = Dadurch ist eine Wahrscheinlichkeitsma auf gegeben.
2x 1 . 36
Man spricht oft einfach von einer -wertigen Zufallsvariablen X , mit Verteilung P X und erw ahnt weder (, P ) noch die spezielle Abbildung X .
50
4.8 Denition (Indikatorvariable): F ur A denieren wir durch 1A : / {0, 1}, 1A ( ) = 1 0 falls A falls w /A
die Indikatorvariable zu A. Die Verteilung von X = 1A sieht wie folgt aus: P X ({1}) = P X 1 ({1}) = P ({ | X ( ) = 1}) = P (A) P X ({0}) = P X 1 ({1}) = P ({ | X ( ) = 0}) = P (AC ) Beispiel 4.9: Sei = {1, ..., 6} und A = {2, 4, 6}. Dann ordnet 1A wie folgt zu: 2, 4, 6 1, 3, 5 1, 0.
Bemerkung 4.10: Falls Rd , d 2 und damit X ( ) = (X1 ( ), ..., Xd ( )) so ist f ur A = A1 ... Ad :

d
Insbesondere gilt also
P (X A) = P
j =1
{Xj Aj } .
d
4.11 Denition (Gemeinsame Verteilung): / , j = 1, ..., n seien Zufallsvariablen. Wir denieren Sei (, P ) gegeben, Xj : j X:
/ 1 ... n durch (X1 ( ), ..., Xn ( )).
P (X = x) = P (X1 = x1 , ..., Xd = xd ) = P
j =1
1 Xi ({xi }) .
Dann heit P X = P (X1 ,...Xn ) die gemeinsame Verteilung von X1 , ...Xn . Die zugeh orige Wahrscheinlichkeitsfunktion ist p(x1 , ...xn ) = P (X1 = x1 , ...Xn = xn ) Beispiel 4.12: Wir wollen wieder zweifach mit einem fairen W urfel werfen. Betrachte also = {1, 2, 3, 4, 5, 6} mit der / (also = ), Lapace-Verteilung P . Deniere f ur (a1 , a2 ) = die Zufallsvariablen X1 , X2 : X1 ( ) := X2 ( ) := min {a1 , a2 } , max {a1 , a2 } .
1 36
f ur alle Tupel (x1 , ..., xn ) .
Die gemeinsame Verteilung von X1 und X2 k onnen wir dann als Matrix schreiben. Setze dazu c := und erhalte x1 / x2 1 2 3 4 5 6 P
(X2 )
1 c 0 0 0 0 0
2 2c c 0 0 0 0 3c
3 2c 2c c 0 0 0 5c
4 2c 2c 2c c 0 0 7c
5 2c 2c 2c 2c c 0 9c
6 2c 2c 2c 2c 2c c 11c
P (X1 ) ({x1 }) 11c 9c 7c 5c 3c c
({x2 })
51
Dabei steht in der Zelle (i, j ) nat urlich P (X1 ,X2 ) ({i} {j }) = P (X1 = i, X2 = j ) und wir haben in der letzten Zeile / Spalte gleich noch die Werte der Einzel-Verteilungen P X1 und P X2 eingetragen, da diese sich einfach als Summe der Zeilen- / Spalteneintr age berechnen. 4.13 Denition: Sei (, P ) ein diskreter Wahrscheinlichkeitsraum und seien Xj : F ur eine Indexauswahl 1 i1 < ... < ik n / f j ur 1 j n Zufallsvariablen.
nennen wir die gemeinsame Verteilung von Xi1 , ..., Xik eine k -dimensionale Randverteilung oder auch Marginalverteilung. Beispiel 4.14: ur i = 1, 2 1-dimensionale Randverteilungen und es gilt zum Beispiel Sei X = (X1 , X2 ). Dann sind P Xi f P X1 (x1 ) = P (X1 = x1 ) =
x2 X2 ()
P (X1 = x1 , X2 = x2 ) ,
x1 1.
4.1.1
Unabh angigkeit von Zufallsvariablen
Die Idee ist, dass zwei Zufallsvariablen X1 , X2 unabh angig sind, wenn
P (X1 = x1 , X2 = x2 ) = P (X1 = x1 ) P (X2 = x2 ) (x1 , x2 ) 1 2
gilt. Beispiel 4.15: In obigem Beispiel 4.12 kann man aus der Tabelle leicht ablesen, dass P (X1 = 1, X2 = 1) = gilt, aber 1 36
11 1 1 = 36 36 36 ist. Daher sollten X1 und X2 wie dort deniert nicht unabh angig sein. P (X1 = 1) P (X2 = 1) = / f i ur 1 i n Zufallsvariablen.
4.16 Denition: Sei (, P ) ein diskreter Wahrscheinlichkeitsraum und seien Xi : Wir nennen X1 , ..., Xn unabh angig, wenn P (X1 ,...,Xn ) = gilt. Dabei meint
i=1 n
PX
i=1
P
i=1
Xi
einfach das Produkt der Verteilungen, also

n
P
Beispiel 4.17:
Xi
(A1 ... An ) =
P Xi (Ai ) ,
i=1
Ai ur i = 1, ...n. i f
/ {0, 1} durch folgende Tabelle gegeben, in welche wir auch gleich die Sei n = 2 und seien X1 , X2 : X2 X1 wie im obigen Beispiel eintragen: und P Einzelverteilungen P x1 /x2 0 1 P Man stellt fest, dass
X2
0 0.12 0.18
1 0.28 0.42 0.7
P X1 ({x1 }) 0.4 0.6
({x2 })
0.3
P
i=1
Xi
(x1 , x2 )
Denition
P X1 (x1 ) P X2 (x2 ) = P (X1 = x1 ) P (X2 = x2 )
52
gilt. In jeder Zelle gilt P (X1 = x1 ) P (X2 = x2 ) = P (X1 = x1 , X2 = x2 ) und daher sind X1 und X2 hier unabh angig. 4.18 Satz: Sei (, P ) ein diskreter Wahrscheinlichkeitsraum und seien Xi : Dann sind die folgenden Aussagen aquivalent: (1) X1 , ..., Xn sind unabh angig. (2) F ur alle Ai i , 1 i n gilt
n
/ f i ur 1 i n Zufallsvariablen.
P (X1 A1 , ..., Xn An ) = (3) F ur alle xi i , 1 i = n gilt
i=1
P (Xi Ai ) .
P (X1 = x1 , ..., Xn = xn ) =
i=1
P (Xi = xi ) .
Beweis: (1)(2) F ur beliebige Ai i , 1 i n, gilt P (X1 A1 , ..., Xn An ) = =

X1 ,...,Xn unabh angig
P ((X1 , ..., Xn ) A1 ... An ) P (X1 ,...,Xn ) (A1 ... An )
P
i=1
Xi
(A1 ... An )
=
i=1 n
P Xi (Ai )
=
i=1
P (Xi Ai )
ur gegebene xi (2)(3) F i , 1 i n setze Ai := {xi }. (3)(1) Hier gilt f ur alle xi i , 1 i n: P

(X1 ,...,Xn )
(x1 , ..., xn )
(3)
P (Xi = xi )
i=1
Denition
P
i=1 n i=1
Xi
(x1 , ..., xn )
Daher stimmen die zu den Verteilungen P (X1 ,...,Xn ) und
ussen die funktionen auf allen Tupeln (x1 , ..., xn ) 1 ... n u berein und aus diesem Grund m beiden Verteilungen gleich sein. Unabh angige Zufallsvariablen verwendet man u angen von Exblicherweise zur Modellierung von Ausg perimenten, die v ollig getrennt ablaufen. Betrachte etwa das folgende Problem, welches allgemein als Ziegenproblem oder auch 3-T uren-Problem bekannt ist: Beispiel 4.19: Wir betrachten drei T uren mit den Nummern 1 bis 3, wobei hinter einer rein zuf alligen T ur ein Gewinn (etwa ein Auto) und hinter den anderen beiden T uren je eine Ziege ist. Die T uren sind nat urlich verschlossen. Das Spiel l auft nun wie folgt ab: (1) Der Kandidat w ahlt eine T ur.
PX
geh origen Wahrscheinlichkeits-
53
(2) Der Moderator onet eine der beiden anderen T uren, aber nicht die, hinter welcher sich der Gewinn bendet. (3) Der Kandidat darf wechseln. Die Frage ist nun, ob es sich f ur den Kandidaten lohnt, zu wechseln. Wir modellieren das Problem durch folgende Zufallsvariablen: X1 := Nummer der T ur, hinter welcher sich der Gewinn bendet ( {1, 2, 3}). X2 := Nummer der T ur, die der Kandidat in Schritt (1) ausw ahlt ( {1, 2, 3}). Nach unseren Annahmen ist dann P (X1 = 1) = P (X1 = 2) = P (X1 = 3) = 1 3
(der Gewinn ist rein zuf allig verteilt) und die Zufallsvariablen X1 und X2 sind unabh angig (der Kandidat hat keine Informationen u ur. ber die Gewinnt Verfolgt der Kandidat die Strategie nicht wechseln, so gewinnt er genau dann, wenn X1 = X2 gilt. Also P ( Gewinn) = =
i=1 X1 ,X2 unabh angig 3 i=1
P (X 1 = X2 )
3
P (X1 = i, X2 = i)
P (X1 = i) P (X2 = i)
=1 3 3
1 3
P (X2 = i)
i=1 =1
1 . 3
Man beachte, dass es f ur dieses Ergebnis v ollig egal ist, wie X2 verteilt ist, d.h. z.B. davon, ob der Kandidat mit Vorliebe eine der T uren ausw ahlt. Verfolgt der Kandidat dagegen die Strategie wechseln, so gewinnt er genau dann, wenn X1 = X2 gilt (weil der Moderator dann nur genau eine T ur onen kann, hinter der nat urlich eine Ziege steht, und der Kandidat in Schritt (3) dann zwangsl aug auf die Gewinn-T ur wechselt). Es folgt also 1 2 P ( Gewinn) = P (X1 = X2 ) = 1 P (X1 = X2 ) = 1 = . 3 3 Die Strategie wechseln ist also deutlich besser! 4.20 Denition (Funktionen von Zufallsvariablen): Sei ein diskreter Grundraum und seien , beliebige Mengen. Sei X : / eine beliebige Abbildung. Dann wird durch und g : g (X ) := g X : /
/ eine Zufallsvariable
eine -wertige Zufallsvariable g X durch g (X ( )) auf deniert. Beispiel 4.21: Sei g : Rn

n
/ R gegeben durch x = (x1 , ..., xn ) X:
xi . Ist
i=1
/ Rn , (X1 ( ), ..., Xn ( ))
n
eine Zufallsvariable, so ist g (X ) gegeben durch Xi ( ),

i=1
54
Beispiel 4.22: Sei X : / R eine Zufallsvariable und g : R / R gegeben durch x xk f ur ein k N. Dann ist (g (X )) ( ) = (X ( )) , und wir schreiben auch X k := g (X ) 4.23 Lemma: / i , 1 i n unabh angige ZufallsvaSei (, P ) ein diskreter Wahrscheinlichkeitsraum und Xi : riablen. Sei 1 i1 < ... < ik n eine Indexauswahl. Dann sind auch die Zufallsvariablen Xi1 , ..., Xik unabh angig. Beweis: Laut Satz 4.18 gen ugt es zu zeigen, dass f ur alle Aij ij , 1 j k , gilt: P (Xi1 ,...,Xik ) (Ai1 ... Aik ) = Es gilt P (Xi1 ,...,Xik ) (Ai1 ... Aik ) = = P (Xi1 Ai1 , ..., Xik Aik )
trivial! trivial! P X1 1 , ..., Xi1 1 i1 1 , Xi1 Ai1 , Xi1 +1 i1 +1 , ... trivial! k k
j =1
P Xij Aij .
..., Xik 1
X1 ,...,Xn unabh.
ik 1 , Xik
Aik , Xik +1
ik +1 , ..., Xn
trivial!
trivial!
trivial!
P (X1 1 ) ... P Xi1 1 i1 1 P (Xi1 Ai1 )
P Xik +1 ik +1 ... P (Xn n ) n k
P Xi1 +1 i1 +1 ... P Xik 1 ik 1 P (Xik Aik )
=
i=1 i=ij j {1,...,k}
P (Xi i)
=1
j =1
P Xij Aij
=
j =1
P Xij Aij .
Damit ist die Behauptung gezeigt. 4.24 Satz (Blockungslemma): / i , 1 i n unabh Sei (, P ) ein diskreter Wahrscheinlichkeitsraum und Xi : angige Zufallsvariablen. Sei I1 , ..., Ik eine disjunkte Zerlegung der Menge {1, ..., n} und setze cj := #Ij . Seien zuletzt gj :
iIj
/ j , j = 1, ..., k
j beliebige Abbildungen. Ist Ij = ij 1 , ..., icj , so sind auch die Zufallsvariablen
Yj := gj Xij , ..., Xij c

1
, j = 1, ..., k
unabh angig.
55
Beweis: Es gen ugt oenbar zu zeigen, dass f ur eine Abbildung

g : 1 ... m
/ , 1 m < n,
und X := g (X1 , ..., Xm ) die Zufallsvariablen X, Xm+1 , ..., Xn

ebenfalls unabh angig sind. Laut Satz 4.18 haben wir also xi i , m + 1 i n, y zu zeigen: n
i=m+1
P (Xi = xi ) P (X = y ) = P (X = y, Xm+1 = xm+1 , ..., Xn = xn )
(4.1)
F ur y berechnen wir dazu zun achst P (X = y ) = P X 1 ({y }) = P a | X1 (a) g 1 ({y }) , ..., Xm (a) g 1 ({y }) p(X1 ,...,Xm ) (a)
ag 1 ({y })
= P (X1 ,...,Xm ) g 1 ({y }) = =

ag 1 ({y })
P (X1 = a, ..., Xm = a)
Damit folgt P (X = y ) P (Xm+1 = xm+1 , ..., Xn = xn ) =

ag 1 ({y }) Unabh angigkeit, Lemma 4.23
P (X1 = a, ..., Xn = a) P (Xm+1 = xm+1 , ..., Xn = xn ) P (X1 = a, ..., Xm = a, Xm+1 = xm+1 , ..., Xn = xn )
ag 1 ({y })
= =
P X1 g 1 ({y }) , ..., Xm g 1 ({y }) , Xm+1 = xm+1 , ..., Xn = xn P (X = y, Xm+1 = xm+1 , ..., Xn = xn )
Damit ist 4.1 und daher die Behauptung gezeigt. Beispiel 4.25: Sind X1 , ..., Xn unabh angige Zufallsvariablen auf dem diskreten Wahrscheinlichkeitsraum (, P ) mit Werten in R, so sind auch die Zufallsvariablen 2 2 X1 , ..., Xn unabh angig. Um das zu zeigen, wende einfach das Blockungslemma mit Ii = {i} , 1 i n und g1 (x) = g2 (x) = ... = gn (x) = x2 an. Genauso folgt dann die Unabh angigkeit von |X1 |, ..., |Xn | oder
2 X1 , |X2 |, |X3 |5 , ...
usw.. Beispiel 4.26: Seien X1 , ..., X5 unabh angige Zufallsvariablen auf dem diskreten Wahrscheinlichkeitsraum (, P ) mit Werten in R. Dann sind auch die Zufallsvariablen X1 sin(X4 ), X2 exp(X3 X5 ) unabh angig. Um das zu sehen wende das Blockungslemma auf I1 = {1, 4} und I2 = {2, 3, 5} mit g1 (x, y ) = x sin(y ), g2 (x, y, z ) = x exp (y z ) an.
56
4.2
Verteilungen
/ eine Zufallsvariable.
Sei stets (, P ) ein diskreter Wahrscheinlichkeitsraum und X :
4.27 Denition: Ist = {x1 , ..., xn }, so nennen wir X Laplace-verteilt (oder auch gleichverteilt), falls P (x = xk ) = 1 k = 1, ..., n. n
4.28 Denition: Ist = {0, 1}, so nennen wir X Bernoulli-verteilt mit Parameter p [0, 1], falls P (X = 1) = p, P (x = 0) = 1 p. Wir schreiben dann auch X B (1, p). 4.29 Denition: Ist = {1, ..., n}, so nennen wir X Binomial-verteilt mit Parametern p [0, 1] , n N, falls P (X = k ) = Wir schreiben dann auch X B (n, p). n k nk p (1 p) , k = 0, ..., n. k
Abbildung 6: Binomialverteilungen B(n, p) mit p = 0.1, 0.2, 0.5, 0.8 4.30 Satz: Seien X1 , ..., Xn unabh angige Zufallsvariablen auf (, P ) und es gelte Xi B(1, p) f ur jedes i {1, ..., n} mit festem p [0, 1]. Dann gilt X1 + ... + Xn B(n, p). Beweis: Es ist P (X1 + ... + Xn = k ) =
(a1 ,...,an ){0,1}n n ai =k i=1
P (X1 = a1 , ..., Xn = an )
F ur jedes (a1 , ..., an ) {0, 1} mit P (X1 = a1 , ..., Xn = an ) Auerdem ist

n
ai = k gilt
i=1
P (X1 = a1 ) ... P (Xn = an ) = pk (1 p)
nk
# (a1 , ..., an ) {0, 1}
ai = k
i=1
= =
#k elementige Teilmengen einer n elementigen Menge n . k
Damit folgt schon die Behauptung.
57
4.31 Denition: Ist = N, so nennen wir X geometrisch verteilt mit Parameter p [0, 1], falls P (X = k ) = p (1 p) Wir schreiben dann auch X Geo(p).
k 1
, k N.
Abbildung 7: Geometrische Verteilungen Geo(p) mit p = 0.5, 0.25, 0.1 4.32 Lemma: Ist X Geo(p), so gilt f ur jedes k N. Beweis: Es ist P (X k ) =
j =k
P (X k ) = (1 p)
k 1
P (X = j )
j 1
j =k
(1 p)
= p (1 p)
k 1
j =0
(1 p)
1 =p
= f ur jedes k N. Das zeigt die Behauptung.
(1 p)
k 1
Bemerkung 4.33: In diesem Zusammenhang spricht man bei der geometrisch verteilten Zufallsvariablen auch von der Uberlebenswahrscheinlichkeit. Will man etwa modellieren, wie gro die Wahrscheinlichkeit ist, dass ein bestimmtes Bauteil mehr als k Arbeitsg ange h alt, so verwendet man X Geo(p) mit der Wahrscheinlichkeit p, dass das Bauteil einen festen Arbeitsgang u berlebt. 4.34 Lemma: amlich Ist X Geo(p) eine Zufallsvariable, so gilt die Ged achtnislosigkeit, n P (X k + j | X > j ) = P (x k ) j, k N.
58
Beweis: Seien k, j N. Da k 1 ist stets {X k + j } {X > j } = { | X ( ) k + j } { | X ( ) j + 1} = {X k + j } Damit folgt P (X k + j | X > j )

(4.2)
(4.2)
P (X k + j ) P (X j + 1) (1 p) (1 p)
k + j 1 j
Lemma 4.32
(1 p)
=
Lemma 4.32
k 1
P (X k ) .
Damit ist die Behauptung gezeigt. Bemerkung 4.35: Die Umkehrung dieser Aussage gilt ebenfalls. Vergleiche dazu Ubungsblatt 5. Bemerkung 4.36: Betrachtet man X Geo(p) als Uberlebenswahrscheinlichkeit, so sagt die Ged achtnislosigkeit genau, dass gebrauchte Bauteile ebenso gut wie neue Bauteile sind. 4.37 Denition: Ist = N0 , so nennen wir X Poisson-verteilt mit Parameter (0, ), falls P (X = k ) = exp ()
=poi (k)
k , k N0 . k!
Wir schreiben dann auch X Poi().
Abbildung 8: Poisson-Verteilungen Poi() mit = 2, 4, 10, 16 Bemerkung 4.38: Poisson-verteilte Zufallsvariablen werden empirisch beobachtet bei z.B. Anrufen pro Minute in einem Call-Center, der Anzahl radioaktiver Zerf alle pro Zeitintervall und der Anzahl von Meteoriteneinschl agen in einem Gebiet pro Zeitintervall. Allgemein tritt die Poisson-Verteilung dann auf, wenn Realisationen vieler m oglicher, aber nur mit kleiner Wahrscheinlichkeit eintretender Ereignisse gew ahlt werden.
59
4.2.1
Eigenschaften der Possionverteilung

n
4.39 Satz (Poisson-Grenzwertsatz): Ist (Xn )n1 eine Folge von B(n, pn ) verteilten Zufallsvariablen mit n pn
n
/ (0, ), so gilt
lim P (Xn = k ) = poi (k )
f ur k = 0, 1, ...
Beweis: Zun achst gilt P (Xn = k ) = = = n nk pk n (1 p) k npn n (n 1) ... (n k + 1) 1 k (n pn )k 1 k! n n n n1 n k + 1 (n pn )k n pn ... 1 n n n k! n

n n
(1 pn )k
(1 pn )k
Berechnen wir nun die Grenzwerte einzeln, so haben wir n n1 nk+1 ... n n n (n pn )k k! n pn n 1 n (1 pn )k Das liefert P (Xn = k )
n n
/ / / / / / / /
1, k , k! exp(), 1.
k / exp() k!
mit der obigen Darstellung und zeigt die Behauptung. Die folgende Fehlerabsch atzung wollen wir nur ohne Beweis angeben: 4.40 Satz (Fehlerabsch atzung f ur die Poisson-Approximation der Binomialverteilung): Sei X B(n, p) und := n p. Dann gilt f ur jede Teilmenge A {0, 1, 2, ...}: P (x A) poi (k )
k A
(1 exp(np)) p p.
Insbesondere ist P (X = k ) exp() Beispiel 4.41: Sei n = 1000 und p = 103 . Dann ist der Fehler der Approximation: P (x A) poi (k ) (1 exp(1)) 103 0.64 103 = 0.00064 k (1 exp(np)) p k! k = 0, 1, 2, ...
k A
60
5 Kenngr oen von Verteilungen
5
5.1
Kenngr oen von Verteilungen

Der Erwartungswert
5.1 Lemma: Sei X : eine diskrete reellwertige Zufallsvariable und P eine Wahrscheinlichkeitsverteilung auf . Dann gilt |X ( )| P ( ) < |x| P X (x) < und in diesem Falle
x
X ( ) P ( ) =
x P (X = x).
Beweis: Wir berechnen

X ( ) P ( ) = =
X ( )=x
X ( ) P ( ) x P ( ) P ( )
X ( )=x
=
x
X ( )=x
=
x
x P (X = x).
Die gleiche Rechnung mit |X ( )| bzw. |x| zeigt, dass die < -Bedingungen aquivalent sind. 5.2 Denition: Sei X : eine diskrete reellwertige Zufallsvariable und P eine Wahrscheinlichkeitsverteilung auf . Wir denieren den Erwartungswert E (X ) von X durch E (X ) :=

X ( ) P ( ), falls
|X ( )| P ( ) < |x| P X (x) < .
(5.1) (5.2)
=
x
x P (X = x), falls
Bemerkung 5.3: (5.2) zeigt, dass E (X ) nur von der Verteilung P X von X abh angt. E (X ) ist in diesem Sinne also eine Kenngr oe der Verteilung von X . Bemerkung 5.4: Die geforderte (absolute) Konvergenz stellt sicher, dass E (X ) wohldeniert ist. Bemerkung 5.5: Ist X 0 (d.h. X nimmt nur nicht-negative Werte an), dann kann man in (5.1) und (5.2) auf die < -Forderung verzichten und l asst auch E (X ) = zu. 5.1.1 Erwartungswerte einiger Verteilungen Beispiel 5.6: Sei X Laplace-verteilt auf = {x1 , ..., xN } R. Dann gilt
N
E (X ) =
i=1
xi P (X = xi ) =
1 xi , N i=1
da P (X = xi ) =
1 . N
Ein Spezialfall ist {x1 , ..., xN } = {1, ..., N }. Dann ist E (X ) = 1 N

N
i=
i=1
N +1 1 N (N + 1) = . N 2 2
Bei einem herk ommlichen W urfel ist demnach E (X ) = 3.5.
61
Beispiel 5.7: Sei X B(1, p) eine Bernoulli-verteilte Zufallsvariable mit = {0, 1} und P (X = 1) = p. Dann ist E (X ) = 0 (1 p) + p = p. Insbesondere liefert das f ur die Indikatorvariable X = 1A einer Teilmenge A und eine Wahrscheinlichkeitsverteilung P auf , dass X B(1, p) mit p = P (A), also E (X ) = P (A). Damit ist f ur das W urfeln einer geraden Zahl (also A = {2, 4, 6} {1, ..., 6}) der Erwartungswert E (1A ) = P (A) = was der Intuition entspricht. Beispiel 5.8: Sei X B(n, p) eine Binomial-verteilte Zufallsvariable. Dann bereitet uns die Berechnung von
n
1 , 2
E (X ) =
k=0
n pk (1 p)nk k
einige Schwierigkeiten. Wir werden weiter unten im Beispiel 5.15 eine bessere Methode kennenlernen. Beispiel 5.9: Sei X Poi() eine Poisson-verteilte Zufallsvariable. Dann ist E (X ) =
k=0
k exp()
k=1 k=0
k k! k 1 (k 1)! k k!
exp() exp()
= =
exp() exp()
= . 5.10 Hilfssatz: Sei X eine diskrete Zufallsvariable auf (, P ) mit Werten in N0 . Dann gilt E (X ) = Beweis: Nach 5.1 gilt E (X ) =
n=1
P (X n) .
(5.3)
n=0
n P (X = n) =
n=1
n P (X = n) ,
und diese Summe konvergiert absolut. Daher k onnen wir Umordnen und erhalten so E (X ) = was die Behauptung zeigt. Beispiel 5.11:
1 . Sei X Geo(p) eine geometrisch verteilte Zufallsvariable. Dann ist E (X ) = p
P (X = k ) =
n=1
n=1 k=n
P (X n) ,
62
Beweis: Anwenden von Hilfssatz 5.10 liefert E (X )

(5.3)
n=1
P (X n) (1 p) (1 p)
n1
Lemma 4.32
n=1
= = = womit die Behauptung schon gezeigt ist.
n=0
1 1 (1 p) 1 , p
Das heit beim W urfeln mit X =Warten auf die erste 6: 1 E (X ) = 1 = 6.

6
5.1.2
Eigenschaften des Erwartungswertes
5.12 Satz (Transformationsformel): Sei (, P ) ein diskreter Wahrscheinlichkeitsraum, X eine diskrete Zufallsvariable mit Werten in und g := R eine Abbildung mit |g (x)| P (X = x) < . Dann ist
x
E (g (X )) =
x
g (x) P (X = x).
Beweis: F ur die Verteilung von Y = g X gilt: P (Y = y ) = P (g X = y ) = P ({ | g X ( ) = y })

x g (x)=y
= P =
P (X = x)
{ | X ( ) = x}
x g (x)=y
Damit erhalten wir E (g (X )) = E (Y ) =

y Y ()
y P (Y = y ) y P (X = x)
xg 1 ({y })
=
y Y ()
=
y Y () xg 1 ({y })
y P (X = x) g (x) P (X = x)
=
y Y () xg 1 ({y })
=
x
g (x) P (X = x)
Die selbe Rechnung mit Betr agen zeigt, dass der Erwartungswert E (g (X )) im denierten Sinne existiert.
63
Beispiel 5.13: Sei g (x) = xk . Dann heit E (X k ) =

x
xk P (X = x)
k = 1, 2, ...
das k -te Moment von X , sofern dieser Ausdruck existiert. Insbesondere ist das 1.Moment von X gleich dem Erwartungswert von X . 5.14 Satz (Linearit at und Monotonie des Erwartungswertes): Seinen X, Y Zufallsvariablen auf (, P ), s.d. E (X ) und E (Y ) existieren. Sei auerdem a R. Dann gelten die folgenden Rechenregeln: (1) E (X + Y ) = E (X ) + E (Y ) (2) E (aX ) = a E (X ) (3) X Y E (X ) E (Y ) (d.h.X ( ) Y ( ) ) Beweis: (1) Per Denition gilt E (X + Y ) = =

(X + Y )( ) P ( ) (X ( ) + Y ( )) P ( ) X ( ) P ( ) + Y ( ) P ( )
= E (X ) + E (Y ). Die gleiche Rechnung mit Betr agen zeigt, dass E (X + Y ) existiert. (2) Hier ist E (aX ) =

a X ( ) P ( ) = a
X ( ) P ( ) = a E (X ).
(3) Zuletzt berechnet man E (X ) =

X ( ) P ( )
Y ( ) P ( ) = E (Y ).
Damit ist der Satz bewiesen. Beispiel 5.15: Sei X B(n, p) eine Binomial-verteilte Zufallsvariable und seien X1 , X2 , ..., Xn unabh angig nach B(1, p) verteilt. Nach Satz 4.30 ist dann X1 + X2 + ... + Xn B(n, p), das heit X und X1 + X2 + ... + Xn haben die gleiche Verteilung. Folglich gilt E (X ) = E (X1 + X2 + ... + Xn )
Linearit at
E (X1 ) + E (X2 ) + ... + E (Xn ) = n p,
da E (X1 ) = ... = E (Xn ) = p f ur Bernoulli-verteilte X1 , ..., Xn . Beispiel 5.16: Sei X (a1 , a2 , ..., an ) gleich der Anzahl der Fixpunkte der Permutation a1 , a2 , ..., an von 1, 2, ..., n. F ur n = 4 gilt dann z.B. X (1, 4, 3, 2) = 2. Allgemein schreiben wir: X (a1 , a2 , ..., an ) = #{i | ai = i}
n
Sei P die Laplace-Verteilung auf dem Raum aller Permutationen. F ur Ai = {(a1 , ..., an ) | ai = i} gilt dann X=
i=1
1Ai .
Mit Hilfe der Linearit at k onnen wir zeigen:

n n n n
E (X ) = E
i=1
1Ai
=
i=1
E (1Ai ) =
i=1
P (Ai ) =
i=1
1 = 1. n
64
Beispiel 5.17 (Sammlerproblem): Wir ziehen aus einer Urne mit n Kugeln, welche mit 1, ..., n nummeriert sind, mit Zur ucklegen bis jede Kugel mindestens einmal gezogen wurde. Wir wollen nun die ben otigte Anzahl X von Ziehungen modellieren und den Erwartungswert E (X ) bestimmen.
i Sei X = X0 + X1 + X2 + ... + Xn1 wobei Xi Geo( nn ) und E (Xi ) = nn i nach Beispiel 5.11. (Dabei beschreibt Xi das Warten auf den Erfolg eine neue Kugel wird gezogen nachdem bereits i ver schiedene Kugeln gezogen wurden, insbesondere X0 1) Wird z.B. Die Folge 2,2,3,2,3,4,2,1 aus einer Urne mit 4 Kugeln gezogen, so ist X = 8 und X0 = 1, X1 = 2, X2 = 3, X4 = 2. Man berechnet
E (X )
= E (X0 ) + E (X1 ) + ... + E (Xn 1) n n n n = + + + ... + n n1 n2 1

n
= n
i=1
1 i
n ln(n). Damit k onnen wir den Erwartungswert f ur n = 3, 10, 100 und 10000 berechnen: n 3 10 100 10000 E(X) 5.5 29.3 518.7 97876.1
5.1.3
Produktformel
Seien X und Y zwei reelle, diskrete Zufallsvariablen. Man kann sich fragen, ob stets E (X Y ) = E (X ) E (Y ) gilt. Beispiel 5.18: Sei X B(1, p) und Y = X . Dann haben wir E (X Y ) = E X 2 = E (X ) = p, da X 2 = X , denn schlielich nimmt X nur Werte in {0, 1} an. Andererseits ist aber E (X ) E (Y ) = (E (X )) = p2 . F ur p (0, 1) gilt aber p2 = p, womit (5.4) im Allgemeinen also falsch ist. 5.19 Satz (Produktformel f ur unabh angige Zufallsvariablen): Seien X, Y unabh angige Zufallsvariablen auf (, P ) mit existenten Erwartungswerten E (X ), E (Y ). Dann gilt E (X Y ) = E (X ) E (Y ).
2
(5.4)
65
Beweis: Mittels der ersten Denition des Erwartungswerts (5.1) berechnet man E (X Y ) =

(X Y ) ( )P ({ }) X ( ) Y ( ) P ({ }) X ( ) Y ( ) P ({ })
=xy
=
xX () y Y ()
X ( )=x,Y ( )=y
=
xX () y Y ()
xy
X ( )=x,Y ( )=y
P ({ })
=
xX () y Y () X,Y unabh angig
P (X = x, Y = y ) P (X = x) P (Y = y ) yP (Y = y ) ,
xX () y Y ()
xX ()
was nach der zweiten Denition (5.2) des Erwartungswertes genau E (X ) E (Y ) entspricht. Um die Existenz des Erwartungswertes E (X Y ) zu zeigen, f uhrt man zun achst die selbe Rechnung mit Betr agen durch. Beispiel 5.20: Wir betrachten zwei faire W urfel und die Zufallsvariablen X1 :=erster Wurf, X2 :=zweiter Wurf. Mit obigem Satz gilt dann 2 7 E (X Y ) = E (X ) E (Y ) = . 2
xP (X = x)
y Y ()
5.2
Varianzen
5.21 Denition: Sei X eine reelle Zufallsvariable mit E X 2 < . Dann wird die Varianz von X deniert durch V (X ) := E (X E (X ))
2
Ebenso deniert man die Standardabweichung X von X als X := V (X ).
Bemerkung 5.22: (1) Da E X 2 < ist und f ur jede reelle Zahl x R auch |x| 1 + x2 gilt, ist auch E (|X |) < und daher existiert E (X ) unter der Voraussetzung E X 2 < . Insbesondere ist V (X ) also wohldeniert. (2) Da (X E (X )) gilt, muss auch V (X ) 0 sein und X ist wohldeniert. (3) X E (X ) geht aus X durch Zentrieren hervor, d.h. E (X E (X )) = E (X ) E (E (X )) = E (X ) E (X ) = 0, da der Erwartungswert E (E (X )) der festen Zahl E (X ) (d.h. der konstanten Zufallsvariable E (X )) nat urlich wieder E (X ) selbst ist. Bemerkung 5.23: Die Varianz ist die mittlere quadratische Abweichung von X zu E (X ).
2
66
Bemerkung 5.24: Nach der Transformationsformel f ur den Erwartungswert (Satz 5.12) gilt mit der Funktion g (x) := 2 (x E (X )) , x R: V (X ) = E (g (X )) Beispiel 5.25: Wir betrachten das einmalige W urfeln mit einem fairen W urfen und denieren die Zufallsvariable X als 7 die Augenzahl. Dann haben wir schon berechnet, dass E (X ) = 2 , und daher ist die Varianz von X nach obiger Bemerkung gegeben als 6 2 7 1 35 x V (X ) = = . 2 6 12 x=1 5.26 Denition: Sei k N und X eine reelle Zufallsvariable auf (, P ). Falls E (X E (X ))
k Transformationsformel
xX ()
(x E (X )) P (X = x) .
(5.5)
existiert, so nennen wir diese Zahl das k -te zentrale Moment von X . Bemerkung 5.27: Die Darstellung der Varianz mittels der Transformationsformel (5.5) zeigt, dass V (X ) allein durch die Verteilung von X festgelegt ist. Es handelt sich also wie beim Erwartungswert auch um eine Kenngr oe der Verteilung. 5.28 Denition: Seien X, Y reelle Zufallsvariablen mit E X 2 < , E Y 2 < . Dann wird die Kovarianz von X und Y deniert durch CoV (X, Y ) = E ((X E (X )) (Y E (Y ))) . Bemerkung 5.29: F ur eine reelle Zufallsvariable gilt dann CoV(X, X ) = V (X ). 5.30 Satz (Rechenregeln f ur die Varianz): 2 Seien X, Y und Xi f ur 1 i n reelle Zufallsvariablen mit E X 2 < , E Y 2 < und E Xi < , 1 i n. Seien auerdem a, b R. Dann gelten die folgenden Rechenregeln (V2) V (aX + b) = a2 V (X ). (V4) F ur Summen gilt
n n n
(V1) V (X ) = E X 2 (E (X )) , insbesondere ist V (X ) < .
(V3) CoV (X, Y ) = E (X Y ) E (X ) E (Y ). V

i=1
Xi
=
i=1
V (Xi )
CoV (Xi , Xj ) .
i,j =1 i=j
(V5) Sind X1 , ..., Xn unabh angig, so gilt sogar

n n
V
i=1
Xi
=
i=1
V (Xi ) .
Beweis: (V1) Mittels der Linearit at des Erwartungswerts hat man V (X ) = E (X E (X ))

2
= E X 2 2E (X ) X + (E (X ))
= E X 2 2E (X ) E (E (X )) + E (E (X )) = E X 2 2 (E (X )) + (E (X )) = E X 2 (E (X )) .
2 2 2
67
Dabei haben wir wieder benutzt, dass der Erwartungswert einer konstanten Zufallsvariablen nat urlich der Wert der Zufallsvariablen selbst ist. (V2) Es ist V (aX + b) = E ((aX + b) E (aX + b))
2
= E (aX + b aE (X ) E (b)) = E a2 (X E (X )) = a2 E (X E (X )) = a2 V (X ). (V3) Man berechnet CoV (X, Y ) = E ((X E (X )) (Y E (Y )))

2
= E (X Y X E (Y ) Y E (X ) + E (X ) E (Y )) = E (X Y ) E (X ) E (E (Y )) E (Y ) E (E (X )) + E (E (X )) E (E (Y )) = E (X Y ) E (X ) E (Y ) E (Y ) E (X ) + E (X ) E (Y ) = E (X Y ) E (X ) E (Y ) . Auch hier haben wir wieder benutzt, dass der Erwartungswert einer konstanten Zufallsvariablen nat urlich der Wert der Zufallsvariablen selbst ist. (V4) Wir setzen Zi := Xi E (Xi ) f ur 1 i n. Dann ist
n n n n
i=1
Xi E
Xi
i=1
=
i=1
(Xi E (Xi )) =
Zi ,
i=1
(5.6)
womit
n
V
i=1
Xi
i=1 n
Xi E
2
Xi
i=1
(5.6)
Zi
i=1 n
Zi
i=1 n
j =1
Zj
E
n
i,j =1
Zi Zj
=
i,j =1 n
E (Zi Zj )
n
=
i=1 Zi =Xi E (Xi ) n
2 + E Zi
i,j =1 i=j
E (Zi Zj ) CoV (Xi , Xj )
V (Xi ) +
i=1
i,j =1 i=j
folgt. (V5) Nach Satz 5.19 gilt wegen der Unabh angigkeit von X1 , ..., Xn f ur alle Paare 1 i, j n, i = j : E (Xi Xj ) = E (Xi ) E (Xj ) . Mit Regel (V3) ist also CoV (Xi , Xj ) = 0 falls i = j . Damit folgt (V5) aus (V4).
68
Bemerkung 5.31: Im Beweis von (V5) haben wir gezeigt, dass f ur unabh angige, reelle Zufallsvariablen X, Y stets CoV (X, Y ) = 0 gilt. Die Umkehrung dagegen ist im allgemeinen falsch, wie das folgende Beispiel zeigt: Beispiel 5.32: Betrachte eine Zufallsvariable X mit Werten in {N, ..., N } auf einem diskreten Wahrscheinlichkeitsraum (, P ). Wir nehmen an, dass P (X = n) = P (X = n) n {N, ..., N } und 0 < P (X = 0) < 1 gilt. Dann gilt CoV X, X 2 = 0, aber X und X 2 sind nicht unabh angig. Beweis: Zun achst ist E (X )
(5.1) N
k = N
k P (X = k )
N N
0 P (X = 0) +
N
k=1
k P (X = k )
k=1
k P (X = k )
=
k=1
k (P (X = k ) P (X = k ))
=0 nach Voraussetzung
0.
(5.7)
Genauso folgt mit der Transformationsformel (Satz 5.12) f ur g (x) = x3 , dass E X3

(5.1) N
k = N
k 3 P (X = k )
N N
03 P (X = 0) +
N
k=1
k 3 P (X = k )
k=1
k 3 P (X = k )
=
k=1
k 3 (P (X = k ) P (X = k ))
=0 nach Voraussetzung
0.
(5.8)
Damit folgt nach Denition der Kovarianz CoV X, X 2 = = =

(5.7) & (5.8)
E (X )
=0 nach (5.7)
X2 E X2
E X3 X E X2 E X 3 E (X ) E X 2 0.
Bleibt zu zeigen, dass X und X 2 nicht unabh angig sind. Dazu nehmen wir an, X und X 2 w aren unabh angig. Dann gilt insbesondere
2 2 P (X,X ) (0, 0) = P X (0) P X (0)
69
Beachten wir nun, dass X 2 = 0 X = 0, so folgt P (X = 0) = P (X = 0, X = 0) = P X = 0, X 2 = 0

2 = P (X,X ) (0, 0)
= P X (0) P X (0) = (P (X = 0)) ,

2
= P (X = 0) P X 2 = 0
was ein Widerspruch zu P (X = 0) (0, 1) ist. Es folgt die Behauptung. 5.33 Denition: Seien X, Y reelle Zufallsvariablen. Wir nennen X und Y unkorreliert, falls CoV (X, Y ) = 0 gilt. Es gilt also: unabh angig 5.2.1 unkorreliert
Varianzen einiger diskreter Verteilungen
Beispiel 5.34: Sei X B (1, p) f ur p [0, 1] eine reelle Zufallsvariable. Dann ist E (X ) = p wie schon berechnet und daher gilt wegen X 2 = X (X hat wieder nur Werte in {0, 1}): V (X ) = E X 2 (E (X )) = E (X ) (E (X )) = p p2 = p (1 p) .
2 2
V (X )
Abbildung 9: Die Varianz einer Bernoulli-verteilten Zufallsvariablen X B(1, p) in Abh angigkeit von p [0, 1] Beispiel 5.35: Sei X B(n, p) mit n N und p [0, 1]. Seien auerdem X1 , ..., Xn B (1, p) unabh angig. Nach Satz 4.30 gilt dann X1 + ... + Xn B (n, p) ,
weshalb X und X1 + ... + Xn die gleiche Verteilung besitzen. Da die Varianz nur von der Verteilung abh angt, gilt also
n
V (X )
V
i=1 n
Xi
(V5) i=1 Beispiel 5.34
V (Xi ) np (1 p)
70
Beispiel 5.36: Sei X Poi () f ur ein 0 < < . Dann ist P (X = k ) = exp () k f ur k N k!
und es gilt E (X ) = wie schon berechnet. Um die Varianz von X zu bestimmen nutzen wir (V1) und haben so 2 V (X ) = E X 2 (E (X )) = E X 2 2 . Zur Berechnung von E X 2 nutzen wir den folgenden Trick: E X 2 = E X 2 X + E (X ) . Dann wende die Transformationsformel (Satz 5.12) mit g (k ) := k 2 k auf E (X 2 X ) = E (g (X )) an und erhalte so E X2 X =
Transformationsformel
E (g (X ))
k=0
k 2 k P (X = k ) k (k 1) exp () k (k 1) exp ()
k=2
k=0
k k! k k!
k=2
exp ()
k (k 2)!
= = = Das ergibt zusammen
2 exp ()
2
k=0
k k!
exp () exp () 2 .
V (X ) = E X 2 X + E (X ) (E (X )) = 2 + 2 = Beispiel 5.37: Sei X Geo(p) f ur ein p [0, 1]. Wir haben schon gesehen, dass dann E (X ) = zu berechnen, nutzen wir das folgende 5.38 Lemma: Ist X eine Zufallsvariable mit Werten in N, so gilt E X2 =
n=1 1 p
gilt. Um die Varianz
(2n 1) P (X n) .
Beweis: Mit der Transformationsformel (Satz 5.12) f ur g (k ) := k 2 folgt direkt E (X ) =

n=0
n2 P (X = n) =
n=1
n2 P (X = n) .
71
Diese Reihe ist absolut konvergent, daher kann sie in der folgenden Form umgeordnet werden:
n=1
n2 P (X = n)
= = =
1 P (X = 1) + 4 P (X = 2) + 9 P (X = 3) + 16 P (X = 4) + ... (P (X = 1) + P (X = 2) + ...) + 3P (X = 2) + 8P (X = 3) + 15P (X = 4) + ... (P (X = 1) + P (X = 2) + ...) + 3 (P (X = 2) + P (X = 3) + P (X = 4) + ...) +5P (X = 3) + 12P (X = 4) + ...
(P (X = 1) + P (X = 2) + ...) + 3 (P (X = 2) + P (X = 3) + P (X = 4) + ...) +5 (P (X = 3) + P (X = 4) + ...) + 7P (X = 4) + ...

n=1
= Es folgt die Behauptung.
(2n 1) P (X n) .
Auerdem gilt laut Lemma 4.32 P (X k ) = (1 p) E X2 =
k 1
, womit dann
1 n1 p (2n 1) (1 p) p n=1 1 (2n 1) P (X = n) p n=1
gilt. Jetzt wenden wir die Transformationsformel (Satz 5.12) mit g (k ) = 2k 1 r uckw arts an und erhalten so E X2 = = = = F ur die Varianz gilt damit V (X )
(V1)
1 E ((2X 1)) p 1 1 2E (X ) p p 1 2 p2 p 2p . p2
E X 2 (E (X )) =
2p 1 1p 2 = . p2 p p2
72
6 Wahrscheinlichkeitsungleichungen und das SGGZ
6
6.1
Wahrscheinlichkeitsungleichungen und das SGGZ

Das schwache Gesetz groer Zahlen (SGGZ)
6.1 Satz (Markov-Ungleichung): Sei X 0 eine diskrete Zufallsvariable (d.h. X nimmt nur nicht-negative reelle Werte an) auf (, P ). Dann gilt f ur jedes reelle a > 0: P (X a) Beweis: Es gilt P (X a) =
xX (),xa
E (X ) a
(6.1)
P (X = x) x P (X = x) a
xX (),xa
xX ()
x P (X = x) a
1 E (X ), a
6.2 Satz (Tschebyschow-Ungleichung): Sei X eine reelle, diskrete Zufallsvariable mit E X 2 < . Dann gilt f ur jedes reelle a > 0: P (|X E (X )| a) Beweis: Da sowohl |X E (X )| als auch a positive Zahlen sind, ist |X E (X )| a (X E (X )) a2 . Damit gilt P (|X E (X )| a)
(6.3)
V (X ) a2
(6.2)
(6.3)
P (X E (X )) a2 E (X E (X )) a2 V (X ) , a2
2
(6.1)
= womit die Behauptung gezeigt ist.
Folgerung 6.3: Sei X eine reelle, diskrete Zufallsvariable mit E X 2 < . Dann gilt f ur jedes reelle c > 0: P (|X E (X )| cX ) Beweis: Wende (6.2) mit a = cX an und nutze X = V (X ). 1 c2 (6.4)
Bemerkung 6.4: F ur jede reelle, diskrete Zufallsvariable X mit E X 2 < gilt also P (|X E (X )| 2X ) P (|X E (X )| 3X ) usw. 1 4 1 9
73
Beispiel 6.5: Wir betrachten 100 faire M unzw urfe und denieren die Zufallsvariable X als die Anzahl der Kopf 1 1 Ergebnisse. Dann ist X B 100, 2 = 25. Also , E (X ) = 50 und nach Beispiel 5.35 gilt V (X ) = 100 4 ist X = 5 und daher haben wir nach (6.4): P (|X 50| 10) P (|X 50| 15) 1 4 1 9
Bemerkung 6.6: Die Absch atzungen, die man mit der Tschebyschow-Ungleichung erreichen kann, k onnen oft verbessert werden. Siehe dazu etwa sp ater die Exponentialungleichungen oder den zentralen Grenzwertsatz. 6.7 Satz (Schwaches Gesetz groer Zahlen (SGGZ)): Seien X1 , ..., Xn unabh angige diskrete Zufallsvariablen mit gleicher Verteilung auf (, P ) und es gelte 2 E Xi < f ur jedes 1 i n. Dann gilt f ur jedes > 0: P 1 n
n
i=1
Xi E (X 1 )
V (X1 ) n2
/ 0.
(6.5)
Beweis: Zun achst halten wir fest, dass E (X1 ) = E 1 n

n
E (Xi ) .
i=1
Auerdem gilt E (X1 ) = E (Xi ) f ur jedes 1 i n, da alle Zufallsvariablen nach Voraussetzung die gleiche Verteilung besitzen. Daher folgt mit der Tschebyschow-Ungleichung: 1 n
n (6.2)
1 n
Xi
i=1 2
i=1
Xi E (X i )
n (V2)
V
n
Xi
i=1 n2 2
V (Xi )
i=1
= Das zeigt die Behauptung. Bemerkung 6.8: Damit liegt f ur groe n der empirische Mittelwert 1 n
n
n2 2 V (X1 ) . n2
Xi
i=1
mit hoher Wahrscheinlichkeit in der -N ahe des Erwartungswertes E (X1 ). 6.1.1 Spezialfall - Das SGGZ von Bernoulli
6.9 Satz: Seien Xi B(1, p) f ur ein p [0, 1] und 1 i n, auerdem seien X1 , ..., Xn unabh angig. Dann gilt P 1 n
n
i=1
Xi p
1 . 4n2
(6.6)
74
Beweis: Wir wissen schon, dass E (X1 ) = p und V (X1 ) = p (1 p) gilt. Nach dem SGGZ gilt also P Oenbar ist aber p (1 p) Beispiel 6.10: Wir betrachten 1000 faire M unzw urfe und setzen Xi := 1 Kopf im i-ten Wurf . 0 Zahl im i-ten Wurf
1 4
1 n
i=1
Xi p
p (1 p) . n2
p R, womit die Behauptung folgt.
Dann gilt Xi B 1, 1 ur alle 1 i 1000 und die Zufallsvariablen X1 , ..., X1000 sind unabh angig. 2 f Nun setzen wir
1000 i=1
X :=
Xi ,
was der Anzahl an Kopf-W urfen in 1000 W urfen entspricht. Es ist

1000 1000
E (X ) =
i=1
E (Xi ) =
i=1
1 = 500 2
und entsprechend berechnet man mit dem SGGZ von Bernoulli: P (X 400 oder X 600) = =
(6.6)
P (|X 500| 100) P 1 1000

1000 i=1
Xi
1 1 2 10
1 4 1000
1 100
= Damit ist auch
1 = 0.025. 40
P (400 < X < 600) = 1 P (X 400 oder X 600) 1 0.025 = 0.975.
6.2
Exponential-Ungleichungen
Notation 2: Sind X1 , ..., Xn unabh angige und gleichverteilte diskrete Zufallsvariablen auf dem diskreten Wahrscheinlichkeitsraum (, P ) gegeben, so schreiben wir auch Xi
i.i.d.
B (1, p) ,
falls die Verteilung die Bernoulli-Verteilung ist usw.. i.i.d. steht dabei f ur independent identically distributed. 6.11 Satz (Bernstein-Ungleichung): i.i.d. Seien Xi B (1, p) f ur ein p [0, 1]. Dann gilt f ur alle > 0: P 1 n 1 n
n
i=1
Xi p
1 exp n2 , 4 1 exp n2 , 4 1 2 exp n2 . 4 (6.7)
i=1 n
Xi p Xi p
1 n
i=1
75
Beweis: Oenbar folgt die dritte Ungleichung mittels der Booleschen Ungleichung (1.7) bereits aus den ersten beiden Ungleichungen: P 1 n
n
i=1
Xi p
(1.7)
1 n
i=1
Xi p
+P
1 n
i=1
Xi p .
Wir zeigen nur die erste Ungleichung, die zweite l asst sich absolut analog beweisen. P 1 n
n
i=1
Xi p
= P
1 n
n
i=1
Xi p + (6.8)
= P
i=1 n
Xi np + n .
Nach Satz 4.30 ist

i=1
Xi B (n, p), daher folgt also f ur m := n (p + ):

(6.8) n
1 n
i=1
Xi p
k =m >0 beliebig n
n k nk p (1 p) k
=:q
k =m
exp ( (k n (p + )))
n
n k nk p q k
exp (n) exp (n)
k =m n
n exp (k np) pk q nk k n k nk (p exp (q )) (q exp (p)) k

n
= =
k =m
ur x R2 , daher folgt Allgemein ist exp (x) x + exp x2 f P 1 n

n
exp (n) (p exp (q ) + q exp (p)) .
(6.9)
i=1
Xi p
(6.9)
exp (n) (p exp (q ) + q exp (p)) exp (n) p q + exp 2 q 2
= = = = f ur jedes > 0. Nun w ahlen wir = damit n 1 P Xi p n i=1 was die Behauptung zeigt. Beispiel 6.12:
+ q p + exp 2 p2
n n
exp (n) p exp 2 q 2 + q exp 2 p2 exp (n) p exp 2 + q exp 2 exp (n) exp n2
2,
exp n 2
(6.10)
(6.10)
2
was genau dem Minimum von entspricht. Es folgt exp 2

2
n n 2
1 = exp 2 n , 4
Wir betrachten wieder die M unzw urfe aus Beispiel 6.10. Die Bernstein-Ungleichung liefert P 1 1000
1000 i=1
Xi
1 0.1 2
(6.7)
1 1 2 exp 1000 4 100
= 2 exp
10 4
0.164,
was oenbar deutlich schlechter ist, als das Ergebnis mit dem SGGZ! Der Grund daf ur ist, dass n = 1000 einfach noch zu klein ist! Wir werden aber gleich sehen, dass man mit noch besseren Exponential-Ungleichungen noch deutlich bessere Ergebnisse erzielen kann.
2 F ur x < 0 ist diese Ungleichung oensichtlich. F ur x = 0 gilt Gleichheit und f ur x 1 ist x2 x, womit die Ungleichung aus der strengen Monotonie der exp-Funktion folgt. 0 < x < 1?
76
Die folgende Exponential-Ungleichung wollen wir nur angeben, nicht beweisen: 6.13 Satz (Chernov-Ungleichung): i.i.d. Seien Xi B (1, p) f ur ein p [0, 1]. Dann gilt f ur alle > 0: P 1 n 1 n
n
i=1
Xi p
exp 2n2 , exp 2n2 , 2 exp 2n2 . (6.11)
i=1 n
Xi p Xi p
1 n
i=1
Noch allgemeiner sogar ist die folgende Ungleichung, die wir ebenfalls nicht beweisen wollen: 6.14 Satz (Hoeding-Ungleichung): Seien X1 , ..., Xn i.i.d. Zufallsvariablen. Es gebe reelle Zahlen a < b s.d. a Xi b f ur alle 1 i n. Mit c := b a gilt dann f ur alle > 0: P 1 n
n
i=1
Xi E (X1 )
2 exp 22
n . c2
Bemerkung 6.15: Oenbar folgt die Chernov-Ungleichung aus der Hoeding-Ungleichung mit a = 0 und b = 1. Beispiel 6.16: Wir betrachten wieder die M unzw urfe aus Beispiel 6.10. Die Chernov-Ungleichung liefert hier P 1 1000
1000 i=1
Xi
1 0.1 2
(6.11)
2 exp 2 1000
1 100
= 2 exp (20) 0.00000000412
- besser gehts nicht!
7 Faltung, bedingte Verteilungen und Korrelation
77
7
7.1
Faltung, bedingte Verteilungen und Korrelation

Die Faltung
Wir betrachten oft Summen unabh angiger Zufallsvariablen. Was kann man u ber die Verteilung dieser Summe aussagen? 7.1 Satz: Es seien X1 , ..., Xn unabh angige Zufallsvariablen auf dem diskreten Wahrscheinlichkeitsraum (, P ). (1) Dann ist die Verteilung P X1 +...+Xn der Summe X1 + ... + Xn durch die Verteilungen P X1 , ..., P Xn der Zufallsvariablen X1 , ..., Xn festgelegt. (2) F ur x (X1 + ... + Xn ) () (also x im Wertebereich der Summe) gilt P (X1 + ... + Xn = x) =
x1 X1 (),...,xn Xn () x1 +...+xn =x
P (X1 = x1 ) ... P (Xn = xn ) .
(7.1)
Beweis: Oenbar folgt (2) aus (1). F ur (1) sehen wir zun achst, dass {X1 + ... + Xn = x} = Damit folgt P (X1 + ... + Xn = x) =
x1 X1 (),...,xn Xn () x1 +...+xn =x
x1 X1 (),...,xn Xn () x1 +...+xn =x
{X1 = x1 , ..., Xn = xn } .
P (X1 = x1 , ..., Xn = xn )
x1 X1 (),...,xn Xn () x1 +...+xn =x
P (X1 = x1 ) ... P (Xn = xn )
und die Behauptung ist gezeigt. 7.2 Denition: Seien X1 , ..., Xn unabh angige Zufallsvariablen. Wir denieren die Faltung von P X1 , ..., P Xn als P X1 ... P Xn := P X1 +...+Xn . Obiger Satz, Teil (2), rechtfertigt diese Bezeichnung. 7.3 Denition: F ur Wahrscheinlichkeitsverteilungen P1 , ..., Pn auf deniert man allgemeiner die Faltung P1 ... Pn als die Verteilung von X1 + ... + Xn , wobei Xi , 1 i n, unabh angige Zufallsvariablen mit P Xi = Pi sind. Bemerkung 7.4: Im Allgemeinen (d.h. ohne Unabh angigkeit), ist die Verteilung der Summe X + Y zweier Zufallsvariablen X und Y nicht durch die Verteilungen von X und Y festgelegt. Beispiel 7.5: Seien X, Y B (1, p). In Satz 4.30 haben wir gesehen, dass dann X + Y B(2, p) gilt, d.h. die Verteilung von X + Y entspricht dem Wahrscheinlichkeitsvektor 1 1 1 , , 4 2 4 .
i.i.d.
In diesem Sinne ist die Bernoulli-Verteilung eine sch one Verteilung, ihre Faltung gibt wieder eine uns bekannte und leicht zu berechnende Verteilung - die Binomialverteilung! Beispiel 7.6: angig und es gilt auch Sei X B 1, 1 2 und Y = X . Insbesondere sind X und Y dann nicht unabh 1 Y B 1, 2 . Damit gilt 1 2 falls x = 0 0 falls x = 1 . P (X + Y = x) = P (2X = x) = 1 falls x = 2 2
78
7.1.1
Spezialfall
Seien X, Y unabh angige, diskrete Zufallsvariablen auf dem diskreten Wahrscheinlichkeitsraum (, P ) mit X () N0 , Y () N0 . Dann ist (X + Y ) () N0 und es gilt f ur k N0 : P (X + Y = k )
(7.1)
x,y N0 x+y =k
P (X = x) P (Y = y )
=
x=0 k
P (X = x) P (Y = k x) pX (x) pY (k x) (7.2)
=
x=0
Beispiel 7.7: Wir betrachten die Augensumme beim zweifachen W urfeln. Setze dazu X1 := erster Wurf und X2 := zweiter Wurf. Wir haben in einem fr uheren Beispiel schon gesehen, dass die Verteilung der Summe P (X + Y = k ) f ur k = 2, ..., 12 den Wahrscheinlichkeitsvektor 1 2 3 4 5 6 5 4 3 2 1 , , , , , , , , , , 36 36 36 36 36 36 36 36 36 36 36 liefert. Das kann man mit der obigen Darstellung leicht nachrechnen. 7.1.2 Faltungen einiger wichtiger Verteilungen
7.8 Satz: Seien X, Y zwei unabh angige, diskrete Zufallsvariablen mit X Poi () , Y Poi () f ur zwei Parameter 0 < , < . Dann gilt X + Y Poi ( + ) . Beweis: Da die Poisson-Verteilung f ur Zufallsvariablen mit Werten in N0 deniert ist, k onnen wir obigen Spezialfall anwenden: P (X + Y = k )
(7.2) k x=0 k
P (X = x) P (Y = k x) exp () x kx exp () x! (k x)!

k
=
x=0
= = = Das zeigt die Behauptung.
k! 1 exp ( ( + )) x kx k! x ! ( k x )! x=0 1 k exp ( ( + )) ( + ) k! poi+ (k ) .
Damit ist also die Faltung zweier Poisson-Verteilungen einfach die Poisson-Verteilung zur Summe der Parameter. Praktisch braucht man dieses Ergebnis etwa bei den Anrufen pro Minute in einem Call-Center, die aus zwei Zentralen zusammenlaufen. Die Anzahl der Anrufe pro Minute ist bei der ersten Zentrale dabei Poi () verteilt, bei der zweiten Zentrale Poi () verteilt. Der Satz oben sagt uns nun, dass die Gesamtzahl der Anrufe pro Minute im Call-Center dann Poi ( + ) verteilt ist. 7.9 Hilfssatz: Es gilt
k x=0
n x
m kx
n+m . k
79
Beweis: oglichkeiten, b Wir wir im Kapitel u ber Kombinatorik gesehen haben, ist a b genau die Anzahl der M m genau die Anzahl der M oglichkeiten, Elemente aus einer a-elementigen Menge auszuw ahlen. Also ist n+ k aus der Menge {1, ..., n + m} genau k Elemente auszuw ahlen. Eine solche Auswahl kann zerlegt werden in die Elemente, die aus {1, ..., n} ausgew ahlt werden, und die Elemente, die aus {n + 1, ..., n + m} ausgew ahlt werden. Die Summe dieser beiden Auswahlen muss entsprechend k ergeben. Jetzt klassizieren wir dies nach der Kardinalit at x der ersten Auswahl, die m genau die Summe all dieser Klassikationen, d.h. zwischen 0 und k liegen muss. Oenbar ist dann n+ k n+m k was die Behauptung zeigt. 7.10 Satz: Seien X B (n, p) und Y B (m, p) unabh angige Zufallsvariablen mit Parametern p [0, 1] und n, m N. Dann gilt X + Y B (m + n, p) . Beweis: F ur 0 k m + n gilt P X +Y (k ) =
(7.2) k
=
x=0
n x
m , kx
P (X + Y = k )
k x=0 k
P (X = x) P (Y = k x) m n x m(kx) nx pkx (1 p) p (1 p) kx x n x m nx+mk+x pk (1 p) kx

k n+mk x=0
=
x=0 k
=
x=0
=
Hilfssatz 7.9
pk (1 p)
n x
m kx
n+m k n+mk p (1 p) . k
Das das Ende dieser Gleichung der Binomialverteilung mit Parametern n + m und p ist, folgt die Behauptung.
80
7.2
Bedingte Verteilungen
/ diskrete
7.11 Denition: / , Y : Sei (, P ) ein diskreter Wahrscheinlichkeitsraum und seien X : Zufallsvariablen auf diesem Raum. Sei weiter x X () mit P (X = x) > 0. Die bedingte Verteilung von Y gegeben X = x ist P (Y A | X = x) f ur A . Die bedingte Wahrscheinlichkeitsfunktion von Y gegeben X = x ist pY |X (y |x) := P (Y = y | X = x) = p(X,Y ) (x, y ) P (Y = y, X = x) = , P (X = x) pX (x)
(x, y ) , .
D.h. f ur jedes x wie in der Annahme ist pY |X (|x) eine Wahrscheinlichkeitsfunktion auf bzw. Y (). Beispiel 7.12: Wir w urfeln zweimal mit einem fairen W urfel und denieren unsere Zufallsvariablen X1 , X2 als die Ergebnisse des i-ten Wurfes, i = 1, 2 entsprechend. Nat urlich sind X1 und X2 unabh angig. Setze nun Y := X1 + X2 , X := X1 . Dann ist Y die Augensumme des Experiments. Zun achst berechnen wir formal P (Y = y | X = x) = = =
X1 ,X2 unabh angig
P (X1 + X2 = y | X1 = x) P (X1 + X2 = y, X1 = x) P (X1 = x) P (X2 = y x, X1 = x) P (X1 = x) P (X2 = y x) =

1 6
falls 1 y x 6 . sonst
Zur Verdeutlichung wollen wir noch die Tabelle der bedingten Wahrscheinlichkeitsfunktion pY |X (y |x) angeben. In der x-ten Zeile steht dabei pY |X (|x): x/y 1 2 3 4 5 6 2
1 6
3
1 6 1 6
4
1 6 1 6 1 6
5
1 6 1 6 1 6 1 6
6
1 6 1 6 1 6 1 6 1 6
7
1 6 1 6 1 6 1 6 1 6 1 6
8 0
1 6 1 6 1 6 1 6 1 6
9 0 0
1 6 1 6 1 6 1 6
10 0 0 0
1 6 1 6 1 6
11 0 0 0 0
1 6 1 6
12 0 0 0 0 0
1 6
0 0 0 0 0
0 0 0 0
0 0 0
0 0
Beispiel 7.13: Seien X B (n, p) und Y B (m, p) unabh angige Zufallsvariablen. Die bedingte Verteilung von X gegeben X + Y = k entspricht dann (nach Satz 7.10 ist X + Y B (n + m, r)) der Frage Wie viele Erfolge treten in den ersten n Experimenten auf, wenn k Erfolge in n + m Experimenten auftreten?
81
Man berechnet pX |X +Y (j |k ) = =
X,Y unabh angig
P (X = j | X + Y = k ) P (X = j, Y = k j ) P (X + Y = k ) P (X = j ) P (Y = k j ) P (X + Y = k )
n j
pj (1 p)
m k j n+m k
nj
n+m k
n j
pk (1 p)
m k j
pkj (1 p)
m+nk
m ( k j )
und sieht so, dass die bedingte Verteilung genau der hypergeometrischen Verteilung f ur das Experiment n + m Kugeln gegeben, davon n rote. Ziehe k Kugeln und bestimme die Wahrscheinlichkeit, dass genau j rote Kugeln darunter sind! entspricht. Beispiel 7.14: Seien X Poi () , Y Poi () unabh angige Zufallsvariablen. Wir modellieren damit etwa Anfragen an einen Server, die u ber zwei Zwischenstellen eingehen. Dabei wird die Anzahl der Anfragen pro Minute an der ersten Zwischenstelle mittels X1 und die Anzahl der Anfragen pro Minute an der zweiten Zwischenstelle mittels X2 simuliert. Die bedingte Verteilung von X gegeben X + Y = k ist dann die Frage, wie viele der Anfragen am Server von der ersten Zwischenstelle kommen. Nach Satz 7.8 ist X + Y Poi ( + ) und damit berechnet man pX |X +Y (j |k ) = =
X,Y unabh angig
P (X = j | X + Y = k ) P (X = j, Y = k j ) P (X + Y = k ) P (X = j ) P (Y = k j ) P (X + Y = k )
exp () j ! exp () (kj )! ) exp ( ) (+ k!
k j k j
= =
1 k j k j j k j j ( + ) ( + ) k j +
j
+
=1 +
k j
Damit ist die bedingte Verteilung von X gegeben X + Y = k genau durch B k, +
gegeben.
Nach obigen Beispielen kann man schon vermuten: Bemerkung 7.15: Die Zufallsvariablen X und Y sind genau dann unabh angig, wenn pY |X (y |x) = pY (y ) (x, y ) gilt. Beweis: Nach Denition der bedingten Wahrscheinlichkeit ist pY |X (y, x) = pY (y ) Wir sehen also p(X,Y ) (x, y ) = pY (y ) pX (x) P (X,Y ) (x, y ) = P Y (y ) P X (x).
Nach Satz 4.18 ist die hintere Bedingung aber aquivalent zur Unabh angigkeit von X und Y .
pY |X (y |x) = pY (y ) (x, y ) P (X,Y ) = P X P Y .
82
7.2.1
Der bedingte Erwartungswert
7.16 Denition: / , Y : / diskrete Sei (, P ) ein diskreter Wahrscheinlichkeitsraum und seien X : Zufallsvariablen auf diesem Raum. F ur x mit P (X = x) > 0 ist der bedingte Erwartungswert von Y gegeben X = x deniert durch E (Y | X = x) = Beispiel 7.17: Wir betrachten zweifaches W urfeln wie oben mit den Zufallsvariablen Y =Augensumme und X =erster Wurf. Dann schlieen wir aus obiger Tabelle, dass
12
y Y ()
y pY |X (y |x) .
E (Y | X = x) = Beispiel 7.18:
y =2
y pY |X (y |x) =
y = x + 3.5. 6 y =x+1
x+6
Seien X Poi () und Y Poi () unabh angig. Dann ist die bedingte Verteilung von X gegeben X + Y = x genau durch B x, + gegeben, womit nach dem Erwartungswert f ur Binomial-Experimente sofort E X X +Y =x =x + folgt. 7.2.2 Die bedingte Erwartung
Der eben denierte bedingte Erwartungswert E (Y | X = x) ist eine Funktion von x. Setze daher g (x) := E (Y | X = x) , 7.19 Denition: Die Abbildung g (X ) : / R, also
X
x X () .
/ X ()
/R
ist eine Zufallsvariable auf und heit die bedingte Erwartung von Y gegeben X . Wir schreiben auch E (Y | X ) := g (X ) . Beispiel 7.20: Wir w urfeln wieder wie in Beispiel 7.17. Dort haben wir schon berechnet, dass E (Y | X = x) = x + 3.5 gilt. Daher ist die bedingte Erwartung hier die Zufallsvariable E (Y | X ) = X + 3.5. Beispiel 7.21: Wir betrachten wieder Poisson-verteilte Zufallsvariablen X und Y wie in Beispiel 7.18. Mit der Rechnung aus diesem Beispiel folgt . E (X | X + Y ) = (Y + X ) + Wir wollen nun zeigen, dass man manchmal den Erwartungswert E (Y ) sehr gut mit Hilfe der bedingten Erwartung berechnen kann. Dazu nutzen wir den folgenden Satz: 7.22 Satz (iterierte Erwartung): Es gilt E (Y ) = E (E (Y | X )) . Beweis: Wende Satz 7.23 mit f 1 an. (7.3)
83
Der folgende Satz ist allgemeiner und beinhaltet den Satz u ber die iterierte Erwartung bereits: 7.23 Satz: F ur eine beliebige Abbildung f : X () / R gilt
E (f (X ) Y ) = E (f (X ) E (Y | X )) . Beweis: Betrachte
(X,Y )
/ X () Y ()
R 2
/R
f ur h (x, y ) := f (x) y . Dann folgt mit doppelter Anwendung der Transformationsformel (Satz 5.12) E (f (X ) Y ) = E (h(X, Y )) =
xX () y Y ()
h(x, y )P (X = x, Y = y )
=
xX () y Y ()
f (x) ypY |X (y |x) pX (x) ypY |X (y |x)
=
xX ()
f (x) pX (x)
y Y ()
=E (Y | X =x)
=
xX ()
f (x) pX (x) E (Y | X = x)
=g (x)
=
xX ()
f (x)g (x) pX (x)
= E (f (X ) g (X )) = E (f (X ) E (Y | X )) , was die Behauptung zeigt. Beispiel 7.24: Wieder zweifaches W urfeln wie in Beispiel 7.17 (also Y =Augensumme, X =erster Wurf). Wir haben oben schon gesehen, dass E (Y | X ) = X + 3.5 gilt. Damit folgt aus dem Satz oben: E (Y ) 7.2.3
(7.3)
E (E (Y | X )) = E (X + 3.5) = E (X ) + 3.5 = 7.
Anwendung der iterierten Erwartung
7.25 Denition: Sei I eine beliebige Indexmenge und seien Xi , i I Zufallsvariablen. Wir nennen Xi , i I unabh angig, angig ist. falls jede endliche Teilfamilie Xij , j J , #J < , unabh Der folgende Satz behandelt den Erwartungswert zuf alliger Summen: 7.26 Satz (Waldsche Identit at): Sei N eine Zufallsvariable mit Werten in N0 . Seien X1 , X2 , ... Zufallsvariablen mit gleichem Erwartungswert und N, X1 , X2 , ... im obigen Sinne unabh angig. Setze
N ( )
SN ( ) :=
i=1
Xi ( ) .
Dann gilt E (SN ) = E (N ) E (X1 ) .
84
Beweis: Es gilt
n
pSN |N (j |n) =
P (SN = j, N = n) = P (N = n)
n i=1 n
P
i=1
Xi = j, N = n P (N = n) .
Nach Dem Blockungslemma (Satz 4.24) sind auch
Xi und N unabh angig, das liefert
pSN |N (j |n) = P Damit ist aber per Denition E (SN | N = n) =
Xi = j
i=1
j =0
jP
n
Xi = j
i=1
= E
i=1
Xi
= n E (X1 ) , da nach Voraussetzung alle Xi s den gleichen Erwartungswert haben. Das zeigt E (SN | N ) = N E (X1 ) und mit dem Satz u ber die iterierte Erwartung folgt E (SN ) Das zeigt die Behauptung. Beispiel 7.27: Wir betrachten N als die Anzahl Schadensf alle in einem Jahr bei einer Versicherung und X1 , X2 , ... als die entsprechenden Schadensh ohen. Dann liefert uns die Waldsche Identit at eine Formel f ur die zu erwartenden Leistungen, die die Versicherung zu zahlen hat. Beispiel 7.28: Wir betrachten N als Anzahl von M unzw urfen, bis das Ergebnis Kopf zum ersten Mal auftritt und Xi als die Augenzahl eines W urfelwurfs. Dann entspricht die Summe
N ( ) (7.3)
E (E (SN | N )) = E (N E (X1 )) = E (N ) E (X1 ) .
SN ( ) :=
i=1
Xi ( )
genau der Summe der Augenzahlen der W urfelw urfe, bis bei parallelen M unzw urfen erstmalig Kopf gilt, liefert die Waldsche Identit a t kommt. Da N Geo 1 2 E (SN ) = E (N ) E (X1 ) = 2 3.5 = 7. 7.2.4 Anwendung des allgemeineren Satzes (Satz 7.23)
Wir wollen hier E (Y | X ) als bester Vorhersager von Y gegeben die Information X betrachten (bez uglich des erwarteten quadratischen Fehlers). Wir beobachten zun achst: Bemerkung 7.29: Sei Y eine reelle Zufallsvariable. Die reelle Zahl a = a R, so dass der erwartete quadratische Fehler (E (Y a)2 ) minimal wird, ist a = E (Y ). Beweis: Per Denition ist f ur unser a genau E (Y a )2 = V (Y ).
85
Kleiner kann dieser Wert nicht werden, denn V (Y ) ist minimal, denn setzt man f (a) = E (Y a)2 = E (Y 2 ) 2aE (Y ) + a2 , so ist f (a) = 2E (Y ) + 2a = 0 a = E (Y ).
Da es sich bei f um eine nach oben ge onete Parabel handelt, ist a = E (Y ) somit das eindeutige globale Minimum. 7.30 Satz: Seien X und Y reelle Zufallsvariablen. F ur jede Funktion : X () E (Y (X ))
2
/ R ist
E (Y E (Y | X ))2
und Gleichheit gilt genau f ur (x) = E (Y | X ). Beweis: Sei : X () / R eine beliebige Funktion. Dann gilt E (Y E (Y | X ))
2
+ E ((X ) E ( Y | X ))
2
= E Y 2 2E (Y E (Y | X )) + E (E (Y | X )) +E ((X )) Nach Satz 7.23 sind E ((X ) E (Y | X )) = E ((X ) Y )

=:f (X ) 2
(7.4)
2
2E ((X ) E (Y |X )) + E (E (Y |X ))
(7.5)
(7.6)
2
E (Y E (Y | X )) = E (E (Y | X ) E (Y | X )) = E (E (Y |X )) Daher folgt
(7.7)
2E (Y E (Y | X )) + E (E (Y | X ))2 2E ((X ) E (Y | X )) + E (E (Y | X ))2

(7.6) &(7.7)
2E (E (Y |X ))2 + 2E (E (Y |X ))2 2E ((X ) Y ) 2E ((X ) Y ) E (Y E (Y |X ))

(7.5) 2
und damit haben wir + E ((X ) E (Y |X ))

2
E (Y 2 ) 2E ((X ) Y ) + E ((X ))2 E (Y (X ))

2
=
2
Da ((X ) E (Y |X )) 0 ist auch E ((X ) E (Y |X ))
0 und es folgt die Behauptung.
Bemerkung 7.31: In diesem Sinn ist E (Y | X ) der beste Vorhersager von Y gegeben X , denn er minimiert den erwarteten quadratischen Fehler.
7.3
Korrelation
Wir wollen nun den besten Vorhersager der Form aX + b (a, b R) nden. Das heit, wir betrachten im Folgenden nur lineare . 7.32 Denition: Seien X, Y reelle Zufallsvariablen mit V (X ) > 0, V (Y ) > 0. Ihr Korrelationskoezient ist X,Y := CoV(X, Y ) V (X ) V (Y ) = CoV(X, Y ) . X Y
86
Bemerkung 7.33: X und Y sind unkorreliert genau dann, wenn X,Y = 0 ist. 7.34 Satz (Bester linearer Vorhersager): Y Die Zahl E (Y aX b)2 wird minimal f ur a = X,Y und b = E (Y ) X den minimalen Wert gilt: 2 E (Y a X b ) = 1 2 X,Y V (Y ),
Y X
X,Y E (X ). F ur
wobei (1 2 uber dem konstanten Vorhersager V (Y ) ist. X,Y ) die Verbesserung gegen Beweis: F ur festes a wird laut Bemerkung 7.29 E (Y aX b)2 minimiert (wobei wir Y aX als Zufallsvariable Z betrachten und b nden wollen, s.d. der Ausdruck minimiert wird) durch b = E (Y aX ) = E (Y ) aE (X ) und es ist 2 E (Y aX b ) = V (Y aX ). Nun m ussen wir ein a nden, sodass V (Y aX ) minimal wird. Wenn wir f (a) := V (Y aX ) = V (Y )+CoV(Y, aX )+CoV(aX, Y )+ V (aX ) = V (Y ) 2a CoV(X, Y )+ a2 V (X ) setzen, so ist genau dann, wenn a = a = CoV(X, Y ) Y X,Y = V (X ) X f (a) = 2 CoV(X, Y ) + 2aV (X ) = 0
ist und es folgt durch Einsetzen in die Gleichung oben V (Y a X ) = V (Y ) 2 = V (Y ) 2 CoV(X, Y ) CoV(X, Y ) + V (X ) CoV(X, Y )2 CoV(X, Y )2 + V (X ) V (X ) CoV(X, Y )2 V (X ) CoV(X, Y ) V (X )
2
V (X )
= V (Y ) 1
= V (Y ) 1 2 X,Y Das zeigt die Behauptung. Bemerkung 7.35: Mit a = 0 und b = E (Y ) folgt: 0 E (Y a X b )
=(12 X,Y )V (Y ) 2
E (Y 0X E (Y ))
= V (Y )
und damit 0 2 X,Y 1 bzw. 1 X,Y 1. 7.36 Denition: Ist X,Y > 0, so nennen wir X und Y positiv korreliert. Mit dem Satz oben bedeutet das, dass wir in diesem Fall bei gr oeren X -Werten auch gr oere Y -Werte voraussagen. 7.37 Denition: Ist X,Y < 0, so nennen wir X und Y negativ korreliert. Mit dem Satz oben bedeutet das, dass wir in diesem Fall bei gr oeren X -Werten kleinere Y -Werte voraussagen.
8 Erzeugende Funktion und Verzweigungsprozesse
87
Erzeugende Funktion und Verzweigungsprozesse
In diesem Abschnitt werden wir sehen, dass man Wahrscheinlichkeitsverteilungen Funktionen3 zuordnen kann, sodass kompliziertes Rechnen mit Wahrscheinlichkeitsverteilungen (z.B. Faltungen) zum einfachen Rechnen mit den zugeh origen Funktionen wird (z.B. Produkt der Funktionen). In der Wahrscheinlichkeits- und Matheorie wird dies bei Momenterzeugenden Funktionen und bei Fourier-Transformationen genutzt. Wir betrachten hier nun als einfacheres Beispiel f ur analytische Methoden: 8.1 Denition (Erzeugende Funktion): Sei X eine diskrete Zufallsvariable auf dem diskreten Wahrscheinlichkeitsraum (, P ) mit Werten in N0 . Sei pk = P (X = k ) f ur k N0 . Die erzeugende Funktion (der Verteilung) von X ist die Funktion gX (t) :=
k=0
pk t k .
Bemerkung 8.2: pk = 1 und pk 0 folgt, dass gX (t) f ur alle t [1, 1] konvergiert (sogar absolut). Wegen gX (1) =
k=0
Insbesondere gilt gX (1) = 1. Folglich k onnen wir den Dierenzierbarkeitssatz f ur Potenzreihen anwenden, das liefert das folgende 8.3 Lemma: F ur t (1, 1) ist die j -te Ableitung gegeben durch gX (t) =
(j ) k =j
k (k 1) ... (k j + 1) pk t(kj ) .
8.4 Satz: Die Verteilung von X ist durch gX festgelegt. Beweis: (j ) Es gilt P (X = 0) = p0 = gx (0) und mit obigem Lemma gx (0) = j ! pj , das heit P (X = j ) = Es folgt die Behauptung. Beispiel 8.5: Sei X Poi(). Dann gilt gX (t) =
k=0
1 (j ) g (0). j! X
exp()
pk
k k t = exp() k!
k=0
(t)k = exp() exp( t) k!
Diese Funktion sieht f ur = 2 wie folgt aus:
2 1
1 t
Abbildung 10: Die erzeugende Funktion gX f ur X Poi (2).

3 Das
meint entweder R
/ R oder C
/ C!
88
Beispiel 8.6: Sei X B(n, p). Dann gilt

n
gX (t)
=
k=0
n k p (1 p)nk tk k
= Diese Funktion sieht f ur n = 2 und p =

1 2
(p t + (1 p))n
wie folgt aus:
2 1
1 t
Abbildung 11: Die erzeugende Funktion gX f ur X B 2, 1 2 . 8.7 Satz (Eigenschaften): Sei g = gX eine erzeugende Funktion. F ur 0 t 1 ist g stetig, monoton wachsend und konvex. Es gilt und allgemeiner
t1 t1
lim g (1) (t) = E (X )
lim g (j ) (t) = E (X (X 1) (X 2) ... (X j + 1)) .
Man nennt dies j -tes faktorielles Moment von X . Beweis: Als absolut konvergente Potenzreihe ist g in [1, 1] stetig. Da mit dem Lemma g (t) =
k=1
k p k t k 1
gilt und k pk 0 ist, ist g 0 in [0, 1] und daher g monoton wachsend in [0, 1]. g ist konvex, da es eine positive (pk 0!) Linearkombination der konvexen Funktion t tk mit k 0 ist. Der Abelsche Grenzwertsatz besagt: Wenn ak 0 und ak R so gilt
t1 k=0 k=0
lim
ak tk =
ak
wobei beide Seiten sein k onnen. Mit der Transformationsformel f ur den Erwartungswert (Satz 5.12) gilt f ur die Funktion h(k ) := k (k 1) ... (k j + 1)
t1
lim g (j ) (t)
=
k =j
k (k 1) ... (k j + 1) pk
E (h(X )) E (X (X 1)(X 2) ... (X j + 1)).
89
Beispiel 8.8: Sei X Poi(). Wir wollen nun E (X ) und V (X ) analytisch bestimmen (obwohl wir das Ergebnis ja schon kennen). Die erzeugende Funktion ist nach Beispiel 8.5 gX (t) = exp() exp(t). Man berechnet die Ableitungen gX (t) gX (t) Mit dem Satz ist
t1 (2) (1)
= =
(1)
exp() exp(t) exp() 2 exp(t).
E (X ) = lim gX = exp() exp() = und

t1
E (X (X 1)) = E X 2 E (X ) = lim gX (t) = 2 . Wir erhalten durch Umstellen V (X ) = E X 2 (E (X )) = 2 + 2 = . 8.9 Satz: Seien X, Y unabh angige Zufallsvariablen mit Werten in N0 . Dann gilt gX +Y (t) = gX (t) gY (t), t [1, 1] .
2
(2)
Beweis: Sei t [1, 1] fest. Wir sehen mit der Transformationsformel (Satz 5.12) f ur die Funktion h(x) := tx , x 0: E tX = E (h(X )) =
k=0
tk P (X = k ) = gX (t) .
Nach dem Blockungslemma sind auch die Zufallsvariablen tX und tY unabh angig und mit der Produktformel f ur den Erwartungswert unabh angiger Zufallsvariablen (Satz 5.19) folgt gX +Y (t) = E tX +Y = E tX tY = E (tX ) E (tY ) = gX (t) gY (t). Das zeigt schon die Behauptung. Beispiel 8.10: Wir wollen nun mit dieser Formel zeigen, dass Poi() Poi() = Poi( + ) gilt. Beweis: Seien X Poi() und Y Poi() unabh angig. Dann gilt gX +Y (t)
Satz 8.9
gX (t) gY (t) exp() exp(t) exp() exp(t) exp(( + )) exp(( + )t)
= =
und da nach Satz 8.4 die Verteilung von X + Y bereits durch gX +Y festgelegt ist folgt die Behauptung. Wir wollen an dieser Stelle noch einen zweiten, elementaren Beweis ohne Benutzung des Erwartungswertes bzw. des Blockungslemmas f ur die oben schon gezeigte Formel gX +Y (t) = gX (t) gY (t), t [1, 1] (8.1)
f ur unabh angige Zufallsvariablen X, Y mit Werten N0 geben:
90
Beweis: Per Denition ist gX +Y (t) =

k=0 (7.2) k=0
P (X + Y = k ) t k
k
j =0
Cauchy-Reihenprodukt
P (X = j ) P (Y = k j )
k=0
tk
=tj tkj
j =0
= was die Behauptung schon zeigt.
gX (t) gY (t),
P (X = j ) t j
P (Y = k ) t k
Folgerung 8.11: F ur endlich viele unabh angige, N0 -wertige Zufallsvariablen X1 , ..., Xn gilt gX1 +...+Xn = gX1 ... gXn als Funktion. Beweis: Einfach induktiv (8.1) anwenden. 8.12 Satz (Erzeugende Funktion f ur zuf allige Summe): Seien N, X1 , X2 , ... unabh angige, N0 -wertige diskrete Zufallsvariablen auf (, P ), s.d. die Zufallsvariablen X1 , X2 , ... alle die gleiche Verteilung haben. Setze
N ( )
SN ( ) :=
j =1
Xi ( ) ,
Dann ist gSN (t) = (gN gX1 ) (t) = gN (gX1 (t)) t [1, 1] . Beweis: Da nach dem Blockungslemma auch N und fest, dass P (Sn = k )
n i=1
Xi f ur jedes n N0 unabh angig sind, stellen wir zun achst

n=0
P (N = n, Sn = k )
n=0
P (N = n) (Sn = k )
(8.2)
Damit folgt direkt aus der Denition der erzeugenden Funktion f ur t [1, 1], dass gSN (t) =
(8.2) k=0
P (SN = k ) t k
k=0 n=0 absolute Konvergenz
P (N = n) P (Sn = k ) tk
k=0 =gSn (t)
n=0
P (N = n)
P (Sn = k ) tk
= gX1 (t)...gXn (t)
Folgerung 8.11
=
X1 ,X2 ,... gleich verteilt
n=0
P (N = n) gX1 (t) ... gXn (t) P (N = n) (gX1 (t))

n
n=0
gN (gX1 (t)) .
91
Das zeigt die Behauptung. Als Korollar erhalten wir hier einen Spezialfall (N0 -wertige Zufallsvariablen) der Waldschen Identit at: Korollar 8.13: Unter den Voraussetzungen von Satz 8.12 gilt E (SN ) = E (N ) E (X1 ) . Beweis: F ur jede Zufallsvariable X ist nach Satz 8.7 E (X ) = lim gX (t). Daher folgt:
t1
E (S N )
=
Satz 8.12
t1
lim gS (t) N
t1
lim (gN gX1 ) (t)

lim g (X1 ) (t) gN (gX1 (t)) t1
= =
t1 t1
lim g (X1 ) (t) lim gN (gX1 (t))
Da nach Bemerkung 8.2 gX1 (1) = 1 gilt und gX1 nach Satz 8.7 monoton wachsend ist, gilt ur t 1. gX1 (t) 1 f
(t) = E (N ) existiert, folgt Da lim gN t1
E (SN ) = =
t1
lim g (X1 ) (t) lim gN (gX1 (t)) t1 t1
t1
lim g (X1 ) (t) lim gN (t)
= E (X1 ) E (N ), was die Behauptung zeigt.
92
8.1
Verzweigungsprozesse
Wir nehmen an, dass es in der 0-ten Generation Z0 = 1 Teilchen gibt. Dieses erzeugt eine zuf allige Anzahl k N0 von Nachkommen gem a einer Wahrscheinlichkeitsfunktion, die durch p0 , p1 , p2 , ... gegeben ist. Dabei bezeichnet pi die Wahrscheinlichkeit, dass i Nachkommen erzeugt werden etc.. Diese Nachkommen bilden die erste Generation. Die Teilchen der ersten Generation erzeugen dann unabh angig voneinander wieder Nachkommen nach dem gleichen Zufallsgesetz p0 , p1 , p2 , .... Diese Nachkommen bilden dann die zweite Generation usw.. 8.1.1 Modellbildung
Diesen Prozess wollen wir nun modellieren: ur n, j N unabh angige Sei (pk )kN0 die vorgegebene Wahrscheinlichkeitsfunktion. Seien auerdem Xn,j f Zufallsvariablen mit Werten in N0 und P (Xn,j = k ) = pk f ur alle n, j N und k N0 . Sei zuletzt Z0 = 1. Die Anzahl der Teilchen in der ersten Generation sei durch Z1 := X1,1 gegeben. Wir denieren nun induktiv die Anzahl der Teilchen in der n-ten Generation: Ist Zn1 (also die Anzahl Teilchen in der n-ten Generation) schon deniert, so setze
Zn 1
Zn :=
j =1
Xn,j .
Die Xn,j entspricht also der Anzahl an Nachkommen, die das j -te Element aus der n 1-ten Generation zur n-ten Generation beisteuert. Die Folge von Zufallsvariablen (Zn )nN heit dann Galton-Watson-Prozess. 8.1.2 Motivation
Verzweigungsprozesse werden aus den verschiedensten Motivationen heraus betrachtet: So interessierten sich um 1870 einige Forscher f ur die Wahrscheinlichkeit des Aussterbens von Familiennamen, welche mittels eines Verzweigungprozesses wie oben berechnet werden kann. Heutzutage werden Verzweigungsprozesse vor allem in der Kernphysik und beim Studium von Netzwerken gebraucht. 8.1.3 Aussterbewahrscheinlichkeit
Sei qn := P (Zn = 0) die Wahrscheinlichkeit, dass die n-te Generation leer ist (d.h. zur Generation n oder fr uher ausgestorben), n N. Dann ist q1 die Wahrscheinlichkeit, dass der Prozess in der ersten Generation ausstirbt usw.. Oenbar ist das Ereignis, dass der ganze Prozess irgendwann ausstirbt, gegeben als J :=
n=1
{Zn = 0} .
Auch klar ist, dass {Zn = 0} {Zn+1 = 0} f ur alle n N gilt, da der Prozess nat urlich ausgestorben bleibt, wenn er einmal ausgestorben ist. Mit (R9) aus 1 folgt q = P (J ) = lim P (Zn = 0) = lim qn .
n n
Wir nennen q auch die Aussterbewahrscheinlichkeit des Prozesses. Zur Bestimmung von q k onnen wir also die Zahlen qn berechnen. Dazu wollen wir die erzeugenden Funktionen gZn (0) = P (Zn = 0) = qn nutzen. Da nach Konstruktion alle Zufallsvariablen Xn,j die gleiche Verteilung, ergo auch die gleiche erzeugende Funktion g (t) := gXn,j (t) = mit den am Anfang vorgegebenen Zahlen pk haben, gilt gZ1
Z1 =X1,1
pk t k
k=0
gX1,1 = g.
93
Genauso folgt
Z1
Z2 =
j =1 Z2
X2,j
(8.12)
gZ2 = gZ1 gX1,1 = g g gZ3 = gZ2 gX2,1 = g g g
Z3 =
j =1
X3,j
(8.12)
und induktiv gZn = g ... g .

nmal
Daher ist q = lim qn = lim gZn (0) = lim g ... g (0).

n n n nmal
8.14 Lemma: Die Zahl q = lim g ... g (0)

n nmal
ist die kleinste L osung der Gleichung g (t) = t im Intervall [0, 1]. Beweis: Da g monoton steigend ist und g (1) = 1 gilt, ist g eine Selbstabbildung auf [0, 1]. Daher ist g (0) 0 und entsprechend g (g (0)) g (0) mit der Monotonie. Induktiv folgt, dass die Folge qn = g ... g (0) monoton wachsend und durch 1 beschr ankt ist. Daher existiert die Zahl q . Jetzt zeigen wir zun achst, dass q eine L osung von g (t) = t ist: g (q ) = g
n
lim g ... g (0)

nmal
g stetig
lim g ... g (0) = q.

(n+1)mal
Bleibt zu zeigen, dass q die kleinste Zahl aus [0, 1] mit dieser Eigenschaft ist. Sei x [0, 1] mit g (x) = x. Insbesondere gilt dann auch f ur alle n N g ... g (x) = x.
nmal
Aus der Monotonie von g folgt 0 x g (0) g (x) = x g (g (0)) g (g (x)) = x g ... g (0) x n N.
nmal
Durch Bilden des Grenzwertes n 8.15 Denition: Wir nennen g : [0, 1] mischen Systems.
/ erh alt man die Behauptung.
/ [0, 1] ein dynamisches System und die Zahl q heit Grenzwert des dyna-
94
Beispiel 8.16:
1 Sei pk := exp () k! mit = 2 , so kann man am Graphen der erzeugenden Funktion
k
g (t) = exp () exp (t) leicht sehen, dass t = 1 die kleinste L osung der Gleichung g (t) = t ist:
g (t)
t
1 exp Abbildung 12: Die Funktion g (t) = exp 2 1 2t
Daher ist hier q = 1, was bedeutet, dass der Prozess mit Sicherheit ausstirbt! Verwendet man dagegen = 2, so kann man am Graphen von g (t) = exp () exp (t) leicht sehen, das der kleinste Wert t mit g (t) = t kleiner als 1 (n amlich t 0.2032) ist:
g (t) t Abbildung 13: Die Funktion g (t) = exp (2) exp (2t). Wir wollen nun noch einige Aussagen u ber q allein mittels der Zahlen p0 = P (Xn,j = 0) und E (Xn,j ) ohne Beweis angeben. Den Beweis lassen wir allein deshalb weg, weil er elementare Analysis ist und sonst nichts mit Stochastik zu tun hat. 8.17 Satz (ohne Beweis): (1) Ist p0 = 0, so gilt q = 0. (2) Ist p0 > 0 und E (Xn,j ) > 1, so ist q ]0, 1[. (3) Ist p0 > 0 und E (Xn,j ) = 1, so gilt trotzdem q = 1.
k Auf den Ubungsbl attern wird f ur die Zahlen pk := p (1 p) explizit gezeigt, dass
q < 1 E (Xn,j ) > 1.
9 Grenzwertsatz von de Moivre-Laplace
95
9
9.1
Grenzwertsatz von de Moivre-Laplace

Normalapproximation der Binomialverteilung
Diese Approximation liefert ein Ergebnis f ur Summen unabh angiger Bernoulli-Variablen. Sp ater wird sie als Spezialfall eines allgemeinen zentralen Grenzwertsatzes bewiesen. Seien X1 , X2 , ...Xn unabh angig und nach B(1, p) verteilt. Sei Sn = X1 + X2 + ... + Xn . Man stellt sich 0 < p < 1 fest vor und n als variabel. 1 Sei p = 2 . Betrachte zum Beispiel Stabdiagramme f ur n = 1 und S1 = X1 , n = 2 und S2 = X1 + X2 B 2, 1 2 , n = 50 und Sn =
50 i=1 1 . Xi B 50, 2
L asst man nun n gegen unendlich laufen, so ist Sn B(n, p), d.h. der Erwartungswert E (Sn ) = n p sowie die Varianz V (Sn ) = n p (1 p) gehen gegen unendlich - die Verteilung streut immer mehr. Genau das sehen wir auch bei Betrachtung der Stabdiagramme. Beide Eekte kann man stabilisieren indem man zu standardisierten Zufallsvariablen u bergeht: Setze Sn E (Sn ) Sn = . V (Sn ) Dann gilt f ur alle n N:
E (Sn ) = E
Sn E (Sn ) V (Sn ) 1 V (Sn ) E (Sn E (Sn ))
= = 0,
V (Sn ) = V
Sn E (Sn ) V (Sn )
= = =
1 V (Sn E (Sn )) V (Sn ) V (Sn ) V (Sn ) 1.
annimmt, sind Die Werte, die die Zufallsvariable Sn
k np x0 , x1 , ...xn R wobei xk = , npq Beispiel 9.1:
0 k n, q = 1 p.
50 1 ist zum Beispiel xk = k =k F ur n = 100, p = 2 5 5 10, 0 k 100. Das heit also, die Zufallsvariable nimmt im Einheitsintervall 5 Werte an. 1 5000 k F ur n = 10.000, p = 2 ist zum Beispiel xk = k50 = 50 100, 0 k 100. Das heit also, die Zufallsvariable nimmt im Einheitsintervall 50 Werte an. in einem Intervall [a, b] liegt. Dazu formuWir m ochten nun die Wahrscheinlichkeit bestimmen, dass Sn lieren wir den folgenden Satz.
96
9.2 Satz (Grenzwertsatz von de Moivre-Laplace): Sei 1 x2 (x) := exp 2 2

i.i.d
x R.
Sei 0 < p < 1 fest und seien f ur jedes n X1 , ...Xn B(1, p). Dann gilt f ur jedes Paar a < b mit a, b R:
b n b
lim P (a
Sn
b) =
a
(x) dx bzw. einseitig lim P

n
(Sn
b) =
(x) dx.
Mit der Stammfunktion

t
(t) :=
( ) d,
tR
kann man schreiben:
lim P (a Sn b) = (b) (a).
Der Beweis folgt sp ater aus dem zentralen Grenzwertsatz (Satz 10.100). Bemerkung 9.3: Die Aussagen gelten auch f ur < statt . 9.4 Denition: Die Funktion gegeben durch
t2 1 (t) := exp 2 2
nennt man auch Gausche Glockenkurve oder Dichte der Standard-Normalverteilung. Bemerkung 9.5 (Eigenschaften): Es gilt
(t) dt = 1.
Auerdem ist beliebig oft stetig dierenzierbar. Der Graph stellt sich wie folgt dar:
Abbildung 14: Die Dichte der Standardnormalverteilung (t) :=
1 2
exp t2 .
9.6 Denition: Wir nennen die Verteilungsfunktion der Standardnormalverteilung. Bemerkung 9.7: berechnet sich entsprechend wie folgt: (1) 3 2 1 1
1
Abbildung 15: Die angegebene Fl ache entspricht (1) =
1 2
exp t2
dt.
97
Oder direkt als Funktion:
0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 4.0 3.6 3.2 2.8 2.4 2.0 1.6 1.2 0.8 0.4 0 0.4 0.8 1.2 1.6 2.0 2.4 2.8 3.2 3.6 4.0
Abbildung 16: Die Verteilungsfunktion der Standardnormalverteilung.
F ur (t) gibt es keinen geschlossenen Ausdruck, daher ist es f ur Werte t 0 tabelliert: Beispiel 9.8: (1) 0.8413, (1.645) 0.95, (1.96) 0.975, d.h. zum Beispiel
n lim P (Sn 1) n
/ (1) = 0.8413.
F ur weitere Werte siehe Anhang A. Bemerkung 9.9: Um an negativen Stellen auszuwerten, betrachtet man f ur t > 0:
t
(t)
=
Symmetrie von
( ) d
( ) d
t t
( ) d
( ) d
= Beispiel 9.10: Seien X1 , ..., Xn B(1, p), Sn := Dann bestimmt man

n lim P (1 Sn 1) i.i.d
1 (t)
Sn np . Xi und Sn := npq i=1
= = =
Tabelle
(1) (1) (1) (1 (1)) 2(1) 1 2 0.8413 1 0.68
98
9.2
Anwendung I: Normalapproximation der Binomialverteilung
Wir erinnern uns: Die Poissonapproximation mit = n p f ur B(n, p) ist eine gute Approximation, wenn p sehr klein ist. Die Normalapproximation die wir nun vorstellen wollen ist gut, wenn p nicht zu nahe bei 0 oder 1 ist. Als Faustregel f ur gut gilt hier: npq 9. F ur Sn B(n, p) und ganzzahlige Werte 0 i j n gilt P (i Sn j ) = P j np Sn np i np npq npq npq
=:a de Moivre
= Sn
=:b
j np npq
i np npq
Bemerkung 9.11: Dies sieht eigentlich verboten aus, da a und b von n abh angen. Es ist jedoch kein Problem, denn man kann zeigen: / n / 0. sup | P (a Sn b) ((b) (a)) |
a<b
Fehlerabsch atzungen (nach Berry-Esseen):

| P (a Sn b) ((b) (a)) |
1.6 cp n
wobei cp konstant ist und nur von p abh angt. 1 F ur p = 2 ist zum Beispiel cp = 1 und der Fehler ist
1. 6 , n
d.h. etwa 0.016 f ur n = 10.000.

1 2
Bemerkung 9.12: Man kann die Approximation verbessern, indem man j durch j + turterme 1 ur n an Bedeutung. 2 ), dies verliert aber f Beispiel 9.13:
und i durch i
1 2
ersetzt ( Korrek
Es wird n = 600-mal gew urfelt. Sei Sn die Anzahl der Sechsen. Dann ist S600 B 600, Man berechnet mit q = 1 p: E (Sn ) = np = 600 9.13.... Damit berechnet man: 90 100 110 100 Sn 100 P 9.13 9.13 9.13
= Sn
1 6
1 6
= 100,
1 6
V (Sn ) = npq = 600
5 6
= 83 1 3,
P (90 Sn 110)
de Moivre
10 9.13
10 9.13
=
Tabelle
10 9.13
2 (1.095) 1 2 0.863 1 0.726.
99
Bei der Rechnung mit Korrekturtermen ergibt sich: P (90 Sn 110) = 10 + 1 2 9.13 10.5 9.13 1 10 9.13
1 2
2 (1.15) 1 2 0.8749 1 = 0.7498. Der wahre Wert liegt bei P (90 Sn 110) = 0.7501 - f ur n = 600 kann man diesen rechnergest utzt noch leicht exakt berechnen. Mit Tschebyschow erh alt man: P (90 Sn 110) = 1 P (|Sn 100| 11) 0.31
V (Sn ) .3 = 83 121 0.69 112
- keine groe Erkenntnis!
9.3
Anwendung II: Bestimmung eines Stichprobenumfangs
1 Aufgabe: Sch atze p durch p = n Sn . Wie gro ist n zu w ahlen, damit f ur jedes p [0, 1] mit Wahrscheinlichkeit 0.95 der wahre Wert p im (zuf alligen) Intervall [ p , p + ] liegt? Sei = 0.01, das heit 1% Abweichung ist erlaubt. Dann ist
Konkret wollen wir dies f ur Wahlvorhersagen durchf uhren. Die Aufgabe ist, den Anteil an einer Partei A aus einer Umfrage von n zuf allig ausgew ahlten Befragten heraus zu sch atzen. W ahler von A Seien X1 , ...Xn B(1, p) unabh angig und p = alle Wahlberechtigten , womit p unbekannt ist!
Pp (p [ p , p + ])
= =
de Moivre
Pp (0.01 p p 0.01) Pp np np 0.01 n 0.01 n npq npq npq 0.01 n npq 1 0.01 n npq
0.01 n npq
0.95
!
Es folgt Aus der Tabelle entnimmt man (t) 0.975 f ur t 1.96 und somit folgt
0 .01n npq
0.01 n npq
1.95 = 0.975. 2
n n n
1.96 196 pq (196)2 pq 9604.

1 4
Ist die Vorinformation p 0.1 gegeben, dann gen ugt es n (196)2 max p(1 p) = (196)2 0.1 0.9 = 3458
p[0,0.1]
Menschen zu befragen.
100
10 Allgemeine Modelle und stetige Verteilungen
10
Allgemeine Modelle und stetige Verteilungen
Von diesem Abschnitt an wollen wir uns nicht mehr l anger auf diskrete Wahrscheinlichkeitsr aume beschr anken. Motiviert durch den Grenzwertsatz von de Moivre (Satz 9.2) kann man sich vorstellen, eine Zufallsgr oe X zu betrachten, die jede reelle Zahl als Wert annehmen kann, s.d.
b
P ( a X b) =
a
(t) dt = (b) (a)
(10.1)
f ur a < b und die oben schon betrachtete Funktion t2 1 (t) = exp 2 2 .
In diesem Fall w urde man sagen, dass X Standard-Normalverteilt ist und X N (0, 1) schreiben. Auerdem deniert (10.1) eine Funktion, die jedem reellen Intervall [a, b] eine Wahrscheinlichkeit zu ordnet. F ur Anwendungen, wie wir sie ab Abschnitt 10.3 behandeln wollen, gen ugt diese Vorstellung voll und ganz. Wir wollen hier aber vorher etwas Hintergrund behandeln, der vorwiegend aus Matheorie besteht.
10.1
Allgemeine Wahrscheinlichkeitsr aume und Zufallsvariablen
10.1 Denition: Ein Wahrscheinlichkeitsraum ist ein Tripel (, A, P ), s.d. eine beliebige Menge und A eine -Algebra auf ist, d.h. ein System von Teilmengen von mit den folgenden Eigenschaften: ( 1) A ( 2) A A Ac A ( 3) A1 , A2 , ... A (A1) P (A) 0 A A (A2) P () = 1 (A3) Sind A1 , A2 , ... A paarweise disjunkt, so gilt P
i=1 i=1
Ai A
Auerdem ist P eine auf A denierte reelle Funktion mit
Ai
i=1
P (Ai ) .
P heit dann (Wahrscheinlichkeits-)Verteilung auf (, A). Bemerkung 10.2: Das Axiom ( 3) sorgt daf ur, dass Axiom (A3) Sinn macht. Beispiel 10.3: Ist eine diskrete (d.h. abz ahlbare) Menge, so kann man A = P () (d.h. die Potenzmenge von ) verwenden und erh alt so genau die diskreten Wahrscheinlichkeitsr aume, wie wir sie bisher betrachtet haben. Beispiel 10.4: F ur jede Menge kann man A = {, } betrachten. Dieser Fall ist aber nicht sehr interessant, man spricht dann auch von der trivialen -Algebra. Bemerkung 10.5: Aus den Axiomen ( 1) bis ( 3) folgt, dass eine -Algebra A gegen abz ahlbare mengentheoretische Operationen wie Schnitte, Komplementbildung, Dierenz, Vereinigung etc. abgeschlossen ist. So gilt zum Beispiel A1 , A2 , ... A
i=1
Ai =
i=1
Ai
(1.3)
i=1
Ac i
und die rechte Menge ist wegen ( 2) und ( 3) wieder in A.
101
Bemerkung 10.6: F ur eine Wahrscheinlichkeitsverteilung P wie in der Denition oben gelten ebenfalls alle Rechenregeln, die wir am Anfang f ur den diskreten Fall hergeleitet haben (d.h. Siebformel, (R1) bis (R9) usw.), da diese ja nur aus den Axiomen (A1) bis (A3) gefolgert wurden. 10.7 Denition: Sei (, A, P ) ein Wahrscheinlichkeitsraum und , A eine beliebige Menge mit -Algebra A auf . / s.d. Eine Zufallsvariable X auf (, A, P ) ist eine Abbildung X : X 1 (A) = {x | X (x) A } A A A (10.2) gilt. Bemerkung 10.8: Allgemeine Abbildungen X : (, A) / , A mit der Eigenschaft (10.2) nennt man auch mebar.
10.9 Denition: Sei (, A, P ) ein Wahrscheinlichkeitsraum und , A eine beliebige Menge mit -Algebra A auf . Eine Zufallsvariable X auf (, A, P ) deniert durch P X (A ) := P X 1 (A ) , A A eine Wahrscheinlichkeitsverteilung P X auf , A , d.h. wir erhalten einen weiteren Wahrscheinlichkeitsraum , A , P X . Wir nennen P X auch Verteilung von X . Formal m ussten wir hier jetzt die Axiome (A1) bis (A3) f ur P X nachrechen. Das gleicht aber w ortlich dem diskreten Fall, der nach Denition 4.5 gezeigt wurde. Bemerkung 10.10: Wie im diskreten Fall auch schreibt man auch P (X A ) := P X 1 (A ) , A A .
Man kann sich nun fragen, wozu das Mengensystem A eigentlich notwendig ist. Warum kann man nicht immer einfach mit A = P () - also der Potenzmenge - wie im diskreten Fall arbeiten? Das folgende Beispiel liefert eine Begr undung: Beispiel 10.11: Es gibt keine Wahrscheinlichkeitsverteilung auf allen Teilmengen von = [0, 1[ mit folgender Eigenschaft: Ist A [0, 1[ und x [0, 1[ so, dass A + x := {a + x | a A} [0, 1[ ist, so gilt stets P (A) = P (A + x). Wir wollen also zeigen, dass es keine verschiebungsinvariante Wahrscheinlichkeitsverteilung auf P ([0, 1[) geben kann, wie es z.B. von einer Normalverteilung zu erwarten w are. 1 Dazu betrachten wir eine spezielle Menge A0 0, 2 (auch Vitali-Menge genannt), die wir wie folgt konstruieren: Betrachte die Aquivalenzrelaztion x y : |x y | Q x [0, 1[ .
auf [0, 1[. Diese zerlegt [0, 1[ in Aquivalenzklassen
[x] := {y | |x y | Q} ,
Gem a dem Auswahlaxiom w ahle aus jeder Klasse [x] einen Vertreter z[x] 0, 1 2 und deniere A0 als die Vereinigung all dieser Punkte. Man kann nun zeigen, dass eine Verteilung P auf P ([0, 1[) sowohl P (A0 ) = 0 als auch P (A0 ) > 0 erf ullen m usste - ein Widerspruch! Der einzige Ausweg ist also, P nur f ur bestimmte Teilmengen zu denieren, was uns zum obigen Begri der -Algebra f uhrt. Ohne Beweis wollen wir folgendes Resultat angeben: Bemerkung 10.12 (Satz von Banach-Kuratowski): Auf (R, P (R)) gibt es nur diskrete Wahrscheinlichkeitsverteilungen.
102
10.2
W-Verteilungen auf R, reelle Zufallsvariablen, Verteilungsfunktionen
Um Wahrscheinlichkeitsverteilungen auf R zu betrachten, ben otigen wir zun achst eine -Algebra. Wir betrachten die folgende 10.13 Denition: Die Borelsche -Algebra B auf R ist die kleinste -Algebra, die alle oenen Mengen enth alt. Man beachte folgenden Satz aus der Matheorie: 10.14 Satz (ohne Beweis): Die folgenden Forderungen an eine -Algebra auf R sind aquivalent: (1) Es handelt sich um die kleinste -Algebra, die alle oenen Mengen enth alt. (2) Es handelt sich um die kleinste -Algebra, die alle Intervalle der Form [a, b] mit a < b enth alt. (3) Es handelt sich um die kleinste -Algebra, die alle Intervalle der Form [a, b[ mit a < b enth alt. (4) Es handelt sich um die kleinste -Algebra, die alle Intervalle der Form (, b] mit b R enth alt. Bemerkung 10.15: Die Borelsche -Algebra B enth alt im Wesentlichen alle Teilmengen von R, die einem in der Praxis begegnen. Allerdings enth alt sie nicht alle Teilmengen von R, die Vitali-Menge A0 von oben ist nicht in B enthalten. 10.16 Denition: Sei (, A, P ) ein Wahrscheinlichkeitsraum. Eine reelle Zufallsvariable X auf (, A, P ) ist eine mebare Abbildung X / (, A, P ) (R, B ) . Beispiel 10.17: Ein bekannter Satz aus der Matheorie sagt zum Beispiel, dass jede stetige Abbildung X : R eine reelle Zufallsvariable / (R, B ) X : (R, B , P ) ist. Wie oben schon gesehen, liefert X als reelle Zufallsvariable dann eine Wahrscheinlichkeitsverteilung auf R. Das meint hier dann nat urlich auf (R, B ). Solche Verteilungen kann man mittels Funktionen beschreiben: 10.18 Denition: Eine Funktion F : R / [0, 1] heit Verteilungsfunktion, wenn / R auch
(1) F monoton wachsend ist (nicht notwendiger Weise streng monoton wachsend), (2) es gilt
x
lim F (x) = 0 und lim F (x) = 1 und

x
(3) F ist rechtsstetig, d.h. f ur alle x R gilt F (x) = lim F (y ).

y x
Beispiel 10.19: Der folgende Graph deniert eine Verteilungsfunktion:
1 t
Abbildung 17: Beispiel einer Verteilungsfunktion.
103
10.20 Satz: Sei P eine Verteilung auf R. Dann ist F (x) := P ((, x]) eine Verteilungsfunktion. Beweis: Nutze aus 1 die Rechenregeln (R8) und (R9): A1 A2 ... A1 A2 ... P
i=1
Ai
= lim P (Ai )
i
(10.3)
i=1
Ai
= lim P (Ai )
i
(10.4)
Da P als Wahrscheinlichkeitsverteilung monoton ist (A B wachsend. Auerdem folgt f ur An := (, n]

x
P (A) P (B )), ist auch F monoton

n=1
lim F (x) = lim F (n) = lim P (An )

n n
(10.3)
An
= P () = 0
und genauso
x
lim F (x)
(10.4)
n=1
(, n]
= P (R) = 1.
Bleibt die Rechtsstetigkeit von F zu zeigen. Sei dazu (xn )nN eine Folge aus R, die gegen x R konvergiert und xn x n N erf ullt. Ohne Einschr ankung k onnen wir xn+1 xn f ur alle n N annehmen, denn andernfalls w ahlen wir eine Teilfolge mit dieser Eigenschaft aus. Dann gilt
n=1
(, xn ] = (, x]
(10.3)
und daher folgt

n
lim F (xn ) = lim P ((, xn ])

n
P ((, x]) = F (x).
Das zeigt die Behauptung. Bemerkung 10.21: Insbesondere gilt also: Ist X eine reelle Zufallsvariable, so ist FX (x) := P (X x) = P X ((, x]) die Verteilungsfunktion der Verteilung von X . F ur diskrete Zufallsvariablen, die nur die Werte x1 , x2 , ... annehmen, ist FX (x) =
i=1 xi x
P (X = xi ) = P (X x) .
Im Folgenden sehen wir etwa den Graphen von FX f ur eine Zufallsvariable X B 2, 1 2 , denn es gilt 1 1 1 P (X = 0) = 4 , P (X = 1) = 2 , P (X = 2) = 4 : 1
0 1 2 3 Abbildung 18: Der Graph der Verteilungsfunktion FX f ur X B 2, 1 2 . Wir zitieren nun folgenden Satz aus der Matheorie:
104
10.22 Satz (Umkehrung): Ist F eine Verteilungsfunktion, so gibt es genau eine Verteilung P auf R (d.h. auf (R, B )), s.d. P ((, x]) = F (x) x R gilt. Damit gilt dann auch P ((, b]) P ((, a]) = ((a, b]) = F (b) F (a) f ur alle a < b R. Bemerkung 10.23: Die S atze 10.20 und 10.22 zeigen, dass es eine Bijektion zwischen der Menge aller Verteilungsfunktionen und der Menge aller Verteilungen auf R gibt. Die Abbildung F P wird dabei durch Satz 10.22 geliefert. Sie ist nach Satz 10.20 surjektiv, und wie wir nun sehen werden auch injektiv: Sind F1 , F2 zwei Verteilungsfunktionen mit F1 = F2 , so gibt es ein x R mit F1 (x) = F2 (x). Entsprechend erf ullen dann die zugeh origen Verteilungen P1 und P2 P1 ((, x]) = F1 (x) = F2 (x) = P2 ((, x]) , womit die Verteilungen nicht gleich sein k onnen.
10.3
Stetige Verteilungen
/ R mit f (t) 0 f ur alle t R und der Eigenschaft, (10.5)
10.24 Denition: Eine Dichte ist eine integrierbare Funktion f : R dass
f (t) dt = 1.
Beachte, das integrierbar hier Riemann-integrierbar heit.
Wir wollen in dieser Vorlesung nur Dichten betrachten, die stetig bis auf h ochstens endlich viele Sprungstellen sind!!
10.25 Satz: Zu jeder Dichte f gibt es genau eine Verteilung P auf R mit
b
P (]a, b]) =
a
f (t) dt
f ur a < b R. Beweis: Setze F (x) :=
f (t) dt.
Da f nur endlich viele Sprungstellen hat, wissen wir bereits aus der Analysis I, dass F stetig ist. Auerdem folgt wegen der Positivit at von f , dass F monoton wachsend ist. Wegen (10.5) ist lim F (x) = 1. Das Nach Satz 10.22 gibt es genau eine Verteilung P auf R (das meint nat urlich wieder auf (R, B )) mit der Eigenschaft wie in der Behauptung. 10.26 Denition: Wahrscheinlichkeitsverteilungen auf R, f ur die es eine Dichte f mit
b x
lim F (x) = 0 gilt ist klar.
P (]a, b]) =
a
f (t) dt
f ur alle a < b gibt, nennt man stetige Verteilungen.
105
10.27 Denition: Eine reelle Zufallsvariable X heit stetig verteilt, wenn die Verteilung P X von X eine Dichte hat, d.h. wenn
b
P ( a X b) =
a
f (t) dt
f ur eine geeignete Dichte f gilt. Bemerkung 10.28: Ist P eine stetige Verteilung, so gilt f ur alle x R. Beweis: Es gilt P ({x}) = 0
P ({x})
(10.3)
lim P
1 x ,x n
= lim
n 1 x n
f (t) dt = 0
nach unserer Annahme, dass f stetig bis auf h ochstens endlich viele Sprungstellen ist. Folgerung 10.29: Insbesondere gilt f ur stetige Verteilungen also P ([a, b]) = P (]a, b]) usw.. Ab jetzt betrachten wir nur noch Zufallsvariablen mit stetigen Verteilungen, d.h. solche, f ur die es eine Dichte f mit
b
P ( a X b) =
a
f (t) dt
gibt.
10.4
Zufallsvariablen mit stetiger Verteilung
In diesem Abschnitt wollen wir einige stetige Verteilungen vorstellen und einen Uberblick der Eigenschaften geben: 10.4.1 Die Gleichverteilung
Die Dichte der Gleichverteilung auf dem Einheitsintervall [0, 1] ist gegeben durch f (t) = 1[0,1] (t) = 1 falls t [0, 1] , 0 falls t / [0, 1] X U (0, 1) . Die zugeh orige Verteilungsfunktion ist 0 falls x 0 x falls 0 x 1 . F (x) = P (X x) = 1 falls x 1 t R.
Ist eine Zufallsvariable X gleichverteilt auf [0, 1], so schreiben wir auch
Den Graph dieser Funktion haben wir schon als Abbildung 17 gesehen. Allgemeiner: Die Gleichverteilung auf einem reellen Intervall [r, s] ist gegeben durch die Dichte f (t) = 1 1[r,s] (t). sr
Ist X eine gleichverteilte Zufallsvariable auf [r, s], so schreiben wir auch X U (r, s) .
106
10.4.2
Die Normalverteilung
Die Dichte der Normalverteilung N , 2 mit R, 2 (0, ) ist gegeben als ,2 (t) = f (t) := 1 2 2 exp (x ) 2 2
2
Solche Zufallsvariablen X N , 2 verwendet man etwa dann, wenn X eine ungenaue Messung mit Erwartungswert (bekannt z.B. aus der Theorie) ist. Insbesondere simuliert man damit eine Verteilung nat urlicher Messgr oen. Die Verteilungsfunktion
x
Wir kennen schon den Spezialfall = 0, 2 = 1 der Standard-Normalverteilung. Wir werden sp ater noch sehen, dass f ur eine Zufallsvariable X N , 2 die Zahl der Erwartungswert und 2 die Varianz ist.
(x) =
0,1 (t) dt
der Standard-Normalverteilung ist tabelliert. Mit Hilfe dieser Tabelle kann man aber auch
x
,2 (t) dt,
also die Verteilungsfunktion einer beliebigen Normalverteilung, berechnen, wie wir in Bemerkung 10.36 sehen werden. Auerdem zeigen wir in Beispiel 10.35, dass X N (0, 1) , R, (0, ) Y = X + N (, ) gilt. 10.4.3 Die Exponentialverteilung
Setze f ur einen reellen Parameter > 0 die Dichte der Exponentialverteilung als f (t) := exp (t) falls t 0 0 falls t < 0
fest. Diese Funktion sieht f ur = 2 wie folgt aus:
1 t
Abbildung 19: Die Funktion f (t) f ur = 2. orige Verteilungsfunktion Wir nennen f die Dichte der Exponentialverteilung Exp() auf R. Die zugeh ist 1 exp (x) falls x > 0 F (x) = . 0 falls x 0 Insbesondere gilt f ur eine Zufallsvariable X Exp() und 0 a < b: P (a X b) = F (b) F (a) = (1 exp (b)) (1 exp (a)) = exp (b) exp (a) . Man verwendet Zufallsvariablen X Exp() z.B. zur Simulation der Lebensdauer von Ger aten / technischen Bauteilen, falls sie gebraucht wie neu sind (wir sehen gleich, welche Bedeutung das hat). zur Simulation von L angen von Zeitintervallen bei Serveranfragen, Anrufen in einem Call-Center oder radiaoktiven Zerfallsprozessen.
107
zur Simulation von Bedienzeiten an Schaltern. F ur X Exp () ist ein Leichtes, mit Hilfe der Verteilungsfunktion die Uberlebensdauer zu berechnen: P (X > x) = 1 P (X x) = 1 F (x) = exp (x) . Wir sehen sofort, dass die Uberlebensdauer also exponentiell schnell f allt! Jetzt wollen wir uns dem Ausspruch gebraucht wie neu bzw. der Ged achtnislosigkeit dieser Verteilung widmen. F ur x, t 0 gilt P (X > t + x | X > t ) = = = = P (X > t + x und X > t) P (X > t ) P (X > t + x) P (X > t ) exp ( (t + x)) exp (t)
exp (x)
= P ( X > x) . Simuliert man also die Lebensdauer eines Ger ats mit der Exponentialverteilung, so hat ein gebraucht gekauftes Ger at die selbe Qualit at wie ein Neues! 10.4.4 Die Pareto-Verteilung
Man betrachtet f ur einen Parameter > 0 die Dichte f (t) = Der Graph von f stellt sich wie folgt dar:
(t+1)+1
falls t 0 . falls t < 0
3 2 1 t
Abbildung 20: Die Funktion f (t) f ur = 4. Zun achst ahnelt diese Funktion der Dichte der Exponentialverteilung, aber wir sehen im Gegensatz, dass hier nur polynomielles Abfallverhalten vorliegt! ur eine paretoverteilte Zufallsvariable X mit Diese Dichte f deniert uns die Pareto-Verteilung. F Parameter > 0 schreiben wir auch X Pareto(). Man modelliert mit der Pareto-Verteilung etwa Dateigr oen in Byte in Datenbanken oder auf Servern. Allgemeiner modelliert man mit Ihr Verteilungen, bei denen groe Werte selten, aber nicht so selten wie bei Exp () sind. Heutzutage wird die Pareto-Verteilung auch oft verwendet, wo fr uher die Exponentialverteilung verwendet wurde.
108
10.4.5
Die Cauchy-Verteilung f (t) := 1 . (1 + t2 )
Betrachte die Dichte
Diese hat den Graphen
Abbildung 21: Die Funktion f (t) f ur = 2. und deniert uns die Cauchy-Verteilung. Wir werden in Beispiel 10.41 noch sehen, dass diese Verteilung keinen Erwartungswert besitzt. 10.4.6 Die Gamma-Verteilung
Zun achst ben otigen wir die 10.30 Denition (Gamma-Funktion): Sei x (0, ). Dann deniert man die Gamma-Funktion durch
(x) =
0
tx1 exp (t) dt.
Wir wissen bereits aus der Analysis I, dass dieses Integal konvergiert und eine beliebig oft dierenzierbare Funktion deniert. Auerdem erf ullt sie bekanntlich die Funktionalgleichung (x + 1) = x(x) x (0, ) , was auch (n) = (n 1)! mit n N zeigt. Zuletzt sollte noch erw ahnt werden, dass 1 2 1 = 2
exp x2 dx =
Nun denieren wir die Gamma-Verteilung Gamma (r, ) f ur reelle Parameter r, > 0 durch die Dichte f (t) =
r r 1 (r ) t
Zun achst betrachten wir einige Spezialf alle:
exp (t) falls t > 0 . falls t 0
1 2 ur X N (0, 1), wie wir in Beispiel 10.32 (2) (a) Gamma 1 2 , 2 ist genau die Verteilung von X f sehen werden. i.i.d. 1 2 2 (b) Gamma n +...+Xn , falls X1 , ..., Xn N (0, 1) ur n N ist genau die Verteilung von X1 2 , 2 f gilt. Diese Verteilung ist in der Statistik wichtig, sie wird auch Chi-Quadrat-Verteilung mit n Freiheitsgraden genannt und als 2 n bezeichnet.
(1) (a) Sei r = 1. Dann erhalten wir oenbar genau die Exponentialverteilung mit Parameter , da die Dichten u bereinstimmen. (b) Sei r N. Man kann zeigen, dass dann Gamma (r, ) genau die Verteilung von X1 + ... + Xr i.i.d. f ur Zufallsvariablen X1 , ..., Xr Exp () ist (vergleiche eines der Ubungsbl atter).
10.5
Berechnung und Transformation von Dichten
10.31 Satz: Sei F eine stetige Verteilungsfunktion, die bis auf endlich viele Punkte c1 , ..., ck stetig dierenzierbar ist. Sei C = {c1 , ..., ck }. Dann deniert f (t) := F (t) 0 falls t C falls t /C
eine Dichte f ur die durch F denierte Verteilung auf R.
109
Beweis: Mit Satz 10.25 gen ugt es oenbar zu zeigen, dass f eine Dichte ist (denn das f dann die Verteilungsfunktion F erzeugt, ist mit etwas Analysis I und der Stetigkeit von F klar). Da F eine Verteilungsfunktion ist, ist F monoton wachsend und daher F 0, wo F existiert. Daher ist auch f 0. Setze nun c0 := und ck+1 := +. Nach Umnummerierung nehmen wir ohne Einschr ankung c0 < c1 < ... < ck < ck+1 an. Dann gilt (mit F () = 0 und F () = 1) f ur i = 0, ..., k die Relation
ci+1 b aci ,bci+1
f (t) dt =
ci
lim
f (t) dt =
a
aci ,bci+1
lim
(F (b) F (a)) = F (ci+1 ) F (ci ),
(10.6)
da F stetig ist. Das zeigt

k ci+1
f (t) dt =
i=0 c i
f (t) dt
(10.6)
i=0
(F (ci+1 ) F (ci )) = F () F () = 1.
Also ist f eine Dichte und es folgt die Behauptung. Beispiel 10.32 (Anwendung): Sei X N (0, 1) und Y := X 2 . Dann ist Y 2 1 = Gamma
1 1 2, 2
Beweis: Sei FY die Verteilungsfunktion der Verteilung von Y . Da Y 0 ist, muss auch FY (x) = P (Y x) = 0 f ur x < 0 gelten. Falls x 0, so haben wir FY (x) = P 0 X2 x = P xX x = x x = 2 x 1, wobei die Verteilungsfunktion der Standard-Normalverteilung ist. 1 ist FY an allen Punkten x = 0 stetig dierenzierbar und mit Satz 10.31 Wegen ( ( x)) = ( x) 2 x folgt, dass die Dichte von Y gegeben ist durch 1 FY (x) falls x > 0 exp x falls x = 0 2 ( ( x)) falls x > 0 2 2x fY (x) = = . = 0 falls x 0 0 falls x = 0 0 falls x 0 Wegen
1 2
= P (Y x)
ist der Faktor
1 1 = 2 2
1 2
1 2
und es folgt die Behauptung. F ur die folgende Transformation brauchen wir erst folgende 10.33 Denition: Seien I, J R zwei Intervalle. Ein Dieomorphismus u : I und u1 stetig dierenzierbar sind. Dann gilt der folgende 10.34 Satz (Transformationsformel f ur Dichten): Sei X eine stetig verteilte Zufallsvariable mit Dichte fX und Werten in einem oenen Intervall I R. / J ein Dieomorphismus. Dann hat Y := u (X ) auf J die Dichte Sei auerdem u : I fY (y ) = fX u1 (y ) u1 (y ) .
/ J ist eine bijektive Abbildung, s.d. u
110
Beweis: Zun achst k onnen wir ohne Einschr ankung annehmen, dass u streng monoton steigend ist (da u ein Diffeomorphismus ist, muss u streng monoton sein). Dann wollen wir die Substitutionsregel
b g 1 (b)
f (x) dx =
a g 1 (a)
(f g ) (y ) g (y ) dy
f ur den Dieomorphismus g = u1 anwenden. Damit folgt P (a Y b) = P u1 (a) X u1 (b)

u1 (b)
=
u1 (a) b
fX (x) dx
=
a
fX u1 (y )
u1 (y ) dy
= | ( u 1 ) ( y ) |
da u nach Annahme streng monoton steigend ist. Beispiel 10.35 (Anwendung): Sei X N (0, 1) und Y := X + mit , R und > 0. Dann ist Y N , 2 . Beweis: Wir setzen u (x) := x + . Bei dieser Abbildung handelt es sich oenbar um einen Dieomorphismus mit u1 (y ) = y 1 und u1 (y ) = .
2 2
Mit Satz 10.34 folgt f ur die Dichte fY von Y und fX von X , dass fY (y ) = fX y 1 (y ) 1 = exp 2 2 2 1 1 (y ) = exp 2 2 2 2 ,
was genau der Dichte zu N , 2 entspricht. Alternativ kann man diese Aussage auch mit Hilfe von Satz 10.31 beweisen: Beweis (alternativ): Es ist FY (y ) = P (Y y ) = P (X + y ) = P y
y 1
f ur die Verteilungsfunktion der Standard-Normalverteilung. Mit Satz 10.31 ist dann fY (y ) = = 1 y = y
f ur die Dichte der Standard-Normalverteilung - und das ist genau die Dichte zu N , 2 . Bemerkung 10.36: Ganz analog k onnen wir nun zeigen, wie man die Verteilungsfunktion zu N , 2 aus den Tabellen f ur (der Verteilungsfunktion von N (0, 1)) berechnet: Ist Y N , 2 f ur , R, > 0, so folgt wie in Beispiel 10.35, dass X := gilt. Damit ist dann aber P (Y y ) = P (X + y ) = P - und das ist tabelliert! X y = y 1 (Y ) N (0, 1)
111
10.6
Erwartungswert und Varianz
10.37 Denition: Sei X eine stetig verteilte Zufallsvariable mit Dichte f . Der Erwartungswert von X existiert, falls
|x|f (x) dx < .
In diesem Fall deniert man E (X ) :=
xf (x) dx.
Wir sehen hier schon die Analogie zum diskreten Fall: Die Summe in (5.2) wird durch ein Integral ersetzt, und die Einzelwahrscheinlichkeiten P werden durch die Dichte f ersetzt. Bemerkung 10.38: Ist X wie in der Denition und X 0, so kann man stets
E (X ) :=
xf (x) dx
setzen und entsprechend einfach als Wert zulassen. Beispiel 10.39: Sei X U (r, s). Dann ist
s
E (X ) =
r
1 1 1 2 dx = x sr sr2
s r
1 s2 r2 s+r = . 2 sr 2
Beispiel 10.40: Sei X N (0, 1). Dann ist
E (X ) =
1 x(x) dx = 2
x exp
x2 2
1 x2 dx = exp 2 2
= 0.
Beispiel 10.41: Sei X eine Cauchy-verteilte Zufallsvariable. F ur die zugeh orige Dichte f ist dann

|x|f (x) dx =
1 |x| dx = (1 + x2 )
1 2x dx = lim ln 1 + x2 1 + x2 R
R 0
= .
Daher hat X keinen Erwartungswert!
112
Beispiel 10.42: Sei X Exp (). Dann ist
E (X )
=
0
t exp (t) dt
t exp (t) dt
0
partielle Integration
t exp (t)
0
exp (t) dt
exp (t) dt
0
= = Beispiel 10.43:
1 exp (t) 1 .
Sei X Pareto (). Zun achst untersuchen wir, f ur welche > 0 der Erwartungswert existiert. Bekanntlich existiert das Integral
1 dt t
mit beliebigem c > 0 genau dann, wenn > 1. Daher ist der Erwartungswert f ur 1 zwangsl aug nicht existent. F ur > 1 gilt:
t (t + 1)
+1
dt =
0
t+1 (t + 1)
+1
dt
(t + 1)
+1
dt
=
0
dt 1 (t + 1)
0
(t + 1)1 1 = 1 1 1 = 1 1 1 . = 1 =
Da X Pareto() nach Denition der Dichte als nicht-negativ angenommen werden kann, haben wir also falls 1 E (X ) = . 1 falls > 1 1 Aus der Matheorie zitieren wir ohne Beweis den folgenden 10.44 Satz (Transformationsformel f ur den Erwartungswert - ohne Beweis): / R eine mebare Funktion (also z.B. stetig). Sei X eine reelle Zufallsvariable mit Dichte f und g : R Dann gilt
E (g (X )) =
g (x) f (x) dx,
(10.7)
113
falls
|g (x)|f (x) dx <
ist. Bemerkung 10.45: Damit folgt im Falle der Existenz zum Beispiel mit g (x) := ax + b: E (aX + b)
(10.7)
(ax + b) f (x) dx

xf (x) dx + b
f (x) dx
=1
= Beispiel 10.46:
aE (X ) + b
Sei X N (0, 1). In Beispiel 10.35 haben wir schon gezeigt, dass dann X + N , 2 gilt. Ebenso haben wir in Beispiel 10.40 schon gesehen, dass E (X ) = 0 gilt. Nach obiger Rechnung folgt E (X + ) = E (X ) + = . Daher ist wie schon weiter oben bemerkt der Erwartungswert einer N , 2 -verteilten Zufallsvariablen. 10.47 Denition: k Sei X eine stetig verteilte reelle Zufallsvariable. Falls E |X | < gilt (in dem Sinne, dass der Erwartungswert f ur nicht-negative Zufallsvariablen in [0, ] stets existiert), so nennen wir E Xk das k -te Moment von X . 10.48 Denition: Sei X eine stetig verteilte reelle Zufallsvariable, s.d. E (X ) existiert. Dann denieren wir die Varianz von X durch 2 2 V (X ) := E (X E (X )) = E X 2 (E (X )) . Bemerkung 10.49: Sei X eine reelle Zufallsvariable mit Dichte f . Mit der Transformationsformel (Satz 10.44) ist
V (X ) =
falls existent. Beispiel 10.50:
x2 f (x) dx
xf (x) dx
Sei X U (0, 1). Wir haben in Beispiel 10.39 schon gesehen, dass dann E (X ) = 10.49 haben wir also
1
1 2
gilt. Nach Bemerkung
V (X ) =
0
x2 dx
1 1 1 1 = = . 4 3 4 12
114
Allgemein folgt ganz genauso X U (r, s) V (X ) = 1 sr

s
x2 dx
r
s+r 2
2
= = = = Bemerkung 10.51: Man zeigt ganz genau wie im diskreten Fall, dass
4s2 + 4rs + 4r2 3s2 + 6rs + 3r2 12 12 2 2 s 2rs + r 12 (s r) . 12

2
(s + r) s3 r3 3(s r) 4
V (aX + b) = a2 V (X ) gilt. Beispiel 10.52: Sei X N (0, 1). In Beispiel 10.40 haben wir gesehen, dass E (X ) = 0 gilt. Bemerkung 10.49 liefert also
V (X )
x2 1 x2 exp 2 2
dx x2 2
2
1 2
x x exp
dx
partielle Integration
x2 1 x exp 2 2 1 2 1

= exp x 2
x2 exp 2
= =
exp
x2 2
dx
dx
Mit der Regel aus Bemerkung 10.51 zeigt das Y N , 2 V (Y ) = 2 ,
da f ur X N (0, 1) mit Beispiel 10.35 X + N , 2 gilt.
10.7
Mehrdimensionale stetige Verteilungen
Zun achst m ussen wir festlegen, welche Teilmengen des Rn eine Wahrscheinlichkeit erhalten k onnen und welche nicht. Dazu gehen wir genau wie auf R vor und w ahlen eine geeignete -Algebra. 10.53 Denition: Die Borelsche -Algebra Bn des Rn ist die kleinste -Algebra auf dem Rn , die alle oenen Mengen enth alt. Auch im Rn beh alt Satz 10.14 seine G ultigkeit! Allerdings andert sich hier die Formulierung etwas: 10.54 Satz (ohne Beweis): Die folgenden Forderungen an eine -Algebra auf Rn sind aquivalent: (1) Es handelt sich um die kleinste -Algebra, die alle oenen Mengen enth alt.
115
(2) Es handelt sich um die kleinste -Algebra, die alle Rechtecke (a, b] := (a1 , b1 ] ... (an , bn ] mit a = (a1 , ..., an ) , b = (b1 , ..., bn ) Rn enth alt. 10.55 Denition: Eine Dichte auf Rn ist eine integrierbare Funktion f : Rn f (x) dx = 1.
Rn
/ R mit f 0 und
Ebenso zitieren wir den folgenden Satz aus der Matheorie: 10.56 Satz (ohne Beweis): / R eine Dichte auf dem Rn , so gibt es zu f genau eine Wahrscheinlichkeitsverteilung P Ist f : Rn n auf (R , Bn ) mit der Eigenschaft, dass
b1 bn
P ((a, b]) =
a1
...
an
f (x1 , ..., xn ) dxn ... dx1 =:

(a,b]
f (x) dx
f ur alle Rechtecke (a, b]. 10.57 Denition: Die reellen Zufallsvariablen X1 , ..., Xn haben die gemeinsame Dichte f , wenn f eine Dichte auf dem Rn ist und f ur alle a, b Rn gilt: P (a1 X1 b1 , ..., an Xn bn ) =
(a,b]
f (x) dx.
Beispiel 10.58: F ur n = 2 ist f := 1[0,1]2 die Dichte der Gleichverteilung auf [0, 1] . Beispiel 10.59: 1 1{(x,y)R2 | x2 +y2 1} denieren wir die Dichte der Gleichverteilung auf dem Einheitskreis im R2 . f := Bemerkung 10.60: Diese Beispiele lassen sich durchaus verallgemeinern: Ist A R2 ein glattes Gebiet (d.h., dass der topologische Rand von A in jedem Punkt lokal Graph einer beliebig oft dierenzierbaren Funktion ist), so ist 1A Riemann-Integrierbar und die Funktion f := ist die Dichte der Gleichverteilung auf A. 10.61 Denition (Produktdichten): Sind f1 , ..., fn Dichten auf R, so ist f (x1 , ..., xn ) := f1 (x1 ) ... fn (xn ) a Satz 10.56 zu f eine Dichte auf dem Rn . f heit Produktdichte der Dichten f1 , ..., fn . Die gem geh orende Wahrscheinlichkeitsverteilung P auf (Rn , Bn ) heit Produktverteilung der zu f1 , ..., fn geh orenden Verteilungen P1 , ..., Pn auf R gem a Satz 10.25. Matheoretisch schreibt man auch P = P1 ... Pn . Beispiel 10.62: Die Funktion 1[0,1]2 ist die Dichte zu P1 P2 , wenn P1 , P2 Gleichverteilungen auf [0, 1] sind. 1 1A Vol(A) Durch
2
116
Beispiel 10.63: Sei n N2 und sei fi (xi ) := gegeben durch

1 2
exp
x2 i 2
f ur i = 1, ..., n. Dann ist die zugeh orige Produktdichte

n
f (x1 , ..., xn ) = f1 (x1 ) ... fn (xn ) = beziehungsweise f (x) = (2 )

n 2
1 2 x 2
2 2
exp
1 2 x + ... + x2 n 2 1
exp
x Rn
f ur die gew ohnliche euklidische Norm auf dem Rn . F ur n = 3 sieht die Produktdichte wie folgt aus: z
y x Abbildung 22: Die Produktdichte der Standard-Normalverteilung im R3 . An dieser Stelle zitieren wir folgende S atze aus der Matheorie: 10.64 Satz (ohne Beweis): Sind X, Y zwei reelle Zufallsvariablen mit gemeinsamer Dichte f auf dem R2 , so gilt f ur jedes glatte Gebiet A R2 , dass P ((X, Y ) A) = f (x, y ) d(x, y ).
A
Auerdem ben otigen wir die Transformationsformel f ur den Erwartungswert von Funktionen von Zufallsvektoren: 10.65 Satz (ohne Beweis): Sind X1 , ..., Xn reelle Zufallsvariablen mit gemeinsamer Dichte f auf dem Rn und ist g : Rn mebar (z.B. stetig), so gilt E (g (X1 , ..., Xn )) =
Rn
/R
g (x)f (x) dx
(10.8)
falls
Rn
|g (x)|f (x) dx <
ist. 10.66 Hilfssatz: Sind X1 , X2 zwei reelle Zufallsvariablen mit gemeinsamer Dichte f , so ist
f1 (x1 ) :=
f (x1 , x2 ) dx2
die Dichte zu X1 und f2 (x2 ) :=
f (x1 , x2 ) dx1
die Dichte zu X2 .
117
Beweis: Es gilt P (a1 X1 b1 ) =

Satz 10.64
P (a1 X1 b1 , < X2 < )

b1
f (x1 , x2 ) dx2 dx1 .

a1 =f1 (x1 )
Ganz analog kann man f ur f2 vorgehen. Das zeigt schon die Behauptung. Bemerkung 10.67: Jetzt k onnen wir endlich zeigen, dass der Erwartungswert linear ist: E (X1 + X2 ) = E (X1 ) + E (X2 ) . Beweis: Wir wenden den Satz 10.65 im Fall n = 2 auf die Funktion g (x1 , x2 ) = x1 + x2 an. Das liefert E (X1 + X2 ) =
R2
(x1 + x2 ) f (x1 , x2 ) d(x1 , x2 )
=
R2
x1 f (x1 , x2 ) d(x1 , x2 ) +
R2
x2 f (x1 , x2 ) d(x1 , x2 )
R
=
R Hilfssatz 10.66
E (X 1 ) + E (X 2 )
x1
f (x1 , x2 ) dx2 dx1 +
x2
f (x1 , x2 ) dx1 dx2
Damit ist die Behauptung gezeigt.
10.8
Unabh angigkeit
10.68 Denition: Reelle Zufallsvariablen X1 , ..., Xn heien unabh angig, wenn

n
P (a1 X1 b1 , ..., an Xn bn ) = f ur alle a = (a1 , ..., an ) , b = (b1 , ..., bn ) Rn gilt.
i=1
P (ai Xi bi )
10.69 Satz (Unabh angigkeit bei stetigen Verteilungen): (1) Sind X1 , ..., Xn unabh angige Zufallsvariablen mit Dichten f1 , ..., fn entsprechend, so ist die gemeinsame Dichte f durch die Produktdichte f (x1 , ..., xn ) := f1 (x1 ) ... fn (xn ) gegeben. (2) Sind X1 , ..., Xn reelle Zufallsvariablen und hat die gemeinsame Dichte die Gestalt (10.9), so sind X1 , ..., Xn unabh angig und fi ist die Dichte zu Xi , i = 1, ..., n. Beweis: (1) Wegen der Unabh angigkeit und der Denition der Dichten fi gilt
n
(10.9)
P (a1 X1 b1 , ..., an Xn bn ) = =
i=1 n
P (ai Xi bi )
bi
fi (xi ) dxi
i=1 a
i
=
(a,b]
f (x) dx
118
f ur alle Rechtecke (a, b], weshalb f aus (10.9) die gemeinsame Dichte zu X1 , ..., Xn ist. (2) Da X1 , ..., Xn eine gemeinsame Dichte der Form (10.9) haben, ist
b1 bn
P (a1 X1 b1 , ..., an Xn bn ) =
a1 n
...
an bi
f1 (x1 ) ... fn (xn ) dxn ... dx1
=
i=1 a
i
fi (xi ) dxi
(10.10)
f ur jedes Rechteck (a, b]. / , bj / f F ur festes i {1, ..., n} lassen wir jetzt in dieser Gleichung aj ur alle j = i gehen. Dann geht die linke Seite gegen P (ai Xi bi ) und die rechte Seite gegen
bi
fi (xi ) dxi ,
ai bi
da jedes fj eine Dichte ist und somit ist, also
fj (xj ) dxj = 1 erf ullt. Das zeigt, dass fi die Dichte zu Xi
P (ai Xi bi ) =
ai
fi (xi ) dxi .
Damit ist aber wegen (10.10)

n
P (a1 X1 b1 , ..., an Xn bn ) = womit X1 , ..., Xn per Denition unabh angig sind. Beispiel 10.70:
i=1
P (ai Xi bi ) ,
Wir betrachten einen Schalter mit Bedienzeiten, die nach Exp () verteilt sind. Nehmen wir an, wir stehen an zweiter Stelle, d.h. noch eine Kunde ist vor uns. Wir wollen die Wahrscheinlichkeit bestimmen, dass wir mindestens doppelt so lange zur Abfertigung brauchen, wir die Person vor uns. Dazu modellieren wir den Kunden vor uns als Zufallsvariable X Exp () sowie uns als Y Exp () und nehmen an, dass X und Y unabh angig sind. Gefragt ist dann nach P (Y 2X ) . (10.11)
Mit obigem Satz 10.69 folgt, dass X und Y eine gemeinsame Dichte f in Produktform haben, d.h. f (x, y ) = ( exp (x)) ( exp (y )) 1[0,)2 . Um (10.11) zu bestimmen betrachten wir A = {(x, y ) | x, y 0, y 2x} .
119
Mit Satz 10.64 folgt P (A) =

A 2
f (x, y ) dx dy
0 2x 2
exp ((x + y )) dy dx exp ((x + y )) dy dx
0 2x
=
0
exp (x)
2x
exp (y ) dy dx
=
0
exp (x) exp (2x) dx
1 3
3 exp (3x) dx
0
= =
1 ( exp (3x)) 3 1 . 3
Zuletzt sei noch der folgende Satz aus der Matheorie erw ahnt: 10.71 Satz (ohne Beweis): Das Blockungslemma gilt in der selben Form wie in Satz 4.24 auch f ur Zufallsvariablen mit stetigen Verteilungen. Wir zeigen nun, dass der Produktsatz f ur unabh angige Zufallsvariablen auch im stetigen Fall gilt: 10.72 Satz: Sind X und Y unabh angige Zufallsvariablen mit Dichten fX und fY , so gilt E (X Y ) = E (X ) E (Y ). Beweis: / R. Die Dichte zu (X, Y ) hat gem Setze g (x, y ) = x y, g : R2 a Satz 10.69 Produktform f (x, y ) = fX (x) fY (y ), da X und Y unabh angig sind. Damit gilt E (X Y ) =
E (g (X, Y ))

g (x, y ) f (x, y ) dx dy
x y fX (x) fY (y ) dx dy
x fX (x) dx
y fY (y ) dy.
Das zeigt die Behauptung. Korollar 10.73: Sind X und Y stetige unabh angige Zufallsvariablen, so gilt CoV(X, Y ) = E (X Y ) E (X )E (Y ) = 0, das heit, X und Y sind unkorreliert.
120
10.74 Denition (Faltung): Seien f1 und f2 Dichten auf R. Die Dichte
f1 f2 (z ) =
f1 (x)f2 (z x) dx
nennen wir Faltung f1 f2 von f1 und f2 . 10.75 Satz (Dichten f ur Summen von unabh angigen Zufallsvariablen mit Dichten): Seien X und Y unabh angige Zufallsvariablen mit Dichten fX und fY . Dann hat X + Y die Dichte fX fY . Beweis: X und Y haben die gemeinsame Dichte f (x, y ) = fX (x) fY (y ), da X und Y unabh angig sind. Sei A die Menge A := {(x, y ) | x + y b} . Dann gilt P (X + Y b) =
A
f (x, y ) dx dy
bx
fX (x)fY (y ) dy dx
=
b
fX (x)fY (z x) dz dx
=
b
fx (x)fy (z x) dx dz
fX fY (z ) dz.
Damit ist die Behauptung gezeigt. Beispiel 10.76 (Gleichverteilung U (0, 1)): Seien X und Y unabh angig und gleichverteilt auf [0, 1]. Dann ist die Dichte von X + Y gegeben als falls 0 t 1 t 2 t falls 1 t 2 . fX +Y (t) = 0 sonst 1
3
i.i.d.
Abbildung 23: Die Dichte von X + Y f ur X, Y
U (0, 1).
121
Beweis: Oenbar ist fX (t) = 1[0,1] (t) = fY (t). Mit obigem Satz ist die Dichte fX +Y von X + Y gegeben als
(fX fY ) (z )
=
1
fX (x) fY (z x) dx
=
0
1[0,1] (z x) dx
z 1
=
z z
1[0,1] (y ) dy
=
z 1
1[0,1] (y ) dy.
Nun unterscheiden wir vier F alle:

z
Ist z < 0, so ist oenbar Ist z > 2, so ist oenbar
1[0,1] (y ) dy = 0.
z 1 z
1[0,1] (y ) dy = 0.
z 1
Ist 0 z 1, so berechnet man

z z
1[0,1] (y ) dy =
z 1 0
1 dy = z.
Ist 1 z 2, so berechnet man

z 1
1[0,1] (y ) dy =
z 1 z 1
1 dy = 2 z.
Das zeigt die Behauptung. 10.77 Satz: 2 Seien Xi N (i , i ), f ur i = 1, 2 unabh angig. Dann ist X1 + X2 normalverteilt mit Parametern 1 + 2 2 2 und 1 + 2 , d.h. 2 2 . + 2 X1 + X2 N 1 + 2 , 1 Beweis: Es gen ugt zu zeigen, dass
2 2 (X1 1 ) + (X2 2 ) N 0, 1 + 2 2 2 gilt, wobei (X1 1 ) N 0, 1 und (X2 2 ) N 0, 2 verteilt sind. Nach Denition der Faltung zweier Dichten ergibt sich f ur festes z R:
2 f0, 2 (z ) = f0,1 2
1 1 x2 exp 2 2 1 21
1 (z x)2 exp 2 22 22 dx.
dx
1 21 2
1 exp 2
x2 (z x)2 + 2 2 1 2
=:()
(10.12)
Wir setzen nun :=

2 + 2 und w = w (x) = 1 2
1 x z. 1 2 2
122
Dann ist w2 + z2 2 =
2 2 2xz 2 z2 1 + 2 x2 2 + 2 1 2 z 2 + 2 2 2 1 2 2 2 = z2
2 2
= = = Da dw =
1 2 dx
x2 2xz z2 x2 + 2 2 + 2 2 1 2 2 2 x2 (z x)2 + 2 2 1 2 (). Wir substituieren also in (10.12) und erhalten so 1 21 2
ist, folgt dx =
1 2 dw .
2 f0, 2 (z ) f0,1 2
exp
1 2
w2 +
z2 2
1 2 dw
z2 1 exp 2 2 2
1 1 exp w2 dw 2 2
=1 (Std.normalverteilung)
= f0,2 (z )
2 + 2 (z ). = f0,1 2
Damit ist der Satz bewiesen.
10.9
Die mehrdimensionale Normalverteilung
10.78 Denition: Wir haben in Beispiel 10.63 schon gesehen, dass f ur unabh angige Zufallsvariablen Z1 , ..., Zn N (0, 1) T die Zufallsgr oe Z = (Z1 , ..., Zn ) die Dichte f (z1 , ..., zn ) = 1 2
n
exp
1 z2 2 =1 i
besitzt. Diese Verteilung wollen wir von nun an die n-dimensionale Standard-Normalverteilung nennen. Wir schreiben dann auch T (Z1 , ..., Zn ) N (0, In ) , wobei wir mit In = 1 .. 0 . 1 0
die n n-Einheitsmatrix bezeichnen.
10.79 Denition: T Sei Z = (Z1 , ..., Zn ) N (0, In ), A eine reelle n n-Matrix und R. Dann nennen wir die Verteilung von AZ + eine n-dimensionale Normalverteilung zu A und . 10.80 Denition: T Sei Z = (Z1 , ..., Zn ) ein Zufallsvektor. Der Erwartungswert von Z ist der Vektor E (Z ) = (E (Z1 ) , ..., E (Zn )) . Beispiel 10.81: Sei Z N (0, In ). Dann ist oenbar E (Z ) = 0 Rn . Auerdem folgt f ur jede n n-Matrix A und jedes Rn , dass E (AZ + ) = AE (Z ) + = .
T
123
10.82 Denition: T Sei Z = (Z1 , ..., Zn ) ein allgemeiner Zufallsvektor. Die Kovarianzmatrix von Z ist Z := (CoV (Zi , Zj ))1i,j n . Beispiel 10.83: Sei Z = (Z1 , ..., Zn ) N (0, In ). Wegen CoV (Zi , Zj ) = ist Z = In . 10.84 Lemma: Sei Z ein beliebiger Zufallsvektor, A = (ai,j )1i,j n eine beliebige reelle n n-Matrix und Rn . Dann gilt f ur X := A Z + , dass X = A Z AT . Beweis: Es ist CoV (Xi , Xj ) = E ((Xi E (Xi )) (Xj E (Xj )))
n n T
0 falls i = j 1 falls i = j
= E
k=1 n
ai,k Zk + i
E
n
ai,k Zk + i
k=1
aj,k Zk + j
k=1 n
E
k=1
aj,k Zk + j
n
= E
k=1 n
ai,k (Zk E (Zk ))
l=1
aj,l (Zl E (Zl ))
=
k,l=1 n
ai,k CoV (Zk , Zl ) aj,l
=
k,l=1
ai,k CoV (Zk , Zl ) aT l,j
A z AT Beispiel 10.85:
i,j
Das zeigt die Behauptung.
Sei Z N (0, In ) und X = A Z + mit einer beliebigen reellen n n-Matrix A und Rn . Nach Lemma 10.84 gilt dann X = A Z AT = A AT .
=In
Damit sind Erwartungswert und Kovarianzmatrix der n-dimensionalen Normalverteilung zu A und gegeben durch und X = A AT . Bemerkung 10.86: Sei Z N (0, In ) und X = A Z + mit einer beliebigen reellen n n-Matrix A und Rn . Dann ist die Matrix X = A AT stets symmetrisch und positiv semi-denit, d.h. f ur jedes x Rn gilt xT X x 0. Die Umkehrung ist ebenfalls richtig: Jede Matrix , die symmetrisch und positiv semi-denit ist, ist Kovarianzmatrix einer n-dimensionalen Normalverteilung. Das folgt einfach aus der Hauptachsentransformation, denn demnach ist = V D V T f ur eine orthogonale Matrix V und eine Diagonalmatrix d1 0 .. . D= . 0 dn
124
Da positiv semi-denit ist, sind alle Zahlen di 0. Wir setzen d1 0 T .. V , A := V . dn 0

=: D
und haben dann A AT = V
D V T V D V T = V D V T = .
=In
10.87 Denition: Sei eine Kovarianzmatrix einer n-dimensionalen Normalverteilung. Ist det() = 0, so sprechen wir von einer ausgearteten Normalverteilung. 10.88 Denition: Sei eine Kovarianzmatrix einer n-dimensionalen Normalverteilung. Ist det() = 0, so sprechen wir von einer nicht ausgearteten Normalverteilung. 10.89 Satz: Sei eine Kovarianzmatrix einer n-dimensionalen Normalverteilung mit Erwartungswert Rn und det() = 0. Dann ist die zugeh orige Dichte gegeben als f (x) = 2 1
n
det()
exp
1 T (x ) 1 (x ) 2
x Rn .
(10.13)
Beweis: T Wir wollen den Transformationssatz f ur Dichten im Rn benutzen: Hat Z = (Z1 , ..., Zn ) auf oenem / N f M Rn die Dichte fZ und ist u : M ur N Rn ebenfalls oen ein Dieomorphismus, so hat X := u (Z ) die Dichte fX (x) = fZ u1 (x) det D(u1 )(x) . (10.14)
Dabei bezeichnet D(u1 ) das totale Dierential von u1 . Dieser Satz folgt direkt aus der Transformationsformel im Rn , der explizite Beweis ndet sich bei [Dehling/Haupt], Seite 181. Hier ist Z N (0, In ), M = N = Rn und u (x) = Ax + mit A wie in Bemerkung 10.86 zu denitiert. Da det () = 0 ist, ist auch det (A) = 0, d.h. u1 (x) = A1 (y ) existiert. Damit ist dann det D u1 (x) = det(A1 ) = 1 = |det (A)| 1 det() .
Beachte dabei, dass det () > 0 wegen der positiven Semi-Denitheit von .
n
Da
i=1
2 zi = (z1 , ..., zn ) (z1 , ..., zn ) ist, gilt
fZ (z ) =
1 2
n
1 exp z T z . 2
Mit der angegebenen Transformationsformel f ur Dichten (10.14) folgt fX (x) = = und somit die Behauptung. 1 2 2
n
exp 1
1 2
A1 (x ) exp
A1 (x )
1 det()
det()
1 T (x ) 1 (x ) 2
125
Bemerkung 10.90: Ist det () = 0, so gibt es keine Dichte auf dem Rn f ur die zugeh orige Verteilung. Bemerkung 10.91: Man beachte, dass die n-dimensionale Normalverteilung bereits durch und festgelegt ist! Bemerkung 10.92: Der Fall det () = 0 entspricht genau dem Fall, dass symmetrisch und strikt positiv denit ist, d.h. xT x > 0 x Rn \ {0} . F ur jede solche Matrix existiert also eine n-dimensionale Normalverteilung mit Dichte wie im Satz. Die Matrix A dieser Verteilung ist dann wie in Bemerkung 10.86 gegeben. 10.9.1 Folgerungen
10.93 Satz: T Sei X = (X1 , ..., Xn ) nach N (, ) verteilt, d.h. es ist = E (X ) und = CoV (X ). Sei auerdem det () = 0. Dann gilt Xi N (i , i,i ) . Allgemeiner: Ist c Rn \ {0}, so ist
n n n
i=1
ci Xi N
ci i ,
i=1 i=1
c2 i i,i
Sind die Xi s paarweise unkorreliert, so sind sie unabh angig. Beweis: Da alles nur von der Verteilung abh angt, k onnen wir wie folgt vorgehen: Finde eine n n-Matrix A, s.d. A AT = gilt. Dann ist X = A Z + f ur Z N (0, In ). Damit folgt aber
n
Xi =
k=1
Ai,k Zk + i ,
womit mehrfaches anwenden des Faltungssatzes f ur die Normalverteilung (Satz 10.77) sofort
n n
Xi N
i ,
k=1
A2 i,k
=N
i ,
k=1
Ai,k AT k,i
= N (i , i,i )
liefert. Ganz analog geht man f ur beliebiges c Rn \ {0} vor. Kommen wir zur Unabh angigkeit. Sind die Xi s unkorreliert, so ist CoV(X ) = eine Diagonalmatrix. Die Dichte fX von X ist gem a 10.13 gegeben, und da 1 ebenso wie Diagonalform hat, ist sie in Produktform. Satz 10.69 liefert, dass die Xi s unabh angig sind.
10.10
Wahrscheinlichkeitsverteilungen und der zentrale Grenzwertsatz
Bemerkung 10.94: Wir haben schon gesehen, dass f ur stetige Zufallsvariablen X und Y ebenso wie f ur diskrete die Linearit at des Erwartungswertes gilt: E (aX + Y ) = aE (X ) + E (Y ) , Auerdem ist der Erwartungswert monoton, d.h. XY E (X ) E (Y ) . a R. (10.15)
Man kann ebenso (matheoretisch) zeigen, dass alle Rechenregeln, die im diskreten Fall f ur die Varianz gelten, sich auf den stetigen Fall u bertragen, also V (aX + b) = a2 V (X ) f ur a, b R und X stetig verteilte Zufallsvariable usw.. Ebenso gelten die Markov-, Tschebyschow- und Hoeding Ungleichung sowie das SGGZ genau wie im stetigen Fall. Wir werden die Regeln (10.15) und (10.16) nun einfach mitbenutzen. (10.16)
126
10.10.1
Die Jensensche Ungleichung
Bevor wir zum zentralen Grenzwertsatz schreiten brauchen wir noch folgendes 10.95 Lemma (Jensensche Ungleichung): Ist X eine reelle Zufallsvariable (diskret oder stetig, das Lemma gilt in beiden F allen) und g : R eine konvexe Funktion, so gilt im Falle der Existenz von E (X ) und E (g (X )) die Ungleichung g (E (X )) E (g (X )) . Beweis: F ur eine konvexe Funktion g k onnen wir an den Punkt (E (X ) , g (E (X ))) eine (ohne weitere Voraussetzungen nicht zwingend eindeutige) lineare Approximation an g legen. Diese hat die Form L (x) = c (x E (X )) + g (E (X )) , wobei c = g (E (X )), falls g an E (X ) I dierenzierbar ist. Insbesondere gilt dann E (L (X )) = E (c (X E (X )) + g (E (X ))) = c (E (X ) E (X )) + g (E (X )) = g (E (X )) Da g konvex und L linear ist, gilt L g und mit der Monotonie des Erwartungswerts folgt so g (E (X )) = E (L (X )) E (g (X )) , was die Behauptung zeigt. Beispiel 10.96: Sei X eine reelle Zufallsvariable. Ist etwa g (x) = x2 , so folgt (E (X )) E X 2 . Dieses Ergebnis folgt auch schon daraus, dass 0 V (X ) = E X 2 (E (X )) ist. Bemerkung 10.97: Sei X eine reelle Zufallsvariable. Insbesondere kann man das Lemma auch f ur Intervalle I R, etwa I = [0, ) anwenden, wenn X Werte in I hat.
2 2
/R
127
10.10.2
Der zentrale Grenzwertsatz (ZGWS)
10.98 Denition (drittes zentrales Moment): Sei X eine reelle Zufallsvariable. Wir denieren (X ) := E |X E (X )| als das dritte zentrale Moment von X . Bemerkung 10.99: Sei X eine reelle Zufallsvariable. Oenbar h angt (X ) nur von der Verteilung von X ab. 10.100 Satz (Zentraler Grenzwertsatz): Sei P X eine feste Verteilung einer reellen Zufallsvariablen X s.d. E (X ), V (X ) und := (X ) existieren und V (X ) > 0 ist (das ist zum Beispiel f ur B (n, p) , Geo(p), Exp () , N , 2 usw. der Fall). F ur jedes n N seien X1 , ..., Xn unabh angige reelle Zufallsvariablen, die alle nach P X verteilt sind. Sei nun
n 3
Sn :=
i=1
Xi
und die Verteilungsfunktion von N (0, 1). Dann gilt sup P

xR
Sn E (S n ) V (Sn )
(x)
/ 0.
(10.17)
Wir beweisen diese Version des zentralen Grenzwertsatzes ein wenig weiter unten. Bemerkung 10.101: Nat urlich gilt unter den gemachten Voraussetzungen die Formel (10.17) genauso mit < anstelle von . Bemerkung 10.102: Nat urlich folgt mit dem zentralen Grenzwertsatz auch sup P
ab
Sn E (Sn ) V (Sn )
((b) (a))
/ 0.
10.103 Satz (Zentraler Grenzwertsatz - alternative Formulierung): Sei X1 , X2 , ... eine Folge unabh angiger reeller Zufallsvariablen mit gleicher Verteilung, s.d. E (X1 ), V (X1 ) und (X1 ) existieren und V (X1 ) > 0 gilt. Sei auerdem die Verteilungsfunktion zu N (0, 1). Dann gilt
n n
Folgerung 10.104 (Grenzwertsatz von de Moivre-Laplace): Satz 9.2 folgt sofort durch Anwenden des zentralen Grenzwertsatzes (alternative Formulierung) mit 0 < p < 1 fest und X1 , X2 , ... B (1, p) unabh angig verteilt. Nun zeigen wir zun achst folgenden 10.105 Hilfssatz: Sei Y N 0, 2 verteilt. Dann gilt E |Y |
3
Xi X E i=1 i i=1 sup P n xR V Xi

i=1
x (x)
/ 0.
8 3 .
Beweis: Gem a der Transformationsformel f ur den Erwartungswert (Satz 10.44) ist E |Y |

3
1 1 exp 2 t2 |t|3 2 2 2 2
dt
2 2
t3 exp
1 2 t 2 2
dt.
128 Nun substituiert man t = 2x, womit dt =

3
2x
dx ist und dx 2x
E |Y |
2 2 2 2 4 2 2 4 3 2
3 1 3 2x exp 2 2 2x 2 2x exp (x) dx

2
x exp (x) dx
= = = = Das zeigt die Behauptung.
4 3 (2) 2 4 3 (2 1)! 2 16 3 2 8 3 .
Bevor wir nun zum Beweis des zentralen Grenzwertsatzes schreiten stellen wir noch fest: Bemerkung 10.106: Sind die Zufallsvariablen Xi unabh angig, so gilt
n n
V
i=1
Xi
=
i=1
V (Xi ) ,
was wir im diskreten Fall auch bewiesen haben. Beweis (von Satz 10.100): Setze Fn (x) := P f ur x R und := Sn E (Sn ) V (Sn ) x
V (x1 ). Wir m ussen also zeigen, dass sup |Fn (x) (x)|
xR n
/.
(10.18)
F ur (10.18) gen ugt es zu zeigen, dass es f ur jedes > 0 ein > 0 gibt, s.d. sup |Fn (x) (x)| , n 3 xR
3 n
denn falls dieses gilt, nden wir immer ein hinreichend groes n N s.d. sup |Fn (x) (x)|
xR
und somit
ist. Wir beginnen dazu mit einigen Vorbereitungen. Setze Zi := Xi E (Xi ) nV (Xi )
f ur i = 1, ..., n. Dann ist nach der Bemerkung 10.106 Sn E (Sn ) V (Sn )

n
=
i=1
Zi
129
und entsprechend auch

n
Fn (x) = P
i=1
Zi x ,
x R.
Oenbar ist E (Zi ) = 0 f ur i = 1, ..., n und man berechnet mit den Regeln f ur die Varianz
2 = V (Zi ) + (E (Zi )) = E Zi =0 2
1 1 V (Xi E (Xi )) = nV (Xi ) n
f ur jedes i = 1, ..., n. Zuletzt ist E |Zi |

3
=E
|Xi E (Xi )| nV (Xi )

3
= 3 . ( n) 3
1 Seien ferner Y1 , ..., Yn unabh angig (auch von den Zi s) mit Yi N 0, n . Nach dem Faltungssatz f ur die Normalverteilung (Satz 10.77) ist dann n
i=1
Yi N (0, 1)
1 n
verteilt. Auerdem ist E (Yi ) = 0, E Yi2 = V (Yi ) = E |Yi |3 =
und mit Hilfssatz 10.105 auch 8 1 . n3
W ahle zu beliebigem > 0 eine mindestens dreifach stetig dierenzierbare Funktion f mit 0 f 1 und f (t) = 1 falls t 0 . 0 falls t
tR
Setze dann zu x R fx (t) := f (t x), t R und M := sup |f (t)|. Nach dem Satz von Taylor gilt dann f ur alle t, h R
fx (t + h) = fx (t) + fx (t) h + fx (t)
|h|3 |h|3 h2 + v (t, h) mit |v (t, h)| sup |fx (t)| M . (10.19) 2 6 6 tR 3.6 M 1+
Jetzt denieren wir := () = und w ahlen n N so gro, dass

3 n
gilt.
Schritt I
Wir zeigen nun, dass
n n
fx
i=1
Zi
fx
i=1
Yi
M 6
i=1
E |Zi |
+ E |Yi |
(10.20)
f ur alle x R gilt.
Z Setze Sj := j i=1 Z Zi f ur j = 1, ..., n. Betrachte nun t = Sn 1 und h = Zn in der Taylorentwicklung (10.19): 2 Zn Z + v Sn 1 , Zn . 2
Z Z Z Z fx Sn 1 + Zn = fx Sn1 + fx Sn1 Zn + fx Sn1

Z = Sn
Z Z Sn Nach dem Blockungslemma sind fx 1 und Zn sowie fx Sn1 und unseren Vor uberlegungen Z E fx Sn Z = E fx Sn 1 Z Sn + E fx 1 Z E (Zn ) +E fx Sn 1 =0
2 Zn 2
unabh angig, d.h. es folgt mit

2 Zn 2 = 21 n
Z +E v Sn 1 , Zn
130
Genauso folgt mit h = Yn , dass

Z E fx Sn 1 + Yn Z = E fx Sn 1 Z Sn + E fx 1
2 Yn 2 = 21 n
Z +E v Sn 1 , Yn
Subtrahieren der Gleichungen liefert

Z E fx Sn Z E fx Sn 1 + Yn
=
Jensensche Ungleichung
Z E v Sn 1 , Zn Z E v Sn 1 , Zn
Z E v Sn 1 , Yn Z + E v Sn 1 , Yn
Z v Sn , Zn
+E
Z v Sn 1 , Yn
(10.19), Monotonie
M 3 3 E |Zn | + E |Yn | 6
n
Z Da wir ja eigentlich eine Absch atzung f ur E fx Sn
E fx
Yi
i=1
haben wollen, betrachten wir
Z nun die Taylor-Entwicklung (10.19) mit t = Sn 2 + Yn und h = Zn1 bzw. h = Yn1 . Dort erhalten wir ganz analog zur obigen Rechnung durch Subtrahieren die Absch atzung Z E fx Sn 1 + Yn Z E fx Sn 2 + Yn1 + Yn
M 3 3 E |Zn1 | + E |Yn1 | 6
Z Nutze dann die Taylor-Entwicklung (10.19) mit t = Sn 3 + Yn1 Yn und h = Zn2 bzw. h = Yn2 usw.. Das liefert dann allgemein Z E fx Sk + Yk+1 + ... + Yn Z E fx Sk 1 + Yk + ... + Yn
M 3 3 E |Zk | + E |Yk | 6
f ur alle k {1, ..., n}. Mit der Dreiecksungleichung folgt so die behauptete Gleichung (10.20).
Schritt II
Wir wollen nun zeigen, dass die rechte Seite aus Schritt I (10.20) 0.6 ist. Nach unseren Vor uberlegungen ist die rechte Seite M 6
3
i=1
E |Zi |
+ E |Yi |
M 6
+ n 3
8 1 n
(10.21)
Da g (x) := x 2 konvex ist, folgt mit der Jensenschen Ungleichung 10.95, dass 3 = ist. Daher ist und es folgt, dass die rechte Seite 10.21 M 6 + n 3 8 1 n = M 6 3+ 3 n 1+ 8 8 1 n V (X )
3
= E |X E (X ) |2
3 2
E 1 3
|X E (X )|2
3 2
= E |X E (X )|3 =
M 3 6 n
M 1+ 6 M 3.6 6 M 1+ 3.6 6 0.6
8 1+ 8
= = erf ullt - also genau die Behauptung.
131
Schritt III
Nach Denition der Zi haben wir nun f ur alle x R
n
Fn (x) = P
i=1
Zi x
n
= E
n n
1(,x]
Zi
i=1
da 1(,x]
Zi
i=1
B 1, P
mit der Monotonie des Erwartungswerts

n
i=1
Zi x
gilt. Nach Wahl von f ist 1(,x] fx und daher folgt
Fn (x) E was mit Schritt I und II wiederum
fx
i=1
Zi
Fn (x) E
fx
i=1
Yi
+ 0.6
zeigt. Nun ist 1(,x+] fx nach Wahl von f und daher folgt wieder mit der Monotonie
n n
Fn (x) E
1(,x+]
Yi
i=1
+ 0.6 = P
i=1 n
Yi x +
+ 0.6.
Da wie schon bemerkt laut Faltungssatz (Satz 10.77)

i=1 n
Yi N (0, 1) gilt, ist
P
i=1
Yi x +
= ( x + ) ,
d.h. wir haben Der Mittelwertsatz der Dierentialrechnung liefert (x + ) (x) + ( ) f ur ein R. Wegen ( ) = ( ) 1 0 . 4 f u r die Dichte der Standard-Normalverteilung folgt somit 2 Fn (x) (x) + 0.4 + 0.6 = (x) + . Ganz analog erh alt man (x ) Fn (x) + 0.6 und mit dem Mittelwertsatz zus atzlich (x) (x ) + 0.4. Zusammen zeigt das |Fn (x) (x)| f ur alle x R und daher u ber (10.18) die Behauptung. 10.107 Satz (Fehlerabsch atzung nach Berry-Esseen): Im obigen zentralen Grenzwertsatz (Satz 10.100) gilt f ur jedes n N P Sn E (Sn ) V (Sn ) x 0.8 (x) 3 n Fn (x) (x + ) + 0.6.
f ur jedes x R. Diese Relation gilt auch mit einem < anstelle von . Auerdem gilt damit P a Sn E (S n ) V (Sn ) b 1.6 ((b) (a)) 3 . n
132
Beweis: Diese Absch atzungen folgen schon aus unserem Beweis des zentralen Grenzwertsatzes. Es ist nur etwas Arbeitsaufwand, sie herauszulesen. Beispiel 10.108:
1 Wir wollen Fehlerabsch atzungen f ur den Grenzwertsatz von de Moivre-Laplace (Satz 9.2) im Fall p = 2 1 1 herleiten. Seien also X1 , X2 , ... B 1, 2 unabh angige Zufallsvariablen. Dann ist V (Xi ) = 4 , d.h. mit den Bezeichnungen des zentralen Grenzversatzes ist
3 = V (X ) 2 =
1 Auerdem ist |Xi E (Xi )| = 2 , da E (Xi ) = 1 2
1 . 8
ist, d.h.
3
= E |X1 E (X1 )| Daher ist

3
1 . 8
= 1 und die Fehlerabsch atzungen werden zu 0.8 1.6 bzw. . n n
11 Markov-Ketten mit endlichem Zustandsraum
133
11
Markov-Ketten mit endlichem Zustandsraum
Die Idee
Wir wollen ein stochastisches Modell f ur die Bewegung eines Teilchens auf endlich vielen Zust anden geben, wobei die Wahrscheinlichkeit f ur den n achsten Zustand nur vom jetzigen Zustand und nicht von der weiteren Vergangenheit abh angt. Diese Eigenschaft wird auch Markov-Eigenschaft genannt und ist oftmals nur eine Approximation der Wirklichkeit. Die L osung f ur ein solches Modell sind Markov-Ketten, die wir in Abschnitt 11.2 kennen lernen werden. Beispiel 11.1: Wir betrachten einen Springer, der sich allein auf dem Schachbrett bewegt. Er w ahlt aus allen ihm erlaubten Z ugen jeweils rein zuf allig (also gleichverteilt) den n achsten Raus. In diesem Beispiel entsprechen die Zust ande den 64 Feldern des Schachbretts und das Teilchen dem Springer. Man kann sich jetzt etwa Fragen, wie lang die erwartete Zeit ist, bis der Springer wieder in seiner Startposition ankommt. Beispiel 11.2: Ein weiteres Beispiel ist ein sogenannter Netbot, der zuf allig gem a Ausgangslinks von Seite zu Seite wandert. Beispiel 11.3 (Markov): Markov betrachtete urspr unglich folgendes Problem: Wenn die Folge von Vokalen / Konsonanten in Puschkins Roman Eugene Onegin die Markov-Eigenschaft h atte, dann w are die Ubergangsmatrix (denieren wir weiter unten) gegeben durch V j
0.128 0.663 0.872 0.337
K [
Heutzutage werden Markov-Ketten vor allem als Modell f ur DNA-Folgen genutzt, wobei das Alphabet dann {A, C, G, T} ist. Eine andere Interpretation von Markov-Ketten ist, dass ein System (= Teilchen) sich in einem von endlich vielen Zust anden bendet. Zu bestimmten Event-Zeitpunkten springt es dann in einen neuen Zustand. Diese Interpretation wird heutzutage etwas bei der Puerauslastung von Servern verwendet.
11.1
Steuerung der Spru und -graphen nge: Ubergangsmatrizen
11.4 Denition: Eine Zustandsmenge S ist eine endliche Menge. Sei von jetzt an stets S eine Zustandsmenge. Oftmals ist S = {1, ..., N }, allerdings verwenden wir oft das Symbol 1 f ur den Zustand 1, um nicht durcheinander zu kommen. 11.5 Denition: Sei #S = N N. Eine N N -Matrix P = (pi,j )i,j S mit den Eigenschaften pi,j 0 i, j S
j S
pi,j = 1 i S
auf S . heit stochastische Matrix oder Ubergangsmatrix In diesem Fall sind alle Zeilen von P stochastische Vektoren. Notation 3: Sei P eine Ubergangsmatrix auf S . F ur den Eintrag von P in der i-ten Zeile und j -ten Spalte schreiben wir P (i, j ) = pi,j bei i, j S .
134
Beispiel 11.6: Wir wollen die t agliche Wetterentwicklung modellieren. Dazu sei S := {Regen, Sonne, bew olkt} . Wir nummerieren die Zust ande in dieser Reihe durch (also Als Ubergangsmatrix denieren wir 0 1 0 1 P := 3 0 2 3
1 3 1 3 1 3
Regen = 1, Sonne = 2, bew olkt = 3).
Das soll etwa bedeuten, dass
. 2 . 3
P (morgen bew olkt | heute Sonne) = p2,3 =
11.7 Denition: Zu einer Ubergangsmatrix P auf S geh ort stets ein Ubergangsgraph GP , welcher wie folgt zu konstruieren ist: Die Menge E der Ecken von GP ist S . Eine Kante von i S nach j S mit Gewicht pi,j wird geh ort genau dann zur Kantenmenge V von GP , wenn pi,j > 0 gilt. Beispiel 11.8: In unserem Wettermodell aus Beispiel 11.6 w are der zugeh orige Graph 6 2 V
2 3
1 3
1 3
1 3
v 1 o

1 3
3 V
Beispiel 11.9 (Lieblingsbeispiel des Dozenten): Betrachte die Ubergangsmatrix P= 0

1 2
1
1 2
Dann ist der zugeh orige Ubergangsgraph GP gegeben als

1
1 2
1 j
1 2
2 [
11.10 Denition: Sei G = (V, E ) ein Graph und i, j V . Ein Pfad oder Weg von i nach j in G ist eine Folge von Ecken vi,i1 , vi1 ,i2 , ..., vin1 ,in , vin ,j zwischen den Punkten i und i1 , i1 und i2 ,... entsprechend mit i1 , ..., in V . Im allgemeinen existiert kein Pfad zwischen beliebigen i, j V . F ur einen Pfad w gegeben durch i = i0 , i1 , ..., in = j von i nach j sei |w| = n seine L ange. Wir schreiben f ur w auch i Man kann Wege auch verkn upfen: Ist i |w1 w2 | = |w1 | + |w2 |.
w1 w
/ j.
w2
/ j und j
/ k , so ist i
w1 w2
/ k ebenfalls ein Weg mit
135
11.11 Denition: Sei P eine Ubergangsmatrix auf S . P beziehungsweise der zugeh orige Ubergangsgraph GP heien irreduzibel, wenn es f ur jedes Paar i, j S ein Pfad von i nach j von GP gibt. Beispiel 11.12: Die Ubergangsmatrize bzw.- graphen aus obigen Beispielen 11.6 und 11.9 sind beide irreduzibel. Betrach tet man dagegen die Ubergangsmatrix 1 0 P= , 1 1
2 2
so sieht man am zugeh origen Graphen

1
1 2
1 j
1 2
2 [
leicht, dass dieses Beispiel nicht irreduzibel ist - es gibt keinen Pfad von 1 nach 2 ! Bemerkung 11.13: Man beobachtet nun Folgendes: Ist P eine Ubergangsmatrix auf S , so beschreibt eine Folge von Zust anden i = i0 , i1 , ..., in1 , in = j aus S genau dann einen Pfad von i nach j , wenn pi0 ,i1 > 0 und pi1 ,i2 > 0 und ... und pin1 ,in > 0 ist, d.h. falls die Zahl
n1 =0
pi ,i +1
strikt positiv ist. Wir denieren diese Zahl als das Gewicht des Pfades und die Zahl n als seine L ange. 11.1.1 Potenzen der Matrix P
Im Weiteren ben otigen wir st andig n-te Potenzen der Matrix P. Sei n N und N = #S . Man beachte: Die N N -Matrix P2 = P P ist gegeben durch P2 (i, j ) =
k S
pi,k pk,j =
k S
P (i, k ) P (k, j ) ,
i, j S.
Allgemein folgt induktiv f ur Pn = P Pn1 , dass Pn (i, j ) =

i1 ,...,in1 S
pi,i1 ... pin1 ,j ,
i, j S,
(11.1)
d.h. dass die Zahl Pn (i, j ) genau die Summe aller Gewichte von Pfaden der L ange n von i nach j ist. Damit haben wir sofort folgenden 11.14 Satz: Sei P eine Ubergangsmatrix auf S . Dann gilt: P ist genau dann irreduzibel, wenn es f ur jedes Paar i, j S ein n = n (i, j ) N mit Pn (i, j ) > 0 gibt.
136
Beweis: Ist P irreduzibel, so gibt es zu i, j S ein n = n (i, j ) und einen Pfad der L ange n von i nach j mit Gewicht (0, 1]. Wie wir oben schon beobachtet haben, ist Pn (i, j ) die Summe aller Gewichte von Pfaden der L ange n von i nach j , und da Gwichte von Pfaden stets positiv sind folgt Pn (i, j ) > 0. Gibt es zu i, j S ein n = n (i, j ) mit Pn (i, j ) > 0, so bedeutet das aus dem gleichen Grund, dass ein Pfad von i nach j in GP der L ange n existiert. Beispiel 11.15: Sei P= Dann ist 1 0 0 1 = P2 = P4 = ... und 0 1 1 0 = P = P3 = P5 = .... 0 1 1 0 .
Daher ist laut Satz schon mit n = 2 klar, dass P irreduzibel ist. Das kann man auch am zugeh origen Graphen GP leicht erkennen:
1
1 j
1
2 .
Beispiel 11.16: Wir betrachten wieder die Ubergangsmatrix P= aus Beispiel 11.9. Dann ist P2 = womit oenbar n = 2 f ur jedes Paar i, j S = zu zeigen.
1 2 1 4 1 2 3 4
0
1 2
1
1 2
, ausreicht, um die Irreduzibilit at mit dem Satz
1, 2
Wir werden meist nur irreduzible Ubergangsmatrizen P betrachten!

11.1.2 Die Periode einer Ubergangsmatrix 11.17 Denition: Sei P eine irreduzible Ubergangsmatrix auf S . Die Periode eines Zustands i S ist der gr ote gemeinsame Teiler der Menge {n N | es gibt einen Pfad der L ange n von i nach i} = {n N | Pn (i, i) > 0} . Beispiel 11.18: Wir betrachten wieder die Ubergangsmatrix P= 0 1 1 0
angen 2,4,6,8,... von i nach aus Beispiel 11.15. F ur den Zustand i = 1 existieren oenbar Pfade mit L i, daher ist d 1 = 2. Das kann man mit der zweiten Charakterisierung der Menge aus der Denition auch direkt aus den berechneten Matrix-Potenzen im Beispiel oben ablesen. Genauso ist d 2 = 2.
137
Beispiel 11.19: Wir kommen wieder zum Lieblingsbeispiel des Dozenten (Beispiel 11.9). Dort ist P= 0
1 2
1
1 2
angen 2,3,4,5,6 usw., schlielich k onnen F ur i = 1 nden wir oenbar Pfade von i nach i mit den L ote gemeinsame Teiler dieser Menge ist 1, d.h. wir wir im Zustand 2 immer rotieren. Das gr haben d 1 = 1. ange 1, weshalb es keinen gr oeren Teiler als F ur i = 2 gibt es sogar einen Pfad von i nach i mit L 1 geben kann. Es folgt d 2 = 1. Nach diesen beiden Beispielen kann man schon vermuten: F ur jedes i S ist d(i) gleich. In der Tat ist diese Aussage stets richtig: 11.20 Satz: Sei P eine irreduzible Ubergangsmatrix auf S . Dann ist die Periode d(i) f ur jedes i S gleich. Beweis: Seien i, j S . Es gen ugt zu zeigen, dass d(i) die Zahl d(j ) teilt, also d(i) d(j ). Da P irreduzibel ist nden wir einen Weg i ist dann mit |w1 w2 | = r + s. Das zeigt zun achst d(i) r + s. Ist nun j
w w1
/ j mit |w1 | = r und j

w1 w2
w2
/ i mit |w2 | = r. Insbesondere
/i
(11.2)
/ j ein beliebiger Pfad mit |w| = n, so bleibt zu zeigen, dass d(i) n. Da dann i
w1 ww2
/i
ein Pfad mit |w1 ww2 | = r + s + n ist, folgt daraus d(i) r + s + n. Mit (11.2) und (11.3) folgt aber d(i) n, was zu zeigen war. Bemerkung 11.21: Beachte, dass P zwingend irreduzibel sein muss, damit dieser Satz gilt. Man kann Perioden von Zust anden auch f ur nicht irreduzible Ubergangsmatrizen P denieren, allerdings kann dann d(i) = d(j ) f ur i = j , i, j S gelten. 11.22 Denition: Sei P eine irreduzible Ubergangsmatrix auf S . Wir nennen die Zahl d := d(i), i S beliebig die Periode von P. Nach obigem Satz ist d wohldeniert. 11.23 Denition: Sei P eine irreduzible Ubergangsmatrix auf S . Ist d = 1, so nennen wir P aperiodisch. Bemerkung 11.24: Zur Bestimmung der Periode d kann man sich also ein i S aussuchen. Gibt es im Ubergangsgraphen GP zum Beispiel eine Schleife der Form
p1 p3 >0
(11.3)
... j
p2
)i Z
so w ahlt man als Zustand i und hat sofort d = 1.
138
Beispiel 11.25: Betrachte die Ubergangsmatrix P, welche durch den Ubergangsgraphen

1 2 1 2 1 2
1 j
1 2
2 j
1 2
3 j
1 2
gegeben ist. Da es oenbar nur Wege gerader L angen von i nach i f ur jedes i S = geben kann, ist d = 2. Beispiel 11.26: Betrachte die Ubergangsmatrix P, welche durch den Ubergangsgraphen 6 1 V
1 2 1 2
1, 2, 3, 4
1 2
1 2
1 2
sv
1 2
3 3
gegeben ist. Dann nden wir f ur jedes i S = folgt.
1, 2, 3
Wege der L ange 2 und 3, weshalb d = 1
11.27 Satz: Seine Ubergangsmatrix P ist genau dann irreduzibel und aperiodisch, wenn es ein n N mit Pn (i, j ) > 0 i, j S gibt. Beweis: Wir wollen die folgende zahlentheoretische Tatsache verwenden: Ist der gr ote gemeinsame Teiler ggT (n1 , n2 , ...) unendlich vieler nat urlicher Zahlen = 1, so gibt es ein k N mit ggT (n1 , ..., nk ) = 1. Dann existiert ein M N s.d. jedes m M geschrieben werden kann als m = a1 n1 + ... + ak nk mit Koezienten ai N, i = 1, .., k . Dies sieht man leicht u ber die Theorie der Hauptideale ein. Sei 1 S . Da P aperiodisch ist, ist d 1 = 1 und es gibt nach unserer zahlentheoretischen Tatsache ein M N, s.d. f ur alle m M ein Weg 1
w
/ 1 , |w| = m
existiert. F ur #S = N setze nun n := M + 2N . Da P irreduzibel ist, nden wir zu i, j S beliebig einen Weg w1 /j i mit |w1 | N , indem wir keine Zust ande unn otigerweise doppelt besuchen. Genauso existiert auch ein Weg w2 /j 1 mit |w2 | N . Gem a der Wahl von M nden wir einen Pfad 1
w
/ 1
139
mit |w| = 2N |w1 | |w2 | + M M . Damit ist i mit |w1 ww2 | = 2N + M , also Pn (i, j ) > 0. Ist Pn (i, j ) > 0 f ur alle i, j S , so folgt aus der Darstellungsformel Pn+1 (i, j ) =
k S w1 ww2
/j
P (i, k ) Pn (k, j )
und der Tatsache, dass jede Zeile von P ein stochastischer Vektor der L ange N ist , auch sofort Pn+1 (i, j ) > 0 i, j S . Daher gibt es Wege der L ange n und n + 1 von 1 nach 1 . Es folgt d(1) (n + 1) n = 1 und somit d(1) = 1. Daher ist P aperiodisch. Die Irreduzibilit at von P folgt bereits aus Satz 11.14.
11.2
Markov-Ketten
Von jetzt an werden wir stets ohne Einschr ankung S = {1, ..., N } annehmen. Bisher haben wir in diesem Zusammenhang unsere Zust ande stets mit 1 ,..., N notiert, was wir jetzt nicht weiter machen wollen. Es ist aus dem Kontext klar, ob ein Zustand oder eine Zahl gemeint ist. 11.28 Denition: Eine Startverteilung auf S = {1, ..., N } ist eine Wahrscheinlichkeitsverteilung 0 := (0 (1) , ..., 0 (N )) . 11.29 Denition: Sei P eine Ubergangsmatrix und 0 eine Startverteilung auf S . Eine Markov-Kette zu P mit Startverteilung 0 ist eine Folge X0 , X1 , X2 , X3 , ... von (diskreten) Zufallsvariablen mit Werten in S , s.d. (1) P (X0 = i) = 0 (i) (2) F ur alle Wahlen n 0, 0 k n, in+1 , ..., ink (Startverteilung) (Markov-Eigenschaft) S mit P (Xn = in , ..., Xnk = ink ) = 0 gilt
P (Xn+1 = in+1 | Xn = in , ..., Xnk = ink ) = P (Xn+1 = in+1 | Xn = in ) = P (in , in+1 ) . Bemerkung 11.30: (1) Xn gibt in diesem Modell den zuf alligen Zustand zur Zeit n N an. (2) Die Markov-Eigenschaft (oder auch kurz ME) modelliert die Eigenschaft des stochastischen Prozesses X0 , X1 , X2 , ..., dass die Wahrscheinlichkeit f ur den n achsten Zustand nur vom jetzigen Zustand und nicht von der weiteren Vergangenheit abh angt, wie wir es in der Idee zu Beginn gefordert haben. Die Forderung P (Xn = in , ..., Xnk = ink ) = 0 ist mathematisch unerl asslich, wir werden sie aber stets stillschweigend annehmen. Man kann sich nun Fragen, ob es u ur jede Ubergangsmatrix und berhaupt Markov-Ketten gibt (d.h. ob f jede Startbedingung Zufallsvariablen X0 , X1 , ... mit obigen Eigenschaften existieren). Die Matheorie beantwortet diese Frage mit ja. Man kann nun einige Eigenschaften von X0 , X1 , X2 berechnen und zeigen, dass es sich um das richtige Modell f ur das zuf allige, durch P gesteuerte Wandern auf GP bei zuf alligem, durch 0 gesteuertem Start handelt.
140
11.2.1
Drei elementare Wahrscheinlichkeiten von Markov-Ketten
Wir betrachten hier stets einen Markov-Prozess aus Denition 11.29. Bemerkung 11.31 (Pfadwahrscheinlichkeiten): F ur m N und i0 , i1 , ..., im S haben wir P Xn+m = im , Xn+m1 = im1 , ..., Xn = i0
=:B Markov-Eigenschaft
P (Xn+m = im | B ) P (im1 , im ) P (B ) .
Daher folgt induktiv

m
P (Xn+m = im , Xn+m1 = im1 , ..., Xn = i0 ) =
=1
P (i 1 , i ) P (Xn = i0 ) .
Die Wahrscheinlichkeit P (Xn = i0 ) werden wir in Bemerkung 11.34 bestimmen. Fall n = 0 ist, so ist P (X0 = ii ) = 0 (i0 ) durch die Startverteilung gegeben. In diesem Fall entspricht die sich ergebende Wahrscheinlichkeit also genau unseren W unschen! Bemerkung 11.32 (m-Schritt Ubergangswahrscheinlichkeiten): Sind i, j S , so erh alt man durch disjunkte Zerlegung von S in seine Elemente sofort P (Xn+m = j, Xn = i) =
im1 ,...,i1 S Bemerkung 11.31
P (Xn+m = j, Xn+m1 = im1 , ..., Xn+1 = i1 , Xn = i) P (i, i1 ) P (i1 , i2 ) ... P (im1 , j )
P (Xn = i)
im1 ,...,i1 S
(11.1)
P (Xn = i) P (i, j ) . P (Xn+m = j | Xn = i) = Pm (i, j ) .
Insbesondere folgt durch Division des Terms P (Xn = i), dass
Beispiel 11.33: Ist P= 0

1 2
1
1 2
die Ubergangsmatrix aus Beispiel 11.9, so berechnet man P2 =

1 2 1 4 1 2 3 4
, P4 =
3 8 5 16
5 8 11 16
, P10
5 16
0.33398 0.33301 = 0.3125.
0.66602 0.66699
Daher ist zum Beispiel P (Xn+4 = 1 | Xn = 2) = P4 (2, 1) =
Bemerkung 11.34 (Verteilung zur Zeit n): Sei n (j ) := P (Xn = j ) , j S
die Verteilung von Xn . Dann ist n ein Wahrscheinlichkeitsvektor (als Zeile!). Man berechnet mit der Formel von der totalen Wahrscheinlichkeit f ur jedes j S n (j ) =
(3.2)
P (Xn = j ) P (Xn = j | X0 = i) P (X0 = i) Pn (i, j ) 0 (i)
iS Bemerkung 11.32
iS
(0 Pn ) (j ) ,
141
wobei 0 Pn das Matrix-Produkt aus dem Zeilenvektor (also der 1 N -Matrix) 0 und der N N -Matrix Pn bezeichnet. Das liefert die Formel
n = 0 Pn .
Beispiel 11.35:
(11.4)
Wir betrachten wieder das Setting aus Beispiel 11.33. Ist etwa 0 = (0, 1), d.h. starten wir mit Sicherheit im Zustand 2, so ist 5 11 4 = 0 P4 = zweite Zeile von P4 = . , 16 16 Wir haben so die Zustandsverteilung im Schritt n = 4 berechnet. 1 unzwurf f ur den Startzustand entspricht, so ist Ist dagegen 0 = 1 2 , 2 , was etwa einem M 4 = 0 P4 = 1 1 erste Zeile von P4 + zweite Zeile von P4 = 2 2 11 21 , 32 32 .
Wir werden im n achsten Abschnitt allgemein sehen, dass n f ur jede beliebige Startverteilung 0 gilt!
n
/ /
1 2 , 3 3
11.3
Invariante Mae und Konvergenzs atze
11.36 Denition: Ist P eine Ubergangsmatrix und eine Wahrscheinlichkeitsverteilung auf S mit der Eigenschaft, dass P = ist, so nennt man eine invariante Verteilung. Bemerkung 11.37: Der Begri invariant macht in diesem Zusammenhang um so mehr Sinn, denn in diesem Fall gilt Pn = P Pn1 = Pn1 = ... = . D.h. wenn X0 , X1 , X2 , ... eine Markov-Kette zu P mit der speziellen Startverteilung 0 = ist, so gilt n = n N nach (11.4). 11.38 Satz (Konvergenzsatz): Sei P eine irreduzible und aperiodische Ubergangsmatrix. (1) Dann gibt es genau eine invariante Verteilung zu P. Auerdem konvergieren alle Zeilen von Pn (exponentiell schnell) gegen , d.h. Pn (i, j )
n
/ (j ) i S.
(2) Ist X0 , X1 , X2 , ... eine Markov-Kette zu P und einer beliebigen Startverteilung 0 , so gilt n d.h. P (Xn = j )
n n
/ ,
/ (j ) f ur alle j S .
142
Beweis: (1) Wir unterteilen den Beweis in zwei Schritte:
Schritt I
Sei j S beliebig aber fest. Wir setzen mj Mj Wegen mj
(n+1) (n)
:= :=
min Pn (i, j ) = Minimum der Werte der j en Spalte von Pn ,

iS
(n)
max Pn (i, j ) = Maximum der Werte der j en Spalte von Pn .

iS
= =
min Pn+1 (i, j )

iS
min
iS k S
P (i, k ) Pn (k, j ) P (i, k ) mj

k S (n)
min
iS
= mj und Mj
(n+1)
(n)
= =
max Pn+1 (i, j )

iS
max
iS k S
P (i, k ) Pn (k, j ) P (i, k ) Mj

(n)
min
iS
k S
=
(n)
(n) Mj (n)
ist die Folge mj monoton wachsend in n (nicht zwingend streng) und die Folge Mj fallend in n. Unser Ziel ist es nun zu zeigen, dass Mj gilt.
(n)
monoton
mj
(n)
/0
(11.5)
Da P irreduzibel und aperiodisch ist folgt nach Satz 11.27, dass es ein L N und ein > 0 gibt, s.d. PL (i, j ) i, j S ist. Sei n N zun achst fest. W ahle ein i0 S mit und ein i1 S mit Sei nun I+ := k S | PL (i1 , k ) PL (i0 , k ) und I := S \ I+ . Mit dieser Einteilung folgt
k I+
Pn+L (i0 , j ) = mj
(n+L)
Pn+L (i1 , j ) = Mj
(n+L)
PL (i1 , k ) PL (i0 , k ) +
k I
PL (i1 , k ) PL (i0 , k )
=
k S
PL (i1 , k )
PL (i0 , k )
k S
1 1 = 0.
(11.6)
143
Damit gilt dann Mj

(n+L)
mj
(n+L)
= Pn+L (i1 , j ) Pn+L (i0 , j ) =

k S
Pn (i1 , k ) PL (k, j )
Pn (i0 , k ) PL (k, j )
k S
=
k S
PL (i1 , k ) PL (i0 , k ) Pn (k, j )

=:dk
=
k I+
dk Pn (k, j ) +
k I
dk Pn (k, j ) ,
und da f ur k I+ oenbar dk 0 und f ur k I oenbar dk < 0 gilt folgt so Mj

(n+L)
mj
(n+L)
(11.6)
d k Mj
k I+
(n)
+
k I
d k mj
(n)
(n)
d k Mj
k I+
(n)
mj
Induktiv folgt also f ur jedes m N, dass Mj

(mL)
Mj
(n)
mj
(n)
k I+ (n)
PL (i1 , k ) .
(1 ) Mj
(n)
mj
mj
(n)
(mL)
(1 )
Mj
(0)
mj
1 (n)
(0)
/ 0.
Da wir schon wissen, dass mj Aussage (11.5).
monoton w achst und Mj
monoton f allt folgt so die behauptete
Schritt II
Setze nun
n (n) (n)
(j ) := lim mj Da die Folgen mj werte. Wegen folgt sofort Pn (i, j )

n
(n)
= lim Mj .
n
(n)
und Mj
beschr ankt (durch [0, 1]) und monoton sind, existieren diese Grenzmj
(n)
Pn (i, j ) Mj
(n)
iS
/ (j )
f ur alle j S . Nun weisen wir die noch fehlenden Eigenschaften nach: Wir m ussen zeigen, dass ein Wahrscheinlichkeitsvektor ist. Da aber (Pn (1, j ))j S f ur jedes n N ein Wahrscheinlichkeitsvektor ist und diese Folge f ur n vergiert, ist diese Aussage klar. Wir m ussen zeigen, dass eine invariante Verteilung f ur P ist. Das folgt aus P(j ) =
k S
/ gegen kon-
(k )P (k, j ) n
/
k S
Pn (i, k ) (k )P (k, j ) = Pn+1 (i, j )
/ (j )
f ur jedes j S .
144
Wir m ussen zeigen, dass eindeutig bestimmt ist. Sei dazu eine Wahrscheinlichkeitsverteilung mit = P. Insbesondere ist dann = Pn f ur alle n N und daher gilt f ur alle jS (j ) = (k )Pn (k, j ) .
k S
Im Grenz ubergang n
/ ist Pn (k, j ) (j ) =
k S =1
/ (j ), d.h. es folgt (k ) (j ) = (j )
f ur alle j S , was gleichbedeutend mit = ist. (2) Mit Teil (1) folgt leicht f ur jede beliebige Startverteilung 0 und jedes j S P (Xn = j ) =
Bemerkung 11.34
n (j ) (0 Pn ) (j ) 0 (k )
k S n
Pn (k, j ) / / (j )
/ /
(j )
k S
0 (k )
=1
= Das zeigt n Beispiel 11.39: Wir haben schon gesehen, dass die Ubergangsmatrix P= 0
1 2 n
(j ).
/ .
1
1 2
aus Beispiel 11.9 irreduzibel und aperiodisch ist. Wir suchen nun zun achst eine invariante Verteilung , d.h. ein = ( (1), (2)) mit P = . Das liefert das Gleichungssystem 1 (2) 2 1 (1) + (2) 2 = (1) = (2),
woraus nur = (a, 2a) mit einem beliebigen a R folgt. Da allerdings ein Wahrscheinlichkeitsvektor 1 sein soll, muss a + 2a = 1 gelten, d.h. a = 3 . Es folgt, dass = 1 2 , 3 3
die einzige invariante Verteilung zu P ist, was eine Probe leicht best atigt: P = Mit Satz 11.38 folgt also Pn und P (Xn = 1)
n n
1 2 , 3 3
0
1 2
1
1 2
1 2 , 3 3
2 3 2 3
= .
/ /
n
1 3 1 3
/ 1 , P (Xn = 2) 3
/ /
2 3
f ur jede beliebige Startverteilung 0 .
145
11.40 Hilfssatz: Sei P eine irreduzible Ubergangsmatrix auf S = {1, ..., N }. Dann ist die Matrix Pk := 1 1 k P+ 1 IN k
f ur die N N -Einheitsmatrix IN f ur jedes k N2 aperiodisch und irreduzibel. Beweis: Laut Satz 11.27 m ussen wir zeigen, dass es ein M N gibt, s.d. PM k (i, j ) > 0 i, j S . Da P irreduzibel ist, gibt es gem a Satz 11.14 zu jedem Paar i, j S ein n (i, j ) mit Pn(i,j ) (i, j ) > 0. Setze nun M := max n (i, j ) .
i,j S
Sei nun i, j S beliebig. Mit dem binomischen Lehrsatz gilt oenbar

M
PM k =
=0 j da IN = IN und P IN = IN P = P. Also ist M
1 k
1 k M
P ,
PM k (i, j ) =
=0
1 k
1 k M
P (i, j )
0
M n (i, j )
1 k
n(i,j )
1 k M n(i,j )
Pn(i,j ) (i, j ) > 0.
>0
Das zeigt die Behauptung. 11.41 Satz (Invariante Verteilung): Ist P eine irreduzible Ubergangsmatrix, so gibt es genau eine invariante Verteilung zu P. Beweis: Sei wieder ohne Einschr ankung S = {1, ..., N }. Existenz: Sei IN die N N -Einheitsmatrix. F ur k N2 setze Pk := 1 1 k P+ 1 IN . k (11.7)
Diese Matrix ist gem a Hilfssatz 11.40 aperiodisch und irreduzibel, d.h. mit Satz 11.38 gibt es zu jedem k N2 genau eine invariante Verteilung (k) zu Pk . Da (k) Koordinatenweise durch [0, 1] beschr ankt ist, existiert eine Teilfolge ki s.d. ki
i
f ur eine Wahrscheinlichkeitsverteilung gilt. Diese erf ullt dann ki = ki Pki . Mit i / in dieser Gleichung folgt = P.
Eindeutigkeit: Ist = P und = P f ur zwei Wahrscheinlichkeitsverteilungen , , so folgt insbesondere nach (11.7), dass was nach Satz 11.38 = zur Folge hat. Der Konvergenzsatz l asst sich auch auf nicht-aperiodische Matrizen verallgemeinern. Wir wollen dieses Ergebnis allerdings nur ohne Beweis angeben:
= P2 = P2 ,
146
Bemerkung 11.42 (Konvergenzsatz f ur periodische Matrizen): Sei d > 1 die Periode der irreduziblen Ubergangsmatrix P. Setze Si (n) := {j S | es gibt einen Pfad der L ange n von i nach j in S } . F ur j / Si (n) ist dann P (Xn = j ) = 0 und es gilt
j Si (n)
max |P (Xn = j ) d (j )|
/0
exponentiell schnell.
11.4
Ru ckkehrzeiten und starkes Gesetz
11.43 Denition: Sei P eine irreduzible Ubergangsmatrix auf S = {1, ..., N } und i S . Sei Ti die zuf allige Zeit ( N), die vergeht, bis die in i gestartete Markov-Kette X0 , X1 , X2 , ... zu P wieder in i ankommt. Dabei bedeutet in i gestartet, dass 0 = ei f ur den i-ten karthesischen Einheitsvektor ei gilt. Dann ist Ti = inf {n 1 | Xn = i} und wir nennen Ti die R uckkehrzeit von i. Bemerkung 11.44: Beachte, dass {Ti = n} = {Xn = i, .Xn1 = i, ..., X1 = i, X0 = i} . Beispiel 11.45: Betrachte wieder die Ubergangsmatrix P zum Ubergangsgraphen GP aus Beispiel 11.9:
1
1 2
1 j
1 2
2 [
Identiziere 1 mit 1 und 2 mit 2 . Wir wollen den Erwartungswert der zuf alligen Gr oe T1 bestimmen. 1 n ur n 1. Damit folgt Oenbar ist P (T1 = 1) = 0 und P (T1 = n + 1) = 2 f E (T 1 ) =
n=0
n P (T1 = n) n 1 2
n1
n=2
n=1
(n + 1) 1 2
n
1 2 +
n=1
n=1
1 2
=1
Da die erste Summe dem Erwartungswert einer Zufallsvariablen X Geo d.h. wir haben E (T1 ) = 3.
1 2
entspricht ist ihr Wert = 2,
F ur Zustand 2 gestaltet sich die Rechnung etwas einfacher: Wegen P (T2 = 1) = P (T2 = 2) = E (T2 ) = 1 1 1 3 +2 = . 2 2 2 1 (i)
1 2
ist
Insbesondere sehen wir in diesem Beispiel schon, dass E (T i ) = f ur die zu P invariante Verteilung =
1 2 3, 3
gilt.
147
11.46 Satz (Positive Rekurrenz - ohne Beweis): Sei P eine irreduzible Ubergangsmatrix und X0 , X1 , ... die zugeh orige in i S gestartete Markov-Kette. Dann gilt: (1) Man kehrt sicher zu i zur uck, d.h.
n=1
P (Ti = n) = 1.
(2) Es ist E (Ti ) =
n=1
P (Ti = n) < .
Ein Teil des Beweises ist Aufgabe 5 des Ubungsblatts 12. Bemerkung 11.47: Ist #S = , so ist der Satz von der positiven Rekurrenz im allgemeinen falsch. 11.4.1 Der R uckkehrzeitensatz 11.48 Lemma: Sei X0 , X1 , X2 , ... eine Markov-Kette und E S n . Dann gilt f ur jedes in+1 , in S P Xn+1 = in+1 | Xn = in , (X0 , ..., Xn1 ) E = P (Xn+1 = in+1 | Xn = in ) .
=:A =:B =:C
(11.8)
Beweis: Wir zerlegen das Ereignis C disjunkt als C=

k I
Ck
mit Ck s von der Form {X0 = i0 , ..., Xn1 = in1 } f ur ein Tupel (i0 , ..., in1 ) E . Nach der MarkovEigenschaft gilt P (A | B Ck ) = P (A | B ) k I, d.h. es folgt P (A B Ck ) = P (A | B ) P (B Ck ) k I nach Denition der bedingten Wahrscheinlichkeit. Bilden der Summe u ber k I liefert P (A B C ) = P (A | B ) P (B C ) , was per Denition gleichbedeutend mit P (A | B C ) = P (A | B ) ist - das ist genau die Behauptung. 11.49 Satz (R uckkehrzeitensatz): Sei P eine irreduzible Ubergangsmatrix und die zugeh orige invariante Verteilung. Dann gilt E (Ti ) = f ur jedes i S . Beweis: Wir betrachten bei Start im Zustand i S die Hilfsfunktion (k ) :=
n=0
1 (i)
P (Xn = k, Ti > n) ,
k S.
Dabei ist X0 , X1 , X2 , ... die in i gestartete Markov-Kette mit Ubergangsmatrix P und die Zahlen P (Xn = k, Ti > n) entsprechen der Wahrscheinlichkeit, dass man zur Zeit n im Zustand k ist, aber bis zur Zeit n noch nicht wieder in i war.
148
Ohne Einschr ankung nehmen wir wieder S = {1, ..., N } an. Setze dann := ( (1) , ..., (N )) . Dann gilt
N
(k )
k=1
P (Xn = k, Ti > n)
n=0 k=1
n=0
P (Ti > n)
=
(5.3)
n=1
P (Ti n)
E (T i )
und diese Zahl ist nach dem Satz u ber die positive Rekurrenz oben < . Daher ist 1 = E (Ti ) (N ) (1) , ..., E (Ti ) E (Ti )
ein Wahrscheinlichkeitsvektor. Wir werden nun zeigen, dass es sich dabei sogar um eine invariante Verteilung von P handelt. Zur Vorbereitung berechnen wir f ur k S , k = i und j S , dass P (Xn+1 = j, Xn = k, Ti > n) = P (Xn+1 = j | Xn = k, Ti > n) P (Xn = k, Ti > n) . Verwenden wir nun das Lemma oben f ur E = {(i, j1 , ..., jn1 ) S n | j1 , ..., jn1 = i}, so folgt wegen {Ti > n} = {Xn1 = i, ..., X1 = i, X0 = i} = (X0 , ..., Xn1 ) E, dass P (Xn+1 = j, Xn = k, Ti > n)
(11.8)
P (Xn+1 = j | Xn = k ) P (Xn = k, Ti > n) P (k, j ) P (Xn = k, Ti > n) .
Man beobachtet schnell, dass diese Gleichung auch f ur k = i richtig bleibt:Ist n > 0, so sind zwingend beide Seiten = 0, ist n = 0, so ergibt sich auf beiden Seiten P (i, j ). Es gen ugt nun zu zeigen, dass P = ist, der Faktor E (1 Ti ) braucht nicht beachtet zu werden (da er auf beiden Seiten auftaucht). Mit obiger Rechnung gilt f ur j S : (P) (j ) =
k S n=0 kS
(k ) P (k, j ) P (Xn = k, Ti > n) P (k, j )
n=0 kS
P (Xn+1 = j, Xn = k, Ti > n)
n=0
P (Xn+1 = j, Ti > n) .
Jetzt unterscheiden wir: F ur j = i erh alt man damit (P) (j ) =

n=0
P (Xn+1 = j, Ti > n)
n=0
P (Xn+1 = j, Ti > n + 1)
= (j ) P (X0 = j, Ti > 0) = (j ),
149
und f ur i = j erh alt man (P) (j ) =

n=0
P (Xn+1 = j, Ti > n)
=
Satz 11.46
n=0
P (Ti = n + 1)
1.
Beachte nun noch, dass (i) =

n=0
P (Xn = i, Ti > n) =
n=1
P (Xn = i, Ti > n) + P (X0 = i, Ti > 0) = 1.

=0 =1
ur P ist. Gem a Satz 11.41 ist die invariante Verteilung Das zeigt, dass E (1 Ti ) eine invariante Verteilung f eindeutig, d.h. wir haben 1 (i) = (i). E (Ti ) Wegen (i) = 1 wie oben berechnet folgt daraus die Behauptung. 11.50 Satz (Starkes Gesetz - ohne Beweis): / R eine Funktion. F ur jede Startverteilung 0 gilt Sei P irreduzible Ubergangsmatrix und sei f : S 4 dann mit Wahrscheinlichkeit 1: Ist x0 , x1 , x2 , ... ein zuf alliger Pfad der Markov-Kette X0 , X1 , ... zu P und 0 (d.h. eine Realisierung dieser Markov-Kette), so konvergiert das Zeitmittel von f gegen das Raummittel E (f ): 1 n
n1 k=0
f (xk )
/ /
f (j ) (j ).
j S
Dabei bezeichnet die invariante Verteilung zu P. Insbesondere gilt f ur A S und f := 1A , dass 1 # {0 k n 1 | xk A} n

n
/ /
(j ) = (A).
j A
D.h. die Anzahl der Besuche in A konvergiert mit Wahrscheinlichkeit 1 f ur n scheinlichkeit von A unter der invarianten Verteilung . Speziell f ur A = {i} gilt also 1 # {0 k n 1 | xk = i} n
n
/ gegen die Wahr-
/ (i).
4 Eine
Konvergenz dieser Art nennt man fast sichere Konvergenz.
150
11.5
11.5.1
Beispiele
Irrfahrt auf ungerichtetem Graphen
In diesem Abschnitt bezeichnen wir Elemente aus S wieder mit i usw. um Zahlen von Ecken zu unterscheiden. Sei G ein ungerichteter Graph mit Eckenmenge S ohne Mehrfachkanten und N = #S . 11.51 Denition: F ur jede Ecke i S sei d(i) := # {j S | es gibt eine Kante zwischen i und j } . Beispiel 11.52: Sei G gegeben als
1 1 = 2, d 3
3 Dann ist d 2 )=# 1, 2, 3
4 = 3, d 4 = 1.
= 3, d
Wir wandern nun rein zuf allig auf diesem Graphen, in dem wir jeweils gleichverteilt die n achste Ecke unter den mit i verbunden Ecken w ahlen. D.h. 11.53 Denition: Sei P die N N -Matrix mit P (i, j ) = 0
1 d(i)
falls keine Kante zwischen i und j existiert, falls eine Kante zwischen i und j existiert.
Oenbar ist P tats achlich eine stochastische Matrix: P (i, j ) =

j S j {k | es gibt eine Kante zwischen i und k}
d(i) 1 = = 1 i S. d(i) d(i)
11.54 Denition: Wir setzen D :=

iS
d(i).
11.55 Satz: Damit ist (i) := eine invariante Verteilung von P.
d(i) , iS D
151
Beweis: Man berechnet ( P) (j ) =

iS
(i)P (i, j ) 1 d(i) D d(i)
=
i{k | es gibt eine Kante zwischen i und j }
1 # {k | es gibt eine Kante zwischen i und j } D d(j ) = D = (j )
f ur j S . Bemerkung 11.56: Beachte, dass ohne weitere Voraussetzungen P nicht irreduzibel ist und daher nicht zwingend eindeutig bestimmt ist. Beispiel 11.57: Wir wollen einen Springer auf einem 4 4-Schachbrett betrachten. Sei dazu S = {(i, j ) | 1 i, j 4}. Der zugeh orige Graph stellt sich wie folgt dar: (1,4) (2,4) (3,4) (4,4) OOO o o // OOOOO / / o o O o o // // OOOooo OOO oo // // // OOO ooOOOO ooo o o // o o OOO OOO //ooo //ooo // OOO ooo OOO ooo / / O O o o // / / OO oO oo oO // // // ooooo OOOOO ooooo OOOOO / / O O o o // /O /O oo oo //OOo //OOOO Oo /o Oo ooo O o o / / // O OO O o O o o // OO ooo /// ooo /// OO / / / (1,3) (2,3) (3,3) (4,3) /// /// /// O O O O o o // / / OOO O o o / / / O o o // // O O oo/o o/o // // OOOO/// oOOO // // ooO oooo /// OO // O o o / / //ooo //ooo /O /O // // OOO ooo OOO ooo //OO //OO / / / O O o o / / / OOO / oOO / // ooo // ooO // / O O o o o o / O O /o /o // O // O // /O /O oo // oo // // o o // OO OO O O o o / / O O o o / / // O O // ooo // ooo // OOO OO // / // OOO / ooooo// ooooo// OOOO / // // // / / (1,2) (2,2) (3,2) (4,2) /// OOO /// OOO /// oo o o / OO O o o O O // O oo/o o/o // oOOO /O OOOO ooO oooo /// O o o / / o o /O /O // //OOOOO ooooo //OOOOO ooooo // O O o o O O o o // oo OO // oo OO // O O o o O O /o /o // OOOO OOOO ooo// ooo// o o O O o o Oo OOO o // // / Oo oo O o O O o o OOO OOO // o / / o o ooooo O O oo (1,1) (2,1) (3,1) (4,1) Aus diesem Graphen lesen wir nun die Gradzahlen d folgenden Tabelle bezeichnet d (i,j) : 2 3 3 2 3 4 4 3 3 4 4 3 2 3 3 2 (i,j) ab. Der Eintrag in der Zelle (i, j ) der
152
Damit berechnet man leicht D = 4 (2 + 3 + 3 + 4) = 48 und hat so gem a dem Satz die invariante Verteilung :5
1 24 1 16 1 16 1 24 1 16 1 12 1 12 1 16 1 16 1 12 1 12 1 16 1 24 1 16 1 16 1 24
Daraus erhalten wir nun: (1) Nach dem R uckkehrzeitensatz ist dann zum Beispiel E T(1,1) = 1 = 24. ((1, 1))
(2) Das starke Gesetz sagt etwa, dass f ur einen Springerpfad die relative H augkeit der Besuche in den mittleren Feldern fast sicher (d.h. mit Wahrscheinlichkeit 1) gegen ({(i, j ) | 2 i, j 3}) = 4 konvergiert. (3) Sei P die zugeh orige Ubergangsmatrix. Wir haben oben schon festgestellt, dass P irreduzibel ist. Allerdings kann P nicht aperiodisch sein, da der Springer bei jedem Zug ein Feld anderer Farbe (Schwarz / Wei) erreicht. P hat daher mindestens Periode 2, und da hin- und wieder zur uckziehen m oglich ist, genau Periode d = 2. (4) Mit Bemerkung 11.42 ist f ur groes, gerades n die Aufenthaltswahrscheinlichkeit also etwa gegeben als 1 1 0 8 0 12 1 0 6 0 1 8 1 1 0 6 0 8 1 1 0 8 0 12 Dabei gibt der Eintrag in Position (i, j ) die approximative Wahrscheinlichkeit an, dass der Springer sich zur Zeit n in der Position (i, j ) aufh alt. 11.5.2 Ehrenfeld-Diusion 1 1 = 12 3
Wir nehmen an, in einem H orsaal benden sich N Gasmolek ule. Wir zerteilen den H orsaal in die rechte H alfte H1 und die linke H alfte H2 . Als Modell nehmen wir an, dass jeweils ein Molek ul zuf allig ausgew ahlt wird und dieses dann in die andere H orsaalh alfte wechselt. Sei dazu S = {0, ..., N } , was der Anzahl der Gasmolek ule in H1 entsprechen soll. Oenbar muss dann f ur die Ubergangsmatrix P P (i, i + 1) P (i, i 1) = = N i , N i , N i<N i>1
gelten. Alle u age der Matrix sind 0. brigen Eintr Man kann nun zeigen, dass P irreduzibel ist und dass die invariante Verteilung zu P gegeben ist durch (i) = D.h. wir haben B N, 1 2 . Nach dem R uckkehrzeitensatz ist dann zum Beispiel E (T0 ) = 1 = 2N . (0) N N 2 , i S. i
5 Hier ist klar, dass die invariante Verteilung eindeutig bestimmt ist, da der Springer jedes Feld erreichen kann - die Matrix ist also irreduzibel!
153
D.h. wenn wir annehmen, dass zur Zeit n = 0 in H1 keine Gasmolek ule sind, so ist zu erwarten, dass dieser Zustand erst zur Zeit 2N wieder eintritt. Das ist f ur eine Anzahl N von Molek ulen reichlich gro! Auerdem bemerkt man, dass der aktuelle Zustand oft nahe am Gleichgewicht ist: Sei N = 10.000. Wegen B 10.000, 1 2 liefert die Chernov-Ungleichung ({4801, ..., 5199}) 0.9993. Das starke Gesetz sagt uns also, dass in 99.93% der Zeit in H1 zwischen 4801 und 5199 Gasmolek ule sind.
154
12 Sch atzer und statistische Tests
12
Sch atzer und statistische Tests
Wir beginnen mit einen motivierenden Beispiel. Beispiel 12.1: Wir wollen eine Lebensmittelkontrolle durchf uhren. Dazu messen wir die F ullungen von 1-Liter-Flaschen nach. In Millilitern erhalten wir bei sechs Messungen die Messwerte 999, 990, 995, 1003, 1001, 991. Diese Messwerte wollen wir im folgenden mit x1 , ..., x6 bezeichnen. Wir k onnen uns nun die folgenden Fragen stellen: (1) Wenn man annimmt, dass die F ullmenge eine N , 2 -verteilte Zufallsvariable ist, wie sch atzt man dann mittels dieser Messungen den Erwartungswert? Wie sch atzt man die Varianz? Um solche Fragen zu beantworten wollen wir hier kurz ML-Sch atzer und erwartungstreue Sch atzer behandeln. (2) Soll die Kontrolle wegen zu geringer Bef ullung nach dieser Messung einschreiten? Um diese Frage zu beantworten werden wir kurz statistische Tests betrachten.
12.1
Punktsch atzer
X: / X.
Sei X eine Zufallsvariable (oder ein Zufallsvektor)
Im Zusammenhang dieses Kapitels nennen wir X auch den Stichprobenraum. Wir nehmen nat urlicher Weise an, dass wir die Verteilung P von X auf X nicht kennen. Beachte, dass wir hier P anstelle von P X schreiben. Stattdessen nehmen wir an, dass P in einer Familie P = {P | } von Verteilungen P auf X liegt. Diese Familie bezeichnen wir auch als statistisches Modell f ur die m oglichen Verteilungen von X . Beispiel 12.2: Sei X die Anzahl der Erfolge in einem n-fach wiederholten Bernoulli-Experiment mit unbekannter Erfolgswahrscheinlichkeit. Dann ist X = {0, ..., n} und das statistische Modell ist gegeben als P= B (n, ) | [0, 1] .
=P =
Zu jeder der Verteilungen P geh ort in diesem Fall eine Wahrscheinlichkeitsfunktion p (x) = n x nx (1 ) , x x = 0, ..., n.
Wir wollen nun aufgrund einer Stichprobe x X (d.h. einer Realisation von X ) den Parameter oder allgemeiner eine Funktion g in Abh angigkeit von gesch atzt werden. 12.3 Denition: ur ist eine Abbildung Ein Sch atzer f t:X / .
ur . F ur ein konkretes x X heit t(x) dann eine Sch atzung f Die Zufallsvariable T := t (X ) wird ebenfalls Sch atzer f ur genannt. Beispiel 12.4: Betrachte wieder das Setting aus Beispiel 12.2. Ist x {0, ..., n} die Stichprobe, so ist t(x) := x n
155
ein Sch atzer f ur die Erfolgswahrscheinlichkeit des Bernoulli-Experiments. Nun sollte man sich fragen, ob dieser Sch atzer sinnvoll ist. Auf diese Frage werden wir weiter unten eingehen. Ebenso ist dann 1 T = X n ein Sch atzer f ur und konkret f ur n = 20 und x = 14 ist t(14) = eine Sch atzung von . 12.5 Denition: Sei g eine beliebige Funktion auf . Jede Abbildung t:X ur g (). heit Sch atzer f Beispiel 12.6: Wieder im Setting von Beispiel 12.2 k onnen wir versuchen, die Varianz von B (n) zu sch atzen, d.h. g () = n (1 ) . Ein m oglicher Sch atzer w are x x x 1 =x 1 . n n n Weiter unten werden wir uns mit der Frage besch aftigen, ob dieser Sch atzer sinnvoll bzw. gut ist. t(x) := n / g () 7 = 0.7 10
Man sollte beachten, dass es im Allgemeinen nicht den Besten Sch atzer gibt. Es gibt verschiedene Verfahren zur Herleitung und verschiedene G ute-Kriterien f ur Sch atzer. Wir besprechen hier die MLSch atzer und die erwartungstreuen Sch atzer, es gibt auerdem noch Risiko-Sch atzer, Konsistenz-Sch atzer und viele mehr. 12.1.1 ML-Sch atzer 12.7 Denition: Wir sagen, ein Sch atzer t hat die Maximum-Likelihood-Eigenschaft, wenn folgendes gilt: F ur jedes x X ist t(x) = ML mit pML (x) p (x) . Falls wir mit einer diskreten Verteilung P arbeiten, so ist das zugeh orige p die entsprechende Wahrscheinlichkeitsfunktion, ist P eine stetige Verteilung, so ist p die entsprechende Dichte. D.h. f ur festes x X maximiert t(x) = ML die sogenannte Likelihood-Funktion Lx () = p (x) u ber . Beispiel 12.8: Betrachte wieder das Setting aus Beispiel 12.2. Dann ist die Likelihood-Funktion gegeben als Lx () = n x nx (1 ) . x
Um einen ML-Sch atzer f ur zu bestimmen ist diese Funktion jetzt f ur gegebenes x {0, ..., n} u ber [0, 1] zu minimieren. Wie man im Beispiel schon sieht, kann die zu minimierende Funktion sehr unangenehm sein. Zur Vereinfachung kann man die log-Likelihood-Funktion log Lx betrachten. Da der Logarithmus log streng monoton steigend ist6 , nehmen Lx und log Lx im selben ihr Maximum.
6 Wir
betrachten hier stets nur den nat urlichen Logarithmus ln = log.
156
Beispiel 12.9: Im obigen Beispiel 12.2 ist dann log Lx () = log n + x log + (n x) log (1 ) . x
Um das Maximum dieser Funktion zu bestimmen, dierenzieren wir nach und erhalten so 0 = 0+
x womit = n folgt. Also ist unser Sch atzer !
x nx , 1
n x von oben sogar ein ML-Sch atzer f ur die Erfolgswahrscheinlichkeit . t(x) = 12.1.2 Erwartungstreue Sch atzer
12.10 Denition: Ein Sch atzer t f ur ist erwartungstreu, wenn E (t(X )) = f ur alle gilt, d.h.: Ist der wahre Parameter, so ist die (zuf allige) Sch atzung t(x) zumindest im Erwartungswert gleich . Ganz analog deniert man f ur Sch atzer von Funktionen: 12.11 Denition: Ein Sch atzer t f ur eine Funktion g in Abh angigkeit von ist erwartungstreu, wenn E (t(X )) = g () f ur alle gilt. Beispiel 12.12: Betrachte wieder Beispiel 12.2. Wir behaupten, dass unser Sch atzer t(x) = von dort erwartungstreu ist. Beweis: Mit der Linearit at des Erwartungswertes gilt E (t (X )) = E Es folgt die Behauptung. Beispiel 12.13: Im selben Beispiel 12.2 sei nun n 2. Dann ist t(x) = x 1 x n X n = 1 1 E (X ) = n = . n n x n
ein ML-Sch atzer f ur die Varianz, denn schlielich haben wir dort einfach den ML-Sch atzer f ur in die
157
Varianz-Formel n (1 ) eingesetzt. Allerdings ist er nicht erwartungstreu: E (t(X )) = E X 1 = E (X ) = n X n
1 E X 2 n
1 2 V (X ) + (E (X )) n 1 = n n (1 ) + n2 2 n = (n 1) (1 ) = n1 n (1 ) . n
=1 =g ( )=V (X )
Allerdings sehen wir an dieser Berechnung schon, dass n x n t(x) = x 1 n1 n1 n ein erwartungstreuer Sch atzer f ur die Varianz ist. Z.B. f ur n = 2 ist die Abweichung zwischen diesen beiden Sch atzern deutlich: Ist der wahre Parameter 1 =2 , so ist 1 n1 (1 ) = , E (t(X )) = 4 obwohl die tats achliche Varianz
1 2
betr agt.
Wir wollen nun eine allgemeinere Situation betrachten: Seien X1 , ..., Xn unabh angige, identisch verteilte Zufallsvariablen. Sei X1 der Wertebereich dieser Variablen. Deniere als Stichprobenraum X=
X
=1
= X1 ... X1 .
nmal
Betrachte dazu das statistische Modell P= ... P | , P

=:P
eine Wahrscheinlichkeitsverteilung auf X1 aus einer vorgegebenen Familie ist. wobei jedes P Beispiel 12.14: Sei etwa oder {B (1, ) | 0 1} P N , 2 P | R, 2 > 0 .
Wir wollen im zweiten Fall := , 2 setzen. herleiten. (1) Wir wollen zuerst einen Sch atzer f ur den Erwartungswert E (X1 ) von P 12.15 Lemma: Der Sch atzer t (x1 , ..., xn ) := ist erwartungstreu f ur E (X1 ). 1 n
xi = x
i=1
158
Beweis: Man berechnet E (t (X1 , ..., Xn )) = E 1 n

n
1 n
Xi
i=1
E ( X i )
i=1
= E ( X 1 ) . Das zeigt die Behauptung. Beispiel 12.16: In Beispiel 12.1 w are also 1 6 eine erwartungstreue Sch atzung f ur . herleiten. Sei dazu wieder (2) Jetzt wollen wir einen Sch atzer f ur die Varianz V (X1 ) von P x := Berechne nun
n n n n 6
xi = 996.5
i=1
1 n
xi .
i=1
i=1
(xi x )
=
i=1 n
x2 i 2
xi x +
i=1 i=1
x 2
=
i=1 n
x2 2 + nx 2 i 2nx x2 x) i n (
2
=
i=1
(12.1)
und 2 E x = n 1 E Xi Xj n2 i,j =1 1 n2
n
1 E (Xi Xi ) + 2 n i=1
n
i,j =1 i=j
E ( X i X j )
Unabh angigkeit
1 1 2 + 2 nE X1 2 n n
i,j =1 i=j
E (Xi ) E (Xj ) (12.2)
= Jetzt k onnen wir zeigen: 12.17 Lemma: Der Sch atzer
n1 1 2 2 + E X 1 (E (X1 )) . n n
S 2 (x1 , ..., xn ) =
1 n1
i=1
(xi x )
ist ein erwartungstreuer Sch atzer f ur die Varianz. Er wird auch Stichprobenvarianz genannt.
159
Beweis: Es gilt
n
E
i=1
(Xi x )
(12.1)
E
i=1
2 Xi nx 2 2
(12.2)
2 2 + (n 1) (E (X1 )) E X 1 nE X1 2 (E (X1 )) (n 1) E X1 2
= = Das zeigt die Behauptung.
(n 1) V (X1 ) .
Beachte den Unterschied zur empirischen Varianz 1 (x1 , ..., xn ) = n

2 n
i=1
(xi x ) .
/ . Sie ist nicht erwartungstreu, aber der Unterschied verschwindet mit n 2 2 atzer f ur die Standardabweichung In der Praxis wird S als Sch atzer f ur die Varianz und S als Sch verwendet. Beispiel 12.18: In Beispiel 12.1 w are also S 2 (x1 , ..., x6 ) = 1 5
6 i=1
(xi x ) =
1 5
6 i=1
(xi 996.5) = 28.7
eine erwartungstreue Sch atzung f ur 2 . Entsprechend sch atzen wir als 28.7 5.357. Die Sch atzung der Parameter , 2 von N , 2 w urde in unserem Fall also = 996.5 und 2 = 28.7 liefern.
12.2
Statistische Tests
Wir wollen uns nun mit der Frage aus Beispiel 12.1 besch aftigen, ob aufgrund dieser Stichproben die Kontrolle eingeschaltet werden sollte. Dazu besch aftigen wir uns allgemein mit statistischen Tests: Sei X ein Stichprobenraum und P = {P | } ein statistisches Modell f ur die m oglichen Verteilungen einer Zufallsvariablen bzw. eines Zufallsvektors X mit Werten in X. Seien nun 0 und 1 zwei disjunkte Teilmengen. 12.19 Denition: Die Aussage H0 : 0 nennen wir Hypothese und die Aussage H1 : 1 nennen wir Alternative. Beispiel 12.20: In Beispiel 12.1 w are P= N , 2
=
| 0, 2 > 0
160
das statistische Modell f ur die m oglichen Verteilungen der Bef ullung. Die Aussage kein Betrug ent spr ache dann der Hypothese H0 : 0 := , 2 | = 1000, 2 > 0
ache der Alternative und die Aussage Betrug entspr H1 : 1 := 12.21 Denition: Das Entscheidungsproblem H0 : 0 gegen H1 : 1 heit Testproblem. 12.22 Denition: Ein Test ist eine Abbildung :X / {0, 1} , wobei (x) = 1 bedeutet, dass die Hypothese verworfen wird und (x) = 0 bedeutet, dass die Hypothese nicht verworfen wird. Die Menge {x X | (x) = 1} heit Verwerfungsbereich. Bemerkung 12.23: Als Hypothese sollte man stets die Annahme w ahlen, deren Verwerfung die gr oeren Konsequenzen hat - wie vor Gericht die Unschuldsvermutung. Der Grund daf ur ist, dass durch (statistische) Tests stets nur der Fehler erster Art (verwerfe die Hypothese, obwohl sie gilt) garantiert klein gehalten wird. Beim Test eines neuen Prototypen w urde man als Hypothese also das bisherige Produkt ist besser verwenden, da man im Fall des Verwerfens als Konsequenz die ganze Produktion umstellen muss. 12.24 Denition: Sei ein Test. Wir denieren die G utefunktion : / [0, 1] von durch , 2 | < 1000, 2 > 0 .
() := P ((x) = 1) , d.h. als die Wahrscheinlichkeit, die Hypothese zu verwerfen. F ur 0 ist () dann die Wahrscheinlichkeit eines Fehlers erster Art (vergleiche Bemerkung 12.23). Das prim are Ziel bei statistischen Tests ist es nun, den Fehler erster Art f ur alle 0 zu kontrollieren! 12.25 Denition: Sei ein Test. Wir nennen einen Test zum Niveau [0, 1], wenn
0
sup ()
ist, d.h. wenn f ur alle 0 die Wahrscheinlichkeit eines Fehlers erster Art durch beschr ankt ist. 12.26 Denition: 1 = 0.05 und x X eine Stichprobe mit (x) = 1 (d.h. wenn wir aufgrund Ist ein Test zum Niveau = 20 dieser Stichprobe unsere Hypothese verwerfen), so sprechen wir von einem signikanten Ergebnis. Bei =
1 100
= 0.01 sprechen wir von einem hoch-signikanten Ergebnis.
Wir wollen im folgenden zwei Arten von Tests f ur Normalverteilungen besprechen.
161
12.2.1
Der einseitige Gautest
Dieser Test wird durchgef uhrt, wenn die Varianz bekannt ist. Beispiel 12.27: Wissen wir also etwa in Beispiel 12.1, dass die F ullmaschine eine Standard-Abweichung von 0 = 5 hat, so k onnen wir den nun folgenden Gautest verwenden. Beachte, dass dann = {(, 25) | 0} ist und unsere Hypothese ( kein Betrug) genau = 0 = 1000 entspricht. Die Alternative ( Betrug) ist dann < 0 = 1000. Wir wollen nun in Abh angigkeit von x = 1 n
n
xi
i=1
entscheiden. Als Verwerfungsbereich wollen wir beim Gautest ein Intervall (, z ) mit einem noch zu bestimmenden z w ahlen, d.h. es soll (x) = 1 sein genau dann, wenn x < z gilt. Wir werden hier jetzt beispielhaft an unserem F ullmengenbeispiel z so bestimmen, dass der zugeh orige Test das Niveau 0.05 hat. Seien X1 , ..., Xn die zuf alligen Mewerte und sei wie immer = 1 X n
n
Xi .
i=1
Es ist z so zu bestimmen, dass unter der Hypothese = 0 gilt: < z 0.05. P0 X

2 , d.h. mit Satz 10.77 und Beispiel 10.35 folgt, dass Unter der Hypothese = 0 gilt Xi N 0 , 0
0 X
0 n
N (0, 1) . z 0
0 n =:y
Damit haben wir < z = P P0 X 0
0 X
0 n N (0,1)
<
0.05.
Wir m ussen also ein y nden, s.d. (y ) = 0.05 f ur die Verteilungsfunktion der Standardnormalverteilung N (0, 1) ist. Das ist genau dann der Fall, wenn (y ) = 0.95 gilt. Unter Verwendung der Tabelle (Anhang A) interpolieren wir so y = 1.645, womit ist. Beispiel 12.28: In Beispiel 12.1 w are dementsprechend 0 5 z = 0 + (1.645) = 1000 1.645 996.64. n 6 Wegen x = 996.5 w urden wir also verwerfen und dabei mit weniger als 5% einen Fehler erster Ordnung machen! 0 z = 0 + (1.645) n
162
12.2.2
Der t-Test
Oft ist die Varianz allerdings nicht bekannt. In diesem Fall kann man diesen Test nutzen. In unserem Beispiel 12.1 wollen wir hier also H0 : 0 = gegen H1 : 1 = testen. Als Testgr oe kann man jetzt nicht , 2 | < 0 = 1000, 2 > 0 , 2 | = 0 = 1000, 2 > 0
0 X
0 n
nutzen, da man 0 nicht kennt. Die L osung f ur dieses Problem ist denkbar einfach: Man sch atzt 0 u ber S= S2 = 1 n1
n
i=1
2, Xi X
wobei S die Stichprobenvarianz aus Lemma 12.17 ist. Beachte, dass S 2 wie dort gezeigt ein erwartungstreuer Sch atzer f ur 0 ist! Nach dieser Sch atzung nutzt man dann <z =P P X 0 X
S n =Y
<
z 0
S n
und man kann zeigen, dass Y tn1 gilt. Die Verteilung tn1 ist dabei unabh angig von 2 , d.h. von der wahren Varianz. Die Dichte zu tn1 sieht der Dichte von N (0, 1) sehr ahnlich und in gewissem Sinne gilt / n / N (0, 1). Die Verteilungsfunktion Ft der Verteilung tn1 ist ebenso wie tabelliert. tn1 n 1 Jetzt kann man genauso wie beim Gautest vorgehen und entsprechend ein y mit Ftn1 (y ) = 0.95 suchen. Beispiel 12.29: In Beispiel 12.1 betrachten wir n = 6, also t5 . Es folgt aus der Tabelle y = 2.015 und damit 5.3572 S 995.593. z = 0 + (2.015) = 1000 2.015 n 6 In diesem Fall w urden wir die Hypothese also nicht verwerfen, um ein Niveau von 0.05 zu halten!
A Tabelle der Standardnormalverteilung
163
Tabelle der Standardnormalverteilung

x
Wir wollen hier eine Tabelle zum Nachschlagen der Verteilungsfunktion (x) =
1 t2 exp 2 2
dt
der Standard-Normalverteilung geben. Da (x) = 1 (x) , sind nur positive Werte angegeben:
0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00 1.10 1.20 1.30 1.40 1.50 1.60 1.70 1.80 1.90 2.00 2.10 2.20 2.30 2.40 2.50 2.60 2.70 2.80 2.90 3.00 3.10 3.20 3.30 3.40 3.50 3.60 3.70 3.80 3.90 0.00 0.500000 0.539828 0.579260 0.617911 0.655422 0.691462 0.725747 0.758036 0.788145 0.815940 0.841345 0.864334 0.884930 0.903199 0.919243 0.933193 0.945201 0.955435 0.964070 0.971284 0.977250 0.982136 0.986097 0.989276 0.991802 0.993790 0.995339 0.996533 0.997445 0.998134 0.998650 0.999032 0.999313 0.999517 0.999663 0.999767 0.999841 0.999802 0.999928 0.999952 0.01 0.503989 0.543795 0.583166 0.621719 0.659097 0.694974 0.729069 0.761148 0.791030 0.818589 0.844752 0.866500 0.886860 0.904902 0.920730 0.934478 0.946301 0.956367 0.964852 0.971933 0.977784 0.982571 0.986447 0.989556 0.992024 0.993963 0.995473 0.996636 0.997523 0.998193 0.998694 0.999064 0.999336 0.999533 0.999675 0.999776 0.999847 0.999896 0.999930 0.999954 0.02 0.507978 0.547758 0.587064 0.625516 0.662757 0.698468 0.732371 0.764238 0.793892 0.821214 0.846136 0.868643 0.888767 0.906582 0.922196 0.935744 0.947384 0.957284 0.965621 0.972571 0.978308 0.982997 0.986791 0.989830 0.992240 0.994132 0.995603 0.996736 0.997599 0.998250 0.998736 0.999096 0.999359 0.999550 0.999687 0.999784 0.999853 0.999900 0.999933 0.999956 0.03 0.511967 0.551717 0.590954 0.629300 0.666402 0.701944 0.735653 0.767305 0.796731 0.823814 0.848495 0.870762 0.890651 0.908241 0.923641 0.936992 0.948449 0.958185 0.966375 0.973197 0.978822 0.983414 0.987126 0.990097 0.992451 0.994297 0.995731 0.996833 0.997673 0.998305 0.998777 0.999126 0.999381 0.999566 0.999698 0.999792 0.999858 0.999904 0.999936 0.999958 0.04 0.515953 0.555670 0.594835 0.633072 0.670031 0.705402 0.738914 0.770350 0.799546 0.826391 0.850830 0.872857 0.892512 0.909877 0.925066 0.938220 0.949497 0.959071 0.967116 0.973810 0.979325 0.983823 0.987455 0.990358 0.992656 0.994457 0.995855 0.996928 0.997744 0.998359 0.998817 0.999155 0.999402 0.999581 0.999709 0.999800 0.999864 0.999908 0.999938 0.999959 0.05 0.519939 0.559618 0.598706 0.636831 0.673645 0.708840 0.742154 0.773373 0.802338 0.828944 0.853141 0.874928 0.894350 0.911492 0.926471 0.939429 0.950529 0.959941 0.967843 0.974412 0.979818 0.984222 0.987776 0.990613 0.992857 0.994614 0.995975 0.997020 0.997814 0.998411 0.998856 0.999184 0.999423 0.999596 0.999720 0.999807 0.999869 0.999912 0.999941 0.999961 0.06 0.523922 0.563559 0.602568 0.640576 0.677242 0.712260 0.745373 0.776373 0.805106 0.831472 0.855428 0.876976 0.896165 0.913085 0.927855 0.940620 0.951543 0.960796 0.968557 0.975002 0.980301 0.984614 0.988089 0.990863 0.993053 0.994766 0.996093 0.997110 0.997882 0.998462 0.998893 0.999211 0.999443 0.999610 0.999730 0.999815 0.999874 0.999915 0.999943 0.999963 0.07 0.527903 0.567495 0.606420 0.644309 0.680822 0.715661 0.748571 0.779350 0.807850 0.833977 0.857690 0.878999 0.897958 0.914656 0.929219 0.941792 0.952540 0.961636 0.969258 0.975581 0.980774 0.984997 0.988396 0.991106 0.993244 0.994915 0.996207 0.997197 0.997948 0.998511 0.998930 0.999238 0.999462 0.999624 0.999740 0.999821 0.999879 0.999918 0.999946 0.999964 0.08 0.531881 0.571424 0.610261 0.648027 0.684386 0.719043 0.751748 0.782305 0.810570 0.836457 0.859929 0.881000 0.899727 0.916207 0.930563 0.942947 0.953521 0.962463 0.969946 0.976148 0.981237 0.985371 0.988696 0.991344 0.993431 0.995060 0.996319 0.997282 0.998012 0.998559 0.998965 0.999264 0.999481 0.999638 0.999749 0.999828 0.999883 0.999922 0.999948 0.999966 0.09 0.535856 0.575345 0.614092 0.651732 0.687933 0.722405 0.754903 0.785236 0.813267 0.838913 0.862143 0.882977 0.901475 0.917736 0.931888 0.944083 0.954486 0.963273 0.970621 0.976705 0.981691 0.985738 0.988989 0.991567 0.993613 0.995201 0.996427 0.997365 0.998074 0.998605 0.998999 0.999289 0.999499 0.999650 0.999758 0.999835 0.999888 0.999925 0.999950 0.999967
x 0,
Dabei ist der Eintrag in der Zelle (i, j ) genau (i + j ). Hier nochmal der Graph: 0.8 0.6 0.4 0.2 4.0 3.6 3.2 2.8 2.4 2.0 1.6 1.2 0.8 0.4 0 0.4 0.8 1.2 1.6 2.0 2.4 2.8 3.2 3.6 4.0
Abbildung 24: Die Verteilungsfunktion der Standardnormalverteilung.
B
B.1
Kenngr oen der wichtigsten Verteilungen

Diskrete Verteilungen
Verteilung Laplace Benoulli Binomial Parameter N N p [0, 1] p [0, 1], n N N, R N, N R, n N >0 p [0, 1] p [0, 1], r N Poi () Geo (p) B (1, p) B (n, p) Bezeichnung X () {1, ..., N } {0, 1} {1, ..., n} {0, ..., n} N0 N N0
n k k
164
P (X = k ) f ur k X ()
1 N
Erwartungswert
N +1 2
Varianz
N 2 1 12
pk (1 p)
R k
1 k nk
p np
R nN
p (1 p) n p (1 p)
R ( N R ) N n nN N N 1
p (1 p) ( )( ) ( )
N R n k N n
Hypergeometrisch Poisson Geometrisch Negativ-Binomial
exp () k! p (1 p)
r + k 1 k
1 p k
1 p p2 p r 1p 2
k 1
pr (1 p)
1 p p
B Kenngr oen der wichtigsten Verteilungen
B Kenngr oen der wichtigsten Verteilungen
B.2
Stetige Verteilungen
Verteilung Gleichverteilung Normalverteilung Parameter a<b R, > 0 >0 r, (0, ) nN (0, ) Bezeichnung U (a, b) N , 2 Exp () Gamma (r, ) 2 n = Gamma Pareto()
n 1 2, 2
Wahrscheinlichkeitsdichte f (t) = f (t) =

1 ba 1[a,b] (t) ) exp (t2 2
Erwartungswert
b+a 2
Varianz
(ba)2 12
1 2 2
1 r
1 2 r 2
Exponentialverteilung Gammaverteilung Chi-Quadrat-Verteilung Paretoverteilung Cauchyverteilung
f (t) = exp (t) 1(0,) (t) f (t) = f (t) =

r r 1 (r ) t
n
exp (t) 1(0,) (t)

t 1(0,) (t) exp 2
2 2 n t 2 1 ( n 2)
n
1 1
2n
2
f (t) =
1 (t) (t+1)+1 (0,) 1 (1+t2 )
falls 1 falls > 1
2 (1)2
falls > 2 falls 2
f (t) :=
existiert nicht
existiert nicht
165
166
Stichwortverzeichnis
-Algebra, 100, 102, 114 Borelsche, 102, 114 triviale, 100 3-T uren-Problem, 52 Abbildung mebare, 101 Bayes Formel von, 36 bedingte Erwartung, 82 Bernoulli -Experiment, 45 Bernstein Ungleichung, 74 Binomialkoezient, 24 Binomialverteilung, siehe Verteilung Blockungslemma, 54, 119 Borelsche -Algebra, 102, 114 Cauchyverteilung, siehe Verteilung Chernov Ungleichung, 76 Chi-Quadrat-Verteilung, siehe Verteilung de Moivre-Laplace Grenzwertsatz von, 96 de Morgansche Regeln, 9 Dichte, 104, 115 der Standardnormalverteilung, 96 gemeinsame, 115 Produktdichte, 115 Transformationsformel, 109 Ereignis, 7 bedingte Wahrscheinlichkeit, 33 sicheres, 7 Unabh angigkeit, 31, 32 unm ogliches, 7 Verkn upfungen, 7 Ergebnis, 7 Erwartungswert, 60 bedingter, 82 eines Zufallsvektors, 122 Jensensche Ungleichung, 126 Linearit at, 63, 117 Produktformel, 64 Trafoformel, siehe Transformationsformel Experiment n-stuges, 39 Exponentialverteilung, siehe Verteilung F achermodell, 22 Faltung, 120 Formel Mulitplikationsformel, 34 von Bayes, 36 von der totalen Wahrscheinlichkeit, 36 Funktion erzeugende, 87 Gamma-, 108 rechtstetig, 102 Galton-Watson-Prozess, 92 Gammaverteilung, siehe Verteilung Gausche Glockenkurve, 96 geometrische Verteilung, siehe Verteilung Gleichverteilung, siehe Verteilung diskrete, 11 Graph Pfad, 134 Gewicht, 135 L ange, 135 Weg, 134 Grundraum diskreter, 7 Hoeding Ungleichung, 76 Indikatorvariable, 50 Korellationskoezient, 85 Korrelation negative, 86 positive, 86 Kovarianz eines Zufallsvektors, 123 Laplace-Raum, 11 Laplace-Verteilung, 11 Markov-Kette, 139 Ubergangsgraph, 134 irreduzibel, 135 Ubergangsmatrix, 133 aperiodisch, 137 irreduzibel, 135 Periode, 137 in i gestartete, 146 Konvergenzssatz, 141 Markov-Eigenschaft, 139 R uckkehrzeit, 146 R uckkehrzeitensatz, 147 Satz von der invarianten Verteilung, 145 Satz von der positiven Rekurrenz, 147 starkes Gesetz, 149 Startverteilung, 139 stochastische Matrix, 133 Verteilung invariante, 141 Zustand Periode, 136 Zustandsmenge, 133 Markov-Ungleichung, 72 Menge Komplement, 9 Multinomialkoezient, 25 Multinomialverteilung, siehe Verteilung negative Binomialverteilung, siehe Verteilung
167
Normalapproximation, 98 Normalverteilung, siehe Verteilung Paretoverteilung, siehe Verteilung Polyasches Urnenmodell, 39 relative H augkeit, 8 Satz Abelscher Grenzwertsatz, 88 Binomischer Lehrsatz, 24 Grenzwertsatz von de Moivre-Laplace, 96 Konvergenzsatz f ur Markov-Ketten, 141 Poisson-Grenzwert, 59 R uckkehrzeitensatz, 147 von der invarianten Verteilung, 145 von der iterierten Erwartung, 82 von der positiven Rekurrenz, 147 Zentraler Grenzwertsatz, 127 Fehlerabsch atzung nach Berry-Esseen, 131 Sch atzer, 154 erwartungstreuer, 156 ML-, 155 Sch atzung, 154 Schwaches Gesetz groer Zahlen, 73 Siebformel, 15 Bonferroni-Ungleichungen, 19 von Poincare-Sylvester, 15 Simpson-Paradoxon, 37 Spiegelungsprinzip, 29 Stichprobe Stichprobenvarianz, 158 Stichprobenraum, 154 Stimmzettelproblem, 28 System dynamisches, 93 Grenzwert, 93 Test, 160 t-, 162 Alternative, 159 Fehler erster Art, 160 G utefunktion, 160 Gau-, 161 hoch-signikantes Ergebnis, 160 Hypothese, 159 signikantes Ergebnis, 160 Testproblem, 160 Verwerfungsbereich, 160 zum Niveau , 160 Transformationsformel, 62, 112, 116 Tschebyschow-Ungleichung, 72 Ungleichung Bernstein-, 74 Bonferroni, 19 Boolesche, 10, 20 Chernov-, 76 Hoeding-, 76 Markov, 72 SGGZ, siehe Schwaches Gesetz groer Zahlen Tschebyschow, 72 Urnenmodell, 22
Varianz, 65, 113 empirische, 159 Rechenregeln, 66 Stichprobenvarianz, 158 Verteilung, 100 k -dimensionale Randverteilung, 51 n-dimensionale Normalverteilung, 122 n-dimensionale Std.-Normalverteilung, 122 a-posteriori, 42 a-priori, 42 austauschbare, 40 bedingte, 80 Binomialverteilung, 27 Cauchy-, 108 Chi-Quadrat, 108 einer Zufallsvariable, 48 Exponential-, 106 Ged achtnislosigkeit, 107 Faltung, 77 Gamma-, 108 gemeinsame, 50 geometrische, 46 Gleichverteilung, 105 hypergeometrische, 27 Marginalverteilung, 51 Multinomialverteilung, 45 negative Binomialverteilung, 47 Normalverteilung, 106 ausgeartete, 124 nicht ausgeartete, 124 Pareto-, 107 Produktverteilung, 115 Standard-Normalverteilung, 96, 106 stetige, 104 Verteilungsfunktion, 102 Standardnormalverteilung, 96 Verzweigungsprozess, 92 Aussterbewahrscheinlichkeit, 92 Vitali-Menge, 101 Vorhersager linearer, 86 Wahrscheinlichkeit bedingte, 33 Multiplikationsformel, 34 Wahrscheinlichkeitsfunktion, 13 bedingte, 80 Wahrscheinlichkeitsraum, 100 diskreter, 8 Laplace-Raum, 11 Produkt, 43 Wahrscheinlichkeitsverteilung, 100 Waldsche Identit at, 83, 91 Ziegenproblem, 52 zuf allige Summe erzeugende Funktion, 90 Zufallsexperiment, 6 Zufallsvariabel standardisierte, 95 Zufallsvariable, 48, 101 j -tes faktorielles Moment, 88
168
k -tes Moment, 113 k -tes zentrales Moment, 66 bedingte Erwartung, siehe bedingte Erwartung Bernoulli-verteilte, 56 Binomial-verteilte, 56 Poisson-Approximation, 59 drittes zentrales Moment, 127 Erwartungswert, siehe Erwartungswert Funktion von Zufallsvariablen, 53 gemeinsame Dichte, 115 geometrisch verteilte, 57 Ged achtnislosigkeit, 57 gleichverteilte, 56 Kovarianz, 66 Laplace-verteilte, 56 Poisson-verteilte, 58 reelle, 102 Standardabweichung, 65 stetig verteilte, 105 Erwartungswert, 111 Unabh angigkeit, 51, 83, 117 unkorreliert, 69, 119 Varianz, siehe Varianz Verteilung, 48, 101 bedingte, 80 Faltung, 77 Wahrscheinlichkeitsfunktion bedingte, 80

Grundlagen Der Stochastik

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Grundlagen Der Stochastik

Uploaded by

Copyright:

Available Formats

Grundlagen der Stochastik

A Tabelle der Standardnormalverteilung

und ist die Verteilungsfunktion der Standard-Normalverteilung, d.h.

F ur dieses Modell wurde 1997 der Nobelpreis f ur Okonomie verliehen. Spracherkennung

= {(1 , ..., 300 ) | i {0, 1} 1 i 300}

Der Beweis dieser Aussage ist analog zu Hilfssatz 1.14.

(Monotonie) (Boolesche Ungleichung)

(R8) Falls A1 A2 A3 ..., so gilt P (R9) Falls A1 A2 A3 ..., so gilt P

(Stetigkeit von unten) Ai = lim P (Ai )

(Stetigkeit von oben) Ai = lim P (Ai )

(R8) Setze die Bi wie eben. Dann gilt: P

(R9) Gilt A1 A2 ..., so ist oenbar Wir berechnen daher P

= was die Behauptung zeigt.

Allgemeine diskrete Wahrscheinlichkeitsr aume und -funktionen

eine Wahrscheinlichkeitsverteilung P auf .

(A2) Oenbar ist P () =

(A3) Seien Ai paarweise disjunkt, i N. Dann ist P

P (B1 B2 ) P (B1 ) + P (B2 ) P (A1 ) + P (A1 \ (A1 A2 )) P (A1 ) + P (A2 ) P (A1 A2 ) .

Nach Lemma 1.30 ist also P (A) = P (A2 ) + P (A5 ) P (A2 A5 ) =

Sei (, P ) ein Wahrscheinlichkeitsraum und seien A1 , ..., An Ereignisse, n 2. Setze Sk :=

P (Ai1 ... Aik )

f ur 1 k n. 1.32 Satz (Siebformel von Poincare-Sylvester): Unter obigen Voraussetzungen gilt

P (A1 A2 ) = P (A1 ) + P (A2 ) P (A1 A2 ) =

Induktionsvoraussetzung (I.V.): Gelte

f ur alle Ereignisse A1 , ..., Am . Induktionsschritt (n Wir setzen Dann gilt:

P (B An+1 ) P (B ) + P (An+1 ) P (B An+1 )

k 1 1i1 <i2 <...<ik n k 1

P (Ai1 ... Aik ) + P (An+1 ) P ((Ai1 An+1 ) ... (Aik An+1 ))

1i1 <i2 <...<ik n

k 1 1i1 <i2 <...<ik n k 1

1i1 <i2 <...<ik n n

k 1 1i1 <i2 <...<ik n

1i1 <i2 <...<ik n n1 k=1

P (Ai1 ... Aik An+1 ) P Ai1 ... Aik+1

k 1i1 <i2 <...<ik+1 n

1i1 <i2 <...<ik n

P (Ai1 ... Aik An+1 )

1i1 <i2 <...<ik+1 n

P Ai1 ... Aik+1

n1 P (A1 ... An ) P (Ai1 ... Aik An+1 ) (1) k 1

1i1 <i2 <...<ik+1 n+1

P Ai1 ... Aik+1

+ (1) P (A1 ... An )

1i1 <i2 <...<ik n+1

P (Ai1 ... Aik )

Es folgt die Behauptung. 1.4.2 Die Bonferroni-Ungleichungen

Beweis: Wir setzen B1 := A1 und f ur 2 k n: Bk := Ak \ Dann gilt

und die Mengen Bi sind disjunkt. Auerdem gilt wegen

auch P (Bk ) = P (Ak ) P

Damit folgt dann:

was die Behauptung zeigt. Mit den Bezeichnungen Sk :=

P (Ai1 ... Aik )

(Ai1 ... Aim Aj )

Wir wollen Gleichung (1.5) auf den Term P

(Ai1 ... Aim Aj )

(Ai1 ... Aim Aj )

P (Ai1 ... Aim Aj ) P

(Ai1 ... Aim Aj Ai1 ... Aim Ak )

P (Ai1 ... Aim Aj ) P

(Ai1 ... Aim Aj Ak )

Setzen wir das nun in die Induktionsvoraussetzung ein, so erhalten wir

m 1i1 <...<im n m 1i1 <...<im n

(Ai1 ... Aim Aj )