You are on page 1of 132

Statistik - Grundlagen

Martin Staudinger

Informationstechnik (BITG)
FH Wiener Neustadt
Version 2007/08
2
i

This work is licenced under the Creative Commons


Attribution-Non-Commercial-Share Alike 3.0 License.
To view a copy of this licence, visit http://creativecommons.org/licenses/by-nc-sa/3.0/
ii
Inhaltsverzeichnis

1 Einleitung 1
1.1 Warum wir uns mit Statistik beschäftigen . . . . . . . . . . . . . . . . . . 1
1.2 Was ist Statistik? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3 Begriffe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.4 Daten „messen“ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.5 Englische Begriffe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

2 Datenanalyse und deskriptive Statistik 11


2.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.2 Mess- und Skalenniveaus . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.2.1 Kategorische und Numerische Daten . . . . . . . . . . . . . . . . 12
2.2.2 Nominalskala . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.2.3 Ordinalskala . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.2.4 Intervallskala . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.2.5 Rationalskala . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.2.6 Absolutskala . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.2.7 Diskrete und stetige statistische Merkmale . . . . . . . . . . . . . 17
2.3 Darstellungsformen von Datenmengen . . . . . . . . . . . . . . . . . . . 17
2.3.1 Klassenbildung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.3.2 Häufigkeitstabellen . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.3.3 Grafische Darstellungen . . . . . . . . . . . . . . . . . . . . . . . . 22
2.4 Kennwerte empirischer Häufigkeitsverteilungen . . . . . . . . . . . . . . 26
2.4.1 Lage-Kennwerte empirischer Häufigkeitsverteilungen . . . . . . 27
2.4.2 Streuungskennwerte empirischer Häufigkeitsverteilungen . . . . 30
2.4.3 Zentrierter, normierter und standardisierter Beobachtungswert . 32
2.4.4 Form-Kennwerte empirischer Häufigkeitsverteilungen . . . . . . 32
2.5 Statistische Begriffe der Messtechnik . . . . . . . . . . . . . . . . . . . . . 34
2.5.1 Wahrer Wert und Erwartungswert . . . . . . . . . . . . . . . . . . 34
2.5.2 Messabweichungen . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.5.3 Genauigkeit – Präzision – Richtigkeit – Auflösung: Ein babyloni-
sches Sprachengewirr . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.6 Englische Begriffe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

3 Zufallsgrößen 39
3.1 Statistische Modellierung von Messdaten . . . . . . . . . . . . . . . . . . 39
3.1.1 Zufällige Versuche und Zufallsereignisse . . . . . . . . . . . . . . 39
3.1.2 Zufallsgrößen und ihre Realisierungen . . . . . . . . . . . . . . . 40
3.2 Wahrscheinlichkeitstheorie . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.3 Verteilungen von Zufallsgrößen . . . . . . . . . . . . . . . . . . . . . . . . 43
3.3.1 Wahrscheinlichkeitsverteilungen . . . . . . . . . . . . . . . . . . . 43

iii
iv INHALTSVERZEICHNIS

3.3.2 Parameter von Wahrscheinlichkeitsverteilungen . . . . . . . . . . 45


3.4 Wichtige Wahrscheinlichkeitsverteilungen . . . . . . . . . . . . . . . . . . 48
3.4.1 Gleichverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3.4.2 Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.4.3 Chi-Quadrat Verteilung . . . . . . . . . . . . . . . . . . . . . . . . 52
3.4.4 Student-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
3.4.5 Fisher-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
3.4.6 Der zentrale Grenzwertsatz . . . . . . . . . . . . . . . . . . . . . . 57
3.5 Englische Begriffe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

4 Zufallsvektoren 61
4.1 Zufallsvektoren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
4.1.1 Begriffe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
4.1.2 Beziehungen zwischen zwei Elementen eines Zufallsvektors . . . 62
4.2 Funktionen eines Zufallsvektors . . . . . . . . . . . . . . . . . . . . . . . 64
4.2.1 Abweichungen von Funktionen eines Zufallsvektors . . . . . . . 64
4.2.2 Übergang von der Abweichung ∆y zur Standardabweichung . . 65
4.2.3 Das Kovarianzfortpflanzungsgesetz . . . . . . . . . . . . . . . . . 66
4.3 Englische Begriffe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

5 Die Methode der kleinsten Quadrate 69


5.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
5.2 Lineare Gleichungssysteme . . . . . . . . . . . . . . . . . . . . . . . . . . 70
5.2.1 Ausgleichende Gerade . . . . . . . . . . . . . . . . . . . . . . . . . 70
5.2.2 Herleitung der Methode der kleinsten Quadrate . . . . . . . . . . 73
5.3 Nicht-lineare Gleichungssysteme . . . . . . . . . . . . . . . . . . . . . . . 76
5.3.1 Gleichungssysteme „Linearisieren“ . . . . . . . . . . . . . . . . . 76
5.3.2 Probleme beim Linearisieren . . . . . . . . . . . . . . . . . . . . . 77
5.4 Stochastische Eigenschaften der Unbekannten . . . . . . . . . . . . . . . 78
5.5 Englische Begriffe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78

6 Regression und Korrelation 79


6.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
6.2 Regressionsrechnung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
6.2.1 Ein Beispiel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
6.2.2 Die Regressionsgerade . . . . . . . . . . . . . . . . . . . . . . . . . 81
6.2.3 Ergänzungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
6.3 Korrelationsrechnung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
6.3.1 Der Korrelationskoeffizient . . . . . . . . . . . . . . . . . . . . . . 83
6.3.2 Korrelation und Stochastische Abhängigkeiten . . . . . . . . . . . 85
6.3.3 Nicht-lineare Zusammenhänge . . . . . . . . . . . . . . . . . . . . 86
6.4 Kausale Zusammenhänge und Scheinkorrelationen . . . . . . . . . . . . 87
6.5 Englische Begriffe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88

7 Induktive Statistik 89
7.1 Stichproben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
7.1.1 Stichprobenverteilungen . . . . . . . . . . . . . . . . . . . . . . . . 89
7.1.2 Stichprobenverteilungen wichtiger Maßzahlen . . . . . . . . . . . 91
7.2 Schätzverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
7.2.1 Punktschätzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
7.2.2 Intervallschätzung . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
7.3 Testen statistischer Hypothesen . . . . . . . . . . . . . . . . . . . . . . . . 97
INHALTSVERZEICHNIS v

7.3.1 Prinzip statistischer Tests . . . . . . . . . . . . . . . . . . . . . . . 97


7.3.2 Prüfen des Mittelwerts bei bekannter Varianz („Gauß-Test“) . . . 101
7.3.3 Prüfen des Mittelwertes bei unbekannter Varianz („T-Test“) . . . 103
7.3.4 Prüfen der Varianz („Chiquadrat-Test“) . . . . . . . . . . . . . . . 103
7.3.5 Prüfen der Gleichheit zweier Varianzen („F-Test“) . . . . . . . . . 104
7.3.6 Prüfen der Gleichheit zweier Mittelwerte bei bekannter Varianz
(„doppelter Gauß-Test“) . . . . . . . . . . . . . . . . . . . . . . . . 104
7.3.7 Prüfen der Gleichheit zweier Mittelwerte bei unbekannten aber
gleichen Varianzen („doppelter T-Test“) . . . . . . . . . . . . . . . 104
7.3.8 Wichtiger Hinweis . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
7.4 Englische Begriffe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106

A Matrizenrechnung A-1
A.1 Lineare Algebra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . A-1
A.2 Matrizenalgebra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . A-2
A.2.1 Definitionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . A-2
A.2.2 Matrizenoperationen . . . . . . . . . . . . . . . . . . . . . . . . . . A-5
A.2.3 Auflösung von Gleichungssystemen mit Matrizen . . . . . . . . . A-8
A.3 Matrizenrechnung mit Microsoft EXCEL . . . . . . . . . . . . . . . . . . . A-9
A.3.1 Eine Matrix in EXCEL definieren . . . . . . . . . . . . . . . . . . . A-9
A.3.2 Matrizenoperationen mit EXCEL . . . . . . . . . . . . . . . . . . . A-10

B Differenzialrechnung B-1
B.1 Reelle Funktionen in einer Variablen . . . . . . . . . . . . . . . . . . . . . B-1
B.2 Taylorreihen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . B-3
B.3 Funktionen in mehreren Variablen . . . . . . . . . . . . . . . . . . . . . . B-4
B.4 Differentiation von Matrizenfunktionen . . . . . . . . . . . . . . . . . . . B-5
vi INHALTSVERZEICHNIS
Kapitel 1

Einleitung

1.1 Warum wir uns mit Statistik beschäftigen


Sowohl in der elektronischen Datenverarbeitung als auch im Geoinformationswesen
geht es sehr oft um: Daten sammeln, aufbereiten, analysieren, und aufgrund dieser
Daten dann Entscheidungen treffen, wie es weitergeht. Die Statistik spielt dabei eine
wichtige Rolle. Bereits beim Datensammeln werden statistische Methoden eingesetzt.
Wir werden es einerseits mit Daten zu tun haben, die aus einfachem „Abzählen“ und
Klassifizieren entstanden sind. Hier sind mittels statistischer Methoden aussagekräftige
Parameter zu ermitteln. Beispiele hierfür sind bevölkerungsstatistische Daten, Durch-
schnittseinkommen und Kaufkraft, Bildungsqualifikationen, medizinische Daten, Ver-
kehrsströme und so fort. Meistens verwenden und verarbeiten wir dabei Daten und In-
formationen Dritter. Dazu müssen wir nachzuvollziehen können, wie deren Daten zu-
stande gekommen sind, wie sie zu bewerten sind und wie groß die Wahrscheinlichkeit
ist, dass sie richtig sind. Auch elektronische Messgeräte, die physikalische Messungen

Bsp. 1.1 Ein kleines Experiment zum Einstieg.


Lösen die folgende Fragestellung ganz spontan – ohne Zettel und Bleistift oder einen
Taschenrechner oder Computer zur Hand zu nehmen:
Angenommen Sie bewerben sich um Ihren ersten Job, und Sie bekommen folgendes
Angebot: Das Anfangsjahresgehalt beträgt ¤50.000.

1. Variante: Sie erhalten jedes Jahr eine Gehaltserhöhung um ¤5.000

2. Variante: Sie erhalten jedes halbe Jahr eine Gehaltserhöhung um ¤1.250

Wofür entscheiden Sie sich?

durchführen, tun dies – oft für den Anwender nicht sichtbar – durch mehrere Messun-
gen hintereinander, um dann das Mittel dieser Messungen als Ergebnis ausgeben. Diese
Messdaten, die als Eingangssignal für die weitere Datenverarbeitung dienen, sind also
statistische Daten bzw. das Ergebnis statistischer Methoden. Es gibt mehrere Gründe,
warum wir bei der Datenverarbeitung statistische Methoden anwenden:
1. Wir haben zu viele Daten
2. Wir haben zu wenige Daten
3. Wir haben fehlerhafte Daten
Zu viele Daten haben wir oft, weil uns der Detaillierungsgrad der Rohdaten gar nicht

1
2 KAPITEL 1. EINLEITUNG

interessiert, sondern nur bestimmte daraus abgeleitete Kennwerte. Beispiel: Wir


führen eine Standortsuche für die Werbekampagne zu einem bestimmten Produkt
durch. Ein wichtiges Kriterium ist dabei das Einkommen potenzieller Kunden.
Dabei interessiert uns aber nicht das individuelle Einkommen jedes Einwohners
einer bestimmten Region sondern das Durchschnittseinkommen in dieser Region.

Zu wenig Daten haben wir immer dann, wenn wir nur an diskreten Stellen gemessen
haben, aber ein kontinuierliches Bild einer bestimmten Region darstellen wollen.
Wir wenden dann statistische Interpolationsverfahren an, um dieses Gesamtbild
wiedergeben zu können. Beispiel: An einzelnen Messstellen wird die Temperatur
beobachtet und dann daraus eine Temperaturkarte der ganzen Region generiert.

Fehlerhafte Daten haben wir immer dann, wenn wir mit physikalischen Verfahren un-
sere Daten messen. Solche physikalischen Messungen sind per se immer unge-
nau; dies hängt mit der Auflösung der Messgeräte und den vereinfachten Model-
len der Realität zusammen und hat außerdem einen wahrscheinlichkeitstheoreti-
schen Hintergrund. Wir werden darauf noch in einem späteren Kapitel zurück-
kommen.

Daraus ergeben sich zwei wichtige Ziele, die wir mit der Anwendung von Statistik
verfolgen:

1. Die Angabe von Qualitätsparametern und -kennzahlen für die von uns beobachteten
Daten.
2. Die statistische Interpolation der Daten, um einerseits aus den ursprünglich beob-
achteten Daten andere ableiten zu können, und andererseits um ein möglichst
vollständiges Bild der Situation wiedergeben zu können, auch an Stellen, an de-
nen wir nicht beobachtet haben.

Es gibt noch einen weiteren, profaneren Grund, sich mit Statistik zu beschäftigen, un-
abhängig von Informatik, Geographie oder Ingenieurskunst: Schlägt man heute eine
Tageszeitung auf oder verfolgt die Nachrichten in Fernsehen oder auf einem Internet-
portal, so sind die voll mit Statistik! Sehr oft werden hier von Journalisten (und von
Politikern, Lesern, etc.) aus einer Handvoll Daten ganz abenteuerliche Schlüsse gezo-
gen, die jeglicher statistisch-mathematischer Grundlage entbehren. Alle Behauptungen,
die mit irgendwelchen Zahlen (mit möglichst zwei Nachkommastellen) „belegt“ wer-
den, vermitteln den Eindruck von Sachlichkeit, Objektivität und Exaktheit. Jemand hat
auch einmal behauptet:

Mit Statistik kann man alles beweisen, auch das Gegenteil.

Wir werden in diesem Kurs erstens lernern, wie man statistische Daten darstellt, inter-
pretiert, und daraus Schlüsse ziehen kann, und zweitens, dass man

mit Statistik nichts beweisen kann, nur das Gegenteil.

Bsp. 1.2 Daten können aus Beobachtung, Klassifizierung und Abzählen entstehen.
In einer statistischen Untersuchung wurde festgestellt, dass die Donau bei Wien inner-
halb eines Jahres an 6 Tagen im Jahr braun, an 55 Tagen lehmgelb, 38 Tage schmutzig-
grün, 49 Tage hellgrün, 47 Tage grasgrün, 24 Tage stahlgrün, 109 Tage smaragdgrün
und 37 Tage dunkelgrün, niemals jedoch BLAU ist.
1.2. WAS IST STATISTIK? 3

1.2 Was ist Statistik?


Das Wort „Statistik“ kommt aus dem Lateinischen (status) und bedeutet wörtlich über-
setzt „(Zu-)Stand, Verfassung, Beschaffenheit“1 . Es geht darum, Daten zu sammeln, zu
analysieren, zusammenzufassen, zu interpretieren, anzuzeigen, darzustellen und letzt-
lich irgendeine Information daraus abzuleiten. Dabei wird sowohl die aus der Bestands-
aufnahme hervorgehende Datensammlung als „Statistik“ bezeichnet2 , als auch die Me-
thode, mit der Datensammlungen ausgewertet, analysiert und weiterverarbeitet wer-
den. Die dabei anfallenden Qualitätsparameter sind für die Entscheidungsträger oft
mindestens genauso wichtig sind wie die Ergebnisse selbst.
Die Anwendung der Statistik hat das Ziel,

• die Daten möglichst transparent zu machen


• die zugrunde liegende Struktur zu finden
• wichtige Variablen und Kennzahlen aus einer Vielzahl von Daten zu finden
• Anomalien und Ausreißer herauszufinden
• Schlüsse zu ziehen und
• diese auch zu überprüfen
• wahrscheinlichkeitstheoretische Modelle zu erstellen und
• für diese Modelle die Faktoren und Parameter zu finden

Bsp. 1.3 Statistik hat mit Zahlen und Zählen zu tun


Der 19.11.1999 hatte eine interessante Besonderheit: Es war dies das letzte Datum für
eine sehr lange Zeit, das sich nur aus ungeraden Ziffern zusammensetzt. Das nächste
Mal wird das erst wieder 1111 Jahre später (genauer: 405 827 Tage später), am 1.1.3111
der Fall sein.
Umgekehrt war der 2.2.2000 seit Langem wieder der erste Tag aus geraden Ziffern
(inklusive Null), und zwar seit dem 28.8.888. Vom 29.8.888 bis zum 1.2.2000 befanden
sich in jedem Datum ungerade Ziffern. In den Jahren 2000, 2002, 2004 und 2006 gab
es ein Datum nur aus geraden Ziffern sehr häufig: an jedem geraden Tag im 2., 4., 6.
und 8. Monat; das letzte Mal am 28.8.2006. Ebenso wird es im Jahre 2008, 2020 usw.
sein. Das wird sich alle 200 Jahre wiederholen. Nach dem 28.8.2888 wird dann wieder
für längere Zeit (nämlich 405 941 Tage) kein „gerades“ Datum auftreten.

Methodisch können wir zwei wichtige Teilbereiche der Statistik unterscheiden: die
beschreibende Statistik und die schließende Statistik:

Beschreibende Statistik (auch: Deskriptive Statistik3 ) hat zum Ziel, Informationen aus
„zu vielen“ Daten zu generieren. Dabei bedienen wir uns numerischer und grafi-
scher Methoden, mit denen wir umfangreiche und komplizierte Datensätze mög-
lichst anschaulich darstellen. Dabei geht es um Fragen nach Häufigkeiten und
Verteilungen der Daten bzw. um Kenngrößen und –werte dieser Verteilungen.
Alle Ergebnisse und Aussagen, die wir treffen, beziehen sich grundsätzlich nur
auf die untersuchte Datenmenge. Beispiel: Wir erheben die Wohnkosten von FH-
Studierenden getrennt nach den jeweiligen Studiengängen. Diese Daten stellen
1 ursprünglich in der Bedeutung status rei publicae, also die Beschreibung und Darstellung geografischer,

wirtschaftlicher, politischer Zustände eines „Gemeinwesens“ = Staates.


2 Zum Beispiel Daten über die wirtschaftlichen, demografischen, sozialen, ökologischen und kulturellen

Gegebenheiten, die in Form eines jährlich erscheinenden „Statistischen Jahrbuches“ veröffentlicht werden.
3 lat. describere = beschreiben; auch: ordnen, einteilen
4 KAPITEL 1. EINLEITUNG

wir in einer Tabelle oder einem Diagramm dar und berechnen die durchschnitt-
lichen Wohnkosten. Interessant ist es auch, einen Zusammenhang zwischen un-
terschiedlichen Daten zu untersuchen, zum Beispiel einen Zusammenhang zwi-
schen der Wahl des Studiengangs und der Geldmenge, die man monatlich für
Wohnzwecke auszugeben bereit ist.
Schließende Statistik (auch: Induktive4 oder Analytische Statistik) hat zum Ziel, aus we-
nigen Daten auf eine übergeordnete Menge zu schließen. Dabei wenden wir Me-
thoden der Wahrscheinlichkeitstheorie an und führen Schätzungen und Testver-
fahren durch, um die Zusammenhänge zwischen den einzelnen beobachteten Da-
ten und den Parametern des theoretisch angenommenen Wahrscheinlichkeitsmo-
dells zu untersuchen. Beispiel: Wir befragen 100 Studierende der Fachhochschule
über ihre monatlichen Wohnkosten und schließen daraus auf die Wohnkosten aller
Studierenden. In weiterer Folge stellen wir die Hypothese auf, dass Wirtschafts-
Studierende monatlich mehr für ihre Wohnung ausgeben als Technik-Studierende.
Diese Vermutung überprüfen wir aufgrund der uns vorliegenden Daten und ge-
ben die Wahrscheinlichkeit an, dass wir uns mit unserer Vermutung nicht irren.

Bsp. 1.4 Beschreibende oder Schließende Statistik?


• US-Wissenschafter haben aus der Beobachtung von Ameisen geschlossen, dass
diese immer nach rechts umfallen, wenn sie vergiftet werden. Entgegen der
landläufigen Meinung sind sie übrigens auch gar nicht so fleißig, wie man an-
nimmt, sondern ziemlich faule Säcke: 70 Prozent ihrer Zeit tun sie einfach gar
nichts.

• 71 Prozent der Büroangestellten in Deutschland trinken nur aus der eigenen


Tasse.

• Hobbyjäger haben durch die Aufregung und die Anspannung auf einer Pirsch
ein 18 Prozent höheres Herzinfarktrisiko als Nicht-Waidmänner.

• Als EIvis Presley 1977 im Alter von 42 Jahren starb, gab es weltweit 48 Elvis-
Imitatoren, 1995 waren es schon 7328. Wenn das so weitergeht, ist im Jahr 2012
jeder vierte Erdenbewohner ein Elvis-Imitator.

(Quelle: Günther Willen: Wer das liest, lebt länger! Das Lexikon für alle Lebenslagen)

1.3 Begriffe
Die Statistik hat – wie auch andere Wissensgebiete – ihre eigene Sprache. Anfänglich
mag die umfangreiche Begriffswelt verwirrend sein, es bleibt uns aber nicht erspart, sie
uns anzueignen und uns in der Lehrveranstaltung (und in diesem Skriptum) Schritt für
Schritt nicht nur mit den Methoden sondern auch mit der Sprache der Statistik vertraut
zu machen.

Grundgesamtheit und Stichprobe


Die wichtigste begriffliche und konzeptuelle Unterscheidung in der Statistik wollen wir
uns anhand der nachfolgenden beiden Beispiele vor Augen führen:
4 lat. inducere = hin(ein)führen; Induktion = Schlussfolgerung vom Besonderen auf das Allgemeine
1.3. BEGRIFFE 5

Abb. 1.1 Statistische Daten können auch grafisch vorliegen: Der Wasserstand der Steyr
beim Pegel Klaus, Oberösterreich, vom 9.-16.8.2002 (Quelle: Amt der OÖ Landesregierung)

„Die Wohnbevölkerung Österreichs betrug 2001 mit Stichtag 15. Mai 8.032.557
und hat seit der Volkszählung 1991 um insgesamt 236.771 Personen (3%) zu-
genommen. Im Vergleich dazu betrug die Zunahme 1981/1991 insgesamt
240.448 Personen oder 3,2%.“ (Statistik Austria)

„Der Urnengang im Herbst stößt in weiten Teilen der Bevölkerung auf posi-
tives Echo: Nicht weniger als 62 Prozent aller Österreicher halten die Durch-
führung von Neuwahlen für eine gute Entscheidung. Immerhin 33 Prozent
wünschen sich demnach eine Koalition von Rot und Schwarz, nur 19 Pro-
zent sind für einen Pakt zwischen SP und Grünen.“ (Umfrage eines Wochen-
magazins)

Im ersten Beispiel wurden tatsächlich im Zuge einer Volkszählung alle Österreicher er-
fasst (gezählt). In der Statistik sprechen wir auch von der Grundgesamtheit. Eine Grund-
gesamtheit besteht aus der Menge aller Objekte, die irgendwelche gemeinsamen Cha-
rakteristika aufweisen und Gegenstand unserer Untersuchungen sind. Beispiel: „die
Wohnbevölkerung Österreichs“. Eine Grundgesamtheit kann unterschiedliche Größe
haben; wir nennen dies den Umfang der Grundgesamtheit. Der Umfang reicht von eini-
gen wenigen (alle Studierenden, die in der ersten Reihe sitzen) über eine sehr große An-
zahl von Elementen (6 Milliarden Menschen auf der Erde) bis hin zu unendlich großen
Mengen (alle möglichen Ergebnisse einer physikalischen Messung).
Im zweiten Beispiel hingegen wurden nicht tatsächlich 8 Millionen Österreicher
über ihre Meinung zur Wahl befragt, obwohl das sprachlich suggeriert wird („alle Öster-
6 KAPITEL 1. EINLEITUNG

Bsp. 1.5 Stichprobe oder Grundgesamtheit?


Steigende Tendenz bei Tierversuchen in Österreich
Eine weiterhin steigende Tendenz gibt es laut Statistik bei der Zahl der Tierversuche
in Österreich. Im Vorjahr wurden 192.062 Tiere verbraucht, das sind um 6,7 Prozent
mehr als 2001 (180.0129). Dies geht aus der am Donnerstag in der Wiener Zeitung ver-
öffentlichten Tierversuchsstatistik 2002 hervor. In den neunziger Jahren ist die Zahl
der Tierversuche stark gesunken, seit 1999 steigt sie aber wieder kontinuierlich. Das
Gros der Tiere wird für „Forschung und Entwicklung für Produkte und Geräte der
Human-, Zahn- und Veterinärmedizin“ (72.854 Tiere) und für „Herstellung und Qua-
litätskontrolle von Produkten und Geräten der Human- und Zahnmedizin“ (72.394)
verwendet. Für „biologische Untersuchungen im Bereich der Grundlagenforschung“
gab es 29.207 Tierversuche, für „toxikologische und sonstige Unbedenklichkeitsprü-
fungen“ 8.758.
Von den insgesamt 192.062 Tierversuchen wurden 153.034 mit Mäusen durchgeführt.
Es folgen Kaninchen (15.560), Ratten (13.175) und Meerschweinchen (7.566). Weiters
wurden 536 landwirtschaftliche Nutztiere wie Schweine, Schafe und Rinder, 280 Kat-
zen und 108 Hunde für Versuche verwendet. Wie in den Vorjahren kamen auch 2002
wieder keine Menschenaffen zum Einsatz. (Quelle: science.orf.at, 26.6.2003)

reicher“5 ). „Nicht weniger als 62 Prozent“ bedeutet auch nicht, dass mindestens 4.980.185
Österreicher bei dieser Umfrage die Durchführung von Neuwahlen positiv bewertet
haben. Für Umfragen werden lediglich Stichproben herangezogen, das heißt nur eine
Teilmenge aus der Grundgesamtheit ist Gegenstand der statistischen Untersuchung.
Bei geschickter Wahl der Stichprobe nach statistischen Kriterien ist es aber durchaus
zulässig, von der Stichprobe auf die Grundgesamtheit zu schließen. Man sagt auch: Die
Stichprobe muss repräsentativ sein, das heißt Elemente mit möglichst verschiedenen für
die Untersuchung wichtigen Eigenschaften, die für das Ergebnis relevant sein könnten,
müssen in der Stichprobe vertreten sein. Ob eine Stichprobe repräsentativ ist oder nicht,
hängt also vom Ziel der statistischen Untersuchung ab.
Wichtig kann auch das Verhältnis des Stichprobenumfangs zum Umfang der Grund-
gesamtheit sein. Für Untersuchungen wie oben beispielhaft angegeben wird üblicher-
weise mit einem Auswahlsatz von etwa 0.002 - 0.004% gearbeitet (das entspricht in
unserem Beispiel ca. 150 bis 400 Personen, die befragt werden).

Merkmalsträger, Merkmale und Merkmalswerte

Eine wichtige Frage bei statistischen Untersuchungen ist natürlich: Welche Daten wer-
den über wen oder was erhoben?
Die Objekte, die Gegenstand statistischer Beobachtung und Analyse sind, nennt
man Merkmalsträger (auch: statistisches Element oder: statistische Einheit). Merkmalsträ-
ger müssen hinsichtlich sachlicher, räumlicher und zeitlicher Identifikationskriterien
eindeutig abgrenzbar sein. Beispiel: Eine bestimmte BITG-Studierende des 3. Semes-
ters an der FH Wiener Neustadt, die sich montags von 11.00-13.00 im Seminarraum 5
aufhält.
Die Menge der Merkmalsträger, die übereinstimmende Identifikationskriterien ha-
ben, bilden dann – je nach Vollständigkeit – die Grundgesamtheit oder eine Stichprobe.
Beispiel: Alle BITG-Studierenden des 3. Semesters an der FH Wiener Neustadt (Grund-
5 wobei
hier überhaupt noch zu spezifizieren ist, was unter „Österreicher“ zu verstehen ist. Die Wohnbe-
völkerung? Alle hier Geborenen? Alle österreichischen Staatsbürger? Alle hier Wahlberechtigten?
1.3. BEGRIFFE 7

Abb. 1.2 Statistik kann auch Hypothesen über zukünftige Entwicklungen aufstellen:
Bevölkerungspyramide 2000, 2030 und 2050. (Quelle: Statistik Austria, Statistisches Jahr-
buch 2002)

gesamtheit) oder der zufällig gebildete Teil der BITG-Studierenden, die die Statistik-
Vorlesung am Montag, 25.9.2006, besuchen (Stichprobe).
Die Eigenschaft, die wir an den Merkmalsträgern untersuchen, ist das statistische
Merkmal. Mathematisch handelt es sich dabei um eine Variable (auch: Stichprobenvaria-
ble), die unterschiedliche Werte annehmen kann. Beispiel: Die Körpergröße der Studie-
renden.
Jedes Merkmal kann in verschiedenen, konkreten Erscheinungsformen auftreten,
auch Merkmalsausprägung oder Merkmalswert genannt. Beispiele: Das Merkmal „Ge-
schlecht“ kann die Ausprägung „weiblich“ oder „männlich“ haben. Das Merkmal „Ma-
trikelnummer“ kann eine ganze Zahl annehmen. Das Merkmal „Körpergröße“ kann
zum Beispiel 1.76, 1.85 oder 1.54 m annehmen.
Ein wichtiger Begriff in diesem Zusammenhang ist auch die

Variabilität
Variabilität besagt, dass die Merkmale, die wir untersuchen, veränderlich sind. Es ha-
ben eben nicht alle statistischen Merkmalsträger das gleiche Einkommen, dieselbe Kör-
pergröße, dieselbe Lebenserwartung, und es ist auch nicht überall gleich warm. Gäbe
es die Variabilität nicht, machte Statistik keinen Spaß mehr, um nicht zu sagen, viele
der Methoden, die wir kennen lernen werden, wären sinnlos. (Ganz abgesehen von der
Frage, welche Qualität unser Alltags-Leben hätte, wenn wir alle gleich wären . . . ).
8 KAPITEL 1. EINLEITUNG

Die Variabilität der Merkmalsträger können wir sowohl horizontal als auch verti-
kal betrachten. Das heißt: Wir können von ein und derselben Person die Körpergröße
mehrmals messen und werden – aus Gründen, die wir später noch erläutern werden –
in einem bestimmten Bereich unterschiedliche Ergebnisse erhalten (horizontale Varia-
bilität). Oder aber wir messen die Körpergröße mehrerer Personen und erhalten – aus
offensichtlichen Gründen – unterschiedliche Ergebnisse (vertikale Variabilität).

Urliste und Rangliste


Wenn wir Merkmalswerte erfassen, erhalten wir zunächst eine Menge Daten. Die Urliste
ist dabei die Datenmenge in der Form und Reihenfolge, wie sie bei der Erhebung anfällt.
Werden von jedem Merkmalsträger mehrere Merkmale erhoben, so wird die Urliste
in den meisten Fällen in einer Tabelle dargestellt. Urlisten sind in den meisten Fällen
unübersichtlich und nicht sehr informativ – das ist ja ein Grund, warum wir Statistik
betreiben.
Von der Urliste ausgehend kann man die Elemente einer konkreten Stichprobe zum
Beispiel nach wachsender Größe ordnen (vorausgesetzt, es handelt sich um Daten, für
die Ordnungsrelationen definiert sind). Dies nennt man dann eine Rangliste (auch: ge-
ordnete Stichprobe oder Variationsreihe). Jedes Element der Stichprobe bekommt damit
eine Rangzahl (auch: einen Rang) zugeordnet. Liegen mehrere Merkmale pro Merkmals-
träger tabellarisch vor, gibt es mehrere Möglichkeiten, die Daten zu sortieren und somit
auch mehrere Ranglisten.
Nicht immer ist eine Umordnung der Stichprobe entsprechend wert-größenmäßiger
Ordnungsrelationen zulässig. Manchmal spielt auch die historische Reihenfolge, in der
die Daten erhoben wurden, eine Rolle und darf nicht so ohne weiteres umgeordnet
werden. Solche Zeitreihen müssen der Zeit nach geordnet bleiben.
Bei so genannten bi- oder multivariaten Methoden (siehe unten) ist im Hinblick
auf die Beschreibung statistischer Zusammenhänge außerdem darauf zu achten, dass
durch unsymmetrisches Umsortieren der Datenlisten die jeweiligen zu einem Daten-
paar verbundenen Elemente nicht durcheinander kommen. Bei der Beobachtung phy-
sikalischer Phänomene ist aus diesem Grund das Umsortieren zu einer der Größe nach
geordneten Stichprobe nicht üblich.
Die Reihenfolge in Urlisten bzw. der Rang in Ranglisten gibt jedem Datum6 aus
der Datensammlung einen Index. Bezeichnen wir zum Beispiel die Variable „Körper-
größe“ mit X, so sind die einzelnen konkreten Merkmalswerte entsprechend ihrer Rei-
henfolge (in der Chronologie ihrer Erfassung oder in einer bereits geordneten Form)
x1 , x2 , . . . , x n .
Sowohl Grundgesamtheiten als auch Stichproben werden übrigens in den meisten
Fällen nicht in ihrer Gesamtheit weiterverwendet (die Urlisten), sondern durch (nume-
rische) Parameter charakterisiert.

Uni-, bi- und multivariate Methoden


Eine wichtige methodische Unterscheidung haben wir zu treffen, je nachdem, wie viele
variable Merkmale wir im Zuge der statistischen Untersuchung gleichzeitig betrachten.
Wenn wir uns nur ein Merkmal ansehen, zum Beispiel die Körpergröße, sprechen wir
von univariater Statistik. Wenn es hingegen um mehrere Merkmale geht, zum Beispiel
die Körpergröße und das Alter, von bivariater Statistik. Hier können jetzt auch vermutete
Zusammenhänge zwischen den beiden Merkmalen untersucht werden. Untersuchen
wir überhaupt gleich mehrere Merkmale, zum Beispiel Körpergröße, Alter, Gewicht,
Geschlecht, etc., so handelt es sich um Methoden der multivariaten Statistik.
6 Datum = Einzahl von Daten
1.4. DATEN „MESSEN“ 9

1.4 Daten „messen“


Messen im engeren Sinn bedeutet, einen Sachverhalt (ein Phänomen) zu quantifizieren,
das heißt, ihn durch Zahlen darzustellen. Wenn es sich dabei um ein physikalisches
Phänomen handelt, wird in der Regel neben der Zahl (der Maßzahl) auch noch eine Maß-
einheit angegeben. Der Messwert ist dann ein Vielfaches der Maßeinheit und „Messen“
bedeutet festzustellen, wie oft die Maßeinheit in der zu messenden Größe enthalten ist,
also nichts anderes als Zählen. Wenn Sie zum Beispiel die Länge des Weges von der
Fachhochschule zur nächsten Schnellbahnstation messen wollen, haben Sie verschiede-
ne Möglichkeiten (in Klammer stehen bereits die Antworten):

1. Sie zählen, wie oft der 40.000.000-te Teil des Erdmeridians, der durch Paris geht,
auf dem Weg zwischen FH und Station untergebracht werden kann. (1/49140
mal)
2. Sie zählen, wie oft Sie den Platin-Iridium Urmeter-Stab (den können Sie ebenfalls
in Paris ausleihen) auf dem Weg zwischen FH und Station auflegen können. Dabei
sollte es eine Temperatur von 0◦ C haben. (814 mal)
3. Sie verstrahlen den Weg mit Krypton 86 Kr, warten auf den Übergang vom Zu-
stand 5d5 auf 2p10 und zählen, wie oft die Wellenlänge der dabei auftretenden
orangefarbenen Strahlung auf dem Weg Platz hätte. (1.343.721.676 mal)
4. Sie schicken Licht bei der FH weg und zählen, wie oft 1/299 792 458 Sekunden
vergehen, bis das Licht an der Station ankommt. (2/736 591 mal)

Möglichkeit 3) und 4) haben den Nachteil, dass Sie zuvor das Gebiet unter Vakuum
setzen müssen7 .
Wie Sie gesehen haben, kann bei der Beobachtung physikalischer Phänomene „Zäh-
len“ eine andere Bedeutung haben als im Alltag. Ein Phänomen kann beim physikali-
schen Messen nicht nur mit natürlichen Zahlen gezählt werden sondern zum Beispiel
auch „2/736 591 mal“ auftreten. Die Anzahl der möglichen Zahlenwerte ist unendlich
groß. Wir sprechen auch von einem kontinuierlichen Vorgang.
Zählen – und somit Messen – kann man aber nicht nur physikalische Phänomene,
sondern auch die Anzahl der arbeitslosen Personen eines Landes oder die Anzahl der
Bäume in einem Wald. Dabei kann sich Zählen als ein gar nicht so trivialer Vorgang
herausstellen: Einerseits müssen die zu zählenden Objekte von den nicht zu zählenden
Objekten abgegrenzt werden, was nicht immer einfach ist. Zählt nur zu den Arbeits-
losen, wer bereits vorher in einem Beschäftigungsverhältnis stand? Was ist mit Selbst-
ständigen? Mit Schulabgängern, die noch gar keine Arbeit hatten? Oder mit Leuten,
die zwar gerade keine Arbeit haben, aber eine Schulung machen? Wo sind die Gren-
zen eines Waldes? Ab welcher Größe ist ein Baum ein Baum? Ist ein Setzling auch ein
Baum?
Diese Abgrenzungen, die räumlich, zeitlich oder sachlich begründet sein können, sind
nicht immer ganz einfach. Zusätzlich kann es auch schwierig sein, die zu zählenden
Objekte überhaupt zu identifizieren8 und voneinander zu unterscheiden. Aber nur so
kann sichergestellt werden, dass jedes Objekt nur einmal gezählt wird.
In der Mathematik sind diese beiden beschriebenen Eigenschaften (Abgrenzung ge-
gen außen, Identifikation nach innen) übrigens Kennzeichen einer Menge. Eine Menge
ist die Zusammenfassung von bestimmten, wohlunterschiedenen Objekten zu einem
Ganzen, mit einer definierten Abgrenzung gegen die, die „draußen“ sind. Wir werden
7 Alle vier aufgezählten Möglichkeiten sind zugegebenermaßen in der Praxis nur schwer durchführbar,

entsprechen aber genau den Festlegungen der jeweiligen Meterdefinitionen von 1795 (Meridian), 1889 (Ur-
meter), 1960 (Wellenlänge) bzw. der heute gültige Definition von 1983 (Licht).
8 hier im Sinne von: Identität geben
10 KAPITEL 1. EINLEITUNG

im Zuge der Beschäftigung mit Statistik, insbesondere im Bereich der Wahrscheinlich-


keitstheorie, noch auf weitere Begriffe und Konzepte aus der mathematischen Mengen-
lehre zurückgreifen.

Bsp. 1.6 Woher kommen überhaupt all die Daten....?


Das Ausfüllen von Fragebögen hat Österreichs Unternehmen im Jahr 2006 790.000
Arbeitsstunden gekostet. Das geht aus dem von der Statistik Austria und der Wirt-
schaftskammer entwickelten Belastungsbarometer hervor.
Geht man von einer Jahresarbeitszeit von 1636 Stunden pro Beschäftigten in Öster-
reich aus, so haben im Vorjahr rein rechnerisch 782 Personen nichts anderes getan als
Fragebögen und Statistiken ausgefüllt. Im Vergleich zu 2001 hat sich dieser Aufwand
immerhin um rund zehn Prozent verringert.
(Quelle: Salzburger Nachrichten)

1.5 Englische Begriffe


In zunehmendem Maße wird auch im deutschsprachigen Raum Literatur zum Thema
„Statistik“ in englischer Sprache publiziert, respektive ist es mittlerweile überhaupt un-
entbehrlich, sich mit Hilfe englischer Fachliteratur in das eine oder andere Thema zu
vertiefen. Wir werden daher am Ende jeden Kapitels die wichtigsten Begriffe mitsamt
ihrer englischen Entsprechungen auflisten (Achtung: Das sind mitunter nicht wörtliche
Übersetzungen, sondern die im Englischen üblichen Bezeichnungen).

Beschreibende Statistik - descriptive stati- Merkmal - variable


stics multivariat - multivariate
bivariat - bivariate Rangliste - ordered sample
Daten - data Schließende Statistik - inferential statistics
Datensammlung - data set Statistik - statistics
Deskriptive Statistik - descriptive statistics Stichprobe - sample
Geordnete Stichprobe - ordered sample univariat - univariate
Grundgesamtheit - population Variabilität - variability
Induktive Statistik - inferential statistics Zeitreihe - time series
Kapitel 2

Datenanalyse und deskriptive


Statistik

2.1 Einleitung
Wir werden in diesem Kapitel einfache statistische Konzepte anhand verschiedener
Messgrößen und Datenmengen erarbeiten. Dabei steht zunächst eine rein empirische1
Betrachtungsweise im Vordergrund. Theoretische Konzepte und Modelle werden im 3.
Kapitel behandelt.
Die Statistische Auswertung gemessener Daten und beobachteter Phänomene, kann
– wie wir bereits im einleitenden Kapitel gesehen haben – unterschiedlich motiviert
sein: In der physikalischen Messtechnik ist es vor allem das Problem, dass die Messun-
gen immer mit systemimmanenten Abweichungen behaftet sind und daher bei mehr-
maliger Messung eine Variabilität zu beobachten ist. Unser Ziel ist es, den wahren Wert
einer Messgröße zu ermitteln. Tatsächlich gibt es aber keine Möglichkeit, den wahren
Wert zu beobachten (ganz abgesehen von der philosophischen Frage, ob es überhaupt
einen wahren Wert gibt). Haben wir nun die Messwerte für eine Messgröße mehrmals
beobachtet und diese Einzelmessungen zu einer Messreihe zusammengefasst, so kön-
nen wir aus der Analyse dieser Messreihe den Erwartungswert der Messgröße ableiten.
Außerdem ermöglicht uns diese statistische Bearbeitung der Messreihe auch, Aussa-
gen über die Qualität des erhaltenen Wertes für die Messgröße (seine Genauigkeit) zu
machen. Wir werden in diesem Kapitel auf diese Besonderheiten der physikalischen
Messtechnik und Begriffe wie „Abweichungen“ und „wahrer Wert“ noch zurückkom-
men.
Im Zusammenhang mit dem Messen physikalischer Größen sei darauf hingewie-
sen, dass wir heute fast ausschließlich digitale Messtechniken verwenden, d.h. nicht-
elektrische Größen in elektronische Signale umwandeln und diese dann messen. Dies
geschieht im Messgerät praktisch immer durch mehrmalige Messung, auch wenn dies
vielleicht für den Beobachter nicht sichtbar ist und das Messgerät als Ergebnis nur einen
Wert angibt und aufzeichnet. Intern sind dann aber bereits eine Menge von statistischen
Berechnungen durchgeführt worden.

Beispiele für physikalische Messgrößen, die wir statistisch auswerten: Zeit, Tempe-
ratur, Luftdruck, Niederschlagsmenge, Erdmagnetismus, Schadstoffemissionen,
Gravitation, Elektromagnetische Wellenlänge, Längen, Richtungen, Koordinaten,
Höhen
1 zum griech. εµπειρως (empeiros): etwas aus der Erfahrung kennen

11
12 KAPITEL 2. DATENANALYSE UND DESKRIPTIVE STATISTIK

Neben physikalischen Messungen können wir mit der Statistik aber auch Massener-
scheinungen untersuchen, quantifizieren und beschreiben. In diesem Fall wenden wir
statistische Methoden an, weil wir uns nicht für Einzelfälle interessieren, sondern Durch-
schnittswerte angeben, Merkmalsträger bezüglich bestimmter Merkmale klassifizieren und
dann die untersuchte Massenerscheinung hinsichtlich bestimmter Charakteristika oder
Hypothesen beurteilen können. Beispiele für solche „Massenerscheinungen“:
Wirtschaftsstatistik: Industrieumsätze, Arbeitslosenzahlen, Gehälter und Einkommen,
Export- und Importmengen, Lebenshaltungskosten, Inflationsraten, das Brutto-
sozialprodukt, Preise und Preisentwicklungen, Produktionsmengen und andere
betriebsstatistische Daten, Bettenauslastung im Tourismus
Bevölkerungsstatistik: Bevölkerungsverteilung, Zu- und abnahmen, Haushaltsgrößen,
Strukturelle Angaben zu Geschlecht, Alter, Familienstand, religiöser Zugehörig-
keit, Beschäftigungsart oder geographischer Verteilung
Sozialstatistik: Einkommens- und Vermögensverteilung, Sozialausgaben, Bildungsqua-
lifikation und -angebot, Schüler- und Studentenzahlen
Gesundheit, Medizin und Psychologie: Ärztliche Versorgung, Krankenstände, Krank-
heitsbilder und -verläufe, Therapiewirkungen, Ergebnisse psychologischer Expe-
rimente, Auftreten von Tierseuchen
Neben dieser inhaltlichen Abgrenzung der Daten ist aus statistisch-mathematischer
Sicht aber vor allem eine Unterscheidung bezüglich des verwendeten Skalenniveaus
notwendig:

2.2 Mess- und Skalenniveaus


Wenn wir Daten „messen“, so können wir die möglichen Ergebnisse nach den Datenty-
pen klassifizieren. Diese Klassifizierung nennen wir auch Skalierung; Ergebnisse werden
dann einer bestimmten Messskala zugeordnet. Zunächst einmal können wir unterschei-
den, ob es sich um
• qualitative (auch: kategorische) oder
• quantitative (auch: numerische)
Merkmale handelt.

2.2.1 Kategorische und Numerische Daten


Qualitative (kategorische) Merkmale beschreiben verschiedene Eigenschaften2 von Merk-
malsträgern durch eine wertmäßige Angabe („mit Worten“).
Quantitative (numerische) Merkmale hingegen repräsentieren das „Zähl- und Mess-
bare“ durch eine mengenmäßige Angabe3 , meist eine reelle Zahl. Sie werden auch als
numerische oder metrische Merkmale bezeichnet4 .
Bei qualitativen Merkmalen unterscheiden wir in weiterer Folge zwischen einer
• nominalen und einer
• ordinalen Skalierung
2 lat. qualitas = Beschaffenheit. Beachte: im Gegensatz dazu haben in der Alltagssprache oft nur solche

Dinge Qualität, die „von besonderer Güte“ sind.


3 lat. quantitas = Größe
4 vom lat. metor = (ab)messen
2.2. MESS- UND SKALENNIVEAUS 13

Bsp. 2.1 Qualitativ oder quantitativ? Ordinal-, Intervall- oder Rationalskala? Diskret
oder stetig?
Die Stadt Aventura in Florida ist die amerikanische Stadt mit dem höchsten prozentu-
ellen Bevölkerungsanteil an Österreichern (0.38 %); New York hingegen hält mit 6700
Immigranten den höchsten rot-weiß-roten Absolutanteil.
Mit 35.4 km ist die Grenze zwischen Österreich und Liechtenstein die weltweit neunt-
kürzeste Grenze, die es zwischen Staaten gibt. Die kürzeste ist übrigens jene zwischen
Spanien und Gibraltar (1.1 km), die längste jene zwischen den USA und Kanada (8893
km).
In Australien, Sudan, Neuseeland und 10 weiteren Staaten gibt es mehr Schafe als
Einwohner. In Dänemark, Samoa und Tuvalu mehr Schweine als Menschen. Und die
meisten Kamele gibt es im Sudan, Mauretanien und Indien (dort gibt es aber jeweils
mehr Menschen als Kamele).
Am 1. Juli 1983 sank das Thermometer in Wostok in der Antarktis auf -89.2◦ C und
hält somit den Rekord als bisher kältester Ort der Erde.
Ernest Vincent Wright schrieb 1939 den einzigen englischen Roman Gadsby, in dem
kein einziges Mal der Buchstabe E vorkommt. Er starb übrigens am selben Tag, an
dem sein Buch erschien. Im Französischen schrieb Georges Perec mit La Disparation
ebenfalls einen E-losen Roman, später jedoch zum Ausgleich mit Les Reventes einen
Roman, in dem das E der einzige benutzte Vokal ist. Im Deutschen ist kein E-loser
Roman bekannt. Gottlob Burmann hegte aber eine tiefe Abneigung gegen den Buch-
staben R und verfasste zunächst 130 Gedichte ohne diesen Buchstaben, und verbannte
ihn später überhaupt komplett aus seiner Alltagssprache. Das führte unter anderem
dazu, dass er seinen Familiennamen nicht mehr benutzen konnte.

Bei quantitativen Merkmalen verwenden wir eine


• Intervallskala, eine
• Rationalskala oder eine
• Absolutskala

2.2.2 Nominalskala
Nominalskalierte Merkmale sind solche, die nur qualitativ über ein „Etikett“ angegeben
werden. Eine „Messung“ besteht dann darin, dass der Merkmalsträger einer bestimm-
ten Kategorie zugeordnet wird oder nicht. In der Regel haben die Merkmale nicht-
numerische Werte (Begriffe, Buchstaben, Symbole), oder numerische Werte (Ziffern),
die aber auch als „Namen“ aufgefasst werden und keine mathematische Bedeutung
haben. Nominalskalierte Werte besitzen deshalb auch keine mathematische Ordnung
(Reihenfolge). Als Vergleichsoperation ist nur das Kriterium „gleich“ oder „verschie-
den“ möglich, nicht aber „größer“ oder „kleiner“.
Beispiele: Das Geschlecht (~, |) oder der ausgeübte Beruf von Personen, ihre Na-
tionalität, ihr Familienstand (ledig, verheiratet, geschieden, verwitwet), die Matrikel-
nummer von Studierenden, Kfz-Kennzeichen, Postleitzahlen, die Angabe der Nieder-
schlagsart (Regen, Schnee, Hagel), die Angabe von Farben etc.
Arithmetische Operationen wie die Bildung von Summen oder Differenzen sind für
nominalskalierte Merkmale nicht sinnvoll. Sie können aber ohne Informationsverlust
einer beliebigen eindeutigen Transformation unterworfen werden, d.h. ich kann sie –
wenn die Regeln eindeutig sind – von einer Skala in eine andere überführen. Zum Bei-
spiel können wir an Stelle der Symbole ~und |die Bezeichnungen „weiblich“ und
„männlich“ oder Ziffern (1,0) benutzen.
14 KAPITEL 2. DATENANALYSE UND DESKRIPTIVE STATISTIK

Graduelle Nominalskala
Einige der oben genannten Beispiele lassen eine eindeutige Zuordnung zu, andere hin-
gegen nicht. Während zum Beispiel die Zuordnung zu einem Geschlecht in der Regel
eindeutig ist, ist es bei Berufen und vielen anderen nominal skalierten Merkmalen nicht
immer einfach, eine eindeutige Zuordnung zu treffen. Wir müssen für diese Fälle die
Nominalskala noch um eine „Skala der graduellen Mitgliedschaft“ erweitern. Diese Ska-
la geht davon aus, dass es zwar bestimmte „Prototypen“ gibt, die Zuordnung „gleich
wie der Prototyp“ oder „verschieden von diesem Prototyp“ aber nicht immer leicht
ist. Hier kann es graduelle Unterschiede geben, die von „ziemlich gleich“ bis „schon
gar nicht mehr erkennbar gleich“ reichen können. Formal können wir diese graduelle
Zuordnung mit Hilfe einer Wahrscheinlichkeitsangabe vornehmen.

2.2.3 Ordinalskala
Ordinalskalierte Merkmale sind qualitative Merkmale, die hinsichtlich ihrer Größe (Be-
deutung, Rang, . . . ) unterschieden und durch Rangziffern gekennzeichnet werden kön-
nen. Die Ordinalskala wird daher auch Rangskala genannt. Es sind jetzt nicht nur die
Vergleichsoperationen „gleich“ und „ungleich“, sondern auch „größer“ und „kleiner“
möglich. Allerdings ist nicht definiert, „wie viel größer“ ein größeres Merkmal ist bzw.
„wie viel kleiner“ ein kleineres.
Beispiel: Das (flächenmäßig) größte Land der Europäischen Union (Frankreich) ist
nicht doppelt so groß wie das zweitgrößte (Spanien), und der Unterschied zwischen
dem dritt- und viertgrößten (Schweden und Deutschland) ist nicht derselbe wie zwi-
schen dem viert- und fünftgrößten Land (Deutschland und Finnland) etc.5 .
Weitere Beispiele für ordinalskalierte Merkmale: Schulnoten auf einer Skala von 1-
5, Gewässergüteklassen (Güteklasse I - „sehr gering belastet“ bis IV - „übermäßig ver-
schmutzt“), Bewölkungsarten (heiter, wolkenlos, wolkig, stark bewölkt).
Arithmetische Operationen sind auch hier nicht sinnvoll. Das bedeutet unter an-
derem auch, dass die Angabe eines Mittelwertes (wofür wir bekanntlich eine Summe
bilden müssen) nicht sinnvoll ist und – wenn es trotzdem gemacht wird – keinerlei
Information beinhaltet. Zum Beispiel hat die Angabe eines arithmetischen Mittelwertes
als „Notendurchschnitt“ statistisch gesehen einen Informationsgehalt von nahezu Null.
Werte auf einer Ordinalskala können aber einer ordnungserhaltenden (das heißt ma-
thematisch: monoton wachsenden) Transformation unterworfen werden. Ich kann also
zum Beispiel ein Notensystem von 1-5 umwandeln in ein Notensystem „sehr gut - gut -
befriedigend - genügend - nicht genügend“. Nicht möglich hingegen ist eine Transfor-
mation des österreichischen fünfstufigen Notensystems in eines mit mehr als 5 Rängen
(wie sie zum Beispiel in der Schweiz, Deutschland oder Großbritannien verwendet wer-
den).
Nominalskalen und Ordinalskalen werden auch als Kategorialskalen bezeichnet, weil
die einzelnen Werte Kategorien repräsentieren. Dem gegenüber stehen die nun nachfol-
gend beschriebenen numerischen Skalen, auf denen die Merkmale nicht nur geordnet
werden können sondern auch feste Abstände zwischen ihnen existieren.

2.2.4 Intervallskala
Intervallskala bedeutet, dass unsere Merkmale durch Zahlen repräsentiert werden, de-
nen eine Maßeinheit zu Grunde liegt. Es gibt allerdings keinen absoluten Nullpunkt.
5 Hier haben wir nur eine Unterscheidung in „größtes“ Land, „zweitgrößtes“ etc. gemacht, also nur den

Rang angegeben. Selbstverständlich könnten wir die Größe der angegebenen Länder auch in Quadratkilo-
metern vergleichen und dann sehr wohl Differenzen und Verhältnisse angeben.
2.2. MESS- UND SKALENNIVEAUS 15

Angaben über Differenzen machen zwar Sinn, Verhältnisangaben hingegen nicht. Wir
können zum Beispiel die geographische Länge eines Ortes angeben und auch den Län-
genunterschied zweier Orte, aber nicht sagen: Kigali ist „doppelt so östlich“ wie Gmünd:
Kigali liegt in Ruanda, 30◦ östlich von Greenwich, Gmünd in Niederösterreich 15◦ öst-
lich von Greenwich. Bezogen auf den Nullmeridian von Ferro6 hingegen liegt Kigali
auf 47◦ 40′ und Gmünd auf 32◦ 40′ , also nicht mehr „doppelt so östlich“. Ähnliches gilt
zum Beispiel bei Wetterbeobachtungen: Man kann nicht behaupten, 24◦ C sei „doppelt
so warm“ wie 12◦ C – Was würde ein Engländer dazu sagen? Die Aussage: „Eine Erwär-
mung von 12◦ auf 24◦ ist doppelt so groß wie eine Erwärmung von 12◦ auf 18◦ “ stimmt
hingegen schon – auch wenn ich die Temperatur in Fahrenheit angebe.
Werte für Merkmale auf einer Intervallskala kann ich einer linearen Transformation
der Form f ( x ) = a + bx (mit a > 0 und b ∈ R) unterwerfen. Bei so einem Skalenwechsel
ändert sich allerdings der Quotient zweier Merkmalswerte.
Beispiel: Die Umrechnung von Temperaturwerten auf der Skala nach Celsius in eine
Temperatur auf der Fahrenheit-Skala geschieht durch die lineare Transformation

TF = 32 + 1.8 · TC

Eine Temperatur von 12◦ C entspricht demnach 53.6◦ F, 18◦ C entsprechen 64.4◦ F und
24◦ C entsprechen 75.2◦ F. Das ergibt ein Verhältnis von 1 : 1.5 : 2 auf der Celsius-Skala,
aber 1 : 1.2 : 1.4 auf der Fahrenheit-Skala.
Für Differenzen hingegen sind wir von der Skala unabhängig und

(24 − 12)◦ C (75.2 − 53.6)◦ F



= =2
(18 − 12) C (64.4 − 53.6)◦ F

Logarithmische Intervallskala

Es gibt auch Merkmale, die auf einer logarithmischen Intervallskala gemessen werden.
Zur objektiven Feststellung von Erdbeben wird zum Beispiel die beim Beben ausgelöste
Energie mit Hilfe von Seismographen gemessen und auf der so genannten Richter-Skala
in der Maßeinheit Magnitude angegeben. Die Magnitude gibt den (dekadischen) Loga-
rithmus der Amplituden der Erdbebenwellen an. Das bedeutet, dass jeder zusätzliche
Punkt auf der Skala ein zehnfach stärkeres Beben beschreibt.

2.2.5 Rationalskala
Rationalskalen (auch: Verhältnisskalen) besitzen im Gegensatz zu Intervallskalen einen
absoluten, festen Nullpunkt. Damit macht auch die Angabe von Verhältnissen einen
Sinn, zum Beispiel: „Von Wien nach Schladming ist es doppelt so weit wie von Wien
nach Göstling an der Ybbs“ oder: „Ich verdiene halb so viel wie mein Chef“.
Beispiele für Merkmale auf einer Rationalskala sind alle Messungen physikalischer
Größen wie zum Beispiel Längen, Distanzen, Gewichte, Niederschlagsmengen, Tempe-
raturangaben auf der Temperaturskala nach Kelvin, etc.
Rationalskalierte Merkmale sind invariant gegenüber Transformationen der Form
f ( x ) = ax (mit a > 0). Dabei bleibt auch der Quotient zweier Merkmale gleich.

6 Es gibt mehrere Möglichkeiten, einen Null-Meridian für geographische Längenzählungen festzulegen.

In Österreich ist zum Beispiel aus historischen Gründen noch vielfach eine Zählung nach Ferro in Verwen-
dung. Um 150 n.Chr. legte Ptolemäus den Nullmeridian an den „äußersten“ Teil der ihm bekannten Welt: die
westlichste Insel der Hesperiden (die heutigen „Kanarische Inseln“) namens El Hierro, auch Ferro genannt.
16 KAPITEL 2. DATENANALYSE UND DESKRIPTIVE STATISTIK

Zyklische Rationalskala
Ergebnisse von Winkelmessungen werden im Prinzip in Rationalskalen angegeben, al-
lerdings tritt an einer bestimmten Stelle (360◦ = 400 gon = 2π rad) eine Singularität
auf und die Skala „beginnt wieder von vorne“. Dies ist insbesondere hinsichtlich der
oben angegebenen proportionalen Transformationen zu beachten.

2.2.6 Absolutskala
Rationalskalen haben einen festen Nullpunkt, aber eine offene Wahl der Maßeinheit,
d.h. es kann noch festgelegt werden, wie weit die „Einheit 1“ geht. Nun gibt es auch
Merkmale, wo nicht nur der Nullpunkt sondern auch die Einheit 1 absolut vorgegeben
sind. Wir haben es dann mit einer Absolutskala zu tun. Beispiel dafür sind die Angabe
von Häufigkeiten oder Wahrscheinlichkeiten.
Häufigkeiten werden durch eine Kardinalzahl angegeben, das ist die Anzahl von Ele-
menten mit einer bestimmten Ausprägung, also das System, in dem wir üblicherweise
zählen. Zum Beispiel die Anzahl von Menschen in diesem Raum mit bestimmten Eigen-
schaften.
Wahrscheinlichkeiten werden auf einer Absolutskala angegeben, die überhaupt nur
Werte zwischen 0 und 1 annehmen kann. Wir werden darauf noch in einem späteren
Kapitel zurückkommen.
Merkmale auf einer Absolutskala können nur einer identitätsbewahrenden Trans-
formation unterworfen werden7 .

Skalentyp ablesbare Informationen Beispiel


Nominalskala Gleichheit oder Ungleichheit Namen, Postleitzahlen
Ordinalskala Gleichheit/Ungleichheit, Rang- Schulnoten, Rangliste im
ordnung Sport
Intervallskala Gleichheit/Ungleichheit, Rang- Temperatur in Celsius,
ordnung, Vergleich von Diffe- geographische Länge,
renzen Erdbebenstärke
Rationalskala Gleichheit/Ungleichheit, Rang- Temperatur in Kelvin,
ordnung, Vergleich von Diffe- Länge, Fläche, Winkel
renzen und von Quotienten
Absolutskala wie Rationalskala Wahrscheinlichkeiten,
Kardinalzahlen

Tabelle 2.1: Übersicht: Zuordnung von Daten zu einem Skalentyp

Die Zuordnung von gemessenen Daten zu einem der oben angegebenen Skalenni-
veaus (Tab.2.1) ist ausschlaggebend für die Auswahl der weiteren statistischen Auswer-
temethode, die Art der grafischen Darstellung und die möglichen Rechenoperationen,
die wir durchführen können. Hinsichtlich dieser möglichen Rechenoperationen bilden
die Skalen eine Hierarchie. Dabei können Merkmale – falls erforderlich und sinnvoll
– immer herabskaliert, niemals aber hinaufskaliert werden. Gemessene Niederschlags-
mengen einer Rationalskala können zum Beispiel der Größe nach aufsteigend geordnet
werden; diese Rangliste ist dann nur noch ordinal skaliert. Zu beachten ist, dass beim
Herabskalieren immer Information verloren geht. Dies ist auch der Grund, warum ein
Hinaufskalieren prinzipiell unmöglich ist (ausgenommen, die notwendige höherrangi-
ge Information ist noch verfügbar).
7 Identitätsbewahrende
Transformationen gibt es nur, um einem mathematischen Formalismus zu genügen. In
der Praxis erlaubt die Funktion f ( x ) = x keine großartigen Veränderungen.
2.3. DARSTELLUNGSFORMEN VON DATENMENGEN 17

2.2.7 Diskrete und stetige statistische Merkmale


In der Statistik existieren zwei Arten von numerischen Merkmalen: diskrete und stetige.
Bei diskreten Merkmalen ist die Anzahl der Ausprägungsmöglichkeiten „überschau-
bar“, d.h. es können nur endlich viele oder abzählbar-unendlich viele8 Werte angenom-
men werden. Zwischen je zwei Werten liegt eine genau definierte Anzahl von „Nach-
barn“. Ein Beispiel für diskrete Daten sehen wir in Tab.2.2. Die Anzahl von Studenten
eines Jahrgangs, die aus einem bestimmten Bundesland kommen, kann nur in diskreten
Werten angegeben werden.

Jahrgang Bundesland Anzahl


2002 W 4
2002 NÖ 10
2002 B 5
2002 Sonst 1
2003 W 1
2003 NÖ 10
2003 B 1
2003 Sonst 2

Tabelle 2.2: Herkunft von IT-Studierenden nach Bundesländern je Jahrgang

Stetige (auch: kontinuierliche) Merkmale hingegen können innerhalb eines (endlichen


oder unendlichen) Intervalls jeden Zahlenwert aus R annehmen – also unendlich viele
beliebige Werte. Beim Längenmessen liegen zum Beispiel zwischen 1 und 2 Zentime-
tern unendlich viele weitere Zahlen (Milli-, Micro-, Nano-, Piko-, Femto-, Atto-, Zepto-
und Yoctometer etc.). Die Messung physikalischer Größen liefert immer stetige Daten.
Die Unterscheidung zwischen diskreten und stetigen Daten ist relativ einfach auf
einer aus der Mathematik bekannten Zahlengeraden vorstellbar: Diskrete Daten lassen
sich nur als ausgewählte Punkte auf der Zahlengeraden darstellen, stetige hingegen
werden immer durch das komplette Intervall repräsentiert.

2.3 Darstellungsformen von Datenmengen


Betrachten wir zunächst folgendes Beispiel: Ein und dieselbe Strecke wurde von zwei
unterschiedlichen Personen jeweils 10-mal gemessen, von einer dritten anschließend
noch 5-mal. Die Ergebnisse sind in Tab.2.3 angegeben.
Diese 25 Zahlen x1 , . . . , x10 ; y1 , . . . , y10 und z1 , . . . , z5 – die so genannte Urliste – sind
kaum geeignet, als ein Messergebnis, nämlich die Länge der Strecke, zu dienen. Viel-
mehr kommt es darauf an, die Daten sinnvoll zu „komprimieren“, im extremsten Fall
auf eine einzige Zahl. Wir könnten zum Beispiel die Daten aus Tab.2.3 durch den arith-
metischen Mittelwert repräsentieren. D.h. wir dividieren die Summe aller Werte durch
die Anzahl der gemessenen Daten. In unserem Fall erhalten wir den Wert 574.751 m.
Betrachtet man allerdings die Daten etwas genauer, so erkennt man, dass dies wohl
kaum der vermutlich „wahre Wert“ der Länge der Strecke ist. Alle Messwerte bis auf
einen liegen um die 574.770 m, sodass es nicht sehr wahrscheinlich ist, dass 574.751 ein
guter Schätzer für den wahren Wert ist. Wir wollen daher die Daten nicht „stur“ mit
8 abzählbar-unendlich heißt, dass die Menge der möglichen Werte zwar theoretisch abzählbar wäre, die Men-

ge aber unendlich ist und daher niemand die Zeit und Geduld aufbringt, sie tatsächlich abzuzählen. Beispiel:
die Folge der natürlichen Zahlen.
18 KAPITEL 2. DATENANALYSE UND DESKRIPTIVE STATISTIK

Bsp. 2.2 Qualitativ oder quantitativ? Ordinal-, Intervall- oder Rationalskala? Diskret
oder stetig? (Fortsetzung)
Andorra, Liechtenstein, Monaco, San Marino und der Vatikan sind die einzigen Staa-
ten der Welt, die keinen eigenen Flughafen besitzen.
Den weltweit längsten Kuss gaben sich James Belshaw und Sophia Severin am 11. Juli
2005. Er dauerte 31 Stunden, 30 Minuten und 30 Sekunden.
„Al Jumahiriyah al Arabiyah al Libiyah ash Shabiyah al Ishtirakiyah al Uzma“ ist
der längste offizielle Ländername; aus praktischen Gründen wird meist nur die ab-
gekürzte Form „Libyien“ verwendet. Libyen ist übrigens das einzige Land der Welt,
in dem es keinen einzigen (ständig wasserführenden) Fluss gibt. Und: Laut „Goo-
gle Trends“ wird in deutschsprachigen Ländern ungefährt genauso oft Lybien in die
Google-Suchmaske eingegeben wie Libyen.
Die größte amerikanische Stadt, die nach einer Frucht benannt ist, ist Orange in Kali-
fornien, mit 128821 Einwohnern. Wien hingegen ist nach Seoul und Minsk die welt-
weit drittgrößte Stadt, deren Namen nur aus einer Silbe besteht.
Der weltweit weiteste Flug, den ein Huhn nachweislich flog, betrug 91.9 Meter, die
weiteste Distanz, die ein Sektkorken flog, hingegen nur 54.2 Meter.

Messreihe x Messreihe y Messreihe z


574,775 574,772 574,775
574,777 574,777 574,775
574,773 574,777 574,776
574,770 574,173 574,775
574,775 574,774 574,775
574,772 574,773
574,774 574,776
574,774 574,776
574,776 574,773
574,779 574,774

Tabelle 2.3: Ergebnisse einer Streckenbeobachtung durch drei verschiedene Personen

einem einfachen Statistikprogramm auswerten, sondern den einzelnen Beobachtungen


durchaus mit Misstrauen begegnen und „verdächtige“ Messwerte näher betrachten.
Dabei gehen wir davon aus, dass den Daten a priori ein bestimmtes stochastisches
Modell zu Grunde liegt, d.h. wir haben schon eine gewisse Vorstellung davon, wie die
Messwerte „vermutlich“ verteilt sind9 . Dieses Modell soll nach Möglichkeit nicht durch
„Ausreißer“ (extreme, vermutlich fehlerhafte Werte) gestört werden.
In unserem Beispiel fällt der Wert 574.173 m „aus der Reihe“. Es könnte sich um
einen Messfehler oder um einen Schreibfehler im Messprotokoll, aber auch schlicht
und einfach um einen Druckfehler in diesem Skriptum handeln. Im Falle eines Schreib-
fehlers könnten wir zum Beispiel vermuten, dass der Messprotokoll-Führer eigentlich
574.773 gemeint hat und den Wert dementsprechend ändern. Das nachträgliche Ändern
eines Messwertes ist aber immer problematisch; wir werden den Wert daher kurzer-
hand einmal einfach weglassen und für die Messreihe y nur neun Beobachtungen aus-
werten. (Das gilt für alle Angaben und Aufgaben die sich in diesem Kapitel auf Tab.2.3
beziehen). Zur weiteren Datenanalyse könnten wir nun die einfache Tabellendarstel-
9 Davon
kommt auch das für uns wichtige Wort Stochastik: griech. στoχαστικoς (stochastikos) = im Ver-
muten geschickt, scharfsinnig
2.3. DARSTELLUNGSFORMEN VON DATENMENGEN 19

Abb. 2.1 Liniendiagramm zu den Daten aus Tab.2.3


 




















     
         
    

lung aus Tab.2.3 direkt heranziehen. Zur Verbesserung der Übersichtlichkeit können
wir die Daten aber auch graphisch darstellen, zum Beispiel in einem Liniendiagramm
(Abb.2.1). Wenn wir die Daten allerdings umordnen, zum Beispiel der Größe nach, er-
halten wir eine komplett andere grafische Darstellung (Abb.2.2), sodass wir versuchen
werden, etwas systematischer vorzugehen. Wir werden sowohl unsere tabellarische als
auch die grafische Darstellung „verbessern“ und Häufigkeitstabellen und verschiedene
grafische Darstellungsformen untersuchen. Manchmal – insbesondere bei stetigen Da-
tenmengen bzw. bei sehr vielen, zahlenmäßig verschiedenen Messwerten – kann es da-
bei zweckmäßig oder notwendig sein, die Daten vorher in Klassen einzuteilen.

Abb. 2.2 Liniendiagramm zu den der Größe nach geordneten Daten aus Tab.2.3
574,780

574,779

574,778

574,777

574,776

574,775

574,774

574,773

574,772

574,771

574,770
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24

2.3.1 Klassenbildung
Klassenbildung bedeutet die Aufteilung des Wertebereichs in Teilbereiche (Klassen), die
einander ausschließen und den Wertebereich vollständig überdecken. Die Klassengren-
20 KAPITEL 2. DATENANALYSE UND DESKRIPTIVE STATISTIK

zen sollen „runde“ und „einfache“ Zahlenwerte sein. Die erste und letzte Klasse werden
oft als „offene“ Klassen geführt, d.h. von − ∞ (untere Grenze der ersten Klasse) bzw.
+ ∞ (obere Klasse der letzten Klasse) begrenzt. Die Klassenbreiten (= obere minus untere
Klassengrenze) werden so gewählt, dass sie gleich lang sind und die Klassenhäufigkei-
ten (Anzahl der Messwerte pro Klasse) nicht extrem unterschiedlich. (Die Forderung
nach gleich großen Klassenbreiten ist nicht zwingend, in unseren Anwendungsfällen
aber üblich).
Je weniger Klassen man bildet, desto übersichtlicher und „einfacher“ wird die Stich-
probe zwar, es gehen aber auch umso mehr Informationen verloren. Je größer die An-
zahl der Klassen ist, desto unübersichtlicher bleibt die Stichprobe. Bei n Elementen in
der Stichprobe kann für die Ermittlung der Anzahl m der Klassen folgende Faustformel
herangezogen werden:

 5√ für n < 25
m= n für 25 ≤ n ≤ 100 (2.1)
1 + 4.5 · lg n für n > 100

Jedenfalls sollte aber gelten


m ≤ 10 · lg n (2.2)
Für die Klassenbreite d ergibt sich dann
xmax − xmin
d≈ (2.3)
m
wobei bei offenen Klassen xmin und xmax in den beiden offenen Klassen liegen sollten
(also xmin in der ersten und xmax in der letzten Klasse).
Der arithmetische Mittelwert der oberen und unteren Klassengrenze wird als Klas-
senmitte bezeichnet. (Bei offenen Klassen ist die Klassenmitte nicht das Mittel der Klas-
sengrenzen, sondern ergibt sich entsprechend der Breiten in den anderen Klassen).
Manchmal sind von einer Stichprobe nicht mehr die ursprünglichen Stichprobenwerte
einzeln bekannt, sondern nur noch die Klassenmitten und die Anzahl der in der je-
weiligen Klasse liegenden Elemente. In diesem Fall wird angenommen, dass alle Werte
dieser Klasse in der zugehörigen Klassenmitte liegen.
Messwerte, die genau auf einer Klassengrenze liegen, fallen je zur Hälfte in jedes
der beiden angrenzenden Intervalle. Dies kann zu der eigenartig anmutenden Kon-
stellation führen, dass ein Intervall nicht nur eine ganzzahlige Anzahl von Elementen
enthält sondern auch 0.5, 1.5 . . . etc. Will man dies vermeiden, werden üblicherweise
die unteren Klassengrenzen in die jeweilige Klasse eingeschlossen, die oberen hingegen
ausgeschlossen und zur nächsten Klasse hinzugezählt.

2.3.2 Häufigkeitstabellen
Zur besseren Überschaubarkeit der Stichprobenwerte hilft eine tabellarische Darstel-
lung, die die Daten der Urliste systematisch darstellt. Dabei werden zu jeder Klasse die
entsprechenden Klassengrenzen, die Klassenmitten und Angaben über die Häufigkeit
von Beobachtungswerten in dieser Klasse zusammengestellt. Im Einzelnen können das
die absolute und relative Häufigkeit sowie die absolute und relative Häufigkeitssumme
sein:
Die absolute Häufigkeit k i ist die Anzahl der Beobachtungswerte, die gleich einem
vorgegebenen Wert sind oder in eine bestimmte Klasse i von Werten gehören. Es muss
gelten:
m
∑ ki = n (2.4)
i =1
2.3. DARSTELLUNGSFORMEN VON DATENMENGEN 21

Die absolute Häufigkeitssumme (auch: Summenhäufigkeit oder: absolute kumulierte Häu-


figkeit) K ist die Anzahl der Beobachtungswerte, die einen vorgegebenen Wert (bzw. eine
vorgegebene Klassengrenze) nicht überschreiten:

xi ≤ x j
K(xj ) = ∑ ki (2.5)
i =1

Die relative Häufigkeit hi ist die absolute Häufigkeit dividiert durch die Gesamtzahl
der Beobachtungswerte:
ki
hi = (2.6)
n
Es muss gelten:
m
∑ hi = 1 (2.7)
i =1

Die relative Häufigkeitssumme (auch: relative Summenhäufigkeit oder: relative kumulier-


te Häufigkeit) H ist die absolute Häufigkeitssumme dividiert durch die Gesamtzahl der
Beobachtungswerte:
xi ≤ x j
K(xj )
H(xj ) =
n
= ∑ hi (2.8)
i =1

Wir können nun die Daten der Tab.2.3 in einer Häufigkeitstabelle darstellen. Tab.2.4
zeigt die entsprechende Häufigkeitstabelle für die gemeinsame Betrachtung aller Daten
der Messreihen x, y und z.

i Klassengrenzen -mitte k K h H
1 −∞ 574,7705 574,770 1 1 0,042 0,042
2 574,7705 574,7715 574,771 0 1 0 0,042
3 574,7715 574,7725 574,772 2 3 0,083 0,125
4 574,7725 574,7735 574,773 3 6 0,125 0,25
5 574,7735 574,7745 574,774 4 10 0,167 0,417
6 574,7745 574,7755 574,775 6 16 0,25 0,667
7 574,7755 574,7765 574,776 4 20 0,167 0,833
8 574,7765 574,7775 574,777 3 23 0,125 0,958
9 574,7775 574,7785 574,778 0 23 0 0,958
10 574,7785 +∞ 574,779 1 24 0,042 1
Summe 24 1

Tabelle 2.4: Häufigkeitstabelle zu den Daten aus Tab. 2.3

Weitere Begriffe

Die (empirische) Verteilungsfunktion ist jene Funktion, die jedem Beobachtungswert die
relative Häufigkeitssumme zuordnet.
Die (absolute oder relative) Häufigkeitsdichte ist die absolute oder relative Häufigkeit
dividiert durch die Klassenbreite.
22 KAPITEL 2. DATENANALYSE UND DESKRIPTIVE STATISTIK

2.3.3 Grafische Darstellungen


Neben Häufigkeitstabellen sind oft auch grafische Darstellungen der Verteilungen hilf-
reich. Durch sie lassen sich die Häufigkeiten meist besser „auf einen Blick“ erfassen
als mit der Häufigkeitstabelle. Grafiken erlauben einen optischen – und damit meist
„schnelleren“ – Vergleich zwischen einzelnen Werten. Auch können „Muster“ in unse-
ren Daten leichter erkannt werden. Andererseits stellen Grafiken alleine (ohne die zu-
grundeliegenden Tabellen) immer auch einen gewissen Informationsverlust dar, weil
die absoluten numerischen Werte eventuell nicht mehr erkennbar sind.

Liniendiagramm

Liniendiagramme haben wir bereits in Abb.2.1 und Abb.2.2 gesehen. Liniendiagramme


eignen sich vor allem auch dann, wenn mehrere Datenreihen verglichen werden sollen.
Allerdings geht nach ca. 5-7 Linien die Übersichtlichkeit wieder verloren.

Säulen- und Balkendiagramm

Ein Säulendiagramm (auch: Stabdiagramm) ist die grafische Repräsentation einer unklas-
sierten Häufigkeitstabelle diskreter Daten. Zunächst zeichnen wir eine waagerechte Li-
nie, unter der wir in regelmäßigen Abständen die Merkmalswerte (Kategorien oder
Zahlen) eintragen. Bei quantitativen Daten kann diese Unterteilung der Achse gleich
direkt proportional umgelegt werden, bei qualitativen Daten wählt man beliebige Ab-
stände, jedenfalls so, dass alle vorkommenden Werte sinnvoll untergebracht werden
können. Auf der linken Seite zeichnen wir eine senkrechte Linie und skalieren diese
entsprechend der vorkommenden (absoluten oder relativen) Häufigkeiten. Mathema-
tisch haben wir damit ein Koordinatensystem mit einer Abszisse (horizontale oder „x-
Achse“) und Ordinate (vertikale oder „y-Achse“) geschaffen.
Über den jeweils auf der Abszisse aufgetragenen Merkmalswerten werden nun Säu-
len eingezeichnet, das sind schmale Rechtecke parallel zur Ordinate, deren Länge pro-
portional zur zugehörigen Häufigkeit ist. Die Säulen haben gleiche Breite; damit ist
nicht nur die Länge sondern auch die Fläche proportional zur Häufigkeit. Ein Beispiel
für ein Säulendiagramm ist die Darstellung in Abb.2.3.
Manchmal wird das Koordinatensystem auch gedreht (Merkmalswerte auf der senk-
rechten Achse, Häufigkeiten auf der waagerechten Achse) und dann zur Unterschei-
dung Balkendiagramm genannt (siehe Abb.2.4).
In einem Stab- oder Balkendiagramm lassen sich auch zwei oder mehrere Datensät-
ze darstellen, was oft einen viel anschaulicheren und offensichtlicheren Vergleich zwi-
schen den Datensätzen erlaubt; zum Beispiel können bei der Darstellung von Schuler-
folgen die Datensätze für Mädchen und Burschen in getrennten Datensätzen dargestellt
werden etc. Dabei ist darauf zu achten, dass ein Vergleich zweier oder mehrerer Daten-
sätze auf Basis der absoluten Häufigkeiten nur dann sinnvoll ist, wenn die Datensätze
vom gleichen Umfang sind. Bei unterschiedlichem Umfang werden im Stabdiagramm
die relativen Häufigkeiten repräsentiert (siehe Abb.2.4).
Da wir auf der Abszisse eine „Reihenfolge“ der Daten festlegen müssen, sollten die
Daten der Urliste für diese Darstellungsform zumindest ordinal skaliert sein. Haben
wir nominal skalierte Daten zur Auswertung, könnten wir eine derartige Reihenfolge
nur willkürlich festlegen. Eine solche willkürliche Festlegung der Anordnung kann je-
doch eine Interpretation suggerieren, die eigentlich nicht in den Daten enthalten ist.
Nominal skalierte Daten werden daher besser in einem Kreisdiagramm dargestellt.
2.3. DARSTELLUNGSFORMEN VON DATENMENGEN 23

Abb. 2.3 Ergebnis der österreichischen Nationalratswahlen 2006. Darstellung in einem


Säulendiagramm. (Quelle: SORA)

Kreisdiagramme
Bei Kreisdiagrammen (auch: Tortendiagramm) wird jeder Ausprägung des Merkmals ein
Kreissektor zugewiesen. Die Fläche des Sektors spiegelt dabei die relative Häufigkeit
seines Auftretens wider. Die Sektorgrenzen können berechnet werden, indem die rela-
tiven Häufigkeiten jeweils mit 360◦ multipliziert werden. Damit erhält jeder Merkmals-
wert ein „Tortenstück“, dessen Größe der relativen Häufigkeit entspricht. Die einzelnen
Kreissektoren erhalten zur besseren Lesbarkeit meist unterschiedliche Färbungen oder
Grafikmuster. Abb.2.5 zeigt ein Beispiel dafür.
Man erhält mit Kreisdiagrammen einen guten Gesamtüberblick über die Daten; ins-
gesamt sollten aber nicht mehr als 7-9 Segmente (Klassen, Kategorien) vorliegen, da-
mit es noch lesbar ist. Außerdem ist ein direkter Vergleich zweier Merkmale schwierig,
wenn die betroffenen „Tortenstücke“ nicht zufällig benachbart sind.
Liegen mehrere Datensätze vor, so müssen sie in jeweils separaten Kreisdiagram-
men dargestellt werden, was einen (optischen) Vergleich nicht gerade einfach macht. In
diesem Fall sind eventuell Streifendiagramme vorzuziehen.

Streifendiagramm
Bei einem Streifendiagramm werden die Merkmalswerte je Variable „übereinanderge-
schichtet“. Im selben Diagramm können auch die Merkmalswerte einer anderen Varia-
blen dargestellt werden – siehe Abb.2.6.

Histogramm
Stetige Daten aber auch umfangreiche Datensätze diskreter Werte werden vor der sta-
tistischen Auswertung klassiert. Die grafische Darstellung der Häufigkeitsdichte klas-
sierter Daten erfolgt in einem Histogramm (auch: Staffelbild). Im Gegensatz zum Stabdia-
gramm spielen dabei die Klassenbreiten eine wichtige Rolle. Auf der Abszisse werden
24 KAPITEL 2. DATENANALYSE UND DESKRIPTIVE STATISTIK

Abb. 2.4 Ergebnis der österreischischen Nationalratswahlen 2006. Darstellung in einem


Balkendiagramm. (Quelle: ORF)

die Klassengrenzen aufgetragen und über den Klassenintervallen Rechtecke errichtet,


deren Flächen proportional zu den (absoluten und relativen) Häufigkeiten sind; die Bal-
kenhöhen sind daher proportional zur Häufigkeitsdichte. (Achtung bei ungleichen Klas-
senbreiten: nicht die Höhe sondern die Fläche ist das Maß für die Häufigkeit, die Höhe
ist ein Maß für die Häufigkeitsdichte. Nur im Fall gleicher Klassenbreiten spielt dieser
Unterschied keine Rolle). Beschriftet werden auf der Abszisse entweder die Klassen-
grenzen, die Klassenindizes oder die Klassenmitten. Zu beachten ist außerdem, dass in
einem Histogramm die Säulen nahtlos aufeinander stoßen müssen (im Gegensatz zum
Stabdiagramm). Abb.2.7 zeigt ein Histogramm zu den Daten aus der Tab.2.3, und zwar
für eine gemeinsame Betrachtung der Messreihen x, y und z.
Es sei hier noch angemerkt, dass verschiedene Statistikprogramme die genannten
Diagramme und Histogramme auch in einer dreidimensionalen Ausprägung anbieten.
Dies wird vor allem dann Verwendung finden, wenn wir die statistische Verteilung
zweier Merkmale zugleich darstellen wollen.

Häufigkeitssummenkurve
Die grafische Darstellung der Verteilungsfunktion ist die Häufigkeitssummenkurve (auch:
Summenhäufigkeitspolygon). Das ist ein Polygon, das entsteht, indem für jede Klasse ein
Punkt mit der oberen Klassengrenze als Abszisse und der zugeordneten relativen Häu-
figkeitssumme als Ordinatenwert gezeichnet werden und benachbarte Punkte linear
verbunden werden. Im Falle nichtklassierter Beobachtungen wird die relative Häufig-
keitssumme über allen Beobachtungswerten aufgetragen. Bei diskreten Beobachtungs-
größen entsteht eine treppenartige Funktion, bei der jedes Stichprobenelement eine
Sprungstelle ist. Die Sprunghöhen sind gleich den relativen Häufigkeiten h. Abb.2.8
zeigt die Häufigkeitssummenkurve zu den Daten aus Tab.2.3.
2.3. DARSTELLUNGSFORMEN VON DATENMENGEN 25

Abb. 2.5 Wegzüge aus Österreich ins Ausland nach Staatsangehörigkeit. Darstellung in
einem Kreisdiagramm. (Quelle: Statistik Austria, Statistisches Jahrbuch 2002)

Stamm-und-Blatt-Diagramm

Eine Alternative zu Stabdiagramm und Histogramm ist das Stamm-und-Blatt-Diagramm.


Er ist ähnlich anschaulich wie diese, beinhaltet aber auch noch explizit alle Daten und
erleichtert so das direkte Berechnen wichtiger Kenngrößen der Datenverteilung.

Um ein Stamm-und-Blatt-Diagramm zu erstellen, wählt man zunächst eine Einheit


für die Messdaten, und zwar so, dass die gesuchte „interessierende“ Stelle die 1. Nach-
kommastelle ist. In unserem Beispiel (Tab.2.3) interessiert uns zum Beispiel der „rich-
tige“ Millimeter – wir wählen also als Einheit für die Messdaten Zentimeter [cm] und
teilen alle Datenwerte an der Stelle des Dezimalkommas in „Stamm“ und “Blätter“. Be-
achte: Es darf nicht vergessen werden, im Stamm-und-Blatt-Diagramm eine Legende
anzugeben, aus der die Einheiten des Stammes und der Blätter ersichtlich sind!

Man zeichnet eine vertikale Linie und trägt davor die Ziffern vor dem Komma ein.
Sie bilden den Stamm. Rechts von den Stamm-Einträgen werden auf horizontalen „Äs-
ten“ jeweils die Nachkommastellen eingetragen (die einzelnen Blätter). Dabei gehören
alle Werte, die in einer Klasse liegen, zu einem Blatt. Ergänzend können links vom
Stamm noch die jeweiligen Summenhäufigkeiten angegeben werden. Abb.2.9 zeigt zwei
unterschiedliche Möglichkeiten eines Stamm-und-Blatt-Diagramms zu den Daten aus
Tab.2.3, einmal mit einer Klassierung der Daten in 10 Klassen und einer Klassenbreite
von 1 mm und einmal mit 5 Klassen und einer Klassenbreite von 2 mm.

Stamm-und-Blatt-Diagramme eignen sich nicht für extrem große Datenmengen. Stamm-


größen zwischen 5 und 20 „Ästen“ sind ideal für eine anschauliche Datendarstellung.
Zu beachten ist außerdem, dass die „Blätter“ auch aus mehreren Ziffern bestehen kön-
nen (mehrere Nachkommastellen). In diesem Fall sind sie durch Kommata zu trennen.

Nachdem wir unsere Daten nun grafisch dargestellt und ihre Verteilung veranschau-
licht haben, werden wir im nächsten Schritt die Art und Weise der Verteilung der Mess-
werte auch numerisch charakterisieren. Ziel ist es dabei, die Datenmenge durch einige
wenige Kennwerte möglichst gut zu beschreiben.
26 KAPITEL 2. DATENANALYSE UND DESKRIPTIVE STATISTIK

Abb. 2.6 Herkunft der Studierenden zweier Jahrgänge (vgl. Tab.2.2)

Abb. 2.7 Histogramm zur Tab.2.4


      

2.4 Kennwerte empirischer Häufigkeitsverteilungen

Eine Häufigkeitsverteilung ist der Zusammenhang zwischen den Beobachtungswerten


und den (absoluten und relativen) Häufigkeiten bzw. Häufigkeitssummen ihres Auf-
tretens. Betrachten wir dabei immer nur ein Merkmal, so sprechen wir von univariater10
Häufigkeitsverteilung; bei zwei Merkmalen von bivariater und bei mehreren Merkma-
len von multivariater Häufigkeitsverteilung. Im Rahmen unserer weiteren Überlegun-
gen werden wir uns zunächst auf univariate Häufigkeitsverteilungen beschränken. Au-
ßerdem betrachten wir in diesem Kapitel ausschließlich empirische Daten und somit
Stichproben.
Jede Häufigkeitsverteilung kann durch verschiedene Kenngrößen charakterisiert
werden; insbesondere gibt es Kenngrößen der Lage, der Streuung und der Form der Ver-
teilung. Jedem einzelnen Beobachtungswert kann außerdem eine Rangzahl zugeordnet
sein, das ist die Nummer des Wertes in der nach aufsteigenden Zahlenwerten geordne-
ten Folge von Beobachtungswerten.

10 vom lat. variare = verschieden sein


2.4. KENNWERTE EMPIRISCHER HÄUFIGKEITSVERTEILUNGEN 27

Abb. 2.8 Häufigkeitssummenkurve zu den Daten aus Tab.2.3. Einheit Abszissenachse


(Klassengrenzen): mm (+574.77 m)





















                    

Abb. 2.9 Stamm-und-Blatt-Diagramm zu den Daten aus Tab.2.3 mit den zwei Klassen-
anzahlen m = 10 und m = 5 und den Klassenbreiten d = 1 mm bzw. d = 2 mm
K [cm] K [cm]
1 57477 0
1
3 2 2 1 57477 0
6 3 3 3 6 2 2 3 3 3
10 4 4 4 4 16 4 4 4 4 5 5 5 5 5 5
16 5 5 5 5 5 5 23 6 6 6 6 7 7 7
20 6 6 6 6 24 9
23 7 7 7
23
24 9

2.4.1 Lage-Kennwerte empirischer Häufigkeitsverteilungen

Lagekennwerte (auch: Ortsparameter) charakterisieren in summarischer Art und Weise


die Verteilung der Beobachtungswerte.

Minimaler und maximaler Wert

Zunächst einmal kann man für jede Datenmenge einen Maximalwert xmax und einen
Minimalwert xmin angeben. Sind die Daten entsprechend ihrer Rangzahl indiziert, so ist

xmin = x1 (2.9)

und

xmax = xn (2.10)
28 KAPITEL 2. DATENANALYSE UND DESKRIPTIVE STATISTIK

Arithmetischer Mittelwert

Der arithmetische Mittelwert ist der Quotient der Summe der Beobachtungswerte divi-
diert durch die Anzahl der Beobachtungswerte:
n
1 x1 + x2 + · · · + x n
x̄ =
n ∑ xi = n
(2.11)
i =1

Hinweis: Das Eigenschaftswort „arithmetisch“11 wird oft auch weggelassen.


Stellen wir uns die Darstellung einer Datenreihe in einem Histogramm vor und die-
ses Histogramm auf dem Balken einer Balkenwaage montiert, so ist der Mittelwert
ident mit dem Schwerpunkt dieses Systems, das heißt jener Punkt, in dem die Waage
aufliegen muss, damit sie im Gleichgewicht ist.
Der Mittelwert muss übrigens kein tatsächlich beobachteter Wert sein sondern ist
nur eine Rechengröße (was sich aus seiner Definition ohnehin von selbst ergibt). Damit
ist aber die praktische Interpretation des Mittelwertes manchmal schwierig. Haben wir
zum Beispiel diskrete Daten vorliegen, wie die „Anzahl der Kinder pro Familie“, so er-
halten wir oft einen Mittelwert aus einer nicht-diskreten mathematischen Menge (zum
Beispiel 1.8 Kinder). Außerdem sei erneut darauf hingewiesen, dass ein Mittelwert nur
für numerische Merkmale einen Sinn ergibt. Die Berechnung eines Mittelwertes aus or-
dinal skalierten Merkmalen (zum Beispiel eine „Durchschnittsnote“ auf Grund eines
Zeugnisses) ist statistisch gesehen ohne Aussagekraft.

Bsp. 2.3 (Quelle: Salzburger Nachrichten, 2.10.2007)


Drei volle Tage verbringt laut einem Studienergebnis ein durchschnittlicher Autofah-
rer in der 18-Millionen-Einwohner-Metropole Los Angeles jährlich im Stau. Durch
den Stop-and-go-Verkehr verschwende der Durchschnittsfahrer nicht nur seine Zeit,
sondern auch noch 200 Liter Treibstoff pro Jahr, ermittelte das Verkehrsinstitut Texas.
Damit liegen die Einwohner der kalifornischen Stadt erheblich über dem US-Schnitt,
der bei 38 Stunden Stau pro Jahr und 100 damit vergeudeten Litern Benzin liegt. Lan-
desweit kosten Staus die US-Volkswirtschaft demnach 78 Milliarden Dollar pro Jahr.
4.2 Arbeitsstunden gehen verloren.

Quantile

Werte, welche eine der Größe nach geordnete Beobachtungsreihe (eine Rangliste) in
zwei Anteile zerlegen, werden α-Quantile genannt, wobei α den Umfang der „abge-
teilten“ Daten angibt. α kann zwischen 0 und 1 bzw. zwischen 0% und 100% liegen.
Man findet die entsprechenden Werte, indem man zunächst die zugehörige Rangzahl
bestimmt:
r α = α ( n − 1) + 1 (2.12)
d.h. der Wert an der Stelle rα ist das gesuchte Quantil. Im Allgemeinen wird rα keine
ganze Zahl sein, daher kann man auch nicht immer einen tatsächlich beobachteten Wert
als Quantil angeben. Gegebenenfalls muss zwischen den Werten an der Stelle int(rα )
und (int(rα ) + 1) linear interpoliert werden:

xα = xint(rα ) + (rα − rint(rα ) )( xint(rα )+1 − xint(rα ) ) (2.13)


11 griech. αριθµητικoς (arithmetikos) = im Zählen oder Rechnen geschickt
2.4. KENNWERTE EMPIRISCHER HÄUFIGKEITSVERTEILUNGEN 29

Wichtige Quantile sind das 0.5-Quantil und das 0.25-Quantil. Das 0.5-Quantil ist der
„mittelste“ Datenwert, d.h. oberhalb und unterhalb liegen je 50% der Werte. Es wird
daher auch Median x1/2 oder Zentralwert genannt.
Für den Median können wir Formel (2.13) auch anders angeben, je nachdem, ob n
gerade oder ungerade ist:

mit n = 2k + 1 (ungerade)

x k +1
x1/2 = 1 (2.14)
2 · ( x k + x k +1 ) mit n = 2k (gerade)

Ein weiteres wichtiges Quantil – das 0.25-Quantil – teilt zusammen mit dem 0.75-
Quantil und dem Median eine Häufigkeitsverteilung in 4 gleiche Abschnitte und wird
daher Quartil („Viertelwert“) genannt. Oft wird das 0.25-Quantil auch als unteres Quartil
und das zugehörige (1 − α) = 0.75-Quantil als oberes Quartil bezeichnet12 . Oberhalb
des oberen Quartils (x3/4 ) und unterhalb des unteren Quartils (x1/4 ) liegen je 25 % der
Werte. Man könnte das auch so sagen: „Das untere Quartil ist der Median der unteren
Datenhälfte; das obere Quartil ist der Median der oberen Datenhälfte“.
Werden Quantile in Prozenten angegeben (zum Beispiel das 10%-Quantil, das 10%
der Daten von den übrigen 90% abtrennt), so werden sie auch als Perzentile bezeichnet.
In unseren Anwendungen werden jene Perzentile eine gewisse Rolle spielen, die 5%,
1% bzw. 0.1% der Daten abtrennen.

Mittelwert versus Median

Mittelwert und Median werden beide verwendet, um eine umfangreich Datenmenge


durch einen einzigen Wert möglichst gut zu repräsentieren. Im allgemeinen Sprach-
gebrauch sagen wir auch: wir suchen den Durchschnitt. Mittelwert und Median haben
dabei unterschiedliche Eigenschaften, die sie – je nach Anwendungsfall – geeigneter
erschienen lassen, diese Aufgabe zu erfüllen.
Sie zeigen zum Beispiel unterschiedliches Resistenzverhalten (Widerstandsfähigkeit)
gegenüber Ausreißern. Der Mittelwert ist sehr empfindlich gegenüber Ausreißern. Ein
einzelner Wert kann x̄ bedeutend verändern, wie der Wert 574.173 in der Tab.2.3 zeigt.
Ursprünglich wäre der Mittelwert (aus 25 Beobachtungen) 574.751, nach dem Streichen
des offensichtlichen fehlerhaften Wertes 574.173 ergibt sich (aus nunmehr 24 Beobach-
tungen) für x̄ = 574.775.
Der Median hingegen wird durch einzelne Ausreißer kaum verändert. Ändert sich
ein Datenwert – egal um wie viel – so ändert der Median seinen Wert nur dann, wenn
dieser Datenwert von der einen Hälfte der geordneten Daten in die andere Hälfte wan-
dert. In unserem Beispiel (Tab.2.3) bleibt er mit oder ohne Ausreißer mit 574.775 gleich.
Eine weitere unterschiedliche Eigenschaft von Mittelwert und Median betrifft die Op-

Bsp. 2.4 Mittelwert versus Median


Treten Sie in Gehaltsverhandlungen mit Ihrem Chef und nehmen einen „mittleren
Wert“ aus allen Gehältern innerhalb der Firma als Grundlage, so verwenden Sie den
arithmetischen Mittelwert, weil dann das überproportionale Gehalt Ihres Chefs als
„Ausreißer“ den Mittelwert erhöhen wird.
Ihr Chef wird hingegen versuchen, den Median als Basis heranzuziehen, weil dann
die Höhe seines Gehalts keinen Einfluss hat . . . .

12 Achtung: Die Bezeichnung „oberes“ bzw. „unteres“ Quartil ist in Bezug auf Abb.2.9 etwas irreführend:

„Oben“ und „unten“ bedeutet nämlich nicht, dass die Daten im oberen oder unteren Bereich des Stamm-und-
Blatt-Diagramms liegen, sondern im oberen oder unteren Bereich der der Größe nach geordneten Daten.
30 KAPITEL 2. DATENANALYSE UND DESKRIPTIVE STATISTIK

timalitätseigenschaften. Mittelwert und Median sollen die Datenmenge „optimal“ reprä-


sentieren. Sie erfüllen dabei folgende Eigenschaften:
n
∑ |xi − x1/2 | → min (2.15)
i =1

n
∑ (xi −x̄)2 → min (2.16)
i =1

Der Median ist also jener Wert, der die Summe der betragsmäßigen Abweichungen
minimiert; der Mittelwert minimiert die Summe der quadratischen Abweichungen.
Bei der praktischen Berechnung gibt es auch einen Unterschied zwischen Mittelwert
und Median: Während für den arithmetischen Mittelwert die (ungeordnete) Urliste her-
angezogen werden kann, müssen zur Berechnung des Medians die Daten zuerst in eine
(der Größe nach geordnete) Rangliste gebracht werden.
Bezüglich der Skalierung der Merkmale unterschieden sich Median und Mittelwert
dahingehend, dass das arithmetische Mittel ein numerisches Skalenniveau verlangt,
der Median hingegen für numerische oder ordinal skalierte Merkmale angegeben wer-
den kann. (Es macht somit also Sinn, den Median von Schulnoten anzugeben).

Modalwert
Der Modalwert ist jener Wert, zu dem ein Maximum der absoluten oder relativen Häu-
figkeit (oder der Häufigkeitsdichte) gehört, d.h. jene(r) Wert(e), der/die in der Stichpro-
be am häufigsten vorkommt (vorkommen). Gibt es nur einen einzigen Modalwert, so
spricht man auch von einer unimodalen Verteilung und bezeichnet den Modalwert selbst
als häufigsten Wert. Modalwerte können sowohl auf qualitativen als auch auf quantita-
tiven Skalen angegeben werden.
Die Daten der Tab.2.3 bzw. der Messreihe z sind unimodal mit einem Modalwert von
jeweils 574.775. Messreihe x hingegen hat die beiden Modalwerte 574.774 und 574.775;
Messreihe y gleich vier Modalwerte (574.773, 574.774, 574.776, 574.777).
Man sieht die Anzahl der Modalwerte auch sehr gut in einem Histogramm. Aus
Abb.2.7 ist beispielsweise sofort ersichtlich, dass es sich um eine unimodale Verteilung
handelt, weil es nur einen „Höchstwert“ gibt.
Der Modalwert ist übrigens aus offensichtlichen Gründen – stärker noch als der
Median – resistent gegen Ausreißer.

2.4.2 Streuungskennwerte empirischer Häufigkeitsverteilungen


Lageparameter geben noch kein vollständiges Bild der Daten und ihrer Verteilung wie-
der. So haben zum Beispiel sowohl die Messreihen x, y und z und auch die Gesamtda-
tenreihe (Tab.2.3) alle denselben Mittelwert (auf mm gerundet), die Histogramme und
Häufigkeitssummenkurven hingegen sehen alle anders aus. Offensichtlich gibt es noch
ein anderes wichtiges Unterscheidungsmerkmal von Messreihen. Es sind dies für nu-
merisch skalierte Merkmale die Streuungs-Kennwerte, die die Schwankungen der Daten
charakterisieren.

Spannweiten
Die Spannweite ist die Differenz zwischen dem größten und dem kleinsten Beobach-
tungswert:
∆ = xmax − xmin (2.17)
2.4. KENNWERTE EMPIRISCHER HÄUFIGKEITSVERTEILUNGEN 31

Die Quartilspannweite (auch: Quartilabstand oder Viertelweite) ist Differenz zwischen


dem oberen und unteren Quartil:

∆0.25 = x3/4 − x1/4 (2.18)

Die Quartilspannweite kann dazu verwendet werden, um in einer ersten Näherung


Ausreißer-Grenzen festzulegen:

Au = x1/4 − 1.5 · ∆0.25 (2.19)

Ao = x3/4 + 1.5 · ∆0.25 (2.20)

Datenwerte, die außerhalb des Intervalls [ Au , Ao ] liegen, können als extreme Werte
(Ausreißer) angesehen und eventuell gestrichen werden. Achtung: Dies ist nur ein nä-
herungsweises Vorgehen. Es gibt auch statistisch exakte Ausreißer-Test.

Empirische Varianz und Standardabweichung

Die empirische Varianz (auch: Stichprobenstreuung) charakterisiert die Abweichungen der


Daten von ihrem Mittelwert. Es ist die Summe der quadrierten Abweichungen der Be-
obachtungswerte von ihrem arithmetischen Mittelwert dividiert durch (n − 1); sie wird
daher auch mittlere quadratische Abweichung genannt:

n
1
s2 = ∑ ( x − x̄ )2 (2.21)
n − 1 i =1 i

Die empirische Standardabweichung ist die positive Quadratwurzel aus der Varianz:

s= s2 (2.22)

Der empirische Variationskoeffizient (auch: relative Abweichung) ist die Standardabwei-


chung dividiert durch den Betrag des arithmetischen Mittelwerts; er wird manchmal
auch in Prozent angegeben:
s
vx = · 100% (2.23)
| x̄ |

Hat man zum Beispiel bei einer Streckenbeobachtung von 1 km Länge eine Stan-
dardabweichung von 5 mm, so beträgt die relative Abweichung

s 5
= = 5 · 10−6
| x̄ | 1000000

was auch als 5 mm/km oder als 5 ppm (steht für: parts per million) geschrieben wird. Auf
eine Million Millimeter kommen also 5 mm Abweichung.
Anmerkung: Das Eigenschaftswort „empirisch“ unterscheidet die genannten Größen
von den gleich lautenden theoretischen Größen, die wir im nächsten Kapitel kennen
lernen werden. Auf diese genaue Bezeichnung kann verzichtet werden, wenn aus dem
Zusammenhang klar ist, dass es sich um empirische Größen handelt.
Bevor wir nun noch eine weitere Gruppe von Kennwerten näher ansehen, müssen
wir unsere Beobachtungswerte noch zentrieren und standardisieren:
32 KAPITEL 2. DATENANALYSE UND DESKRIPTIVE STATISTIK

2.4.3 Zentrierter, normierter und standardisierter Beobachtungswert


Der zentrierte Beobachtungswert ist der Beobachtungswert minus des arithmetischen Mit-
telwerts:
xi − x̄ (2.24)
Zentriert man einen gesamten Datensatz, dann ist das arithmetische Mittel der zentrier-
ten Daten gleich Null.
Der normierte Beobachtungswert ist der Beobachtungswert dividiert durch die Stan-
dardabweichung:
xi
(2.25)
s
Normiert man einen gesamten Datensatz, dann ist die Standardabweichung der nor-
mierten Daten gleich Eins.
Der standardisierte Beobachtungswert ist der zentrierte Beobachtungswert dividiert
durch die Standardabweichung, es wird also zuerst zentriert und anschließend nor-
miert:
x − x̄
z= i (2.26)
s
Dieser Wert (manchmal übrigens auch als z-Wert bezeichnet) gibt an, „wie viele Stan-
dardabweichungen“ der Messwert xi vom Mittelwert x̄ entfernt ist. Der z-Wert ist di-
mensionslos. Das Vorzeichen gibt Auskunft darüber, ob der Wert über- oder unter-
durchschnittlich ist. Ein z-Wert von 2 gibt zum Beispiel an, dass der zugehörige Mess-
wert 2 Standardabweichungen oberhalb des Mittelwertes liegt; ein z-Wert von −1.7 be-
deutet, dass der zugehörige Messwert 1.7 Standardabweichungen unterhalb des Mit-
telwertes liegt.
Wir können den z-Wert auch als Kriterium für das Auffinden von Ausreißern ver-
wenden: Ein z-Wert kleiner als −3 oder größer als +3 weist auf einen solchen Ausreißer
hin.

2.4.4 Form-Kennwerte empirischer Häufigkeitsverteilungen


Die nun folgenden Form-Kennwerte sind etwas kompliziert zu berechnen, geben aber
wichtige Eigenschaften der Verteilung bezüglich ihrer Symmetrie und Wölbung an.

Schiefe und Wölbung


Die Schiefe einer Häufigkeitsverteilung ist der arithmetische Mittelwert der dritten Po-
tenz der standardisierten Beobachtungswerte:

n 3
1

xi − x̄
γ1 =
n ∑ s
(2.27)
i =1

Sie beschreibt, inwieweit die Häufigkeitsverteilung von der Symmetrie abweicht:


Eine Schiefe von Null heißt (siehe auch Abb.2.10): es handelt sich um eine symmetrische
Verteilung und der Median und Mittelwert sind gleich groß.
Ein positiver Wert bedeutet, dass die Verteilung „rechtsschief“ ist und der größere
Teil der Merkmalsträger sich am Anfang der Häufigkeitsverteilung konzentriert. Das
arithmetische Mittel ist dann größer als der Median, liegt also rechts von ihm. Ein nega-
tiver Wert bedeutet, dass die Verteilung „linksschief“ ist. Die meisten Daten befinden
sich am Ende der Daten im oberen Bereich der Verteilung und das arithmetische Mittel
ist kleiner als der Median (liegt also links vom Median). Siehe Abb.2.11.
2.4. KENNWERTE EMPIRISCHER HÄUFIGKEITSVERTEILUNGEN 33

Abb. 2.10 Unimodale (linkes Bild) und bimodale (rechtes Bild) symmetrische Verteilung
mit einer Schiefe von jeweils γ1 = 0.

Abb. 2.11 Rechtsschiefe (linkes Bild, γ1 = +0.2) und linksschiefe (rechtes Bild, γ1 =
−0.2) Verteilung.

Der numerische Wert der Schiefe, den man aus Formel (2.27) erhält, hängt sehr von
Ausreißern ab. Daher sollte die endgültige Beurteilung der Schiefe am besten durch
zusätzliche Betrachtung einer grafischen Darstellung, zum Beispiel des Histogramms
oder Stamm-und-Blatt-Diagramms, erfolgen.
Die Kurtosis13 einer Häufigkeitsverteilung ist der arithmetische Mittelwert der vier-
ten Potenz der standardisierten Beobachtungswerte:
n 4
1

xi − x̄
γ2 =
n ∑ s
(2.28)
i =1

Die Kurtosis beschreibt die „Wölbung“ einer Verteilung. Sie zeigt an, in welchem
Maße sich Daten um die Mitte einer Verteilung gruppieren bzw. ob die Verteilung ab-
geflacht oder gewölbt ist. Mathematisch heißt das, die Kurtosis charakterisiert die Ver-
teilung hinsichtlich der Nähe der Wendepunkte zum Maximum der Verteilung.
Die Kurtosis der für uns wichtigsten Verteilung (das ist die Normalverteilung, die
wir im nächsten Kapitel kennen lernen werden) hat den Zahlenwert γ2 = 3. Eine Ver-
teilung mit γ2 = 3 wird auch als normal gewölbt bezeichnet. Je nach dem Grad der Wöl-
bung wird zwischen steil gewölbten (γ2 > 3) und flach gewölbten (γ2 < 3) Verteilungen
unterschieden. Siehe Abb.2.12.
Diese Definition des Kennwertes für die Wölbung stammt von Pearson14 . Eine an-
13 vom griech. κυρτoς (kyrtos) = krumm, gewölbt
14 Karl Pearson, 1857-1936. Er war es auch, der den Begriff Standardabweichung erstmals verwendete
34 KAPITEL 2. DATENANALYSE UND DESKRIPTIVE STATISTIK

Abb. 2.12 Steilgewölbte (linkes Bild, γ2 = 3.1, β 2 > 0) und flachgewölbte (rechtes Bild,
γ2 = 2.0, β 2 < 0) Verteilung.

dere, jene von Fisher15 , vermindert die Kurtosis um den Faktor 3 (also die Kurtosis der
Normalverteilung), und man erhält den so genannten Exzess: Der Exzess einer Häufig-
keitsverteilung ist die um den Zahlenwert 3 verminderte Kurtosis:

n 4
1

xi − x̄
β2 =
n ∑ s
−3 (2.29)
i =1

Dementsprechend ist eine Verteilung normal gewölbt, wenn β 2 = 0 ist, flach gewölbt wenn
β 2 < 0 und steil gewölbt wenn β 2 > 0.

2.5 Statistische Begriffe der Messtechnik


Zusätzlich zu den bisher genannten Begriffen und Methoden der mathematischen Sta-
tistik werden in der physikalischen Messtechnik zur statistischen Beschreibung der
Daten noch weitere Kennwerte verwendet. Es sind dies insbesondere der Begriff des
„wahren Wertes“ und die Unterscheidung und Unterteilung der Abweichungen der
einzelnen Messwerte nach ihrer Ursache („systematische“ und „zufällige“ Abweichun-
gen).

2.5.1 Wahrer Wert und Erwartungswert


Der wahre Wert xw ist ein spezielles Merkmal von Messgrößen16 . Jede Messgröße hat
„im Augenblick ihrer Beobachtung“ einen bestimmten Wert, der sich aber in den meis-
ten Fällen einer Bestimmung entzieht, weil es keine „fehlerfreie“ Messmethode gibt.
Ausnahme: durch mathematische oder geometrische Bedingungen kann ein wahrer
Wert a priori vorgegeben sein, zum Beispiel ist die Winkelsumme in einem geschlos-
senen Polygon immer (n − 2) · 180◦ .
Man kann durch „hochgenaue“ Messungen mit entsprechend hohem Messaufwand
sehr nahe an den (unbekannten) wahren Wert herankommen, d.h. die Abweichung die-
ser hochgenauen Messung vom wahren Wert ist für den jeweils betrachteten Zweck
vernachlässigbar klein. Der Wert wird dann richtiger Wert oder Soll-Wert genannt.
15 RonaldAylmer Fisher, 1890-1962.
16 Nichtalle Merkmale haben einen „wahren Wert“. Der Verkehrswert eines Grundstücks etwa hat zwar
einen Erwartungswert (bzw. einen Schätzwert dafür, nämlich den Mittelwert aus „sehr vielen“ Kaufpreisen),
aber keinen wahren Wert.
2.5. STATISTISCHE BEGRIFFE DER MESSTECHNIK 35

Der Mittelwert aller theoretisch möglichen Messwerte xi ist der Erwartungswert µ.


Auch der Erwartungswert ist – wie der wahre Wert – nur eine theoretische Größe (man
kann ja nicht alle möglichen Messwerte bestimmen). Ein empirischer Schätzwert für
den Erwartungswert ist der arithmetische Mittelwert x̄.

2.5.2 Messabweichungen
Eine Abweichung ist die Differenz zwischen einer beobachteten Messgröße (Ist-Wert)
und einer bestimmten, ihr zugeordneten Bezugsgröße (Soll-Wert). Entspricht dem Soll-
Wert der wahre Wert xw und dem Ist-Wert der beobachtete Messwert xi der Messgröße,
so ist
η = φ IST − φSOLL = xi − xw (2.30)

die wahre Abweichung η. Sie setzt sich aus einem systematischen und einem zufälligen
Anteil zusammen:
η = δ + εi (2.31)

Die Unterscheidung zwischen „systematisch“ und „zufällig“ hängt mit der Ursache
der Messabweichung zusammen: Jeder Messwert und damit jedes Messergebnis für
eine Messgröße wird beeinflusst durch Unvollkommenheit der Messgeräte, des Mess-
verfahrens und des Messobjektes, außerdem durch Umwelt und Beobachter, wobei sich
auch zeitliche Änderungen aller genannten Einflüsse auswirken.
Als Umwelteinflüsse sind örtliche Unterschiede und zeitliche Änderungen beispiels-
weise von Temperatur, Luftdruck, aber auch von äußeren elektrischen oder magneti-
schen Feldern zu be(ob)achten. Der durch den Beobachter verursachte Anteil an der
Abweichung ist abhängig von Aufmerksamkeit, Übung, Sehschärfe, Schätzvermögen
und anderen Eigenschaften und Fähigkeiten.

Grobe Fehler

Ein Messergebnis kann durch Irrtümer der Beobachter, durch Wahl eines ungeeigneten
Messverfahrens oder durch Nichtbeachten bekannter Störeinflüsse verfälscht werden.
Liegt eine dieser Ursachen für eine Abweichung vor, so spricht man von einem Feh-
ler, manchmal auch von einem groben Fehler. Solche Fehler können in der Regel durch
hinreichende Kontrollen aufgedeckt und eliminiert werden.

Systematische Abweichungen

Systematische Abweichungen haben ihre Ursache darin, dass man die Wirklichkeit
durch ein zu einfaches mathematisches oder physikalisches Modell ersetzt. Wenn sie
auftreten, so sind sie meist in allen Beobachtungswerten einer Messreihe enthalten. Sie
werden auch als regelmäßige Abweichungen bezeichnet.
Es gibt systematische Abweichungen, die während der Messung einen konstanten
Betrag und ein bestimmtes Vorzeichen haben (zum Beispiel bei falsche Justierung des
Messgeräts) und solche, die zwar nur in eine bestimmte Richtung wirken, sich aber zeit-
lich verändern (zum Beispiel bei Abnutzung des Messgeräts oder bei einem gerichteten
Temperaturgang während der Messung).
Bekannte systematische Abweichungen – sowohl konstante wie zeitlich veränderli-
che – können durch Korrektion berücksichtigt werden. Man erhält dadurch einen be-
richtigten Messwert. Voraussetzung ist, dass man die systematische Abweichung mathe-
matisch formulieren kann.
36 KAPITEL 2. DATENANALYSE UND DESKRIPTIVE STATISTIK

Unbekannte systematische Abweichungen können auf Grund experimenteller Erfah-


rung nur vermutet werden, Betrag und Vorzeichen aber nicht eindeutig angegeben wer-
den. Eine strenge Unterscheidung zwischen unbekannten systematischen Abweichun-
gen und zufälligen Abweichungen ist dann nicht immer möglich; sie werden daher
häufig wie zufällige Abweichungen behandelt.
Systematische Abweichungen werden übirgens auch im deutschen Sprachgebrauch
oft mit der englischen Bezeichnung bias bezeichnet.

Zufällige Abweichungen

Nicht beherrschbare, nicht einseitig gerichtete Einflüsse führen zu zufälligen Abwei-


chungen der Messwerte. Zu ihrer Modellierung und Abschätzung geht man davon
aus, dass sie den Gesetzen der Wahrscheinlichkeitsrechnung folgen (daher auch: sto-
chastische Abweichungen). Es zeigt sich, dass bei einer großen Anzahl von Messungen
einer physikalischen Größe

1. kleine zufällige Abweichungen häufiger auftreten als große

2. Abweichungen gleichen Betrags annähernd gleich oft mit positivem und negati-
vem Vorzeichen vorkommen

3. die Häufigkeit des Vorkommens einer Abweichung gleich Null ein Maximum ist.

Auf diese Phänomene, die mit der so genannten Normalverteilung zusammenhängen,


werden wir im nächsten Kapitel zurückkommen.
Der Zusammenhang zwischen Messwert, wahrem Wert und Erwartungswert, sowie
systematischen und zufälligen Abweichungen sei noch anhand der folgenden Grafik
veranschaulicht (Abb.2.13):

Abb. 2.13 Zusammenhang zwischen wahrem Wert xw , Erwartungswert µ, systemati-


scher Abweichung δ und zufälligen Abweichungen ε

Es gilt offenbar für einen Messwert xi

εi = xi − µ (2.32)
δ = µ − xw (2.33)
η = xi − x w (2.34)
2.5. STATISTISCHE BEGRIFFE DER MESSTECHNIK 37

2.5.3 Genauigkeit – Präzision – Richtigkeit – Auflösung: Ein babylo-


nisches Sprachengewirr
Die Begriffe „Genauigkeit“, „Präzision“, „Richtigkeit“ und „Auflösung“ werden – auch
im fachlich einschlägigen Sprachgebrauch nicht immer korrekt verwendet. Zur Veran-
schaulichung der Begriffe möge das Beispiel einer Zielscheibe dienen (Abb.2.14).

Abb. 2.14 Präzision und Richtigkeit als Kriterien der Genauigkeit

Genauigkeit ist die qualitative Bezeichnung für das Ausmaß der Annäherung eines
Messergebnisses an den Bezugswert (das kann der wahre Wert, ein Soll-Wert oder der
Erwartungswert sein). Sie setzt sich aus zwei Kriterien zusammen: der Richtigkeit und
der Präzision.
Richtigkeit ist die qualitative Bezeichnung für das Ausmaß der Annäherung des Er-
wartungswertes an den wahren Wert (oder quasi-wahren Wert). Ein entsprechendes
quantitatives Maß für die Richtigkeit ist demnach die systematische Abweichung δ.
Je kleiner die systematischen Abweichungen, desto richtiger ist das Messergebnis. Die
Richtigkeit wird auch als äußere Genauigkeit (auch: Treffergenauigkeit – vgl. Abb.2.14) be-
zeichnet.
Kennt man den wahren Wert nicht (und auch keinen Soll-Wert), so kann man defi-
nitionsgemäß auch nichts über die Richtigkeit der Messungen sagen, sondern nur über
die Präzision.
Präzision ist die qualitative Bezeichnung für das Ausmaß der gegenseitigen Annähe-
rung der Messergebnisse bei mehrfacher Anwendung des Messverfahrens. Ein quanti-
tatives Maß für die Präzision ist demnach die Standardabweichung σ (oder s). Je kleiner
die Standardabweichung, desto präziser17 ist das Messergebnis. Die Präzision wird auch
als innere Genauigkeit (auch: Wiederholgenauigkeit – vgl. Abb.2.14) bezeichnet.
Die Auflösung eines Messgerätes oder Messverfahrens (siehe Abb.2.14) ist schließlich
der kleinste Messwert, den das Messgerät gerade noch vom nächsten, eng beieinander
liegenden Messwert unterscheiden kann.
Abschließend noch ein Hinweis auf die Genauigkeit, mit der wir Ergebnisse unserer
(statistischen) Berechnungen angeben sollten. Es macht nämlich keinen Sinn, den Mit-
telwert oder die Standardabweichung oder andere berechnete Parameter auf ein Dut-
zend Nachkommastellen oder mehr anzugeben. Ohne die numerischen Hintergründe
17 vom lat. praecidere = abschneiden, kurz fassen. Das Wort Präzision hat im Übrigen nur ein s aber zwei i,

wird aber oft falsch geschrieben und mit dem Wort Präzession verwechselt – das ist das Schwanken der Achse
eines rotierenden Körpers (zum Beispiel eines Kreisels) unter dem Einfluss äußerer Kräfte.
38 KAPITEL 2. DATENANALYSE UND DESKRIPTIVE STATISTIK

näher anzuschauen, können wir festhalten, dass üblicherweise (berechnete) Parameter


mit einer oder maximal zwei Nachkommastellen mehr angegeben werden als die Ori-
ginaldaten.

2.6 Englische Begriffe


Abweichung - deviation (unteres/oberes) Quartil - (lower/upper)
Auflösung - resolution quartile
Ausreißer - outlier Quartilspannweite - interquartile range
Häufigkeit - frequency rechtsschief - skewed to the right or positively
Häufigkeitssumme - cumulative frequency skewed
Häufigkeitstabelle - frequency distribution Rangskala - ordinal scale
Histogramm - histogram Richtigkeit - accuracy
Intervallskala - interval scale relative Häufigkeit - relative frequency
Säulendiagramm - bar chart
linksschief - skewed to the left or negatively
Skalierung - scaling
skewed
Spannweite - range
Kreisdiagramm - pie chart
Stamm-und-Blatt-Diagramm - stem-and-
metrische Skala - metrical scale leafe-display
empirischer/arithmetischer Mittelwert - (empirische) Standardabweichung - (sam-
sample/arithmetic mean, auch: average ple) standard deviation
Median - median Streuung (einer Verteilung) - spread (of a
Modalwert - mode distribution)
nichtmetrische Skala - nonmetrical scale Tortendiagramm - pie chart
Nominalskala - nominal scale (empirische) Varianz - (sample) variance
Ordinalskala - ordinal scale Verhältnisskala - proportional scale
Präzision - precision z-Wert - z-score
Kapitel 3

Zufallsgrößen und ihre


Wahrscheinlichkeits-Verteilung

Nachdem wir im letzten Kapitel gesehen haben, wie man ganz praktisch („empirisch“)
vorgeht, wenn man eine Messreihe vorliegen hat, und wie man die Daten tabellarisch,
grafisch oder durch bestimmte Kennwerte darstellen und beschreiben kann, werden
wir nun ein wahrscheinlichkeitstheoretisches statistisches Modell für die Verteilung der
Daten angeben.

3.1 Statistische Modellierung von Messdaten


Das Messen ist ein Vorgang, dessen Ergebnis nicht genau vorhersagbar (determinis-
tisch1 ), sondern zufällig ist. D.h. selbst wenn wir wissen, dass die Länge einer Strecke
100 m beträgt, wird jede Messung dieser Strecke ein mehr oder weniger davon abwei-
chendes Ergebnis ergeben. Dabei sind die Abweichungen aber nicht völlig regellos oder
chaotisch2 , sondern folgen stochastischen3 Gesetzen. Wir werden daher ein stochastisches
Modell erstellen.

3.1.1 Zufällige Versuche und Zufallsereignisse


Das statistische Modell, das für unsere Zwecke geeignet ist, ist der zufällige Versuch
(auch: Zufallsexperiment). Ein zufälliger Versuch ist ein Vorgang, der – zumindest im
Prinzip – beliebig oft wiederholbar ist und dessen Ausgang innerhalb einer Menge
möglicher Ausgänge ungewiss – eben zufällig – ist.
Das Ergebnis eines zufälligen Versuches ist ein Zufallsereignis E. (Nicht zu verwech-
seln mit einer „Realisierung“ – siehe unten). Dabei erhalten wir aus der Grundgesamt-
heit, das ist die Menge aller theoretisch möglichen Ergebnisse, eine Teilmenge – die so
genannte Stichprobe (auch: Zufallsstichprobe).
1 vom lat. determinare = bestimmen, festsetzen; „deterministisch“ heißt also, es gibt einen funktionalen

Zusammenhang zwischen den Eingangsparametern und dem Ergebnis.


2 „chaotisch“ im Sinne von: Ein Versuch, eine Messreihe, eine Zahlenfolge etc. folgt zwar bestimmten Ge-

setzmäßigkeiten, wir können aber nicht erkennen, welchen (weil wir zum Beispiel nicht alle Parameter ken-
nen oder modellieren können) und haben daher den Eindruck von Regellosigkeit. (vom griech. χαoζ [chaos]
= weiter Raum, besonders der „leere, unermessliche Weltenraum“).
3 vom griech. στoχαστικoσ [stochastikos] = „im Vermuten geschickt“. Die Stochastik untersucht die durch

Zufall bedingten Erscheinungen und Größen.

39
40 KAPITEL 3. ZUFALLSGRÖSSEN

Die von uns hier verwendeten Theorien haben übrigens ihren Ursprung im Glückss-
piel. Mathematiker4 untersuchten die „Systematik“ in zufälligen Versuchen und die
Wahrscheinlichkeit für das Auftreten bestimmter Ergebnisse und erteilten zur Aufbes-
serung ihres Lebensunterhalts mitunter auch Ratschläge an Glücksspieler. Die berühm-
testen Vertreter zufälliger Versuche sind demnach auch das „Werfen einer Münze“, das
Würfeln und das „Ziehen (von roten und schwarzen Kugeln) aus einer Urne“. Sie wer-
den sehr oft als anschauliche Denkmodelle für beliebige Zufallsexperimente herange-
zogen.

3.1.2 Zufallsgrößen und ihre Realisierungen


Die (veränderliche) Größe, die man bei einem zufälligen Versuch untersucht und die
verschiedene Werte annimmt, ist die Zufallsgröße X (auch: Zufallsvariable)5 . Beispiel:
Beim Zufallsexperiment „Würfeln mit zwei Würfeln“ kann die Zufallsgröße die Sum-
me der Augenzahlen sein. Es könnte aber auch sein, dass uns der Abstand interessiert,
in dem die beiden Würfeln zueinander liegen kommen. Dann ist der Abstand der Wür-
feln die Zufallsgröße.
Zufallsgrößen, deren Werte durch eine (physikalische) Messung ermittelt werden,
werden als Messgröße bezeichnet. Beispiel: der kürzeste Abstand zwischen zwei Wür-
feln.
Der einzelne Wert, den die Zufallsgröße nach der Beobachtung (nach dem Zufalls-
experiment) annimmt, ist die Realisierung x der Zufallsgröße X. Realisierungen einer
Messgröße heißen Messwerte. Realisierungen von Zufallsgrößen sind selbst nicht mehr
zufällig. Sie haben ja einen bestimmten Wert, zum Beispiel xi = 4 (Augensumme) oder
si = 10.3 cm (Abstand). Jede einzelne Realisierung der Zufallsgröße (in unserem Fall:
jedes neuerliche Würfeln oder Messen des Abstands) hat aber im Allgemeinen einen
anderen Wert.

Diskrete und stetige Zufallsgrößen

Eine Zufallsgröße, die endlich viele oder abzählbar-unendlich viele6 Werte annehmen
kann, ist eine diskrete Zufallsgröße. Eine Zufallsgröße hingegen, die innerhalb eines
(endlichen oder unendlichen) Intervalls unendlich viele beliebige Werte annehmen kann,
ist eine stetige Zufallsgröße7 (auch: kontinuierliche Zufallsgröße).
Wir modellieren physikalische Messgrößen in der Regel als solche stetigen Zufalls-
größen, die jede beliebige reelle Zahl als Wert annehmen können. Diese Annahme gilt
trotz des Wissens, dass die beim Messen verwendeten elektronischen Messgeräte selbst
– wie jede andere digitale Maschine auch – nur endlich viele Messergebnisse ange-
ben können. Andere Daten, mit denen wir zu tun haben werden und die nicht durch
4 Im 17. Jhdt. wurde Blaise Pascal (frz. Mathematiker, 1623-1662) vom frz. Schriftsteller (und Berufsspieler)

Antoine Gombaud Chevalier de Méré (1607-1684) mit der Frage betraut, wie der Einsatz bei einem bestimmten
Würfelspiel fairerweise aufzuteilen ist, wenn das Spiel vorzeitig abgebrochen werden muss. Es ging also um
die Frage nach er Wahrscheinlichkeit, mit der jeder Teilnehmer das Spiel gewinnen würde, wenn es fortge-
setzt werden würde. Pascal beriet sich daraufhin in mehreren Briefwechseln mit seinem Kollegen Pierre de
Fermat (frz. Mathematiker und Jurist, 1607-1665).
5 Exakt lautet die Definition: „Eine Zufallsgröße ist eine Abbildung eines Wahrscheinlichkeitsraumes nach R,

d.h. eine Funktion, die jedem möglichen Elementarereignis eine reelle Zahl und gleichzeitig eine zugehörige
Wahrscheinlichkeit zuordnet“. Für unsere Anwendungen genügt die Definition von oben.
6 abzählbar-unendlich heißt, dass die Menge der möglichen Werte zwar theoretisch abzählbar wäre, die Men-

ge aber unendlich ist und daher niemand die Zeit und Geduld aufbringt, sie tatsächlich abzuzählen. Beispiel:
die Folge der natürlichen Zahlen.
7 Die Verwendung der Bezeichnung „stetig“ bezieht sich auf die Verteilungsfunktion (siehe später). Stetige

Zufallsgrößen haben eine stetige Verteilungsfunktion


3.1. STATISTISCHE MODELLIERUNG VON MESSDATEN 41

physikalische Messung sondern zum Beispiel durch Klassifizieren und Abzählen ent-
stehen, sind diskrete Zufallsgrößen. Bevor wir weitergehen, sehen wir uns noch einmal

Bsp. 3.1 Diskrete und stetige Zufallsgrößen


Wenden wir uns wieder dem Beispiel „Würfeln“ zu. Wir können unterscheiden:
Die Zufallsgröße „Summe der Augenzahlen“ kann nur endlich viele Werte anneh-
men. Zum Beispiel bei zwei Würfeln 2,3,4,5,6,7,8,9,10,11 oder 12. Die Zufallsgröße
„Summe der Augenzahlen“ ist daher diskret.
Spielt man Mensch-Ärgere-dich-nicht und würfelt solange, bis man einen Sechser ge-
würfelt hat, so können das unendlich viele Versuche sein. (Zumindest theoretisch. In
der Praxis wird unser Gegner entweder irgendwann Gnade vor Recht ergehen lassen
und uns auch ohne 6er ansetzen lassen, oder aber sein Spiel längst fertig haben...).
Trotzdem sind es abzählbar unendlich viele Versuche: die Zufallsgröße „Anzahl der
Würfe bis zu einem 6er“ lässt sich nur mit einer Integerzahl angeben; sie ist daher
ebenfalls diskret.
Die Zufallsgröße „Abstand zwischen den beiden Würfeln“ hingegen kann unendlich
viele Werte aus der Menge aller Rationalzahlen annehmen. (Dass wir dabei endliche
Grenzen haben, widerspricht dem nicht. Die untere Grenze entspricht im Allgemei-
nen einem Abstand der beiden Würfelmittelpunkte von genau einer Würfelbreite,
d.h. die Würfeln berühren einander; obere Grenze entspricht der Tischdiagonale, weil
wenn der Abstand größer wird, fliegt mindestens ein Würfel aus dem Experiment
raus). Die Menge der möglichen Ausgänge ist unendlich, weil wir mit immer genaue-
ren Messverfahren auch immer genauere Ergebnisse erzielen könnten und sich das
theoretisch unendlich oft fortsetzen lässt. Die Länge des Abstands ist also eine stetige
Zufallsgröße.

eine Tabelle mit Messdaten an und geben neben der absoluten und relativen Häufig-
keit auch noch die relative Häufigkeitssumme und Angaben über die Abweichungen
vom Erwartungswert an (Tab.3.1). Die Häufigkeiten (k und h) bzw. die relative Häu-
figkeitssumme (H) bezieht sich dabei sowohl auf die Abweichungen als auch auf die
eigentlichen Messwerte.

i si [m] ε i [mm] k h H
1 574,770 -5 1 0,0417 0,0417
2 574,771 -4 0 0 0,0417
3 574,772 -3 2 0,0833 0,1250
4 574,773 -2 3 0,1250 0,2500
5 574,774 -1 4 0,1667 0,4167
6 574,775 0 6 0,2500 0,6667
7 574,776 1 4 0,1667 0,8333
8 574,777 2 3 0,1250 0,9583
9 574,778 3 0 0 0,9583
10 574,779 4 1 0,0417 1
Summe 0 24 1

Tabelle 3.1: Messwerte zu einer Streckenbeobachtung mit µ = 574.775 m, ihre Abweichungen ε i


und Häufigkeiten k, h und H.
42 KAPITEL 3. ZUFALLSGRÖSSEN

3.2 Wahrscheinlichkeitstheorie
Im letzten Kapitel haben wir die relative Häufigkeit definiert (Absolute Häufigkeit di-
vidiert durch die Gesamtzahl der Beobachtungswerte). Sehen wir uns den Quotienten
nun näher an: Wir können uns vorstellen, dass n theoretisch gegen ∞ wächst und den
Grenzwert
k
lim
n→∞ n

angeben. Diese Größe nennen wir P( E).


P( E) ist die Wahrscheinlichkeit8 für das Eintreten des Zufallsereignisses E.
Die Wahrscheinlichkeit ist eine Maßzahl für die Charakterisierung der Häufigkeit
des Auftretens eines bestimmten Zufallsereignisses. Sie ist in unserem Modell das theo-
retische Gegenstück zur relativen Häufigkeit. Wir können auch sagen: „Dem Gesetz
der großen Zahlen folgend konvergiert die relative Häufigkeit gegen die Wahrschein-
lichkeit“. Diese Definition der Wahrscheinlichkeit stammt von Mises9 . Das „Gesetz der
großen Zahlen“ selbst besagt, dass die unbekannte Wahrscheinlichkeit P( E) umso bes-
ser geschätzt werden kann, je mehr unabhängige Ausführungen des Zufallsexperimen-
tes durchgeführt werden.
Für die Häufigkeit k gilt:

k
0 ≤ k ≤ n −→ 0 ≤ ≤1 (3.1)
n
und daher auch für den Grenzwert für n → ∞:

0 ≤ P( E) ≤ 1 (3.2)

d.h. die Wahrscheinlichkeit ist eine reelle Zahl größer gleich Null und kleiner gleich
Eins, wobei ein Ereignis, dem die Wahrscheinlichkeit 1 zugeordnet ist, ein sicheres Er-
eignis ist, jenes mit der Wahrscheinlichkeit 0 ein unmögliches Ereignis. Oft wird P( E)
auch in Prozent angegeben.
Für das Rechnen mit Wahrscheinlichkeiten benötigen wir drei einfache Regeln:

P(not E) = 1 − P( E) (3.3)
P( E1 or E2 or . . . Em )= P( E1 ) + P( E2 ) + . . . + P( Em ) (3.4)
P( E1 and E2 and . . . Em ) = P( E1 ) · P( E2 ) · . . . · P( Em ) (3.5)

Diese Regeln gelten für unabhängige Ereignisse und zunächst wollen wir von sol-
chen unabhängigen Ereignissen ausgehen. Das bedeutet, dass die Wahrscheinlichkeit
für das Eintreffen von E1 unabhängig davon ist, ob E2 eingetroffen ist oder nicht und
umgekehrt.
Es gibt übrigens noch eine andere Definition von „Wahrscheinlichkeit“: Die klassi-
sche, elementare Definition stammt von Laplace10 und ist das „Verhältnis zwischen den
günstigen und den möglichen Fällen des Eintretens eines bestimmten Ereignisses“:

Zahl der günstigen Fälle


P( E) = (3.6)
Zahl der möglichen Fälle

Wenn wir zum Beispiel beim Würfeln mit zwei Würfeln die Wahrscheinlichkeit des
Ereignisses „Summe der Augenzahlen ist gerade“ angeben möchten, so ist die Zahl der
8 Das
P kommt vom lat. probabilitas = Wahrscheinlichkeit.
9 Richard
von Mises, österr.-amerik. Mathematiker und Philosoph, 1883-1953
10 Pierre-Simon Marquis de Laplace, frz. Mathematiker, Astronom und Physiker, 1749-1827
3.3. VERTEILUNGEN VON ZUFALLSGRÖSSEN 43

möglichen Fälle 36. Die Summe zweier Zahlen ist gerade, wenn beide Zahlen gerade
oder wenn beide Zahlen ungerade sind. Da jeder Würfel 3 gerade und 3 ungerade Au-
genzahlen hat, gibt es 9 Versuchsausgänge der Form [gerade - gerade] und 9 Versuchs-
ausgänge der Form [ungerade - ungerade]. Insgesamt gibt es also 18 günstige Fälle und
die Wahrscheinlichkeit für das Eintreffen des Ereignisses „Summe der Augenzahlen ist
gerade“ beträgt genau 50%.
Definition (3.6) beschreibt das einfachste Modell für Wahrscheinlichkeiten, die so
genannte a priori-Wahrscheinlichkeit. A priori bedeutet, dass wir bereits von vornherein
– ohne ein Zufallsexperiment durchzuführen – die Wahrscheinlichkeit angeben können.
Beim Würfeln zum Beispiel ist jede Augenzahl gleichwahrscheinlich. Die Wahrschein-
lichkeit, einen 6er zu würfeln kann daher a priori mit 1/6 angegeben werden. Messen ist
aber – zumindest aus der Sicht der Statistik – ein komplizierterer Vorgang als Würfeln;
für unsere Anwendungen ist daher die Laplace’sche Wahrscheinlichkeit nur bedingt
anwendbar. Was sind „günstige Fälle“ beim Messen? Und: Wenn wir davon ausgehen,
dass Messgrößen stetige Zufallsgrößen sind, gibt es unendlich viele „mögliche Fälle“.
Die Division durch ∞ aber ergibt bekanntlich Null. D.h. die Wahrscheinlichkeit, dass
wir einen bestimmten konkreten Wert erhalten, ist gleich Null! Desweiteren ist die Vor-
aussetzung, dass alle möglichen Fälle gleich wahrscheinlich sind, im Allgemeinen nicht
gegeben. Das ist aber eine Voraussetzung für die Anwendbarkeit der Definition (3.6).
Wir brauchen also umfassendere Modelle. Wir führen zunächst einmal mehrere Zu-
fallsexperimente durch und können dann im Nachhinein eine a posteriori-Wahrscheinlichkeit
angeben.
Wie bekommt man nun einen konkreten Zahlenwert p für P( E)?

• Man führt n = ∞ viele Versuche durch (was sehr zeitaufwändig ist und daher aus
praktischen Gründen ausscheidet).

• Man ermittelt aus n Realisierungen einen empirischen Schätzwert für p, nämlich

p̂n = h (3.7)

Für das Ereignis X = 574.775 m (Tab.3.1) lautet der Schätzwert zum Beispiel

p̂24 = 25%

• Man hat ein theoretisches Modell, das man anwenden kann

Dieses theoretische Modell wollen wir uns nun im Folgenden ansehen:

3.3 Verteilungen von Zufallsgrößen


3.3.1 Wahrscheinlichkeitsverteilungen
Angaben über die Wahrscheinlichkeit, mit der eine Zufallsgröße bestimmte Werte an-
nimmt, nennt man auch die Verteilung der Zufallsgröße. Eine wichtige Frage ist zum
Beispiel die Wahrscheinlichkeit, dass die Zufallsgröße X kleiner oder gleich einer vor-
gegebenen Zahl x ist oder zwischen zwei vorgegebenen Werten a und b liegt. Diese
Fragen können mit Hilfe der Verteilungsfunktion beantwortet werden. Der Funktions-
wert der Verteilungsfunktion F ( x ) an der Stelle x gibt die Wahrscheinlichkeit an, dass
X kleiner oder gleich x ist.
44 KAPITEL 3. ZUFALLSGRÖSSEN

Verteilungs- und Wahrscheinlichkeitsfunktion diskreter Zufallsgrößen

Im diskreten Fall kann die Verteilungsfunktion aus der Summe der Einzelwahrschein-
lichkeiten für alle xi < x gewonnen werden:

F ( x ) = P( X ≤ x ) = ∑ P ( X = xi ) = ∑ f ( xi ) (3.8)
i:xi ≤ x i:xi ≤ x

wobei f ( xi ) als Wahrscheinlichkeitsfunktion bezeichnet wird. Diese gibt die Wahrschein-


lichkeit dafür an, dass die Zufallsgröße genau den Wert xi annimmt:

für

pi x = xi
f ( x ) = P( X = x ) = (3.9)
0 sonst

Verteilungs- und Dichtefunktion stetiger Zufallsgrößen

Im stetigen Fall müssen wir die Summe durch ein Integral ersetzen und die Verteilungs-
funktion ist gegeben durch:

Zx
F ( x ) = P( X ≤ x ) = f (t)dt (3.10)
−∞

Die Verteilungsfunktion F ( x ) gibt die Wahrscheinlichkeit an, dass die Zufallsva-


riable X einen Wert kleiner oder gleich x annimmt. F ( x ) hat die beiden Grenzwerte
F (−∞) = 0 und F (∞) = 1 und ist im Allgemeinen für alle reellen Zahlen x definiert.
Manchmal wird F ( x ) auch als kumulierte Wahrscheinlichkeitsverteilung bezeichnet.
Die in Formel 3.10 auftretenden Funktion f (t) ist die Dichtefunktion der Verteilung
(auch: Wahrscheinlichkeitsdichte bzw. nur Dichte). Sie ist die erste Ableitung der Vertei-
lungsfunktion und gibt den Verlauf der Wahrscheinlichkeiten der stetigen Zufallsgröße
an.
Die Dichtefunktion können wir auch vergleichen mit der uns aus dem 2. Kapitel
bekannten emprischen Häufigkeitsverteilung. Abb.3.1 zeigt ein Beispiel für eine empi-
rische Häufigkeitsverteilung einer Stichprobe und die zugehörige theoretische Dichte-
funktion. Eine anderes Beispiel für die Dichtefunktion einer stetigen Zufallsgröße ist in
Abb.3.2 dargestellt.
Bekanntlich gibt das Integral die Fläche unter der integrierten Funktion an, und da-
mit werden hoffentlich auch die nachfolgenden Zusammenhänge klarer: Der Flächen-
inhalt unter der Dichtefunktionskurve ist die zugehörige Wahrscheinlichkeit. Der Flä-
cheninhalt unter der gesamten Kurve (von −∞ bis +∞) beträgt daher 1 (Mit 100%iger
Wahrscheinlichkeit nimmt die Zufallsgröße irgendeinen Wert zwischen −∞ bis +∞ an).
Wie aus Abb.3.2 ersichtlich, gelten folgende wichtige Zusammenhänge:

Za
P( X ≤ a) = F ( a) = f ( x )dx (3.11)
−∞
+∞
Z
P( X > b) = 1 − F (b) = f ( x )dx (3.12)
b
Zb
P( a < X ≤ b) = F (b) − F ( a) = f ( x )dx (3.13)
a
3.3. VERTEILUNGEN VON ZUFALLSGRÖSSEN 45

Abb. 3.1 Häufigkeitsverteilung der Stichprobe einer Zufallsgröße und zugehörige Dich-
tefunktion dieser Zufallsgröße

Aus Abb.3.2 sieht man auch, dass bei stetigen Zufallsgrößen die Wahrscheinlichkei-
ten immer nur Intervallen zugeordnet sein können. Wir können also die Wahrschein-
lichkeit angeben, dass X eine Realisation zwischen den Werten a und b annimmt. Wie
wir schon auf Seite 43 festgestellt haben, ist P( X = a) immer gleich Null (vgl. die „Flä-
che“ in Abb.3.2 an genau einer Stelle – sie ist nur ein „dimensionsloser Strich“). Es spielt
daher auch keine Rolle, ob ein „<“ oder ein „≤“ bzw. „>“ oder „≥“ geschrieben wird.
Aus formalen Gründen (Konsistenz zwischen Formeln für den diskreten und stetigen
Fall) werden wir aber immer den rechten Rand eines Intervalls mit einschließen, den
linken hingegen nicht (also X ≤ a, a < X ≤ b und X > b schreiben).
An Stelle von P( X = x ) können wir für stetige Zufallsgrößen die differenzielle
Wahrscheinlichkeit dP für das infinitesimale differenzielle Intervall der Breite dx an-
geben:
dP = f ( x )dx (3.14)

3.3.2 Parameter von Wahrscheinlichkeitsverteilungen


Zur Charakterisierung der Zufallsgröße und ihrer Verteilung dienen bestimmte Para-
meter, von denen in der Praxis meist schon wenige ausreichen, um die jeweilige Vertei-
lung zu beschreiben. Wie im empirischen Fall (Kap.2) sind dabei der Erwartungswert
und die Varianz die wichtigsten. Zur Unterscheidung zwischen empirischen und theo-
retischen Größen werden wir hier übrigens griechische Buchstaben für die Parameter
verwenden.

Lageparameter

Erwartungswert, Median und α-Quantile dienen als Lageparameter einer Verteilung:


Der Erwartungswert E( X ) einer Zufallsgröße ist im diskreten Fall definiert durch:
n
E( X ) = µ = ∑ xi f ( xi ) (3.15)
i =1
46 KAPITEL 3. ZUFALLSGRÖSSEN

Abb. 3.2 Dichtefunktion einer stetigen Zufallsgröße und Zusammenhang zur Vertei-
lungsfunktion bzw. Wahrscheinlichkeitsverteilung

und im stetigen Fall durch:


Z∞
E( X ) = µ = x · f ( x )dx (3.16)
−∞

Als α-Quantil bezeichnet man den Wert xα der Zufallsgröße X, für den gilt:

F ( xα ) = P( X ≤ xα ) = α (3.17)
wobei das 0.5-Quantil wie im empirischen Fall als Median bezeichnet wird. Von größerer
praktischer Bedeutung sind aber, wie wir später sehen werden, die Quantile mit Werten
für α zwischen 0.001 und 0.05. Das 0.05-Quantil gibt zum Beispiel jenen Wert an, der mit
einer Wahrscheinlichkeit von 5% maximal erreicht wird.

Streuungsparameter
Die Varianz Var ( X ) einer Zufallsgröße ist der Erwartungswert des Quadrates der Ab-
weichung vom Erwartungswert µ und somit für den diskreten Fall definiert als

Var ( X ) = E[ X − E( X )]2 = σ2 = ∑ ( x i − µ )2 f ( x i ) (3.18)


i

und im stetigen Fall:


Z∞
Var ( X ) = E[ X − E( X )]2 = σ2 = ( x − µ)2 · f ( x )dx (3.19)
−∞

Die positive Quadratwurzel aus der Varianz ist die Standardabweichung σ der Zufalls-
größe.
3.3. VERTEILUNGEN VON ZUFALLSGRÖSSEN 47

Momente einer Verteilung


Ist X eine Zufallsgröße, so ist auch X k eine Zufallsgröße. Der Erwartungswert

mk = E( X k ) (3.20)

heißt k-tes Moment von X. Der „normale“ Erwartungswert E( X ) ist demnach das erste
Moment von X.
Zentrieren wir die Zufallsgröße auf ihren Erwartungswert, d.h. bilden wir die neue
Zufallsgröße ( X − E( X )), so heißt der Erwartungswert

µk = E(( X − E( X ))k ) (3.21)

das k-te zentrale Moment von X. Offenbar ist µ1 = 0 und µ2 = E(( X − E( X ))2 ). Das
zweite zentrale Moment von X ist demnach die Varianz.

Schiefe, Wölbung und Exzess


Wir können die Formparameter von Wahrscheinlichkeitsverteilungen mit Hilfe der zen-
tralen Momente definieren:
Die Schiefe γ1 der Wahrscheinlichkeitsverteilung einer Zufallsgröße ist definiert als
folgender Quotient:
µ3
γ1 = q (3.22)
µ32

Das Schiefheitsmaß wurde von Charlier11 eingeführt. Es dient zur Charakterisierung


der Asymmetrie einer Verteilung. Eine Verteilung mit einer positiven Schiefe steigt zu-
nächst links steil zum Maximum an, fällt dann wieder ab und setzt sich nach rechts
relativ lange fort (der Teil rechts vom Maximum ist „länger“ als der linke Teil vor dem
Maximum); sie wird auch als rechtsschiefe Verteilung bezeichnet. Der Erwartungswert ist
bei einer rechtsschiefen Verteilung größer als der Median (er liegt auf der Zahlengera-
den „rechts“ vom Median); der Median selbst liegt rechts vom Maximum der Dichte-
funktion.
Bei einer negativen Schiefe ist es genau umgekehrt: Hier ist der „längere“ Teil links
vom Maximum, daher auch die Bezeichnung linksschiefe Verteilung. Die Reihenfolge ist:
Erwartungswert - Median - Maximum.
Eine symmetrische Verteilung hat eine Schiefe gleich Null; Erwartungswert und Me-
dian fallen zusammen und liegen im Maximum der Dichtefunktion.
Die Wölbung (Kurtosis) β 2 der Wahrscheinlichkeitsverteilung einer Zufallsgröße ist
definiert durch
µ
β 2 = 24 (3.23)
µ2
wobei µ2 das zweite und µ4 das vierte zentrale Moment der Zufallsgröße sind. Eine
Wölbung kleiner als 3 deutet auf eine „breitgipflige“ Wahrscheinlichkeitsverteilung hin;
eine Wölbung größer als 3 auf einen ‘schmalgipflig“; eine Wölbung von genau 3 ist
„normal“ (im Sinne von: Sie entspricht der Normalverteilung – siehe unten).
Der Exzess γ2 einer Zufallsgröße ist die Wölbung vermindert um die Wölbung der
Normalverteilung, also
µ
γ2 = 24 − 3 = β 2 − 3 (3.24)
µ2
11 Carl Vilhelm Ludvig Charlier, schwedischer Astronom, 1862-1932
48 KAPITEL 3. ZUFALLSGRÖSSEN

wobei µ2 das zweite und µ4 das vierte zentrale Moment der Zufallsgröße sind. Der
Exzess für die Normalverteilung ist gleich Null. Der Exzess jeder anderen Wahrschein-
lichkeitsverteilung ist ein Maß für die Abweichung dieser Verteilung gegenüber einer
Normalverteilung mit gleichem Erwartungswert und gleicher Varianz.

3.4 Wichtige Wahrscheinlichkeitsverteilungen


Auf einige Wahrscheinlichkeitsverteilungen, die in unseren Anwendungen vorrangig
vorkommen, gehen wir im Folgenden näher ein. Die wichtigste unter ihnen ist die
Normalverteilung; daneben werden wir aber in der Schätz- und Prüfstatistik („induk-
tive Statistik“) auch die Chi-Quadrat-Verteilung (χ2 -Verteilung), die Student-Verteilung
(t-Verteilung) sowie die Fisher-Verteilung (F-Verteilung) benötigen. Eine gewisse Rolle
(zum Beispiel beim Auf- und Abrunden von Zahlen) spielt aber auch die Gleichvertei-
lung.

3.4.1 Gleichverteilung
Eine sehr einfache Verteilung, die eine Zufallsgröße haben kann, ist die Gleichverteilung.
Sie ordnet allen innerhalb des Intervalls [ a, b] möglichen Werten einer Zufallsgröße die
gleiche Wahrscheinlichkeit zu.
Im stetigen Fall hat die Gleichverteilung die Dichtefunktion

1
für a ≤ x ≤ b

f (x) = b− a (3.25)
0 sonst

Der Graph der Dichtefunktion hat ein rechteckiges Aussehen (s. Abb.3.3); sie wird
daher auch als Rechtecks-Verteilung bezeichnet.

Abb. 3.3 Dichtefunktion und Verteilungsfunktion der stetigen Gleichverteilung in den


Grenzen −0.5 ≤ x ≤ 0.5.

Durch Einsetzen von (3.25) in (3.16) erhält man für die stetige Gleichverteilung den
Erwartungswert
Zb
1 a+b
E( X ) = x· dx = (3.26)
b−a 2
a

Zentrale Momente der stetigen Gleichverteilung:


(  k
1 b− a
k
E(( X − E( X )) ) = k +1 2 für gerade k (3.27)
0 für ungerade k
3.4. WICHTIGE WAHRSCHEINLICHKEITSVERTEILUNGEN 49

und somit
( b − a )2
Var ( X ) = µ2 = (3.28)
12
µ3 = 0 (3.29)
1
µ4 = ( b − a )4 (3.30)
80

Damit ist die Schiefe γ1 = 0 und der Exzess γ2 = − 56 . Die Gleichverteilung ist also
symmetrisch, aber gegenüber der Normalverteilung „breiter gewölbt“. Da die Vertei-
lung symmetrisch ist, fallen Erwartungswert und Median zusammen.
Für die Verteilungsfunktion der Gleichverteilung gilt:
x−a
F(x) = (3.31)
b−a

3.4.2 Normalverteilung
Die für uns wichtigste Verteilung ist die so genannte Normalverteilung, auch Gaußsche
Verteilung genannt12 . Sie war zwar bereits vor Gauß bekannt, er hat allerdings im Zu-
sammenhang mit seiner Arbeit über Beobachtungsfehler bei physikalischen Messun-
gen wichtige theoretische Grundlagen dazu beigetragen und die Kurve so „populär“
gemacht, dass sie heute zu seinen Ehren benannt ist.
Die Dichtefunktion der Normalverteilung ist gegeben durch

1 ( x − µ )2

f (x) = √ · e 2σ2 (3.32)
σ 2π

für −∞ < x < +∞


mit µ . . . Erwartungswert
σ . . . Standardabweichung
e . . . Euler’sche Zahl (2.718...)
π . . . Kreiskonstante (3.14159...)
Die Normalverteilung ist über die beiden Parameter µ und σ2 definiert und wird da-
her oft auch abgekürzt mit N (µ, σ2 ). Die Schiefe der Normalverteilung ist gleich Null,
d.h. sie ist symmetrisch. Der Exzess der Normalverteilung ist ebenfalls gleich Null.
Grafisch hat die Dichtefunktion der Normalverteilung die Form einer „Glocke“ und
wird daher auch Glockenkurve (auch: Gaußsche Glockenkurve) genannt (Abb.3.4).
Aus der Abbildung ist ersichtlich, dass µ das Zentrum der Kurve bestimmt, σ ihre
„Schlankheit“ (Breite). Der Scheitel der Dichtefunktion – das Maximum – liegt bei x = µ
und hat dort den Funktionswert √1 . Die Wendepunkte liegen im Abstand ± σ von µ.
σ 2π
Die Fläche unter den einzelnen Kurven der Abb.3.4 ist jeweils gleich groß.
Weiters ist erkennbar, dass die Normalverteilung eine um den Erwartungswert µ
symmetrische Verteilung ist, d.h. betragsmäßig gleich große positive oder negative Ab-
weichungen vom Erwartungswert sind gleich wahrscheinlich. Daher ist der Erwar-
tungswert auch gleichzeitig der Median der Verteilung. Außerdem ist die Wahrschein-
lichkeit für eine Abweichung vom Erwartungswert umso geringer, je größer diese Ab-
weichung ist. Große Abweichungen sind also weniger wahrscheinlich als kleine. Für
x → +∞ und x → −∞ geht die Dichtefunktion gegen Null. Der Graph der Glocken-
kurve nähert sich dort asymptotisch der Abszisse. Der Erwartungswert ist gleichzeitig
der Modalwert der Normalverteilung: sie ist eine unimodale Verteilung.
12 Johann Friedrich Carl Gauß, deutscher Mathematiker und Geodät, 1777-1855
50 KAPITEL 3. ZUFALLSGRÖSSEN

Abb. 3.4 Gaußsche Glockenkurven: Verschiedene Dichtefunktionen zur Normalvertei-


lung mit unterschiedlichen Erwartungswerten und Varianzen. Der Scheitel der jeweili-
gen Kurven liegt bei x = µ, ihre Wendepunkte im Abstand ± σ vom Scheitelwert. Die
Kurve ist umso höher und steiler, je kleiner σ ist.

Quelle: Wikimedia Commons. Printed under the terms of the GNU Free Documentation License

Die Verteilungsfunktion der Normalverteilung erhält man durch Integration der


Dichtefunktion, also:
Zx ( t − µ )2
1 −
F(x) = √ e 2σ2 dt (3.33)
σ 2π
−∞

Die Berechnung dieses Integrals ist nicht ganz einfach; ihre Werte werden daher oft
aus entsprechenden Tabellen der so genannten Standard-Normalverteilung entnommen.
Dazu müssen wir unsere ursprüngliche Zufallsgröße in eine standard-normalverteilte
Zufallsgröße transformieren.

Standardisierte Zufallsgröße

Eine standardisierte Zufallsgröße Z entsteht aus einer Zufallsgröße X durch die lineare
Transformation
X−µ
Z= (3.34)
σ

Diese Transformation hat zur Folge, dass Z einen Erwartungswert von 0 und die
Standardabweichung 1 hat (Wir erinnern uns an die Standardisierung von empirischen
Beobachtungswerten gemäß (2.26). Durch die Standardisierung werden Zufallsgrößen
auf einen einheitlichen „Maßstab“ gebracht. Das Ergebnis sind dimensionslose Varia-
ble, die nur noch relative Lagen wiedergeben.
Abb.3.11 zeigt den Vorgang des Standardisierens der Normalverteilung.
3.4. WICHTIGE WAHRSCHEINLICHKEITSVERTEILUNGEN 51

Standard-Normalverteilung

Die Standard-Normalverteilung („standardisierte Normalverteilung“) ist jene, die für


eine normalverteilte Zufallsgröße mit

µ = 0 (3.35)
2
σ = 1 (3.36)

gilt. Entsprechend wird sie auch mit N (0, 1) bezeichnet.


Die zugehörigen Dichtefunktion und Verteilungsfunktion lauten:

1 z2
ϕ(z) = √ · e− 2 (3.37)

Zz
1 t2
Φ(z) = √ e− 2 · dt (3.38)

−∞

Abb.3.5 zeigt die Dichtefunktion, Abb.3.6 die Verteilungsfunktion zur Standard-Normalverteilung.

Abb. 3.5 Die Gauß’sche Glockenkurve: Dichtefunktion der standardisierten Normal-


verteilung

Für die Verteilungsfunktion (und auch für die Wahrscheinlichkeitsdichte) liegen


Funktionswerte als Tabelle vor. Sie sind meist auch innerhalb heutiger Standard-Software
approximierbar (zum Beispiel in MS Excel, aber auch in vielen Taschenrechnern).
Es gelten folgende wichtige Beziehungen:

Φ(− x ) = 1 − Φ( x ) (3.39)
 
a−µ
P( X ≤ a) = Φ (3.40)
σ
   
b−µ a−µ
P( a < X ≤ b) = Φ −Φ (3.41)
σ σ
 
b−µ
P( X > b) = 1 − Φ (3.42)
σ
52 KAPITEL 3. ZUFALLSGRÖSSEN

Abb. 3.6 Verteilungsfunktion der standardisierten Normalverteilung

Formel (3.39) ist vor allem dann wichtig, wenn wir die Werte der Verteilungsfunkti-
on aus einer Tabelle übernehmen in der – und das ist die Regel – nur positive Werte
berücksichtigt sind.
Für eine normalverteilte Zufallsgröße gilt:

• ca. 68% aller Realisierungen liegen im Intervall µ ± 1 · σ


• ca. 95% aller Realisierungen liegen im Intervall µ ± 2 · σ
• ca. 99% aller Realisierungen liegen im Intervall µ ± 3 · σ

oder anders ausgedrückt:

P(µ − 1 · σ < X ≤ µ + 1 · σ) ≈ 68% (3.43)


P(µ − 2 · σ < X ≤ µ + 2 · σ) ≈ 95% (3.44)
P(µ − 3 · σ < X ≤ µ + 3 · σ ) ≈ 99% (3.45)

3.4.3 Chi-Quadrat Verteilung


Die Zufallsgröße Y, die aus den m unabhängigen standard-normalverteilten Zufalls-
größen Xi durch die Transformation
m
Y= ∑ Xi2 (3.46)
i =1

entsteht, ist χ2 -verteilt. Den Parameter m ∈ N + – die Anzahl der Summanden in (3.46)
– nennen wir auch die Anzahl der Freiheitsgrade der Verteilung. Entsprechend wird die
Verteilung auch mit χ2 (m) abgekürzt.
Die χ2 -Verteilung wurde 1876 von Helmert13 eingeführt und von Pearson14 um 1900
weiterentwickelt. Sie wird daher auch als Helmert-Pearson-Verteilung bezeichnet. Ihre
Dichtefunktion ist für die Freiheitsgrade m = 2, 4 und 6 in Abb.3.7 dargestellt. Sie ist
über dem Intervall [0, +∞] definiert und im Allgemeinen nicht symmetrisch. Sie wird
13 Friedrich Robert Helmert, deutscher Geodät, 1841-1917
14 Karl Pearson, englischer Mathematiker und Mitbegründer der modernen Statistik, 1857-1936
3.4. WICHTIGE WAHRSCHEINLICHKEITSVERTEILUNGEN 53

aber umso symmetrischer, je größer die Anzahl der Freiheitsgrade ist (siehe Formel
(3.49) sowie Abb.3.7 und 3.8). Für m = 1 und 2 fallen die Kurven der Dichtefunktion
monoton; für m > 2 verlaufen sie unimodal und rechtsschief und haben ein Maximum
bei x = m − 2.

Abb. 3.7 Dichtefunktion der Chi-Quadratverteilung mit 2, 4 und 6 Freiheitsgraden


Chi−Quadrat−Verteilung
0.5

0.4
m=2
m=4
m=6

0.3
f(x)

0.2

0.1

0
0 2 4 6 8 10 12 14 16 18 20
x

Der Erwartungswert der χ2 (m)-Verteilung ist

E (Y ) = m (3.47)

und die Varianz


Var (Y ) = 2 m (3.48)
sowie die Schiefe r
2
γ1 = 2 (3.49)
m
und der Exzess
12
γ2 = (3.50)
m
Die Quantile ym;1−α , für die gilt

P(Y ≤ ym;1−α ) = 1 − α

liegen als Tabellenwert für einzelne m und α-Werte vor. Sie werden in der Test- und
Schätztheorie benötigt, wie wir im entsprechenden Kapitel sehen werden.
Eine χ2 -verteilte Zufallsgröße kann offensichtlich nur Werte größer oder gleich Null
annehmen (vgl. Formel 3.46).
Hat man zwei unabhängige χ2 -verteilte Zufallsgrößen mit den Freiheitsgraden m
und n, so ist die Summe wieder χ2 -verteilt, und zwar mit dem Freiheitsgrad m + n.
54 KAPITEL 3. ZUFALLSGRÖSSEN

Abb. 3.8 Dichtefunktion der Chi-Quadratverteilung mit 20, 40 und 60 Freiheitsgraden.


Chi−Quadrat−Verteilung
0.07

0.06
m = 20
m = 40
0.05 m = 60

0.04
f(x)

0.03

0.02

0.01

0
0 20 40 60 80 100 120
x

3.4.4 Student-Verteilung
Die Zufallsgröße T, die aus der standard-normalverteilten Zufallsgröße Z und der da-
von unabhängigen χ2 -verteilten Zufallsgröße Y mit m Freiheitsgraden durch die Trans-
formation
Z
T= √ (3.51)
Y /m
entsteht, ist Student-verteilt (t-verteilt). Der Parameter m ∈ N + gibt die Anzahl der
Freiheitsgrade der t-Verteilung an. Entsprechend wird sie auch mit t(m) abgekürzt. Die
t-Verteilung wurde 1908 von Gosset15 entwickelt.
Die t-Verteilung ist – ähnlich der Normalverteilung – über dem Intervall [−∞, +∞]
definiert, unimodal, symmetrisch und glockenförmig. Ihre Dichtefunktion ist in Abb.3.9
dargestellt. Die t-Verteilung mit 3 Freiheitsgraden ist der Normalverteilung sehr ähn-
lich, sie hat aber eine größere Streuung. Mit zunehmender Anzahl der Freiheitsgrade
wird sie der Normalverteilung immer ähnlicher und kann ab m ≥ 30 durch diese er-
setzt werden.
Der Erwartungswert der t-Verteilung ist

E( T ) = 0 für m≥2 (3.52)

und die Varianz


m
Var ( T ) = m −2 für m≥3 (3.53)
Schiefe:
γ1 = 0 für m≥3 (3.54)
15 William Sealey Gosset, englischer Chemiker und Mathematiker, 1876-1937. Er war in einer Brauerei be-

schäftigt, die eine Veröffentlichung von Forschungsarbeiten nicht gestattete. Daher publizierte er seine Ar-
beiten unter dem Pseudonym „Student“.
3.4. WICHTIGE WAHRSCHEINLICHKEITSVERTEILUNGEN 55

Abb. 3.9 Dichtefunktion der t-Verteilung mit 3 und 30 Freiheitsgraden


Student−Verteilung
0.5

0.4 m=3
m = 30

0.3
f(x)

0.2

0.1

0
−10 −8 −6 −4 −2 0 2 4 6 8 10
x

Exzess16 :
6
γ2 = m −4 für m≥4 (3.55)
Die Quantile tm;1−α , für die gilt

P( T ≤ tm;1−α ) = 1 − α

liegen als Tabellenwert für einzelne m und α vor. Sie werden wie die Quantile der χ2 -
Verteilung in der Testtheorie benötigt.

3.4.5 Fisher-Verteilung
Die Zufallsgröße X, die aus den beiden unabhängigen χ2 -verteilten Zufallsgrößen Y1
und Y2 mit m1 bzw. m2 Freiheitsgraden durch die Transformation

Y1 /m1
X= (3.56)
Y2 /m2

entsteht, ist Fisher-verteilt (F-verteilt). Die Parameter m1 , m2 ∈ N + geben die Anzahl


der Freiheitsgrade der F-Verteilung an. Entsprechend wird sie auch mit F (m1 , m2 ) ab-
gekürzt. Die F-Verteilung ist eine von Snedecor17 weiterentwickelte Form der 1924 von
Fisher18 entwickelten theoretischen Häufigkeitsverteilung, die Snedecor zu Ehren Fis-
hers benannte. Manchmal wird sie auch als Varianzquotientenverteilung bezeichnet (Bei
einem bestimmten statistischen Test, den wir noch später kennen lernen werden, wird
16 auf Grund des Aufbaus der Dichtefunktion, die wir hier nicht explizit angeben, hat die t-Verteilung für

m = 1 keinen Erwartungswert, für m ≤ 2 keine Varianz, für m ≤ 3 ist die Schiefe nicht definiert und für
m ≤ 4 der Exzess.
17 George Waddell Snedecor, amerikanischer Mathematiker und Physiker, 1882-1974
18 Ronald Aylmer Fisher, englischer Statistiker, 1890-1962
56 KAPITEL 3. ZUFALLSGRÖSSEN

die Gleichheit zweier Varianzen mit Hilfe der F-Verteilung überprüft, indem der Quo-
tient der beiden Varianzen gebildet wird).
Der Graph der Dichtefunktion der F-Verteilung ist für die Freiheitsgrade m1 = m2 =
10, m1 = m2 = 50 und m1 = m2 = 100 in Abb.3.10 dargestellt.

Abb. 3.10 Dichtefunktion der F-Verteilung mit m1 = m2 = 10, m1 = m2 = 50 und


m1 = m2 = 100 Freiheitsgraden
Fisher−Verteilung
2.5

2
m1 = m2 = 10
m1 = m2 = 50
m1 = m2 = 100

1.5
f(x)

0.5

0
0 1 2 3 4 5 6 7
x

Die F-Verteilung ist über dem Intervall [0, +∞] definiert und nicht symmetrisch. Sie
ist eine linksschiefe, eingipflige Verteilung. Mit zunehmender Anzahl von Freiheitsgra-
den wird die F-Verteilung immer symmetrischer.
Der Erwartungswert der F-Verteilung ist
m2
E( X ) = ( m2 −2)
für m2 ≥ 3 (3.57)

und die Varianz


2m22 (m1 +m2 −2)
Var ( X ) = m1 ( m2 −2)2 ( m2 −4)
für m2 ≥ 5 (3.58)

Die Quantile xm1 ,m2 ;1−α , für die gilt

P ( X ≤ x1− α ) = 1 − α

liegen als Tabellenwert für einzelne m1 - m2 – Kombinationen und α vor. Dabei ist
zu beachten: Ist die Zufallsgröße X F (m1 , m2 )-verteilt, dann ist die Zufallsgröße 1/ X
F (m2 , m1 )-verteilt. Deshalb sind Tabellen meist auf den Fall m1 < m2 beschränkt.
Chi-Quadrat-, Student- und Fisher-Verteilung sind so genannte Prüfverteilungen (auch:
Testverteilungen), weil sie in der Schätz- und Testtheorie zum Überprüfen von Hypo-
thesen über Erwartungswert und Varianz einer Normalverteilung bzw. den Vergleich
von Mittelwerten und Varianzen zweier oder mehrerer normalverteilter Zufallsgrößen
verwendet werden. Sie treten aber – im Gegensatz zur Normalverteilung – nicht als ei-
genständige Verteilungen in mathematischen Modellen von zufälligen Versuchen auf.
3.5. ENGLISCHE BEGRIFFE 57

3.4.6 Der zentrale Grenzwertsatz


Der zentrale Grenzwertsatz ist eines der wichtigsten Theoreme der Wahrscheinlich-
keitsrechnung. Er besagt, dass eine Zufallsgröße, die sich als Summe einer großen An-
zahl (> 30) unabhängiger, beliebig verteilter19 Zufallsgrößen darstellen lässt, annä-
hernd normalverteilt ist. Voraussetzung ist, dass die einzelnen Summanden im Ver-
gleich zur Summe genügend klein sind (d.h. keiner dominiert gegenüber den anderen).
Für Messabweichungen trifft dies in Regel zu, d.h. Messabweichungen sind auf Grund
der vielfachen Überlagerung verschiedener Fehlerquellen normalverteilt. Mit wachsen-
dem n wird diese Annäherung immer zutreffender.
Formal sieht der zentrale Grenzwertsatz ziemlich kompliziert aus:
   
n n
 ∑ Xi − E ∑ Xi 
 i =1 i =1 
P
 s    → Φ(z)
≤ z (3.59)
 n 
Var ∑ Xi
i =1

Sind die Zufallsgrößen nicht die Summe, sondern das Produkt vieler kleiner zu-
fälliger Einflüsse, dann gilt der zentrale Grenzwertsatz und die Normalverteilung für
die Logarithmen. Die Zufallsgrößen sind also zu transformieren und man erhält die
Lognormalverteilung, auf die wir aber an dieser Stelle nicht weiter eingehen werden.

3.5 Englische Begriffe


a-posteriori-Wahrscheinlichkeit - posterior schiefe Verteilung - asymmetrical distributi-
probability on
a-priori-Wahrscheinlichkeit - a priori proba- sicheres Ereignis - certain event
bility standardisierte Zufallsgröße - standardized
Chi-Quadrat-Verteilung - chi-squared distri- random variable
bution stetig - continuous
Dichtefunktion - density function Stichprobe - sample
diskret - discrete Student-Verteilung - Student’s distribution,
Erwartungswert - expectation Student’s t-distribution, t-distribution
Exzess - (coefficient of) excess symmetrische Verteilung - symmetrical dis-
Fisher-Verteilung - F-distribution tribution
Freiheitsgrade - degrees of freedom unmögliches Ereignis - null event
Gesetz der großen Zahlen - Law of Large Varianz - variance
Numbers Verteilungsfunktion - distribution function
Gleichverteilung - rectangular distribution, Wahrscheinlichkeit - probability
uniform distribution Wahrscheinlichkeitsdichte - probability den-
Glockenkurve - bell-shaped curve sity function, abgek.: PDF
Grundgesamtheit - population Wahrscheinlichkeitsverteilung - probability
Moment - moment (coefficient) distribution
Normalverteilung - normal distribution, Wölbung, Kurtosis - kurtosis
Gaussian distribution zentrales Moment - central moment
Realisierung - realization zentraler Grenzwertsatz - central limit theo-
Rechtecksverteilung - rectangular distribu- rem
tion, uniform distribution Zufallsereignis - random event
Schiefe - skewness Zufallsexperiment - random experiment
19 gilt zum Beispiel auch für unsymmetrische oder diskrete Verteilungen!
58 KAPITEL 3. ZUFALLSGRÖSSEN

Zufallsgröße, Zufallsvariable - random va- Zufallsverteilung - random distribution


riable, stochastic variable
Zufallsstichprobe - random sample
3.5. ENGLISCHE BEGRIFFE 59

Abb. 3.11 Standardisieren der Normalverteilung: Ausgehend von einer beliebigen, nor-
malverteilten Dichtefunktion (Bild 1) wird die Verteilung einmal zentriert (Bild 2) bzw.
normiert (Bild 3). Bild 4 zeigt das Gesamtergebnis einer Zentrierung mit anschließender
Normierung, die standardisierte Normalverteilung
60 KAPITEL 3. ZUFALLSGRÖSSEN
Kapitel 4

Zufallsvektoren

Im letzten Kapitel haben wir Zufallsvariablen und ihre wahrscheinlichkeitstheoreti-


schen Verteilungen kennen gelernt. Im Folgenden werden wir zwei oder mehrere Zu-
fallsvariable gemeinsam betrachten und sie zu diesem Zweck in einem Vektor – dem
Zufallsvektor – zusammenfassen. Damit betreten wir das Gebiet der multivariaten Sta-
tistik. Die Notation der multivariaten Statistik in Vektoren und Matrizen mag auf den
ersten Blick kompliziert erscheinen, führt tatsächlich aber zu einfacheren, „kompakten“
mathematischen Strukturen und letztendlich zu leichterer Les- und Rechenbarkeit.
Wir werden stochastische Eigenschaften und Beziehungen zwischen den Elementen
eines Zufallsvektors beschreiben. Ziel des Kapitels ist es dann, folgendes Problem zu
lösen:
Gemessen wurden (ein oder) mehrere Messwerte x1 , x2 , . . . , xn , die mit Abweichun-
gen ∆xi behaftet sind und die wir in einem Vektor x zusammenfassen können. Die
Messwerte sollen in m Funktionen y1 = f 1 ( x1 , x2 , . . . , xn ), y2 = f 2 ( x1 , x2 , . . . , xn ), . . .,
ym = f m ( x1 , x2 , . . . , xn ) verknüpft werden. Gesucht sind die Abweichungen ∆y1 , ∆y2 ,
. . ., ∆ym , die an den Funktionen entstehen bzw. die Standardabweichungen dieser Funk-
tionen.

4.1 Zufallsvektoren
4.1.1 Begriffe
Ein Zufallsvektor ist eine „mehrdimensionale Zufallsvariable“. Es ist ein Vektor X, des-
sen Elemente die Zufallsgrößen Xi sind1 :

X T = ( X1 , X2 , . . . , X n ) (4.1)

Die gleichzeitige Betrachtung mehrerer Zufallsvariablen tritt immer dann auf, wenn
beim Zufallsexperiment mehr als eine Größe beobachtet wurde und eventuelle Zusam-
menhänge zwischen ihnen interessant erscheinen. Würde jede Variable einzeln ausge-
wertet werden, gingen diese Zusammenhänge verloren. Beispiel: Wir beobachten die
Höhe über dem Meeresspiegel und die Lufttemperatur oder wir erfassen Einkommen
und Geschlecht, etc. Zu jeder Zufallsvariablen, zum Beispiel zur Höhe oder zur Tempe-
ratur, gibt es nach erfolgter Beobachtung konkrete Messwerte – die Realisierungen der
Zufallsvariablen.
1 Entsprechend der Bezeichnung von Zufallsgrößen und Realisierungen mit Groß- bzw. Kleinbuchstaben

verwenden wir hier (anders als in der Matrizen- und Vektorrechnung üblich) für den Zufallsvektor Großbuch-
staben.

61
62 KAPITEL 4. ZUFALLSVEKTOREN

Den Vektor x, dessen Komponenten die Realisierungen der entsprechenden Zufalls-


größen des Zufallsvektors X sind, nennen wir den Beobachtungsvektor:

xT = ( x1 , x2 , . . . , x n ) (4.2)

Analog zu eindimensionalen Zufallsgrößen sind auch für einen Zufallsvektor ein


Erwartungswert, ein wahrer Wert sowie wahre, systematische und zufällige Abweichungen
definiert. Es sind dies Vektoren, deren einzelne Elemente die Erwartungswerte, wah-
ren Werte, wahre, systematische oder zufällige Abweichungen der entsprechenden Ele-
mente des Zufallsvektors bzw. Beobachtungsvektors sind.
Außerdem sind für Zufallsvektoren auch Verteilungsfunktionen und Dichtefunktio-
nen definiert. Zum Beispiel ist für einen 2-dimensionalen Zufallsvektor mit den beiden
Elementen X und Y die Verteilungsfunktion gegeben durch

Za Zb
F ( a, b) = P( X ≤ a, Y ≤ b) = f ( x, y) dx dy (4.3)
−∞ −∞

wobei f ( x, y) die Dichtefunktion von ( X, Y ) ist. Die Dichtefunktion eines Zufallsvektors


mit zwei normalverteilten Elementen ist in (Abb.4.1) grafisch dargestellt.

Abb. 4.1 Zweidimensionale Normalverteilung

0.2

0.15

0.1

0.05

0
-4 4
-2 2
0 0
2 -2
4 -4

Im allgemeinen Fall gilt für einen k-dimensionalen Zufallsvektor X mit den Elemen-
ten X = ( X1 , X2 , . . . , Xk )T :
F (x) = P(X ≤ x) (4.4)
wobei die Ungleichheitsrelation X ≤ x bedeutet: Jedes Element in X ist kleiner oder
gleich dem entsprechenden Element in x.

4.1.2 Beziehungen zwischen zwei Elementen eines Zufallsvektors


Von der Verteilung einer Zufallsgröße X kennen wir den Streuungsparameter Varianz
h i
Var ( X ) = σX2 = E ( X − E( X ))2
4.1. ZUFALLSVEKTOREN 63

als Erwartungswert der quadratischen Abweichung vom Erwartungswert E( X ).


Wenn wir den Erwartungswert µ kennen, können wir einen Zahlenwert für die Va-
rianz abschätzen2 :
1 n
σx2 = ∑ ( xi − µ)2 (4.5)
n i =1
Wenn der Erwartungswert selbst bereits empirisch geschätzt wurde (nämlich mit x̄),
gilt für die Varianz3 :
n
1
s2x = ( x̄ − xi )2
n − 1 i∑
(4.6)
=1

In einem Zufallsvektor X hat jedes Element Xi eine Varianz, berechnet nach (4.5)
oder (4.6).
Zwischen je zwei Elementen X und Y können wir zusätzlich einen Parameter für
die „gemeinsame Streuung“ angeben, genannt die „Kovarianz von X und Y“:

Cov( X, Y ) = σXY = E [( X − E( X )) · (Y − E(Y ))] (4.7)

Wenn wir die Erwartungswerte µ x und µy kennen, können wir als Zahlenwert für
die Kovarianz je zweier Zufallsgrößen abschätzen:
n
1
σxy =
n ∑ (xi − µx )·(yi − µy ) (4.8)
i =1

Wenn die Erwartungswerte selbst erst empirisch abgeschätzt wurden ( x̄ und ȳ), gilt:
n
1
s xy = ∑
n − 1 i =1
( x̄ − xi )·(ȳ − yi ) (4.9)

Die Kovarianz ist also das mittlere Abweichungsprodukt und ist ein Maß für den wech-
selseitigen Zusammenhang der beiden Zufallsgrößen X und Y. Ist Kovarianz positiv
(weil offenbar in der Summe (4.8) oder (4.9) positive Abweichungsprodukte überwie-
gen), so sind die Zufallsgrößen X und Y tendenziell eher gleich, d.h. mit großer Wahr-
scheinlichkeit nimmt die eine zu, wenn auch die andere zunimmt, beziehungsweise ab,
wenn die andere abnimmt.
Ist die Kovarianz hingegen negativ, verhalten sich die Zufallsgrößen tendenziell
eher reziprok, d.h. mit großer Wahrscheinlichkeit nimmt die eine ab, wenn die ande-
re zunimmt, beziehungsweise zu, wenn die andere abnimmt. Ein Maß für diese Wahr-
scheinlichkeit sowie die weitere Bedeutung der Kovarianz werden wir in einem späte-
ren Kapitel kennen lernen. Einstweilen wollen wir uns merken, dass wir Zufallsgrößen,
deren Kovarianz gleich Null ist, als stochastisch unabhängig bezeichnen.
Die Varianzen und Kovarianzen eines Zufallsvektors fassen wir üblicherweise in
der Kovarianzmatrix Σ XX (auch: Varianz-Kovarianzmatrix oder: Dispersionsmatrix) zusam-
men:  2
σ1 σ12 . . . σ1n

 σ21 σ2 . . . σ2n 
2
Σ XX =  . .. . ..  (4.10)
 
 . . . . . . 
σn1 σn2 ... 2
σnn
2 Wenn wir den Erwartungswert µ tatsächlich kennen – was nicht sehr oft der Fall sein wird – erhöht sich

die Anzahl der Freiheitsgrade um 1. Daher dividieren wir hier im Gegensatz zur nachfolgenden Formel (4.6)
durch n und nicht durch n − 1.
3 Diese Formel haben wir ja bereits unter (2.21), Seite 31, kennengelernt.
64 KAPITEL 4. ZUFALLSVEKTOREN

Diese Matrix ist quadratisch und symmetrisch, da offensichtlich σik = σki (was man aus
(4.7) sofort sieht).
Aus empirisch abgeschätzten Kovarianzen kann die empirische Kovarianzmatrix C
gebildet werden4 :
 2
s1 s12 . . . s1n

 s21 s2 . . . s2n 
2
C XX =  . .. .. ..  (4.11)
 
 .. . . . 
sn1 sn2 . . . s2n

4.2 Funktionen eines Zufallsvektors


4.2.1 Abweichungen von Funktionen eines Zufallsvektors
Wir kommen wieder zu unserem Ausgangsproblem zurück: Gemessen wurden die
Messwerte x1 , x2 , . . . , xn , die mit Abweichungen ∆xi behaftet sind. Die Messwerte
sollen in einer Funktion y verknüpft werden. Gesucht ist die Abweichung ∆y, die an
der Funktion entsteht bzw. die Standardabweichung der Funktion.
Betrachten wir zunächst den einfachen Fall nur eines Messwertes x0 mit einer Ab-
weichung ∆x und eine Funktion y = f ( x ). An der Stelle ( x0 + ∆x ) hat die Funktion
gegenüber y0 die Abweichung ∆y (siehe Abb.4.2).

Abb. 4.2 Eine Funktion y = f ( x ) und ihre Abweichungen


y=f(x)

∆y
dy
y0

dx=∆x
x
x0

Aus der Abbildung ist ersichtlich, dass gilt


y0 + ∆y = f ( x0 ) + ∆y = f ( x0 + ∆x ) (4.12)
Wie groß ist nun ∆y bzw. wie groß ist die Standardabweichung der Funktion?
Um das Problem zu lösen, ersetzen wir die Funktion durch ihre Tangente, d.h. wir
linearisieren sie mit Hilfe einer Taylorreihe (siehe Anhang). Wir können unter Anwen-
dung von (B.16) die rechte Seite in (4.12) durch die Taylorentwicklung erster Ordnung
ersetzen und erhalten:
f ( x0 ) + ∆y = f ( x0 ) + f ′ ( x0 ) dx (4.13)
4 Eine strenge Unterscheidung in „empirisch“ und „theoretisch“ ist nicht notwendig, wenn aus dem Zu-

sammenhang klar ist, welche Matrix gemeint ist. Die Bezeichnung C für die empirische Kovarianzmatrix ist
dem englischen Ausdruck covariance matrix entlehnt.
4.2. FUNKTIONEN EINES ZUFALLSVEKTORS 65

f ( x0 ) können wir nun auf beiden Seiten abziehen und somit gilt:

∆y = f ′ ( x0 ) dx (4.14)

Dies können wir auch auf eine Funktion mehrerer Zufallsgrößen verallgemeinern,
wobei wir die Ableitung f ′ durch das totale Differenzial ersetzen:
n
∂f
∆y = ∑ ∂xi dxi (4.15)
i =1

Damit können wir nun die Abweichung der Funktion eines Zufallsvektors angeben,
dessen einzelne Elemente jeweils selbst mit Abweichungen behaftet sind.

4.2.2 Übergang von der Abweichung ∆y zur Standardabweichung


Die folgende Herleitung schaut auf den ersten Blick kompliziert aus, ist aber sehr ein-
fach nachvollziehbar. Zur Erinnerung: Bei Messgrößen haben wir die Standardabwei-
chung erhalten, indem wir die Quadratsumme der Abweichungen durch die Anzahl
der Freiheitsgrade dividiert haben. Wir gehen jetzt ebenso vor:
Wir nehmen an, wir hätten die einzelnen Abweichungen jeweils ν-mal bestimmt.
Wir bilden die Quadratsumme und dividieren durch ν. Dabei gehen wir von zufälligen
Abweichungen aus, d.h. wir ersetzen dx in (4.15) durch ε
n
∂f
∆y = ∑ ∂xi ε i (4.16)
i =1

Diese Abweichungen quadrieren wir zunächst

n  2 n  
2 ∂f ∂f ∂f
∆y = ∑ ε
∂xi i
+2· ∑ ε ε
∂xi ∂xk i k
(4.17)
i =1 i,k =1;i 6=k

und bilden die Summe dieser Quadrate


ν ν n  2 ν n  
∂f ∂f ∂f
∑ ∆y2j = ∑∑ ε
∂xi ij
+2· ∑ ∑ ε ε
∂xi ∂xk ij kj
(4.18)
j =1 j =1 i =1 j =1 i 6 = k

dividieren sie durch ν und ordnen die Summen etwas um:

∂f 2 1 ν 2
! !
1 ν n
1 ν
   
2 ∂f ∂f

ν j =1
∆y j = ∑
∂xi ∑
ν j =1
ε ij + 2 · ∑
∂xi ∂xk ν ∑ ε ij ε kj (4.19)
i =1 i 6=k j =1

In Gleichung (4.19) sind jetzt zwei Varianzen und eine Kovarianz erkennbar, nämlich:
ν
1
σ2f = ∑ ∆y2j (4.20)
ν j =1
ν
1
σx2i = ∑ ε2ij (4.21)
ν j =1
ν
1
σik =
(i 6 = k ) ν ∑ ε ij ε kj (4.22)
j =1
66 KAPITEL 4. ZUFALLSVEKTOREN

sodass wir (4.19) umschreiben können zu


n  2 !
n  
∂f ∂f ∂f
σ2f = ∑ · σx2i +2· ∑ ·σ (4.23)
i =1
∂xi i 6=k
∂xi ∂xk ik

Wir gehen von normalverteilten, zufälligen Abweichungen aus. Wenn wir auch noch
unterstellen, dass die Messgrößen stochastisch unabhängig sind, sind alle Kovarianzen
gleich Null und die gemischte Produktsumme auf der rechten Seite in (4.23) verschwin-
det. Es verbleibt:
∂f 2 2
!
n  
2
σf = ∑ · σxi (4.24)
i =1
∂xi

Die positive Quadratwurzel aus σ2f ist die gesuchte Standardabweichung der Funktion f .
(4.24) ist das Varianzfortpflanzungsgesetz für stochastisch unabhängige Beobachtungen,
auch: einfaches Fehlerfortpflanzungsgesetz oder Gauß’sches Fehlerfortpflanzungsgesetz ge-
nannt.

4.2.3 Das Kovarianzfortpflanzungsgesetz


Trifft die Voraussetzung der stochastischen Unabhängigkeit nicht zu, so können wir
nicht die einfache Formel (4.24) anwenden, sondern müssen (4.23) verwenden. Zur ein-
facheren Darstellung der Formel (und später auch zu einfacheren Berechnung) fassen
wir die Differenzialquotienten in einem Vektor fT zusammen:
 
T ∂f ∂f ∂f
f = ... (4.25)
∂x1 ∂x2 ∂xn

und die Varianzen und Kovarianzen in einer Kovarianzmatrix Σ xx :


 2
σ1 σ12 . . . σ1n

 σ21 σ2 . . . σ2n 
2
Σ xx =  . .. .. ..  (4.26)
 
 .. . . . 
σn1 σn2 ... σn2

Das Varianzfortpflanzungsgesetz lautet in dieser Schreibweise dann:

σ2f = fT Σ xx f (4.27)

und wird auch Kovarianzfortpflanzungsgesetz genannt.


Im letzten Verallgemeinerungsschritt betrachten wir nicht nur eine Funktion son-
dern gleich mehrere (zum Beispiel m). Wir fassen alle partiellen Ableitungen in der
Funktionsmatrix FT zusammen:
 ∂f ∂ f1 ∂ f1 
1
∂x1 ∂x2 · · · ∂x n
T
 . . . .
. . . .

F = .
. . . 
 (4.28)
∂ fm ∂ fm
∂x . . . . . . ∂xn
1

FT heißt auch Jacobi-Matrix und hat so viele Spalten, wie Messgrößen auftreten (bei uns:
n), und so viele Zeilen, wie wir Funktionen untersuchen (in unserem Beispiel: m).
Das allgemeine Kovarianzfortpflanzungsgesetz lautet dann:

Σ f f = FT Σ xx F (4.29)
4.3. ENGLISCHE BEGRIFFE 67

In dieser Form wird es auch allgemeines Fehlerfortpflanzungsgesetz genannt.


(4.29) gilt auch für empirische Kovarianzmatrizen:

C f f = FT C xx F (4.30)
Es ist zu beachten, dass sowohl (4.29) als auch (4.30) wieder eine – im Allgemeinen
vollbesetzte – Kovarianzmatrix ergeben, dass also Zufallsgrößen, die das Ergebnis einer
mathematischen Funktion anderer Zufallsgrößen sind, stochastisch nicht mehr unab-
hängig sind.

4.3 Englische Begriffe


Allgemeines Fehlerfortpflanzungsgesetz - Unabhängigkeit - independence
general error propagation law Varianzfortpflanzung - variance propagati-
Kovarianz - covariance on
Kovarianzmatrix - covariance matrix Zufallsvektor - random vector
68 KAPITEL 4. ZUFALLSVEKTOREN
Kapitel 5

Die Methode der kleinsten


Quadrate

5.1 Einleitung
Realisierungen von Messgrößen sind immer mit Abweichungen behaftet. Bei der Da-
tenauswertung merken wir dies spätestens dann, wenn – trotz Elimination eventuel-
ler grober Fehler und systematischer Abweichungen – wiederholte Kontrollmessungen
nicht immer das exakt selbe Ergebnis bringen oder bestimmte geometrische Bedingun-
gen nicht hundertprozentig erfüllt sind (zum Beispiel Winkelsumme in Polygonen). Als
wichtigstes Maß für die Abweichung von Messgrößen haben wir im 2. Kapitel die Stan-
dardabweichung eingeführt.
In der Praxis werden darüber hinaus die bei der Datenerfassung gemessenen Grö-
ßen meist nicht unmittelbar verwendet, sondern daraus abgeleitete Größen. Die beob-
achteten Größen (die „Beobachtungen“) und die eigentlich interessierenden, aber unbe-
kannten Größen (die „Unbekannten“) stehen dann in einem funktionalen Zusammen-
hang. Im letzten Kapitel haben wir eine Methode kennen gelernt, wie sich ausgehend
von der Standardabweichung einzelner Messgrößen die Standardabweichung einer Funk-
tion dieser Messgrößen angeben lässt.
Im folgenden Kapitel werden wir die Ergebnisse der letzten Kapitel in einen grö-
ßeren Zusammenhang stellen und nicht nur einzelne Funktionen der Beobachtungen
sondern komplexere Systeme betrachten. Wir gehen dabei davon aus, dass immer red-
undante Messungen ausgeführt werden, also mehr als zur eigentlichen Bestimmung der
Unbekannten notwendig sind1 . Es sind im Prinzip mehrere Möglichkeiten des „Aus-
gleichens“ solcher redundanten Messungen denkbar. Aus historischen Gründen hat
sich die so genannte „Methode der kleinsten Quadrate“ durchgesetzt:

Historia

Historisch gesehen kommt die „Methode der kleinsten Quadrate“ aus der Astrono-
mie. Bei der Bestimmung von Bahnparametern von Himmelskörpern musste man eine
Vielzahl von astronomischen Beobachtungen auswerten. Dabei suchte man nach einem
Verfahren, das es ermöglicht, aus einer Anzahl von Gleichungen, die größer als die
Anzahl der Unbekannten ist, möglichst gute Werte für die unbekannten Parameter zu

1 zum lat. redundare: „im Überfluss vorhanden sein“

69
70 KAPITEL 5. DIE METHODE DER KLEINSTEN QUADRATE

bestimmen. Nach einigen grundlegenden Vorarbeiten von Euler2 , Mayer3 , Lambert4 und
Lagrange5 , war es um 1770 der aus Ragusa (heute: Dubrovnik, Kroatien) stammende Je-
suit Bošcović6 , der sich mit wahrscheinlichkeitstheoretischen Modellen für Messabwei-
chungen auseinander setzte („Philosophiae recentioris a Benedicto Stay versibus traditae libri
X“). Er stellte den Grundsatz auf, man müsse im Fall von überschüssigen Gleichungen
die Unbekannten so bestimmen, dass die absolute Summe der übrig bleibenden Abwei-
chungen ein Minimum werde.
Der französische Physiker, Mathematiker und Astronom Laplace7 fügte dem noch
eine Bedingung hinzu: 1. Die absolute Summe der Abweichungen sei ein Minimum,
und 2. die algebraische Summe der Abweichungen sei gleich Null.
Schließlich stellte Legendre8 die Forderung auf, die Quadratsumme der Abweichun-
gen zu minimieren. Er verwendete auch erstmals den Namen „Methode der kleinsten
Quadrate“ dafür (obwohl es richtigerweise ja eigentlich „Methode der kleinsten Qua-
dratsumme“ heißen müsste). Legendre veröffentlichte die Grundform der uns heute
bekannten „méthode des moindres carrés“ im Jahre 1806 im Anhang seiner Beschrei-
bung der Nouvelles méthodes pour la détermination des orbites des cométes.
Unabhängig von Legendre hatte Gauß9 nach eigenen Worten schon 1794 die Metho-
de der kleinsten Quadrate gefunden und verwendet, es aber verabsäumt, sie zu veröf-
fentlichen, weil er es „nicht der Mühe wert hielt, viel Aufhebens von einer so natürlichen Sache
zu machen“. Erst 1809 schrieb er darüber in der Theoria motus corporum coelestium in sec-
tionibus conicis Solem ambientium. Wissenschaftlichen Erfolg damit hatte er aber bereits
1801 mit der richtigen Vorhersage der Bahn des Kleinplaneten Ceres, der Dank seiner
Methode und Berechnungen in jenem Jahr wiederaufgefunden wurde. 1821 veröffent-
lichte er in der Theoria combinationis observationum erroribus minimis obnoxiae abermals
eine Begründung für die „Methode der kleinsten Quadrate“.

5.2 Lineare Gleichungssysteme


5.2.1 Ausgleichende Gerade
Betrachten wir zunächst einmal die Abbildung 5.1: Gegeben sind 10 Punkte in einem
mathematischen x, y-System. Diese Punktwolke soll durch eine Gerade repräsentiert
werden. Gesucht sind die Parameter jener Geraden, die für diese Approximation „am
besten“ geeignet ist. Wir nennen diese Gerade auch die ausgleichende Gerade.
Die Punkte in Abb.5.1 könnten zum Beispiel die grafische Darstellung der Ergeb-
nisse einer Beobachtungsreihe sein, wobei auf der Abszisse die Zeit aufgetragen wurde
und auf der Ordinate die entsprechende Messgröße. Wir haben eine Messgröße zu zehn
verschiedenen Zeitpunkten beobachtet und nehmen ferner an, dass die wahren Werte
der Messgrößen auf einer Geraden liegen, d.h. zwischen dem Zeitpunkt und den wah-
ren Werten der Beobachtung besteht ein linearer Zusammenhang.
Mathematisch können wir zur Bestimmung der beiden Geradenparameter Anstieg
k und Ordinatenabschnitt d ein Gleichungssystem aufstellen, wobei jeder Punkt eine

2 Leonhard Euler, 1707-1783


3 Johann Tobias Mayer, 1723-1762
4 Johann Heinrich Lambert, 1728-1777
5 Joseph Louis de Lagrange, eigentlich: Giuseppe Ludovico Lagrangia, 1736-1813
6 Rudjer Josip Bošcović, 1711-1787
7 Pierre Simon Marquis de Laplace, 1749-1827
8 Adrien-Marie Legendre, 1752-1833
9 Carl Friedrich Gauß, 1777-1855
5.2. LINEARE GLEICHUNGSSYSTEME 71

Abb. 5.1 Punktwolke aus 10 Punkten, die „möglichst gut“ durch eine Gerade repräsen-
tiert werden soll
12

11

10

6
y

0
0 1 2 3 4 5 6 7 8 9 10 11 12
x

Gleichung beisteuert:
1k + d = 2
2k + d = 1
3k + d = 5
4k + d = 5
5k + d = 6
(5.1)
6k + d = 9
7k + d = 8
8k + d = 9
9k + d = 11
10k + d = 9
bzw. in Matrizenschreibweise:
Ax = b
1 1 2
   

 2 1 


 1 


 3 1 


 5 


 4 1 


 5 

5 1 6 (5.2)
 
  k  
A=  x= b= 

 6 1 
 d 
 9 


 7 1 


 8 


 8 1 


 9 

 9 1   11 
10 1 9
Dieses Gleichungssystem hat mehr Gleichungen als Unbekannte. Es ist „überbestimmt“
und daher nicht eindeutig lösbar. Wir müssen noch zusätzlichen Annahmen treffen
oder Bedingungen formulieren, um es lösen zu können.
72 KAPITEL 5. DIE METHODE DER KLEINSTEN QUADRATE

Übertragen auf die grafische Darstellung (Abb.5.1) bedeutet dies: Eine Gerade ist
in der Ebene durch zwei Punkte definiert. Haben wir mehr als zwei Punkte, die auf
der Geraden liegen sollen, so können wir im Allgemeinen keine eindeutige Lösung an-
geben. Wir müssen ein Kriterium dafür finden, welche Gerade der Punktwolke „mög-
lichst gut angepasst“ ist.
Wir könnten zum Beispiel jene Gerade auswählen, die durch den ersten und letzten
Punkt geht (g1 in Abb.5.2), was aber offensichtlich kein gutes Kriterium wäre: Die Wahl
ist völlig willkürlich und schließt alle dazwischen liegenden Punkte aus. Die erhaltene
Gerade passt sich also keinesfalls der Punktwolke an, sondern repräsentiert ausschließ-
lich den ersten und letzten Punkt. Wir haben im Gleichungssystem (5.2) einfach so viele
Gleichungen gestrichen, bis es nicht mehr überbestimmt war.

Abb. 5.2 Drei Möglichkeiten, eine „ausgleichende“ Gerade durch die Punktwolke von
Abb.5.1 zu legen. Die punktierte Linie g1 ist die Gerade durch den ersten und letzten
Punkt der Punktwolke. Die strichpunktierte Linie g2 ist die Gerade, die nach Zweitei-
lung der Punktwolke die jeweiligen Schwerpunkte miteinander verbindet. Die gestri-
chelte Linie g3 jene Gerade, die man nach Mittelung aller aus jeweils zwei Punktepaaren
ermittelten Anstiege und Ordinatenabschnitte erhält.
12
g3
11 g2

10

9 g1

6
y

0
0 1 2 3 4 5 6 7 8 9 10 11 12
x

Eine andere Möglichkeit wäre es, die Punktwolke in zwei Teile zu teilen, zum Bei-
spiel in Punkte mit x ≤ 5 und solche mit x > 5. In jeder der beiden Gruppen können
wir den Schwerpunkt bestimmen und dann durch diese beiden Punkte eine (eindeuti-
ge) Gerade legen, die als „plausibler“ Repräsentant der gesamten Punktwolke dienen
könnte (g2 in Abb.5.2). Diese Gerade scheint zwar besser als g1 alle Punkte zu berück-
sichtigen, die Aufteilung der Punkte in zwei Gruppen ist aber nach wie vor willkürlich.
Eine dritte Möglichkeit besteht darin, alle möglichen Punktepaare zu bilden, durch
diese jeweils eine Gerade zu legen und deren Parameter zu bestimmen. Der arithmeti-
sche Mittelwert aller gefundenen Werte für den Anstieg k und den Ordinatenabschnitt
d gibt dann die „ausgeglichene“ Gerade an (g3 in Abb.5.2). Für unser Beispiel mit 10
n ( n −1)
Punkten gibt es 2 = 45 mögliche Punktepaare. Das Verfahren ist also sehr zeit-
5.2. LINEARE GLEICHUNGSSYSTEME 73

aufwändig und für die praktische Rechnung nicht geeignet. Dies insbesondere auch im
Hinblick darauf, dass unser Ziel ja letztendlich ein allgemeines Verfahren ist, d.h. nicht
nur die Anpassung durch eine Gerade sondern auch durch andere, komplexere und
kompliziertere Funktionen und auch für mehr als zwei Zufallsvariable10 .
Nichts desto trotz können wir alle drei gefundenen Geraden in unsere Punktwol-
ke einzeichnen. Dem Augenschein nach würden wir in Abb.5.2 vermutlich die Gerade,
die durch die beiden Schwerpunkte geht (g2 ), noch am ehesten als Repräsentant der
Punktwolke anerkennen. Wenn wir sie leicht drehen, erhalten wir sogar eine Gerade,
auf der fünf unserer ursprünglichen Punkte unmittelbar enthalten sind (Abb.5.3). Es ist

Abb. 5.3 Eine „ausgleichende“ Gerade durch die Punktwolke von Abb.5.1: Die Gerade,
die fünf der zehn ursprünglichen Punkte beinhaltet. An den übrigen Punkten verblei-
ben Abweichungen bzw. Verbesserungsvektoren, um die man die Punkte verschieben
muss, damit sie auch auf der Geraden liegen. Die Verbesserungsvektoren an den Punk-
ten 1, 4, 5, 7 und 8 haben hier eine Länge gleich Null
12

11
v9
10 v10

8 v6

6
y

5
v3
4

2 v2

0
0 1 2 3 4 5 6 7 8 9 10 11 12
x

sehr wahrscheinlich, dass die meisten Leser dieser Geraden vor allen anderen angebo-
tenen Möglichkeiten den Vorzug geben werden, wenn es darum geht, eine Gerade zu
finden, die der Punktwolke aus Abb.5.1 „am besten“ angepasst ist. Diese „gefühlsmäßi-
ge“ Entscheidung wollen wir nun genauer angeben und außerdem eine Vorgangsweise
erarbeiten, mit der wir in beliebigen Punktwolken den plausibelsten Repräsentanten
angeben können, also auch nicht lineare Funktionen.

5.2.2 Herleitung der Methode der kleinsten Quadrate


Welche Wahl wir auch immer für die Unbekannten treffen: Damit die Punkte tatsächlich
auf der danach erhaltenen Geraden zu liegen kommen, müssen wir die Beobachtungen
verbessern, d.h. um jenen Betrag verschieben, der den Abweichungen von der Gera-
den entspricht. Wir gehen in einer vereinfachten Annahme davon aus, dass wir diese
10 Die
drei Geraden g1 , g2 und g3 beruhen auf Vorschlägen von Mathematikern aus der Zeit vor der allge-
meinen Anerkennung der Methode der kleinsten Quadrate.
74 KAPITEL 5. DIE METHODE DER KLEINSTEN QUADRATE

Verbesserungen nur in y-Richtung anbringen. Daher stehen die Verbesserungsvektoren


nicht normal auf die Gerade (was dem Euklidischen Abstand entsprechen würde) son-
dern parallel zur y-Achse (Abb.5.3). In der Sprache der Statistik sagen wir dann auch:
Nur die Messgrößen im Vektor Y sind Zufallsgrößen, die Größen auf der Abszisse (im
Vektor X) hingegen werden als fehlerfrei angenommen und bleiben fest.
Die „plausibelsten“ Werte der Unbekannten sind nun jene, denen im Sinne der Sta-
tistik die größte Wahrscheinlichkeit zukommt. Das bedeutet aber, dass auch das System
der Verbesserungen jenes ist, das die größte Wahrscheinlichkeit besitzt. Dazu benötigen
wir zunächst

Das Gauß’sche Gesetz über die Verteilung zufälliger Messabweichungen


Bereits Lambert hat in seiner „Theorie der Zuverlässigkeit der Beobachtungen und Versuche“
festgestellt, dass
• zufällige Abweichungen gleicher Größe nach beiden Seiten gleich möglich sind
• geringere Abweichungen häufiger sind als große
und dass eine Kurve, die die Wahrscheinlichkeit für das Auftreten der Abweichungen
angibt
• symmetrisch ist
• im mittleren Abszissenwert den größten Ordinatenwert hat
• die Kurve auf beiden Seiten einen Wendepunkt hat und sich
• auf beiden Seiten der Abszisse asymptotisch nähert
Aufbauend auf diesen Beobachtungen Lamberts sowie bereits früheren Vorarbeiten
durch Moivre11 („Doctrine of Chances“) hat Gauß die beschriebene Kurve mathematisch
weiter untersucht und seiner Theorie über Beobachtungsabweichungen zu Grunde ge-
legt. Das Ergebnis ist die bekannte Normalverteilung, deren Dichtefunktion für die Ver-
besserungen vi so lautet:
v2
1 − i2
f ( vi ) = √ · e 2σi (5.3)
σi 2π
Die weiteren Überlegungen wollen wir nicht im Detail betrachten, sondern gleich ein
wichtiges Ergebnis angeben:
Damit die Wahrscheinlichkeitsdichte maximal wird, müssen die Verbesserungen so
gewählt werden, dass gilt
n
∑ v2i → min (5.4)
i =1
bzw. in Matrizenschreibweise
vT v → min (5.5)
Eine Lösung für diese Extremwertaufgabe erhält man bekanntlich dadurch, dass man
die erste Ableitung der Funktion gleich Null setzt. Auch hier wollen wir wieder gleich
das Ergebnis angeben:
Zur Auflösung des überbestimmten Gleichungssystems

Ax = b

gehen wir zunächst von der so genannten Verbesserungsgleichung

v = Ax − b (5.6)
11 Abraham de Moivre, 1667-1754
5.2. LINEARE GLEICHUNGSSYSTEME 75

aus. Wir bestimmen einen Lösungsvektor x nach


x = ( A T A ) −1 A T b (5.7)
Dies nennt man auch die Normalgleichung des Ausgleichungsproblems und die Matrix
N = AT A (5.8)
die Normalgleichungsmatrix. (5.7) kann dann auch geschrieben werden als
x = N −1 A T b (5.9)
Die Verbesserungen v erhält man durch direktes Einsetzen von x in (5.6).
Die ausgeglichenen (auch: verbesserten) Beobachtungen b̂ erhält man aus
b̂ = b + v (5.10)
Die eben angegebene Vorgangsweise zur Auflösung überbestimmter Gleichungssyste-
me nennt man auch Ausgleichsrechnung oder Gaußsche Fehlerquadratmethode.

Hauptprobe
Die so genannte Hauptprobe, die am Ende jeder Ausgleichsrechnung steht, besteht dar-
in, zu überprüfen, ob die ausgeglichenen Größen das ursprüngliche Gleichungssystem
tatsächlich erfüllen. Sehen wir uns das am Beispiel des Gleichungssystems (5.1) an:
Die Normalgleichungsmatrix lautet:
385 55
 
T
N=A A=
55 10
und damit erhalten wir für x, also die Parameter k und d
1
 
x = N −1 A T b =
1
und die Verbesserungen v
0
 

 2 


 −1 


 0 

 0 
v = Ax − b =  

 −2 


 0 


 0 

 −1 
2
und den ausgeglichenen Vektor b̂
2
 

 3 


 4 


 5 

 6 
b̂ = b + v =  

 7 


 8 


 9 

 10 
11
76 KAPITEL 5. DIE METHODE DER KLEINSTEN QUADRATE

Vergleichen wir nun diese Lösung mit dem Ergebnis, das wir erhalten, wenn wir in
unser Gleichungssystem für k = 1 und d = 1 einsetzen:
1·1 + 1 = 2
2·1 + 1 = 3
3·1 + 1 = 4
4·1 + 1 = 5
5·1 + 1 = 6
6·1 + 1 = 7
7·1 + 1 = 8
8·1 + 1 = 9
9·1 + 1 = 10
10 · 1 + 1 = 11
Die Hauptprobe ist also erfüllt.

5.3 Nicht-lineare Gleichungssysteme


Die im vorigen Abschnitt angegebene Auflösung überbestimmter Gleichungssysteme
funktioniert in der dort angegebenen Form unmittelbar nur für lineare Gleichungssys-
teme. Wir können aber auch nicht-lineare Gleichungssysteme nach der Methode der
kleinsten Quadrate auflösen.

5.3.1 Gleichungssysteme „Linearisieren“


Ausgangspunkt ist das beliebige, nicht-lineare aber überbestimmte Gleichungssystem,
das aus folgender Funktion entsteht:
ϕ(x) = b (5.11)
mit dem Unbekanntenvektor x und dem Beobachtungsvektor b. Der Unbekanntenvektor
enthält die u Unbekannten; der Beobachtungsvektor die n beobachteten Daten. ϕ(x)
ist ein Vektor, der n Funktionen ϕ1 , ϕ2 , . . . , ϕn enthält, die jeweils den Zusammenhang
zwischen einer Beobachtung bi und den Unbekannten x1 , ..., xu beschreibt.
Zur Auflösung des Gleichungssystems müssen wir die Funktionen ϕ(x) nach der
bereits im vorigen Kapitel angewandten und im Anhang beschriebenen Taylorentwick-
lung durch ihre Tangenten ersetzen. Dies funktioniert bekanntlich aber nur dann, wenn
wir bereits „sehr nahe am Ergebnis“ dran sind, das heißt einen Näherungswert x0 und
den Funktionswert an dieser Stelle
ϕ( x0 ) = b0 (5.12)
kennen.
Mit diesen Näherungswerten für unsere Unbekannten suchen wir nun noch in einer
entsprechend kleinen Umgebung von x0 ein ∆x, das wir zu den Näherungswerten x0
dazuzählen müssen, um zum Lösungsvektor x zu kommen. Eingesetzt in die Formeln
der Methode der kleinsten Quadrate bedeutet dies:
∆x = N−1 AT (b − b0 ) (5.13)
mit der Matrix A:
...
       
∂ϕ1 ∂x1  ∂ϕ1 ∂x2  ∂ϕ1 ∂xu 
 ∂ϕ2 ∂x1 ∂ϕ2 ∂x2 ... ∂ϕ2 ∂xu 
A= .. .. .. .. (5.14)
 
.

 . . .

...
    
∂ϕn ∂x1 ∂ϕn ∂x2 ∂ϕn ∂xu
5.3. NICHT-LINEARE GLEICHUNGSSYSTEME 77

d.h. A enthält die partiellen Ableitungen der Funktionen ϕ1 bis ϕn nach den Unbekann-
ten x1 bis xu . N ist – wie oben:
N = AT A
Den Lösungsvektor x erhält man aus
x = x0 + ∆x (5.15)
Weiters können wir die Verbesserungen ausrechnen:
v = A · ∆x − (b − b0 ) (5.16)
Diese Verbesserungen werden an unseren ursprünglichen Beobachtungen b1 bis bn an-
gebracht und man erhält die verbesserten oder ausgeglichenen Beobachtungen b̂1 bis b̂n :

b̂ = b + v (5.17)
Für die Hauptprobe muss erfüllt sein:

ϕ(x) = b̂ (5.18)

5.3.2 Probleme beim Linearisieren


Geht die Hauptprobe nicht auf, kann dies drei Ursachen haben:
1. Es ist ein Fehler beim Aufstellen der Matrizen passiert.
2. Es ist im Zuge der Rechnung ein Rechenfehler passiert.
3. Die Näherungswerte waren nicht gut genug, sodass das Linearisieren unzulässig
war und die Taylorreihe zu früh abgebrochen wurde.
Dass tatsächlich ein Rechenfehler passiert ist, ist bei der Verwendung getesteter Rechen-
programme eher unwahrscheinlich. Es ist allerdings möglich, dass auf Grund ungünsti-
ger numerischer Eigenschaften der Normalgleichungsmatrix die Inversion zu falschen
Ergebnissen geführt hat.
Fehler beim Aufstellen der Matrizen können bei der praktischen Rechnung leicht
passieren. Einerseits kann man sich beim partiellen Ableiten selbst irren, andererseits
können Rechenfehler auftreten. Insbesondere ist auf die richtige Verwendung der Vor-
zeichen sowie auf das Zusammenpassen der Einheiten zu achten. Jedes Element der
vorkommenden Matrizen hat im Allgemeinen nicht nur einen Zahlenwert, sondern
auch eine physikalische Einheit. Besonders sind jene Modelle fehleranfällig, in denen
unterschiedliche Größen vorkommen – zum Beispiele Längen (Distanzen, Koordinaten-
differenzen) und Winkel und Richtungen. Gegebenenfalls sind Winkel und Richtungen
ins Bogenmaß umzurechnen.
Beim Aufspüren eventueller Fehler in den Ausgangsmatrizen sind korrespondie-
rende Elemente „heiße“ Kandidaten. Geht zum Beispiel die 3. Gleichung der Haupt-
probe nicht auf, so ist die Wahrscheinlichkeit groß, dass in der 3. Zeile der Matrix A
oder das 3. Element des Vektors (b − b0 ) fehlerhaft sind.
Hat man die eben genannten Punkte überprüft und kann derartige Fehler ausschlie-
ßen, die Hauptprobe geht aber trotzdem nicht auf, so ist wahrscheinlich die Grundvor-
aussetzung des Linearisierens nicht gegeben: Die Näherungswerte waren offenbar zu
schlecht und die Taylorreihe hätte nicht bereits nach den Gliedern erster Ordnung ab-
gebrochen werden dürfen. In diesem Fall geht man iterativ vor:
Man rechnet zunächst einen Ausgleich durch. Das Ergebnis dieses Ausgleichs wird
als Näherungslösung für einen weiteren Durchgang verwendet. Die Iteration wird so-
lange durchgeführt, bis die Hauptprobe genügend genau erfüllt ist. In Einzelfällen kann
es auch vorkommen, dass die Iteration nicht konvergiert.
78 KAPITEL 5. DIE METHODE DER KLEINSTEN QUADRATE

Ein Beispiel zum Ausgleich eines nicht-linearen Gleichungssystems werden wir uns
im nächsten Kapitel ansehen.

5.4 Stochastische Eigenschaften der Unbekannten


Wir haben im 4. Kapitel die Kovarianzmatrix kennen gelernt, das ist jene Matrix, in der
die Varianzen und Kovarianzen eines Zufallsvektors zusammengefasst sind und die so-
mit die stochastischen Eigenschaften des Zufallsvektors beschreibt. Der Lösungsvektor
x, den wir aus (5.9) oder (5.15) erhalten, ist so ein Zufallsvektor. Ihm ist daher eine Kova-
rianzmatrix zugeordnet. Sie fällt im Zuge der Ausgleichsrechnung beinahe „gratis“ an.
Sie ergibt sich nämlich aus der Inversen der Normalgleichungsmatrix N, die wir ohne-
hin zur Auflösung des Gleichungssystems brauchen, sowie dem Verbesserungsvektor
v:  2
s1 s12 . . . s1u

 s21 s2 . . . s2u  vT v
2
Cx =  . . . . = N −1 (5.19)
 
 .. .. .. ..  n−u

su1 su2 ... s2u


In der Hauptdiagonalen dieser Matrix Cx stehen die Varianzen der Unbekannten x1
bis xu ; durch Wurzelziehen erhalten wir daraus die Standardabweichungen. Wir kön-
nen also mit Hilfe der Methode der kleinsten Quadrate nicht nur überbestimmte Glei-
chungssysteme lösen, sondern gleichzeitig auch die Standardabweichungen der ausge-
glichenen Unbekannten angeben.

5.5 Englische Begriffe


ausgeglichene (Beobachtung, Parameter) - Näherungswerte - assumed (auch: approxi-
adjusted (observation, parameter) mate) parameter values
linearisierte Beobachtungsgleichungen - Normalgleichungen - normal equations
linearised observation equations
überbestimmt - over-determined
Methode der kleinsten Quadrate - least
squares method auch: maximum likelihood Unbekannte - unknown parameters
method Verbesserungen - residuals auch: corrections
Kapitel 6

Regression und Korrelation

6.1 Einleitung
In diesem Kapitel geht es um die Beziehung zwischen zwei Zufallsvariablen. Wir wol-
len den Einfluss einer Variablen auf die andere untersuchen. Gesucht sind Art, Rich-
tung und Stärke des Zusammenhangs, mit dem sich die interessierende Variable (auch:
abhängige oder Response-Variable) aus der erklärenden Variablen (auch: unabhängige oder
Prädiktor-Variable) erklären lässt. Dabei unterstellen wir zunächst einen linearen Zusam-
menhang, nehmen also an, dass sich die abhängige Variable mehr oder weniger gut als
lineare Funktion der unabhängigen Variablen darstellen lässt. Mathematisch geht es al-
so um die Bestimmung der Parameter einer Geraden (Anstieg und Achsenabschnitt).
Dabei wird die im letzten Kapitel eingeführte Methode der kleinsten Quadrate eine wich-
tige Rolle spielen.

6.2 Regressionsrechnung
6.2.1 Ein Beispiel
Sehen wir uns zu Beginn ein einfaches Beispiel an: Tabelle 6.1 zeigt das Ergebnis der
Untersuchung von Größe und Gewicht zwanzig zufällig ausgewählter Erwachsener.
Wir könnten zu diesen Daten die Häufigkeitsverteilungen für X und für Y in einer

X Größe [cm] Y Gewicht [kg] X Größe [cm] Y Gewicht [kg]


188 83 170 68
183 88 187 92
183 81 177 85
185 85 178 78
178 70 180 75
198 94 182 75
163 55 189 88
164 57 173 68
174 80 176 77
185 78 177 78

Tabelle 6.1: Größe und Gewicht 20 zufällig ausgewählter Erwachsener

Tabelle oder grafisch darstellen und wichtige charakterisierende Parameter wie Mittel-

79
80 KAPITEL 6. REGRESSION UND KORRELATION

werte oder Streuungsmaße berechnen. Solche und ähnliche Fragen haben wir uns im
2. Kapitel gestellt. Wir könnten auch – wie im 3. Kapitel – feststellen, dass sowohl die
Verteilung der gemessenen Körpergrößen als auch die Verteilung der Gewichte in etwa
einer Gaußschen Glockenkurve und somit einer Normalverteilung folgen.
Wir können aber auch die beiden Zufallsgrößen Größe und Gewicht gemeinsam be-
trachten und in einem Streudiagramm („Punktwolke“) darstellen. Dazu stellen wir die
beiden Variablen X und Y in einem Koordinatensystem dar und zeichnen für jeden
Merkmalsträger einen Punkt an den Koordinaten (X,Y) ein1 . Aus einem Streudiagramm
können wir oft bestimmte „Muster“ in unseren Daten optisch ablesen, Trends erkennen
und augenscheinliche Zusammenhänge zwischen Daten sehen.

Abb. 6.1 Streudiagramm zu den Daten aus Tab.6.1

100

90

80

70

60

50
150 160 170 180 190 200 210

Wir können zum Beispiel in der Abb.6.1 feststellen, dass mit zunehmendem X auch
die Variable Y tendenziell zunimmt. Das legt den Schluss nahe, dass sich das Körper-
gewicht aus der Körpergröße erklären lässt2 . Dieser Zusammenhang ist natürlich kein
streng deterministischer, d.h. es gibt kein naturwissenschaftliches Gesetz oder Funktion,
die aus der Körpergröße das exakte Gewicht errechnen kann. Es gibt aber einen ten-
denziellen Zusammenhang; wir nennen das auch einen stochastischen oder statistischen
Zusammenhang. Er ist dadurch gekennzeichnet, dass er immer nur mit einer gewissen
Unschärfe angegeben werden kann. Aufgabe der Regressionsrechnung ist es nun, die Art
des stochastischen Zusammenhangs zu beschreiben.
Zunächst einmal können wir in Abb.6.1 ein bestimmtes Muster erkennen, das von
links unten nach rechts oben verläuft. Wir sprechen in diesem Fall von einem positiven
Zusammenhang; andernfalls (von links oben nach rechts unten) von einem negativen.
Es kann natürlich auch sein, dass wir wir wirklich im wahrsten Sinn des Wortes einen
Punkt-Haufen vor uns haben und zunächst einemal überhaupt kein Zusammenhang
oder „Muster“ erkennbar ist (Abb.6.2).
Die nächste Frage, die wir uns stellen wollen, ist: Von welchem Typ könnte eine
Funktion sein, die wir „in die Punktwolke hineinlegen“, und die als charakteristischer
Repräsentant der Punktwolke gelten kann? Prinzipiell unterscheiden wir dabei zwi-
1 Streudiagramme können auch dreidimensional sein und drei Zufallsgrößen X, Y und Z repräsentieren
2 Tatsächlich
ist die Körpergröße nur eine Variable, die das Gewicht beeinflusst. Es spielt auch das Alter,
das Geschlecht, die Essgewohnheiten, der Hormonhaushalt, die Bewegungsfreudigkeit etc. eine Rolle. Aber
in dieser einfachen statistischen Untersuchung betrachten wir nur bivariate Zufallsgrößen.
6.2. REGRESSIONSRECHNUNG 81

Abb. 6.2 Streudiagramme mit verschiedenen Mustern (positiv, negativ und „zusam-
menhangslos“

schen linearen und nicht-linearen Funktionen. Lineare Funktionen (= Geraden) sind ein-
facher zu handhaben, daher wird ihnen oft der Vorzug gegeben. Es gibt aber auch an-
dere Funktionen, die die Regressionszusammenhänge beschreiben, unter anderem Pa-
rabeln, Hyperbeln, Exponenzialfunktionen, etc. Man darf dabei nicht immer nur nach
dem Augenschein gehen und die Punktwolke „optisch“ beurteilen, sondern sollte auch
inhaltliche Überlegungen miteinbeziehen. So wirkt sich zum Beispiel das Einbringen
von Düngemitteln auf ein Feld zunächst so aus, dass mit zunehmendem Düngemitte-
leinsatz der Ernteertrag tendenziell steigen wird. Allerdings wird dies nur bis zu einem
gewissen Maximum gehen, und jede weitere Erhöhung der Düngemittelmenge wird
zu einer Überdüngung führen und den Ernteertrag wieder verringern, im schlimmsten
Fall sogar zu einem niedrigerem Ertrag führen, als wenn wir gar nicht gedüngt hät-
ten. Der Verlauf des Zusammenhangs der beiden Variablen „Düngemittelmenge“ und
„Ernteertrag“ ist somit nicht linear. In den meisten Fällen können wir aber die Punkt-
wolke eines Streudiagramms in mehrere „Teilwolken“ zerlegen, die ihrerseits jeder für
sich wieder durch lineare Funktionen charakterisiert werden können.

6.2.2 Die Regressionsgerade


Wir gehen also von einem linearen Zusammenhang aus und suchen die beiden Para-
meter der Geradengleichung3 . Die Lösung ist sehr einfach: Wir bedienen uns der im
vorigen Kapitel erarbeiteten Methode der kleinsten Quadrate und bestimmen als Regres-
sionsgerade die ausgleichende Gerade durch die Punktwolke. Wir geben also jene Gerade
an, bei der die Summe der quadrierten, in y-Richtung gemessenen Abstände zwischen
den Punkten und der Geraden minimal ist.
Fassen wir alle Realisierungen xi der Zufallsvariablen X in der Matrix A zusammen,
und alle Realisierungen yi im Vektor y, so können wir die Lösung für die Parameter k
und d (Anstieg und Achsenabschnitt der Geraden) gleich angeben:

1
   
x1 y1
 x2 1   y2 
A= .. .. , y= ..
   

 . .   . 
xn 1 yn

   −1
k

= AT A AT y (6.1)
d

Will man sich nicht der Matrizenrechnung bedienen, kann man auch schrittweise vor-

3 Diebeiden Parameter sind der Anstieg der Geraden und der Achsenabschnitt auf der y-Achse (= die „Ver-
schiebung“ entlang der y-Achse relativ zum Ursprung des Koordinatensystems)
82 KAPITEL 6. REGRESSION UND KORRELATION

gehen. Zunächst berechnet man für jede Zufallsvariable den jeweiligen Mittelwert:
n n
1 1
x̄ =
n ∑ xi ȳ =
n ∑ yi (6.2)
i =1 i =1

und anschließend die Varianz der Zufallsgröße X


n
1
s2X = ( xi − x̄ )2
n − 1 i∑
(6.3)
=1

und die Kovarianz von X und Y:


n
1
n − 1 i∑
s XY = ( xi − x̄ ) (yi − ȳ) (6.4)
=1
!
n
1
=
n−1 ∑ xi · yi − n · x̄ · ȳ (6.5)
i =1

Dann erhält man die Parameter der Regressionsgeraden aus


s XY
k= (6.6)
s2X

d = ȳ − k x̄ (6.7)
Der Anstieg k der Regressionsgeraden wird auch als Regressionskoeffizient bezeich-
net. Er kann positiv oder negativ sein und dementsprechend sprechen wir von positiver
bzw. negativer linearer Regression
Wenden wir (6.1) auf unser Ausgangsbeispiel an, so erhalten wir als Ergebnis

1.08
   
k
=
d −116.10

was wir auch gleich grafisch umsetzen und in das Streudiagramm 6.1 die Regressions-
gerade einzeichnen können (Abb.6.3). Mit Hilfe der Regressionsgeraden sind durch ein-
faches Einsetzen nun auch Prognosen für nicht empirisch bestimmte Merkmalsausprä-
gungen möglich. Wir können zum Beispiel angeben, welches Körpergewicht für einen
Erwachsenen mit einer Körpergröße von 196 cm statistisch zu erwarten ist, nämlich
1.08 · 196 − 116.10 = 96 kg.

6.2.3 Ergänzungen
1. Das Wort Regression4 ist an sich eine nichtssagende, geradezu unpassende Be-
zeichnung, die aber vom „Erfinder“ der Methode, Galton5 , auf Grund eines einzi-
gen Beispiels geprägt wurde: Galton, ein Cousin von Charles Darwin, versuchte,
die Evolutionstheorie seines Cousins durch quantitative Beispiele zu untermau-
ern. In einer großangelegten experimentellen Studie untersuchte er, ob es eine Be-
ziehung zwischen der Körpergröße der Eltern und der ihrer Kinder gibt. Er fand
heraus, dass zwar große Eltern tendenziell auch große Kinder haben und kleine
Eltern kleine Kinder, allerdings in der Weise, dass die Kinder großer Eltern eher
4 vom
lat. regredior = zurückgehen
5 Sir
Francis Galton, 1822-1911, englischer Arzt und Biologe. Er verfasste zahlreiche Arbeiten über Anthro-
pologie und Vererbung und sammelte dazu Daten über verschiedene Merkmalsausprägungen der Menschen.
Anschließend entwickelte er statistische Methoden zu ihrer Auswertung.
6.3. KORRELATIONSRECHNUNG 83

Abb. 6.3 Regressionsgerade zu den Daten aus Tab.6.1

110

100

90

80

70

60

50
150 160 170 180 190 200 210

kleiner sind als ihre Eltern und umgekehrt. Eltern haben also meistens Kinder,
deren Größe näher am Durchschnitt liegt als ihre eigene Größe. Er nannte diesen
Zusammenhang „regression to mediocrity“ – den „Rückschritt zum Mittelmaß“
(Dass wir eher zur Mittelmäßigkeit tendieren hätten wir wahrscheinlich auch oh-
ne Galton vermutet – aber er hat sogar eine Theorie dazu entwickelt, mit der er
dies experimentell nachweisen konnte).
2. Verschiedene Datensets können durch ein und dasselbe lineare Regressionsmo-
dell repräsentiert werden, wie aus Abb.(6.4) ersichtlich ist.
3. Auch wenn der stochastische Zusammenhang nicht linear ist, kann ein Regresi-
onsmodell erstellt werden. Wir können nicht nur Gerade sondern jede beliebige
Funktion durch den Punkthaufen legen und mit Hilfe der Methode der kleinsten
Quadrate ihre Parameter bestimmen.

6.3 Korrelationsrechnung
Die Regressionsgerade beschreibt zwar die Art des statistischen Zusammenhangs, sagt
aber nichts über seine Stärke aus. Wir werden aber umso „ungenauere“ Prognosen abge-
ben, je geringer der statistische Zusammenhang der beiden Variablen ist. Eine Regres-
sionsgerade lässt sich berechnen, auch wenn so gut wie kein Zusammenhang vorliegt.
Wir können durch die Punktwolke ja auf jeden Fall eine Gerade dergestalt legen, dass
die Summe der Abstandsquadrate minimiert wird. Die Frage ist nun, wie eng oder weit
die Punktwolke um die erhaltene Regressionsgerade streut. Dies beantwortet die Kor-
relationsrechnung.

6.3.1 Der Korrelationskoeffizient


Wir gehen wieder von der Kovarianz von X und Y aus. Sie ist ein Parameter für die
„gemeinsame Streuung“ und entspricht dem mittleren Produkt der Abweichungen der
einzelnen xi und yi von ihrem jeweiligen Mittelwert. Ist dieses Produkt positiv, so sind
die Zufallsgrößen X und Y tendenziell eher gleich, d.h. mit großer Wahrscheinlichkeit
84 KAPITEL 6. REGRESSION UND KORRELATION

Abb. 6.4 Vier verschiedene Datensets, die durch dasselbe lineare Regressionsmodell
repräsentiert werden. Quelle: F.J.Anscombe: Graphs in Statistical Analysis – In: The American
Statistician, Vol.27, No.1 (1973), pp.17-21

nimmt die eine zu, wenn auch die andere zunimmt, beziehungsweise ab, wenn die
andere abnimmt. Ist die Kovarianz hingegen negativ, verhalten sich die Zufallsgrößen
tendenziell eher reziprok, d.h. mit großer Wahrscheinlichkeit nimmt die eine ab, wenn
die andere zunimmt, beziehungsweise zu, wenn die andere abnimmt. Zufallsgrößen,
deren Kovarianz gleich Null ist, bezeichnen wir als stochastisch unabhängig.
Der Wert der Kovarianz ist abhängig von der Dimension der beiden Zufallsgrößen
X und Y. Beschreibt zum Beispiel X die Länge einer gemessenen Distanz und Y die
Temperatur zum Zeitpunkt der Messung, so ist der Wert von s xy unterschiedlich, je
nachdem ob die Länge in mm, m oder km angegeben wird bzw. die Temperatur in Cel-
sius oder Fahrenheit. Die Kovarianzen können aber normiert werden, indem sie durch
die jeweiligen Standardabweichungen dividiert werden. Damit schafft man ein dimen-
sionsloses Maß. Der entsprechende Quotient

Cov( X, Y ) σXY
ρ XY = p = (6.8)
Var ( X ) · Var (Y ) σX σY

wird Korrelationskoeffizient genannt. Sein Schätzwert


sik
rik = (6.9)
si s k
ist der empirische Korrelationskoeffizient.
Die Definition des Korrelationskoeffizient in der Form (6.8) bzw. (6.9) stammt von
Pearson6 und wird daher auch Pearson-Korrelationskoeffizient genannt, manchmal auch
Bravais-Pearson-Korrelationskoeffizient. Bravais7 entwickelte in seiner 1846 publizierten
Analyse mathématique sur les probabiliés des errors de situation d’un point die mathemati-
schen Grundlagen der Korrelationsrechnung, auf denen Pearson 50 Jahre später auf-
baute. Der Begriff Korrelation selbst wurde übrigens erstmals 1888 in der schon auf Seite
6 Karl Pearson, englischer Eugeniker und Statistiker, 1857-1936
7 Auguste Bravais, französischer Astronom und Physiker, 1811-1863
6.3. KORRELATIONSRECHNUNG 85

82 erwähnten Publikation von Galton über Co-relations and their measurement, chiefly from
anthropometric data verwendet.
Es gilt:
−1 ≤ ρ ≤ 1 bzw. −1 ≤ r ≤ 1 (6.10)
wobei eine positive Korrelation bedeutet, dass eine Vergrößerung der Werte der einen
Zufallsgröße auch eine Vergrößerung der Werte der anderen Zufallsgröße zur Folge
hat. Eine negative Korrelation hingegen bedeutet, dass eine Vergrößerung der Werte
der einen Zufallsgröße eine Verkleinerung der Werte der anderen Zufallsgröße bewirkt
und vice versa. Ein Korrelationskoeffizient von exakt +1.0 oder −1.0 würde bedeuten,
dass nicht nur ein stochastischer linarer Zusammenhang besteht, sondern die Punkte
tatsächlich auch streng mathematisch auf einer Geraden liegen.
In unserem Beispiel (Tab. 6.1) ergibt sich ein Korrelationskoeffizient von 0.88, d.h. es
gibt (zumindest in unserer Stichprobe) einen realtiv starken positiven linearen stochas-
tischen Zusammenhang zwischen Körpergröße und Gewicht.

Bsp. 6.1 Korrelationskoeffizient und Ausreißer.


Der Korrelationskoeffizient ändert sich, wenn sich die Daten der Stichprobe ändern:
Das brasilianische Fotomodel Ana Carolina Reston (gestorben im Oktober 2006 im
Alter von 21 Jahren an den Folgen einer Magersucht) hatte bei einer Körpergröße von
1.74 Metern nur noch 40 Kilogramm gewogen. Sie hätte unseren Korrelationskoeffizi-
enten (Tab. 6.1) auf 0.79 gesenkt.
Manuel Uribe Garza, der schwerste Mann der Welt, ist 1.90 groß und wiegt 550 kg. Er
drückt den Korrelationskoeffizienten überhaupt auf 0.36.
Robert Pershing Wadlow hingegen, der als größter je lebender Mensch gilt (lebte in
Illinois, USA, von 1918-1940), hatte bei einer Größe von 2.72 Metern ein Gewicht von
199 kg, was unsere Korrelation auf ein Maß von 0.99 gesteigert hätte.

Aus Formel (6.8) bzw. (6.9) kann man erkennen, dass für den Korrelationskoeffi-
zienten – im Gegensatz zur Regression – eine Unterscheidung in eine abhängige und
eine unabhängige Zufallsvariable nicht mehr notwendig ist (Es spielt keine Rolle, was
wir als X und was als Y bezeichnen – die Formel ist bezüglich X und Y symmetrisch).
Wir können auch sagen: Der Korrelationskoeffizient beschreibt die gegenseitige lineare
Abhängigkeit.

6.3.2 Korrelation und Stochastische Abhängigkeiten


Im 4. Kapitel haben wir Ereignisse und Wahrscheinlichkeiten für ihr Eintreten unter der
stillschweigenden Annahme betrachtet, dass die einzelnen Ereignisse nicht vom Ein-
treten anderer, zeitlich vorausgehender oder räumlich beieinander liegender Ereignisse
abhängen. Beim Würfeln zum Beispiel bleibt die Wahrscheinlichkeit für das Eintreten
des Ereignisses „Augenzahl = 6“ stets gleich, egal was beim vorherigen Wurf gewürfelt
wurde. In vielen anderen Beispielen ist das aber nicht der Fall. Bei Wetterprognosen
ist zum Beispiel die Wahrscheinlichkeit dafür, dass es morgen kalt sein wird, größer,
wenn es bereits heute kalt ist. Dafür ist in der Wahrscheinlichkeitstheorie der Begriff
der bedingten Wahrscheinlichkeit definiert, was als

P ( X = a |Y = b )

geschrieben wird (lies: Wahrscheinlichkeit für das Eintreten des Ereignisses X = a, unter der
Bedingung, dass Y = b bereits eingetreten ist).
86 KAPITEL 6. REGRESSION UND KORRELATION

Wenn für die Zufallsgrößen X und Y gilt:

P ( X = a |Y = b ) 6 = P ( X = a ) (6.11)

so sind X und Y stochastisch abhängig. Die morgige Temperatur ist zum Beispiel eine
Zufallsgröße, die von der heutigen Temperatur abhängig ist (Zufallsgröße X = morgige
Temperatur und a = −1◦ , Zufallsgröße Y = heutige Temperatur und b = −2◦ ). Dabei ist
diese Abhängigkeit wechselseitig, d.h. retrospektiv wird man auch sagen können, dass
die heutige Temperatur nicht unabhängig von der morgigen war.
Hingegen ist das Wetter unabhängig davon, ob heute alles aufgegessen wurde8 (Zu-
fallsgröße X = morgiges Wetter und a = schön, Zufallsgröße Y = Alles aufgegessen und b =
ja) und es gilt:
P ( X = a |Y = b ) = P ( X = a ) (6.12)
Formel (6.12) beschreibt X und Y als stochastisch unabhängige Zufallsgrößen.
Der Korrelationskoeffizient (6.8) ist nun ein Maß für den linearen stochastischen Zu-
sammenhang der Zufallsgrößen X und Y. Zwei Komponenten X und Y des Zufallsvek-
tors X sind unkorreliert, d.h. ihr Korrelationskoeffizient ρik ist gleich Null, wenn sie sto-
chastisch unabhängig sind.

6.3.3 Nicht-lineare Zusammenhänge


Der Korrelationskoeffizient ist nur ein Maß für Stärke und Richtung des linearen Zu-
sammenhangs der Zufallsgrößen, aber kein Maß für Abhängigkeiten schlechthin. Er
sagt nichts aus über nicht-lineare Zusammenhänge. Zwei Zufallsgrößen, zwischen de-
nen ein nicht-linearer Zusammenhang besteht (zum Beispiel Y = X 2 , siehe Abb.6.5),
haben nicht unbedingt einen Korrelationskoeffizienten ρ xy = 1, wie es vielleicht zu er-
warten wäre. Der Korrelationskoeffizient kann im Gegenteil sehr klein oder sogar Null
sein. In unserem Beispiel Y = X 2 ist trotz des engen Zusammenhangs ρ xy = 0. Der

Abb. 6.5 Zwei Merkmale, die in einem nicht-linearen Zusammenhang stehen

120

100

80
Merkmal Y

60

40

20

0
0 5 10 15 20 25
Merkmal X

Korrelationskoeffizient gibt also nur darüber Auskunft, „wie gut die Zufallsgrößen auf
8 Diese Theorie ist zugegebenermaßen im Alltag umstritten. Ähnliches gilt zum Beispiel für die Wahr-

scheinlichkeit dafür, dass man Glück in der Liebe hat, unter der Bedingung, dass man Pech im Spiel hat oder
umgekehrt.
6.4. KAUSALE ZUSAMMENHÄNGE UND SCHEINKORRELATIONEN 87

einer Geraden liegen“. Wir können nicht-lineare Zusammenhänge von Zufallsgrößen


zwar mit Hilfe der Regressionsrechnung beschreiben (unter Verwendung der Metho-
de der kleinsten Quadrate), ein Maß für den Zusammenhang gibt es aber nur für lineare
Zusammenhänge9 .

6.4 Kausale Zusammenhänge und Scheinkorrelationen


Weder Korrelation noch Regression beschreiben explizit kausale Zusammenhänge. D.h.
selbst ein sehr hoher Wert des Korrelationskoeffizienten oder eine augenscheinlich „idea-
le“ Regressionsfunktion, bei der alle Punkte bereits direkt auf einer Funktion liegen wie
in Abb.6.5, sagt nichts darüber aus, dass die Größe des einen Merkmals die Ursache für
die Größe des anderen Merkmals ist. Natürlich kann eine kausale Beziehung bestehen,
das muss aber nicht der Fall sein. In diesem Zusammenhang spricht man auch oft von
einer Scheinkorrelation.
Es lässt sich zum Beispiel der statistische Zusammenhang zwischen der Anzahl der
Geburten und der Anzahl der Störche in einer bestimmten Region feststellen. Hier gibt
es meistens eine positive Korrelation, was aber nicht eine inhaltliche Kausalität beweist.
Es ist vielmehr so, dass hier die beiden Merkmale Geburtenzahl und Storchenzahl über
eine dritte Komponente, nämlich die zunehmende Verstädterung, zusammenhängen.

Bsp. 6.2 Der Mozart-Effekt: Stochastischer oder kausaler Zusammenhang?


Im Jahre 1993 erregte eine kurze Meldung im renommierten Wissenschaftsjournal Na-
ture eine überproportionale Reaktion: Frances Rauscher und Gordon Shaw berichte-
ten, dass Studenten nach dem Anhören einer Komposition von Wolfgang Amadeus
Mozart in einem anschließenden Intelligenztest signifikant höhere Leistungen erzielt
hatten als ihre Kollegen, die das Stück nicht zu hören bekamen. Daraus entwickel-
te sich bald ein florierender Geschäftszweig. Ein besonders geschäftstüchtiger Autor
ließ sich den Begriff „Mozart Effect“ sogar als Warenzeichen schützen. Er und ande-
re verdienten gut mit Büchern und Tonträgern, mit denen sie versprachen, durch die
Macht von Mozarts Musik nicht nur körperliche Beschwerden zu heilen sondern auch
die geistigen Kräfte zu steigern.
Als Statistiker wissen wir, dass solche Zusammenhänge zwar vielleicht tatsächlich
nachweisbar sind, dass es sich dabei aber um stochastische Zusammenhänge handelt
und nicht um kausale. Es kann zum Beispiel sein, dass Menschen, die intelligenter
sind, auch eher klassische Musik hören, als Menschen mit einem niedrigen Intelli-
genzquotienten. Daraus kann aber nicht abgeleitet werden, dass ein wenig Mozart
hören praktisch ohne sonstigen Aufwand die Intelligenz steigert.
Nichts desto trotz eine kleine Anregung für das Erlernen und Üben des Stoffes der
gegenständlichen Vorlesung: Es handelte sich im angegebenen Versuch um Mozarts
Sonate für zwei Klaviere, KV 448.

Selbst wenn es eine unmittelbare Kausalität gibt, müssen wir beachten, dass der Kor-
relationskoeffizient nichts über die Richtung der Kausalität aussagt. Er beschreibt ja die
gegenseitige Abhängigkeit. Dies kann zum Fehlschluss führen, Ursache und Wirkung zu
verwechseln. Ein Beispiel ist der Zusammenhang zwischen dem Anstieg von Kohlen-
dioxid in der Erdatmosphäre und dem als Globale Erwärmung bezeichneten Anstieg der
9 Manchmal begegnen wir den Begriffen auch in der Alltagssprache – allerdings oft falsch eingesetzt. Men-

schen, die besonders „wissenschaftlich“ klingen wollen oder sonst unter Beweis stellen wollen, dass sie auch
Fremdwörter einsetzen können, sprechen davon dass „zwei Dinge miteinander korrelieren“. Mit der ein-
fachen Frage, ob sie damit wirklich einen linearen Zusammenhang meinen, könnten wir sie aber leicht in
Verlegenheit bringen ...
88 KAPITEL 6. REGRESSION UND KORRELATION

Durchschnittstemperaturen (Stichwort: „Klimawandel“). Studien und Untersuchungen


zeigen hier eine offensichtliche (positive) Korrelation.
Aus Sicht der Statistik kann man aber nicht auf eine unmittelbare Kausalität und
vor allem nicht auf die Richtung eindeutige Aussagen treffen. Es könnte sein, dass der
Temperaturanstieg die CO2 -Konzentration in der Atmosphäre ansteigen lässt und nicht
umgekehrt. Oder dass beide von einer dritten Ursache abhängen, zum Beispiel dem
Zusammenspiel von kosmischer Strahlung und Sonnenwinden.
Klarheit könnte hier eine multivariate Regressionsrechnung schaffen, die aber über den
Rahmen dieser Lehrveranstaltung hinausgeht.

6.5 Englische Begriffe


Achsenabschnitt (der Regressionsgeraden oder explanatory oder independent variable
auf der y-Achse) - intercept (auch: y- Punkthaufen/Punktwolke/Streudiagramm
intercept) (of the regression line) - scatterplot
Anstieg (der Regressionsgeraden) - slope Regression - regression
(of the regression line)
Response-Variable (auch: interessierende
Ausreisser - Outlier
oder abhängige Variable) - response variable
bedingte Wahrscheinlichkeit - conditional
oder dependent variable
probability
Korrelation - correlation Streudiagramm - scatterplot
Korrelationskoeffizient - correlation coeffi- stochastisch (un)abhängig - stochastically
cient (in)dependent
Prädiktor-Variable (auch: erklärende oder Zusammenhang - (in der Statistik:) associa-
unabhängige Variable) - predictor variable tion
Kapitel 7

Induktive Statistik

Wir haben uns in den bisherigen Überlegungen einerseits mit der statistischen Unter-
suchung von empirisch ermittelten Datenmengen beschäftigt und zum Beispiel das
arithmetische Mittel einer endlichen Beobachtungsreihe angegeben, die Varianz und die
Standardabweichung. Wir haben andererseits auch ein entsprechendes theoretisches Wahr-
scheinlichkeitsmodell erarbeitet. Wir haben unter anderem die Normalverteilung kennen
gelernt und wie wir für normalverteilte Zufallsgrößen die Wahrscheinlichkeit angeben
können, dass ihre Werte innerhalb eines bestimmten Intervalls liegen.
Ein wesentliches Merkmal unserer Daten war (und ist) immer die Frage, ob sie ei-
ner Stichprobe oder der Grundgesamtheit entstammen. Oder anders ausgedrückt: Ob wir
über die empirischen Daten oder das zugrunde liegende theoretische Modell sprechen.
Wichtig ist auch die Frage, inwieweit sich die Ergebnisse der Stichprobe für die Grund-
gesamtheit verallgemeinern lassen. Wir möchten die Schlussfolgerungen, die aus der
Stichprobe gezogen werden, durch Hypothesen überprüfen und – zumindest statistisch
– absichern. Diese Fragestellungen sind Hauptaufgabe der Induktiven Statistik (auch:
Schließende oder Analytische Statistik). Die Schlussfolgerung selbst nennt man auch sta-
tistische Inferenz.

7.1 Stichproben
Am Beginn der meisten Erklärungen zu statistischen Methoden steht das Modell des
„Ziehens aus einer Urne“. Zu den Begriffen „Grundgesamtheit“ und „Stichprobe“ be-
trachten wir also auch jetzt N Kugeln, die sich in einer Urne befinden. Sie stellen die
Grundgesamtheit dar. Wir ziehen nun n mal eine Kugel zufällig aus der Urne und legen
sie anschließend wieder zurück. Dies ist die Stichprobe. Übertragen auf das statistische
Modell des Vorganges „Messen von Daten“ bedeutet dies: Wir wiederholen das Zufalls-
experiment „Messen“ n mal. Da Messgrößen stetige Größen sind, müssten wir N = ∞
mal messen um die Grundgesamtheit aller Messergebnisse zu erhalten. Das wird aber
selten gemacht. In der Regel beschränken wir uns auf eine endliche Anzahl von Wie-
derholungen, eben auf eine Stichprobe. Wichtig dabei ist, dass der Auswahlprozess, der
aus einer Grundgesamtheit eine Stichprobe zieht, tatsächlich nach dem Zufallsprinzip
erfolgt.

7.1.1 Stichprobenverteilungen
Nehmen wir zunächst folgendes Beispiel an (Tabelle 7.1): Wir haben N = 100 Zufalls-
zahlen (in den Grenzen zwischen 200 und 800). Diese 100 Zufallszahlen stellen eine

89
90 KAPITEL 7. INDUKTIVE STATISTIK

Grundgesamtheit dar. Wir können nun Mittelwert und Streuung bestimmten, nämlich:
µ = 472 und σ = 114.4. Da wir eine Grundgesamtheit vor uns haben, sind diese Werte
tatsächlich die Erwartungswerte für den Mittelwert und die Standardabweichung.

205 213 221 267 276 287 302 312 312 322
331 341 342 344 347 353 365 371 374 374
379 390 397 399 404 405 406 409 410 414
415 418 419 420 426 429 430 431 435 435
438 449 450 451 456 457 462 463 467 467
468 471 471 475 481 484 488 489 494 497
499 507 508 511 512 517 517 519 526 528
530 537 539 540 541 544 549 549 550 555
559 559 563 584 591 593 597 606 610 615
639 641 650 663 679 688 690 697 725 765

Tabelle 7.1: 100 Zufallszahlen zwischen 200 und 800

In weiterer Folge beschließen wir aber, dass es zu aufwändig wäre, tatsächlich die
Grundgesamtheit zu untersuchen. Wir wählen n = 99 Zahlen zufällig aus; diese 99
stellen nun eine Stichprobe dar und wir wollen aus der Stichprobe den Erwartungswert
schätzen1 . Aus einer Grundgesamtheit von N Elementen können wir

 
N N!
=
n n!( N − n)!

verschiedene Stichproben vom jeweils gleichen Umfang n ziehen. In unserem Fall sind
dies 100 mögliche Stichproben2 . Jede der 100 Stichproben hat ein bestimmtes arithme-
tisches Mittel (in unserem Fall: ein Wert von 469.040 bis 474.697). Da wir in jeder Stich-
probe n = 99 zufällige Zahlen (aus der Grundgesamtheit) ausgewählt haben, können
wir auch den jeweiligen Mittelwert jeder Stichprobe als Zufallsgröße auffassen. Wie je-
de andere Zufallsgröße auch, folgt dann auch der Mittelwert einer bestimmten Wahr-
scheinlichkeitsverteilung. Diese Wahrscheinlichkeitsverteilung nennen wir Stichprobenver-
teilung.
Entsprechend den Aussagen des Zentralen Grenzwertsatzes gehen wir davon aus,
dass die Stichprobenverteilung einer Normalverteilung folgt. Zu ihrer Beschreibung ver-
wenden wir die beiden wichtigen Parameter Erwartungswert und Varianz.
Wir können im Übrigen nicht nur für den Stichprobenmittelwert sondern auch für
andere Maßzahlen (zum Beispiel die Standardabweichung oder die Differenz zwei-
er Mittelwerte oder zweier Standardabweichungen) die jeweilige Stichprobenvertei-
lung angeben. Die Standardabweichung der aufgezählten Parameter werden manch-
mal auch als Standardfehler bezeichnet. Es gibt also Standardfehler des Mittelwertes,
Standardfehler der Standardabweichung, Standardfehler der Differenz zweier Mittel-
werte etc.

1 99 Werte aus einer Grundgesamtheit von 100 Werten als Stichprobe heranzuziehen mag eigenartig er-

scheinen; tatsächlich eignet sich diese Auswahl aber sehr gut, um die Methode als solche zu illustrieren, weil
es einen relativ geringen – und damit nachvollziehbaren – Rechenaufwand gibt. Siehe nächste Fußnote
2 Jede andere Zahl kleiner als 99 hätte zu einer entsprechend größeren Zahl von möglichen Stichproben

geführt
7.1. STICHPROBEN 91

7.1.2 Stichprobenverteilungen wichtiger Maßzahlen


Stichprobenverteilung des arithmetischen Mittels
Die Stichprobenverteilung des arithmetischen Mittels X̄ folgt ab einem Stichprobenum-
fang von etwa n = 30 einer Normalverteilung mit dem Erwartungswert

µ X̄ = µ (7.1)

und der Standardabweichung


σ
σX̄ = √ (7.2)
n
d.h. der Erwartungswert von X̄ ist gleich dem Erwartungswert der Grundgesamtheit
und die Standardabweichung von X̄ gleich der Standardabweichung der Grundge-
samtheit dividiert durch die Wurzel aus dem Stichprobenumfang n.

Stichprobenverteilung der Standardabweichung


Unter der Voraussetzung der Normalverteilung der Grundgesamtheit folgt die Stich-
probenverteilung der Standardabweichung S für n → ∞ ebenfalls einer Normalvertei-
lung mit dem Erwartungswert
µS = σ (7.3)
und der Standardabweichung
σ
σS = √ (7.4)
2n
d.h. der Erwartungswert der Variablen S ist die Standardabweichung der Grundge-
samtheit; die Streuung nimmt mit steigendem n rasch ab.

Stichprobenverteilung der Differenz zweier Mittelwerte


Manchmal steht man vor der Aufgabe, zwei Mittelwerte miteinander zu vergleichen.
Dazu eignet sich die Differenz der Mittelwerte

DX̄ = X̄1 − X̄2 (7.5)

Gehen wir nun von zwei Grundgesamtheiten mit den Mittelwerten µ1 und µ2 und
den Standardabweichungen σ1 und σ2 aus, aus denen wir zwei (voneinander unabhän-
gige) Stichproben mit den Umfängen n1 und n2 gezogen haben, dann folgt die Zufalls-
größe DX̄ einer Normalverteilung mit dem Erwartungswert

µ DX̄ = µ1 − µ2 (7.6)

und der Standardabweichung


s
σ12 σ2
σDX̄ = + 2 (7.7)
n1 n2

Stichprobenverteilung der Differenz zweier Standardabweichungen


Bei großen Stichprobenumfängen (n > 100) und annähernd normalverteilter Grundge-
samtheiten folgt die Stichprobenverteilung der Differenz zweier Standardabweichun-
gen
D S = S1 − S2 (7.8)
92 KAPITEL 7. INDUKTIVE STATISTIK

einer Normalverteilung mit dem Erwartungswert

µ DS = σ1 − σ2 (7.9)

und der Standardabweichung


s
σ12 σ2
σDS = + 2 (7.10)
2n1 2n2

7.2 Schätzverfahren
Die Parameter der Wahrscheinlichkeitsverteilung von Zufallsvariablen (zum Beispiel
der Erwartungswert µ und die Varianz σ2 ) sind uns im Allgemeinen unbekannt. Aus
der Häufigkeitsverteilung einer Stichprobe können wir aber Schätzwerte für diese Para-
meter ermitteln, zum Beispiel den Stichprobenmittelwert X̄ als Schätzer für den Erwar-
tungswert µ und die Stichprobenvarianz S2 als Schätzer für die Varianz σ2 der Grund-
gesamtheit. Neben dem arithmetischen Mittelwert sind aber auch noch der Median und
der Modalwert mögliche Schätzer des Erwartungswertes. (Das wissen wir alles spätes-
tens seit dem 2. Kapitel).
Zur Unterscheidung zwischen dem Parameter und seinem Schätzer werden die
Schätzer oft auch „mit Dach“ geschrieben, also zum Beispiel µ̂ = X̄.
Die konkreten Schätzwerte x̄ und s2 die wir aus einer Stichprobe erhalten sind Rea-
lisierungen der Zufallsvariablen X̄ und S2 . Sie werden von Stichprobe zu Stichprobe
verschieden sein und um den wahren Wert des unbekannten Parameters streuen.
Wir können aber als Schätzer nicht nur einzelne Werte angeben sondern auch ganze
Intervalle. Je nachdem sprechen wir dann von einer Punktschätzung oder einer Intervall-
schätzung.

7.2.1 Punktschätzung
Es ist das Ziel einer Punktschätzung, mittels einer Stichprobe vom Umfang n einen
(einzelnen) Wert für den unbekannten Parameter Θ zu schätzen3 . Dazu definieren wir
vorneweg noch den Begriff der Erwartungstreue, weil er eine wichtige Rolle für das Fol-
gende spielen wird:
Sei X = ( X1 , . . . , Xn ) eine Stichprobe und T (X) = T ( X1 , . . . , Xn ) eine Schätzfunktion
des unbekannten Parameters Θ. Die Schätzung T (X) heißt erwartungstreu (auch: unver-
zerrt oder: unbiased), wenn auch für endliche Stichproben sein Erwartungswert gleich
dem zu schätzenden Parameter ist, wenn also gilt:

EΘ ( T (X)) = Θ (7.11)

andernfalls heißt sie nicht erwartungstreu (auch: verzerrt oder biased). Die Differenz zwi-
schen dem Erwartungswert EΘ ( T (X)) der Schätzung und dem zu schätzenden Parame-
ter Θ wird Bias (Verzerrung) genannt. Erwartungstreue Schätzer haben demnach einen
Bias gleich Null.
Wir wollen uns auch noch den Begriff der so genannten Maximum Likelihood-Methode4
merken. Diese Schätzmethode dient, ausgehend von einer konkreten Stichprobe, dem
3 falls nicht geläufig: Θ ist der griechische Großbuchstabe „Theta“, entspricht im Deutschen in etwa einem

[th]. Wir verwenden es hier einfach als Variable für einen beliebigen statistischen Parameter
4 Eine gute deutsche Übersetzung dafür gibt es nicht; hin und wieder trifft man auf maximale Mutmaßlich-

keit; das hat sich aber – mit Recht – nicht wirklich durchgesetzt. Eine andere deutsche Übersetzungen ist auch
„Schätzung nach der größten Erwartung“.
7.2. SCHÄTZVERFAHREN 93

Auffinden von Punktschätzern für einen Parameter einer Grundgesamtheit und hat ne-
ben der Erwartungstreue auch noch andere „Güteeigenschaften“, auf die wir hier nicht
näher eingehen wollen. Die Maximum Likelihood-Methode setzt voraus, dass der Ver-
teilungstyp der Grundgesamtheit bekannt ist. Die „Methode der kleinsten Quadrate“
ist eine solche Maximum Likelihood-Schätzung von Parametern der Normalverteilung.
Wie sehen nun die konkreten Maximum Likelihood-Schätzer für die Parameter der
Normalverteilung aus?
Es gibt bekanntlich zwei Parameter der Normalverteilung: Erwartungswert und Va-
rianz. Für die Schätzung ist zu unterscheiden, ob beide Parameter unbekannt sind, oder
ob vielleicht einer der beiden bekannt ist:

µ unbekannt, σ2 bekannt
Nehmen wir an, die Varianz σ2 der Verteilung sei bekannt und gleich σ0 2 . Gesucht ist
der Maximum Likelihood-Schätzer für den unbekannten Parameter µ.
Die gesuchte Schätzfunktion lautet
n
1
Tµ (X) = µ̂ = X̄ = ∑ Xi (7.12)
n i =1

und es gilt:
E( X̄ ) = µ (7.13)
d.h. das Stichprobenmittel ist ein (erwartungstreuer) Schätzer für den Erwartungswert
der Grundgesamtheit. Außerdem gilt:

X̄ − µ √
Z= n ∼ N (0; 1) (7.14)
σ
d.h. die Größe Z folgt einer standardisierten Normalverteilung.

µ bekannt, σ2 unbekannt
Unter der Annahme, dass der Erwartungswert µ der Verteilung bekannt sei und den
Wert µ0 habe, lautet der Maximum Likelihood-Schätzer für den unbekannten Parame-
ter σ2
1 n
Tσ2 (X) = σ̂2 = ∑ ( Xi − µ0 )2 (7.15)
n i =1

µ unbekannt, σ2 unbekannt
Dies ist der Fall, der in der Praxis am häufigsten auftreten wird: sowohl Erwartungs-
wert µ als auch Varianz σ2 sind unbekannt. Der Maximum Likelihood-Schätzer für den
Erwartungswert ist gleich wie oben, also

Tµ (X) = µ̂ = X̄

Für die Stichprobenvarianz gibt es hingegen eine gegenüber (7.15) korrigierte Schätz-
funktion:
n
1
Tσ2 (X) = σ̂2 = S2 = ∑ ( X − X̄ )2 (7.16)
n − 1 i =1 i
n
Diese Korrektur mit dem Faktor n −1 ist notwendig, damit die Schätzfunktion erwar-
tungstreu bleibt.
94 KAPITEL 7. INDUKTIVE STATISTIK

Die transformierte Größe


X̄ − µ √
T= n ∼ T ( n − 1) (7.17)
S
folgt einer t-Verteilung (Student-Verteilung) mit (n − 1) Freiheitsgraden.
Ähnlich wie beim Stichprobenmittel können wir auch die Stichprobenvarianz in ei-
ne Größe transformieren, deren Verteilung wir angeben können:

( n − 1) S2
Q= ∼ χ2 ( n − 1) (7.18)
σ2

Q folgt einer χ2 -Verteilung (Chiquadrat-Verteilung) mit (n − 1) Freiheitsgraden.

Die Punktschätzung hat für stetig verteilte Zufallsgrößen einen gravierenden Nachteil:
Rein formal ist die Wahrscheinlichkeit dafür, dass der Schätzer genau gleich dem wah-
ren Wert ist, gleich Null! (Wir erinnern uns: Die Wahrscheinlichkeit ist die Fläche unter
der Dichtefunktion, und die ist nur Intervallen zugeordnet, an einer einzigen bestimm-
ten Stelle X = a hingegen nur ein „dimensionsloser Strich“). Wir wenden uns daher
in der Folge Intervallen zu und erhalten somit auch Hinweise auf die Genauigkeit der
Schätzung (die Güte).

7.2.2 Intervallschätzung
Die Abweichung zwischen der Punktschätzung für einen Parameter und dem wahren
Wert des Parameters, zum Beispiel die Differenz | x̄ − µ|, kann erheblich sein, insbe-
sondere bei kleinem Stichprobenumfang. Um besser auf diese (Un-)Genauigkeit der
Schätzung einzugehen, werden an Stelle von Punktschätzern auch Intervallschätzer an-
gegeben. Dabei wird für den unbekannten Parameter nicht ein einziger Wert sondern
ein Zufallsintervall mit den Grenzen Iu (X) und Io (X) bestimmt, das den unbekannten
Parameter Θ mit einer bestimmten vorgegebenen Wahrscheinlichkeit überdeckt. Diese
Wahrscheinlichkeit wird das Konfidenzniveau (auch: statistische Sicherheit) genannt und
mit (1 − α) bezeichnet. Iu (X) und Io (X) sind die unteren beziehungsweise oberen Konfi-
denzgrenzen und das Intervall ist das Konfidenzintervall (auch: Vertrauensintervall)5 :

C1−α (Θ) = [ Iu ; Io ] (7.19)

Konfidenzintervalle wurden 1937 vom polnisch-amerikanischen Statistiker J. Ney-


man eingeführt6 . Das Intervall ist eine Zufallsgröße und kann den Parameter Θ über-
decken oder auch nicht. α ist dann die Angabe des „Risikos“, dass man bei der Angabe
des Konfidenzintervalls eine falsche Aussage tätigt (d.h. das Intervall überdeckt den
wahren Parameter gar nicht). α wird daher Irrtumswahrscheinlichkeit (auch: Fehlerwahr-
scheinlichkeit) genannt.
Je größer α ist, desto kleiner wird das Konfidenzintervall sein und umgekehrt. Das
bringt uns ein bisschen in eine verzwickte Situation: Entweder können wir eine präzise
Aussage machen (Morgen hat es zwischen 1.2◦ und 3◦ ), die jedoch höchst unsicher ist,
oder eine unscharfe Aussage (Morgen ist die Temperatur zwischen -10◦ und +30◦ ), die sehr
5 vomlat. confidere = vertrauen
6 Jerzy
Neyman, Outline of a Theory of Statistical Estimation Based on the Classical Theory of Probability, In:
Philosophical Transactions of the Royal Society of London. Series A, Mathematical and Physical Sciencies.
Vol. 236, No. 767. (Aug. 30, 1937), pp. 333-38
7.2. SCHÄTZVERFAHREN 95

zuverlässig eintrifft (aber eben nicht viel Information enthält). In der Praxis wird für α
meist 5% oder 0.5% gewählt.
Beispiel: Wir schätzen aus einer Zufallsstichprobe ein Konfidenzintervall für den
Erwartungswert µ der zugehörigen Grundgesamtheit. (1 − α) sei 95%. Wir können
uns dann zu 95% „sicher“ sein, dass das Intervall den Erwartungswert der Grundge-
samtheit enthält. Oder anders ausgedrückt: Wenn wir aus 100 Stichproben jeweils die
Konfidenzintervalle bestimmen, wird in 95 derartigen Intervallen der Erwartungswert
enthalten sein, in 5 Fällen nicht. Abb. 7.1 zeigt als Beispiel sechs Realisierungen x̄ der
Zufallsgröße X̄ zur Schätzung des Parameters µ. Zu jeder Realisierung ist ein Intervall
angegeben. Fünf Intervalle liegen so, dass der Parameter µ tatsächlich von diesen Inter-
vallen überdeckt wird. Bei x̄4 hingegen ist µ nicht im Konfidenzintervall enthalten. Die
Wahrscheinlichkeit dafür, ein Intervall wie jenes um x̄4 zu „erwischen“, beträgt α.

Abb. 7.1 Konfidenzintervalle zum Konfidenzniveau (1 − α) = 83.3%: In einem aus


sechs Fällen enthält das Intervall, das man aus der jeweiligen Realisierung x̄ erhält, den
wahren Parameter µ nicht.

Konfidenzschätzung für µ bei bekannter Varianz σ2

Gegeben sei die Stichprobe einer normalverteilter Zufallsvariablen X. Die Varianz σ2


sei bekannt und habe den Wert σ02 . Wir bestimmen nun zunächst mit Hilfe der Formel
(7.12) einen (Punkt-)Schätzwert für den Erwartungswert µ. Anschließend konstruieren
wir ein Konfidenzintervall, das symmetrisch um µ liegt. Es hat die Grenzen
σ0
Iu (X) = X̄ − z(1−α/2) √ (7.20)
n
σ0
Io (X) = X̄ + z(1−α/2) √ (7.21)
n
96 KAPITEL 7. INDUKTIVE STATISTIK

wobei z(1−α/2) das (1 − α/2)-Quantil der standardisierten Normalverteilung ist. Für


α = 0.05 ist zum Beispiel (1 − α/2) = 0.975 und z0.975 = 1.96.
Das Intervall hat die Länge
σ0
L = 2 z(1−α/2) √ (7.22)
n

Sind α und n konstant, so haben Konfidenzintervalle aus verschiedenen Stichproben


(mit gleichem Umfang n) dieselbe Länge, jedoch eine unterschiedliche Lage. Wird α
konstant gehalten, so kann die Länge L des Intervalls durch Erhöhung des Stichpro-
benumfangs n verkleinert werden. Wird die Genauigkeit durch die Intervalllänge L
vorgegeben, so lässt sich der Mindestwert für den Stichprobenumfang n berechnen.

Konfidenzschätzung für µ bei unbekannter Varianz σ2


Wenn auch die Varianz unbekannt ist, schätzen wir sie durch die Stichprobenvarianz S2
(nach Formel 7.16) ab. Das Konfidenzintervall für µ ist dann gegeben durch die Grenzen

S
Iu (X) = X̄ − t(n−1;1−α/2) √ (7.23)
n
S
Io (X) = X̄ + t(n−1;1−α/2) √ (7.24)
n

wobei t(n−1;1−α/2) das (1 − α/2)-Quantil der t-Verteilung mit (n − 1) Freiheitsgraden


ist.

Konfidenzschätzung für die Varianz σ2 bei unbekanntem Erwartungswert µ


Für die unbekannte Varianz σ2 benötigen wir zunächst eine Punktschätzung nach (7.16).
Das Konfidenzintervall für die Varianz hat dann die Grenzen
n−1
Iu = S2 (7.25)
c(n−1;1−α/2)
n−1
Io = S2 (7.26)
c(n−1;α/2)

mit den jeweiligen Quantilen der χ2 -Verteilung mit (n − 1) Freiheitsgraden.


Wir können auch Konfidenzintervalle für die Differenz oder beliebige andere Line-
arkombinationen zweier Mittelwerte oder Standardabweichungen ausrechnen, ebenso
für Korrelationskoeffizienten, für Proportionen zweier Parameter etc. Dies ist jedoch
nicht Gegenstand der vorliegenden Vorlesung.

Konfidenzintervalle haben mit der Unsicherheit der Parameter von Grundgesamtheiten


bei deren Bestimmung aus Stichproben zu tun. Die Unsicherheit liegt jedoch nicht beim
Parameter der Grundgesamtheit, sondern bei der Stichprobe und demjenigen, der Aus-
sagen daraus ableitet. Daher abschließend nocheinmal die Anmerkung zur richtigen
sprachlichen Ausdrucksweise:
Erhalten wir für den Parameter µ beispielsweise ein 95%-Konfidenzintervall von
[849;891], so bedeutet das NICHT, „dass die Wahrscheinlichkeit 95% beträgt, dass µ einen
Wert zwischen 849 und 891 hat“. µ ist ja keine Zufallsgröße, sondern der Parameter ei-
ner bestimmten Verteilung der Grundgesamtheit (nämlich der Erwartungswert einer
7.3. TESTEN STATISTISCHER HYPOTHESEN 97

bestimmten Normalverteilung)7 . Dieser Parameter ist nicht variabel sondern fest; man
kann ihm keine Wahrscheinlichkeit zuordnen. Das Konfidenzintervall hingegen ist sehr
wohl eine (variable) Zufallsgröße. Richtigerweise muss es daher heißen:
Die Wahrscheinlichkeit, dass das Konfidenzintervall den wahren Wert von µ überdeckt, be-
trägt 95%.
Oder: Zögen wir 100 Stichproben und bildeten jeweils das Konfidenzintervall, so würden
95 Intervalle µ enthalten und 5 nicht.
Diese letzte Aussage lässt uns auch umgekehrt schließen: Wenn wir aus einer Stich-
probe für µ ein 95%-Konfidenzintervall von [849;891] erhalten, kann der Erwartungs-
wert der Grundgesamtheit, aus der diese Stichprobe stammt, auch 840 oder 900 sein.
Die Wahrscheinlichkeit, dass dies passiert, ist zwar relativ klein (eben 5%), aber doch
möglich. Wie können wir nun überprüfen, ob unsere Stichprobe tatsächlich einer be-
stimmten Grundgesamtheit angehört oder nicht?

7.3 Testen statistischer Hypothesen


Solange wir anstelle der Grundgesamtheit in der statistischen Analyse nur Stichpro-
ben vorliegen haben, gibt es keine gesicherten Aussagen. Dennoch wollen wir Aussa-
gen tätigen, die zumindest für eine größere Anzahl von zufälligen Versuchen zutreffen.
Im letzten Abschnitt haben wir uns damit beholfen, dass wir Parameter der Grund-
gesamtheit durch Intervalle eingrenzen, die mit einer bestimmten Wahrscheinlichkeit
die gesuchten Parameter überdecken. Im folgenden Abschnitt geht es nun darum, wei-
tere statistische Aussagen („Hypothesen“) über die Parameter der Grundgesamtheit zu
prüfen. Diese Hypothesen stellen wir auf Grund einer oder mehrerer Stichproben auf.
Den Hypothesen liegt in der Regel die Annahme einer bestimmten theoretischen Wahr-
scheinlichkeitsverteilung der Grundgesamtheit zu Grunde. In unseren Fällen ist dies
die Normalverteilung. Es gibt auch statistische Tests, die die Verteilung als solche über-
prüfen. In diesem Fall sprechen wir von nicht-parametrischen Tests; diese sind aber nicht
Gegenstand unserer weiteren Untersuchungen.

7.3.1 Prinzip statistischer Tests


Zunächst einmal einige Beispiele dafür, was wir mit statistischen Tests überprüfen kön-
nen:
• Eine Imbisskette wirbt damit, dass in ihren Semmeln mindestens 130g Leberkäse
enthalten sind. Die Kunden sind aber nicht ganz zufrieden und vermuten, dass
die Stücke viel kleiner sind. 10 Kunden wägen ihren Leberkäse nach. Es ergibt
sich, dass im Durchschnitt eine Portion Leberkäse nur 129.4g wiegt. Ist das nur ein
Zufall, der bei einer anderen Stichprobe auch ein „erfreulicheres“ Ergebnis hätte
bringen können? Oder steckt da Methode dahinter, und die Stücke sind zu klein?
• Jemand möchte für eine bestimmte Entscheidung überprüfen, ob sich die mittlere
Jahrestemperatur in Wiener Neustadt von jener in Villach unterscheidet.
• Eine Strecke zwischen 2 Punkten wurde n-mal gemessen, was einen Mittelwert
x̄ und eine Standardabweichung s ergibt. Nach einem Jahr wird dieselbe Strecke
wieder gemessen mit den Ergebnissen x̄ ′ und s′ . Frage: sind das zufällige Un-
terschiede oder hat sich die Strecke signifikant geändert (zum Beispiel durch eine
tatsächliche Verschiebung der 2 Punkte zueinander).
7 ob unsere Stichprobe tatsächlich aus dieser Grundgesamtheit stammt ist eine andere Frage – die werden
wir im nächsten Abschnitt klären
98 KAPITEL 7. INDUKTIVE STATISTIK

Es geht im Folgenden also darum, entweder zwei Stichproben miteinander zu verglei-


chen, oder eine Stichprobe mit der ihr zugrunde liegenden Grundgesamtheit. Für diese
Vergleiche können wir die jeweiligen Parameter – meist die Mittelwerte oder die Vari-
anzen – heranziehen und sie mit Hilfe so genannter Signifikanztests überprüfen8 .
Ausgangspunkt ist dabei zunächst eine bestimmte Hypothese, genannt Nullhypothe-
se, die in den meisten Fällen die Antwort auf die Frage als Behauptung formuliert. Will
ich zum Beispiel wissen, ob eine Grundgesamtheit einen Erwartungswert gleich Null
hat, obwohl der Schätzwert x̄ = 0.01 beträgt, so kann meine Nullhypthese lauten:

H0 : µ = 0

Allgemeiner haben Nullhypothesen über den statistischen Parameter Θ eine der


folgenden Formen:

H0 : Θ = Θ0 (7.27)
H0 : Θ ≥ Θ0 (7.28)
H0 : Θ ≤ Θ0 (7.29)

wobei Θ zum Beispiel für den Erwartungswert, die Varianz, den Korrelationskoeffizi-
enten etc. stehen kann.
Keine Hypothese im Sinne der induktiven Statistik ist hingegen

x̄ = 0.01

weil dies ja keine Aussage über einen Parameter der Grundgesamtheit sondern über
eine Stichprobe darstellt. Der arithmetische Mittelwert wurde aus ganz konkreten Rea-
lisierungen der Zufallsgrößen berechnet und es bedarf keiner Hypothese darüber, ob
das der Mittelwert der Stichprobe ist oder nicht (außer, man ist sich nicht sicher, ob
man richtig gerechnet hat...).
Ziel des Hypothesentests ist es nun, die Nullhypothese zu akzeptieren oder zu ver-
werfen. Dabei wollen wir eine Hypothese dann verwerfen, wenn die von uns beobach-
teten Stichproben eher unwahrscheinlich sind, sollte H0 wahr sein. Wir überprüfen also
ein Modell (die Grundgesamtheit) anhand von Daten (den Stichproben): Solange Modell
und Daten konsistent sind, gibt es keinen Grund, die Hypothese nicht zu akzeptieren.
Das Akzeptieren einer Hypothese mit Hilfe eines statistischen Tests heißt aber nicht,
das wir irgendwas „beweisen“ konnten. Tatsächlich lässt sich mit Stichproben gar nichts
beweisen. Wenn ein Experiment mit den theoretischen Voraussagen übereinstimmt, heißt
das noch nicht, dass die Theorie richtig ist. Es könnte ja auch eine andere, uns unbe-
kannte Theorie zu diesen Ergebnissen geführt haben.
Theorien lassen sich allerdings durch ein einziges negatives Experiment widerle-
gen9 . Will man eine Aussage bestätigen, kann man daher auch das Gegenteil dieser
Aussage als Nullhypothese formulieren. Stellt sich dann heraus, dass die Nullhypothe-
se nicht zutrifft, schließen wir daraus, dass die jeweilige Alternative richtig sein muss
– also genau, was wir ohnehin zeigen wollten. Diese „Alternative“ nennen wir auch
Alternativhypothese.

8 vom
lat. significanter = klar, deutlich
9 Von
Karl Popper (1902-1994) stammt dazu folgendes berühmte Beispiel: Nehmen Sie an, Sie wollten die
Theorie prüfen „Alle Raben sind schwarz“. Sie beobachten 100 Raben und stellen tatsächlich fest, dass jeder
Rabe schwarz ist. Ist mit diesem Ergebnis die Theorie bewiesen? Popper sagt: Es könnte auch sein, dass der
101. Rabe, den man irgendwo beobachtet, weiß ist, und die Theorie „Alle Raben sind schwarz“ wäre mit
einem Schlag widerlegt.
7.3. TESTEN STATISTISCHER HYPOTHESEN 99

Nullhypothese und Alternativhypothese


Bei statistischen Signifikanztest wird zu jeder Nullhypothese H0 auch eine Alternativ-
hypothese H A formuliert10 , das ist die „Verneinung“ der Nullhypothese. Wenn im Zuge
des Hypothesentests anhand einer (oder mehrerer) Stichproben H0 verworfen wird,
können wir die Alternativhypothese akzeptieren.
Bei der Wahl der Alternativhypothese müssen wir unterscheiden, ob uns die Ab-
weichungen des gestesteten Parameters nach oben und unten gleich wichtig sind oder
nur in eine Richtung interessieren.
Hypothesen der Form
H0 : Θ = Θ0 (7.30)
mit der Alternativhypothese
H A : Θ 6 = Θ0 (7.31)
sind so genannte zweiseitige Fragestellungen. Die Abweichungen des wahren Parameters
Θ von Θ0 sind nach oben oder unten gleich wichtig, d.h. alle abweichenden Parameter-
werte bringen die Hypothese zu Fall.
Umgekehrt sind Hypothesentests der Form

H0 : Θ ≥ Θ0 (7.32)
HA : Θ < Θ0 (7.33)

bzw.

H0 : Θ ≤ Θ0 (7.34)
HA : Θ > Θ0 (7.35)

einseitige Fragestellungen, d.h. nur die Abweichungen in eine Richtung sind interessant.
Testen wir zum Beispiel ein bestimmtes Qualitätsmerkmal, so bedeutet die Unterschrei-
tung eines vorgegebenen Sollwertes eine „schlechte“ Qualität und das Ausscheiden des
untersuchten Merkmalsträgers. Die Überschreitung hingegen hat meistens keine nega-
tiven Folgen. Verspricht zum Beispiel der Hersteller einer Batterie eine Lebensdauer
von „100 Lichtstunden“ für die Verwendung in einer bestimmten Taschenlampe, so tes-
ten wir die Nullhypothese H0 : µ ≥ 100 gegen die Alternativhypothese H A : µ < 100
(einseitiger Test) und nicht H0 : µ = 100 gegen H A : µ 6= 100 (zweiseitiger Test). Aus
Konsumentensicht heißt ja „100 Lichtstunden“ mindestens 100 Stunden, wir sind aber
mit 110 oder 130 Stunden auch zufrieden.
Betrachten wir die Abfüllanlage einer Molkerei, die in jede Packung 1l Milch einfül-
len soll, so wird der Konsument gegebenenfalls ebenfalls eine einseitige Fragestellung
testen, die Molkerei hingegen wird einen zweiseitigen Test durchführen, weil aus ihrer
Sicht auch eine Abweichung nach oben (zuviel Milch) negative Konsequenzen hat.
Die möglichen Nullhypothesen und Alternativhypothesen für einseitige und zwei-
seitige Signifikanztests sind in Tab. 7.2 zusammengefasst.
Es gibt im Übrigen auch statistische Tests, die Hypothesen und Alternativhypothe-
sen der folgenden Form verwenden: H0 : µ = 4 gegen H A : µ = 5. Diese so genannten
Alternativtests sind aber nicht Gegenstand unserer weiteren Betrachtungen.

Fehler erster und zweiter Art


Wir hoffen natürlich, dass wir uns mit unseren Stichproben ein gutes „Spiegelbild“ der
Grundgesamtheit beschafft haben. Trotzdem: Egal wie unsere Entscheidung bezüglich
10 H wird manchmal auch als Arbeitshypothese bezeichnet.
A
100 KAPITEL 7. INDUKTIVE STATISTIK

H0 HA Art der Fragestellung


Θ = Θ0 Θ 6 = Θ0 zweiseitig
Θ ≥ Θ0 Θ < Θ0 einseitig
Θ ≤ Θ0 Θ > Θ0 einseitig

Tabelle 7.2: Nullhypothesen und Alternativhypothesen bei ein- bzw. zweiseitigen Signifikanz-
tests

der Nullhypothese ausfällt, es verbleibt immer eine gewisse Unsicherheit. Diese Un-
sicherheit hängt vom Zufall ab, man kann ihr daher eine Wahrscheinlichkeit zuord-
nen. Wir sprechen von der Irrtumswahrscheinlichkeit α (auch: Signifikanzniveau): α ist die
Wahrscheinlichkeit dafür, dass bei einem Signikanztest die Nullhypothese H0 abgelehnt
wird, obwohl sie wahr ist. Wir nennen dies auch einen Fehler erster Art (siehe Tab. 7.3).
Üblicherweise11 wählen wir für α = 0.05, 0.01 oder 0.001. Eine Irrtumswahrschein-
lichkeit von α = 0.05 bedeutet: Wenn wir den Signifikanztest häufig durchführen, so
werden wir in 5 von 100 Fällen die Hypothese irrtümlich ablehnen.
Die Gegenwahrscheinlichkeit (1 − α) heißt auch Sicherheitswahrscheinlichkeit. Sie gibt
an, mit welcher Wahrscheinlichkeit wir eine richtige Nullhypothese tatsächlich als sol-
che erkennen und nicht ablehnen.
Umgekehrt können wir aber den Fehler begehen, auch eine falsche Nullhypothese
nicht abzulehnen. Dies nennen wir einen Fehler zweiter Art und ordnen ihm die Wahr-
scheinlichkeit β zu.
Die Gegenwahrscheinlichkeit (1 − β) ist die „Macht des Testes“ (auch: Teststärke). Sie
gibt an, mit welcher Wahrscheinlichkeit eine falsche Nullhypothese tatsächlich als sol-
che entlarvt und abgelehnt wird. Es ist also die Wahrscheinlichkeit, einen Fehler zweiter
Art zu verhindern.

H0 ist richtig H0 ist falsch


H0 annehmen richtige Entscheidung Fehler 2. Art
H A verwerfen P = (1 − α ) P=β
H0 verwerfen Fehler 1. Art richtige Entscheidung
H A annehmen P=α P = (1 − β )

Tabelle 7.3: Entscheidungsmöglichkeiten beim Signifikanztest

Ein „idealer“ Test wäre jener, der sowohl α als auch β minimiert, d.h. die Wahr-
scheinlichkeit, einen Fehler erster oder zweiter Art zu begehen, gleichzeitig gering hält
(besser noch: gleich Null setzt). Leider ist dies nicht möglich. Ohne auf die genauen
mathematisch-statistischen Zusammenhänge einzugehen müssen wir feststellen, dass
eine Verkleinerung von α den Wert für β vergrößert und – wie wir an den nachfolgen-
den Formeln sehen werden – eine direkte Festlegung von β in den Standardverfahren
gar nicht möglich ist. Im Allgemeinen trachtet man daher danach, α nicht kleiner als
notwendig zu wählen, je nachdem welche Konsequenz ein Fehler 2. Art hat. α und β
verringern sich übrigens beide gleichzeitig bei einer Vergrößerung des Stichprobenum-
fangs n.

11 1931 beschrieb Ronald Fisher (1890-1962) in seinem Buch The Design of Experiments, dass für viele wis-

senschafliche Experimente ein α von 0.05 („1 aus 20“) ein angemessener Wert für das Signifikanzniveau sei.
Seitdem wurde dieser Wert von vielen Disziplinen ohne weiteres Hinterfragen übernommen. – Wir werden
es ebenso tun...
7.3. TESTEN STATISTISCHER HYPOTHESEN 101

Testfunktion, Prüfgröße und Sicherheitsgrenzen


Für die Durchführung des Hypothesentests benötigen wir eine Testfunktion (auch: Stich-
probenfunktion) und deren Verteilung unter der Annahme, dass H0 zutrifft. Es handelt
sich dabei um eine Funktion T (X) der Stichprobenvariablen X.
T (X) ist selbst auch wieder eine Zufallsgröße. Ihre Verteilung hängt von der Vertei-
lung von X ab. Als Testfunktionen verwenden wir dieselben Funktionen, die wir bereits
zur Bestimmung der Konfidenzintervalle verwendet haben. Wir werden weiter unten
einige Testfunktionen angeben.
Für eine konkrete Stichprobe können wir eine Realisierung t von T (X) bestimmen –
die so genannte Prüfgröße. Mit dieser Prüfgröße sind wir nun in der Lage, die Nullhy-
pothese zu beurteilen. Dazu müssen wir zuvor noch ein Intervall dergestalt bestimmen,
dass T mit einer Wahrscheinlichkeit von (1 − α) in diesem Intervall enthalten ist. Die
Grenzen dieses Intervalls – die Sicherheitsgrenzen (auch: Schwellwerte) – sind
• bei zweiseitigem Test das (α/2) und das (1 − α/2)-Quantil
• bei einseitigem Test das (1 − α) Quantil
der entsprechenden Verteilung. Das Intervall, das zur Ablehnung von H0 führt, be-
zeichnen wir als kritischen Bereich.

Annahme oder Verwerfen der Hypothese


Liegt die Prüfgröße t innerhalb der Sicherheitsgrenzen, so wird die Nullhypothese H0
angenommen, weil ihr die vorliegenden Stichprobendaten nicht widersprechen. Liegt
die Prüfgröße allerdings im kritischen Bereich, so verwerfen wir H0 und akzeptieren
die Alternativhypothese H A .

Wie sehen nun die Tests für konkrete Parameter aus? Im Folgenden werden wir die
wichtigsten Parameter, Mittelwert und Varianz, statistischen Tests unterziehen:

7.3.2 Prüfen des Mittelwerts bei bekannter Varianz („Gauß-Test“)


Wir wollen überprüfen, ob der unbekannte Erwartungswert µ einer normalverteilten
Zufallsvariablen X einen bestimmten Wert µ = µ0 besitzt bzw. über- oder unterschrei-
tet. µ0 kann zum Beispiel ein Sollwert bei der Herstellung eines Produkts sein. Dabei
gehen wir davon aus, dass die Varianz σ2 = σ02 bekannt sei. Als einfaches Beispiel kön-
nen wir die machinelle Herstellung von Brotlaiben betrachten. Deren (in kg gemessene)
Masse X sei normalverteilt. Die Varianz σ02 = 0.12 sei aus der Erfahrung bekannt. Das
angegebene Verkaufsgewicht des Brotes sei µ = 2 kg. Eine Konsumentenschutzorgani-
sation zieht nun eine Stichprobe von n = 20 Brotlaiben und stellt einen Stichprobenmit-
telwert von x̄ = 1.97 kg fest. Es soll nun überprüft werden, ob diese Stichprobe gegen
die Hypothese spricht, dass die Brote der Grundgesamtheit mindestens 2 kg wiegen.
Zunächst ist eine Nullhypothese festzulegen:
• Für eine zweiseitige Fragestellung lautet die Nullhypothese

H0 : µ = µ0

• Für die einseitige Fragestellung lautet die Nullhypothese

H0 : µ ≤ µ0
102 KAPITEL 7. INDUKTIVE STATISTIK

oder
H0 : µ ≥ µ0
je nachdem, welche Richtung für uns interessant ist.
Im konkreten Beispiel geht es um eine einseitige Fragestellung und wir wählen als Null-
hypothese und Alternativhypothese:
H0 : µ ≥ 2
HA : µ < 2
Anschließend ist ein Signifikanzniveau festzulegen. Wir werden den üblichen Wert
von α = 0.05 wählen.
Als Testfunktion ziehen wir die folgende Funktion heran (siehe auch Formel (7.14):
X̄ − µ0 √
T (X) = n (7.36)
σ0
Aus der Realisierung der Stichprobe unseres Beispiels können wir dann die konkrete
Prüfgröße angeben:
x̄ − µ0 √ 1.97 − 2 √
t= n= 20 = −1.34
σ0 0.1
Nun bestimmen wir den kritischen Bereich:
Für eine zweiseitige Fragestellung sind die Sicherheitsgrenzen durch das (α/2) und
das (1 − α/2)-Quantil der Normalverteilung gegeben. Der kritische Bereich sind also
die beiden Intervalle
[−∞, −z(1−α/2) ] ∨ [z(1−α/2) , ∞] (7.37)
Bei einseitiger Fragestellung erhalten wir als kritischen Bereich im Fall H0 : µ ≤ µ0
das Intervall
[ z (1− α ) , ∞ ] (7.38)
Im Fall H0 : µ ≥ µ0 ist der kritische Bereich das Intervall
[−∞, −z(1−α) ] (7.39)
Nun können wir eine Entscheidung treffen: Die Nullhypothese wird abgelehnt, falls
die Testgröße im kritischen Bereich liegt, andernfalls wird H0 akzeptiert.

H0 HA Prüfgröße Entscheidung
µ = µ0 µ 6 = µ0 |t| > z(1−α/2) H0 ablehnen, H A akzeptieren
|t| ≤ z(1−α/2) H0 akzeptieren, H A ablehnen
µ ≥ µ0 µ < µ0 t < − z (1− α ) H0 ablehnen, H A akzeptieren
t ≥ − z (1− α ) H0 akzeptieren, H A ablehnen
µ ≤ µ0 µ > µ0 t > z (1− α ) H0 ablehnen, H A akzeptieren
t ≤ z (1− α ) H0 akzeptieren, H A ablehnen

Tabelle 7.4: Mögliche Ergebnisse eines Gauß-Tests

In unserem Beispiel wird H0 nicht abgelehnt, da t = −1.34, z0.05 = −1.64 und


somit t > z0.05 . Das bedeutet: Die in der Stichprobe beobachtete mittlere Masse von
1.97 ist zwar kleiner als der Sollwert 2 kg, diese Abweichung ist allerdings statistisch
nicht signifikant sondern vermutlich zufällig bedingt. Die Wahrscheinlichkeit, aus einer
Grundgesamtheit mit µ = 2 und σ2 = 0.12 eine Stichprobe mit einem Mittelwert von
höchstens 1.97 zu erhalten, ist größer als 5%. Es gibt daher – aus Sicht der Statistik –
keinen Grund, das angegebene Verkaufsgewicht von 2 kg zu beanstanden.
7.3. TESTEN STATISTISCHER HYPOTHESEN 103

7.3.3 Prüfen des Mittelwertes bei unbekannter Varianz („T-Test“)


Wenn – wie in der Praxis üblich – die Varianz σ2 unbekannt ist, lautet die Testfunktion

X̄ − µ0 √
T (X) = n (7.40)
S
(siehe auch Formel (7.17). Unter H0 besitzt diese Funktion eine t-Verteilung mit (n − 1)
Freiheitsgraden. Als Sicherheitsgrenzen gelten daher die Quantile der t-Verteilung. Die

H0 HA Prüfgröße Entscheidung
µ = µ0 µ 6 = µ0 |t| > t(n−1;1−α/2) H0 ablehnen, H A akzeptieren
|t| ≤ t(n−1;1−α/2) H0 akzeptieren, H A ablehnen
µ ≥ µ0 µ < µ0 t < −t(n−1;1−α) H0 ablehnen, H A akzeptieren
t ≥ −t(n−1;1−α) H0 akzeptieren, H A ablehnen
µ ≤ µ0 µ > µ0 t > t(n−1;1−α) H0 ablehnen, H A akzeptieren
t ≤ t(n−1;1−α) H0 akzeptieren, H A ablehnen

Tabelle 7.5: Mögliche Ergebnisse eines T-Tests

Vorgangsweise ist dieselbe wie beim Gauss-Test: Wir bestimmen aus der Testfunktion
(7.40) die Prüfgröße und vergleichen nach Tabelle 7.5, ob wir im kritischen Bereich sind
oder nicht.

7.3.4 Prüfen der Varianz („Chiquadrat-Test“)


Als Testfunktion ziehen wir
( n − 1) S2
T (X) = (7.41)
σ02

heran (siehe auch Formel (7.18). Diese Testfunktion besitzt unter H0 eine χ2 -Verteilung
mit (n − 1) Freiheitsgraden.
Die Chiquadrat-Verteilung ist bekanntlich keine symmetrische Verteilung. Daher ist
auch der kritische Bereich bei zweiseitiger Fragestellung nicht symmetrisch. Zur Ableh-
nung der Nullhypothese führt ein zu kleiner oder zu großer Wert der Prüfgröße, also
wenn wir entweder im Bereich [0, c(n−1;a/2) ] oder im Bereich [c(n−1;1−a/2) , ∞] liegen. c
ist dabei das (α/2) bzw. (1 − α/2)-Quantil der χ2 -Verteilung mit n − 1 Freiheitsgraden.

H0 HA Prüfgröße Entscheidung
σ2 = σ02 σ2 6= σ02 t ≤ c(n−1;α/2) oder H0 ablehnen, H A akzeptieren
t ≥ c(n−1;1−α/2)
c(n−1;α/2) < t < c(n−1;1−α/2) H0 akzeptieren, H A ablehnen
σ2 ≥ σ02 σ2 < σ02 t < c(n−1;α) H0 ablehnen, H A akzeptieren
t ≥ c(n−1;α) H0 akzeptieren, H A ablehnen
σ2 ≤ σ02 σ2 > σ02 t > c(n−1;1−α) H0 ablehnen, H A akzeptieren
t ≤ c(n−1;1−α) H0 akzeptieren, H A ablehnen

Tabelle 7.6: Mögliche Ergebnisse eines Chiquadrat-Tests


104 KAPITEL 7. INDUKTIVE STATISTIK

7.3.5 Prüfen der Gleichheit zweier Varianzen („F-Test“)


Wir wollen zwei normalverteilte Zufallsgrößen hinsichtlich ihrer Variabilität testen, al-
so feststellen, ob sie dieselbe Varianz haben. Die Testfunktion ist dann der Quotient der
beiden Stichprobenvarianzen:
S2
T (X, Y) = X (7.42)
SY2
Sie ist unter der Nullhypothese F-verteilt mit (n1 − 1) und (n2 − 1) Freiheitsgraden. Je

H0 HA Prüfgröße Entscheidung
σX2 = σY2 σX2 6= σY2 t > f (n1 −1;n2 −1;1−α/2) oder H0 ablehnen,
t < f (n1 −1;n2 −1;α/2) H A akzeptieren
f (n1 −1;n2 −1;α/2) < t < f (n1 −1;n2 −1;1−α/2) H0 akzeptieren,
H A ablehnen
σX2 ≤ σY2 σX2 > σY2 t > f (n1 −1;n2 −1;1−α) H0 ablehnen,
H A akzeptieren
t ≤ f (n1 −1;n2 −1;1−α) H0 akzeptieren,
H A ablehnen

Tabelle 7.7: Mögliche Ergebnisse eines F-Tests

nach der aus den Stichprobendaten erhaltenen Prüfgröße entscheiden wir nach Tab.7.7,
die Nullhypothese oder die Alternativhypothese zu akzeptieren und die jeweils andere
abzulehnen. Ist die Prüfgröße also größer als der theoretische Wert, dann gilt (mit einer
Wahrscheinlichkeit von 1 − α): Die Varianz der einen Stichprobe unterscheidet sich von
der Varianz der anderen Stichprobe signifikant. Andernfalls sind die empirisch erhalte-
nen Varianzen der Stichproben rein zufällig voneinander verschieden.

7.3.6 Prüfen der Gleichheit zweier Mittelwerte bei bekannter Varianz


(„doppelter Gauß-Test“)
Wir betrachten zwei normalverteilte Zufallsvariablen X und Y.

• bei zweiseitiger Fragestellung testen wir die Nullhypothese H0 : µ X = µY gegen


H A : µ X 6 = µY

• bei einseitiger Fragestellung H0 : µ X ≥ µY gegen H A : µ X < µY oder H0 : µ X ≤


µY gegen H A : µ X > µY

Trifft die Nullhypothese zu, so ist die Testfunktion

X̄ − Ȳ √
T ( X, Y ) = q n1 · n2 (7.43)
n2 σX2 + n1 σY2

standardnormalverteilt. Der Test selbst läuft analog zum einfachen Gaußtest.

7.3.7 Prüfen der Gleichheit zweier Mittelwerte bei unbekannten aber


gleichen Varianzen („doppelter T-Test“)
Ausgangspunkt sind wieder die beiden Zufallsvariablen X und Y wie oben, nur sind
die beiden Varianzen unbekannt. Wir gehen aber davon aus, dass sie gleich sind. Dann
7.3. TESTEN STATISTISCHER HYPOTHESEN 105

können wir eine „gemeinsame“ Varianz beider Stichproben angeben


(n1 − 1)S2X + (n2 − 1)SY2
S2 = (7.44)
n1 + n2 − 2
die wir in folgende Testfunktion einsetzen können:
X̄ − Ȳ n1 · n2
r
T (X, Y) = (7.45)
S n1 + n2
Diese Testfunktion folgt unter H0 einer Student-Verteilung mit (n1 + n2 − 2) Frei-
heitsgraden. Der Test läuft in weiterer Folge analog zum einfachen T-Test.
Es gibt auch einen Hypothesentest für die Gleichheit der Mittelwerte zweier Zu-
fallsvariablen, wenn die Varianzen unbekannt sind und die Voraussetzung der Gleich-
heit nicht gegeben ist. Dieser Test, sowie einige weitere (zum Beispiel die Prüfung des
Korrelationskoeffizienten) sind aber nicht mehr Gegenstand der vorliegenden Lehrver-
anstaltung.

Bsp. 7.1 Studie beweist: Unsere Schüler werden immer intelligenter (?)
Eine aktuelle Studie des Unterrichtsministeriums bescheinigt den Jugendlichen
an Österreichs Allgemeinbildenden Höheren Schulen (AHS), den Berufsbildenden
Höheren Schulen (BHS) und den Mittleren Schulen tolle Leistungen. 15 Prozent der
diesjährigen Zeugnisempfänger können dort auf den Vermerk „Ausgezeichneter
Erfolg“ stolz sein. Das sind immerhin 50.000 Sprösslinge, knapp 3.000 oder ein
Prozent mehr als im vergangenen Jahr.
Gleichzeitig ging die Zahl der Klassenwiederholungen bundesweit zurück, was
Ministerin Elisabeth Gehrer auf die Einführung des Frühwarnsystems zurückführt.
An den AHS sank die Sitzenbleiberquote um zwei Prozent, an den BHS um 3,8
Prozent – und das trotz steigender Schülerzahlen.
In Österreichs Volksschulen müssen nur noch 0,6 Prozent der wiederholen (2004: ein
Prozent), an den Hauptschulen ging die Quote von 2,3 auf 1,4 Prozent zurück.

Was wird hier „bewiesen“? Worin liegt der Fehlschluss der Ministerin?
(Quelle: Heute, 15.Juli 2005, Nr.217, p.5; Anm.: Das Fragezeichen in der Überschrift fehlt im
Originalbeitrag)

7.3.8 Wichtiger Hinweis


Abschließend sei noch auf die richtige Reihenfolge beim Hypothesentest verwiesen:
1. Man stellt eine bestimmte Nullhypothese und Alternativhypothese auf
2. Man gibt das Signifikanzniveau vor und bestimmt damit einen Ablehnungsbe-
reich
3. Danach wird die Stichprobe gezogen
4. Dann wird der Hypothesentest durchgeführt und entweder die Nullhypothese
oder die Alternativhypothese angenommen
Völlig unzulässig ist es, zuerst die Stichprobe zu ziehen, in den Stichprobendaten dann
verschiedene Hypothesen auszuprobieren – womöglich unter mehrfacher, abwechs-
lungsreicher Wahl von α , und dann diejenige auszuwählen, die am Besten zu meinen
Daten „passt“. Statistische Tests dürfen nie so ablaufen, dass die eigentliche Fragestel-
lung erst nach der Beobachtung der Stichprobe aufgestellt wird!
106 KAPITEL 7. INDUKTIVE STATISTIK

7.4 Englische Begriffe


Alternativhypothese - alternative hypothesis Macht des Tests - power of test
einseitiger Test - upper-tailed/lower-tailed or Nullhypothese - null hypothesis
one-sided test Punktschätzer - point estimate
Erwartungstreue - unbiasedness Prüfgröße - value of the test statistic
Fehler 1. (2.) Art - type I (II) error Sicherheitsgrenzen - critical values
Freiheitsgrade - degrees of freedom Signifikanzniveau - level of significance
H0 zugunsten von H A verwerfen - to reject Standardfehler - standard error
H0 in favour of H A Testfunktion - test statistic
Konfidenzintervall - confidence interval zweiseitiger Test - two-tailed or two sided
Konfidenzniveau - confidence level test

Damit ist die Vorlesung „Grundlagen der Statistik“ zu Ende. Das Feld der Statistik ist
sehr weit und seine Anwendungen in der Informationstechnik und (geographischen)
Datenverarbeitung vielfältig. Im Rahmen der Vorlesung konnten nur einige Teila-
spekte daraus besprochen werden. Manchmal waren es nur „Andeutungen“ über
Themen, die eine gewisse Bedeutung in unserer Disziplin erlangt haben. Bei Inter-
esse oder beruflicher Notwendigkeit werden sie den Einstieg in das jeweilige Thema
hoffentlich erleichtern und für eine intensivere Beschäftigung zumindest homöopa-
thische Spuren von Grundlagenwissen hinterlassen.
Für Ihr Berufsleben vielleicht noch ein kleiner Hinweis: Die meisten Menschen ver-
stehen noch weniger von Statistik als Sie! Verwenden Sie in der Argumentation daher
nie tiefergehende Konzepte als arithmetische Mittelwerte.
Abschließend noch eine kleines statistisches Beispiel:
Finnische Wissenschafter haben herausgefunden, warum es den Weihnachtsmann
nicht geben kann: Niemand sei kräftig genug, um in 31 Stunden (Zeitverschiebung
mit eingerechnet) 189 Millionen Kilo schwere Geschenke an 308 Millionen christliche
Kinder in 108 Millionen Haushalten verteilen zu können.
Um dies bewältigen zu können, müsste der Mann 135.000 sehr muskulöse Rentiere
im Stall haben. Jedes von ihnen müsste in der Lage sein, einen etwa eineinhalb Ton-
nen schweren Schlitten mit einer Geschwindigkeit von 1.040 Kilometern pro Sekunde
ziehen zu können. Mit den 140 Millionen zu bewältigenden Kilometern vor sich, hät-
te der Weihnachtsmann genau eine Tausendstel Sekunde, um jeweils im Schornstein
zu verschwinden, die Geschenke vor dem Baum abzulegen, und wieder auf seinen
Schlitten zu gelangen. Ganz ehrlich: Kann sich das ausgehen?
Damit wünsche ich schöne Weihnachten und für den Rest des Studiums: Viel Erfolg!
Martin Staudinger, 17.12.2007
Anhang A

Matrizenrechnung

Das Erlernen und die Anwendung statistischer Methoden setzen voraus, dass wir uns
einige mathematischen Werkzeuge in Erinnerung rufen. Dazu gehören Grundkennt-
nisse aus der Linearen Algebra, im Speziellen auch die Verwendung der Matrizenrech-
nung zur Auflösung linearer Gleichungssysteme.

A.1 Lineare Algebra


Die lineare Algebra beschäftigt sich mit Lösungsmethoden linearer Gleichungen und
Gleichungssysteme wie z.B. das folgende:

8x1 + 1x2 + 6x3 = 15


3x1 + 5x2 + 7x3 = 15 (A.1)
4x1 + 9x2 + 2x3 = 15

oder etwas allgemeiner ausgedrückt:

a11 x1 + a12 x2 + a13 x3 = b1


a21 x1 + a22 x2 + a23 x3 = b2 (A.2)
a31 x1 + a32 x2 + a33 x3 = b3

mit den Koeffizienten a11 bis a33 , den Unbekannten x1 bis x3 und den Konstanten („rechte
Seite“) b1 bis b3 . Lineare Gleichungssysteme zeichnen sich dadurch aus, dass in ihnen
– wie in obigem Beispiel – die Unbekannten nur in der Potenz 0 oder 1 vorkommen.
Ist mindestens ein bi auf der rechten Seite von Null verschieden, so heißt das Glei-
chungssystem inhomogen, im anderen Fall homogen. Obiges Gleichungssystem besteht
aus 3 Gleichungen in 3 Unbekannten und ist – unter bestimmten Voraussetzungen – ein-
deutig lösbar. Lineare Gleichungssysteme mit mehr Gleichungen als Unbekannten sind
hingegen überbestimmt; solche mit mehr Unbekannten als Gleichungen unterbestimmt.
Das Wort „Algebra“ (das im Übrigen im Deutschen auf der ersten Silbe betont wird,
im Österreichischen hingegen oft auf der zweiten) kommt aus dem Arabischen. Wört-
lich übersetzt heißt es „Wiederherstellung“: Eines der ersten algebraischen Lehrbücher
hieß Hisab al-gabr w’al-muqabala – „Wiederherstellen und Zusammenführen“. Es wurde
um 800 von Abu Ja’far Muhammad ibn Musa Al-Chwarismi geschrieben und beschreibt
das Auflösen von Gleichungen.
Al-Chwarismi’s Buch über Algebra verdanken wir übrigens nicht nur das Wort „Al-
gebra“ selbst. Als sein Buch ins Lateinische übersetzt wurde, wurde Al-Chwarismi zu
„Algoritmi“ – unser Wort „Algorithmus“ kommt davon.

A-1
A-2 ANHANG A. MATRIZENRECHNUNG

In weiterer Folge war „Algebra“ die Bezeichnung für die Lehre vom „Auflösen von
Gleichungssystemen und Ungleichungssystemen“. Die klassische Algebra beschränk-
te sich dabei auf die elementaren Operationen Addition, Subtraktion, Multiplikation,
Division, das Potenzieren und das Radizieren1 . Nicht-algebraische Gleichungen sind
in dieser Diktion Exponenzialgleichungen, Logarithmusgleichungen und trigonome-
trische (goniometrische) Gleichungen, also Gleichungen die z.B. Ausdrücke wie e x , lg x
oder sin x enthalten. Sie werden auch als transzendente Gleichungen bezeichnet.
Heute beschäftigt sich die moderne Algebra nicht nur mit Gleichungssystemen und
elementaren Operationen zu ihrer Auflösung, sondern generell und sehr formal mit
den Beziehungen mathematischer Größen untereinander, ihren Strukturen, Regeln und
Operationen. Die lineare Algebra befasst sie sich dabei speziell mit dem n-dimensionalen
Vektorraum und mit linearen Transformationen in ihm.
Neben dieser Bedeutung des Wortes „Algebra“ als ein Teilgebiet der Mathema-
tik wird auch eine mathematische Struktur, wenn sie bestimmte Eigenschaften erfüllt,
als eine Algebra bezeichnet. Diese Eigenschaften betreffen unter anderem Assoziativ-,
Kommutativ- und Distributivgesetz, sowie das Vorhandensein eines neutralen und ei-
nes inversen Elements. Unter diesen Gesichtspunkten können wir auch die Menge der
Matrizen und ihrer Operationen als eine Algebra bezeichnen.
Als praktisches Werkzeug der linearen Algebra steht uns unter anderem die Matri-
zenrechnung zur Verfügung. Viele der Berechnungsschemata und Algorithmen können
in Matrizenschreibweise angegeben werden und in der Matrizenrechnung sehr einfach
gelöst werden.

A.2 Matrizenalgebra
A.2.1 Definitionen
Eine (m,n)-Matrix ist eine (im Allgemeinen: rechteckige) Anordnung von m × n Ele-
menten in m Zeilen und n Spalten:
 
a11 a12 · · · a1n
 a21 a22 · · · a2n 
( aik ) :=  . .. . ..  = m An (A.3)
 
 .. . . . . 
am1 am2 ··· amn

Die Elemente einer Matrix können Variable, Zahlen ∈ C (oder Untermengen davon,
also N, Z, Q oder R), Polynome, Differenziale, sonstige Operatoren (Funktionen) und
Symbole aber auch selbst wieder Matrizen sein. Wenn nicht anders angegeben, werden
die von uns betrachteten Matrizen immer reelle Zahlen als Elemente enthalten, oder
Variable, die für reelle Zahlen stehen.
Die Anzahl der Zeilen und Spalten definieren den Typ (auch: Dimension oder Größe)
der Matrix. Eine Matrix mit der gleichen Anzahl von Zeilen und Spalten ist eine qua-
dratische Matrix (genauer: eine n-reihige quadratische Matrix); andernfalls sprechen wir
von einer rechteckigen Matrix. Eine (m × 1)-Matrix ist ein Spaltenvektor und eine (1 × n)-
Matrix ein Zeilenvektor. Skalare, also „einzelne“ Zahlen, können – mit bestimmten Ein-
schränkungen – als (1 × 1)-Matrizen aufgefasst werden.
Innerhalb einer Matrix können wir die einzelnen Elemente über ihren Index anspre-
chen: Der Zeilenindex gibt die Zeile und der Spaltenindex die Spalte an, wo wir das Ele-
ment finden. Üblicherweise werden zuerst der Zeilen- und dann der Spaltenindex an-
gegeben. a23 ist demnach das Element in der zweiten Zeile und dritten Spalte.
1 Wurzelziehen
A.2. MATRIZENALGEBRA A-3

Abb. A.1 „Die Melancholie“ von Albrecht Dürer zeigt rechts oben die Darstellung ei-
ner Matrix (siehe auch vergrößerten Ausschnitt). Die Matrix enthält ein so genanntes
„magisches Quadrat“.

Historische Anmerkung

Der Kupferstich „Die Melancholie“ (Melencolia I) von Albrecht Dürer zeigt bereits im
Jahre 1514 die Darstellung einer Matrix (siehe Abb.A.1). Die Matrix enthält nicht nur
in der letzten Zeile das Entstehungsjahr des Werkes (1514), sondern auch Zahlen, die
– nach Meinung von Astrologen – angeblich den Planeten Jupiter repräsentieren und
somit dem „schädlichen“ Einfluss des Saturns (repräsentiert durch andere Symbole auf
dem Bild) entgegenwirken. Interessant ist auch, dass es sich bei der matrizenhaften
Anordnung der Zahlen um ein so genanntes „magisches Quadrat“ handelt: die Sum-
me der Zahlen in jeder Zeile, in jeder Spalte und in jeder der beiden Diagonalen (von
links oben nach rechts unten von links unten nach rechts oben), ergibt jeweils densel-
ben festen Wert (hier: 34). Die Matrix A in der Gleichung (A.5) enthält übrigens auch
ein magisches Quadrat (und zwar mit der Summe 15).

Darstellung von Gleichungssystemen durch Matrizen

Wir können nun das Gleichungssystem (A.1) mit Hilfe der Matrizenrechnung ausdrücken
als
Ax = b (A.4)

mit der quadratischen Koeffizientenmatrix A, dem Konstantenvektor b und dem Unbekann-


tenvektor x, jeweils mit den konkreten Elementen wie in Gleichung (A.5) angegeben. Im
Unbekanntenvektor stehen zunächst Variable für die Lösungen des Gleichungssystems.
Ziel ist es, einen oder mehrere Lösungsvektoren x zu finden, der an Stelle der Variablen
A-4 ANHANG A. MATRIZENRECHNUNG

reelle Zahlen enthält, sodass die Gleichung (A.4) erfüllt ist.


8 1 6 15
     
x1
     
A= 3 5 7 
  b =  15 
  x =  x2
 
 (A.5)
4 9 2 15 x3
Die Verwendung runder oder eckiger Klammern für Matrizen ist übrigens beliebig.
Wir werden für Matrizen mit Zahlen meist eckige, sonst runde Klammern verwenden.
Der besseren Lesbarkeit wegen werden wir außerdem blockweise auftretende Nullen
in Matrizen meistens nicht ausschreiben, also zum Beispiel
4 1 4 0 1 0
   
   
 5 2   0 5 2 0 
M= an Stelle von M=
   
 

 6 

 0 0 6 0 
 
3 8 0 0 3 8

Submatrizen
In einer (m, n)-Matrix kann man jeden (p, q)-Block von Elementen mit p ≤ m und n ≤ q
selbst wieder als Matrix auffassen. Dieser (rechteckige oder quadratische) Block ist eine
Submatrix der Ausgangsmatrix. Wir können z.B. die Matrix A aus (A.5) zerlegen in
8 1 6
 
P q
 
A= 3 5 7 =
r s
4 9 2
wobei als Submatrizen die Matrix P, der Spaltenvektor q, der Zeilenvektor r sowie die
(1,1)-Matrix s auftreten, mit
8 1 6
   
P= q= r= 4 9 s = [2]
 
3 5 7

Weitere Eigenschaften und Begriffe


Die Hauptdiagonale einer (m, n)-Matrix sind jene Elemente, die gleichen Zeilen- und
Spaltenindex haben. Das sind die Elemente a11 , a22 , . . . amm für eine Matrix mit m ≤ n
bzw. die Elemente a11 , a22 , . . . ann für eine Matrix mit m ≥ n. Für eine quadratische Ma-
trix sind dies also alle Elemente vom linken oberen bis zum rechten unteren Eck.
Eine Diagonalmatrix ist eine Matrix, bei der die Hauptdiagonale mit mindestens ei-
nem Element 6= 0 besetzt ist, alle Elemente außerhalb der Hauptdiagonalen hingegen
= 0 sind:
aij = 0 ∀ i 6= j (A.6)
Eine Dreiecksmatrix ist eine quadratische Matrix, deren Elemente unter- oder ober-
halb der Hauptdiagonale alle Null sind. Genauer spricht man von einer oberen Dreiecks-
matrix wenn nur die Hauptdiagonale und Elemente oberhalb von ihr belegt sind:
aij = 0 ∀i > j (A.7)
bzw. von einer unteren Dreiecksmatrix wenn nur die Hauptdiagonale und Elemente un-
terhalb von ihr belegt sind:
aij = 0 ∀ i < j (A.8)
Eine quadratische Matrix ist symmetrisch wenn
aij = a ji ∀i, j ∈ {1 . . . n} (A.9)
A.2. MATRIZENALGEBRA A-5

A.2.2 Matrizenoperationen
Gleichheit von Matrizen
Zwei Matrizen A und B sind gleich, wenn sie vom gleichem Typ sind und die entspre-
chenden Elemente in beiden Matrizen gleich sind, d.h.

aij = bij ∀i ∈ {1 . . . m }, j ∈ {1 . . . n } (A.10)

Transposition
Die einfachste Matrizenoperation ist die Transposition. Sie wird auf eine einzelne Ma-
trix angewendet und bedeutet nichts anderes als ein „Stürzen“ der Matrix: Reihen und
Spalten tauschen ihre Funktionen, Reihen werden zu Spalten und vice versa. Die so ent-
standene transponierte Matrix erhält die Bezeichnung AT (wenn A die Ausgangsmatrix
war), manchmal auch A’.

( aTji ) := ( aij ) ∀ i ∈ {1 . . . m}, j ∈ {1 . . . n} (A.11)

Elementweise betrachtet kann man auch sagen: Die transponierte Matrix entsteht durch
Vertauschen der Indizes der Elemente der Ausgangsmatrix.
Wir werden die Transposition verwenden, um formal zwischen einem Spalten- und
einem Zeilenvektor zu unterscheiden: Nachdem in der Vektorrechnung ein Vektor x
üblicherweise ein Spaltenvektoren ist, werden wir einen Zeilenvektor mit xT bezeich-
nen.
Mit Hilfe der Transposition können wir auch die Definitionen (A.9) über symmetri-
sche Matrizen neu formulieren:
Eine Matrix ist symmetrisch wenn gilt:

A = AT (A.12)

Addition und Subtraktion


Die Addition und Subtraktion von Matrizen ist definiert als Addition (Subtraktion) der
jeweiligen Elemente der beiden Matrizen:

A ± B = ( aik ) ± (bik ) := ( aik ± bik ) (A.13)


     
a11 ··· a1n b11 · · · b1n a11 ± b11 ··· a1n ± b1n
.. ..   .. .
. .. ..
± . . =
   
 . . . . 
am1 ··· amn bm1 ··· bmn am1 ± bm1 ··· amn ± bmn
Formal genügen Matrixaddition und -subtraktion den bekannten Rechenregeln der Ad-
dition (Subtraktion) reeller Zahlen, mit der Einschränkung dass sie offensichtlich nur
für Matrizen desselben Typs definiert sind.
Die Matrizenaddition ist assoziativ, d.h.

(A + B) + C = A + (B + C) (A.14)

und kommutativ:
A+B = B+A (A.15)
Müssen wir die Summe zweier Matrizen transponieren, so können wir auch sum-
mandenweise vorgehen:
( A + B )T = AT + BT (A.16)
A-6 ANHANG A. MATRIZENRECHNUNG

Nullmatrix
Die Nullmatrix 0 ist eine Matrix, die als Elemente ausschließlich Nullen enthält. Sie ist
das neutrale Element der Matrizenaddition: Die Addition einer beliebigen Matrix zur
Nullmatrix (oder umgekehrt) ergibt wieder die Ausgangsmatrix:
A+0 = 0+A = A (A.17)

Multiplikation einer Matrix mit einem Skalar


Die Multiplikation einer Matrix mit einem Skalar α ist definiert als
α · A = α · ( aik ) := (α · aik ) (A.18)
   
a11 · · · a1n α · a11 · · · α · a1n
α·
 .. ..  =  .. .. 
. .   . . 
am1 ··· amn α · am1 ··· α · amn
d.h. jedes Element aus A wird mit α multipliziert. Umgekehrt kann man auch aus jeder
Matrix einen allen Elementen gemeinsamen sklaren Faktor herausheben.
Die Multiplikation einer Matrix mit einem Skalar ist kommutativ und assoziativ. Für
die Multiplikation einer Matrix mit einem Skalar und die Matrizenaddition gilt auch
das Distributivgesetz:
αA = Aα (A.19)
α( βA) = (αβ)A (A.20)
(α + β)A = αA + βA (A.21)
α(A + B) = αA + αB (A.22)

Matrizenmultiplikation
Die Multiplikation zweier Matrizen ist definiert als
!
n
A · B = ( aik ) · (bkj ) := ∑ aik · bkj = ai · b j (A.23)
k =1

d.h. das Produkt AB einer (m,n)-Matrix A mit einer (n,p)-Matrix B ist die (m,p)-Matrix
C = AB, deren Elemente cij als skalares Produkt der i-ten Zeile von A (des Zeilenvektors
ai ) mit der j-ten Spalte von B (dem Spaltenvektor b j ) gebildet werden.
Es ist offensichtlich, dass Matrizen nur dann miteinander multipliziert werden kön-
nen, wenn die Spaltenzahl der ersten Matrix gleich der Zeilenzahl der zweiten Matrix
ist.
Das Matrizenprodukt ist nicht kommutativ, d.h. im Allgemeinen sind AB und BA
verschiedene Matrizen (sofern sie überhaupt auf beide Arten verknüpfbar sind). Insbe-
sondere hat man bei einer Matrizengleichung stets beide Seiten in gleicher Weise mit
einer Matrix zu multiplizieren: entweder beide Seiten „von rechts“ oder beide Seiten
„von links“.
Die Matrizenmultiplikation ist aber assoziativ, d.h.
(AB) C = A (BC) (A.24)
Für Matrizenaddition und -multiplikation gilt das Distributivgesetz, d.h.
A (B + C) = AB + AC (A.25)
(A + B)C = AC + BC (A.26)
A.2. MATRIZENALGEBRA A-7

Einheitsmatrix
Das neutrale Element der Matrizenmultiplikation ist die Einheitsmatrix I (das I ent-
spricht dabei dem englischen Namen Identity matrix; manchmal wird im Deutschen
auch die Bezeichnung E verwendet). I ist eine quadratische Diagonalmatrix mit

Iik = δik (A.27)

wobei δik für das Kroneckersymbol steht2 :

1 für i = k

δik = (A.28)
0 für i 6= k

Die Multiplikation mit der Einheitsmatrix ist kommutativ und es gilt:

IA = AI = A (A.29)

Mithilfe der Einheitsmatrix können wir die Skalarmultiplikation erneut definieren:

α · A = (α · I) · A (A.30)

Die Multiplikation mit einem Skalar kann also auch durch eine Matrixmultiplikation
mit einer Diagonalmatrix, deren Elemente auf der Hauptdiagonalen diesem Skalar ent-
sprechen, erfolgen.

Transponieren von Matrizenprodukten


Wird ein Matrizenprodukt transponiert, so kann man stattdessen auch zuerst jede Ma-
trix transponieren und die Multiplikation dann in umgekehrter Reihenfolge durchfüh-
ren:
( A · B · C · . . . · Z )T = ZT · . . . CT · BT · AT (A.31)

Rechnen mit Submatrizen


Elementare Matrizenoperationen wie Addition, Subtraktion und Multiplikation kön-
nen auch durchgeführt werden, wenn die Elemente der einzelnen Matrizen selbst wie-
der Matrizen (Submatrizen) sind. Dabei ist natürlich besonders darauf zu achten, dass
die Dimensionen der Submatrizen miteinander korrespondieren („Dimension“ einer
Matrix ist hier sowohl im Sinne von „Anzahl der Zeilen mal Anzahl der Spalten“ zu
verstehen als auch im Sinne der physikalischen Einheiten der einzelnen Elemente).

Die Gauß’sche Transformation


Unter der Gauß’scher Transformation3 einer (m, n)-Matrix A versteht man die Bildung des
Produktes
N = AT A (A.32)
d.h. man multipliziert eine Matrix von links mit ihrer Transponierten. Das Ergebnis ist
eine quadratische, symmetrische (n, n)-Matrix, hier bezeichnet mit N. Die Elemente der
Produktmatrix N sind dabei die skalaren Produkte des i-ten mit dem k-ten Spaltenvek-
tor von A.
2 benannt nach dem preußischen Mathematiker Leopold Kronecker, 1823-1891
3 nach Johann Friedrich Carl Gauß, deutscher Mathematiker und Geodät, 1777 - 1855
A-8 ANHANG A. MATRIZENRECHNUNG

Abb. A.2 Falk’sches Schema zur Matrizenmultiplikation

p
D
n B
n
C CD

m A C=AB B BCD
A ABCD

Das Falk’sche Schema


Manchmal wird man nicht umhin kommen, zwei oder mehrere Matrizen „von Hand“
zu multiplizieren (z.B. wenn die einzelnen Elemente nicht numerische Zahlen sondern
Variablen oder Submatrizen sind). Dann ist eine von Falk4 vorgeschlagene Anordnung
nützlich, bei der jedes Produktelement cik genau im Kreuzungspunkt der i-ten Zeile
von A mit der k-ten Spalte von B erscheint (Abb. A.2).
Die Falk’sche Anordnung empfiehlt sich insbesondere bei Produkten aus mehr als
zwei Faktoren (z.B. ABCD). Baut man das Schema dabei von oben nach unten auf (s.
Abb. A.2), so muss man die Rechnung mit dem letzten Faktor beginnen und „von hin-
ten nach vorne“ multiplizieren.

Inversion
Als inverse Matrix oder Kehrmatrix einer quadratischen Matrix A bezeichnet man die
Matrix A−1 , für die gilt:
A A −1 = A −1 A = I (A.33)
Es können nur Matrizen invertiert werden, die quadratisch sind und noch andere
Eigenschaften haben, auf die wir hier aber nicht weiter eingehen wollen. Auch den
Lösungsweg zur Berechnung der Inversen werden wir hier nicht weiter behandeln.
Wir gehen davon aus, dass wir Rechenprogramme verwenden, die Matrizen invertieren
können.

A.2.3 Auflösung von Gleichungssystemen mit Matrizen


Gleichungssysteme können mit Hilfe der Multiplikation, Inversion und Gauß’schen
Transformation gelöst werden. Gegeben ist z.B. ein Gleichungssystem in der Form (A.4).
Zur Berechnung des unbekannten Vektors x kann auf beiden Seiten der Gleichung mit
A−1 multipliziert werden
A−1 Ax = A−1 b (A.34)
und da A−1 A = I folgt daraus:
x = A −1 b (A.35)
4 Sigurd Falk
A.3. MATRIZENRECHNUNG MIT MICROSOFT EXCEL A-9

Die Auflösung dieser Gleichung setzt voraus, dass die einzelnen Matrizen in der ange-
gebenen Form überhaupt miteinander verknüpfbar sind, also:

• Anzahl der Zeilen in A = Anzahl der Elemente in b und


• Anzahl der Spalten in A = Anzahl der Elemente in x

Außerdem muss die Matrix A invertierbar sein. Das Gleichungssystem ist dann eindeu-
tig lösbar.
Wir werden es andererseits manchmal auch mit überbestimmten Gleichungssyste-
men zu tun haben, d.h. die Matrix A wird nicht quadratisch sein („mehr Gleichungen
als Unbekannte“) und somit nicht invertierbar. Das Gleichungssystem muss also anders
gelöst werden.
Ohne auf die näheren Hintergründe einzugehen, wenden wir folgenden „Trick“ an:
Wir unterwerfen das Gleichungssystem einer Gauß’schen Transformation, d.h. multi-
plizieren auf beiden Seiten mit AT :

AT Ax = AT b (A.36)

(A.36) wird auch Normalgleichung genannt und die Matrix N = AT A die Normalglei-
chungsmatrix. Die Matrix N ist quadratisch und symmetrisch. Im Falle dass sie auch
invertiert werden kann ist das Gleichungssystem gelöst:

x = N −1 A T b (A.37)

mit N = AT A

A.3 Matrizenrechnung mit Microsoft EXCEL


EXCEL ist ein Programm zur „Tabellenkalkulation“, d.h. Daten werden in Tabellenform
(Zeilen und Spalten) ablegt und dann verschiedenen Berechnungen, Analysen, Visuali-
sierungen etc. zugänglich gemacht.
Die Zeilen-Spalten-Anordnung von EXCEL entspricht genau unserer Matrizenbe-
trachtungsweise.
Der Bezug auf bestimmte Zellen geschieht durch Angabe von Spalte und Zeile, wo-
bei 256 Spalten (bezeichnet mit A-Z, AA-AZ, BA-BZ, . . . , IA-IV) und 65536 Zeilen (be-
zeichnet mit 1-65536) möglich sind. Beispiel: Das Element in der 1.Zeile und 3.Spalte ist
C1, jenes in der 15.Zeile und 23.Spalte W15 etc. Der Zellbezug erscheint auch links oben
im „Namensfeld“ (Name Box).
Wir können dieses (65536 x 256) große Feld jetzt in „Sub-Felder“ unterteilen, und
damit Matrizen definieren.

A.3.1 Eine Matrix in EXCEL definieren


Jeder beliebig große rechteckige oder quadratische Bereich kann als Matrix betrachtet
und angesprochen werden. Dazu gibt es zwei Möglichkeiten:
Man gibt die Zellenbezeichnung der linken oberen und rechten unteren Ecke der
Matrix ein, dazwischen steht ein Doppelpunkt: „A4:C6“ ist also die Matrix bestehend
aus den Elementen mit dem Zellbezug

A4 B4 C4
 
 A5 B5 C5 
A6 B6 C6
A-10 ANHANG A. MATRIZENRECHNUNG

Die elegantere Möglichkeit ist es allerdings, den Matrizen auch Namen zu geben. Zu
diesem Zweck markiert man den gewünschten Bereich (z.B. A1:C3) und gibt dann im
Namensfeld (Name Box) eine beliebige Bezeichnung ein, z.B. „A“, „x“, „MyMatrix“...
. Die Bezeichnung kann im Prinzip beliebig gewählt werden. Es gelten aber folgende
Richtlinien:
• Das erste Zeichen eines Namens muss ein Buchstabe oder ein Unterstrich sein.
Für alle weiteren Zeichen des Namens können Buchstaben, Ziffern, Punkte, Fra-
gezeichen oder Unterstriche verwendet werden.
• Es dürfen keine Namen gewählt werden, die bereits einen Standard-Zellenbezug
definieren, also z.B. „A1“ oder „HK738“ oder „IV65536“.
• Namen dürfen keine Leerzeichen enthalten. Zur Trennung können Unterstriche
und Punkte verwendet werden, z.B. „A_transponiert“ oder „Inverse_Matrix“.
• Ein Name darf maximal 255 Zeichen umfassen.
• Namen können Buchstaben in Groß- und Kleinschreibung enthalten. Excel un-
terscheidet aber nicht zwischen Groß- und Kleinbuchstaben. Wenn Sie z.B. den
Namen „MyMatrix“ definiert haben und dann in derselben Arbeitsmappe den
Namen „MYMATRIX“ oder „mymatrix“ erstellen, wird der erste Name durch
den zweiten ersetzt.
Die Eingabe im Namensfeld wird mit der Returntaste abgeschlossen.
Bereiche, die als (verschiedene) Matrizen definiert sind, können sich auch überlap-
pen bzw. zwei idente Bereiche mit unterschiedlichen Namen bezeichnet werden.

A.3.2 Matrizenoperationen mit EXCEL


sind durch verschiedene bereits vordefinierte Funktionen möglich. Wichtig ist:
1. Es muss vorher festgelegt sein, wie groß das Ergebnis sein wird. Dieser Bereich ist
zu markieren (Wenn ich also z.B. eine 4 × 5 mit einer 5 × 8 Matrix multipliziere,
wird das Ergebnis eine 4 × 8-Matrix sein und ich muss dementsprechend einen
4 × 8-Bereich markieren).
2. Alle Eingaben, die ein Ergebnis haben, das mehr als eine Zelle umfasst, dürfen
nicht mit der gewöhnlichen Returntaste abgeschlossen werden, sondern durch
gleichzeitiges Drücken von Strg-Shift-Return (Excel schließt dann die Formel au-
tomatisch in geschweifte Klammern {} ein).
Einige wichtige Operationen:

Operation Eingabe in EXCEL


Addition =Matrix1+Matrix2
Multiplikation =MMULT(Matrix1;Matrix2)
Transponieren =MTRANS(Matrix)
Anzahl der Spalten =SPALTEN(Matrix)
Anzahl der Zeilen =ZEILEN(Matrix)
kleinster Wert in einer Matrix =MIN(Matrix)
Inverse =MINV(Matrix)

Bei Verwendung einer englischen Version von EXCEL sind einige Abweichungen
zu beachten:
A.3. MATRIZENRECHNUNG MIT MICROSOFT EXCEL A-11

Operation Eingabe in EXCEL


Addition =Matrix1+Matrix2
Multiplikation =MMULT(Matrix2, Matrix2)
Transponieren =TRANSPOSE(Matrix)
Anzahl der Spalten =COLUMNS(Matrix)
Anzahl der Zeilen =ROWS(Matrix)
kleinster Wert in einer Matrix =MIN(Matrix)
Inverse =MINVERSE(Matrix)

Matrix, Matrix1, Matrix2 . . . gibt den Bereich an, der als Matrix aufgefasst werden
soll (vgl. oben: Definieren einer Matrix)

Beispiele:
MMULT(A;x) ergibt die Produktmatrix Ax
MTRANS(A3:F8) ergibt die Transponierte zu jener Matrix, die durch den rechteckigen
Bereich A3 bis F8 definiert ist.
Operationen können auch verschachtelt werden. Für (AT PA)−1 wird z.B. folgende
Funktion eingegeben:
MINV(MMULT(MTRANS(A);MMULT(P;A)))
bzw. in der englischen EXCEL-Version
MINVERSE(MMULT(TRANSPOSE(A),MMULT(P,A)))

Wichtiger Hinweis
An dieser Stelle sei darauf hingewiesen, dass sich Excel als Tool zum Erlernen (und vor
allem: Verstehen) statistischer Merhoden oder eben der Matrizenrechnung einerseits
sehr gut eignet, und zwar weil
• das Programm in der Regel den Studierenden bereits bekannt ist und daher nicht
die ohnehin knapp bemessene Zeit der Statistik-Übung für das Erlernen einer
neuen Software verwendet werden muss
• die meisten Studierenden in ihrer gewohnten Windows XP- oder Vista-Look-and-
Feel-Umgebung arbeiten können
• die Anordnung der Daten mit Zeilen, Spalten und Tabellen sehr übersichtlich ge-
staltet werden kann
• Berechnungen „on the fly“ durchgeführt werden und damit
• die Auswirkung von Änderungen in den Daten sofort in den Ergebnissen sichtbar
sind
Andererseits sei aber ausdrücklich darauf hingewiesen, dass
• bestimmte statistische Routinen und Anaysen nur auf einfache Grundverfahren
limitiert sind
• bestimmte Statistik-Funktionen und -algorithmen in Excel offensichtlich falsch
implementiert sind
• bestimmte Darstellungen nicht mehr den heute üblichen Standards statistischer
Graphiken genügen, insbesondere wenn man „Default-Einstellungen“ belässt
A-12 ANHANG A. MATRIZENRECHNUNG

• Excel ganz allgemein arithmetische und numerische Probleme beinhaltet und

• man sich keineswegs der Illusion hingeben darf, dass alles, was „aus dem Com-
puter kommt“, fehlerfrei ist. (Und das liegt nicht nur am User, der vielleicht bei
der Eingabe Fehler macht).
Eine Alternative zur Verwendung von Excel5 , die jedenfalls in numerischer Hinsicht
Excel überlegen ist, ist MATLAB.
MATLAB ist ein Programm, das einen Interpreter zur Berechnung mehr oder weni-
ger komplexer mathematische Ausdrücke, insbesondere aus der Matrizenalgebra, zur
Verfügung stellt. Für die „Bedienung“ und Verwendung von MATLAB sei auf die Lehr-
veranstaltung „Technische Standardsoftware“ aus dem 1. Semester verwiesen.

5 abgesehen natürlich von „wirklichen“ Statistikprogrammen, in denen Daten eingelesen/eingegeben wer-

den und dann auf Knopfdruck verschiedene Analysen und Berechnungen gestartet werden können
Anhang B

Differenzialrechnung

In einigen Kapiteln der Vorlesung „Statistik“ benötigen wir Definitionen und Verfahren
aus der Differenzialrechnung. Wir werden sie hier in Erinnerung rufen, ohne auf die
näheren Hintergründe einzugehen.

B.1 Reelle Funktionen in einer Variablen


Eine Funktion ist eine Abbildung, die jedem Element aus einem Definitionsbereich ein Ele-
ment aus einem Wertebereich eindeutig zuordnet:
x 7→ f ( x ) (B.1)
Eine reelle Funktion ist eine Abbildung, bei der sowohl Definitionsbereich als auch
Wertebereich Teilmengen von R sind. Im Folgenden werden wir, wenn nicht anders
angegeben, ausschließlich reelle Funktionen betrachten.
{( x, f ( x )) | x ∈ Def.bereich } ist der Graph der Abbildung. Der Graph reeller Funk-
tionen in einer Variablen kann in einem (x, y)-Koordinatensystem dargestellt werden,
wobei y = f ( x ).

Differenzenquotient
Für die folgenden Überlegungen betrachten wir zunächst die Abb. B.1.
Der Quotient
∆ f (x) f ( x0 + ∆x ) − f ( x0 )
= (B.2)
∆x ∆x
mit ∆x = x − x0
heißt Differenzenquotient und gibt die Steigung der Sekante durch die Punkte P1 ( x0 , f ( x0 ))
und P2 ( x0 + ∆x, f ( x0 + ∆x )) an.

Differenzialquotient
Bilden wir nun den Grenzwert
f ( x0 + h ) − f ( x0 )
f ′ ( x0 ) = lim (B.3)
h →0 h
so erhalten wir den Differenzialquotient (auch: erste Ableitung) der Funktion f an der
Stelle x0 . Wenn für jeden Punkt des Definitionsbereichs der Funktion so ein Grenzwert
existiert, spricht man von einer differenzierbaren Funktion.

B-1
B-2 ANHANG B. DIFFERENZIALRECHNUNG

Abb. B.1 Eine Funktion y = f ( x ) und ihre Tangente im Punkt ( x0 , y0 )


y=f(x)

∆y
dy
y0

dx=∆x
x
x0

Die Ableitung einer Funktion im Punkt x gibt die Steigung der Funktionskurve in
diesem Punkt, genauer gesagt die Steigung der Tangente an die Kurve im Punkt x, an
(siehe die Tangente in Abb.B.1). Für lineare Funktionen (Polynome höchstens 1. Gra-
des) sind Differenzenquotient und Differenzialquotient (also Sekante und Tangente) in
jedem Punkt gleich.
d f (x)
Statt f ′ ( x ) verwendet man auch die auf Leibniz1 zurückgehende Schreibweise dx
und bezeichnet d f ( x ) und dx als Differenziale (daher auch der Name „Differenzialquo-
tient“).
Wir setzen in weiterer Folge voraus, dass sowohl die Ableitungen der wichtigsten
Funktionen bekannt sind, als auch die Anwendung der folgenden Differentiationsre-
geln:
Konstantenregel:
c′ = 0 (B.4)
Faktorregel:
(c · f ( x ))′ = c · f ′ ( x ) (B.5)
Potenzregel:
( x n ) ′ = n x n −1 (B.6)
Summenregel:
( f ( x ) ± g( x ))′ = f ′ ( x ) ± g′ ( x ) (B.7)
Produktregel:
( f ( x ) · g( x ))′ = f ′ ( x ) · g( x ) + f ( x ) · g′ ( x ) (B.8)
Quotientenregel:
′
f ′ ( x ) · g( x ) − f ( x ) · g′ ( x )

f (x)
= (B.9)
g( x ) ( g( x ))2

Kettenregel:
( f ( g( x )))′ = f ′ ( g( x )) · g′ ( x ) (B.10)
1 Gottfried Wilhelm von Leibniz, dt. Mathematiker und Philosoph, 1646-1716
B.2. TAYLORREIHEN B-3

(B.10) wird in der Leibniz’schen Schreibweise auch geschrieben als

df d f dg
= · (B.11)
dx dg dx
df dg
wobei dg als die äußere und dx als die innere Ableitung bezeichnet wird.

Numerische Differentiation
Funktionen können auch numerisch abgeleitet werden. Das ist vor allem dann sinnvoll,
wenn die analytische Lösung aufwändig ist. Man nähert dabei den Differenzialquoti-
enten durch den Differenzenquotienten an und berechnet die Ableitung nach

f ( x + h) − f ( x )
f ′ (x) ≈ (B.12)
h
oder – numerisch besser – nach
f ( x + h) − f ( x − h)
f ′ (x) ≈ (B.13)
2h

mit 10−8 ≤ h ≤ 10−4 .

Höhere Ableitungen
Die (erste und jede weitere) Ableitung einer Funktion kann wieder differenziert wer-
den, und zwar solange, bis man bei einer konstanten Funktion landet. Man erhält da-
durch Ableitungen höherer Ordnung. Dabei wird die zweite Ableitung mit f ′′ ( x ), die
dritte mit f ′′′ ( x ) usw., die n-te Ableitung mit f (n) ( x ) bezeichnet.

dn f ( x )
f (n) ( x ) = (B.14)
dx n

B.2 Taylorreihen
Viele Funktionen können durch Potenzreihen approximiert werden. Eine Potenzreihe
ist zum Beispiel das Polynom
n
f ( k ) ( x0 )
f (x) = ∑ ( x − x0 ) k + R n ( x ) (B.15)
k =0
k!

das – ohne dem Restglied Rn ( x ) – das n-te Taylorpolynom2 der Funktion f im Punkt x0
genannt wird. Mit dem Taylorpolynom können die Funktionswerte einer differenzier-
baren Funktion f in der Umgebung der Stelle x0 näherungsweise berechnet werden.
Man spricht auch von einer Taylorentwicklung der Funktion bis zur n-ten Ordnung.
Die unendliche Potenzreihe für n → ∞ ist die Taylorreihe von f . Wenn das Restglied
Rn ( x ) für n = ∞ gegen Null konvergiert, dann konvergiert auch die Taylorreihe gegen
f ( x ).
Mit ( x − x0 ) = ∆x bzw. x = ( x0 + ∆x ) kann (B.15) auch umgeschrieben werden zu

1 ′′ 1
f ( x0 + ∆x ) = f ( x0 ) + f ′ ( x0 )∆x + f ( x0 )(∆x )2 + . . . + f (n) ( x0 )(∆x )n (B.16)
2! n!
2 Brook Taylor, brit. Mathematiker, 1685-1731
B-4 ANHANG B. DIFFERENZIALRECHNUNG

Dies ist eine wichtige Formel, auf die wir in weiterer Folge bei der „Varianzfort-
pflanzung“ und der „Methode der kleinsten Quadrate“ zurückgreifen werden.
Jede Funktion f ( x ), die in der Umgebung von x0 (n + 1)-fach differenzierbar ist, lässt
sich an der Stelle x0 in der Form (B.15) darstellen. Eine spezielle Taylor-Form ist jene
mit x0 = 0, also eine Taylorentwicklung um den Nullpunkt der x-Achse. Sie wird auch
Maclaurin-Formel3 genannt. Bekannte Beispiele dafür sind die Reihenentwicklungen der
Winkelfunktionen sin x und cos x:

x3 x5 x7
sin( x ) = x − + − +···
3! 5! 7!

x2 x4 x6
cos( x ) = 1 − + − +···
2! 4! 6!
Eine wichtige Anwendung von Taylorreihen ist jene, bei der ∆x sehr klein ist. Die Tay-
lorentwicklung kann dann nämlich bereits nach den ersten beiden Gliedern (jenen mit
k = 0 und k = 1) abgebrochen werden. Die verbleibende Funktionsentwicklung ist
eine Gerade, nämlich die Tangente der Funktion im Punkt x0 . Das heißt: Kennen wir
den Funktionswert an der Stelle f ( x0 ), können wir in einer entsprechend kleinen Um-
gebung von x0 jeden Funktionswert angeben, indem wir die Funktion durch ihre Tan-
gente im Punkt x0 ersetzen. Diese Vorgangsweise nennen wir auch „Linearisieren der
Funktion“.

B.3 Funktionen in mehreren Variablen


Eine reelle Funktion in mehreren Variablen ist eine Abbildung, die jedem Vektor x eine
reelle Zahl zuordnet. Entsprechend der Dimension des Vektors x spricht man auch von
einer Funktion in n Variablen.

Partielle Ableitungen

Wir können bei einer Funktion in mehreren Variablen alle Variablen ausgenommen xi
als Konstante auffassen und dann ausschließlich nach xi differenzieren. Diese Ablei-
tung ist dann die partielle Ableitung (erster Ordnung) von f nach xi an der Stelle x und
wird
∂ f (x)
f xi ( x ) = (B.17)
∂xi
geschrieben. Analog zu den Funktionen in einer Variablen können wir partielle Ablei-
tungen nochmals ableiten und erhalten so partielle Ableitungen höherer Ordnung.

Das totale Differenzial

Die lineare Funktion

∂ f (x) ∂ f (x) ∂ f (x)


df = dx1 + dx2 + . . . + dxn (B.18)
∂x1 ∂x2 ∂xn

ist das totale Differenzial von f an der Stelle x.


3 Colin Maclaurin, schot. Mathematiker, 1698-1746
B.4. DIFFERENTIATION VON MATRIZENFUNKTIONEN B-5

Taylorentwicklung einer Funktion in zwei Variablen


Analog zu (B.16) kann man auch eine Funktion in zwei Variablen in einem Taylorpoly-
nom entwickeln:
∂ f ( x0 ,y0 ) ∂ f ( x0 ,y0 )
 
f ( x0 + ∆x, y0 + ∆y) = f ( x0 , y0 ) + 1!1 ∂x ∆x + ∂y ∆y +
 (2)
+ 2!1 ∂ f (x∂x0 ,y0 ) ∆x + ∂ f (x∂y0 ,y0 ) ∆y

+
(B.19)
...
(n)
+ n!1 ∂ f (x∂x0 ,y0 ) ∆x + ∂ f (x∂y0 ,y0 ) ∆y

+ Rn
 (m)
∂f ∂f
wobei der Klammernausdruck ∂x ∆x + ∂y ∆y nach dem binomischen Lehrsatz auf-
zulösen ist und   p  m− p
∂f ∂f ∂m f
˙
= (B.20)
∂x ∂y ∂x ∂ym− p
p

Linearisierung einer Funktion in mehreren Variablen


Wie im Fall einer Variablen, können wir auch hier eine Funktion in einer entsprechend
kleinen Umgebung von ( x10 , x20 , . . . x0n ) durch ihre Tangente ersetzen und die Funkti-
onswerte in dieser Umgebung durch Einsetzen in die lineare Funktion
f ( x10 + ∆x1 , x20 + ∆x2 , . . . x0n + ∆xn ) =
∂f ∂f ∂f (B.21)
f ( x10 , x20 , . . . x0n ) + ∂x ∆x1 + ∂x ∆x2 + . . . + ∂xn ∆xn
1 2

annähern. Eine „entsprechend kleine Umgebung“ ist eine, bei der die ∆x1 bis ∆xn so
klein sind, dass in der Taylorentwicklung Glieder höherer Ordnung weggelassen wer-
den können.

B.4 Differentiation von Matrizenfunktionen


Es gibt zwei Matrizenfunktionen, von denen wir die partiellen Ableitungen erster Ord-
nung benötigen: die Bilinearform und die Quadratische Form.
Die Bilinearform ist ein Matrizenprodukt der Form „Zeilenvektor mal Matrix mal
Spaltenvektor“. Das Ergebnis ist stets ein Skalar; außerdem gilt:
xT Ay = yT AT x (B.22)
Eine Bilinearform, in der die beiden beteiligten Vektoren ident sind (also: xT Ax), heißt
auch Quadratische Form.
Das Differenzial einer Bilinearform, zum Beispiel (xT AT l), lautet:
∂ ( xT AT l )
= AT l (B.23)
∂x
Das Differenzial einer Quadratischen Form, zum Beispiel (xT Ax), lautet:
∂(xT Ax)
= ( A + AT ) x (B.24)
∂x
beziehungsweise bei symmetrischer Matrix A
∂(xT Ax)
= 2Ax (B.25)
∂x
6 ANHANG B. DIFFERENZIALRECHNUNG

You might also like