Statistik - Grundlagen

Martin Staudinger Informationstechnik (BITG) FH Wiener Neustadt Version 2007/08

2

i

This work is licenced under the Creative Commons Attribution-Non-Commercial-Share Alike 3.0 License. To view a copy of this licence, visit http://creativecommons.org/licenses/by-nc-sa/3.0/

ii

Inhaltsverzeichnis
1 Einleitung 1.1 Warum wir uns mit Statistik beschäftigen 1.2 Was ist Statistik? . . . . . . . . . . . . . . . 1.3 Begriffe . . . . . . . . . . . . . . . . . . . . 1.4 Daten „messen“ . . . . . . . . . . . . . . . 1.5 Englische Begriffe . . . . . . . . . . . . . . 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1 3 4 9 10 11 11 12 12 13 14 14 15 16 17 17 19 20 22 26 27 30 32 32 34 34 35 37 38 39 39 39 40 42 43 43

Datenanalyse und deskriptive Statistik 2.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2 Mess- und Skalenniveaus . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.1 Kategorische und Numerische Daten . . . . . . . . . . . . . . . . 2.2.2 Nominalskala . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.3 Ordinalskala . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.4 Intervallskala . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.5 Rationalskala . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.6 Absolutskala . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.7 Diskrete und stetige statistische Merkmale . . . . . . . . . . . . . 2.3 Darstellungsformen von Datenmengen . . . . . . . . . . . . . . . . . . . 2.3.1 Klassenbildung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3.2 Häufigkeitstabellen . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3.3 Grafische Darstellungen . . . . . . . . . . . . . . . . . . . . . . . . 2.4 Kennwerte empirischer Häufigkeitsverteilungen . . . . . . . . . . . . . . 2.4.1 Lage-Kennwerte empirischer Häufigkeitsverteilungen . . . . . . 2.4.2 Streuungskennwerte empirischer Häufigkeitsverteilungen . . . . 2.4.3 Zentrierter, normierter und standardisierter Beobachtungswert . 2.4.4 Form-Kennwerte empirischer Häufigkeitsverteilungen . . . . . . 2.5 Statistische Begriffe der Messtechnik . . . . . . . . . . . . . . . . . . . . . 2.5.1 Wahrer Wert und Erwartungswert . . . . . . . . . . . . . . . . . . 2.5.2 Messabweichungen . . . . . . . . . . . . . . . . . . . . . . . . . . 2.5.3 Genauigkeit – Präzision – Richtigkeit – Auflösung: Ein babylonisches Sprachengewirr . . . . . . . . . . . . . . . . . . . . . . . . . 2.6 Englische Begriffe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Zufallsgrößen 3.1 Statistische Modellierung von Messdaten . . . . 3.1.1 Zufällige Versuche und Zufallsereignisse 3.1.2 Zufallsgrößen und ihre Realisierungen . 3.2 Wahrscheinlichkeitstheorie . . . . . . . . . . . . 3.3 Verteilungen von Zufallsgrößen . . . . . . . . . . 3.3.1 Wahrscheinlichkeitsverteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3

iii

iv

INHALTSVERZEICHNIS
3.3.2 Parameter von Wahrscheinlichkeitsverteilungen Wichtige Wahrscheinlichkeitsverteilungen . . . . . . . . 3.4.1 Gleichverteilung . . . . . . . . . . . . . . . . . . 3.4.2 Normalverteilung . . . . . . . . . . . . . . . . . 3.4.3 Chi-Quadrat Verteilung . . . . . . . . . . . . . . 3.4.4 Student-Verteilung . . . . . . . . . . . . . . . . . 3.4.5 Fisher-Verteilung . . . . . . . . . . . . . . . . . . 3.4.6 Der zentrale Grenzwertsatz . . . . . . . . . . . . Englische Begriffe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 48 48 49 52 54 55 57 57 61 61 61 62 64 64 65 66 67 69 69 70 70 73 76 76 77 78 78 79 79 79 79 81 82 83 83 85 86 87 88 89 89 89 91 92 92 94 97

3.4

3.5 4

Zufallsvektoren 4.1 Zufallsvektoren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.1.1 Begriffe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.1.2 Beziehungen zwischen zwei Elementen eines Zufallsvektors . 4.2 Funktionen eines Zufallsvektors . . . . . . . . . . . . . . . . . . . . . 4.2.1 Abweichungen von Funktionen eines Zufallsvektors . . . . . 4.2.2 Übergang von der Abweichung ∆y zur Standardabweichung 4.2.3 Das Kovarianzfortpflanzungsgesetz . . . . . . . . . . . . . . . 4.3 Englische Begriffe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Die Methode der kleinsten Quadrate 5.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2 Lineare Gleichungssysteme . . . . . . . . . . . . . . . . 5.2.1 Ausgleichende Gerade . . . . . . . . . . . . . . . 5.2.2 Herleitung der Methode der kleinsten Quadrate 5.3 Nicht-lineare Gleichungssysteme . . . . . . . . . . . . . 5.3.1 Gleichungssysteme „Linearisieren“ . . . . . . . 5.3.2 Probleme beim Linearisieren . . . . . . . . . . . 5.4 Stochastische Eigenschaften der Unbekannten . . . . . 5.5 Englische Begriffe . . . . . . . . . . . . . . . . . . . . . . Regression und Korrelation 6.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . 6.2 Regressionsrechnung . . . . . . . . . . . . . . . . . . . 6.2.1 Ein Beispiel . . . . . . . . . . . . . . . . . . . . 6.2.2 Die Regressionsgerade . . . . . . . . . . . . . . 6.2.3 Ergänzungen . . . . . . . . . . . . . . . . . . . 6.3 Korrelationsrechnung . . . . . . . . . . . . . . . . . . . 6.3.1 Der Korrelationskoeffizient . . . . . . . . . . . 6.3.2 Korrelation und Stochastische Abhängigkeiten 6.3.3 Nicht-lineare Zusammenhänge . . . . . . . . . 6.4 Kausale Zusammenhänge und Scheinkorrelationen . 6.5 Englische Begriffe . . . . . . . . . . . . . . . . . . . . . Induktive Statistik 7.1 Stichproben . . . . . . . . . . . . . . . . . . . . . . . . 7.1.1 Stichprobenverteilungen . . . . . . . . . . . . . 7.1.2 Stichprobenverteilungen wichtiger Maßzahlen 7.2 Schätzverfahren . . . . . . . . . . . . . . . . . . . . . . 7.2.1 Punktschätzung . . . . . . . . . . . . . . . . . . 7.2.2 Intervallschätzung . . . . . . . . . . . . . . . . 7.3 Testen statistischer Hypothesen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

5

6

7

INHALTSVERZEICHNIS
Prinzip statistischer Tests . . . . . . . . . . . . . . . . . . . . . . . Prüfen des Mittelwerts bei bekannter Varianz („Gauß-Test“) . . . Prüfen des Mittelwertes bei unbekannter Varianz („T-Test“) . . . Prüfen der Varianz („Chiquadrat-Test“) . . . . . . . . . . . . . . . Prüfen der Gleichheit zweier Varianzen („F-Test“) . . . . . . . . . Prüfen der Gleichheit zweier Mittelwerte bei bekannter Varianz („doppelter Gauß-Test“) . . . . . . . . . . . . . . . . . . . . . . . . 7.3.7 Prüfen der Gleichheit zweier Mittelwerte bei unbekannten aber gleichen Varianzen („doppelter T-Test“) . . . . . . . . . . . . . . . 7.3.8 Wichtiger Hinweis . . . . . . . . . . . . . . . . . . . . . . . . . . . Englische Begriffe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.3.1 7.3.2 7.3.3 7.3.4 7.3.5 7.3.6

v 97 101 103 103 104 104 104 105 106 A-1 A-1 A-2 A-2 A-5 A-8 A-9 A-9 A-10 B-1 B-1 B-3 B-4 B-5

7.4

A Matrizenrechnung A.1 Lineare Algebra . . . . . . . . . . . . . . . . . . . . . . . . A.2 Matrizenalgebra . . . . . . . . . . . . . . . . . . . . . . . . A.2.1 Definitionen . . . . . . . . . . . . . . . . . . . . . . A.2.2 Matrizenoperationen . . . . . . . . . . . . . . . . . A.2.3 Auflösung von Gleichungssystemen mit Matrizen A.3 Matrizenrechnung mit Microsoft EXCEL . . . . . . . . . . A.3.1 Eine Matrix in EXCEL definieren . . . . . . . . . . A.3.2 Matrizenoperationen mit EXCEL . . . . . . . . . . B Differenzialrechnung B.1 Reelle Funktionen in einer Variablen . . B.2 Taylorreihen . . . . . . . . . . . . . . . . B.3 Funktionen in mehreren Variablen . . . B.4 Differentiation von Matrizenfunktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

vi

INHALTSVERZEICHNIS

Kapitel 1

Einleitung
1.1 Warum wir uns mit Statistik beschäftigen
Sowohl in der elektronischen Datenverarbeitung als auch im Geoinformationswesen geht es sehr oft um: Daten sammeln, aufbereiten, analysieren, und aufgrund dieser Daten dann Entscheidungen treffen, wie es weitergeht. Die Statistik spielt dabei eine wichtige Rolle. Bereits beim Datensammeln werden statistische Methoden eingesetzt. Wir werden es einerseits mit Daten zu tun haben, die aus einfachem „Abzählen“ und Klassifizieren entstanden sind. Hier sind mittels statistischer Methoden aussagekräftige Parameter zu ermitteln. Beispiele hierfür sind bevölkerungsstatistische Daten, Durchschnittseinkommen und Kaufkraft, Bildungsqualifikationen, medizinische Daten, Verkehrsströme und so fort. Meistens verwenden und verarbeiten wir dabei Daten und Informationen Dritter. Dazu müssen wir nachzuvollziehen können, wie deren Daten zustande gekommen sind, wie sie zu bewerten sind und wie groß die Wahrscheinlichkeit ist, dass sie richtig sind. Auch elektronische Messgeräte, die physikalische Messungen Bsp. 1.1 Ein kleines Experiment zum Einstieg. Lösen die folgende Fragestellung ganz spontan – ohne Zettel und Bleistift oder einen Taschenrechner oder Computer zur Hand zu nehmen: Angenommen Sie bewerben sich um Ihren ersten Job, und Sie bekommen folgendes Angebot: Das Anfangsjahresgehalt beträgt ¤50.000. 1. Variante: Sie erhalten jedes Jahr eine Gehaltserhöhung um ¤5.000 2. Variante: Sie erhalten jedes halbe Jahr eine Gehaltserhöhung um ¤1.250 Wofür entscheiden Sie sich? durchführen, tun dies – oft für den Anwender nicht sichtbar – durch mehrere Messungen hintereinander, um dann das Mittel dieser Messungen als Ergebnis ausgeben. Diese Messdaten, die als Eingangssignal für die weitere Datenverarbeitung dienen, sind also statistische Daten bzw. das Ergebnis statistischer Methoden. Es gibt mehrere Gründe, warum wir bei der Datenverarbeitung statistische Methoden anwenden: 1. Wir haben zu viele Daten 2. Wir haben zu wenige Daten 3. Wir haben fehlerhafte Daten Zu viele Daten haben wir oft, weil uns der Detaillierungsgrad der Rohdaten gar nicht

1

2

KAPITEL 1. EINLEITUNG
interessiert, sondern nur bestimmte daraus abgeleitete Kennwerte. Beispiel: Wir führen eine Standortsuche für die Werbekampagne zu einem bestimmten Produkt durch. Ein wichtiges Kriterium ist dabei das Einkommen potenzieller Kunden. Dabei interessiert uns aber nicht das individuelle Einkommen jedes Einwohners einer bestimmten Region sondern das Durchschnittseinkommen in dieser Region.

Zu wenig Daten haben wir immer dann, wenn wir nur an diskreten Stellen gemessen haben, aber ein kontinuierliches Bild einer bestimmten Region darstellen wollen. Wir wenden dann statistische Interpolationsverfahren an, um dieses Gesamtbild wiedergeben zu können. Beispiel: An einzelnen Messstellen wird die Temperatur beobachtet und dann daraus eine Temperaturkarte der ganzen Region generiert. Fehlerhafte Daten haben wir immer dann, wenn wir mit physikalischen Verfahren unsere Daten messen. Solche physikalischen Messungen sind per se immer ungenau; dies hängt mit der Auflösung der Messgeräte und den vereinfachten Modellen der Realität zusammen und hat außerdem einen wahrscheinlichkeitstheoretischen Hintergrund. Wir werden darauf noch in einem späteren Kapitel zurückkommen. Daraus ergeben sich zwei wichtige Ziele, die wir mit der Anwendung von Statistik verfolgen: 1. Die Angabe von Qualitätsparametern und -kennzahlen für die von uns beobachteten Daten. 2. Die statistische Interpolation der Daten, um einerseits aus den ursprünglich beobachteten Daten andere ableiten zu können, und andererseits um ein möglichst vollständiges Bild der Situation wiedergeben zu können, auch an Stellen, an denen wir nicht beobachtet haben. Es gibt noch einen weiteren, profaneren Grund, sich mit Statistik zu beschäftigen, unabhängig von Informatik, Geographie oder Ingenieurskunst: Schlägt man heute eine Tageszeitung auf oder verfolgt die Nachrichten in Fernsehen oder auf einem Internetportal, so sind die voll mit Statistik! Sehr oft werden hier von Journalisten (und von Politikern, Lesern, etc.) aus einer Handvoll Daten ganz abenteuerliche Schlüsse gezogen, die jeglicher statistisch-mathematischer Grundlage entbehren. Alle Behauptungen, die mit irgendwelchen Zahlen (mit möglichst zwei Nachkommastellen) „belegt“ werden, vermitteln den Eindruck von Sachlichkeit, Objektivität und Exaktheit. Jemand hat auch einmal behauptet: Mit Statistik kann man alles beweisen, auch das Gegenteil. Wir werden in diesem Kurs erstens lernern, wie man statistische Daten darstellt, interpretiert, und daraus Schlüsse ziehen kann, und zweitens, dass man mit Statistik nichts beweisen kann, nur das Gegenteil. Bsp. 1.2 Daten können aus Beobachtung, Klassifizierung und Abzählen entstehen. In einer statistischen Untersuchung wurde festgestellt, dass die Donau bei Wien innerhalb eines Jahres an 6 Tagen im Jahr braun, an 55 Tagen lehmgelb, 38 Tage schmutziggrün, 49 Tage hellgrün, 47 Tage grasgrün, 24 Tage stahlgrün, 109 Tage smaragdgrün und 37 Tage dunkelgrün, niemals jedoch BLAU ist.

1.2. WAS IST STATISTIK?

3

1.2 Was ist Statistik?
Das Wort „Statistik“ kommt aus dem Lateinischen (status) und bedeutet wörtlich übersetzt „(Zu-)Stand, Verfassung, Beschaffenheit“1 . Es geht darum, Daten zu sammeln, zu analysieren, zusammenzufassen, zu interpretieren, anzuzeigen, darzustellen und letztlich irgendeine Information daraus abzuleiten. Dabei wird sowohl die aus der Bestandsaufnahme hervorgehende Datensammlung als „Statistik“ bezeichnet2 , als auch die Methode, mit der Datensammlungen ausgewertet, analysiert und weiterverarbeitet werden. Die dabei anfallenden Qualitätsparameter sind für die Entscheidungsträger oft mindestens genauso wichtig sind wie die Ergebnisse selbst. Die Anwendung der Statistik hat das Ziel, • • • • • • • • die Daten möglichst transparent zu machen die zugrunde liegende Struktur zu finden wichtige Variablen und Kennzahlen aus einer Vielzahl von Daten zu finden Anomalien und Ausreißer herauszufinden Schlüsse zu ziehen und diese auch zu überprüfen wahrscheinlichkeitstheoretische Modelle zu erstellen und für diese Modelle die Faktoren und Parameter zu finden

Bsp. 1.3 Statistik hat mit Zahlen und Zählen zu tun Der 19.11.1999 hatte eine interessante Besonderheit: Es war dies das letzte Datum für eine sehr lange Zeit, das sich nur aus ungeraden Ziffern zusammensetzt. Das nächste Mal wird das erst wieder 1111 Jahre später (genauer: 405 827 Tage später), am 1.1.3111 der Fall sein. Umgekehrt war der 2.2.2000 seit Langem wieder der erste Tag aus geraden Ziffern (inklusive Null), und zwar seit dem 28.8.888. Vom 29.8.888 bis zum 1.2.2000 befanden sich in jedem Datum ungerade Ziffern. In den Jahren 2000, 2002, 2004 und 2006 gab es ein Datum nur aus geraden Ziffern sehr häufig: an jedem geraden Tag im 2., 4., 6. und 8. Monat; das letzte Mal am 28.8.2006. Ebenso wird es im Jahre 2008, 2020 usw. sein. Das wird sich alle 200 Jahre wiederholen. Nach dem 28.8.2888 wird dann wieder für längere Zeit (nämlich 405 941 Tage) kein „gerades“ Datum auftreten. Methodisch können wir zwei wichtige Teilbereiche der Statistik unterscheiden: die beschreibende Statistik und die schließende Statistik: Beschreibende Statistik (auch: Deskriptive Statistik3 ) hat zum Ziel, Informationen aus „zu vielen“ Daten zu generieren. Dabei bedienen wir uns numerischer und grafischer Methoden, mit denen wir umfangreiche und komplizierte Datensätze möglichst anschaulich darstellen. Dabei geht es um Fragen nach Häufigkeiten und Verteilungen der Daten bzw. um Kenngrößen und –werte dieser Verteilungen. Alle Ergebnisse und Aussagen, die wir treffen, beziehen sich grundsätzlich nur auf die untersuchte Datenmenge. Beispiel: Wir erheben die Wohnkosten von FHStudierenden getrennt nach den jeweiligen Studiengängen. Diese Daten stellen
1 ursprünglich in der Bedeutung status rei publicae, also die Beschreibung und Darstellung geografischer, wirtschaftlicher, politischer Zustände eines „Gemeinwesens“ = Staates. 2 Zum Beispiel Daten über die wirtschaftlichen, demografischen, sozialen, ökologischen und kulturellen Gegebenheiten, die in Form eines jährlich erscheinenden „Statistischen Jahrbuches“ veröffentlicht werden. 3 lat. describere = beschreiben; auch: ordnen, einteilen

4

KAPITEL 1. EINLEITUNG
wir in einer Tabelle oder einem Diagramm dar und berechnen die durchschnittlichen Wohnkosten. Interessant ist es auch, einen Zusammenhang zwischen unterschiedlichen Daten zu untersuchen, zum Beispiel einen Zusammenhang zwischen der Wahl des Studiengangs und der Geldmenge, die man monatlich für Wohnzwecke auszugeben bereit ist.

Schließende Statistik (auch: Induktive4 oder Analytische Statistik) hat zum Ziel, aus wenigen Daten auf eine übergeordnete Menge zu schließen. Dabei wenden wir Methoden der Wahrscheinlichkeitstheorie an und führen Schätzungen und Testverfahren durch, um die Zusammenhänge zwischen den einzelnen beobachteten Daten und den Parametern des theoretisch angenommenen Wahrscheinlichkeitsmodells zu untersuchen. Beispiel: Wir befragen 100 Studierende der Fachhochschule über ihre monatlichen Wohnkosten und schließen daraus auf die Wohnkosten aller Studierenden. In weiterer Folge stellen wir die Hypothese auf, dass WirtschaftsStudierende monatlich mehr für ihre Wohnung ausgeben als Technik-Studierende. Diese Vermutung überprüfen wir aufgrund der uns vorliegenden Daten und geben die Wahrscheinlichkeit an, dass wir uns mit unserer Vermutung nicht irren. Bsp. 1.4 Beschreibende oder Schließende Statistik? • US-Wissenschafter haben aus der Beobachtung von Ameisen geschlossen, dass diese immer nach rechts umfallen, wenn sie vergiftet werden. Entgegen der landläufigen Meinung sind sie übrigens auch gar nicht so fleißig, wie man annimmt, sondern ziemlich faule Säcke: 70 Prozent ihrer Zeit tun sie einfach gar nichts. • 71 Prozent der Büroangestellten in Deutschland trinken nur aus der eigenen Tasse. • Hobbyjäger haben durch die Aufregung und die Anspannung auf einer Pirsch ein 18 Prozent höheres Herzinfarktrisiko als Nicht-Waidmänner. • Als EIvis Presley 1977 im Alter von 42 Jahren starb, gab es weltweit 48 ElvisImitatoren, 1995 waren es schon 7328. Wenn das so weitergeht, ist im Jahr 2012 jeder vierte Erdenbewohner ein Elvis-Imitator.
(Quelle: Günther Willen: Wer das liest, lebt länger! Das Lexikon für alle Lebenslagen)

1.3 Begriffe
Die Statistik hat – wie auch andere Wissensgebiete – ihre eigene Sprache. Anfänglich mag die umfangreiche Begriffswelt verwirrend sein, es bleibt uns aber nicht erspart, sie uns anzueignen und uns in der Lehrveranstaltung (und in diesem Skriptum) Schritt für Schritt nicht nur mit den Methoden sondern auch mit der Sprache der Statistik vertraut zu machen. Grundgesamtheit und Stichprobe Die wichtigste begriffliche und konzeptuelle Unterscheidung in der Statistik wollen wir uns anhand der nachfolgenden beiden Beispiele vor Augen führen:
4 lat.

inducere = hin(ein)führen; Induktion = Schlussfolgerung vom Besonderen auf das Allgemeine

1.3. BEGRIFFE

5

Abb. 1.1 Statistische Daten können auch grafisch vorliegen: Der Wasserstand der Steyr beim Pegel Klaus, Oberösterreich, vom 9.-16.8.2002 (Quelle: Amt der OÖ Landesregierung)

„Die Wohnbevölkerung Österreichs betrug 2001 mit Stichtag 15. Mai 8.032.557 und hat seit der Volkszählung 1991 um insgesamt 236.771 Personen (3%) zugenommen. Im Vergleich dazu betrug die Zunahme 1981/1991 insgesamt 240.448 Personen oder 3,2%.“ (Statistik Austria) „Der Urnengang im Herbst stößt in weiten Teilen der Bevölkerung auf positives Echo: Nicht weniger als 62 Prozent aller Österreicher halten die Durchführung von Neuwahlen für eine gute Entscheidung. Immerhin 33 Prozent wünschen sich demnach eine Koalition von Rot und Schwarz, nur 19 Prozent sind für einen Pakt zwischen SP und Grünen.“ (Umfrage eines Wochenmagazins)

Im ersten Beispiel wurden tatsächlich im Zuge einer Volkszählung alle Österreicher erfasst (gezählt). In der Statistik sprechen wir auch von der Grundgesamtheit. Eine Grundgesamtheit besteht aus der Menge aller Objekte, die irgendwelche gemeinsamen Charakteristika aufweisen und Gegenstand unserer Untersuchungen sind. Beispiel: „die Wohnbevölkerung Österreichs“. Eine Grundgesamtheit kann unterschiedliche Größe haben; wir nennen dies den Umfang der Grundgesamtheit. Der Umfang reicht von einigen wenigen (alle Studierenden, die in der ersten Reihe sitzen) über eine sehr große Anzahl von Elementen (6 Milliarden Menschen auf der Erde) bis hin zu unendlich großen Mengen (alle möglichen Ergebnisse einer physikalischen Messung). Im zweiten Beispiel hingegen wurden nicht tatsächlich 8 Millionen Österreicher über ihre Meinung zur Wahl befragt, obwohl das sprachlich suggeriert wird („alle Öster-

6 Bsp. 1.5 Stichprobe oder Grundgesamtheit?

KAPITEL 1. EINLEITUNG

Steigende Tendenz bei Tierversuchen in Österreich Eine weiterhin steigende Tendenz gibt es laut Statistik bei der Zahl der Tierversuche in Österreich. Im Vorjahr wurden 192.062 Tiere verbraucht, das sind um 6,7 Prozent mehr als 2001 (180.0129). Dies geht aus der am Donnerstag in der Wiener Zeitung veröffentlichten Tierversuchsstatistik 2002 hervor. In den neunziger Jahren ist die Zahl der Tierversuche stark gesunken, seit 1999 steigt sie aber wieder kontinuierlich. Das Gros der Tiere wird für „Forschung und Entwicklung für Produkte und Geräte der Human-, Zahn- und Veterinärmedizin“ (72.854 Tiere) und für „Herstellung und Qualitätskontrolle von Produkten und Geräten der Human- und Zahnmedizin“ (72.394) verwendet. Für „biologische Untersuchungen im Bereich der Grundlagenforschung“ gab es 29.207 Tierversuche, für „toxikologische und sonstige Unbedenklichkeitsprüfungen“ 8.758. Von den insgesamt 192.062 Tierversuchen wurden 153.034 mit Mäusen durchgeführt. Es folgen Kaninchen (15.560), Ratten (13.175) und Meerschweinchen (7.566). Weiters wurden 536 landwirtschaftliche Nutztiere wie Schweine, Schafe und Rinder, 280 Katzen und 108 Hunde für Versuche verwendet. Wie in den Vorjahren kamen auch 2002 wieder keine Menschenaffen zum Einsatz. (Quelle: science.orf.at, 26.6.2003)

reicher“5 ). „Nicht weniger als 62 Prozent“ bedeutet auch nicht, dass mindestens 4.980.185 Österreicher bei dieser Umfrage die Durchführung von Neuwahlen positiv bewertet haben. Für Umfragen werden lediglich Stichproben herangezogen, das heißt nur eine Teilmenge aus der Grundgesamtheit ist Gegenstand der statistischen Untersuchung. Bei geschickter Wahl der Stichprobe nach statistischen Kriterien ist es aber durchaus zulässig, von der Stichprobe auf die Grundgesamtheit zu schließen. Man sagt auch: Die Stichprobe muss repräsentativ sein, das heißt Elemente mit möglichst verschiedenen für die Untersuchung wichtigen Eigenschaften, die für das Ergebnis relevant sein könnten, müssen in der Stichprobe vertreten sein. Ob eine Stichprobe repräsentativ ist oder nicht, hängt also vom Ziel der statistischen Untersuchung ab. Wichtig kann auch das Verhältnis des Stichprobenumfangs zum Umfang der Grundgesamtheit sein. Für Untersuchungen wie oben beispielhaft angegeben wird üblicherweise mit einem Auswahlsatz von etwa 0.002 - 0.004% gearbeitet (das entspricht in unserem Beispiel ca. 150 bis 400 Personen, die befragt werden). Merkmalsträger, Merkmale und Merkmalswerte Eine wichtige Frage bei statistischen Untersuchungen ist natürlich: Welche Daten werden über wen oder was erhoben? Die Objekte, die Gegenstand statistischer Beobachtung und Analyse sind, nennt man Merkmalsträger (auch: statistisches Element oder: statistische Einheit). Merkmalsträger müssen hinsichtlich sachlicher, räumlicher und zeitlicher Identifikationskriterien eindeutig abgrenzbar sein. Beispiel: Eine bestimmte BITG-Studierende des 3. Semesters an der FH Wiener Neustadt, die sich montags von 11.00-13.00 im Seminarraum 5 aufhält. Die Menge der Merkmalsträger, die übereinstimmende Identifikationskriterien haben, bilden dann – je nach Vollständigkeit – die Grundgesamtheit oder eine Stichprobe. Beispiel: Alle BITG-Studierenden des 3. Semesters an der FH Wiener Neustadt (Grundhier überhaupt noch zu spezifizieren ist, was unter „Österreicher“ zu verstehen ist. Die Wohnbevölkerung? Alle hier Geborenen? Alle österreichischen Staatsbürger? Alle hier Wahlberechtigten?
5 wobei

1.3. BEGRIFFE

7

Abb. 1.2 Statistik kann auch Hypothesen über zukünftige Entwicklungen aufstellen: Bevölkerungspyramide 2000, 2030 und 2050. (Quelle: Statistik Austria, Statistisches Jahrbuch 2002)

gesamtheit) oder der zufällig gebildete Teil der BITG-Studierenden, die die StatistikVorlesung am Montag, 25.9.2006, besuchen (Stichprobe). Die Eigenschaft, die wir an den Merkmalsträgern untersuchen, ist das statistische Merkmal. Mathematisch handelt es sich dabei um eine Variable (auch: Stichprobenvariable), die unterschiedliche Werte annehmen kann. Beispiel: Die Körpergröße der Studierenden. Jedes Merkmal kann in verschiedenen, konkreten Erscheinungsformen auftreten, auch Merkmalsausprägung oder Merkmalswert genannt. Beispiele: Das Merkmal „Geschlecht“ kann die Ausprägung „weiblich“ oder „männlich“ haben. Das Merkmal „Matrikelnummer“ kann eine ganze Zahl annehmen. Das Merkmal „Körpergröße“ kann zum Beispiel 1.76, 1.85 oder 1.54 m annehmen. Ein wichtiger Begriff in diesem Zusammenhang ist auch die Variabilität Variabilität besagt, dass die Merkmale, die wir untersuchen, veränderlich sind. Es haben eben nicht alle statistischen Merkmalsträger das gleiche Einkommen, dieselbe Körpergröße, dieselbe Lebenserwartung, und es ist auch nicht überall gleich warm. Gäbe es die Variabilität nicht, machte Statistik keinen Spaß mehr, um nicht zu sagen, viele der Methoden, die wir kennen lernen werden, wären sinnlos. (Ganz abgesehen von der Frage, welche Qualität unser Alltags-Leben hätte, wenn wir alle gleich wären . . . ).

8

KAPITEL 1. EINLEITUNG

Die Variabilität der Merkmalsträger können wir sowohl horizontal als auch vertikal betrachten. Das heißt: Wir können von ein und derselben Person die Körpergröße mehrmals messen und werden – aus Gründen, die wir später noch erläutern werden – in einem bestimmten Bereich unterschiedliche Ergebnisse erhalten (horizontale Variabilität). Oder aber wir messen die Körpergröße mehrerer Personen und erhalten – aus offensichtlichen Gründen – unterschiedliche Ergebnisse (vertikale Variabilität). Urliste und Rangliste Wenn wir Merkmalswerte erfassen, erhalten wir zunächst eine Menge Daten. Die Urliste ist dabei die Datenmenge in der Form und Reihenfolge, wie sie bei der Erhebung anfällt. Werden von jedem Merkmalsträger mehrere Merkmale erhoben, so wird die Urliste in den meisten Fällen in einer Tabelle dargestellt. Urlisten sind in den meisten Fällen unübersichtlich und nicht sehr informativ – das ist ja ein Grund, warum wir Statistik betreiben. Von der Urliste ausgehend kann man die Elemente einer konkreten Stichprobe zum Beispiel nach wachsender Größe ordnen (vorausgesetzt, es handelt sich um Daten, für die Ordnungsrelationen definiert sind). Dies nennt man dann eine Rangliste (auch: geordnete Stichprobe oder Variationsreihe). Jedes Element der Stichprobe bekommt damit eine Rangzahl (auch: einen Rang) zugeordnet. Liegen mehrere Merkmale pro Merkmalsträger tabellarisch vor, gibt es mehrere Möglichkeiten, die Daten zu sortieren und somit auch mehrere Ranglisten. Nicht immer ist eine Umordnung der Stichprobe entsprechend wert-größenmäßiger Ordnungsrelationen zulässig. Manchmal spielt auch die historische Reihenfolge, in der die Daten erhoben wurden, eine Rolle und darf nicht so ohne weiteres umgeordnet werden. Solche Zeitreihen müssen der Zeit nach geordnet bleiben. Bei so genannten bi- oder multivariaten Methoden (siehe unten) ist im Hinblick auf die Beschreibung statistischer Zusammenhänge außerdem darauf zu achten, dass durch unsymmetrisches Umsortieren der Datenlisten die jeweiligen zu einem Datenpaar verbundenen Elemente nicht durcheinander kommen. Bei der Beobachtung physikalischer Phänomene ist aus diesem Grund das Umsortieren zu einer der Größe nach geordneten Stichprobe nicht üblich. Die Reihenfolge in Urlisten bzw. der Rang in Ranglisten gibt jedem Datum6 aus der Datensammlung einen Index. Bezeichnen wir zum Beispiel die Variable „Körpergröße“ mit X, so sind die einzelnen konkreten Merkmalswerte entsprechend ihrer Reihenfolge (in der Chronologie ihrer Erfassung oder in einer bereits geordneten Form) x1 , x2 , . . . , x n . Sowohl Grundgesamtheiten als auch Stichproben werden übrigens in den meisten Fällen nicht in ihrer Gesamtheit weiterverwendet (die Urlisten), sondern durch (numerische) Parameter charakterisiert. Uni-, bi- und multivariate Methoden Eine wichtige methodische Unterscheidung haben wir zu treffen, je nachdem, wie viele variable Merkmale wir im Zuge der statistischen Untersuchung gleichzeitig betrachten. Wenn wir uns nur ein Merkmal ansehen, zum Beispiel die Körpergröße, sprechen wir von univariater Statistik. Wenn es hingegen um mehrere Merkmale geht, zum Beispiel die Körpergröße und das Alter, von bivariater Statistik. Hier können jetzt auch vermutete Zusammenhänge zwischen den beiden Merkmalen untersucht werden. Untersuchen wir überhaupt gleich mehrere Merkmale, zum Beispiel Körpergröße, Alter, Gewicht, Geschlecht, etc., so handelt es sich um Methoden der multivariaten Statistik.
6 Datum

= Einzahl von Daten

1.4. DATEN „MESSEN“

9

1.4 Daten „messen“
Messen im engeren Sinn bedeutet, einen Sachverhalt (ein Phänomen) zu quantifizieren, das heißt, ihn durch Zahlen darzustellen. Wenn es sich dabei um ein physikalisches Phänomen handelt, wird in der Regel neben der Zahl (der Maßzahl) auch noch eine Maßeinheit angegeben. Der Messwert ist dann ein Vielfaches der Maßeinheit und „Messen“ bedeutet festzustellen, wie oft die Maßeinheit in der zu messenden Größe enthalten ist, also nichts anderes als Zählen. Wenn Sie zum Beispiel die Länge des Weges von der Fachhochschule zur nächsten Schnellbahnstation messen wollen, haben Sie verschiedene Möglichkeiten (in Klammer stehen bereits die Antworten): 1. Sie zählen, wie oft der 40.000.000-te Teil des Erdmeridians, der durch Paris geht, auf dem Weg zwischen FH und Station untergebracht werden kann. (1/49140 mal) 2. Sie zählen, wie oft Sie den Platin-Iridium Urmeter-Stab (den können Sie ebenfalls in Paris ausleihen) auf dem Weg zwischen FH und Station auflegen können. Dabei sollte es eine Temperatur von 0◦ C haben. (814 mal) 3. Sie verstrahlen den Weg mit Krypton 86 Kr, warten auf den Übergang vom Zustand 5d5 auf 2p10 und zählen, wie oft die Wellenlänge der dabei auftretenden orangefarbenen Strahlung auf dem Weg Platz hätte. (1.343.721.676 mal) 4. Sie schicken Licht bei der FH weg und zählen, wie oft 1/299 792 458 Sekunden vergehen, bis das Licht an der Station ankommt. (2/736 591 mal) Möglichkeit 3) und 4) haben den Nachteil, dass Sie zuvor das Gebiet unter Vakuum setzen müssen7 . Wie Sie gesehen haben, kann bei der Beobachtung physikalischer Phänomene „Zählen“ eine andere Bedeutung haben als im Alltag. Ein Phänomen kann beim physikalischen Messen nicht nur mit natürlichen Zahlen gezählt werden sondern zum Beispiel auch „2/736 591 mal“ auftreten. Die Anzahl der möglichen Zahlenwerte ist unendlich groß. Wir sprechen auch von einem kontinuierlichen Vorgang. Zählen – und somit Messen – kann man aber nicht nur physikalische Phänomene, sondern auch die Anzahl der arbeitslosen Personen eines Landes oder die Anzahl der Bäume in einem Wald. Dabei kann sich Zählen als ein gar nicht so trivialer Vorgang herausstellen: Einerseits müssen die zu zählenden Objekte von den nicht zu zählenden Objekten abgegrenzt werden, was nicht immer einfach ist. Zählt nur zu den Arbeitslosen, wer bereits vorher in einem Beschäftigungsverhältnis stand? Was ist mit Selbstständigen? Mit Schulabgängern, die noch gar keine Arbeit hatten? Oder mit Leuten, die zwar gerade keine Arbeit haben, aber eine Schulung machen? Wo sind die Grenzen eines Waldes? Ab welcher Größe ist ein Baum ein Baum? Ist ein Setzling auch ein Baum? Diese Abgrenzungen, die räumlich, zeitlich oder sachlich begründet sein können, sind nicht immer ganz einfach. Zusätzlich kann es auch schwierig sein, die zu zählenden Objekte überhaupt zu identifizieren8 und voneinander zu unterscheiden. Aber nur so kann sichergestellt werden, dass jedes Objekt nur einmal gezählt wird. In der Mathematik sind diese beiden beschriebenen Eigenschaften (Abgrenzung gegen außen, Identifikation nach innen) übrigens Kennzeichen einer Menge. Eine Menge ist die Zusammenfassung von bestimmten, wohlunterschiedenen Objekten zu einem Ganzen, mit einer definierten Abgrenzung gegen die, die „draußen“ sind. Wir werden
7 Alle vier aufgezählten Möglichkeiten sind zugegebenermaßen in der Praxis nur schwer durchführbar, entsprechen aber genau den Festlegungen der jeweiligen Meterdefinitionen von 1795 (Meridian), 1889 (Urmeter), 1960 (Wellenlänge) bzw. der heute gültige Definition von 1983 (Licht). 8 hier im Sinne von: Identität geben

10

KAPITEL 1. EINLEITUNG

im Zuge der Beschäftigung mit Statistik, insbesondere im Bereich der Wahrscheinlichkeitstheorie, noch auf weitere Begriffe und Konzepte aus der mathematischen Mengenlehre zurückgreifen. Bsp. 1.6 Woher kommen überhaupt all die Daten....? Das Ausfüllen von Fragebögen hat Österreichs Unternehmen im Jahr 2006 790.000 Arbeitsstunden gekostet. Das geht aus dem von der Statistik Austria und der Wirtschaftskammer entwickelten Belastungsbarometer hervor. Geht man von einer Jahresarbeitszeit von 1636 Stunden pro Beschäftigten in Österreich aus, so haben im Vorjahr rein rechnerisch 782 Personen nichts anderes getan als Fragebögen und Statistiken ausgefüllt. Im Vergleich zu 2001 hat sich dieser Aufwand immerhin um rund zehn Prozent verringert. (Quelle: Salzburger Nachrichten)

1.5 Englische Begriffe
In zunehmendem Maße wird auch im deutschsprachigen Raum Literatur zum Thema „Statistik“ in englischer Sprache publiziert, respektive ist es mittlerweile überhaupt unentbehrlich, sich mit Hilfe englischer Fachliteratur in das eine oder andere Thema zu vertiefen. Wir werden daher am Ende jeden Kapitels die wichtigsten Begriffe mitsamt ihrer englischen Entsprechungen auflisten (Achtung: Das sind mitunter nicht wörtliche Übersetzungen, sondern die im Englischen üblichen Bezeichnungen). Beschreibende Statistik - descriptive statistics bivariat - bivariate Daten - data Datensammlung - data set Deskriptive Statistik - descriptive statistics Geordnete Stichprobe - ordered sample Grundgesamtheit - population Induktive Statistik - inferential statistics Merkmal - variable multivariat - multivariate Rangliste - ordered sample Schließende Statistik - inferential statistics Statistik - statistics Stichprobe - sample univariat - univariate Variabilität - variability Zeitreihe - time series

Kapitel 2

Datenanalyse und deskriptive Statistik
2.1 Einleitung
Wir werden in diesem Kapitel einfache statistische Konzepte anhand verschiedener Messgrößen und Datenmengen erarbeiten. Dabei steht zunächst eine rein empirische1 Betrachtungsweise im Vordergrund. Theoretische Konzepte und Modelle werden im 3. Kapitel behandelt. Die Statistische Auswertung gemessener Daten und beobachteter Phänomene, kann – wie wir bereits im einleitenden Kapitel gesehen haben – unterschiedlich motiviert sein: In der physikalischen Messtechnik ist es vor allem das Problem, dass die Messungen immer mit systemimmanenten Abweichungen behaftet sind und daher bei mehrmaliger Messung eine Variabilität zu beobachten ist. Unser Ziel ist es, den wahren Wert einer Messgröße zu ermitteln. Tatsächlich gibt es aber keine Möglichkeit, den wahren Wert zu beobachten (ganz abgesehen von der philosophischen Frage, ob es überhaupt einen wahren Wert gibt). Haben wir nun die Messwerte für eine Messgröße mehrmals beobachtet und diese Einzelmessungen zu einer Messreihe zusammengefasst, so können wir aus der Analyse dieser Messreihe den Erwartungswert der Messgröße ableiten. Außerdem ermöglicht uns diese statistische Bearbeitung der Messreihe auch, Aussagen über die Qualität des erhaltenen Wertes für die Messgröße (seine Genauigkeit) zu machen. Wir werden in diesem Kapitel auf diese Besonderheiten der physikalischen Messtechnik und Begriffe wie „Abweichungen“ und „wahrer Wert“ noch zurückkommen. Im Zusammenhang mit dem Messen physikalischer Größen sei darauf hingewiesen, dass wir heute fast ausschließlich digitale Messtechniken verwenden, d.h. nichtelektrische Größen in elektronische Signale umwandeln und diese dann messen. Dies geschieht im Messgerät praktisch immer durch mehrmalige Messung, auch wenn dies vielleicht für den Beobachter nicht sichtbar ist und das Messgerät als Ergebnis nur einen Wert angibt und aufzeichnet. Intern sind dann aber bereits eine Menge von statistischen Berechnungen durchgeführt worden. Beispiele für physikalische Messgrößen, die wir statistisch auswerten: Zeit, Temperatur, Luftdruck, Niederschlagsmenge, Erdmagnetismus, Schadstoffemissionen, Gravitation, Elektromagnetische Wellenlänge, Längen, Richtungen, Koordinaten, Höhen
1 zum

griech. εµπειρως (empeiros): etwas aus der Erfahrung kennen

11

12

KAPITEL 2. DATENANALYSE UND DESKRIPTIVE STATISTIK

Neben physikalischen Messungen können wir mit der Statistik aber auch Massenerscheinungen untersuchen, quantifizieren und beschreiben. In diesem Fall wenden wir statistische Methoden an, weil wir uns nicht für Einzelfälle interessieren, sondern Durchschnittswerte angeben, Merkmalsträger bezüglich bestimmter Merkmale klassifizieren und dann die untersuchte Massenerscheinung hinsichtlich bestimmter Charakteristika oder Hypothesen beurteilen können. Beispiele für solche „Massenerscheinungen“: Wirtschaftsstatistik: Industrieumsätze, Arbeitslosenzahlen, Gehälter und Einkommen, Export- und Importmengen, Lebenshaltungskosten, Inflationsraten, das Bruttosozialprodukt, Preise und Preisentwicklungen, Produktionsmengen und andere betriebsstatistische Daten, Bettenauslastung im Tourismus Bevölkerungsstatistik: Bevölkerungsverteilung, Zu- und abnahmen, Haushaltsgrößen, Strukturelle Angaben zu Geschlecht, Alter, Familienstand, religiöser Zugehörigkeit, Beschäftigungsart oder geographischer Verteilung Sozialstatistik: Einkommens- und Vermögensverteilung, Sozialausgaben, Bildungsqualifikation und -angebot, Schüler- und Studentenzahlen Gesundheit, Medizin und Psychologie: Ärztliche Versorgung, Krankenstände, Krankheitsbilder und -verläufe, Therapiewirkungen, Ergebnisse psychologischer Experimente, Auftreten von Tierseuchen Neben dieser inhaltlichen Abgrenzung der Daten ist aus statistisch-mathematischer Sicht aber vor allem eine Unterscheidung bezüglich des verwendeten Skalenniveaus notwendig:

2.2 Mess- und Skalenniveaus
Wenn wir Daten „messen“, so können wir die möglichen Ergebnisse nach den Datentypen klassifizieren. Diese Klassifizierung nennen wir auch Skalierung; Ergebnisse werden dann einer bestimmten Messskala zugeordnet. Zunächst einmal können wir unterscheiden, ob es sich um • qualitative (auch: kategorische) oder • quantitative (auch: numerische) Merkmale handelt.

2.2.1

Kategorische und Numerische Daten

Qualitative (kategorische) Merkmale beschreiben verschiedene Eigenschaften2 von Merkmalsträgern durch eine wertmäßige Angabe („mit Worten“). Quantitative (numerische) Merkmale hingegen repräsentieren das „Zähl- und Messbare“ durch eine mengenmäßige Angabe3 , meist eine reelle Zahl. Sie werden auch als numerische oder metrische Merkmale bezeichnet4 . Bei qualitativen Merkmalen unterscheiden wir in weiterer Folge zwischen einer • nominalen und einer • ordinalen Skalierung
2 lat. qualitas = Beschaffenheit. Beachte: im Gegensatz dazu haben in der Alltagssprache oft nur solche Dinge Qualität, die „von besonderer Güte“ sind. 3 lat. quantitas = Größe 4 vom lat. metor = (ab)messen

2.2. MESS- UND SKALENNIVEAUS

13

Bsp. 2.1 Qualitativ oder quantitativ? Ordinal-, Intervall- oder Rationalskala? Diskret oder stetig? Die Stadt Aventura in Florida ist die amerikanische Stadt mit dem höchsten prozentuellen Bevölkerungsanteil an Österreichern (0.38 %); New York hingegen hält mit 6700 Immigranten den höchsten rot-weiß-roten Absolutanteil. Mit 35.4 km ist die Grenze zwischen Österreich und Liechtenstein die weltweit neuntkürzeste Grenze, die es zwischen Staaten gibt. Die kürzeste ist übrigens jene zwischen Spanien und Gibraltar (1.1 km), die längste jene zwischen den USA und Kanada (8893 km). In Australien, Sudan, Neuseeland und 10 weiteren Staaten gibt es mehr Schafe als Einwohner. In Dänemark, Samoa und Tuvalu mehr Schweine als Menschen. Und die meisten Kamele gibt es im Sudan, Mauretanien und Indien (dort gibt es aber jeweils mehr Menschen als Kamele). Am 1. Juli 1983 sank das Thermometer in Wostok in der Antarktis auf -89.2◦ C und hält somit den Rekord als bisher kältester Ort der Erde. Ernest Vincent Wright schrieb 1939 den einzigen englischen Roman Gadsby, in dem kein einziges Mal der Buchstabe E vorkommt. Er starb übrigens am selben Tag, an dem sein Buch erschien. Im Französischen schrieb Georges Perec mit La Disparation ebenfalls einen E-losen Roman, später jedoch zum Ausgleich mit Les Reventes einen Roman, in dem das E der einzige benutzte Vokal ist. Im Deutschen ist kein E-loser Roman bekannt. Gottlob Burmann hegte aber eine tiefe Abneigung gegen den Buchstaben R und verfasste zunächst 130 Gedichte ohne diesen Buchstaben, und verbannte ihn später überhaupt komplett aus seiner Alltagssprache. Das führte unter anderem dazu, dass er seinen Familiennamen nicht mehr benutzen konnte. Bei quantitativen Merkmalen verwenden wir eine • Intervallskala, eine • Rationalskala oder eine • Absolutskala

2.2.2

Nominalskala

Nominalskalierte Merkmale sind solche, die nur qualitativ über ein „Etikett“ angegeben werden. Eine „Messung“ besteht dann darin, dass der Merkmalsträger einer bestimmten Kategorie zugeordnet wird oder nicht. In der Regel haben die Merkmale nichtnumerische Werte (Begriffe, Buchstaben, Symbole), oder numerische Werte (Ziffern), die aber auch als „Namen“ aufgefasst werden und keine mathematische Bedeutung haben. Nominalskalierte Werte besitzen deshalb auch keine mathematische Ordnung (Reihenfolge). Als Vergleichsoperation ist nur das Kriterium „gleich“ oder „verschieden“ möglich, nicht aber „größer“ oder „kleiner“. Beispiele: Das Geschlecht (~, |) oder der ausgeübte Beruf von Personen, ihre Nationalität, ihr Familienstand (ledig, verheiratet, geschieden, verwitwet), die Matrikelnummer von Studierenden, Kfz-Kennzeichen, Postleitzahlen, die Angabe der Niederschlagsart (Regen, Schnee, Hagel), die Angabe von Farben etc. Arithmetische Operationen wie die Bildung von Summen oder Differenzen sind für nominalskalierte Merkmale nicht sinnvoll. Sie können aber ohne Informationsverlust einer beliebigen eindeutigen Transformation unterworfen werden, d.h. ich kann sie – wenn die Regeln eindeutig sind – von einer Skala in eine andere überführen. Zum Beispiel können wir an Stelle der Symbole ~und |die Bezeichnungen „weiblich“ und „männlich“ oder Ziffern (1,0) benutzen.

14

KAPITEL 2. DATENANALYSE UND DESKRIPTIVE STATISTIK

Graduelle Nominalskala Einige der oben genannten Beispiele lassen eine eindeutige Zuordnung zu, andere hingegen nicht. Während zum Beispiel die Zuordnung zu einem Geschlecht in der Regel eindeutig ist, ist es bei Berufen und vielen anderen nominal skalierten Merkmalen nicht immer einfach, eine eindeutige Zuordnung zu treffen. Wir müssen für diese Fälle die Nominalskala noch um eine „Skala der graduellen Mitgliedschaft“ erweitern. Diese Skala geht davon aus, dass es zwar bestimmte „Prototypen“ gibt, die Zuordnung „gleich wie der Prototyp“ oder „verschieden von diesem Prototyp“ aber nicht immer leicht ist. Hier kann es graduelle Unterschiede geben, die von „ziemlich gleich“ bis „schon gar nicht mehr erkennbar gleich“ reichen können. Formal können wir diese graduelle Zuordnung mit Hilfe einer Wahrscheinlichkeitsangabe vornehmen.

2.2.3

Ordinalskala

Ordinalskalierte Merkmale sind qualitative Merkmale, die hinsichtlich ihrer Größe (Bedeutung, Rang, . . . ) unterschieden und durch Rangziffern gekennzeichnet werden können. Die Ordinalskala wird daher auch Rangskala genannt. Es sind jetzt nicht nur die Vergleichsoperationen „gleich“ und „ungleich“, sondern auch „größer“ und „kleiner“ möglich. Allerdings ist nicht definiert, „wie viel größer“ ein größeres Merkmal ist bzw. „wie viel kleiner“ ein kleineres. Beispiel: Das (flächenmäßig) größte Land der Europäischen Union (Frankreich) ist nicht doppelt so groß wie das zweitgrößte (Spanien), und der Unterschied zwischen dem dritt- und viertgrößten (Schweden und Deutschland) ist nicht derselbe wie zwischen dem viert- und fünftgrößten Land (Deutschland und Finnland) etc.5 . Weitere Beispiele für ordinalskalierte Merkmale: Schulnoten auf einer Skala von 15, Gewässergüteklassen (Güteklasse I - „sehr gering belastet“ bis IV - „übermäßig verschmutzt“), Bewölkungsarten (heiter, wolkenlos, wolkig, stark bewölkt). Arithmetische Operationen sind auch hier nicht sinnvoll. Das bedeutet unter anderem auch, dass die Angabe eines Mittelwertes (wofür wir bekanntlich eine Summe bilden müssen) nicht sinnvoll ist und – wenn es trotzdem gemacht wird – keinerlei Information beinhaltet. Zum Beispiel hat die Angabe eines arithmetischen Mittelwertes als „Notendurchschnitt“ statistisch gesehen einen Informationsgehalt von nahezu Null. Werte auf einer Ordinalskala können aber einer ordnungserhaltenden (das heißt mathematisch: monoton wachsenden) Transformation unterworfen werden. Ich kann also zum Beispiel ein Notensystem von 1-5 umwandeln in ein Notensystem „sehr gut - gut befriedigend - genügend - nicht genügend“. Nicht möglich hingegen ist eine Transformation des österreichischen fünfstufigen Notensystems in eines mit mehr als 5 Rängen (wie sie zum Beispiel in der Schweiz, Deutschland oder Großbritannien verwendet werden). Nominalskalen und Ordinalskalen werden auch als Kategorialskalen bezeichnet, weil die einzelnen Werte Kategorien repräsentieren. Dem gegenüber stehen die nun nachfolgend beschriebenen numerischen Skalen, auf denen die Merkmale nicht nur geordnet werden können sondern auch feste Abstände zwischen ihnen existieren.

2.2.4

Intervallskala

Intervallskala bedeutet, dass unsere Merkmale durch Zahlen repräsentiert werden, denen eine Maßeinheit zu Grunde liegt. Es gibt allerdings keinen absoluten Nullpunkt.
5 Hier haben wir nur eine Unterscheidung in „größtes“ Land, „zweitgrößtes“ etc. gemacht, also nur den Rang angegeben. Selbstverständlich könnten wir die Größe der angegebenen Länder auch in Quadratkilometern vergleichen und dann sehr wohl Differenzen und Verhältnisse angeben.

2.2. MESS- UND SKALENNIVEAUS

15

Angaben über Differenzen machen zwar Sinn, Verhältnisangaben hingegen nicht. Wir können zum Beispiel die geographische Länge eines Ortes angeben und auch den Längenunterschied zweier Orte, aber nicht sagen: Kigali ist „doppelt so östlich“ wie Gmünd: Kigali liegt in Ruanda, 30◦ östlich von Greenwich, Gmünd in Niederösterreich 15◦ östlich von Greenwich. Bezogen auf den Nullmeridian von Ferro6 hingegen liegt Kigali auf 47◦ 40′ und Gmünd auf 32◦ 40′ , also nicht mehr „doppelt so östlich“. Ähnliches gilt zum Beispiel bei Wetterbeobachtungen: Man kann nicht behaupten, 24◦ C sei „doppelt so warm“ wie 12◦ C – Was würde ein Engländer dazu sagen? Die Aussage: „Eine Erwärmung von 12◦ auf 24◦ ist doppelt so groß wie eine Erwärmung von 12◦ auf 18◦ “ stimmt hingegen schon – auch wenn ich die Temperatur in Fahrenheit angebe. Werte für Merkmale auf einer Intervallskala kann ich einer linearen Transformation der Form f ( x ) = a + bx (mit a > 0 und b ∈ R) unterwerfen. Bei so einem Skalenwechsel ändert sich allerdings der Quotient zweier Merkmalswerte. Beispiel: Die Umrechnung von Temperaturwerten auf der Skala nach Celsius in eine Temperatur auf der Fahrenheit-Skala geschieht durch die lineare Transformation TF = 32 + 1.8 · TC Eine Temperatur von 12◦ C entspricht demnach 53.6◦ F, 18◦ C entsprechen 64.4◦ F und 24◦ C entsprechen 75.2◦ F. Das ergibt ein Verhältnis von 1 : 1.5 : 2 auf der Celsius-Skala, aber 1 : 1.2 : 1.4 auf der Fahrenheit-Skala. Für Differenzen hingegen sind wir von der Skala unabhängig und

(75.2 − 53.6)◦ F (24 − 12)◦ C = =2 ◦C (18 − 12) (64.4 − 53.6)◦ F
Logarithmische Intervallskala Es gibt auch Merkmale, die auf einer logarithmischen Intervallskala gemessen werden. Zur objektiven Feststellung von Erdbeben wird zum Beispiel die beim Beben ausgelöste Energie mit Hilfe von Seismographen gemessen und auf der so genannten Richter-Skala in der Maßeinheit Magnitude angegeben. Die Magnitude gibt den (dekadischen) Logarithmus der Amplituden der Erdbebenwellen an. Das bedeutet, dass jeder zusätzliche Punkt auf der Skala ein zehnfach stärkeres Beben beschreibt.

2.2.5

Rationalskala

Rationalskalen (auch: Verhältnisskalen) besitzen im Gegensatz zu Intervallskalen einen absoluten, festen Nullpunkt. Damit macht auch die Angabe von Verhältnissen einen Sinn, zum Beispiel: „Von Wien nach Schladming ist es doppelt so weit wie von Wien nach Göstling an der Ybbs“ oder: „Ich verdiene halb so viel wie mein Chef“. Beispiele für Merkmale auf einer Rationalskala sind alle Messungen physikalischer Größen wie zum Beispiel Längen, Distanzen, Gewichte, Niederschlagsmengen, Temperaturangaben auf der Temperaturskala nach Kelvin, etc. Rationalskalierte Merkmale sind invariant gegenüber Transformationen der Form f ( x ) = ax (mit a > 0). Dabei bleibt auch der Quotient zweier Merkmale gleich.
6 Es gibt mehrere Möglichkeiten, einen Null-Meridian für geographische Längenzählungen festzulegen. In Österreich ist zum Beispiel aus historischen Gründen noch vielfach eine Zählung nach Ferro in Verwendung. Um 150 n.Chr. legte Ptolemäus den Nullmeridian an den „äußersten“ Teil der ihm bekannten Welt: die westlichste Insel der Hesperiden (die heutigen „Kanarische Inseln“) namens El Hierro, auch Ferro genannt.

16

KAPITEL 2. DATENANALYSE UND DESKRIPTIVE STATISTIK

Zyklische Rationalskala Ergebnisse von Winkelmessungen werden im Prinzip in Rationalskalen angegeben, allerdings tritt an einer bestimmten Stelle (360◦ = 400 gon = 2π rad) eine Singularität auf und die Skala „beginnt wieder von vorne“. Dies ist insbesondere hinsichtlich der oben angegebenen proportionalen Transformationen zu beachten.

2.2.6

Absolutskala

Rationalskalen haben einen festen Nullpunkt, aber eine offene Wahl der Maßeinheit, d.h. es kann noch festgelegt werden, wie weit die „Einheit 1“ geht. Nun gibt es auch Merkmale, wo nicht nur der Nullpunkt sondern auch die Einheit 1 absolut vorgegeben sind. Wir haben es dann mit einer Absolutskala zu tun. Beispiel dafür sind die Angabe von Häufigkeiten oder Wahrscheinlichkeiten. Häufigkeiten werden durch eine Kardinalzahl angegeben, das ist die Anzahl von Elementen mit einer bestimmten Ausprägung, also das System, in dem wir üblicherweise zählen. Zum Beispiel die Anzahl von Menschen in diesem Raum mit bestimmten Eigenschaften. Wahrscheinlichkeiten werden auf einer Absolutskala angegeben, die überhaupt nur Werte zwischen 0 und 1 annehmen kann. Wir werden darauf noch in einem späteren Kapitel zurückkommen. Merkmale auf einer Absolutskala können nur einer identitätsbewahrenden Transformation unterworfen werden7 . Skalentyp Nominalskala Ordinalskala Intervallskala Rationalskala Absolutskala ablesbare Informationen Gleichheit oder Ungleichheit Gleichheit/Ungleichheit, Rangordnung Gleichheit/Ungleichheit, Rangordnung, Vergleich von Differenzen Gleichheit/Ungleichheit, Rangordnung, Vergleich von Differenzen und von Quotienten wie Rationalskala Beispiel Namen, Postleitzahlen Schulnoten, Rangliste im Sport Temperatur in Celsius, geographische Länge, Erdbebenstärke Temperatur in Kelvin, Länge, Fläche, Winkel Wahrscheinlichkeiten, Kardinalzahlen

Tabelle 2.1: Übersicht: Zuordnung von Daten zu einem Skalentyp

Die Zuordnung von gemessenen Daten zu einem der oben angegebenen Skalenniveaus (Tab.2.1) ist ausschlaggebend für die Auswahl der weiteren statistischen Auswertemethode, die Art der grafischen Darstellung und die möglichen Rechenoperationen, die wir durchführen können. Hinsichtlich dieser möglichen Rechenoperationen bilden die Skalen eine Hierarchie. Dabei können Merkmale – falls erforderlich und sinnvoll – immer herabskaliert, niemals aber hinaufskaliert werden. Gemessene Niederschlagsmengen einer Rationalskala können zum Beispiel der Größe nach aufsteigend geordnet werden; diese Rangliste ist dann nur noch ordinal skaliert. Zu beachten ist, dass beim Herabskalieren immer Information verloren geht. Dies ist auch der Grund, warum ein Hinaufskalieren prinzipiell unmöglich ist (ausgenommen, die notwendige höherrangige Information ist noch verfügbar).
Transformationen gibt es nur, um einem mathematischen Formalismus zu genügen. In der Praxis erlaubt die Funktion f ( x ) = x keine großartigen Veränderungen.
7 Identitätsbewahrende

2.3. DARSTELLUNGSFORMEN VON DATENMENGEN

17

2.2.7

Diskrete und stetige statistische Merkmale

In der Statistik existieren zwei Arten von numerischen Merkmalen: diskrete und stetige. Bei diskreten Merkmalen ist die Anzahl der Ausprägungsmöglichkeiten „überschaubar“, d.h. es können nur endlich viele oder abzählbar-unendlich viele8 Werte angenommen werden. Zwischen je zwei Werten liegt eine genau definierte Anzahl von „Nachbarn“. Ein Beispiel für diskrete Daten sehen wir in Tab.2.2. Die Anzahl von Studenten eines Jahrgangs, die aus einem bestimmten Bundesland kommen, kann nur in diskreten Werten angegeben werden. Jahrgang 2002 2002 2002 2002 2003 2003 2003 2003 Bundesland W NÖ B Sonst W NÖ B Sonst Anzahl 4 10 5 1 1 10 1 2

Tabelle 2.2: Herkunft von IT-Studierenden nach Bundesländern je Jahrgang

Stetige (auch: kontinuierliche) Merkmale hingegen können innerhalb eines (endlichen oder unendlichen) Intervalls jeden Zahlenwert aus R annehmen – also unendlich viele beliebige Werte. Beim Längenmessen liegen zum Beispiel zwischen 1 und 2 Zentimetern unendlich viele weitere Zahlen (Milli-, Micro-, Nano-, Piko-, Femto-, Atto-, Zeptound Yoctometer etc.). Die Messung physikalischer Größen liefert immer stetige Daten. Die Unterscheidung zwischen diskreten und stetigen Daten ist relativ einfach auf einer aus der Mathematik bekannten Zahlengeraden vorstellbar: Diskrete Daten lassen sich nur als ausgewählte Punkte auf der Zahlengeraden darstellen, stetige hingegen werden immer durch das komplette Intervall repräsentiert.

2.3 Darstellungsformen von Datenmengen
Betrachten wir zunächst folgendes Beispiel: Ein und dieselbe Strecke wurde von zwei unterschiedlichen Personen jeweils 10-mal gemessen, von einer dritten anschließend noch 5-mal. Die Ergebnisse sind in Tab.2.3 angegeben. Diese 25 Zahlen x1 , . . . , x10 ; y1 , . . . , y10 und z1 , . . . , z5 – die so genannte Urliste – sind kaum geeignet, als ein Messergebnis, nämlich die Länge der Strecke, zu dienen. Vielmehr kommt es darauf an, die Daten sinnvoll zu „komprimieren“, im extremsten Fall auf eine einzige Zahl. Wir könnten zum Beispiel die Daten aus Tab.2.3 durch den arithmetischen Mittelwert repräsentieren. D.h. wir dividieren die Summe aller Werte durch die Anzahl der gemessenen Daten. In unserem Fall erhalten wir den Wert 574.751 m. Betrachtet man allerdings die Daten etwas genauer, so erkennt man, dass dies wohl kaum der vermutlich „wahre Wert“ der Länge der Strecke ist. Alle Messwerte bis auf einen liegen um die 574.770 m, sodass es nicht sehr wahrscheinlich ist, dass 574.751 ein guter Schätzer für den wahren Wert ist. Wir wollen daher die Daten nicht „stur“ mit
8 abzählbar-unendlich heißt, dass die Menge der möglichen Werte zwar theoretisch abzählbar wäre, die Menge aber unendlich ist und daher niemand die Zeit und Geduld aufbringt, sie tatsächlich abzuzählen. Beispiel: die Folge der natürlichen Zahlen.

18

KAPITEL 2. DATENANALYSE UND DESKRIPTIVE STATISTIK

Bsp. 2.2 Qualitativ oder quantitativ? Ordinal-, Intervall- oder Rationalskala? Diskret oder stetig? (Fortsetzung) Andorra, Liechtenstein, Monaco, San Marino und der Vatikan sind die einzigen Staaten der Welt, die keinen eigenen Flughafen besitzen. Den weltweit längsten Kuss gaben sich James Belshaw und Sophia Severin am 11. Juli 2005. Er dauerte 31 Stunden, 30 Minuten und 30 Sekunden. „Al Jumahiriyah al Arabiyah al Libiyah ash Shabiyah al Ishtirakiyah al Uzma“ ist der längste offizielle Ländername; aus praktischen Gründen wird meist nur die abgekürzte Form „Libyien“ verwendet. Libyen ist übrigens das einzige Land der Welt, in dem es keinen einzigen (ständig wasserführenden) Fluss gibt. Und: Laut „Google Trends“ wird in deutschsprachigen Ländern ungefährt genauso oft Lybien in die Google-Suchmaske eingegeben wie Libyen. Die größte amerikanische Stadt, die nach einer Frucht benannt ist, ist Orange in Kalifornien, mit 128821 Einwohnern. Wien hingegen ist nach Seoul und Minsk die weltweit drittgrößte Stadt, deren Namen nur aus einer Silbe besteht. Der weltweit weiteste Flug, den ein Huhn nachweislich flog, betrug 91.9 Meter, die weiteste Distanz, die ein Sektkorken flog, hingegen nur 54.2 Meter. Messreihe x 574,775 574,777 574,773 574,770 574,775 574,772 574,774 574,774 574,776 574,779 Messreihe y 574,772 574,777 574,777 574,173 574,774 574,773 574,776 574,776 574,773 574,774 Messreihe z 574,775 574,775 574,776 574,775 574,775

Tabelle 2.3: Ergebnisse einer Streckenbeobachtung durch drei verschiedene Personen

einem einfachen Statistikprogramm auswerten, sondern den einzelnen Beobachtungen durchaus mit Misstrauen begegnen und „verdächtige“ Messwerte näher betrachten. Dabei gehen wir davon aus, dass den Daten a priori ein bestimmtes stochastisches Modell zu Grunde liegt, d.h. wir haben schon eine gewisse Vorstellung davon, wie die Messwerte „vermutlich“ verteilt sind9 . Dieses Modell soll nach Möglichkeit nicht durch „Ausreißer“ (extreme, vermutlich fehlerhafte Werte) gestört werden. In unserem Beispiel fällt der Wert 574.173 m „aus der Reihe“. Es könnte sich um einen Messfehler oder um einen Schreibfehler im Messprotokoll, aber auch schlicht und einfach um einen Druckfehler in diesem Skriptum handeln. Im Falle eines Schreibfehlers könnten wir zum Beispiel vermuten, dass der Messprotokoll-Führer eigentlich 574.773 gemeint hat und den Wert dementsprechend ändern. Das nachträgliche Ändern eines Messwertes ist aber immer problematisch; wir werden den Wert daher kurzerhand einmal einfach weglassen und für die Messreihe y nur neun Beobachtungen auswerten. (Das gilt für alle Angaben und Aufgaben die sich in diesem Kapitel auf Tab.2.3 beziehen). Zur weiteren Datenanalyse könnten wir nun die einfache Tabellendarstelkommt auch das für uns wichtige Wort Stochastik: griech. στoχαστικoς (stochastikos) = im Vermuten geschickt, scharfsinnig
9 Davon

2.3. DARSTELLUNGSFORMEN VON DATENMENGEN
Abb. 2.1 Liniendiagramm zu den Daten aus Tab.2.3
¤©¡£ ¢¡  ¡¡£ ¢¡ 

19

lung aus Tab.2.3 direkt heranziehen. Zur Verbesserung der Übersichtlichkeit können wir die Daten aber auch graphisch darstellen, zum Beispiel in einem Liniendiagramm (Abb.2.1). Wenn wir die Daten allerdings umordnen, zum Beispiel der Größe nach, erhalten wir eine komplett andere grafische Darstellung (Abb.2.2), sodass wir versuchen werden, etwas systematischer vorzugehen. Wir werden sowohl unsere tabellarische als auch die grafische Darstellung „verbessern“ und Häufigkeitstabellen und verschiedene grafische Darstellungsformen untersuchen. Manchmal – insbesondere bei stetigen Datenmengen bzw. bei sehr vielen, zahlenmäßig verschiedenen Messwerten – kann es dabei zweckmäßig oder notwendig sein, die Daten vorher in Klassen einzuteilen. Abb. 2.2 Liniendiagramm zu den der Größe nach geordneten Daten aus Tab.2.3
574,780 574,779 574,778 574,777 574,776 574,775 574,774 574,773 574,772 574,771 574,770 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24

2.3.1

Klassenbildung

Klassenbildung bedeutet die Aufteilung des Wertebereichs in Teilbereiche (Klassen), die einander ausschließen und den Wertebereich vollständig überdecken. Die Klassengren-

¢¦ §¦ ¦¦ ¥ ¦ ¤¦ ¥ ©¥ ¡¥

¨¥

 ¥

¢¥

§¥

¦¥ ¥¥

¤¥ 

©

¡

¨

 

¢

§

¦

¥

¥ ¡¡£ ¢¡ 

© ¡¡£ ¢¡    ¡¡£ ¢¡  ¡¡¡£ ¢¡  ¨¡¡£ ¢¡  §¡¡£ ¢¡  ¤¡¡£ ¢¡  ¦¡¡£ ¢¡  ¢¡¡£ ¢¡ 

20

KAPITEL 2. DATENANALYSE UND DESKRIPTIVE STATISTIK

zen sollen „runde“ und „einfache“ Zahlenwerte sein. Die erste und letzte Klasse werden oft als „offene“ Klassen geführt, d.h. von − ∞ (untere Grenze der ersten Klasse) bzw. + ∞ (obere Klasse der letzten Klasse) begrenzt. Die Klassenbreiten (= obere minus untere Klassengrenze) werden so gewählt, dass sie gleich lang sind und die Klassenhäufigkeiten (Anzahl der Messwerte pro Klasse) nicht extrem unterschiedlich. (Die Forderung nach gleich großen Klassenbreiten ist nicht zwingend, in unseren Anwendungsfällen aber üblich). Je weniger Klassen man bildet, desto übersichtlicher und „einfacher“ wird die Stichprobe zwar, es gehen aber auch umso mehr Informationen verloren. Je größer die Anzahl der Klassen ist, desto unübersichtlicher bleibt die Stichprobe. Bei n Elementen in der Stichprobe kann für die Ermittlung der Anzahl m der Klassen folgende Faustformel herangezogen werden:  für n < 25  5 √ n für 25 ≤ n ≤ 100 (2.1) m=  1 + 4.5 · lg n für n > 100 Jedenfalls sollte aber gelten Für die Klassenbreite d ergibt sich dann d≈ m ≤ 10 · lg n (2.2)

xmax − xmin m

(2.3)

wobei bei offenen Klassen xmin und xmax in den beiden offenen Klassen liegen sollten (also xmin in der ersten und xmax in der letzten Klasse). Der arithmetische Mittelwert der oberen und unteren Klassengrenze wird als Klassenmitte bezeichnet. (Bei offenen Klassen ist die Klassenmitte nicht das Mittel der Klassengrenzen, sondern ergibt sich entsprechend der Breiten in den anderen Klassen). Manchmal sind von einer Stichprobe nicht mehr die ursprünglichen Stichprobenwerte einzeln bekannt, sondern nur noch die Klassenmitten und die Anzahl der in der jeweiligen Klasse liegenden Elemente. In diesem Fall wird angenommen, dass alle Werte dieser Klasse in der zugehörigen Klassenmitte liegen. Messwerte, die genau auf einer Klassengrenze liegen, fallen je zur Hälfte in jedes der beiden angrenzenden Intervalle. Dies kann zu der eigenartig anmutenden Konstellation führen, dass ein Intervall nicht nur eine ganzzahlige Anzahl von Elementen enthält sondern auch 0.5, 1.5 . . . etc. Will man dies vermeiden, werden üblicherweise die unteren Klassengrenzen in die jeweilige Klasse eingeschlossen, die oberen hingegen ausgeschlossen und zur nächsten Klasse hinzugezählt.

2.3.2

Häufigkeitstabellen

Zur besseren Überschaubarkeit der Stichprobenwerte hilft eine tabellarische Darstellung, die die Daten der Urliste systematisch darstellt. Dabei werden zu jeder Klasse die entsprechenden Klassengrenzen, die Klassenmitten und Angaben über die Häufigkeit von Beobachtungswerten in dieser Klasse zusammengestellt. Im Einzelnen können das die absolute und relative Häufigkeit sowie die absolute und relative Häufigkeitssumme sein: Die absolute Häufigkeit k i ist die Anzahl der Beobachtungswerte, die gleich einem vorgegebenen Wert sind oder in eine bestimmte Klasse i von Werten gehören. Es muss gelten:

∑ ki = n
i =1

m

(2.4)

2.3. DARSTELLUNGSFORMEN VON DATENMENGEN

21

Die absolute Häufigkeitssumme (auch: Summenhäufigkeit oder: absolute kumulierte Häufigkeit) K ist die Anzahl der Beobachtungswerte, die einen vorgegebenen Wert (bzw. eine vorgegebene Klassengrenze) nicht überschreiten:
xi ≤ x j

K(xj ) =

ki

(2.5)

i =1

Die relative Häufigkeit hi ist die absolute Häufigkeit dividiert durch die Gesamtzahl der Beobachtungswerte: hi = Es muss gelten: ki n (2.6)

∑ hi = 1
i =1

m

(2.7)

Die relative Häufigkeitssumme (auch: relative Summenhäufigkeit oder: relative kumulierte Häufigkeit) H ist die absolute Häufigkeitssumme dividiert durch die Gesamtzahl der Beobachtungswerte: H(xj ) = K(xj ) = n
xi ≤ x j

hi

(2.8)

i =1

Wir können nun die Daten der Tab.2.3 in einer Häufigkeitstabelle darstellen. Tab.2.4 zeigt die entsprechende Häufigkeitstabelle für die gemeinsame Betrachtung aller Daten der Messreihen x, y und z. i 1 2 3 4 5 6 7 8 9 10 Summe Klassengrenzen −∞ 574,7705 574,7705 574,7715 574,7715 574,7725 574,7725 574,7735 574,7735 574,7745 574,7745 574,7755 574,7765 574,7775 574,7785 574,7755 574,7765 574,7775 574,7785 +∞ -mitte 574,770 574,771 574,772 574,773 574,774 574,775 574,776 574,777 574,778 574,779 k 1 0 2 3 4 6 4 3 0 1 24 K 1 1 3 6 10 16 20 23 23 24 h 0,042 0 0,083 0,125 0,167 0,25 0,167 0,125 0 0,042 1 H 0,042 0,042 0,125 0,25 0,417 0,667 0,833 0,958 0,958 1

Tabelle 2.4: Häufigkeitstabelle zu den Daten aus Tab. 2.3

Weitere Begriffe Die (empirische) Verteilungsfunktion ist jene Funktion, die jedem Beobachtungswert die relative Häufigkeitssumme zuordnet. Die (absolute oder relative) Häufigkeitsdichte ist die absolute oder relative Häufigkeit dividiert durch die Klassenbreite.

22

KAPITEL 2. DATENANALYSE UND DESKRIPTIVE STATISTIK

2.3.3

Grafische Darstellungen

Neben Häufigkeitstabellen sind oft auch grafische Darstellungen der Verteilungen hilfreich. Durch sie lassen sich die Häufigkeiten meist besser „auf einen Blick“ erfassen als mit der Häufigkeitstabelle. Grafiken erlauben einen optischen – und damit meist „schnelleren“ – Vergleich zwischen einzelnen Werten. Auch können „Muster“ in unseren Daten leichter erkannt werden. Andererseits stellen Grafiken alleine (ohne die zugrundeliegenden Tabellen) immer auch einen gewissen Informationsverlust dar, weil die absoluten numerischen Werte eventuell nicht mehr erkennbar sind. Liniendiagramm Liniendiagramme haben wir bereits in Abb.2.1 und Abb.2.2 gesehen. Liniendiagramme eignen sich vor allem auch dann, wenn mehrere Datenreihen verglichen werden sollen. Allerdings geht nach ca. 5-7 Linien die Übersichtlichkeit wieder verloren. Säulen- und Balkendiagramm Ein Säulendiagramm (auch: Stabdiagramm) ist die grafische Repräsentation einer unklassierten Häufigkeitstabelle diskreter Daten. Zunächst zeichnen wir eine waagerechte Linie, unter der wir in regelmäßigen Abständen die Merkmalswerte (Kategorien oder Zahlen) eintragen. Bei quantitativen Daten kann diese Unterteilung der Achse gleich direkt proportional umgelegt werden, bei qualitativen Daten wählt man beliebige Abstände, jedenfalls so, dass alle vorkommenden Werte sinnvoll untergebracht werden können. Auf der linken Seite zeichnen wir eine senkrechte Linie und skalieren diese entsprechend der vorkommenden (absoluten oder relativen) Häufigkeiten. Mathematisch haben wir damit ein Koordinatensystem mit einer Abszisse (horizontale oder „xAchse“) und Ordinate (vertikale oder „y-Achse“) geschaffen. Über den jeweils auf der Abszisse aufgetragenen Merkmalswerten werden nun Säulen eingezeichnet, das sind schmale Rechtecke parallel zur Ordinate, deren Länge proportional zur zugehörigen Häufigkeit ist. Die Säulen haben gleiche Breite; damit ist nicht nur die Länge sondern auch die Fläche proportional zur Häufigkeit. Ein Beispiel für ein Säulendiagramm ist die Darstellung in Abb.2.3. Manchmal wird das Koordinatensystem auch gedreht (Merkmalswerte auf der senkrechten Achse, Häufigkeiten auf der waagerechten Achse) und dann zur Unterscheidung Balkendiagramm genannt (siehe Abb.2.4). In einem Stab- oder Balkendiagramm lassen sich auch zwei oder mehrere Datensätze darstellen, was oft einen viel anschaulicheren und offensichtlicheren Vergleich zwischen den Datensätzen erlaubt; zum Beispiel können bei der Darstellung von Schulerfolgen die Datensätze für Mädchen und Burschen in getrennten Datensätzen dargestellt werden etc. Dabei ist darauf zu achten, dass ein Vergleich zweier oder mehrerer Datensätze auf Basis der absoluten Häufigkeiten nur dann sinnvoll ist, wenn die Datensätze vom gleichen Umfang sind. Bei unterschiedlichem Umfang werden im Stabdiagramm die relativen Häufigkeiten repräsentiert (siehe Abb.2.4). Da wir auf der Abszisse eine „Reihenfolge“ der Daten festlegen müssen, sollten die Daten der Urliste für diese Darstellungsform zumindest ordinal skaliert sein. Haben wir nominal skalierte Daten zur Auswertung, könnten wir eine derartige Reihenfolge nur willkürlich festlegen. Eine solche willkürliche Festlegung der Anordnung kann jedoch eine Interpretation suggerieren, die eigentlich nicht in den Daten enthalten ist. Nominal skalierte Daten werden daher besser in einem Kreisdiagramm dargestellt.

2.3. DARSTELLUNGSFORMEN VON DATENMENGEN

23

Abb. 2.3 Ergebnis der österreichischen Nationalratswahlen 2006. Darstellung in einem Säulendiagramm. (Quelle: SORA)

Kreisdiagramme Bei Kreisdiagrammen (auch: Tortendiagramm) wird jeder Ausprägung des Merkmals ein Kreissektor zugewiesen. Die Fläche des Sektors spiegelt dabei die relative Häufigkeit seines Auftretens wider. Die Sektorgrenzen können berechnet werden, indem die relativen Häufigkeiten jeweils mit 360◦ multipliziert werden. Damit erhält jeder Merkmalswert ein „Tortenstück“, dessen Größe der relativen Häufigkeit entspricht. Die einzelnen Kreissektoren erhalten zur besseren Lesbarkeit meist unterschiedliche Färbungen oder Grafikmuster. Abb.2.5 zeigt ein Beispiel dafür. Man erhält mit Kreisdiagrammen einen guten Gesamtüberblick über die Daten; insgesamt sollten aber nicht mehr als 7-9 Segmente (Klassen, Kategorien) vorliegen, damit es noch lesbar ist. Außerdem ist ein direkter Vergleich zweier Merkmale schwierig, wenn die betroffenen „Tortenstücke“ nicht zufällig benachbart sind. Liegen mehrere Datensätze vor, so müssen sie in jeweils separaten Kreisdiagrammen dargestellt werden, was einen (optischen) Vergleich nicht gerade einfach macht. In diesem Fall sind eventuell Streifendiagramme vorzuziehen. Streifendiagramm Bei einem Streifendiagramm werden die Merkmalswerte je Variable „übereinandergeschichtet“. Im selben Diagramm können auch die Merkmalswerte einer anderen Variablen dargestellt werden – siehe Abb.2.6. Histogramm Stetige Daten aber auch umfangreiche Datensätze diskreter Werte werden vor der statistischen Auswertung klassiert. Die grafische Darstellung der Häufigkeitsdichte klassierter Daten erfolgt in einem Histogramm (auch: Staffelbild). Im Gegensatz zum Stabdiagramm spielen dabei die Klassenbreiten eine wichtige Rolle. Auf der Abszisse werden

24

KAPITEL 2. DATENANALYSE UND DESKRIPTIVE STATISTIK

Abb. 2.4 Ergebnis der österreischischen Nationalratswahlen 2006. Darstellung in einem Balkendiagramm. (Quelle: ORF)

die Klassengrenzen aufgetragen und über den Klassenintervallen Rechtecke errichtet, deren Flächen proportional zu den (absoluten und relativen) Häufigkeiten sind; die Balkenhöhen sind daher proportional zur Häufigkeitsdichte. (Achtung bei ungleichen Klassenbreiten: nicht die Höhe sondern die Fläche ist das Maß für die Häufigkeit, die Höhe ist ein Maß für die Häufigkeitsdichte. Nur im Fall gleicher Klassenbreiten spielt dieser Unterschied keine Rolle). Beschriftet werden auf der Abszisse entweder die Klassengrenzen, die Klassenindizes oder die Klassenmitten. Zu beachten ist außerdem, dass in einem Histogramm die Säulen nahtlos aufeinander stoßen müssen (im Gegensatz zum Stabdiagramm). Abb.2.7 zeigt ein Histogramm zu den Daten aus der Tab.2.3, und zwar für eine gemeinsame Betrachtung der Messreihen x, y und z. Es sei hier noch angemerkt, dass verschiedene Statistikprogramme die genannten Diagramme und Histogramme auch in einer dreidimensionalen Ausprägung anbieten. Dies wird vor allem dann Verwendung finden, wenn wir die statistische Verteilung zweier Merkmale zugleich darstellen wollen. Häufigkeitssummenkurve Die grafische Darstellung der Verteilungsfunktion ist die Häufigkeitssummenkurve (auch: Summenhäufigkeitspolygon). Das ist ein Polygon, das entsteht, indem für jede Klasse ein Punkt mit der oberen Klassengrenze als Abszisse und der zugeordneten relativen Häufigkeitssumme als Ordinatenwert gezeichnet werden und benachbarte Punkte linear verbunden werden. Im Falle nichtklassierter Beobachtungen wird die relative Häufigkeitssumme über allen Beobachtungswerten aufgetragen. Bei diskreten Beobachtungsgrößen entsteht eine treppenartige Funktion, bei der jedes Stichprobenelement eine Sprungstelle ist. Die Sprunghöhen sind gleich den relativen Häufigkeiten h. Abb.2.8 zeigt die Häufigkeitssummenkurve zu den Daten aus Tab.2.3.

2.3. DARSTELLUNGSFORMEN VON DATENMENGEN

25

Abb. 2.5 Wegzüge aus Österreich ins Ausland nach Staatsangehörigkeit. Darstellung in einem Kreisdiagramm. (Quelle: Statistik Austria, Statistisches Jahrbuch 2002)

Stamm-und-Blatt-Diagramm Eine Alternative zu Stabdiagramm und Histogramm ist das Stamm-und-Blatt-Diagramm. Er ist ähnlich anschaulich wie diese, beinhaltet aber auch noch explizit alle Daten und erleichtert so das direkte Berechnen wichtiger Kenngrößen der Datenverteilung. Um ein Stamm-und-Blatt-Diagramm zu erstellen, wählt man zunächst eine Einheit für die Messdaten, und zwar so, dass die gesuchte „interessierende“ Stelle die 1. Nachkommastelle ist. In unserem Beispiel (Tab.2.3) interessiert uns zum Beispiel der „richtige“ Millimeter – wir wählen also als Einheit für die Messdaten Zentimeter [cm] und teilen alle Datenwerte an der Stelle des Dezimalkommas in „Stamm“ und “Blätter“. Beachte: Es darf nicht vergessen werden, im Stamm-und-Blatt-Diagramm eine Legende anzugeben, aus der die Einheiten des Stammes und der Blätter ersichtlich sind! Man zeichnet eine vertikale Linie und trägt davor die Ziffern vor dem Komma ein. Sie bilden den Stamm. Rechts von den Stamm-Einträgen werden auf horizontalen „Ästen“ jeweils die Nachkommastellen eingetragen (die einzelnen Blätter). Dabei gehören alle Werte, die in einer Klasse liegen, zu einem Blatt. Ergänzend können links vom Stamm noch die jeweiligen Summenhäufigkeiten angegeben werden. Abb.2.9 zeigt zwei unterschiedliche Möglichkeiten eines Stamm-und-Blatt-Diagramms zu den Daten aus Tab.2.3, einmal mit einer Klassierung der Daten in 10 Klassen und einer Klassenbreite von 1 mm und einmal mit 5 Klassen und einer Klassenbreite von 2 mm. Stamm-und-Blatt-Diagramme eignen sich nicht für extrem große Datenmengen. Stammgrößen zwischen 5 und 20 „Ästen“ sind ideal für eine anschauliche Datendarstellung. Zu beachten ist außerdem, dass die „Blätter“ auch aus mehreren Ziffern bestehen können (mehrere Nachkommastellen). In diesem Fall sind sie durch Kommata zu trennen. Nachdem wir unsere Daten nun grafisch dargestellt und ihre Verteilung veranschaulicht haben, werden wir im nächsten Schritt die Art und Weise der Verteilung der Messwerte auch numerisch charakterisieren. Ziel ist es dabei, die Datenmenge durch einige wenige Kennwerte möglichst gut zu beschreiben.

26

KAPITEL 2. DATENANALYSE UND DESKRIPTIVE STATISTIK

Abb. 2.6 Herkunft der Studierenden zweier Jahrgänge (vgl. Tab.2.2)

Abb. 2.7 Histogramm zur Tab.2.4 

2.4 Kennwerte empirischer Häufigkeitsverteilungen
Eine Häufigkeitsverteilung ist der Zusammenhang zwischen den Beobachtungswerten und den (absoluten und relativen) Häufigkeiten bzw. Häufigkeitssummen ihres Auftretens. Betrachten wir dabei immer nur ein Merkmal, so sprechen wir von univariater10 Häufigkeitsverteilung; bei zwei Merkmalen von bivariater und bei mehreren Merkmalen von multivariater Häufigkeitsverteilung. Im Rahmen unserer weiteren Überlegungen werden wir uns zunächst auf univariate Häufigkeitsverteilungen beschränken. Außerdem betrachten wir in diesem Kapitel ausschließlich empirische Daten und somit Stichproben. Jede Häufigkeitsverteilung kann durch verschiedene Kenngrößen charakterisiert werden; insbesondere gibt es Kenngrößen der Lage, der Streuung und der Form der Verteilung. Jedem einzelnen Beobachtungswert kann außerdem eine Rangzahl zugeordnet sein, das ist die Nummer des Wertes in der nach aufsteigenden Zahlenwerten geordneten Folge von Beobachtungswerten.

10 vom

lat. variare = verschieden sein          

 

2.4. KENNWERTE EMPIRISCHER HÄUFIGKEITSVERTEILUNGEN

27

Abb. 2.8 Häufigkeitssummenkurve zu den Daten aus Tab.2.3. Einheit Abszissenachse (Klassengrenzen): mm (+574.77 m)
#

Abb. 2.9 Stamm-und-Blatt-Diagramm zu den Daten aus Tab.2.3 mit den zwei Klassenanzahlen m = 10 und m = 5 und den Klassenbreiten d = 1 mm bzw. d = 2 mm
K 1 1 3 6 10 16 20 23 23 24 [cm] 57477 K 0 2 3 4 5 6 7 9 2 3 4 5 6 7 1 6 16 23 24 57477 0 2 4 6 9 [cm]

3 4 5 6 7

4 5 6

5

5

2 4 6

3 4 6

3 4 6

3 5 7

5 7

5 7

2.4.1

Lage-Kennwerte empirischer Häufigkeitsverteilungen

Lagekennwerte (auch: Ortsparameter) charakterisieren in summarischer Art und Weise die Verteilung der Beobachtungswerte.

Minimaler und maximaler Wert Zunächst einmal kann man für jede Datenmenge einen Maximalwert xmax und einen Minimalwert xmin angeben. Sind die Daten entsprechend ihrer Rangzahl indiziert, so ist xmin = x1 und xmax = xn (2.10) (2.9)

'"1

1

'"0

0

'")

)

'"(

(

'"'

'

'" &

&

'"%

%

'" $

$

'"#

#

'"!

!

'"!2

# "!

0"! '"! )"! ("! %"! ! &"! $"!

1"!

5

5

5

28

KAPITEL 2. DATENANALYSE UND DESKRIPTIVE STATISTIK

Arithmetischer Mittelwert Der arithmetische Mittelwert ist der Quotient der Summe der Beobachtungswerte dividiert durch die Anzahl der Beobachtungswerte: ¯ x= 1 n

∑ xi =
i =1

n

x1 + x2 + · · · + x n n

(2.11)

Hinweis: Das Eigenschaftswort „arithmetisch“11 wird oft auch weggelassen. Stellen wir uns die Darstellung einer Datenreihe in einem Histogramm vor und dieses Histogramm auf dem Balken einer Balkenwaage montiert, so ist der Mittelwert ident mit dem Schwerpunkt dieses Systems, das heißt jener Punkt, in dem die Waage aufliegen muss, damit sie im Gleichgewicht ist. Der Mittelwert muss übrigens kein tatsächlich beobachteter Wert sein sondern ist nur eine Rechengröße (was sich aus seiner Definition ohnehin von selbst ergibt). Damit ist aber die praktische Interpretation des Mittelwertes manchmal schwierig. Haben wir zum Beispiel diskrete Daten vorliegen, wie die „Anzahl der Kinder pro Familie“, so erhalten wir oft einen Mittelwert aus einer nicht-diskreten mathematischen Menge (zum Beispiel 1.8 Kinder). Außerdem sei erneut darauf hingewiesen, dass ein Mittelwert nur für numerische Merkmale einen Sinn ergibt. Die Berechnung eines Mittelwertes aus ordinal skalierten Merkmalen (zum Beispiel eine „Durchschnittsnote“ auf Grund eines Zeugnisses) ist statistisch gesehen ohne Aussagekraft. Bsp. 2.3 (Quelle: Salzburger Nachrichten, 2.10.2007) Drei volle Tage verbringt laut einem Studienergebnis ein durchschnittlicher Autofahrer in der 18-Millionen-Einwohner-Metropole Los Angeles jährlich im Stau. Durch den Stop-and-go-Verkehr verschwende der Durchschnittsfahrer nicht nur seine Zeit, sondern auch noch 200 Liter Treibstoff pro Jahr, ermittelte das Verkehrsinstitut Texas. Damit liegen die Einwohner der kalifornischen Stadt erheblich über dem US-Schnitt, der bei 38 Stunden Stau pro Jahr und 100 damit vergeudeten Litern Benzin liegt. Landesweit kosten Staus die US-Volkswirtschaft demnach 78 Milliarden Dollar pro Jahr. 4.2 Arbeitsstunden gehen verloren.

Quantile Werte, welche eine der Größe nach geordnete Beobachtungsreihe (eine Rangliste) in zwei Anteile zerlegen, werden α-Quantile genannt, wobei α den Umfang der „abgeteilten“ Daten angibt. α kann zwischen 0 und 1 bzw. zwischen 0% und 100% liegen. Man findet die entsprechenden Werte, indem man zunächst die zugehörige Rangzahl bestimmt: r α = α ( n − 1) + 1 (2.12) d.h. der Wert an der Stelle rα ist das gesuchte Quantil. Im Allgemeinen wird rα keine ganze Zahl sein, daher kann man auch nicht immer einen tatsächlich beobachteten Wert als Quantil angeben. Gegebenenfalls muss zwischen den Werten an der Stelle int(rα ) und (int(rα ) + 1) linear interpoliert werden: xα = xint(rα ) + (rα − rint(rα ) )( xint(rα )+1 − xint(rα ) )
11 griech.

(2.13)

αριθµητικoς (arithmetikos) = im Zählen oder Rechnen geschickt

2.4. KENNWERTE EMPIRISCHER HÄUFIGKEITSVERTEILUNGEN

29

Wichtige Quantile sind das 0.5-Quantil und das 0.25-Quantil. Das 0.5-Quantil ist der „mittelste“ Datenwert, d.h. oberhalb und unterhalb liegen je 50% der Werte. Es wird daher auch Median x1/2 oder Zentralwert genannt. Für den Median können wir Formel (2.13) auch anders angeben, je nachdem, ob n gerade oder ungerade ist: x1/2 = x k +1 1 2 · ( x k + x k +1 ) mit n = 2k + 1 (ungerade) mit n = 2k (gerade) (2.14)

Ein weiteres wichtiges Quantil – das 0.25-Quantil – teilt zusammen mit dem 0.75Quantil und dem Median eine Häufigkeitsverteilung in 4 gleiche Abschnitte und wird daher Quartil („Viertelwert“) genannt. Oft wird das 0.25-Quantil auch als unteres Quartil und das zugehörige (1 − α) = 0.75-Quantil als oberes Quartil bezeichnet12 . Oberhalb des oberen Quartils (x3/4 ) und unterhalb des unteren Quartils (x1/4 ) liegen je 25 % der Werte. Man könnte das auch so sagen: „Das untere Quartil ist der Median der unteren Datenhälfte; das obere Quartil ist der Median der oberen Datenhälfte“. Werden Quantile in Prozenten angegeben (zum Beispiel das 10%-Quantil, das 10% der Daten von den übrigen 90% abtrennt), so werden sie auch als Perzentile bezeichnet. In unseren Anwendungen werden jene Perzentile eine gewisse Rolle spielen, die 5%, 1% bzw. 0.1% der Daten abtrennen. Mittelwert versus Median Mittelwert und Median werden beide verwendet, um eine umfangreich Datenmenge durch einen einzigen Wert möglichst gut zu repräsentieren. Im allgemeinen Sprachgebrauch sagen wir auch: wir suchen den Durchschnitt. Mittelwert und Median haben dabei unterschiedliche Eigenschaften, die sie – je nach Anwendungsfall – geeigneter erschienen lassen, diese Aufgabe zu erfüllen. Sie zeigen zum Beispiel unterschiedliches Resistenzverhalten (Widerstandsfähigkeit) gegenüber Ausreißern. Der Mittelwert ist sehr empfindlich gegenüber Ausreißern. Ein ¯ einzelner Wert kann x bedeutend verändern, wie der Wert 574.173 in der Tab.2.3 zeigt. Ursprünglich wäre der Mittelwert (aus 25 Beobachtungen) 574.751, nach dem Streichen des offensichtlichen fehlerhaften Wertes 574.173 ergibt sich (aus nunmehr 24 Beobach¯ tungen) für x = 574.775. Der Median hingegen wird durch einzelne Ausreißer kaum verändert. Ändert sich ein Datenwert – egal um wie viel – so ändert der Median seinen Wert nur dann, wenn dieser Datenwert von der einen Hälfte der geordneten Daten in die andere Hälfte wandert. In unserem Beispiel (Tab.2.3) bleibt er mit oder ohne Ausreißer mit 574.775 gleich. Eine weitere unterschiedliche Eigenschaft von Mittelwert und Median betrifft die OpBsp. 2.4 Mittelwert versus Median Treten Sie in Gehaltsverhandlungen mit Ihrem Chef und nehmen einen „mittleren Wert“ aus allen Gehältern innerhalb der Firma als Grundlage, so verwenden Sie den arithmetischen Mittelwert, weil dann das überproportionale Gehalt Ihres Chefs als „Ausreißer“ den Mittelwert erhöhen wird. Ihr Chef wird hingegen versuchen, den Median als Basis heranzuziehen, weil dann die Höhe seines Gehalts keinen Einfluss hat . . . .
12 Achtung: Die Bezeichnung „oberes“ bzw. „unteres“ Quartil ist in Bezug auf Abb.2.9 etwas irreführend: „Oben“ und „unten“ bedeutet nämlich nicht, dass die Daten im oberen oder unteren Bereich des Stamm-undBlatt-Diagramms liegen, sondern im oberen oder unteren Bereich der der Größe nach geordneten Daten.

30

KAPITEL 2. DATENANALYSE UND DESKRIPTIVE STATISTIK

timalitätseigenschaften. Mittelwert und Median sollen die Datenmenge „optimal“ repräsentieren. Sie erfüllen dabei folgende Eigenschaften:

i =1

∑ |xi − x1/2 | → min
i =1

n

(2.15)

¯ ∑ (xi −x)2 → min

n

(2.16)

Der Median ist also jener Wert, der die Summe der betragsmäßigen Abweichungen minimiert; der Mittelwert minimiert die Summe der quadratischen Abweichungen. Bei der praktischen Berechnung gibt es auch einen Unterschied zwischen Mittelwert und Median: Während für den arithmetischen Mittelwert die (ungeordnete) Urliste herangezogen werden kann, müssen zur Berechnung des Medians die Daten zuerst in eine (der Größe nach geordnete) Rangliste gebracht werden. Bezüglich der Skalierung der Merkmale unterschieden sich Median und Mittelwert dahingehend, dass das arithmetische Mittel ein numerisches Skalenniveau verlangt, der Median hingegen für numerische oder ordinal skalierte Merkmale angegeben werden kann. (Es macht somit also Sinn, den Median von Schulnoten anzugeben). Modalwert Der Modalwert ist jener Wert, zu dem ein Maximum der absoluten oder relativen Häufigkeit (oder der Häufigkeitsdichte) gehört, d.h. jene(r) Wert(e), der/die in der Stichprobe am häufigsten vorkommt (vorkommen). Gibt es nur einen einzigen Modalwert, so spricht man auch von einer unimodalen Verteilung und bezeichnet den Modalwert selbst als häufigsten Wert. Modalwerte können sowohl auf qualitativen als auch auf quantitativen Skalen angegeben werden. Die Daten der Tab.2.3 bzw. der Messreihe z sind unimodal mit einem Modalwert von jeweils 574.775. Messreihe x hingegen hat die beiden Modalwerte 574.774 und 574.775; Messreihe y gleich vier Modalwerte (574.773, 574.774, 574.776, 574.777). Man sieht die Anzahl der Modalwerte auch sehr gut in einem Histogramm. Aus Abb.2.7 ist beispielsweise sofort ersichtlich, dass es sich um eine unimodale Verteilung handelt, weil es nur einen „Höchstwert“ gibt. Der Modalwert ist übrigens aus offensichtlichen Gründen – stärker noch als der Median – resistent gegen Ausreißer.

2.4.2

Streuungskennwerte empirischer Häufigkeitsverteilungen

Lageparameter geben noch kein vollständiges Bild der Daten und ihrer Verteilung wieder. So haben zum Beispiel sowohl die Messreihen x, y und z und auch die Gesamtdatenreihe (Tab.2.3) alle denselben Mittelwert (auf mm gerundet), die Histogramme und Häufigkeitssummenkurven hingegen sehen alle anders aus. Offensichtlich gibt es noch ein anderes wichtiges Unterscheidungsmerkmal von Messreihen. Es sind dies für numerisch skalierte Merkmale die Streuungs-Kennwerte, die die Schwankungen der Daten charakterisieren. Spannweiten Die Spannweite ist die Differenz zwischen dem größten und dem kleinsten Beobachtungswert: ∆ = xmax − xmin (2.17)

2.4. KENNWERTE EMPIRISCHER HÄUFIGKEITSVERTEILUNGEN

31

Die Quartilspannweite (auch: Quartilabstand oder Viertelweite) ist Differenz zwischen dem oberen und unteren Quartil: ∆0.25 = x3/4 − x1/4 (2.18)

Die Quartilspannweite kann dazu verwendet werden, um in einer ersten Näherung Ausreißer-Grenzen festzulegen: Au = x1/4 − 1.5 · ∆0.25 Ao = x3/4 + 1.5 · ∆0.25 (2.19) (2.20)

Datenwerte, die außerhalb des Intervalls [ Au , Ao ] liegen, können als extreme Werte (Ausreißer) angesehen und eventuell gestrichen werden. Achtung: Dies ist nur ein näherungsweises Vorgehen. Es gibt auch statistisch exakte Ausreißer-Test. Empirische Varianz und Standardabweichung Die empirische Varianz (auch: Stichprobenstreuung) charakterisiert die Abweichungen der Daten von ihrem Mittelwert. Es ist die Summe der quadrierten Abweichungen der Beobachtungswerte von ihrem arithmetischen Mittelwert dividiert durch (n − 1); sie wird daher auch mittlere quadratische Abweichung genannt: s2 =
n 1 ¯ ∑ ( x i − x )2 n − 1 i =1

(2.21)

Die empirische Standardabweichung ist die positive Quadratwurzel aus der Varianz: s=

s2

(2.22)

Der empirische Variationskoeffizient (auch: relative Abweichung) ist die Standardabweichung dividiert durch den Betrag des arithmetischen Mittelwerts; er wird manchmal auch in Prozent angegeben: s vx = · 100% (2.23) ¯ |x| Hat man zum Beispiel bei einer Streckenbeobachtung von 1 km Länge eine Standardabweichung von 5 mm, so beträgt die relative Abweichung s 5 = 5 · 10−6 = ¯ 1000000 |x| was auch als 5 mm/km oder als 5 ppm (steht für: parts per million) geschrieben wird. Auf eine Million Millimeter kommen also 5 mm Abweichung. Anmerkung: Das Eigenschaftswort „empirisch“ unterscheidet die genannten Größen von den gleich lautenden theoretischen Größen, die wir im nächsten Kapitel kennen lernen werden. Auf diese genaue Bezeichnung kann verzichtet werden, wenn aus dem Zusammenhang klar ist, dass es sich um empirische Größen handelt. Bevor wir nun noch eine weitere Gruppe von Kennwerten näher ansehen, müssen wir unsere Beobachtungswerte noch zentrieren und standardisieren:

32

KAPITEL 2. DATENANALYSE UND DESKRIPTIVE STATISTIK

2.4.3

Zentrierter, normierter und standardisierter Beobachtungswert

Der zentrierte Beobachtungswert ist der Beobachtungswert minus des arithmetischen Mittelwerts: ¯ xi − x (2.24) Zentriert man einen gesamten Datensatz, dann ist das arithmetische Mittel der zentrierten Daten gleich Null. Der normierte Beobachtungswert ist der Beobachtungswert dividiert durch die Standardabweichung: xi (2.25) s Normiert man einen gesamten Datensatz, dann ist die Standardabweichung der normierten Daten gleich Eins. Der standardisierte Beobachtungswert ist der zentrierte Beobachtungswert dividiert durch die Standardabweichung, es wird also zuerst zentriert und anschließend normiert: ¯ x −x (2.26) z= i s Dieser Wert (manchmal übrigens auch als z-Wert bezeichnet) gibt an, „wie viele Stan¯ dardabweichungen“ der Messwert xi vom Mittelwert x entfernt ist. Der z-Wert ist dimensionslos. Das Vorzeichen gibt Auskunft darüber, ob der Wert über- oder unterdurchschnittlich ist. Ein z-Wert von 2 gibt zum Beispiel an, dass der zugehörige Messwert 2 Standardabweichungen oberhalb des Mittelwertes liegt; ein z-Wert von −1.7 bedeutet, dass der zugehörige Messwert 1.7 Standardabweichungen unterhalb des Mittelwertes liegt. Wir können den z-Wert auch als Kriterium für das Auffinden von Ausreißern verwenden: Ein z-Wert kleiner als −3 oder größer als +3 weist auf einen solchen Ausreißer hin.

2.4.4

Form-Kennwerte empirischer Häufigkeitsverteilungen

Die nun folgenden Form-Kennwerte sind etwas kompliziert zu berechnen, geben aber wichtige Eigenschaften der Verteilung bezüglich ihrer Symmetrie und Wölbung an. Schiefe und Wölbung Die Schiefe einer Häufigkeitsverteilung ist der arithmetische Mittelwert der dritten Potenz der standardisierten Beobachtungswerte: γ1 = 1 n


i =1

n

¯ xi − x s

3

(2.27)

Sie beschreibt, inwieweit die Häufigkeitsverteilung von der Symmetrie abweicht: Eine Schiefe von Null heißt (siehe auch Abb.2.10): es handelt sich um eine symmetrische Verteilung und der Median und Mittelwert sind gleich groß. Ein positiver Wert bedeutet, dass die Verteilung „rechtsschief“ ist und der größere Teil der Merkmalsträger sich am Anfang der Häufigkeitsverteilung konzentriert. Das arithmetische Mittel ist dann größer als der Median, liegt also rechts von ihm. Ein negativer Wert bedeutet, dass die Verteilung „linksschief“ ist. Die meisten Daten befinden sich am Ende der Daten im oberen Bereich der Verteilung und das arithmetische Mittel ist kleiner als der Median (liegt also links vom Median). Siehe Abb.2.11.

2.4. KENNWERTE EMPIRISCHER HÄUFIGKEITSVERTEILUNGEN

33

Abb. 2.10 Unimodale (linkes Bild) und bimodale (rechtes Bild) symmetrische Verteilung mit einer Schiefe von jeweils γ1 = 0.

Abb. 2.11 Rechtsschiefe (linkes Bild, γ1 = +0.2) und linksschiefe (rechtes Bild, γ1 = −0.2) Verteilung.

Der numerische Wert der Schiefe, den man aus Formel (2.27) erhält, hängt sehr von Ausreißern ab. Daher sollte die endgültige Beurteilung der Schiefe am besten durch zusätzliche Betrachtung einer grafischen Darstellung, zum Beispiel des Histogramms oder Stamm-und-Blatt-Diagramms, erfolgen. Die Kurtosis13 einer Häufigkeitsverteilung ist der arithmetische Mittelwert der vierten Potenz der standardisierten Beobachtungswerte: γ2 = 1 n


i =1

n

¯ xi − x s

4

(2.28)

Die Kurtosis beschreibt die „Wölbung“ einer Verteilung. Sie zeigt an, in welchem Maße sich Daten um die Mitte einer Verteilung gruppieren bzw. ob die Verteilung abgeflacht oder gewölbt ist. Mathematisch heißt das, die Kurtosis charakterisiert die Verteilung hinsichtlich der Nähe der Wendepunkte zum Maximum der Verteilung. Die Kurtosis der für uns wichtigsten Verteilung (das ist die Normalverteilung, die wir im nächsten Kapitel kennen lernen werden) hat den Zahlenwert γ2 = 3. Eine Verteilung mit γ2 = 3 wird auch als normal gewölbt bezeichnet. Je nach dem Grad der Wölbung wird zwischen steil gewölbten (γ2 > 3) und flach gewölbten (γ2 < 3) Verteilungen unterschieden. Siehe Abb.2.12. Diese Definition des Kennwertes für die Wölbung stammt von Pearson14 . Eine an13 vom 14 Karl

griech. κυρτoς (kyrtos) = krumm, gewölbt Pearson, 1857-1936. Er war es auch, der den Begriff Standardabweichung erstmals verwendete

34

KAPITEL 2. DATENANALYSE UND DESKRIPTIVE STATISTIK

Abb. 2.12 Steilgewölbte (linkes Bild, γ2 = 3.1, β 2 > 0) und flachgewölbte (rechtes Bild, γ2 = 2.0, β 2 < 0) Verteilung.

dere, jene von Fisher15 , vermindert die Kurtosis um den Faktor 3 (also die Kurtosis der Normalverteilung), und man erhält den so genannten Exzess: Der Exzess einer Häufigkeitsverteilung ist die um den Zahlenwert 3 verminderte Kurtosis: β2 = 1 n


i =1

n

¯ xi − x s

4

−3

(2.29)

Dementsprechend ist eine Verteilung normal gewölbt, wenn β 2 = 0 ist, flach gewölbt wenn β 2 < 0 und steil gewölbt wenn β 2 > 0.

2.5 Statistische Begriffe der Messtechnik
Zusätzlich zu den bisher genannten Begriffen und Methoden der mathematischen Statistik werden in der physikalischen Messtechnik zur statistischen Beschreibung der Daten noch weitere Kennwerte verwendet. Es sind dies insbesondere der Begriff des „wahren Wertes“ und die Unterscheidung und Unterteilung der Abweichungen der einzelnen Messwerte nach ihrer Ursache („systematische“ und „zufällige“ Abweichungen).

2.5.1

Wahrer Wert und Erwartungswert

Der wahre Wert xw ist ein spezielles Merkmal von Messgrößen16 . Jede Messgröße hat „im Augenblick ihrer Beobachtung“ einen bestimmten Wert, der sich aber in den meisten Fällen einer Bestimmung entzieht, weil es keine „fehlerfreie“ Messmethode gibt. Ausnahme: durch mathematische oder geometrische Bedingungen kann ein wahrer Wert a priori vorgegeben sein, zum Beispiel ist die Winkelsumme in einem geschlossenen Polygon immer (n − 2) · 180◦ . Man kann durch „hochgenaue“ Messungen mit entsprechend hohem Messaufwand sehr nahe an den (unbekannten) wahren Wert herankommen, d.h. die Abweichung dieser hochgenauen Messung vom wahren Wert ist für den jeweils betrachteten Zweck vernachlässigbar klein. Der Wert wird dann richtiger Wert oder Soll-Wert genannt.
Aylmer Fisher, 1890-1962. alle Merkmale haben einen „wahren Wert“. Der Verkehrswert eines Grundstücks etwa hat zwar einen Erwartungswert (bzw. einen Schätzwert dafür, nämlich den Mittelwert aus „sehr vielen“ Kaufpreisen), aber keinen wahren Wert.
16 Nicht 15 Ronald

2.5. STATISTISCHE BEGRIFFE DER MESSTECHNIK

35

Der Mittelwert aller theoretisch möglichen Messwerte xi ist der Erwartungswert µ. Auch der Erwartungswert ist – wie der wahre Wert – nur eine theoretische Größe (man kann ja nicht alle möglichen Messwerte bestimmen). Ein empirischer Schätzwert für ¯ den Erwartungswert ist der arithmetische Mittelwert x.

2.5.2

Messabweichungen

Eine Abweichung ist die Differenz zwischen einer beobachteten Messgröße (Ist-Wert) und einer bestimmten, ihr zugeordneten Bezugsgröße (Soll-Wert). Entspricht dem SollWert der wahre Wert xw und dem Ist-Wert der beobachtete Messwert xi der Messgröße, so ist η = φ IST − φSOLL = xi − xw (2.30) die wahre Abweichung η. Sie setzt sich aus einem systematischen und einem zufälligen Anteil zusammen: η = δ + εi (2.31) Die Unterscheidung zwischen „systematisch“ und „zufällig“ hängt mit der Ursache der Messabweichung zusammen: Jeder Messwert und damit jedes Messergebnis für eine Messgröße wird beeinflusst durch Unvollkommenheit der Messgeräte, des Messverfahrens und des Messobjektes, außerdem durch Umwelt und Beobachter, wobei sich auch zeitliche Änderungen aller genannten Einflüsse auswirken. Als Umwelteinflüsse sind örtliche Unterschiede und zeitliche Änderungen beispielsweise von Temperatur, Luftdruck, aber auch von äußeren elektrischen oder magnetischen Feldern zu be(ob)achten. Der durch den Beobachter verursachte Anteil an der Abweichung ist abhängig von Aufmerksamkeit, Übung, Sehschärfe, Schätzvermögen und anderen Eigenschaften und Fähigkeiten. Grobe Fehler Ein Messergebnis kann durch Irrtümer der Beobachter, durch Wahl eines ungeeigneten Messverfahrens oder durch Nichtbeachten bekannter Störeinflüsse verfälscht werden. Liegt eine dieser Ursachen für eine Abweichung vor, so spricht man von einem Fehler, manchmal auch von einem groben Fehler. Solche Fehler können in der Regel durch hinreichende Kontrollen aufgedeckt und eliminiert werden. Systematische Abweichungen Systematische Abweichungen haben ihre Ursache darin, dass man die Wirklichkeit durch ein zu einfaches mathematisches oder physikalisches Modell ersetzt. Wenn sie auftreten, so sind sie meist in allen Beobachtungswerten einer Messreihe enthalten. Sie werden auch als regelmäßige Abweichungen bezeichnet. Es gibt systematische Abweichungen, die während der Messung einen konstanten Betrag und ein bestimmtes Vorzeichen haben (zum Beispiel bei falsche Justierung des Messgeräts) und solche, die zwar nur in eine bestimmte Richtung wirken, sich aber zeitlich verändern (zum Beispiel bei Abnutzung des Messgeräts oder bei einem gerichteten Temperaturgang während der Messung). Bekannte systematische Abweichungen – sowohl konstante wie zeitlich veränderliche – können durch Korrektion berücksichtigt werden. Man erhält dadurch einen berichtigten Messwert. Voraussetzung ist, dass man die systematische Abweichung mathematisch formulieren kann.

36

KAPITEL 2. DATENANALYSE UND DESKRIPTIVE STATISTIK

Unbekannte systematische Abweichungen können auf Grund experimenteller Erfahrung nur vermutet werden, Betrag und Vorzeichen aber nicht eindeutig angegeben werden. Eine strenge Unterscheidung zwischen unbekannten systematischen Abweichungen und zufälligen Abweichungen ist dann nicht immer möglich; sie werden daher häufig wie zufällige Abweichungen behandelt. Systematische Abweichungen werden übirgens auch im deutschen Sprachgebrauch oft mit der englischen Bezeichnung bias bezeichnet. Zufällige Abweichungen Nicht beherrschbare, nicht einseitig gerichtete Einflüsse führen zu zufälligen Abweichungen der Messwerte. Zu ihrer Modellierung und Abschätzung geht man davon aus, dass sie den Gesetzen der Wahrscheinlichkeitsrechnung folgen (daher auch: stochastische Abweichungen). Es zeigt sich, dass bei einer großen Anzahl von Messungen einer physikalischen Größe 1. kleine zufällige Abweichungen häufiger auftreten als große 2. Abweichungen gleichen Betrags annähernd gleich oft mit positivem und negativem Vorzeichen vorkommen 3. die Häufigkeit des Vorkommens einer Abweichung gleich Null ein Maximum ist. Auf diese Phänomene, die mit der so genannten Normalverteilung zusammenhängen, werden wir im nächsten Kapitel zurückkommen. Der Zusammenhang zwischen Messwert, wahrem Wert und Erwartungswert, sowie systematischen und zufälligen Abweichungen sei noch anhand der folgenden Grafik veranschaulicht (Abb.2.13): Abb. 2.13 Zusammenhang zwischen wahrem Wert xw , Erwartungswert µ, systematischer Abweichung δ und zufälligen Abweichungen ε

Es gilt offenbar für einen Messwert xi εi δ η

= xi − µ = µ − xw = xi − x w

(2.32) (2.33) (2.34)

2.5. STATISTISCHE BEGRIFFE DER MESSTECHNIK

37

2.5.3

Genauigkeit – Präzision – Richtigkeit – Auflösung: Ein babylonisches Sprachengewirr

Die Begriffe „Genauigkeit“, „Präzision“, „Richtigkeit“ und „Auflösung“ werden – auch im fachlich einschlägigen Sprachgebrauch nicht immer korrekt verwendet. Zur Veranschaulichung der Begriffe möge das Beispiel einer Zielscheibe dienen (Abb.2.14). Abb. 2.14 Präzision und Richtigkeit als Kriterien der Genauigkeit

Genauigkeit ist die qualitative Bezeichnung für das Ausmaß der Annäherung eines Messergebnisses an den Bezugswert (das kann der wahre Wert, ein Soll-Wert oder der Erwartungswert sein). Sie setzt sich aus zwei Kriterien zusammen: der Richtigkeit und der Präzision. Richtigkeit ist die qualitative Bezeichnung für das Ausmaß der Annäherung des Erwartungswertes an den wahren Wert (oder quasi-wahren Wert). Ein entsprechendes quantitatives Maß für die Richtigkeit ist demnach die systematische Abweichung δ. Je kleiner die systematischen Abweichungen, desto richtiger ist das Messergebnis. Die Richtigkeit wird auch als äußere Genauigkeit (auch: Treffergenauigkeit – vgl. Abb.2.14) bezeichnet. Kennt man den wahren Wert nicht (und auch keinen Soll-Wert), so kann man definitionsgemäß auch nichts über die Richtigkeit der Messungen sagen, sondern nur über die Präzision. Präzision ist die qualitative Bezeichnung für das Ausmaß der gegenseitigen Annäherung der Messergebnisse bei mehrfacher Anwendung des Messverfahrens. Ein quantitatives Maß für die Präzision ist demnach die Standardabweichung σ (oder s). Je kleiner die Standardabweichung, desto präziser17 ist das Messergebnis. Die Präzision wird auch als innere Genauigkeit (auch: Wiederholgenauigkeit – vgl. Abb.2.14) bezeichnet. Die Auflösung eines Messgerätes oder Messverfahrens (siehe Abb.2.14) ist schließlich der kleinste Messwert, den das Messgerät gerade noch vom nächsten, eng beieinander liegenden Messwert unterscheiden kann. Abschließend noch ein Hinweis auf die Genauigkeit, mit der wir Ergebnisse unserer (statistischen) Berechnungen angeben sollten. Es macht nämlich keinen Sinn, den Mittelwert oder die Standardabweichung oder andere berechnete Parameter auf ein Dutzend Nachkommastellen oder mehr anzugeben. Ohne die numerischen Hintergründe
17 vom lat. praecidere = abschneiden, kurz fassen. Das Wort Präzision hat im Übrigen nur ein s aber zwei i, wird aber oft falsch geschrieben und mit dem Wort Präzession verwechselt – das ist das Schwanken der Achse eines rotierenden Körpers (zum Beispiel eines Kreisels) unter dem Einfluss äußerer Kräfte.

38

KAPITEL 2. DATENANALYSE UND DESKRIPTIVE STATISTIK

näher anzuschauen, können wir festhalten, dass üblicherweise (berechnete) Parameter mit einer oder maximal zwei Nachkommastellen mehr angegeben werden als die Originaldaten.

2.6 Englische Begriffe
Abweichung - deviation Auflösung - resolution Ausreißer - outlier Häufigkeit - frequency Häufigkeitssumme - cumulative frequency Häufigkeitstabelle - frequency distribution Histogramm - histogram Intervallskala - interval scale linksschief - skewed to the left or negatively skewed Kreisdiagramm - pie chart metrische Skala - metrical scale empirischer/arithmetischer Mittelwert sample/arithmetic mean, auch: average Median - median Modalwert - mode nichtmetrische Skala - nonmetrical scale Nominalskala - nominal scale Ordinalskala - ordinal scale Präzision - precision (unteres/oberes) Quartil - (lower/upper) quartile Quartilspannweite - interquartile range rechtsschief - skewed to the right or positively skewed Rangskala - ordinal scale Richtigkeit - accuracy relative Häufigkeit - relative frequency Säulendiagramm - bar chart Skalierung - scaling Spannweite - range Stamm-und-Blatt-Diagramm - stem-andleafe-display (empirische) Standardabweichung - (sample) standard deviation Streuung (einer Verteilung) - spread (of a distribution) Tortendiagramm - pie chart (empirische) Varianz - (sample) variance Verhältnisskala - proportional scale z-Wert - z-score

Kapitel 3

Zufallsgrößen und ihre Wahrscheinlichkeits-Verteilung
Nachdem wir im letzten Kapitel gesehen haben, wie man ganz praktisch („empirisch“) vorgeht, wenn man eine Messreihe vorliegen hat, und wie man die Daten tabellarisch, grafisch oder durch bestimmte Kennwerte darstellen und beschreiben kann, werden wir nun ein wahrscheinlichkeitstheoretisches statistisches Modell für die Verteilung der Daten angeben.

3.1 Statistische Modellierung von Messdaten
Das Messen ist ein Vorgang, dessen Ergebnis nicht genau vorhersagbar (deterministisch1 ), sondern zufällig ist. D.h. selbst wenn wir wissen, dass die Länge einer Strecke 100 m beträgt, wird jede Messung dieser Strecke ein mehr oder weniger davon abweichendes Ergebnis ergeben. Dabei sind die Abweichungen aber nicht völlig regellos oder chaotisch2 , sondern folgen stochastischen3 Gesetzen. Wir werden daher ein stochastisches Modell erstellen.

3.1.1

Zufällige Versuche und Zufallsereignisse

Das statistische Modell, das für unsere Zwecke geeignet ist, ist der zufällige Versuch (auch: Zufallsexperiment). Ein zufälliger Versuch ist ein Vorgang, der – zumindest im Prinzip – beliebig oft wiederholbar ist und dessen Ausgang innerhalb einer Menge möglicher Ausgänge ungewiss – eben zufällig – ist. Das Ergebnis eines zufälligen Versuches ist ein Zufallsereignis E. (Nicht zu verwechseln mit einer „Realisierung“ – siehe unten). Dabei erhalten wir aus der Grundgesamtheit, das ist die Menge aller theoretisch möglichen Ergebnisse, eine Teilmenge – die so genannte Stichprobe (auch: Zufallsstichprobe).
1 vom lat. determinare = bestimmen, festsetzen; „deterministisch“ heißt also, es gibt einen funktionalen Zusammenhang zwischen den Eingangsparametern und dem Ergebnis. 2 „chaotisch“ im Sinne von: Ein Versuch, eine Messreihe, eine Zahlenfolge etc. folgt zwar bestimmten Gesetzmäßigkeiten, wir können aber nicht erkennen, welchen (weil wir zum Beispiel nicht alle Parameter kennen oder modellieren können) und haben daher den Eindruck von Regellosigkeit. (vom griech. χαoζ [chaos] = weiter Raum, besonders der „leere, unermessliche Weltenraum“). 3 vom griech. στoχαστικoσ [stochastikos] = „im Vermuten geschickt“. Die Stochastik untersucht die durch Zufall bedingten Erscheinungen und Größen.

39

40

KAPITEL 3. ZUFALLSGRÖSSEN

Die von uns hier verwendeten Theorien haben übrigens ihren Ursprung im Glücksspiel. Mathematiker4 untersuchten die „Systematik“ in zufälligen Versuchen und die Wahrscheinlichkeit für das Auftreten bestimmter Ergebnisse und erteilten zur Aufbesserung ihres Lebensunterhalts mitunter auch Ratschläge an Glücksspieler. Die berühmtesten Vertreter zufälliger Versuche sind demnach auch das „Werfen einer Münze“, das Würfeln und das „Ziehen (von roten und schwarzen Kugeln) aus einer Urne“. Sie werden sehr oft als anschauliche Denkmodelle für beliebige Zufallsexperimente herangezogen.

3.1.2

Zufallsgrößen und ihre Realisierungen

Die (veränderliche) Größe, die man bei einem zufälligen Versuch untersucht und die verschiedene Werte annimmt, ist die Zufallsgröße X (auch: Zufallsvariable)5 . Beispiel: Beim Zufallsexperiment „Würfeln mit zwei Würfeln“ kann die Zufallsgröße die Summe der Augenzahlen sein. Es könnte aber auch sein, dass uns der Abstand interessiert, in dem die beiden Würfeln zueinander liegen kommen. Dann ist der Abstand der Würfeln die Zufallsgröße. Zufallsgrößen, deren Werte durch eine (physikalische) Messung ermittelt werden, werden als Messgröße bezeichnet. Beispiel: der kürzeste Abstand zwischen zwei Würfeln. Der einzelne Wert, den die Zufallsgröße nach der Beobachtung (nach dem Zufallsexperiment) annimmt, ist die Realisierung x der Zufallsgröße X. Realisierungen einer Messgröße heißen Messwerte. Realisierungen von Zufallsgrößen sind selbst nicht mehr zufällig. Sie haben ja einen bestimmten Wert, zum Beispiel xi = 4 (Augensumme) oder si = 10.3 cm (Abstand). Jede einzelne Realisierung der Zufallsgröße (in unserem Fall: jedes neuerliche Würfeln oder Messen des Abstands) hat aber im Allgemeinen einen anderen Wert. Diskrete und stetige Zufallsgrößen Eine Zufallsgröße, die endlich viele oder abzählbar-unendlich viele6 Werte annehmen kann, ist eine diskrete Zufallsgröße. Eine Zufallsgröße hingegen, die innerhalb eines (endlichen oder unendlichen) Intervalls unendlich viele beliebige Werte annehmen kann, ist eine stetige Zufallsgröße7 (auch: kontinuierliche Zufallsgröße). Wir modellieren physikalische Messgrößen in der Regel als solche stetigen Zufallsgrößen, die jede beliebige reelle Zahl als Wert annehmen können. Diese Annahme gilt trotz des Wissens, dass die beim Messen verwendeten elektronischen Messgeräte selbst – wie jede andere digitale Maschine auch – nur endlich viele Messergebnisse angeben können. Andere Daten, mit denen wir zu tun haben werden und die nicht durch
4 Im 17. Jhdt. wurde Blaise Pascal (frz. Mathematiker, 1623-1662) vom frz. Schriftsteller (und Berufsspieler) Antoine Gombaud Chevalier de Méré (1607-1684) mit der Frage betraut, wie der Einsatz bei einem bestimmten Würfelspiel fairerweise aufzuteilen ist, wenn das Spiel vorzeitig abgebrochen werden muss. Es ging also um die Frage nach er Wahrscheinlichkeit, mit der jeder Teilnehmer das Spiel gewinnen würde, wenn es fortgesetzt werden würde. Pascal beriet sich daraufhin in mehreren Briefwechseln mit seinem Kollegen Pierre de Fermat (frz. Mathematiker und Jurist, 1607-1665). 5 Exakt lautet die Definition: „Eine Zufallsgröße ist eine Abbildung eines Wahrscheinlichkeitsraumes nach R, d.h. eine Funktion, die jedem möglichen Elementarereignis eine reelle Zahl und gleichzeitig eine zugehörige Wahrscheinlichkeit zuordnet“. Für unsere Anwendungen genügt die Definition von oben. 6 abzählbar-unendlich heißt, dass die Menge der möglichen Werte zwar theoretisch abzählbar wäre, die Menge aber unendlich ist und daher niemand die Zeit und Geduld aufbringt, sie tatsächlich abzuzählen. Beispiel: die Folge der natürlichen Zahlen. 7 Die Verwendung der Bezeichnung „stetig“ bezieht sich auf die Verteilungsfunktion (siehe später). Stetige Zufallsgrößen haben eine stetige Verteilungsfunktion

3.1. STATISTISCHE MODELLIERUNG VON MESSDATEN

41

physikalische Messung sondern zum Beispiel durch Klassifizieren und Abzählen entstehen, sind diskrete Zufallsgrößen. Bevor wir weitergehen, sehen wir uns noch einmal Bsp. 3.1 Diskrete und stetige Zufallsgrößen Wenden wir uns wieder dem Beispiel „Würfeln“ zu. Wir können unterscheiden: Die Zufallsgröße „Summe der Augenzahlen“ kann nur endlich viele Werte annehmen. Zum Beispiel bei zwei Würfeln 2,3,4,5,6,7,8,9,10,11 oder 12. Die Zufallsgröße „Summe der Augenzahlen“ ist daher diskret. Spielt man Mensch-Ärgere-dich-nicht und würfelt solange, bis man einen Sechser gewürfelt hat, so können das unendlich viele Versuche sein. (Zumindest theoretisch. In der Praxis wird unser Gegner entweder irgendwann Gnade vor Recht ergehen lassen und uns auch ohne 6er ansetzen lassen, oder aber sein Spiel längst fertig haben...). Trotzdem sind es abzählbar unendlich viele Versuche: die Zufallsgröße „Anzahl der Würfe bis zu einem 6er“ lässt sich nur mit einer Integerzahl angeben; sie ist daher ebenfalls diskret. Die Zufallsgröße „Abstand zwischen den beiden Würfeln“ hingegen kann unendlich viele Werte aus der Menge aller Rationalzahlen annehmen. (Dass wir dabei endliche Grenzen haben, widerspricht dem nicht. Die untere Grenze entspricht im Allgemeinen einem Abstand der beiden Würfelmittelpunkte von genau einer Würfelbreite, d.h. die Würfeln berühren einander; obere Grenze entspricht der Tischdiagonale, weil wenn der Abstand größer wird, fliegt mindestens ein Würfel aus dem Experiment raus). Die Menge der möglichen Ausgänge ist unendlich, weil wir mit immer genaueren Messverfahren auch immer genauere Ergebnisse erzielen könnten und sich das theoretisch unendlich oft fortsetzen lässt. Die Länge des Abstands ist also eine stetige Zufallsgröße.

eine Tabelle mit Messdaten an und geben neben der absoluten und relativen Häufigkeit auch noch die relative Häufigkeitssumme und Angaben über die Abweichungen vom Erwartungswert an (Tab.3.1). Die Häufigkeiten (k und h) bzw. die relative Häufigkeitssumme (H) bezieht sich dabei sowohl auf die Abweichungen als auch auf die eigentlichen Messwerte. i 1 2 3 4 5 6 7 8 9 10 Summe si [m] 574,770 574,771 574,772 574,773 574,774 574,775 574,776 574,777 574,778 574,779 ε i [mm] -5 -4 -3 -2 -1 0 1 2 3 4 0 k 1 0 2 3 4 6 4 3 0 1 24 h 0,0417 0 0,0833 0,1250 0,1667 0,2500 0,1667 0,1250 0 0,0417 1 H 0,0417 0,0417 0,1250 0,2500 0,4167 0,6667 0,8333 0,9583 0,9583 1

Tabelle 3.1: Messwerte zu einer Streckenbeobachtung mit µ = 574.775 m, ihre Abweichungen ε i und Häufigkeiten k, h und H.

42

KAPITEL 3. ZUFALLSGRÖSSEN

3.2 Wahrscheinlichkeitstheorie
Im letzten Kapitel haben wir die relative Häufigkeit definiert (Absolute Häufigkeit dividiert durch die Gesamtzahl der Beobachtungswerte). Sehen wir uns den Quotienten nun näher an: Wir können uns vorstellen, dass n theoretisch gegen ∞ wächst und den Grenzwert k lim n→∞ n

angeben. Diese Größe nennen wir P( E). P( E) ist die Wahrscheinlichkeit8 für das Eintreten des Zufallsereignisses E. Die Wahrscheinlichkeit ist eine Maßzahl für die Charakterisierung der Häufigkeit des Auftretens eines bestimmten Zufallsereignisses. Sie ist in unserem Modell das theoretische Gegenstück zur relativen Häufigkeit. Wir können auch sagen: „Dem Gesetz der großen Zahlen folgend konvergiert die relative Häufigkeit gegen die Wahrscheinlichkeit“. Diese Definition der Wahrscheinlichkeit stammt von Mises9 . Das „Gesetz der großen Zahlen“ selbst besagt, dass die unbekannte Wahrscheinlichkeit P( E) umso besser geschätzt werden kann, je mehr unabhängige Ausführungen des Zufallsexperimentes durchgeführt werden. Für die Häufigkeit k gilt: 0 ≤ k ≤ n −→ 0 ≤ und daher auch für den Grenzwert für n → ∞: 0 ≤ P( E) ≤ 1 (3.2) d.h. die Wahrscheinlichkeit ist eine reelle Zahl größer gleich Null und kleiner gleich Eins, wobei ein Ereignis, dem die Wahrscheinlichkeit 1 zugeordnet ist, ein sicheres Ereignis ist, jenes mit der Wahrscheinlichkeit 0 ein unmögliches Ereignis. Oft wird P( E) auch in Prozent angegeben. Für das Rechnen mit Wahrscheinlichkeiten benötigen wir drei einfache Regeln: k ≤1 n (3.1)

= 1 − P( E) = P( E1 ) + P( E2 ) + . . . + P( Em ) P( E1 and E2 and . . . Em ) = P( E1 ) · P( E2 ) · . . . · P( Em )
P(not E) P( E1 or E2 or . . . Em )

(3.3) (3.4) (3.5)

Diese Regeln gelten für unabhängige Ereignisse und zunächst wollen wir von solchen unabhängigen Ereignissen ausgehen. Das bedeutet, dass die Wahrscheinlichkeit für das Eintreffen von E1 unabhängig davon ist, ob E2 eingetroffen ist oder nicht und umgekehrt. Es gibt übrigens noch eine andere Definition von „Wahrscheinlichkeit“: Die klassische, elementare Definition stammt von Laplace10 und ist das „Verhältnis zwischen den günstigen und den möglichen Fällen des Eintretens eines bestimmten Ereignisses“: P( E) = Zahl der günstigen Fälle Zahl der möglichen Fälle (3.6)

Wenn wir zum Beispiel beim Würfeln mit zwei Würfeln die Wahrscheinlichkeit des Ereignisses „Summe der Augenzahlen ist gerade“ angeben möchten, so ist die Zahl der
P kommt vom lat. probabilitas = Wahrscheinlichkeit. von Mises, österr.-amerik. Mathematiker und Philosoph, 1883-1953 10 Pierre-Simon Marquis de Laplace, frz. Mathematiker, Astronom und Physiker, 1749-1827
9 Richard 8 Das

3.3. VERTEILUNGEN VON ZUFALLSGRÖSSEN

43

möglichen Fälle 36. Die Summe zweier Zahlen ist gerade, wenn beide Zahlen gerade oder wenn beide Zahlen ungerade sind. Da jeder Würfel 3 gerade und 3 ungerade Augenzahlen hat, gibt es 9 Versuchsausgänge der Form [gerade - gerade] und 9 Versuchsausgänge der Form [ungerade - ungerade]. Insgesamt gibt es also 18 günstige Fälle und die Wahrscheinlichkeit für das Eintreffen des Ereignisses „Summe der Augenzahlen ist gerade“ beträgt genau 50%. Definition (3.6) beschreibt das einfachste Modell für Wahrscheinlichkeiten, die so genannte a priori-Wahrscheinlichkeit. A priori bedeutet, dass wir bereits von vornherein – ohne ein Zufallsexperiment durchzuführen – die Wahrscheinlichkeit angeben können. Beim Würfeln zum Beispiel ist jede Augenzahl gleichwahrscheinlich. Die Wahrscheinlichkeit, einen 6er zu würfeln kann daher a priori mit 1/6 angegeben werden. Messen ist aber – zumindest aus der Sicht der Statistik – ein komplizierterer Vorgang als Würfeln; für unsere Anwendungen ist daher die Laplace’sche Wahrscheinlichkeit nur bedingt anwendbar. Was sind „günstige Fälle“ beim Messen? Und: Wenn wir davon ausgehen, dass Messgrößen stetige Zufallsgrößen sind, gibt es unendlich viele „mögliche Fälle“. Die Division durch ∞ aber ergibt bekanntlich Null. D.h. die Wahrscheinlichkeit, dass wir einen bestimmten konkreten Wert erhalten, ist gleich Null! Desweiteren ist die Voraussetzung, dass alle möglichen Fälle gleich wahrscheinlich sind, im Allgemeinen nicht gegeben. Das ist aber eine Voraussetzung für die Anwendbarkeit der Definition (3.6). Wir brauchen also umfassendere Modelle. Wir führen zunächst einmal mehrere Zufallsexperimente durch und können dann im Nachhinein eine a posteriori-Wahrscheinlichkeit angeben. Wie bekommt man nun einen konkreten Zahlenwert p für P( E)? • Man führt n = ∞ viele Versuche durch (was sehr zeitaufwändig ist und daher aus praktischen Gründen ausscheidet). • Man ermittelt aus n Realisierungen einen empirischen Schätzwert für p, nämlich ˆ pn = h Für das Ereignis X = 574.775 m (Tab.3.1) lautet der Schätzwert zum Beispiel ˆ p24 = 25% • Man hat ein theoretisches Modell, das man anwenden kann Dieses theoretische Modell wollen wir uns nun im Folgenden ansehen: (3.7)

3.3 Verteilungen von Zufallsgrößen
3.3.1 Wahrscheinlichkeitsverteilungen
Angaben über die Wahrscheinlichkeit, mit der eine Zufallsgröße bestimmte Werte annimmt, nennt man auch die Verteilung der Zufallsgröße. Eine wichtige Frage ist zum Beispiel die Wahrscheinlichkeit, dass die Zufallsgröße X kleiner oder gleich einer vorgegebenen Zahl x ist oder zwischen zwei vorgegebenen Werten a und b liegt. Diese Fragen können mit Hilfe der Verteilungsfunktion beantwortet werden. Der Funktionswert der Verteilungsfunktion F ( x ) an der Stelle x gibt die Wahrscheinlichkeit an, dass X kleiner oder gleich x ist.

44

KAPITEL 3. ZUFALLSGRÖSSEN

Verteilungs- und Wahrscheinlichkeitsfunktion diskreter Zufallsgrößen Im diskreten Fall kann die Verteilungsfunktion aus der Summe der Einzelwahrscheinlichkeiten für alle xi < x gewonnen werden: F ( x ) = P( X ≤ x ) =


i:xi ≤ x

P ( X = xi ) =


i:xi ≤ x

f ( xi )

(3.8)

wobei f ( xi ) als Wahrscheinlichkeitsfunktion bezeichnet wird. Diese gibt die Wahrscheinlichkeit dafür an, dass die Zufallsgröße genau den Wert xi annimmt: f ( x ) = P( X = x ) = pi 0 für sonst x = xi (3.9)

Verteilungs- und Dichtefunktion stetiger Zufallsgrößen Im stetigen Fall müssen wir die Summe durch ein Integral ersetzen und die Verteilungsfunktion ist gegeben durch:
x

F ( x ) = P( X ≤ x ) =

f (t)dt
−∞

(3.10)

Die Verteilungsfunktion F ( x ) gibt die Wahrscheinlichkeit an, dass die Zufallsvariable X einen Wert kleiner oder gleich x annimmt. F ( x ) hat die beiden Grenzwerte F (−∞) = 0 und F (∞) = 1 und ist im Allgemeinen für alle reellen Zahlen x definiert. Manchmal wird F ( x ) auch als kumulierte Wahrscheinlichkeitsverteilung bezeichnet. Die in Formel 3.10 auftretenden Funktion f (t) ist die Dichtefunktion der Verteilung (auch: Wahrscheinlichkeitsdichte bzw. nur Dichte). Sie ist die erste Ableitung der Verteilungsfunktion und gibt den Verlauf der Wahrscheinlichkeiten der stetigen Zufallsgröße an. Die Dichtefunktion können wir auch vergleichen mit der uns aus dem 2. Kapitel bekannten emprischen Häufigkeitsverteilung. Abb.3.1 zeigt ein Beispiel für eine empirische Häufigkeitsverteilung einer Stichprobe und die zugehörige theoretische Dichtefunktion. Eine anderes Beispiel für die Dichtefunktion einer stetigen Zufallsgröße ist in Abb.3.2 dargestellt. Bekanntlich gibt das Integral die Fläche unter der integrierten Funktion an, und damit werden hoffentlich auch die nachfolgenden Zusammenhänge klarer: Der Flächeninhalt unter der Dichtefunktionskurve ist die zugehörige Wahrscheinlichkeit. Der Flächeninhalt unter der gesamten Kurve (von −∞ bis +∞) beträgt daher 1 (Mit 100%iger Wahrscheinlichkeit nimmt die Zufallsgröße irgendeinen Wert zwischen −∞ bis +∞ an). Wie aus Abb.3.2 ersichtlich, gelten folgende wichtige Zusammenhänge:
a

P( X ≤ a) P( X > b)

=

F ( a) =
−∞

f ( x )dx
+∞

(3.11)

= 1 − F (b) = =

f ( x )dx
b b

(3.12)

P( a < X ≤ b)

F (b) − F ( a) =

f ( x )dx
a

(3.13)

3.3. VERTEILUNGEN VON ZUFALLSGRÖSSEN

45

Abb. 3.1 Häufigkeitsverteilung der Stichprobe einer Zufallsgröße und zugehörige Dichtefunktion dieser Zufallsgröße

Aus Abb.3.2 sieht man auch, dass bei stetigen Zufallsgrößen die Wahrscheinlichkeiten immer nur Intervallen zugeordnet sein können. Wir können also die Wahrscheinlichkeit angeben, dass X eine Realisation zwischen den Werten a und b annimmt. Wie wir schon auf Seite 43 festgestellt haben, ist P( X = a) immer gleich Null (vgl. die „Fläche“ in Abb.3.2 an genau einer Stelle – sie ist nur ein „dimensionsloser Strich“). Es spielt daher auch keine Rolle, ob ein „<“ oder ein „≤“ bzw. „>“ oder „≥“ geschrieben wird. Aus formalen Gründen (Konsistenz zwischen Formeln für den diskreten und stetigen Fall) werden wir aber immer den rechten Rand eines Intervalls mit einschließen, den linken hingegen nicht (also X ≤ a, a < X ≤ b und X > b schreiben). An Stelle von P( X = x ) können wir für stetige Zufallsgrößen die differenzielle Wahrscheinlichkeit dP für das infinitesimale differenzielle Intervall der Breite dx angeben: dP = f ( x )dx (3.14)

3.3.2

Parameter von Wahrscheinlichkeitsverteilungen

Zur Charakterisierung der Zufallsgröße und ihrer Verteilung dienen bestimmte Parameter, von denen in der Praxis meist schon wenige ausreichen, um die jeweilige Verteilung zu beschreiben. Wie im empirischen Fall (Kap.2) sind dabei der Erwartungswert und die Varianz die wichtigsten. Zur Unterscheidung zwischen empirischen und theoretischen Größen werden wir hier übrigens griechische Buchstaben für die Parameter verwenden. Lageparameter Erwartungswert, Median und α-Quantile dienen als Lageparameter einer Verteilung: Der Erwartungswert E( X ) einer Zufallsgröße ist im diskreten Fall definiert durch: E( X ) = µ =

∑ xi f ( xi )
i =1

n

(3.15)

46

KAPITEL 3. ZUFALLSGRÖSSEN

Abb. 3.2 Dichtefunktion einer stetigen Zufallsgröße und Zusammenhang zur Verteilungsfunktion bzw. Wahrscheinlichkeitsverteilung

und im stetigen Fall durch:

E( X ) = µ =
−∞

x · f ( x )dx

(3.16)

Als α-Quantil bezeichnet man den Wert xα der Zufallsgröße X, für den gilt: F ( xα ) = P( X ≤ xα ) = α (3.17)

wobei das 0.5-Quantil wie im empirischen Fall als Median bezeichnet wird. Von größerer praktischer Bedeutung sind aber, wie wir später sehen werden, die Quantile mit Werten für α zwischen 0.001 und 0.05. Das 0.05-Quantil gibt zum Beispiel jenen Wert an, der mit einer Wahrscheinlichkeit von 5% maximal erreicht wird. Streuungsparameter Die Varianz Var ( X ) einer Zufallsgröße ist der Erwartungswert des Quadrates der Abweichung vom Erwartungswert µ und somit für den diskreten Fall definiert als Var ( X ) = E[ X − E( X )]2 = σ2 = und im stetigen Fall:

∑ ( x i − µ )2 f ( x i )
i

(3.18)

Var ( X ) = E[ X − E( X )]2 = σ2 =

−∞

( x − µ)2 · f ( x )dx

(3.19)

Die positive Quadratwurzel aus der Varianz ist die Standardabweichung σ der Zufallsgröße.

3.3. VERTEILUNGEN VON ZUFALLSGRÖSSEN
Momente einer Verteilung Ist X eine Zufallsgröße, so ist auch X k eine Zufallsgröße. Der Erwartungswert mk = E( X k )

47

(3.20)

heißt k-tes Moment von X. Der „normale“ Erwartungswert E( X ) ist demnach das erste Moment von X. Zentrieren wir die Zufallsgröße auf ihren Erwartungswert, d.h. bilden wir die neue Zufallsgröße ( X − E( X )), so heißt der Erwartungswert µk = E(( X − E( X ))k ) (3.21)

das k-te zentrale Moment von X. Offenbar ist µ1 = 0 und µ2 = E(( X − E( X ))2 ). Das zweite zentrale Moment von X ist demnach die Varianz. Schiefe, Wölbung und Exzess Wir können die Formparameter von Wahrscheinlichkeitsverteilungen mit Hilfe der zentralen Momente definieren: Die Schiefe γ1 der Wahrscheinlichkeitsverteilung einer Zufallsgröße ist definiert als folgender Quotient: µ3 (3.22) γ1 = µ3 2 Das Schiefheitsmaß wurde von Charlier11 eingeführt. Es dient zur Charakterisierung der Asymmetrie einer Verteilung. Eine Verteilung mit einer positiven Schiefe steigt zunächst links steil zum Maximum an, fällt dann wieder ab und setzt sich nach rechts relativ lange fort (der Teil rechts vom Maximum ist „länger“ als der linke Teil vor dem Maximum); sie wird auch als rechtsschiefe Verteilung bezeichnet. Der Erwartungswert ist bei einer rechtsschiefen Verteilung größer als der Median (er liegt auf der Zahlengeraden „rechts“ vom Median); der Median selbst liegt rechts vom Maximum der Dichtefunktion. Bei einer negativen Schiefe ist es genau umgekehrt: Hier ist der „längere“ Teil links vom Maximum, daher auch die Bezeichnung linksschiefe Verteilung. Die Reihenfolge ist: Erwartungswert - Median - Maximum. Eine symmetrische Verteilung hat eine Schiefe gleich Null; Erwartungswert und Median fallen zusammen und liegen im Maximum der Dichtefunktion. Die Wölbung (Kurtosis) β 2 der Wahrscheinlichkeitsverteilung einer Zufallsgröße ist definiert durch µ4 (3.23) β2 = 2 µ2 wobei µ2 das zweite und µ4 das vierte zentrale Moment der Zufallsgröße sind. Eine Wölbung kleiner als 3 deutet auf eine „breitgipflige“ Wahrscheinlichkeitsverteilung hin; eine Wölbung größer als 3 auf einen ‘schmalgipflig“; eine Wölbung von genau 3 ist „normal“ (im Sinne von: Sie entspricht der Normalverteilung – siehe unten). Der Exzess γ2 einer Zufallsgröße ist die Wölbung vermindert um die Wölbung der Normalverteilung, also µ4 γ2 = 2 − 3 = β 2 − 3 (3.24) µ2
11 Carl

Vilhelm Ludvig Charlier, schwedischer Astronom, 1862-1932

48

KAPITEL 3. ZUFALLSGRÖSSEN

wobei µ2 das zweite und µ4 das vierte zentrale Moment der Zufallsgröße sind. Der Exzess für die Normalverteilung ist gleich Null. Der Exzess jeder anderen Wahrscheinlichkeitsverteilung ist ein Maß für die Abweichung dieser Verteilung gegenüber einer Normalverteilung mit gleichem Erwartungswert und gleicher Varianz.

3.4 Wichtige Wahrscheinlichkeitsverteilungen
Auf einige Wahrscheinlichkeitsverteilungen, die in unseren Anwendungen vorrangig vorkommen, gehen wir im Folgenden näher ein. Die wichtigste unter ihnen ist die Normalverteilung; daneben werden wir aber in der Schätz- und Prüfstatistik („induktive Statistik“) auch die Chi-Quadrat-Verteilung (χ2 -Verteilung), die Student-Verteilung (t-Verteilung) sowie die Fisher-Verteilung (F-Verteilung) benötigen. Eine gewisse Rolle (zum Beispiel beim Auf- und Abrunden von Zahlen) spielt aber auch die Gleichverteilung.

3.4.1

Gleichverteilung

Eine sehr einfache Verteilung, die eine Zufallsgröße haben kann, ist die Gleichverteilung. Sie ordnet allen innerhalb des Intervalls [ a, b] möglichen Werten einer Zufallsgröße die gleiche Wahrscheinlichkeit zu. Im stetigen Fall hat die Gleichverteilung die Dichtefunktion f (x) =
1 b− a

0

für a ≤ x ≤ b sonst

(3.25)

Der Graph der Dichtefunktion hat ein rechteckiges Aussehen (s. Abb.3.3); sie wird daher auch als Rechtecks-Verteilung bezeichnet. Abb. 3.3 Dichtefunktion und Verteilungsfunktion der stetigen Gleichverteilung in den Grenzen −0.5 ≤ x ≤ 0.5.

Durch Einsetzen von (3.25) in (3.16) erhält man für die stetige Gleichverteilung den Erwartungswert
b

E( X ) =
a

a+b 1 dx = b−a 2

(3.26)

Zentrale Momente der stetigen Gleichverteilung: E(( X − E( X ))k ) =
1 k +1 b− a 2 k

0

für gerade k für ungerade k

(3.27)

3.4. WICHTIGE WAHRSCHEINLICHKEITSVERTEILUNGEN
und somit Var ( X ) = µ2 µ3 µ4

49

( b − a )2 12 = 0 1 = ( b − a )4 80 =

(3.28) (3.29) (3.30)

6 Damit ist die Schiefe γ1 = 0 und der Exzess γ2 = − 5 . Die Gleichverteilung ist also symmetrisch, aber gegenüber der Normalverteilung „breiter gewölbt“. Da die Verteilung symmetrisch ist, fallen Erwartungswert und Median zusammen. Für die Verteilungsfunktion der Gleichverteilung gilt:

F(x) =

x−a b−a

(3.31)

3.4.2

Normalverteilung

Die für uns wichtigste Verteilung ist die so genannte Normalverteilung, auch Gaußsche Verteilung genannt12 . Sie war zwar bereits vor Gauß bekannt, er hat allerdings im Zusammenhang mit seiner Arbeit über Beobachtungsfehler bei physikalischen Messungen wichtige theoretische Grundlagen dazu beigetragen und die Kurve so „populär“ gemacht, dass sie heute zu seinen Ehren benannt ist. Die Dichtefunktion der Normalverteilung ist gegeben durch f (x) = für mit
( x − µ )2 1 − √ · e 2σ2 σ 2π

(3.32)

−∞ < x < +∞ µ . . . Erwartungswert σ . . . Standardabweichung e . . . Euler’sche Zahl (2.718...) π . . . Kreiskonstante (3.14159...) Die Normalverteilung ist über die beiden Parameter µ und σ2 definiert und wird daher oft auch abgekürzt mit N (µ, σ2 ). Die Schiefe der Normalverteilung ist gleich Null, d.h. sie ist symmetrisch. Der Exzess der Normalverteilung ist ebenfalls gleich Null. Grafisch hat die Dichtefunktion der Normalverteilung die Form einer „Glocke“ und wird daher auch Glockenkurve (auch: Gaußsche Glockenkurve) genannt (Abb.3.4). Aus der Abbildung ist ersichtlich, dass µ das Zentrum der Kurve bestimmt, σ ihre „Schlankheit“ (Breite). Der Scheitel der Dichtefunktion – das Maximum – liegt bei x = µ 1 und hat dort den Funktionswert √ . Die Wendepunkte liegen im Abstand ± σ von µ. σ 2π Die Fläche unter den einzelnen Kurven der Abb.3.4 ist jeweils gleich groß. Weiters ist erkennbar, dass die Normalverteilung eine um den Erwartungswert µ symmetrische Verteilung ist, d.h. betragsmäßig gleich große positive oder negative Abweichungen vom Erwartungswert sind gleich wahrscheinlich. Daher ist der Erwartungswert auch gleichzeitig der Median der Verteilung. Außerdem ist die Wahrscheinlichkeit für eine Abweichung vom Erwartungswert umso geringer, je größer diese Abweichung ist. Große Abweichungen sind also weniger wahrscheinlich als kleine. Für x → +∞ und x → −∞ geht die Dichtefunktion gegen Null. Der Graph der Glockenkurve nähert sich dort asymptotisch der Abszisse. Der Erwartungswert ist gleichzeitig der Modalwert der Normalverteilung: sie ist eine unimodale Verteilung.
12 Johann

Friedrich Carl Gauß, deutscher Mathematiker und Geodät, 1777-1855

50

KAPITEL 3. ZUFALLSGRÖSSEN

Abb. 3.4 Gaußsche Glockenkurven: Verschiedene Dichtefunktionen zur Normalverteilung mit unterschiedlichen Erwartungswerten und Varianzen. Der Scheitel der jeweiligen Kurven liegt bei x = µ, ihre Wendepunkte im Abstand ± σ vom Scheitelwert. Die Kurve ist umso höher und steiler, je kleiner σ ist.

Quelle: Wikimedia Commons. Printed under the terms of the GNU Free Documentation License

Die Verteilungsfunktion der Normalverteilung erhält man durch Integration der Dichtefunktion, also: 1 F(x) = √ σ 2π
x

e
−∞

( t − µ )2 2σ2

dt

(3.33)

Die Berechnung dieses Integrals ist nicht ganz einfach; ihre Werte werden daher oft aus entsprechenden Tabellen der so genannten Standard-Normalverteilung entnommen. Dazu müssen wir unsere ursprüngliche Zufallsgröße in eine standard-normalverteilte Zufallsgröße transformieren. Standardisierte Zufallsgröße Eine standardisierte Zufallsgröße Z entsteht aus einer Zufallsgröße X durch die lineare Transformation X−µ (3.34) Z= σ Diese Transformation hat zur Folge, dass Z einen Erwartungswert von 0 und die Standardabweichung 1 hat (Wir erinnern uns an die Standardisierung von empirischen Beobachtungswerten gemäß (2.26). Durch die Standardisierung werden Zufallsgrößen auf einen einheitlichen „Maßstab“ gebracht. Das Ergebnis sind dimensionslose Variable, die nur noch relative Lagen wiedergeben. Abb.3.11 zeigt den Vorgang des Standardisierens der Normalverteilung.

3.4. WICHTIGE WAHRSCHEINLICHKEITSVERTEILUNGEN
Standard-Normalverteilung

51

Die Standard-Normalverteilung („standardisierte Normalverteilung“) ist jene, die für eine normalverteilte Zufallsgröße mit µ σ
2

= 0 = 1

(3.35) (3.36)

gilt. Entsprechend wird sie auch mit N (0, 1) bezeichnet. Die zugehörigen Dichtefunktion und Verteilungsfunktion lauten: ϕ(z) Φ(z)

= =

z2 1 √ · e− 2 2π

(3.37)
t2

1 √ 2π

z

−∞

e− 2 · dt

(3.38)

Abb.3.5 zeigt die Dichtefunktion, Abb.3.6 die Verteilungsfunktion zur Standard-Normalverteilung. Abb. 3.5 Die Gauß’sche Glockenkurve: Dichtefunktion der standardisierten Normalverteilung

Für die Verteilungsfunktion (und auch für die Wahrscheinlichkeitsdichte) liegen Funktionswerte als Tabelle vor. Sie sind meist auch innerhalb heutiger Standard-Software approximierbar (zum Beispiel in MS Excel, aber auch in vielen Taschenrechnern). Es gelten folgende wichtige Beziehungen:

= 1 − Φ( x ) a−µ P( X ≤ a) = Φ σ b−µ P( a < X ≤ b) = Φ −Φ σ b−µ P( X > b) = 1 − Φ σ
Φ(− x )

(3.39) (3.40) a−µ σ (3.41) (3.42)

52

KAPITEL 3. ZUFALLSGRÖSSEN

Abb. 3.6 Verteilungsfunktion der standardisierten Normalverteilung

Formel (3.39) ist vor allem dann wichtig, wenn wir die Werte der Verteilungsfunktion aus einer Tabelle übernehmen in der – und das ist die Regel – nur positive Werte berücksichtigt sind. Für eine normalverteilte Zufallsgröße gilt: • ca. 68% aller Realisierungen liegen im Intervall µ ± 1 · σ • ca. 95% aller Realisierungen liegen im Intervall µ ± 2 · σ • ca. 99% aller Realisierungen liegen im Intervall µ ± 3 · σ oder anders ausgedrückt:

≈ 68% ≈ 95% P(µ − 3 · σ < X ≤ µ + 3 · σ ) ≈ 99%

P(µ − 1 · σ < X ≤ µ + 1 · σ) P(µ − 2 · σ < X ≤ µ + 2 · σ)

(3.43) (3.44) (3.45)

3.4.3

Chi-Quadrat Verteilung

Die Zufallsgröße Y, die aus den m unabhängigen standard-normalverteilten Zufallsgrößen Xi durch die Transformation Y=

i =1

∑ Xi2

m

(3.46)

entsteht, ist χ2 -verteilt. Den Parameter m ∈ N + – die Anzahl der Summanden in (3.46) – nennen wir auch die Anzahl der Freiheitsgrade der Verteilung. Entsprechend wird die Verteilung auch mit χ2 (m) abgekürzt. Die χ2 -Verteilung wurde 1876 von Helmert13 eingeführt und von Pearson14 um 1900 weiterentwickelt. Sie wird daher auch als Helmert-Pearson-Verteilung bezeichnet. Ihre Dichtefunktion ist für die Freiheitsgrade m = 2, 4 und 6 in Abb.3.7 dargestellt. Sie ist über dem Intervall [0, +∞] definiert und im Allgemeinen nicht symmetrisch. Sie wird
14 Karl 13 Friedrich

Robert Helmert, deutscher Geodät, 1841-1917 Pearson, englischer Mathematiker und Mitbegründer der modernen Statistik, 1857-1936

3.4. WICHTIGE WAHRSCHEINLICHKEITSVERTEILUNGEN

53

aber umso symmetrischer, je größer die Anzahl der Freiheitsgrade ist (siehe Formel (3.49) sowie Abb.3.7 und 3.8). Für m = 1 und 2 fallen die Kurven der Dichtefunktion monoton; für m > 2 verlaufen sie unimodal und rechtsschief und haben ein Maximum bei x = m − 2. Abb. 3.7 Dichtefunktion der Chi-Quadratverteilung mit 2, 4 und 6 Freiheitsgraden
Chi−Quadrat−Verteilung 0.5

0.4

m=2 m=4 m=6

0.3 f(x) 0.2 0.1 0 0

2

4

6

8

10 x

12

14

16

18

20

Der Erwartungswert der χ2 (m)-Verteilung ist E (Y ) = m und die Varianz Var (Y ) = 2 m sowie die Schiefe γ1 = 2 und der Exzess γ2 = Die Quantile ym;1−α , für die gilt P(Y ≤ ym;1−α ) = 1 − α liegen als Tabellenwert für einzelne m und α-Werte vor. Sie werden in der Test- und Schätztheorie benötigt, wie wir im entsprechenden Kapitel sehen werden. Eine χ2 -verteilte Zufallsgröße kann offensichtlich nur Werte größer oder gleich Null annehmen (vgl. Formel 3.46). Hat man zwei unabhängige χ2 -verteilte Zufallsgrößen mit den Freiheitsgraden m und n, so ist die Summe wieder χ2 -verteilt, und zwar mit dem Freiheitsgrad m + n. 2 m 12 m (3.49) (3.48) (3.47)

(3.50)

54

KAPITEL 3. ZUFALLSGRÖSSEN

Abb. 3.8 Dichtefunktion der Chi-Quadratverteilung mit 20, 40 und 60 Freiheitsgraden.
Chi−Quadrat−Verteilung 0.07

0.06 m = 20 m = 40 m = 60

0.05

0.04 f(x) 0.03 0.02 0.01 0 0

20

40

60 x

80

100

120

3.4.4

Student-Verteilung

Die Zufallsgröße T, die aus der standard-normalverteilten Zufallsgröße Z und der davon unabhängigen χ2 -verteilten Zufallsgröße Y mit m Freiheitsgraden durch die Transformation Z (3.51) T= √ Y /m entsteht, ist Student-verteilt (t-verteilt). Der Parameter m ∈ N + gibt die Anzahl der Freiheitsgrade der t-Verteilung an. Entsprechend wird sie auch mit t(m) abgekürzt. Die t-Verteilung wurde 1908 von Gosset15 entwickelt. Die t-Verteilung ist – ähnlich der Normalverteilung – über dem Intervall [−∞, +∞] definiert, unimodal, symmetrisch und glockenförmig. Ihre Dichtefunktion ist in Abb.3.9 dargestellt. Die t-Verteilung mit 3 Freiheitsgraden ist der Normalverteilung sehr ähnlich, sie hat aber eine größere Streuung. Mit zunehmender Anzahl der Freiheitsgrade wird sie der Normalverteilung immer ähnlicher und kann ab m ≥ 30 durch diese ersetzt werden. Der Erwartungswert der t-Verteilung ist E( T ) = 0 für und die Varianz Var ( T ) = Schiefe:
m m −2

m≥2 m≥3

(3.52) (3.53) (3.54)

für

γ1 = 0 für

m≥3

15 William Sealey Gosset, englischer Chemiker und Mathematiker, 1876-1937. Er war in einer Brauerei beschäftigt, die eine Veröffentlichung von Forschungsarbeiten nicht gestattete. Daher publizierte er seine Arbeiten unter dem Pseudonym „Student“.

3.4. WICHTIGE WAHRSCHEINLICHKEITSVERTEILUNGEN
Abb. 3.9 Dichtefunktion der t-Verteilung mit 3 und 30 Freiheitsgraden
Student−Verteilung 0.5

55

0.4

m=3 m = 30

0.3 f(x) 0.2 0.1 0 −10

−8

−6

−4

−2

0 x

2

4

6

8

10

Exzess16 : γ2 = Die Quantile tm;1−α , für die gilt

6 m −4

für

m≥4

(3.55)

P( T ≤ tm;1−α ) = 1 − α liegen als Tabellenwert für einzelne m und α vor. Sie werden wie die Quantile der χ2 Verteilung in der Testtheorie benötigt.

3.4.5

Fisher-Verteilung

Die Zufallsgröße X, die aus den beiden unabhängigen χ2 -verteilten Zufallsgrößen Y1 und Y2 mit m1 bzw. m2 Freiheitsgraden durch die Transformation X= Y1 /m1 Y2 /m2 (3.56)

entsteht, ist Fisher-verteilt (F-verteilt). Die Parameter m1 , m2 ∈ N + geben die Anzahl der Freiheitsgrade der F-Verteilung an. Entsprechend wird sie auch mit F (m1 , m2 ) abgekürzt. Die F-Verteilung ist eine von Snedecor17 weiterentwickelte Form der 1924 von Fisher18 entwickelten theoretischen Häufigkeitsverteilung, die Snedecor zu Ehren Fishers benannte. Manchmal wird sie auch als Varianzquotientenverteilung bezeichnet (Bei einem bestimmten statistischen Test, den wir noch später kennen lernen werden, wird
16 auf Grund des Aufbaus der Dichtefunktion, die wir hier nicht explizit angeben, hat die t-Verteilung für m = 1 keinen Erwartungswert, für m ≤ 2 keine Varianz, für m ≤ 3 ist die Schiefe nicht definiert und für m ≤ 4 der Exzess. 17 George Waddell Snedecor, amerikanischer Mathematiker und Physiker, 1882-1974 18 Ronald Aylmer Fisher, englischer Statistiker, 1890-1962

56

KAPITEL 3. ZUFALLSGRÖSSEN

die Gleichheit zweier Varianzen mit Hilfe der F-Verteilung überprüft, indem der Quotient der beiden Varianzen gebildet wird). Der Graph der Dichtefunktion der F-Verteilung ist für die Freiheitsgrade m1 = m2 = 10, m1 = m2 = 50 und m1 = m2 = 100 in Abb.3.10 dargestellt. Abb. 3.10 Dichtefunktion der F-Verteilung mit m1 = m2 = 10, m1 = m2 = 50 und m1 = m2 = 100 Freiheitsgraden
Fisher−Verteilung 2.5

2 m1 = m2 = 10 m1 = m2 = 50 m1 = m2 = 100 1.5 f(x) 1 0.5 0 0

1

2

3 x

4

5

6

7

Die F-Verteilung ist über dem Intervall [0, +∞] definiert und nicht symmetrisch. Sie ist eine linksschiefe, eingipflige Verteilung. Mit zunehmender Anzahl von Freiheitsgraden wird die F-Verteilung immer symmetrischer. Der Erwartungswert der F-Verteilung ist E( X ) = und die Varianz Var ( X ) =
m2 ( m2 −2)

für

m2 ≥ 3 für m2 ≥ 5

(3.57) (3.58)

Die Quantile xm1 ,m2 ;1−α , für die gilt

2m2 (m1 +m2 −2) 2 m1 ( m2 −2)2 ( m2 −4)

P ( X ≤ x1− α ) = 1 − α liegen als Tabellenwert für einzelne m1 - m2 – Kombinationen und α vor. Dabei ist zu beachten: Ist die Zufallsgröße X F (m1 , m2 )-verteilt, dann ist die Zufallsgröße 1/ X F (m2 , m1 )-verteilt. Deshalb sind Tabellen meist auf den Fall m1 < m2 beschränkt. Chi-Quadrat-, Student- und Fisher-Verteilung sind so genannte Prüfverteilungen (auch: Testverteilungen), weil sie in der Schätz- und Testtheorie zum Überprüfen von Hypothesen über Erwartungswert und Varianz einer Normalverteilung bzw. den Vergleich von Mittelwerten und Varianzen zweier oder mehrerer normalverteilter Zufallsgrößen verwendet werden. Sie treten aber – im Gegensatz zur Normalverteilung – nicht als eigenständige Verteilungen in mathematischen Modellen von zufälligen Versuchen auf.

3.5. ENGLISCHE BEGRIFFE

57

3.4.6

Der zentrale Grenzwertsatz

Der zentrale Grenzwertsatz ist eines der wichtigsten Theoreme der Wahrscheinlichkeitsrechnung. Er besagt, dass eine Zufallsgröße, die sich als Summe einer großen Anzahl (> 30) unabhängiger, beliebig verteilter19 Zufallsgrößen darstellen lässt, annähernd normalverteilt ist. Voraussetzung ist, dass die einzelnen Summanden im Vergleich zur Summe genügend klein sind (d.h. keiner dominiert gegenüber den anderen). Für Messabweichungen trifft dies in Regel zu, d.h. Messabweichungen sind auf Grund der vielfachen Überlagerung verschiedener Fehlerquellen normalverteilt. Mit wachsendem n wird diese Annäherung immer zutreffender. Formal sieht der zentrale Grenzwertsatz ziemlich kompliziert aus:    ∑ Xi − E ∑ Xi  i =1 P  i =1  n  Var ∑ Xi
i =1 n n

Sind die Zufallsgrößen nicht die Summe, sondern das Produkt vieler kleiner zufälliger Einflüsse, dann gilt der zentrale Grenzwertsatz und die Normalverteilung für die Logarithmen. Die Zufallsgrößen sind also zu transformieren und man erhält die Lognormalverteilung, auf die wir aber an dieser Stelle nicht weiter eingehen werden.

  ≤ z → Φ(z)  

(3.59)

3.5 Englische Begriffe
a-posteriori-Wahrscheinlichkeit - posterior probability a-priori-Wahrscheinlichkeit - a priori probability Chi-Quadrat-Verteilung - chi-squared distribution Dichtefunktion - density function diskret - discrete Erwartungswert - expectation Exzess - (coefficient of) excess Fisher-Verteilung - F-distribution Freiheitsgrade - degrees of freedom Gesetz der großen Zahlen - Law of Large Numbers Gleichverteilung - rectangular distribution, uniform distribution Glockenkurve - bell-shaped curve Grundgesamtheit - population Moment - moment (coefficient) Normalverteilung - normal distribution, Gaussian distribution Realisierung - realization Rechtecksverteilung - rectangular distribution, uniform distribution Schiefe - skewness
19 gilt

schiefe Verteilung - asymmetrical distribution sicheres Ereignis - certain event standardisierte Zufallsgröße - standardized random variable stetig - continuous Stichprobe - sample Student-Verteilung - Student’s distribution, Student’s t-distribution, t-distribution symmetrische Verteilung - symmetrical distribution unmögliches Ereignis - null event Varianz - variance Verteilungsfunktion - distribution function Wahrscheinlichkeit - probability Wahrscheinlichkeitsdichte - probability density function, abgek.: PDF Wahrscheinlichkeitsverteilung - probability distribution Wölbung, Kurtosis - kurtosis zentrales Moment - central moment zentraler Grenzwertsatz - central limit theorem Zufallsereignis - random event Zufallsexperiment - random experiment

zum Beispiel auch für unsymmetrische oder diskrete Verteilungen!

58 Zufallsgröße, Zufallsvariable - random variable, stochastic variable Zufallsstichprobe - random sample

KAPITEL 3. ZUFALLSGRÖSSEN
Zufallsverteilung - random distribution

3.5. ENGLISCHE BEGRIFFE

59

Abb. 3.11 Standardisieren der Normalverteilung: Ausgehend von einer beliebigen, normalverteilten Dichtefunktion (Bild 1) wird die Verteilung einmal zentriert (Bild 2) bzw. normiert (Bild 3). Bild 4 zeigt das Gesamtergebnis einer Zentrierung mit anschließender Normierung, die standardisierte Normalverteilung

60

KAPITEL 3. ZUFALLSGRÖSSEN

Kapitel 4

Zufallsvektoren
Im letzten Kapitel haben wir Zufallsvariablen und ihre wahrscheinlichkeitstheoretischen Verteilungen kennen gelernt. Im Folgenden werden wir zwei oder mehrere Zufallsvariable gemeinsam betrachten und sie zu diesem Zweck in einem Vektor – dem Zufallsvektor – zusammenfassen. Damit betreten wir das Gebiet der multivariaten Statistik. Die Notation der multivariaten Statistik in Vektoren und Matrizen mag auf den ersten Blick kompliziert erscheinen, führt tatsächlich aber zu einfacheren, „kompakten“ mathematischen Strukturen und letztendlich zu leichterer Les- und Rechenbarkeit. Wir werden stochastische Eigenschaften und Beziehungen zwischen den Elementen eines Zufallsvektors beschreiben. Ziel des Kapitels ist es dann, folgendes Problem zu lösen: Gemessen wurden (ein oder) mehrere Messwerte x1 , x2 , . . . , xn , die mit Abweichungen ∆xi behaftet sind und die wir in einem Vektor x zusammenfassen können. Die Messwerte sollen in m Funktionen y1 = f 1 ( x1 , x2 , . . . , xn ), y2 = f 2 ( x1 , x2 , . . . , xn ), . . ., ym = f m ( x1 , x2 , . . . , xn ) verknüpft werden. Gesucht sind die Abweichungen ∆y1 , ∆y2 , . . ., ∆ym , die an den Funktionen entstehen bzw. die Standardabweichungen dieser Funktionen.

4.1 Zufallsvektoren
4.1.1 Begriffe
Ein Zufallsvektor ist eine „mehrdimensionale Zufallsvariable“. Es ist ein Vektor X, dessen Elemente die Zufallsgrößen Xi sind1 : X T = ( X1 , X2 , . . . , X n ) (4.1)

Die gleichzeitige Betrachtung mehrerer Zufallsvariablen tritt immer dann auf, wenn beim Zufallsexperiment mehr als eine Größe beobachtet wurde und eventuelle Zusammenhänge zwischen ihnen interessant erscheinen. Würde jede Variable einzeln ausgewertet werden, gingen diese Zusammenhänge verloren. Beispiel: Wir beobachten die Höhe über dem Meeresspiegel und die Lufttemperatur oder wir erfassen Einkommen und Geschlecht, etc. Zu jeder Zufallsvariablen, zum Beispiel zur Höhe oder zur Temperatur, gibt es nach erfolgter Beobachtung konkrete Messwerte – die Realisierungen der Zufallsvariablen.
1 Entsprechend der Bezeichnung von Zufallsgrößen und Realisierungen mit Groß- bzw. Kleinbuchstaben verwenden wir hier (anders als in der Matrizen- und Vektorrechnung üblich) für den Zufallsvektor Großbuchstaben.

61

62

KAPITEL 4. ZUFALLSVEKTOREN

Den Vektor x, dessen Komponenten die Realisierungen der entsprechenden Zufallsgrößen des Zufallsvektors X sind, nennen wir den Beobachtungsvektor: xT = ( x1 , x2 , . . . , x n ) (4.2)

Analog zu eindimensionalen Zufallsgrößen sind auch für einen Zufallsvektor ein Erwartungswert, ein wahrer Wert sowie wahre, systematische und zufällige Abweichungen definiert. Es sind dies Vektoren, deren einzelne Elemente die Erwartungswerte, wahren Werte, wahre, systematische oder zufällige Abweichungen der entsprechenden Elemente des Zufallsvektors bzw. Beobachtungsvektors sind. Außerdem sind für Zufallsvektoren auch Verteilungsfunktionen und Dichtefunktionen definiert. Zum Beispiel ist für einen 2-dimensionalen Zufallsvektor mit den beiden Elementen X und Y die Verteilungsfunktion gegeben durch
a b

F ( a, b) = P( X ≤ a, Y ≤ b) =

f ( x, y) dx dy
−∞ −∞

(4.3)

wobei f ( x, y) die Dichtefunktion von ( X, Y ) ist. Die Dichtefunktion eines Zufallsvektors mit zwei normalverteilten Elementen ist in (Abb.4.1) grafisch dargestellt. Abb. 4.1 Zweidimensionale Normalverteilung

0.2

0.15

0.1

0.05

0 -4 -2 0 2 4 -4 -2 0 2

4

wobei die Ungleichheitsrelation X ≤ x bedeutet: Jedes Element in X ist kleiner oder gleich dem entsprechenden Element in x.

Im allgemeinen Fall gilt für einen k-dimensionalen Zufallsvektor X mit den Elementen X = ( X1 , X2 , . . . , Xk )T : F (x) = P(X ≤ x) (4.4)

4.1.2

Beziehungen zwischen zwei Elementen eines Zufallsvektors

Von der Verteilung einer Zufallsgröße X kennen wir den Streuungsparameter Varianz
2 Var ( X ) = σX = E ( X − E( X ))2

4.1. ZUFALLSVEKTOREN

63

als Erwartungswert der quadratischen Abweichung vom Erwartungswert E( X ). Wenn wir den Erwartungswert µ kennen, können wir einen Zahlenwert für die Varianz abschätzen2 : 1 n 2 (4.5) σx = ∑ ( xi − µ)2 n i =1 ¯ Wenn der Erwartungswert selbst bereits empirisch geschätzt wurde (nämlich mit x), gilt für die Varianz3 : n 1 ¯ s2 = ( x − x i )2 (4.6) x n − 1 i∑ =1 In einem Zufallsvektor X hat jedes Element Xi eine Varianz, berechnet nach (4.5) oder (4.6). Zwischen je zwei Elementen X und Y können wir zusätzlich einen Parameter für die „gemeinsame Streuung“ angeben, genannt die „Kovarianz von X und Y“: Cov( X, Y ) = σXY = E [( X − E( X )) · (Y − E(Y ))] (4.7)

Wenn wir die Erwartungswerte µ x und µy kennen, können wir als Zahlenwert für die Kovarianz je zweier Zufallsgrößen abschätzen: σxy = 1 n

i =1

∑ (xi − µx )·(yi − µy )

n

(4.8)

¯ ¯ Wenn die Erwartungswerte selbst erst empirisch abgeschätzt wurden ( x und y), gilt: s xy =
n 1 ¯ ¯ ∑ (x − xi )·(y − yi ) n − 1 i =1

(4.9)

2 Wenn wir den Erwartungswert µ tatsächlich kennen – was nicht sehr oft der Fall sein wird – erhöht sich die Anzahl der Freiheitsgrade um 1. Daher dividieren wir hier im Gegensatz zur nachfolgenden Formel (4.6) durch n und nicht durch n − 1. 3 Diese Formel haben wir ja bereits unter (2.21), Seite 31, kennengelernt.

Die Kovarianz ist also das mittlere Abweichungsprodukt und ist ein Maß für den wechselseitigen Zusammenhang der beiden Zufallsgrößen X und Y. Ist Kovarianz positiv (weil offenbar in der Summe (4.8) oder (4.9) positive Abweichungsprodukte überwiegen), so sind die Zufallsgrößen X und Y tendenziell eher gleich, d.h. mit großer Wahrscheinlichkeit nimmt die eine zu, wenn auch die andere zunimmt, beziehungsweise ab, wenn die andere abnimmt. Ist die Kovarianz hingegen negativ, verhalten sich die Zufallsgrößen tendenziell eher reziprok, d.h. mit großer Wahrscheinlichkeit nimmt die eine ab, wenn die andere zunimmt, beziehungsweise zu, wenn die andere abnimmt. Ein Maß für diese Wahrscheinlichkeit sowie die weitere Bedeutung der Kovarianz werden wir in einem späteren Kapitel kennen lernen. Einstweilen wollen wir uns merken, dass wir Zufallsgrößen, deren Kovarianz gleich Null ist, als stochastisch unabhängig bezeichnen. Die Varianzen und Kovarianzen eines Zufallsvektors fassen wir üblicherweise in der Kovarianzmatrix Σ XX (auch: Varianz-Kovarianzmatrix oder: Dispersionsmatrix) zusammen:  2  σ1 σ12 . . . σ1n  σ21 σ2 . . . σ2n  2   Σ XX =  . (4.10) . .  .. . . .   . . . . σn1 σn2 ...
2 σnn

64

KAPITEL 4. ZUFALLSVEKTOREN

Diese Matrix ist quadratisch und symmetrisch, da offensichtlich σik = σki (was man aus (4.7) sofort sieht). Aus empirisch abgeschätzten Kovarianzen kann die empirische Kovarianzmatrix C gebildet werden4 :  2  s1 s12 . . . s1n  s21 s2 . . . s2n  2   C XX =  . (4.11) . .  .. . .   . . . . . sn1 sn2 . . . s2 n

4.2 Funktionen eines Zufallsvektors
4.2.1 Abweichungen von Funktionen eines Zufallsvektors
Wir kommen wieder zu unserem Ausgangsproblem zurück: Gemessen wurden die Messwerte x1 , x2 , . . . , xn , die mit Abweichungen ∆xi behaftet sind. Die Messwerte sollen in einer Funktion y verknüpft werden. Gesucht ist die Abweichung ∆y, die an der Funktion entsteht bzw. die Standardabweichung der Funktion. Betrachten wir zunächst den einfachen Fall nur eines Messwertes x0 mit einer Abweichung ∆x und eine Funktion y = f ( x ). An der Stelle ( x0 + ∆x ) hat die Funktion gegenüber y0 die Abweichung ∆y (siehe Abb.4.2). Abb. 4.2 Eine Funktion y = f ( x ) und ihre Abweichungen
y=f(x)

∆y y0 dx=∆x x0 dy

x

Aus der Abbildung ist ersichtlich, dass gilt y0 + ∆y = f ( x0 ) + ∆y = f ( x0 + ∆x ) (4.12)

Wie groß ist nun ∆y bzw. wie groß ist die Standardabweichung der Funktion? Um das Problem zu lösen, ersetzen wir die Funktion durch ihre Tangente, d.h. wir linearisieren sie mit Hilfe einer Taylorreihe (siehe Anhang). Wir können unter Anwendung von (B.16) die rechte Seite in (4.12) durch die Taylorentwicklung erster Ordnung ersetzen und erhalten: f ( x0 ) + ∆y = f ( x0 ) + f ′ ( x0 ) dx (4.13)
4 Eine strenge Unterscheidung in „empirisch“ und „theoretisch“ ist nicht notwendig, wenn aus dem Zusammenhang klar ist, welche Matrix gemeint ist. Die Bezeichnung C für die empirische Kovarianzmatrix ist dem englischen Ausdruck covariance matrix entlehnt.

4.2. FUNKTIONEN EINES ZUFALLSVEKTORS
f ( x0 ) können wir nun auf beiden Seiten abziehen und somit gilt: ∆y = f ′ ( x0 ) dx

65

(4.14)

Dies können wir auch auf eine Funktion mehrerer Zufallsgrößen verallgemeinern, wobei wir die Ableitung f ′ durch das totale Differenzial ersetzen: ∆y =

i =1

∑ ∂xi dxi

n

∂f

(4.15)

Damit können wir nun die Abweichung der Funktion eines Zufallsvektors angeben, dessen einzelne Elemente jeweils selbst mit Abweichungen behaftet sind.

4.2.2

Übergang von der Abweichung ∆y zur Standardabweichung

Die folgende Herleitung schaut auf den ersten Blick kompliziert aus, ist aber sehr einfach nachvollziehbar. Zur Erinnerung: Bei Messgrößen haben wir die Standardabweichung erhalten, indem wir die Quadratsumme der Abweichungen durch die Anzahl der Freiheitsgrade dividiert haben. Wir gehen jetzt ebenso vor: Wir nehmen an, wir hätten die einzelnen Abweichungen jeweils ν-mal bestimmt. Wir bilden die Quadratsumme und dividieren durch ν. Dabei gehen wir von zufälligen Abweichungen aus, d.h. wir ersetzen dx in (4.15) durch ε ∆y =

i =1

∑ ∂xi ε i

n

∂f

(4.16)

Diese Abweichungen quadrieren wir zunächst ∆y2 =


i =1

n

∂f ε ∂xi i

2

+2·


i,k =1;i =k

n

∂f ∂f ε ε ∂xi ∂xk i k

(4.17)

und bilden die Summe dieser Quadrate

j =1

∑ ∆y2 = j

ν

∑∑
j =1 i =1

ν

n

∂f ε ∂xi ij

2

+2· ∑

ν

n

j =1 i = k

∂f ∂f ε ε ∂xi ∂xk ij kj

(4.18)

dividieren sie durch ν und ordnen die Summen etwas um: 1 ν

j =1

∑ ∆y2 = ∑ j

ν

n

i =1

∂f ∂xi

2

1 ν

j =1

∑ ε2 ij

ν

+2· ∑

i =k

∂f ∂f ∂xi ∂xk

1 ν

∑ ε ij ε kj
j =1

ν

(4.19)

In Gleichung (4.19) sind jetzt zwei Varianzen und eine Kovarianz erkennbar, nämlich: σ2 f
2 σxi

= = =

1 ν 1 ν 1 ν

j =1 ν

∑ ∆y2 j ∑ ε2 ij ∑ ε ij ε kj
ν

ν

(4.20) (4.21) (4.22)

j =1

σik

(i = k )

j =1

66 sodass wir (4.19) umschreiben können zu σ2 = f

KAPITEL 4. ZUFALLSVEKTOREN


i =1

n

∂f ∂xi

2

2 · σxi

+2· ∑

n

i =k

∂f ∂f ·σ ∂xi ∂xk ik

(4.23)

Wir gehen von normalverteilten, zufälligen Abweichungen aus. Wenn wir auch noch unterstellen, dass die Messgrößen stochastisch unabhängig sind, sind alle Kovarianzen gleich Null und die gemischte Produktsumme auf der rechten Seite in (4.23) verschwindet. Es verbleibt: n ∂f 2 2 · σxi (4.24) σ2 = ∑ f ∂xi i =1 Die positive Quadratwurzel aus σ2 ist die gesuchte Standardabweichung der Funktion f . f (4.24) ist das Varianzfortpflanzungsgesetz für stochastisch unabhängige Beobachtungen, auch: einfaches Fehlerfortpflanzungsgesetz oder Gauß’sches Fehlerfortpflanzungsgesetz genannt.

4.2.3

Das Kovarianzfortpflanzungsgesetz

Trifft die Voraussetzung der stochastischen Unabhängigkeit nicht zu, so können wir nicht die einfache Formel (4.24) anwenden, sondern müssen (4.23) verwenden. Zur einfacheren Darstellung der Formel (und später auch zu einfacheren Berechnung) fassen wir die Differenzialquotienten in einem Vektor fT zusammen: fT = ∂f ∂x1 ∂f ∂x2 ... ∂f ∂xn (4.25)

und die Varianzen und Kovarianzen in einer Kovarianzmatrix Σ xx :   2 σ1 σ12 . . . σ1n  σ21 σ2 . . . σ2n  2   Σ xx =  . .  . .. .  .  . . . . . σn1 σn2 ...
2 σn

(4.26)

Das Varianzfortpflanzungsgesetz lautet in dieser Schreibweise dann: σ2 = fT Σ xx f f (4.27)

und wird auch Kovarianzfortpflanzungsgesetz genannt. Im letzten Verallgemeinerungsschritt betrachten wir nicht nur eine Funktion sondern gleich mehrere (zum Beispiel m). Wir fassen alle partiellen Ableitungen in der Funktionsmatrix FT zusammen:  ∂f ∂ f1 ∂f  1 · · · ∂x1 ∂x1 ∂x2 n  . . .  T ..  . . .  F = . (4.28) . . .  ∂ fm ∂ fm . . . . . . ∂xn ∂x
1

FT heißt auch Jacobi-Matrix und hat so viele Spalten, wie Messgrößen auftreten (bei uns: n), und so viele Zeilen, wie wir Funktionen untersuchen (in unserem Beispiel: m). Das allgemeine Kovarianzfortpflanzungsgesetz lautet dann: Σ f f = FT Σ xx F (4.29)

4.3. ENGLISCHE BEGRIFFE
In dieser Form wird es auch allgemeines Fehlerfortpflanzungsgesetz genannt. (4.29) gilt auch für empirische Kovarianzmatrizen: C f f = FT C xx F

67

(4.30)

Es ist zu beachten, dass sowohl (4.29) als auch (4.30) wieder eine – im Allgemeinen vollbesetzte – Kovarianzmatrix ergeben, dass also Zufallsgrößen, die das Ergebnis einer mathematischen Funktion anderer Zufallsgrößen sind, stochastisch nicht mehr unabhängig sind.

4.3 Englische Begriffe
Allgemeines Fehlerfortpflanzungsgesetz general error propagation law Kovarianz - covariance Kovarianzmatrix - covariance matrix Unabhängigkeit - independence Varianzfortpflanzung - variance propagation Zufallsvektor - random vector

68

KAPITEL 4. ZUFALLSVEKTOREN

Kapitel 5

Die Methode der kleinsten Quadrate
5.1 Einleitung
Realisierungen von Messgrößen sind immer mit Abweichungen behaftet. Bei der Datenauswertung merken wir dies spätestens dann, wenn – trotz Elimination eventueller grober Fehler und systematischer Abweichungen – wiederholte Kontrollmessungen nicht immer das exakt selbe Ergebnis bringen oder bestimmte geometrische Bedingungen nicht hundertprozentig erfüllt sind (zum Beispiel Winkelsumme in Polygonen). Als wichtigstes Maß für die Abweichung von Messgrößen haben wir im 2. Kapitel die Standardabweichung eingeführt. In der Praxis werden darüber hinaus die bei der Datenerfassung gemessenen Größen meist nicht unmittelbar verwendet, sondern daraus abgeleitete Größen. Die beobachteten Größen (die „Beobachtungen“) und die eigentlich interessierenden, aber unbekannten Größen (die „Unbekannten“) stehen dann in einem funktionalen Zusammenhang. Im letzten Kapitel haben wir eine Methode kennen gelernt, wie sich ausgehend von der Standardabweichung einzelner Messgrößen die Standardabweichung einer Funktion dieser Messgrößen angeben lässt. Im folgenden Kapitel werden wir die Ergebnisse der letzten Kapitel in einen größeren Zusammenhang stellen und nicht nur einzelne Funktionen der Beobachtungen sondern komplexere Systeme betrachten. Wir gehen dabei davon aus, dass immer redundante Messungen ausgeführt werden, also mehr als zur eigentlichen Bestimmung der Unbekannten notwendig sind1 . Es sind im Prinzip mehrere Möglichkeiten des „Ausgleichens“ solcher redundanten Messungen denkbar. Aus historischen Gründen hat sich die so genannte „Methode der kleinsten Quadrate“ durchgesetzt: Historia Historisch gesehen kommt die „Methode der kleinsten Quadrate“ aus der Astronomie. Bei der Bestimmung von Bahnparametern von Himmelskörpern musste man eine Vielzahl von astronomischen Beobachtungen auswerten. Dabei suchte man nach einem Verfahren, das es ermöglicht, aus einer Anzahl von Gleichungen, die größer als die Anzahl der Unbekannten ist, möglichst gute Werte für die unbekannten Parameter zu
1 zum

lat. redundare: „im Überfluss vorhanden sein“

69

70

KAPITEL 5. DIE METHODE DER KLEINSTEN QUADRATE

bestimmen. Nach einigen grundlegenden Vorarbeiten von Euler2 , Mayer3 , Lambert4 und Lagrange5 , war es um 1770 der aus Ragusa (heute: Dubrovnik, Kroatien) stammende Jesuit Bošcovi´ 6 , der sich mit wahrscheinlichkeitstheoretischen Modellen für Messabweic chungen auseinander setzte („Philosophiae recentioris a Benedicto Stay versibus traditae libri X“). Er stellte den Grundsatz auf, man müsse im Fall von überschüssigen Gleichungen die Unbekannten so bestimmen, dass die absolute Summe der übrig bleibenden Abweichungen ein Minimum werde. Der französische Physiker, Mathematiker und Astronom Laplace7 fügte dem noch eine Bedingung hinzu: 1. Die absolute Summe der Abweichungen sei ein Minimum, und 2. die algebraische Summe der Abweichungen sei gleich Null. Schließlich stellte Legendre8 die Forderung auf, die Quadratsumme der Abweichungen zu minimieren. Er verwendete auch erstmals den Namen „Methode der kleinsten Quadrate“ dafür (obwohl es richtigerweise ja eigentlich „Methode der kleinsten Quadratsumme“ heißen müsste). Legendre veröffentlichte die Grundform der uns heute bekannten „méthode des moindres carrés“ im Jahre 1806 im Anhang seiner Beschreibung der Nouvelles méthodes pour la détermination des orbites des cométes. Unabhängig von Legendre hatte Gauß9 nach eigenen Worten schon 1794 die Methode der kleinsten Quadrate gefunden und verwendet, es aber verabsäumt, sie zu veröffentlichen, weil er es „nicht der Mühe wert hielt, viel Aufhebens von einer so natürlichen Sache zu machen“. Erst 1809 schrieb er darüber in der Theoria motus corporum coelestium in sectionibus conicis Solem ambientium. Wissenschaftlichen Erfolg damit hatte er aber bereits 1801 mit der richtigen Vorhersage der Bahn des Kleinplaneten Ceres, der Dank seiner Methode und Berechnungen in jenem Jahr wiederaufgefunden wurde. 1821 veröffentlichte er in der Theoria combinationis observationum erroribus minimis obnoxiae abermals eine Begründung für die „Methode der kleinsten Quadrate“.

5.2 Lineare Gleichungssysteme
5.2.1 Ausgleichende Gerade

Betrachten wir zunächst einmal die Abbildung 5.1: Gegeben sind 10 Punkte in einem mathematischen x, y-System. Diese Punktwolke soll durch eine Gerade repräsentiert werden. Gesucht sind die Parameter jener Geraden, die für diese Approximation „am besten“ geeignet ist. Wir nennen diese Gerade auch die ausgleichende Gerade. Die Punkte in Abb.5.1 könnten zum Beispiel die grafische Darstellung der Ergebnisse einer Beobachtungsreihe sein, wobei auf der Abszisse die Zeit aufgetragen wurde und auf der Ordinate die entsprechende Messgröße. Wir haben eine Messgröße zu zehn verschiedenen Zeitpunkten beobachtet und nehmen ferner an, dass die wahren Werte der Messgrößen auf einer Geraden liegen, d.h. zwischen dem Zeitpunkt und den wahren Werten der Beobachtung besteht ein linearer Zusammenhang. Mathematisch können wir zur Bestimmung der beiden Geradenparameter Anstieg k und Ordinatenabschnitt d ein Gleichungssystem aufstellen, wobei jeder Punkt eine
2 Leonhard 3 Johann

Euler, 1707-1783 Tobias Mayer, 1723-1762 4 Johann Heinrich Lambert, 1728-1777 5 Joseph Louis de Lagrange, eigentlich: Giuseppe Ludovico Lagrangia, 1736-1813 6 Rudjer Josip Bošcovi´ , 1711-1787 c 7 Pierre Simon Marquis de Laplace, 1749-1827 8 Adrien-Marie Legendre, 1752-1833 9 Carl Friedrich Gauß, 1777-1855

5.2. LINEARE GLEICHUNGSSYSTEME

71

Abb. 5.1 Punktwolke aus 10 Punkten, die „möglichst gut“ durch eine Gerade repräsentiert werden soll
12 11 10 9 8 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 10 11 12

y

x

Gleichung beisteuert: 1k 2k 3k 4k 5k 6k 7k 8k 9k 10k bzw. in Matrizenschreibweise: Ax = b        A=         1 2 3 4 5 6 7 8 9 10 1 1 1 1 1 1 1 1 1 1                 x= k d        b=         2 1 5 5 6 9 8 9 11 9                 (5.2)

+ + + + + + + + + +

d d d d d d d d d d

= 2 = 1 = 5 = 5 = 6 = 9 = 8 = 9 = 11 = 9

(5.1)

Dieses Gleichungssystem hat mehr Gleichungen als Unbekannte. Es ist „überbestimmt“ und daher nicht eindeutig lösbar. Wir müssen noch zusätzlichen Annahmen treffen oder Bedingungen formulieren, um es lösen zu können.

72

KAPITEL 5. DIE METHODE DER KLEINSTEN QUADRATE

Übertragen auf die grafische Darstellung (Abb.5.1) bedeutet dies: Eine Gerade ist in der Ebene durch zwei Punkte definiert. Haben wir mehr als zwei Punkte, die auf der Geraden liegen sollen, so können wir im Allgemeinen keine eindeutige Lösung angeben. Wir müssen ein Kriterium dafür finden, welche Gerade der Punktwolke „möglichst gut angepasst“ ist. Wir könnten zum Beispiel jene Gerade auswählen, die durch den ersten und letzten Punkt geht (g1 in Abb.5.2), was aber offensichtlich kein gutes Kriterium wäre: Die Wahl ist völlig willkürlich und schließt alle dazwischen liegenden Punkte aus. Die erhaltene Gerade passt sich also keinesfalls der Punktwolke an, sondern repräsentiert ausschließlich den ersten und letzten Punkt. Wir haben im Gleichungssystem (5.2) einfach so viele Gleichungen gestrichen, bis es nicht mehr überbestimmt war. Abb. 5.2 Drei Möglichkeiten, eine „ausgleichende“ Gerade durch die Punktwolke von Abb.5.1 zu legen. Die punktierte Linie g1 ist die Gerade durch den ersten und letzten Punkt der Punktwolke. Die strichpunktierte Linie g2 ist die Gerade, die nach Zweiteilung der Punktwolke die jeweiligen Schwerpunkte miteinander verbindet. Die gestrichelte Linie g3 jene Gerade, die man nach Mittelung aller aus jeweils zwei Punktepaaren ermittelten Anstiege und Ordinatenabschnitte erhält.
12 11 10 9 8 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 10 11 12 g1 g3 g2

y

x

Eine andere Möglichkeit wäre es, die Punktwolke in zwei Teile zu teilen, zum Beispiel in Punkte mit x ≤ 5 und solche mit x > 5. In jeder der beiden Gruppen können wir den Schwerpunkt bestimmen und dann durch diese beiden Punkte eine (eindeutige) Gerade legen, die als „plausibler“ Repräsentant der gesamten Punktwolke dienen könnte (g2 in Abb.5.2). Diese Gerade scheint zwar besser als g1 alle Punkte zu berücksichtigen, die Aufteilung der Punkte in zwei Gruppen ist aber nach wie vor willkürlich. Eine dritte Möglichkeit besteht darin, alle möglichen Punktepaare zu bilden, durch diese jeweils eine Gerade zu legen und deren Parameter zu bestimmen. Der arithmetische Mittelwert aller gefundenen Werte für den Anstieg k und den Ordinatenabschnitt d gibt dann die „ausgeglichene“ Gerade an (g3 in Abb.5.2). Für unser Beispiel mit 10 n ( n −1) Punkten gibt es = 45 mögliche Punktepaare. Das Verfahren ist also sehr zeit2

5.2. LINEARE GLEICHUNGSSYSTEME

73

aufwändig und für die praktische Rechnung nicht geeignet. Dies insbesondere auch im Hinblick darauf, dass unser Ziel ja letztendlich ein allgemeines Verfahren ist, d.h. nicht nur die Anpassung durch eine Gerade sondern auch durch andere, komplexere und kompliziertere Funktionen und auch für mehr als zwei Zufallsvariable10 . Nichts desto trotz können wir alle drei gefundenen Geraden in unsere Punktwolke einzeichnen. Dem Augenschein nach würden wir in Abb.5.2 vermutlich die Gerade, die durch die beiden Schwerpunkte geht (g2 ), noch am ehesten als Repräsentant der Punktwolke anerkennen. Wenn wir sie leicht drehen, erhalten wir sogar eine Gerade, auf der fünf unserer ursprünglichen Punkte unmittelbar enthalten sind (Abb.5.3). Es ist Abb. 5.3 Eine „ausgleichende“ Gerade durch die Punktwolke von Abb.5.1: Die Gerade, die fünf der zehn ursprünglichen Punkte beinhaltet. An den übrigen Punkten verbleiben Abweichungen bzw. Verbesserungsvektoren, um die man die Punkte verschieben muss, damit sie auch auf der Geraden liegen. Die Verbesserungsvektoren an den Punkten 1, 4, 5, 7 und 8 haben hier eine Länge gleich Null
12 11 v9 10 9 8 7 6 5 v3 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 10 11 12 v2 v6 v10

y

x

sehr wahrscheinlich, dass die meisten Leser dieser Geraden vor allen anderen angebotenen Möglichkeiten den Vorzug geben werden, wenn es darum geht, eine Gerade zu finden, die der Punktwolke aus Abb.5.1 „am besten“ angepasst ist. Diese „gefühlsmäßige“ Entscheidung wollen wir nun genauer angeben und außerdem eine Vorgangsweise erarbeiten, mit der wir in beliebigen Punktwolken den plausibelsten Repräsentanten angeben können, also auch nicht lineare Funktionen.

5.2.2

Herleitung der Methode der kleinsten Quadrate

Welche Wahl wir auch immer für die Unbekannten treffen: Damit die Punkte tatsächlich auf der danach erhaltenen Geraden zu liegen kommen, müssen wir die Beobachtungen verbessern, d.h. um jenen Betrag verschieben, der den Abweichungen von der Geraden entspricht. Wir gehen in einer vereinfachten Annahme davon aus, dass wir diese
drei Geraden g1 , g2 und g3 beruhen auf Vorschlägen von Mathematikern aus der Zeit vor der allgemeinen Anerkennung der Methode der kleinsten Quadrate.
10 Die

74

KAPITEL 5. DIE METHODE DER KLEINSTEN QUADRATE

Verbesserungen nur in y-Richtung anbringen. Daher stehen die Verbesserungsvektoren nicht normal auf die Gerade (was dem Euklidischen Abstand entsprechen würde) sondern parallel zur y-Achse (Abb.5.3). In der Sprache der Statistik sagen wir dann auch: Nur die Messgrößen im Vektor Y sind Zufallsgrößen, die Größen auf der Abszisse (im Vektor X) hingegen werden als fehlerfrei angenommen und bleiben fest. Die „plausibelsten“ Werte der Unbekannten sind nun jene, denen im Sinne der Statistik die größte Wahrscheinlichkeit zukommt. Das bedeutet aber, dass auch das System der Verbesserungen jenes ist, das die größte Wahrscheinlichkeit besitzt. Dazu benötigen wir zunächst Das Gauß’sche Gesetz über die Verteilung zufälliger Messabweichungen Bereits Lambert hat in seiner „Theorie der Zuverlässigkeit der Beobachtungen und Versuche“ festgestellt, dass • zufällige Abweichungen gleicher Größe nach beiden Seiten gleich möglich sind • geringere Abweichungen häufiger sind als große und dass eine Kurve, die die Wahrscheinlichkeit für das Auftreten der Abweichungen angibt • • • • symmetrisch ist im mittleren Abszissenwert den größten Ordinatenwert hat die Kurve auf beiden Seiten einen Wendepunkt hat und sich auf beiden Seiten der Abszisse asymptotisch nähert

Aufbauend auf diesen Beobachtungen Lamberts sowie bereits früheren Vorarbeiten durch Moivre11 („Doctrine of Chances“) hat Gauß die beschriebene Kurve mathematisch weiter untersucht und seiner Theorie über Beobachtungsabweichungen zu Grunde gelegt. Das Ergebnis ist die bekannte Normalverteilung, deren Dichtefunktion für die Verbesserungen vi so lautet:
− i2 1 · e 2σi f ( vi ) = √ σi 2π
v2

(5.3)

Die weiteren Überlegungen wollen wir nicht im Detail betrachten, sondern gleich ein wichtiges Ergebnis angeben: Damit die Wahrscheinlichkeitsdichte maximal wird, müssen die Verbesserungen so gewählt werden, dass gilt
i =1

∑ v2 → min i
vT v → min

n

(5.4)

bzw. in Matrizenschreibweise

(5.5)

Eine Lösung für diese Extremwertaufgabe erhält man bekanntlich dadurch, dass man die erste Ableitung der Funktion gleich Null setzt. Auch hier wollen wir wieder gleich das Ergebnis angeben: Zur Auflösung des überbestimmten Gleichungssystems Ax = b gehen wir zunächst von der so genannten Verbesserungsgleichung v = Ax − b
de Moivre, 1667-1754

(5.6)

11 Abraham

5.2. LINEARE GLEICHUNGSSYSTEME
aus. Wir bestimmen einen Lösungsvektor x nach x = ( A T A ) −1 A T b N = AT A die Normalgleichungsmatrix. (5.7) kann dann auch geschrieben werden als x = N −1 A T b Die Verbesserungen v erhält man durch direktes Einsetzen von x in (5.6). ˆ Die ausgeglichenen (auch: verbesserten) Beobachtungen b erhält man aus ˆ b = b+v

75

(5.7)

Dies nennt man auch die Normalgleichung des Ausgleichungsproblems und die Matrix (5.8)

(5.9)

(5.10)

Die eben angegebene Vorgangsweise zur Auflösung überbestimmter Gleichungssysteme nennt man auch Ausgleichsrechnung oder Gaußsche Fehlerquadratmethode. Hauptprobe Die so genannte Hauptprobe, die am Ende jeder Ausgleichsrechnung steht, besteht darin, zu überprüfen, ob die ausgeglichenen Größen das ursprüngliche Gleichungssystem tatsächlich erfüllen. Sehen wir uns das am Beispiel des Gleichungssystems (5.1) an: Die Normalgleichungsmatrix lautet: N = AT A = 385 55 55 10 1 1 0 2 −1 0 0 −2 0 0 −1 2 2 3 4 5 6 7 8 9 10 11                

und damit erhalten wir für x, also die Parameter k und d x = N −1 A T b = und die Verbesserungen v        v = Ax − b =          

ˆ und den ausgeglichenen Vektor b

       ˆ b = b+v =        

               

76

KAPITEL 5. DIE METHODE DER KLEINSTEN QUADRATE

Vergleichen wir nun diese Lösung mit dem Ergebnis, das wir erhalten, wenn wir in unser Gleichungssystem für k = 1 und d = 1 einsetzen: 1·1 2·1 3·1 4·1 5·1 6·1 7·1 8·1 9·1 10 · 1

+ + + + + + + + + +

1 1 1 1 1 1 1 1 1 1

= 2 = 3 = 4 = 5 = 6 = 7 = 8 = 9 = 10 = 11

Die Hauptprobe ist also erfüllt.

5.3 Nicht-lineare Gleichungssysteme
Die im vorigen Abschnitt angegebene Auflösung überbestimmter Gleichungssysteme funktioniert in der dort angegebenen Form unmittelbar nur für lineare Gleichungssysteme. Wir können aber auch nicht-lineare Gleichungssysteme nach der Methode der kleinsten Quadrate auflösen.

5.3.1

Gleichungssysteme „Linearisieren“

Ausgangspunkt ist das beliebige, nicht-lineare aber überbestimmte Gleichungssystem, das aus folgender Funktion entsteht: ϕ(x) = b (5.11) mit dem Unbekanntenvektor x und dem Beobachtungsvektor b. Der Unbekanntenvektor enthält die u Unbekannten; der Beobachtungsvektor die n beobachteten Daten. ϕ(x) ist ein Vektor, der n Funktionen ϕ1 , ϕ2 , . . . , ϕn enthält, die jeweils den Zusammenhang zwischen einer Beobachtung bi und den Unbekannten x1 , ..., xu beschreibt. Zur Auflösung des Gleichungssystems müssen wir die Funktionen ϕ(x) nach der bereits im vorigen Kapitel angewandten und im Anhang beschriebenen Taylorentwicklung durch ihre Tangenten ersetzen. Dies funktioniert bekanntlich aber nur dann, wenn wir bereits „sehr nahe am Ergebnis“ dran sind, das heißt einen Näherungswert x0 und den Funktionswert an dieser Stelle ϕ( x0 ) = b0 (5.12) kennen. Mit diesen Näherungswerten für unsere Unbekannten suchen wir nun noch in einer entsprechend kleinen Umgebung von x0 ein ∆x, das wir zu den Näherungswerten x0 dazuzählen müssen, um zum Lösungsvektor x zu kommen. Eingesetzt in die Formeln der Methode der kleinsten Quadrate bedeutet dies: mit der Matrix A:   A=   ∆x = N−1 AT (b − b0 ) ∂ϕ1 ∂x1 ∂ϕ2 ∂x1 . . . ∂ϕn ∂x1 ∂ϕ1 ∂x2 ∂ϕ2 ∂x2 . . . ∂ϕn ∂x2 ... ... .. . ... ∂ϕ1 ∂xu ∂ϕ2 ∂xu . . . ∂ϕn ∂xu      (5.13)

(5.14)

5.3. NICHT-LINEARE GLEICHUNGSSYSTEME

77

d.h. A enthält die partiellen Ableitungen der Funktionen ϕ1 bis ϕn nach den Unbekannten x1 bis xu . N ist – wie oben: N = AT A Den Lösungsvektor x erhält man aus x = x0 + ∆x Weiters können wir die Verbesserungen ausrechnen: v = A · ∆x − (b − b0 ) (5.16) (5.15)

Diese Verbesserungen werden an unseren ursprünglichen Beobachtungen b1 bis bn anˆ ˆ gebracht und man erhält die verbesserten oder ausgeglichenen Beobachtungen b1 bis bn : ˆ b = b+v Für die Hauptprobe muss erfüllt sein: ˆ ϕ(x) = b (5.18) (5.17)

5.3.2

Probleme beim Linearisieren

Geht die Hauptprobe nicht auf, kann dies drei Ursachen haben: 1. Es ist ein Fehler beim Aufstellen der Matrizen passiert. 2. Es ist im Zuge der Rechnung ein Rechenfehler passiert. 3. Die Näherungswerte waren nicht gut genug, sodass das Linearisieren unzulässig war und die Taylorreihe zu früh abgebrochen wurde. Dass tatsächlich ein Rechenfehler passiert ist, ist bei der Verwendung getesteter Rechenprogramme eher unwahrscheinlich. Es ist allerdings möglich, dass auf Grund ungünstiger numerischer Eigenschaften der Normalgleichungsmatrix die Inversion zu falschen Ergebnissen geführt hat. Fehler beim Aufstellen der Matrizen können bei der praktischen Rechnung leicht passieren. Einerseits kann man sich beim partiellen Ableiten selbst irren, andererseits können Rechenfehler auftreten. Insbesondere ist auf die richtige Verwendung der Vorzeichen sowie auf das Zusammenpassen der Einheiten zu achten. Jedes Element der vorkommenden Matrizen hat im Allgemeinen nicht nur einen Zahlenwert, sondern auch eine physikalische Einheit. Besonders sind jene Modelle fehleranfällig, in denen unterschiedliche Größen vorkommen – zum Beispiele Längen (Distanzen, Koordinatendifferenzen) und Winkel und Richtungen. Gegebenenfalls sind Winkel und Richtungen ins Bogenmaß umzurechnen. Beim Aufspüren eventueller Fehler in den Ausgangsmatrizen sind korrespondierende Elemente „heiße“ Kandidaten. Geht zum Beispiel die 3. Gleichung der Hauptprobe nicht auf, so ist die Wahrscheinlichkeit groß, dass in der 3. Zeile der Matrix A oder das 3. Element des Vektors (b − b0 ) fehlerhaft sind. Hat man die eben genannten Punkte überprüft und kann derartige Fehler ausschließen, die Hauptprobe geht aber trotzdem nicht auf, so ist wahrscheinlich die Grundvoraussetzung des Linearisierens nicht gegeben: Die Näherungswerte waren offenbar zu schlecht und die Taylorreihe hätte nicht bereits nach den Gliedern erster Ordnung abgebrochen werden dürfen. In diesem Fall geht man iterativ vor: Man rechnet zunächst einen Ausgleich durch. Das Ergebnis dieses Ausgleichs wird als Näherungslösung für einen weiteren Durchgang verwendet. Die Iteration wird solange durchgeführt, bis die Hauptprobe genügend genau erfüllt ist. In Einzelfällen kann es auch vorkommen, dass die Iteration nicht konvergiert.

78

KAPITEL 5. DIE METHODE DER KLEINSTEN QUADRATE

Ein Beispiel zum Ausgleich eines nicht-linearen Gleichungssystems werden wir uns im nächsten Kapitel ansehen.

5.4 Stochastische Eigenschaften der Unbekannten
Wir haben im 4. Kapitel die Kovarianzmatrix kennen gelernt, das ist jene Matrix, in der die Varianzen und Kovarianzen eines Zufallsvektors zusammengefasst sind und die somit die stochastischen Eigenschaften des Zufallsvektors beschreibt. Der Lösungsvektor x, den wir aus (5.9) oder (5.15) erhalten, ist so ein Zufallsvektor. Ihm ist daher eine Kovarianzmatrix zugeordnet. Sie fällt im Zuge der Ausgleichsrechnung beinahe „gratis“ an. Sie ergibt sich nämlich aus der Inversen der Normalgleichungsmatrix N, die wir ohnehin zur Auflösung des Gleichungssystems brauchen, sowie dem Verbesserungsvektor v:   2 s1 s12 . . . s1u  s21 s2 . . . s2u  vT v 2   N −1 (5.19) Cx =  . . . = .. . .  n−u  . . . . . su1 su2 ... s2 u

In der Hauptdiagonalen dieser Matrix Cx stehen die Varianzen der Unbekannten x1 bis xu ; durch Wurzelziehen erhalten wir daraus die Standardabweichungen. Wir können also mit Hilfe der Methode der kleinsten Quadrate nicht nur überbestimmte Gleichungssysteme lösen, sondern gleichzeitig auch die Standardabweichungen der ausgeglichenen Unbekannten angeben.

5.5 Englische Begriffe
ausgeglichene (Beobachtung, Parameter) adjusted (observation, parameter) linearisierte Beobachtungsgleichungen linearised observation equations Methode der kleinsten Quadrate - least squares method auch: maximum likelihood method Näherungswerte - assumed (auch: approximate) parameter values Normalgleichungen - normal equations überbestimmt - over-determined Unbekannte - unknown parameters Verbesserungen - residuals auch: corrections

Kapitel 6

Regression und Korrelation
6.1 Einleitung
In diesem Kapitel geht es um die Beziehung zwischen zwei Zufallsvariablen. Wir wollen den Einfluss einer Variablen auf die andere untersuchen. Gesucht sind Art, Richtung und Stärke des Zusammenhangs, mit dem sich die interessierende Variable (auch: abhängige oder Response-Variable) aus der erklärenden Variablen (auch: unabhängige oder Prädiktor-Variable) erklären lässt. Dabei unterstellen wir zunächst einen linearen Zusammenhang, nehmen also an, dass sich die abhängige Variable mehr oder weniger gut als lineare Funktion der unabhängigen Variablen darstellen lässt. Mathematisch geht es also um die Bestimmung der Parameter einer Geraden (Anstieg und Achsenabschnitt). Dabei wird die im letzten Kapitel eingeführte Methode der kleinsten Quadrate eine wichtige Rolle spielen.

6.2 Regressionsrechnung
6.2.1 Ein Beispiel
Sehen wir uns zu Beginn ein einfaches Beispiel an: Tabelle 6.1 zeigt das Ergebnis der Untersuchung von Größe und Gewicht zwanzig zufällig ausgewählter Erwachsener. Wir könnten zu diesen Daten die Häufigkeitsverteilungen für X und für Y in einer X Größe [cm] 188 183 183 185 178 198 163 164 174 185 Y Gewicht [kg] 83 88 81 85 70 94 55 57 80 78 X Größe [cm] 170 187 177 178 180 182 189 173 176 177 Y Gewicht [kg] 68 92 85 78 75 75 88 68 77 78

Tabelle 6.1: Größe und Gewicht 20 zufällig ausgewählter Erwachsener

Tabelle oder grafisch darstellen und wichtige charakterisierende Parameter wie Mittel-

79

80

KAPITEL 6. REGRESSION UND KORRELATION

werte oder Streuungsmaße berechnen. Solche und ähnliche Fragen haben wir uns im 2. Kapitel gestellt. Wir könnten auch – wie im 3. Kapitel – feststellen, dass sowohl die Verteilung der gemessenen Körpergrößen als auch die Verteilung der Gewichte in etwa einer Gaußschen Glockenkurve und somit einer Normalverteilung folgen. Wir können aber auch die beiden Zufallsgrößen Größe und Gewicht gemeinsam betrachten und in einem Streudiagramm („Punktwolke“) darstellen. Dazu stellen wir die beiden Variablen X und Y in einem Koordinatensystem dar und zeichnen für jeden Merkmalsträger einen Punkt an den Koordinaten (X,Y) ein1 . Aus einem Streudiagramm können wir oft bestimmte „Muster“ in unseren Daten optisch ablesen, Trends erkennen und augenscheinliche Zusammenhänge zwischen Daten sehen. Abb. 6.1 Streudiagramm zu den Daten aus Tab.6.1
100

90

80

70

60

50 150

160

170

180

190

200

210

Wir können zum Beispiel in der Abb.6.1 feststellen, dass mit zunehmendem X auch die Variable Y tendenziell zunimmt. Das legt den Schluss nahe, dass sich das Körpergewicht aus der Körpergröße erklären lässt2 . Dieser Zusammenhang ist natürlich kein streng deterministischer, d.h. es gibt kein naturwissenschaftliches Gesetz oder Funktion, die aus der Körpergröße das exakte Gewicht errechnen kann. Es gibt aber einen tendenziellen Zusammenhang; wir nennen das auch einen stochastischen oder statistischen Zusammenhang. Er ist dadurch gekennzeichnet, dass er immer nur mit einer gewissen Unschärfe angegeben werden kann. Aufgabe der Regressionsrechnung ist es nun, die Art des stochastischen Zusammenhangs zu beschreiben. Zunächst einmal können wir in Abb.6.1 ein bestimmtes Muster erkennen, das von links unten nach rechts oben verläuft. Wir sprechen in diesem Fall von einem positiven Zusammenhang; andernfalls (von links oben nach rechts unten) von einem negativen. Es kann natürlich auch sein, dass wir wir wirklich im wahrsten Sinn des Wortes einen Punkt-Haufen vor uns haben und zunächst einemal überhaupt kein Zusammenhang oder „Muster“ erkennbar ist (Abb.6.2). Die nächste Frage, die wir uns stellen wollen, ist: Von welchem Typ könnte eine Funktion sein, die wir „in die Punktwolke hineinlegen“, und die als charakteristischer Repräsentant der Punktwolke gelten kann? Prinzipiell unterscheiden wir dabei zwikönnen auch dreidimensional sein und drei Zufallsgrößen X, Y und Z repräsentieren ist die Körpergröße nur eine Variable, die das Gewicht beeinflusst. Es spielt auch das Alter, das Geschlecht, die Essgewohnheiten, der Hormonhaushalt, die Bewegungsfreudigkeit etc. eine Rolle. Aber in dieser einfachen statistischen Untersuchung betrachten wir nur bivariate Zufallsgrößen.
2 Tatsächlich 1 Streudiagramme

6.2. REGRESSIONSRECHNUNG

81

Abb. 6.2 Streudiagramme mit verschiedenen Mustern (positiv, negativ und „zusammenhangslos“

schen linearen und nicht-linearen Funktionen. Lineare Funktionen (= Geraden) sind einfacher zu handhaben, daher wird ihnen oft der Vorzug gegeben. Es gibt aber auch andere Funktionen, die die Regressionszusammenhänge beschreiben, unter anderem Parabeln, Hyperbeln, Exponenzialfunktionen, etc. Man darf dabei nicht immer nur nach dem Augenschein gehen und die Punktwolke „optisch“ beurteilen, sondern sollte auch inhaltliche Überlegungen miteinbeziehen. So wirkt sich zum Beispiel das Einbringen von Düngemitteln auf ein Feld zunächst so aus, dass mit zunehmendem Düngemitteleinsatz der Ernteertrag tendenziell steigen wird. Allerdings wird dies nur bis zu einem gewissen Maximum gehen, und jede weitere Erhöhung der Düngemittelmenge wird zu einer Überdüngung führen und den Ernteertrag wieder verringern, im schlimmsten Fall sogar zu einem niedrigerem Ertrag führen, als wenn wir gar nicht gedüngt hätten. Der Verlauf des Zusammenhangs der beiden Variablen „Düngemittelmenge“ und „Ernteertrag“ ist somit nicht linear. In den meisten Fällen können wir aber die Punktwolke eines Streudiagramms in mehrere „Teilwolken“ zerlegen, die ihrerseits jeder für sich wieder durch lineare Funktionen charakterisiert werden können.

6.2.2

Die Regressionsgerade

Wir gehen also von einem linearen Zusammenhang aus und suchen die beiden Parameter der Geradengleichung3 . Die Lösung ist sehr einfach: Wir bedienen uns der im vorigen Kapitel erarbeiteten Methode der kleinsten Quadrate und bestimmen als Regressionsgerade die ausgleichende Gerade durch die Punktwolke. Wir geben also jene Gerade an, bei der die Summe der quadrierten, in y-Richtung gemessenen Abstände zwischen den Punkten und der Geraden minimal ist. Fassen wir alle Realisierungen xi der Zufallsvariablen X in der Matrix A zusammen, und alle Realisierungen yi im Vektor y, so können wir die Lösung für die Parameter k und d (Anstieg und Achsenabschnitt der Geraden) gleich angeben:  x1 x2 . . . xn k d 1 1 . . . 1   y1 y2 . . . yn      (6.1)

  A= 

  , 

  y= 
−1

= AT A

AT y

Will man sich nicht der Matrizenrechnung bedienen, kann man auch schrittweise vorbeiden Parameter sind der Anstieg der Geraden und der Achsenabschnitt auf der y-Achse (= die „Verschiebung“ entlang der y-Achse relativ zum Ursprung des Koordinatensystems)
3 Die

82

KAPITEL 6. REGRESSION UND KORRELATION

gehen. Zunächst berechnet man für jede Zufallsvariable den jeweiligen Mittelwert: ¯ x= 1 n

∑ xi
i =1

n

¯ y=

1 n

∑ yi
i =1

n

(6.2)

und anschließend die Varianz der Zufallsgröße X s2 = X und die Kovarianz von X und Y: s XY
n 1 ¯ ( x − x )2 n − 1 i∑ i =1

(6.3)

= =

n 1 ¯ ¯ ( x − x ) ( yi − y ) n − 1 i∑ i =1

(6.4) (6.5)

1 n−1

i =1

¯ ¯ ∑ xi · yi − n · x · y

n

Dann erhält man die Parameter der Regressionsgeraden aus k= s XY s2 X (6.6) (6.7)

Der Anstieg k der Regressionsgeraden wird auch als Regressionskoeffizient bezeichnet. Er kann positiv oder negativ sein und dementsprechend sprechen wir von positiver bzw. negativer linearer Regression Wenden wir (6.1) auf unser Ausgangsbeispiel an, so erhalten wir als Ergebnis k d

¯ ¯ d = y − kx

=

1.08 −116.10

was wir auch gleich grafisch umsetzen und in das Streudiagramm 6.1 die Regressionsgerade einzeichnen können (Abb.6.3). Mit Hilfe der Regressionsgeraden sind durch einfaches Einsetzen nun auch Prognosen für nicht empirisch bestimmte Merkmalsausprägungen möglich. Wir können zum Beispiel angeben, welches Körpergewicht für einen Erwachsenen mit einer Körpergröße von 196 cm statistisch zu erwarten ist, nämlich 1.08 · 196 − 116.10 = 96 kg.

6.2.3

Ergänzungen

1. Das Wort Regression4 ist an sich eine nichtssagende, geradezu unpassende Bezeichnung, die aber vom „Erfinder“ der Methode, Galton5 , auf Grund eines einzigen Beispiels geprägt wurde: Galton, ein Cousin von Charles Darwin, versuchte, die Evolutionstheorie seines Cousins durch quantitative Beispiele zu untermauern. In einer großangelegten experimentellen Studie untersuchte er, ob es eine Beziehung zwischen der Körpergröße der Eltern und der ihrer Kinder gibt. Er fand heraus, dass zwar große Eltern tendenziell auch große Kinder haben und kleine Eltern kleine Kinder, allerdings in der Weise, dass die Kinder großer Eltern eher
lat. regredior = zurückgehen Francis Galton, 1822-1911, englischer Arzt und Biologe. Er verfasste zahlreiche Arbeiten über Anthropologie und Vererbung und sammelte dazu Daten über verschiedene Merkmalsausprägungen der Menschen. Anschließend entwickelte er statistische Methoden zu ihrer Auswertung.
5 Sir 4 vom

6.3. KORRELATIONSRECHNUNG
Abb. 6.3 Regressionsgerade zu den Daten aus Tab.6.1
110 100 90 80 70 60 50 150

83

160

170

180

190

200

210

kleiner sind als ihre Eltern und umgekehrt. Eltern haben also meistens Kinder, deren Größe näher am Durchschnitt liegt als ihre eigene Größe. Er nannte diesen Zusammenhang „regression to mediocrity“ – den „Rückschritt zum Mittelmaß“ (Dass wir eher zur Mittelmäßigkeit tendieren hätten wir wahrscheinlich auch ohne Galton vermutet – aber er hat sogar eine Theorie dazu entwickelt, mit der er dies experimentell nachweisen konnte). 2. Verschiedene Datensets können durch ein und dasselbe lineare Regressionsmodell repräsentiert werden, wie aus Abb.(6.4) ersichtlich ist. 3. Auch wenn der stochastische Zusammenhang nicht linear ist, kann ein Regresionsmodell erstellt werden. Wir können nicht nur Gerade sondern jede beliebige Funktion durch den Punkthaufen legen und mit Hilfe der Methode der kleinsten Quadrate ihre Parameter bestimmen.

6.3 Korrelationsrechnung
Die Regressionsgerade beschreibt zwar die Art des statistischen Zusammenhangs, sagt aber nichts über seine Stärke aus. Wir werden aber umso „ungenauere“ Prognosen abgeben, je geringer der statistische Zusammenhang der beiden Variablen ist. Eine Regressionsgerade lässt sich berechnen, auch wenn so gut wie kein Zusammenhang vorliegt. Wir können durch die Punktwolke ja auf jeden Fall eine Gerade dergestalt legen, dass die Summe der Abstandsquadrate minimiert wird. Die Frage ist nun, wie eng oder weit die Punktwolke um die erhaltene Regressionsgerade streut. Dies beantwortet die Korrelationsrechnung.

6.3.1

Der Korrelationskoeffizient

Wir gehen wieder von der Kovarianz von X und Y aus. Sie ist ein Parameter für die „gemeinsame Streuung“ und entspricht dem mittleren Produkt der Abweichungen der einzelnen xi und yi von ihrem jeweiligen Mittelwert. Ist dieses Produkt positiv, so sind die Zufallsgrößen X und Y tendenziell eher gleich, d.h. mit großer Wahrscheinlichkeit

84

KAPITEL 6. REGRESSION UND KORRELATION

Abb. 6.4 Vier verschiedene Datensets, die durch dasselbe lineare Regressionsmodell repräsentiert werden. Quelle: F.J.Anscombe: Graphs in Statistical Analysis – In: The American
Statistician, Vol.27, No.1 (1973), pp.17-21

nimmt die eine zu, wenn auch die andere zunimmt, beziehungsweise ab, wenn die andere abnimmt. Ist die Kovarianz hingegen negativ, verhalten sich die Zufallsgrößen tendenziell eher reziprok, d.h. mit großer Wahrscheinlichkeit nimmt die eine ab, wenn die andere zunimmt, beziehungsweise zu, wenn die andere abnimmt. Zufallsgrößen, deren Kovarianz gleich Null ist, bezeichnen wir als stochastisch unabhängig. Der Wert der Kovarianz ist abhängig von der Dimension der beiden Zufallsgrößen X und Y. Beschreibt zum Beispiel X die Länge einer gemessenen Distanz und Y die Temperatur zum Zeitpunkt der Messung, so ist der Wert von s xy unterschiedlich, je nachdem ob die Länge in mm, m oder km angegeben wird bzw. die Temperatur in Celsius oder Fahrenheit. Die Kovarianzen können aber normiert werden, indem sie durch die jeweiligen Standardabweichungen dividiert werden. Damit schafft man ein dimensionsloses Maß. Der entsprechende Quotient ρ XY = Cov( X, Y ) Var ( X ) · Var (Y ) sik si s k

=

σXY σX σY

(6.8)

wird Korrelationskoeffizient genannt. Sein Schätzwert rik = (6.9)

ist der empirische Korrelationskoeffizient. Die Definition des Korrelationskoeffizient in der Form (6.8) bzw. (6.9) stammt von Pearson6 und wird daher auch Pearson-Korrelationskoeffizient genannt, manchmal auch Bravais-Pearson-Korrelationskoeffizient. Bravais7 entwickelte in seiner 1846 publizierten Analyse mathématique sur les probabiliés des errors de situation d’un point die mathematischen Grundlagen der Korrelationsrechnung, auf denen Pearson 50 Jahre später aufbaute. Der Begriff Korrelation selbst wurde übrigens erstmals 1888 in der schon auf Seite
6 Karl 7 Auguste

Pearson, englischer Eugeniker und Statistiker, 1857-1936 Bravais, französischer Astronom und Physiker, 1811-1863

6.3. KORRELATIONSRECHNUNG

85

82 erwähnten Publikation von Galton über Co-relations and their measurement, chiefly from anthropometric data verwendet. Es gilt: −1 ≤ ρ ≤ 1 bzw. −1 ≤ r ≤ 1 (6.10) wobei eine positive Korrelation bedeutet, dass eine Vergrößerung der Werte der einen Zufallsgröße auch eine Vergrößerung der Werte der anderen Zufallsgröße zur Folge hat. Eine negative Korrelation hingegen bedeutet, dass eine Vergrößerung der Werte der einen Zufallsgröße eine Verkleinerung der Werte der anderen Zufallsgröße bewirkt und vice versa. Ein Korrelationskoeffizient von exakt +1.0 oder −1.0 würde bedeuten, dass nicht nur ein stochastischer linarer Zusammenhang besteht, sondern die Punkte tatsächlich auch streng mathematisch auf einer Geraden liegen. In unserem Beispiel (Tab. 6.1) ergibt sich ein Korrelationskoeffizient von 0.88, d.h. es gibt (zumindest in unserer Stichprobe) einen realtiv starken positiven linearen stochastischen Zusammenhang zwischen Körpergröße und Gewicht. Bsp. 6.1 Korrelationskoeffizient und Ausreißer. Der Korrelationskoeffizient ändert sich, wenn sich die Daten der Stichprobe ändern: Das brasilianische Fotomodel Ana Carolina Reston (gestorben im Oktober 2006 im Alter von 21 Jahren an den Folgen einer Magersucht) hatte bei einer Körpergröße von 1.74 Metern nur noch 40 Kilogramm gewogen. Sie hätte unseren Korrelationskoeffizienten (Tab. 6.1) auf 0.79 gesenkt. Manuel Uribe Garza, der schwerste Mann der Welt, ist 1.90 groß und wiegt 550 kg. Er drückt den Korrelationskoeffizienten überhaupt auf 0.36. Robert Pershing Wadlow hingegen, der als größter je lebender Mensch gilt (lebte in Illinois, USA, von 1918-1940), hatte bei einer Größe von 2.72 Metern ein Gewicht von 199 kg, was unsere Korrelation auf ein Maß von 0.99 gesteigert hätte. Aus Formel (6.8) bzw. (6.9) kann man erkennen, dass für den Korrelationskoeffizienten – im Gegensatz zur Regression – eine Unterscheidung in eine abhängige und eine unabhängige Zufallsvariable nicht mehr notwendig ist (Es spielt keine Rolle, was wir als X und was als Y bezeichnen – die Formel ist bezüglich X und Y symmetrisch). Wir können auch sagen: Der Korrelationskoeffizient beschreibt die gegenseitige lineare Abhängigkeit.

6.3.2

Korrelation und Stochastische Abhängigkeiten

Im 4. Kapitel haben wir Ereignisse und Wahrscheinlichkeiten für ihr Eintreten unter der stillschweigenden Annahme betrachtet, dass die einzelnen Ereignisse nicht vom Eintreten anderer, zeitlich vorausgehender oder räumlich beieinander liegender Ereignisse abhängen. Beim Würfeln zum Beispiel bleibt die Wahrscheinlichkeit für das Eintreten des Ereignisses „Augenzahl = 6“ stets gleich, egal was beim vorherigen Wurf gewürfelt wurde. In vielen anderen Beispielen ist das aber nicht der Fall. Bei Wetterprognosen ist zum Beispiel die Wahrscheinlichkeit dafür, dass es morgen kalt sein wird, größer, wenn es bereits heute kalt ist. Dafür ist in der Wahrscheinlichkeitstheorie der Begriff der bedingten Wahrscheinlichkeit definiert, was als P ( X = a |Y = b ) geschrieben wird (lies: Wahrscheinlichkeit für das Eintreten des Ereignisses X = a, unter der Bedingung, dass Y = b bereits eingetreten ist).

86

KAPITEL 6. REGRESSION UND KORRELATION
Wenn für die Zufallsgrößen X und Y gilt: P ( X = a |Y = b ) = P ( X = a ) (6.11)

so sind X und Y stochastisch abhängig. Die morgige Temperatur ist zum Beispiel eine Zufallsgröße, die von der heutigen Temperatur abhängig ist (Zufallsgröße X = morgige Temperatur und a = −1◦ , Zufallsgröße Y = heutige Temperatur und b = −2◦ ). Dabei ist diese Abhängigkeit wechselseitig, d.h. retrospektiv wird man auch sagen können, dass die heutige Temperatur nicht unabhängig von der morgigen war. Hingegen ist das Wetter unabhängig davon, ob heute alles aufgegessen wurde8 (Zufallsgröße X = morgiges Wetter und a = schön, Zufallsgröße Y = Alles aufgegessen und b = ja) und es gilt: P ( X = a |Y = b ) = P ( X = a ) (6.12) Formel (6.12) beschreibt X und Y als stochastisch unabhängige Zufallsgrößen. Der Korrelationskoeffizient (6.8) ist nun ein Maß für den linearen stochastischen Zusammenhang der Zufallsgrößen X und Y. Zwei Komponenten X und Y des Zufallsvektors X sind unkorreliert, d.h. ihr Korrelationskoeffizient ρik ist gleich Null, wenn sie stochastisch unabhängig sind.

6.3.3

Nicht-lineare Zusammenhänge

Der Korrelationskoeffizient ist nur ein Maß für Stärke und Richtung des linearen Zusammenhangs der Zufallsgrößen, aber kein Maß für Abhängigkeiten schlechthin. Er sagt nichts aus über nicht-lineare Zusammenhänge. Zwei Zufallsgrößen, zwischen denen ein nicht-linearer Zusammenhang besteht (zum Beispiel Y = X 2 , siehe Abb.6.5), haben nicht unbedingt einen Korrelationskoeffizienten ρ xy = 1, wie es vielleicht zu erwarten wäre. Der Korrelationskoeffizient kann im Gegenteil sehr klein oder sogar Null sein. In unserem Beispiel Y = X 2 ist trotz des engen Zusammenhangs ρ xy = 0. Der Abb. 6.5 Zwei Merkmale, die in einem nicht-linearen Zusammenhang stehen
120 100 80 60 40 20 0 0 5 10 Merkmal X 15 20 25

Korrelationskoeffizient gibt also nur darüber Auskunft, „wie gut die Zufallsgrößen auf
8 Diese Theorie ist zugegebenermaßen im Alltag umstritten. Ähnliches gilt zum Beispiel für die Wahrscheinlichkeit dafür, dass man Glück in der Liebe hat, unter der Bedingung, dass man Pech im Spiel hat oder umgekehrt.

Merkmal Y

6.4. KAUSALE ZUSAMMENHÄNGE UND SCHEINKORRELATIONEN

87

einer Geraden liegen“. Wir können nicht-lineare Zusammenhänge von Zufallsgrößen zwar mit Hilfe der Regressionsrechnung beschreiben (unter Verwendung der Methode der kleinsten Quadrate), ein Maß für den Zusammenhang gibt es aber nur für lineare Zusammenhänge9 .

6.4 Kausale Zusammenhänge und Scheinkorrelationen
Weder Korrelation noch Regression beschreiben explizit kausale Zusammenhänge. D.h. selbst ein sehr hoher Wert des Korrelationskoeffizienten oder eine augenscheinlich „ideale“ Regressionsfunktion, bei der alle Punkte bereits direkt auf einer Funktion liegen wie in Abb.6.5, sagt nichts darüber aus, dass die Größe des einen Merkmals die Ursache für die Größe des anderen Merkmals ist. Natürlich kann eine kausale Beziehung bestehen, das muss aber nicht der Fall sein. In diesem Zusammenhang spricht man auch oft von einer Scheinkorrelation. Es lässt sich zum Beispiel der statistische Zusammenhang zwischen der Anzahl der Geburten und der Anzahl der Störche in einer bestimmten Region feststellen. Hier gibt es meistens eine positive Korrelation, was aber nicht eine inhaltliche Kausalität beweist. Es ist vielmehr so, dass hier die beiden Merkmale Geburtenzahl und Storchenzahl über eine dritte Komponente, nämlich die zunehmende Verstädterung, zusammenhängen. Bsp. 6.2 Der Mozart-Effekt: Stochastischer oder kausaler Zusammenhang? Im Jahre 1993 erregte eine kurze Meldung im renommierten Wissenschaftsjournal Nature eine überproportionale Reaktion: Frances Rauscher und Gordon Shaw berichteten, dass Studenten nach dem Anhören einer Komposition von Wolfgang Amadeus Mozart in einem anschließenden Intelligenztest signifikant höhere Leistungen erzielt hatten als ihre Kollegen, die das Stück nicht zu hören bekamen. Daraus entwickelte sich bald ein florierender Geschäftszweig. Ein besonders geschäftstüchtiger Autor ließ sich den Begriff „Mozart Effect“ sogar als Warenzeichen schützen. Er und andere verdienten gut mit Büchern und Tonträgern, mit denen sie versprachen, durch die Macht von Mozarts Musik nicht nur körperliche Beschwerden zu heilen sondern auch die geistigen Kräfte zu steigern. Als Statistiker wissen wir, dass solche Zusammenhänge zwar vielleicht tatsächlich nachweisbar sind, dass es sich dabei aber um stochastische Zusammenhänge handelt und nicht um kausale. Es kann zum Beispiel sein, dass Menschen, die intelligenter sind, auch eher klassische Musik hören, als Menschen mit einem niedrigen Intelligenzquotienten. Daraus kann aber nicht abgeleitet werden, dass ein wenig Mozart hören praktisch ohne sonstigen Aufwand die Intelligenz steigert. Nichts desto trotz eine kleine Anregung für das Erlernen und Üben des Stoffes der gegenständlichen Vorlesung: Es handelte sich im angegebenen Versuch um Mozarts Sonate für zwei Klaviere, KV 448. Selbst wenn es eine unmittelbare Kausalität gibt, müssen wir beachten, dass der Korrelationskoeffizient nichts über die Richtung der Kausalität aussagt. Er beschreibt ja die gegenseitige Abhängigkeit. Dies kann zum Fehlschluss führen, Ursache und Wirkung zu verwechseln. Ein Beispiel ist der Zusammenhang zwischen dem Anstieg von Kohlendioxid in der Erdatmosphäre und dem als Globale Erwärmung bezeichneten Anstieg der
9 Manchmal begegnen wir den Begriffen auch in der Alltagssprache – allerdings oft falsch eingesetzt. Menschen, die besonders „wissenschaftlich“ klingen wollen oder sonst unter Beweis stellen wollen, dass sie auch Fremdwörter einsetzen können, sprechen davon dass „zwei Dinge miteinander korrelieren“. Mit der einfachen Frage, ob sie damit wirklich einen linearen Zusammenhang meinen, könnten wir sie aber leicht in Verlegenheit bringen ...

88

KAPITEL 6. REGRESSION UND KORRELATION

Durchschnittstemperaturen (Stichwort: „Klimawandel“). Studien und Untersuchungen zeigen hier eine offensichtliche (positive) Korrelation. Aus Sicht der Statistik kann man aber nicht auf eine unmittelbare Kausalität und vor allem nicht auf die Richtung eindeutige Aussagen treffen. Es könnte sein, dass der Temperaturanstieg die CO2 -Konzentration in der Atmosphäre ansteigen lässt und nicht umgekehrt. Oder dass beide von einer dritten Ursache abhängen, zum Beispiel dem Zusammenspiel von kosmischer Strahlung und Sonnenwinden. Klarheit könnte hier eine multivariate Regressionsrechnung schaffen, die aber über den Rahmen dieser Lehrveranstaltung hinausgeht.

6.5 Englische Begriffe
Achsenabschnitt (der Regressionsgeraden auf der y-Achse) - intercept (auch: yintercept) (of the regression line) Anstieg (der Regressionsgeraden) - slope (of the regression line) Ausreisser - Outlier bedingte Wahrscheinlichkeit - conditional probability Korrelation - correlation Korrelationskoeffizient - correlation coefficient Prädiktor-Variable (auch: erklärende oder unabhängige Variable) - predictor variable oder explanatory oder independent variable Punkthaufen/Punktwolke/Streudiagramm - scatterplot Regression - regression Response-Variable (auch: interessierende oder abhängige Variable) - response variable oder dependent variable Streudiagramm - scatterplot stochastisch (un)abhängig - stochastically (in)dependent Zusammenhang - (in der Statistik:) association

Kapitel 7

Induktive Statistik
Wir haben uns in den bisherigen Überlegungen einerseits mit der statistischen Untersuchung von empirisch ermittelten Datenmengen beschäftigt und zum Beispiel das arithmetische Mittel einer endlichen Beobachtungsreihe angegeben, die Varianz und die Standardabweichung. Wir haben andererseits auch ein entsprechendes theoretisches Wahrscheinlichkeitsmodell erarbeitet. Wir haben unter anderem die Normalverteilung kennen gelernt und wie wir für normalverteilte Zufallsgrößen die Wahrscheinlichkeit angeben können, dass ihre Werte innerhalb eines bestimmten Intervalls liegen. Ein wesentliches Merkmal unserer Daten war (und ist) immer die Frage, ob sie einer Stichprobe oder der Grundgesamtheit entstammen. Oder anders ausgedrückt: Ob wir über die empirischen Daten oder das zugrunde liegende theoretische Modell sprechen. Wichtig ist auch die Frage, inwieweit sich die Ergebnisse der Stichprobe für die Grundgesamtheit verallgemeinern lassen. Wir möchten die Schlussfolgerungen, die aus der Stichprobe gezogen werden, durch Hypothesen überprüfen und – zumindest statistisch – absichern. Diese Fragestellungen sind Hauptaufgabe der Induktiven Statistik (auch: Schließende oder Analytische Statistik). Die Schlussfolgerung selbst nennt man auch statistische Inferenz.

7.1 Stichproben
Am Beginn der meisten Erklärungen zu statistischen Methoden steht das Modell des „Ziehens aus einer Urne“. Zu den Begriffen „Grundgesamtheit“ und „Stichprobe“ betrachten wir also auch jetzt N Kugeln, die sich in einer Urne befinden. Sie stellen die Grundgesamtheit dar. Wir ziehen nun n mal eine Kugel zufällig aus der Urne und legen sie anschließend wieder zurück. Dies ist die Stichprobe. Übertragen auf das statistische Modell des Vorganges „Messen von Daten“ bedeutet dies: Wir wiederholen das Zufallsexperiment „Messen“ n mal. Da Messgrößen stetige Größen sind, müssten wir N = ∞ mal messen um die Grundgesamtheit aller Messergebnisse zu erhalten. Das wird aber selten gemacht. In der Regel beschränken wir uns auf eine endliche Anzahl von Wiederholungen, eben auf eine Stichprobe. Wichtig dabei ist, dass der Auswahlprozess, der aus einer Grundgesamtheit eine Stichprobe zieht, tatsächlich nach dem Zufallsprinzip erfolgt.

7.1.1

Stichprobenverteilungen

Nehmen wir zunächst folgendes Beispiel an (Tabelle 7.1): Wir haben N = 100 Zufallszahlen (in den Grenzen zwischen 200 und 800). Diese 100 Zufallszahlen stellen eine

89

90

KAPITEL 7. INDUKTIVE STATISTIK

Grundgesamtheit dar. Wir können nun Mittelwert und Streuung bestimmten, nämlich: µ = 472 und σ = 114.4. Da wir eine Grundgesamtheit vor uns haben, sind diese Werte tatsächlich die Erwartungswerte für den Mittelwert und die Standardabweichung. 205 331 379 415 438 468 499 530 559 639 213 341 390 418 449 471 507 537 559 641 221 342 397 419 450 471 508 539 563 650 267 344 399 420 451 475 511 540 584 663 276 347 404 426 456 481 512 541 591 679 287 353 405 429 457 484 517 544 593 688 302 365 406 430 462 488 517 549 597 690 312 371 409 431 463 489 519 549 606 697 312 374 410 435 467 494 526 550 610 725 322 374 414 435 467 497 528 555 615 765

Tabelle 7.1: 100 Zufallszahlen zwischen 200 und 800

In weiterer Folge beschließen wir aber, dass es zu aufwändig wäre, tatsächlich die Grundgesamtheit zu untersuchen. Wir wählen n = 99 Zahlen zufällig aus; diese 99 stellen nun eine Stichprobe dar und wir wollen aus der Stichprobe den Erwartungswert schätzen1 . Aus einer Grundgesamtheit von N Elementen können wir N n

=

N! n!( N − n)!

verschiedene Stichproben vom jeweils gleichen Umfang n ziehen. In unserem Fall sind dies 100 mögliche Stichproben2 . Jede der 100 Stichproben hat ein bestimmtes arithmetisches Mittel (in unserem Fall: ein Wert von 469.040 bis 474.697). Da wir in jeder Stichprobe n = 99 zufällige Zahlen (aus der Grundgesamtheit) ausgewählt haben, können wir auch den jeweiligen Mittelwert jeder Stichprobe als Zufallsgröße auffassen. Wie jede andere Zufallsgröße auch, folgt dann auch der Mittelwert einer bestimmten Wahrscheinlichkeitsverteilung. Diese Wahrscheinlichkeitsverteilung nennen wir Stichprobenverteilung. Entsprechend den Aussagen des Zentralen Grenzwertsatzes gehen wir davon aus, dass die Stichprobenverteilung einer Normalverteilung folgt. Zu ihrer Beschreibung verwenden wir die beiden wichtigen Parameter Erwartungswert und Varianz. Wir können im Übrigen nicht nur für den Stichprobenmittelwert sondern auch für andere Maßzahlen (zum Beispiel die Standardabweichung oder die Differenz zweier Mittelwerte oder zweier Standardabweichungen) die jeweilige Stichprobenverteilung angeben. Die Standardabweichung der aufgezählten Parameter werden manchmal auch als Standardfehler bezeichnet. Es gibt also Standardfehler des Mittelwertes, Standardfehler der Standardabweichung, Standardfehler der Differenz zweier Mittelwerte etc.
1 99 Werte aus einer Grundgesamtheit von 100 Werten als Stichprobe heranzuziehen mag eigenartig erscheinen; tatsächlich eignet sich diese Auswahl aber sehr gut, um die Methode als solche zu illustrieren, weil es einen relativ geringen – und damit nachvollziehbaren – Rechenaufwand gibt. Siehe nächste Fußnote 2 Jede andere Zahl kleiner als 99 hätte zu einer entsprechend größeren Zahl von möglichen Stichproben geführt

7.1. STICHPROBEN

91

7.1.2

Stichprobenverteilungen wichtiger Maßzahlen

Stichprobenverteilung des arithmetischen Mittels ¯ Die Stichprobenverteilung des arithmetischen Mittels X folgt ab einem Stichprobenumfang von etwa n = 30 einer Normalverteilung mit dem Erwartungswert µX = µ ¯ und der Standardabweichung σ σX = √ ¯ n (7.1)

(7.2)

¯ d.h. der Erwartungswert von X ist gleich dem Erwartungswert der Grundgesamtheit ¯ und die Standardabweichung von X gleich der Standardabweichung der Grundgesamtheit dividiert durch die Wurzel aus dem Stichprobenumfang n. Stichprobenverteilung der Standardabweichung Unter der Voraussetzung der Normalverteilung der Grundgesamtheit folgt die Stichprobenverteilung der Standardabweichung S für n → ∞ ebenfalls einer Normalverteilung mit dem Erwartungswert µS = σ (7.3) und der Standardabweichung σ σS = √ 2n (7.4)

d.h. der Erwartungswert der Variablen S ist die Standardabweichung der Grundgesamtheit; die Streuung nimmt mit steigendem n rasch ab. Stichprobenverteilung der Differenz zweier Mittelwerte Manchmal steht man vor der Aufgabe, zwei Mittelwerte miteinander zu vergleichen. Dazu eignet sich die Differenz der Mittelwerte ¯ ¯ D X = X1 − X2 ¯ (7.5)

Gehen wir nun von zwei Grundgesamtheiten mit den Mittelwerten µ1 und µ2 und den Standardabweichungen σ1 und σ2 aus, aus denen wir zwei (voneinander unabhängige) Stichproben mit den Umfängen n1 und n2 gezogen haben, dann folgt die Zufallsgröße DX einer Normalverteilung mit dem Erwartungswert ¯ µ DX = µ1 − µ2 ¯ und der Standardabweichung σDX = ¯
2 σ1 σ2 + 2 n1 n2

(7.6)

(7.7)

Stichprobenverteilung der Differenz zweier Standardabweichungen Bei großen Stichprobenumfängen (n > 100) und annähernd normalverteilter Grundgesamtheiten folgt die Stichprobenverteilung der Differenz zweier Standardabweichungen D S = S1 − S2 (7.8)

92

KAPITEL 7. INDUKTIVE STATISTIK

einer Normalverteilung mit dem Erwartungswert µ DS = σ1 − σ2 und der Standardabweichung σDS =
2 σ1 σ2 + 2 2n1 2n2

(7.9)

(7.10)

7.2 Schätzverfahren
Die Parameter der Wahrscheinlichkeitsverteilung von Zufallsvariablen (zum Beispiel der Erwartungswert µ und die Varianz σ2 ) sind uns im Allgemeinen unbekannt. Aus der Häufigkeitsverteilung einer Stichprobe können wir aber Schätzwerte für diese Para¯ meter ermitteln, zum Beispiel den Stichprobenmittelwert X als Schätzer für den Erwar2 als Schätzer für die Varianz σ2 der Grundtungswert µ und die Stichprobenvarianz S gesamtheit. Neben dem arithmetischen Mittelwert sind aber auch noch der Median und der Modalwert mögliche Schätzer des Erwartungswertes. (Das wissen wir alles spätestens seit dem 2. Kapitel). Zur Unterscheidung zwischen dem Parameter und seinem Schätzer werden die ¯ ˆ Schätzer oft auch „mit Dach“ geschrieben, also zum Beispiel µ = X. ¯ und s2 die wir aus einer Stichprobe erhalten sind ReaDie konkreten Schätzwerte x ¯ lisierungen der Zufallsvariablen X und S2 . Sie werden von Stichprobe zu Stichprobe verschieden sein und um den wahren Wert des unbekannten Parameters streuen. Wir können aber als Schätzer nicht nur einzelne Werte angeben sondern auch ganze Intervalle. Je nachdem sprechen wir dann von einer Punktschätzung oder einer Intervallschätzung.

7.2.1

Punktschätzung

Es ist das Ziel einer Punktschätzung, mittels einer Stichprobe vom Umfang n einen (einzelnen) Wert für den unbekannten Parameter Θ zu schätzen3 . Dazu definieren wir vorneweg noch den Begriff der Erwartungstreue, weil er eine wichtige Rolle für das Folgende spielen wird: Sei X = ( X1 , . . . , Xn ) eine Stichprobe und T (X) = T ( X1 , . . . , Xn ) eine Schätzfunktion des unbekannten Parameters Θ. Die Schätzung T (X) heißt erwartungstreu (auch: unverzerrt oder: unbiased), wenn auch für endliche Stichproben sein Erwartungswert gleich dem zu schätzenden Parameter ist, wenn also gilt: EΘ ( T (X)) = Θ (7.11)

andernfalls heißt sie nicht erwartungstreu (auch: verzerrt oder biased). Die Differenz zwischen dem Erwartungswert EΘ ( T (X)) der Schätzung und dem zu schätzenden Parameter Θ wird Bias (Verzerrung) genannt. Erwartungstreue Schätzer haben demnach einen Bias gleich Null. Wir wollen uns auch noch den Begriff der so genannten Maximum Likelihood-Methode4 merken. Diese Schätzmethode dient, ausgehend von einer konkreten Stichprobe, dem
3 falls nicht geläufig: Θ ist der griechische Großbuchstabe „Theta“, entspricht im Deutschen in etwa einem [th]. Wir verwenden es hier einfach als Variable für einen beliebigen statistischen Parameter 4 Eine gute deutsche Übersetzung dafür gibt es nicht; hin und wieder trifft man auf maximale Mutmaßlichkeit; das hat sich aber – mit Recht – nicht wirklich durchgesetzt. Eine andere deutsche Übersetzungen ist auch „Schätzung nach der größten Erwartung“.

7.2. SCHÄTZVERFAHREN

93

Auffinden von Punktschätzern für einen Parameter einer Grundgesamtheit und hat neben der Erwartungstreue auch noch andere „Güteeigenschaften“, auf die wir hier nicht näher eingehen wollen. Die Maximum Likelihood-Methode setzt voraus, dass der Verteilungstyp der Grundgesamtheit bekannt ist. Die „Methode der kleinsten Quadrate“ ist eine solche Maximum Likelihood-Schätzung von Parametern der Normalverteilung. Wie sehen nun die konkreten Maximum Likelihood-Schätzer für die Parameter der Normalverteilung aus? Es gibt bekanntlich zwei Parameter der Normalverteilung: Erwartungswert und Varianz. Für die Schätzung ist zu unterscheiden, ob beide Parameter unbekannt sind, oder ob vielleicht einer der beiden bekannt ist: µ unbekannt, σ2 bekannt Nehmen wir an, die Varianz σ2 der Verteilung sei bekannt und gleich σ0 2 . Gesucht ist der Maximum Likelihood-Schätzer für den unbekannten Parameter µ. Die gesuchte Schätzfunktion lautet 1 ¯ ˆ Tµ (X) = µ = X = n und es gilt: ¯ E( X ) = µ

∑ Xi
i =1

n

(7.12)

(7.13)

d.h. das Stichprobenmittel ist ein (erwartungstreuer) Schätzer für den Erwartungswert der Grundgesamtheit. Außerdem gilt: Z= ¯ X − µ√ n ∼ N (0; 1) σ (7.14)

d.h. die Größe Z folgt einer standardisierten Normalverteilung. µ bekannt, σ2 unbekannt Unter der Annahme, dass der Erwartungswert µ der Verteilung bekannt sei und den Wert µ0 habe, lautet der Maximum Likelihood-Schätzer für den unbekannten Parameter σ2 1 n ˆ Tσ2 (X) = σ2 = ∑ ( Xi − µ0 )2 (7.15) n i =1 µ unbekannt, σ2 unbekannt Dies ist der Fall, der in der Praxis am häufigsten auftreten wird: sowohl Erwartungswert µ als auch Varianz σ2 sind unbekannt. Der Maximum Likelihood-Schätzer für den Erwartungswert ist gleich wie oben, also ¯ ˆ Tµ (X) = µ = X Für die Stichprobenvarianz gibt es hingegen eine gegenüber (7.15) korrigierte Schätzfunktion: n 1 ¯ ˆ (7.16) Tσ2 (X) = σ2 = S2 = ∑ ( Xi − X ) 2 n − 1 i =1 Diese Korrektur mit dem Faktor tungstreu bleibt.
n n −1

ist notwendig, damit die Schätzfunktion erwar-

94 Die transformierte Größe T=

KAPITEL 7. INDUKTIVE STATISTIK

¯ X − µ√ n ∼ T ( n − 1) S

(7.17)

folgt einer t-Verteilung (Student-Verteilung) mit (n − 1) Freiheitsgraden. Ähnlich wie beim Stichprobenmittel können wir auch die Stichprobenvarianz in eine Größe transformieren, deren Verteilung wir angeben können: Q=

( n − 1) S2 ∼ χ2 ( n − 1) σ2

(7.18)

Q folgt einer χ2 -Verteilung (Chiquadrat-Verteilung) mit (n − 1) Freiheitsgraden.

Die Punktschätzung hat für stetig verteilte Zufallsgrößen einen gravierenden Nachteil: Rein formal ist die Wahrscheinlichkeit dafür, dass der Schätzer genau gleich dem wahren Wert ist, gleich Null! (Wir erinnern uns: Die Wahrscheinlichkeit ist die Fläche unter der Dichtefunktion, und die ist nur Intervallen zugeordnet, an einer einzigen bestimmten Stelle X = a hingegen nur ein „dimensionsloser Strich“). Wir wenden uns daher in der Folge Intervallen zu und erhalten somit auch Hinweise auf die Genauigkeit der Schätzung (die Güte).

7.2.2

Intervallschätzung

Die Abweichung zwischen der Punktschätzung für einen Parameter und dem wahren ¯ Wert des Parameters, zum Beispiel die Differenz | x − µ|, kann erheblich sein, insbesondere bei kleinem Stichprobenumfang. Um besser auf diese (Un-)Genauigkeit der Schätzung einzugehen, werden an Stelle von Punktschätzern auch Intervallschätzer angegeben. Dabei wird für den unbekannten Parameter nicht ein einziger Wert sondern ein Zufallsintervall mit den Grenzen Iu (X) und Io (X) bestimmt, das den unbekannten Parameter Θ mit einer bestimmten vorgegebenen Wahrscheinlichkeit überdeckt. Diese Wahrscheinlichkeit wird das Konfidenzniveau (auch: statistische Sicherheit) genannt und mit (1 − α) bezeichnet. Iu (X) und Io (X) sind die unteren beziehungsweise oberen Konfidenzgrenzen und das Intervall ist das Konfidenzintervall (auch: Vertrauensintervall)5 : C1−α (Θ) = [ Iu ; Io ] (7.19)

Konfidenzintervalle wurden 1937 vom polnisch-amerikanischen Statistiker J. Neyman eingeführt6 . Das Intervall ist eine Zufallsgröße und kann den Parameter Θ überdecken oder auch nicht. α ist dann die Angabe des „Risikos“, dass man bei der Angabe des Konfidenzintervalls eine falsche Aussage tätigt (d.h. das Intervall überdeckt den wahren Parameter gar nicht). α wird daher Irrtumswahrscheinlichkeit (auch: Fehlerwahrscheinlichkeit) genannt. Je größer α ist, desto kleiner wird das Konfidenzintervall sein und umgekehrt. Das bringt uns ein bisschen in eine verzwickte Situation: Entweder können wir eine präzise Aussage machen (Morgen hat es zwischen 1.2◦ und 3◦ ), die jedoch höchst unsicher ist, oder eine unscharfe Aussage (Morgen ist die Temperatur zwischen -10◦ und +30◦ ), die sehr
lat. confidere = vertrauen Neyman, Outline of a Theory of Statistical Estimation Based on the Classical Theory of Probability, In: Philosophical Transactions of the Royal Society of London. Series A, Mathematical and Physical Sciencies. Vol. 236, No. 767. (Aug. 30, 1937), pp. 333-38
6 Jerzy 5 vom

7.2. SCHÄTZVERFAHREN

95

zuverlässig eintrifft (aber eben nicht viel Information enthält). In der Praxis wird für α meist 5% oder 0.5% gewählt. Beispiel: Wir schätzen aus einer Zufallsstichprobe ein Konfidenzintervall für den Erwartungswert µ der zugehörigen Grundgesamtheit. (1 − α) sei 95%. Wir können uns dann zu 95% „sicher“ sein, dass das Intervall den Erwartungswert der Grundgesamtheit enthält. Oder anders ausgedrückt: Wenn wir aus 100 Stichproben jeweils die Konfidenzintervalle bestimmen, wird in 95 derartigen Intervallen der Erwartungswert ¯ enthalten sein, in 5 Fällen nicht. Abb. 7.1 zeigt als Beispiel sechs Realisierungen x der ¯ Zufallsgröße X zur Schätzung des Parameters µ. Zu jeder Realisierung ist ein Intervall angegeben. Fünf Intervalle liegen so, dass der Parameter µ tatsächlich von diesen Inter¯ vallen überdeckt wird. Bei x4 hingegen ist µ nicht im Konfidenzintervall enthalten. Die ¯ Wahrscheinlichkeit dafür, ein Intervall wie jenes um x4 zu „erwischen“, beträgt α. Abb. 7.1 Konfidenzintervalle zum Konfidenzniveau (1 − α) = 83.3%: In einem aus ¯ sechs Fällen enthält das Intervall, das man aus der jeweiligen Realisierung x erhält, den wahren Parameter µ nicht.

Konfidenzschätzung für µ bei bekannter Varianz σ2 Gegeben sei die Stichprobe einer normalverteilter Zufallsvariablen X. Die Varianz σ2 2 sei bekannt und habe den Wert σ0 . Wir bestimmen nun zunächst mit Hilfe der Formel (7.12) einen (Punkt-)Schätzwert für den Erwartungswert µ. Anschließend konstruieren wir ein Konfidenzintervall, das symmetrisch um µ liegt. Es hat die Grenzen σ0 ¯ Iu (X) = X − z(1−α/2) √ n σ0 ¯ Io (X) = X + z(1−α/2) √ n (7.20) (7.21)

96

KAPITEL 7. INDUKTIVE STATISTIK

wobei z(1−α/2) das (1 − α/2)-Quantil der standardisierten Normalverteilung ist. Für α = 0.05 ist zum Beispiel (1 − α/2) = 0.975 und z0.975 = 1.96. Das Intervall hat die Länge σ0 L = 2 z(1−α/2) √ n (7.22)

Sind α und n konstant, so haben Konfidenzintervalle aus verschiedenen Stichproben (mit gleichem Umfang n) dieselbe Länge, jedoch eine unterschiedliche Lage. Wird α konstant gehalten, so kann die Länge L des Intervalls durch Erhöhung des Stichprobenumfangs n verkleinert werden. Wird die Genauigkeit durch die Intervalllänge L vorgegeben, so lässt sich der Mindestwert für den Stichprobenumfang n berechnen. Konfidenzschätzung für µ bei unbekannter Varianz σ2 Wenn auch die Varianz unbekannt ist, schätzen wir sie durch die Stichprobenvarianz S2 (nach Formel 7.16) ab. Das Konfidenzintervall für µ ist dann gegeben durch die Grenzen Iu (X) S ¯ = X − t(n−1;1−α/2) √ n S ¯ Io (X) = X + t(n−1;1−α/2) √ n (7.23) (7.24)

wobei t(n−1;1−α/2) das (1 − α/2)-Quantil der t-Verteilung mit (n − 1) Freiheitsgraden ist. Konfidenzschätzung für die Varianz σ2 bei unbekanntem Erwartungswert µ Für die unbekannte Varianz σ2 benötigen wir zunächst eine Punktschätzung nach (7.16). Das Konfidenzintervall für die Varianz hat dann die Grenzen Iu Io

= =

n−1 S2 c(n−1;1−α/2) n−1 S2 c(n−1;α/2)

(7.25) (7.26)

mit den jeweiligen Quantilen der χ2 -Verteilung mit (n − 1) Freiheitsgraden. Wir können auch Konfidenzintervalle für die Differenz oder beliebige andere Linearkombinationen zweier Mittelwerte oder Standardabweichungen ausrechnen, ebenso für Korrelationskoeffizienten, für Proportionen zweier Parameter etc. Dies ist jedoch nicht Gegenstand der vorliegenden Vorlesung.

Konfidenzintervalle haben mit der Unsicherheit der Parameter von Grundgesamtheiten bei deren Bestimmung aus Stichproben zu tun. Die Unsicherheit liegt jedoch nicht beim Parameter der Grundgesamtheit, sondern bei der Stichprobe und demjenigen, der Aussagen daraus ableitet. Daher abschließend nocheinmal die Anmerkung zur richtigen sprachlichen Ausdrucksweise: Erhalten wir für den Parameter µ beispielsweise ein 95%-Konfidenzintervall von [849;891], so bedeutet das NICHT, „dass die Wahrscheinlichkeit 95% beträgt, dass µ einen Wert zwischen 849 und 891 hat“. µ ist ja keine Zufallsgröße, sondern der Parameter einer bestimmten Verteilung der Grundgesamtheit (nämlich der Erwartungswert einer

7.3. TESTEN STATISTISCHER HYPOTHESEN

97

bestimmten Normalverteilung)7 . Dieser Parameter ist nicht variabel sondern fest; man kann ihm keine Wahrscheinlichkeit zuordnen. Das Konfidenzintervall hingegen ist sehr wohl eine (variable) Zufallsgröße. Richtigerweise muss es daher heißen: Die Wahrscheinlichkeit, dass das Konfidenzintervall den wahren Wert von µ überdeckt, beträgt 95%. Oder: Zögen wir 100 Stichproben und bildeten jeweils das Konfidenzintervall, so würden 95 Intervalle µ enthalten und 5 nicht. Diese letzte Aussage lässt uns auch umgekehrt schließen: Wenn wir aus einer Stichprobe für µ ein 95%-Konfidenzintervall von [849;891] erhalten, kann der Erwartungswert der Grundgesamtheit, aus der diese Stichprobe stammt, auch 840 oder 900 sein. Die Wahrscheinlichkeit, dass dies passiert, ist zwar relativ klein (eben 5%), aber doch möglich. Wie können wir nun überprüfen, ob unsere Stichprobe tatsächlich einer bestimmten Grundgesamtheit angehört oder nicht?

7.3 Testen statistischer Hypothesen
Solange wir anstelle der Grundgesamtheit in der statistischen Analyse nur Stichproben vorliegen haben, gibt es keine gesicherten Aussagen. Dennoch wollen wir Aussagen tätigen, die zumindest für eine größere Anzahl von zufälligen Versuchen zutreffen. Im letzten Abschnitt haben wir uns damit beholfen, dass wir Parameter der Grundgesamtheit durch Intervalle eingrenzen, die mit einer bestimmten Wahrscheinlichkeit die gesuchten Parameter überdecken. Im folgenden Abschnitt geht es nun darum, weitere statistische Aussagen („Hypothesen“) über die Parameter der Grundgesamtheit zu prüfen. Diese Hypothesen stellen wir auf Grund einer oder mehrerer Stichproben auf. Den Hypothesen liegt in der Regel die Annahme einer bestimmten theoretischen Wahrscheinlichkeitsverteilung der Grundgesamtheit zu Grunde. In unseren Fällen ist dies die Normalverteilung. Es gibt auch statistische Tests, die die Verteilung als solche überprüfen. In diesem Fall sprechen wir von nicht-parametrischen Tests; diese sind aber nicht Gegenstand unserer weiteren Untersuchungen.

7.3.1

Prinzip statistischer Tests

Zunächst einmal einige Beispiele dafür, was wir mit statistischen Tests überprüfen können: • Eine Imbisskette wirbt damit, dass in ihren Semmeln mindestens 130g Leberkäse enthalten sind. Die Kunden sind aber nicht ganz zufrieden und vermuten, dass die Stücke viel kleiner sind. 10 Kunden wägen ihren Leberkäse nach. Es ergibt sich, dass im Durchschnitt eine Portion Leberkäse nur 129.4g wiegt. Ist das nur ein Zufall, der bei einer anderen Stichprobe auch ein „erfreulicheres“ Ergebnis hätte bringen können? Oder steckt da Methode dahinter, und die Stücke sind zu klein? • Jemand möchte für eine bestimmte Entscheidung überprüfen, ob sich die mittlere Jahrestemperatur in Wiener Neustadt von jener in Villach unterscheidet. • Eine Strecke zwischen 2 Punkten wurde n-mal gemessen, was einen Mittelwert ¯ x und eine Standardabweichung s ergibt. Nach einem Jahr wird dieselbe Strecke ¯ wieder gemessen mit den Ergebnissen x ′ und s′ . Frage: sind das zufällige Unterschiede oder hat sich die Strecke signifikant geändert (zum Beispiel durch eine tatsächliche Verschiebung der 2 Punkte zueinander).
unsere Stichprobe tatsächlich aus dieser Grundgesamtheit stammt ist eine andere Frage – die werden wir im nächsten Abschnitt klären
7 ob

98

KAPITEL 7. INDUKTIVE STATISTIK

Es geht im Folgenden also darum, entweder zwei Stichproben miteinander zu vergleichen, oder eine Stichprobe mit der ihr zugrunde liegenden Grundgesamtheit. Für diese Vergleiche können wir die jeweiligen Parameter – meist die Mittelwerte oder die Varianzen – heranziehen und sie mit Hilfe so genannter Signifikanztests überprüfen8 . Ausgangspunkt ist dabei zunächst eine bestimmte Hypothese, genannt Nullhypothese, die in den meisten Fällen die Antwort auf die Frage als Behauptung formuliert. Will ich zum Beispiel wissen, ob eine Grundgesamtheit einen Erwartungswert gleich Null ¯ hat, obwohl der Schätzwert x = 0.01 beträgt, so kann meine Nullhypthese lauten: H0 : µ = 0 Allgemeiner haben Nullhypothesen über den statistischen Parameter Θ eine der folgenden Formen: H0 : H0 : H0 : Θ = Θ0 Θ ≥ Θ0 Θ ≤ Θ0 (7.27) (7.28) (7.29)

wobei Θ zum Beispiel für den Erwartungswert, die Varianz, den Korrelationskoeffizienten etc. stehen kann. Keine Hypothese im Sinne der induktiven Statistik ist hingegen ¯ x = 0.01 weil dies ja keine Aussage über einen Parameter der Grundgesamtheit sondern über eine Stichprobe darstellt. Der arithmetische Mittelwert wurde aus ganz konkreten Realisierungen der Zufallsgrößen berechnet und es bedarf keiner Hypothese darüber, ob das der Mittelwert der Stichprobe ist oder nicht (außer, man ist sich nicht sicher, ob man richtig gerechnet hat...). Ziel des Hypothesentests ist es nun, die Nullhypothese zu akzeptieren oder zu verwerfen. Dabei wollen wir eine Hypothese dann verwerfen, wenn die von uns beobachteten Stichproben eher unwahrscheinlich sind, sollte H0 wahr sein. Wir überprüfen also ein Modell (die Grundgesamtheit) anhand von Daten (den Stichproben): Solange Modell und Daten konsistent sind, gibt es keinen Grund, die Hypothese nicht zu akzeptieren. Das Akzeptieren einer Hypothese mit Hilfe eines statistischen Tests heißt aber nicht, das wir irgendwas „beweisen“ konnten. Tatsächlich lässt sich mit Stichproben gar nichts beweisen. Wenn ein Experiment mit den theoretischen Voraussagen übereinstimmt, heißt das noch nicht, dass die Theorie richtig ist. Es könnte ja auch eine andere, uns unbekannte Theorie zu diesen Ergebnissen geführt haben. Theorien lassen sich allerdings durch ein einziges negatives Experiment widerlegen9 . Will man eine Aussage bestätigen, kann man daher auch das Gegenteil dieser Aussage als Nullhypothese formulieren. Stellt sich dann heraus, dass die Nullhypothese nicht zutrifft, schließen wir daraus, dass die jeweilige Alternative richtig sein muss – also genau, was wir ohnehin zeigen wollten. Diese „Alternative“ nennen wir auch Alternativhypothese.
lat. significanter = klar, deutlich Karl Popper (1902-1994) stammt dazu folgendes berühmte Beispiel: Nehmen Sie an, Sie wollten die Theorie prüfen „Alle Raben sind schwarz“. Sie beobachten 100 Raben und stellen tatsächlich fest, dass jeder Rabe schwarz ist. Ist mit diesem Ergebnis die Theorie bewiesen? Popper sagt: Es könnte auch sein, dass der 101. Rabe, den man irgendwo beobachtet, weiß ist, und die Theorie „Alle Raben sind schwarz“ wäre mit einem Schlag widerlegt.
9 Von 8 vom

7.3. TESTEN STATISTISCHER HYPOTHESEN
Nullhypothese und Alternativhypothese

99

Bei statistischen Signifikanztest wird zu jeder Nullhypothese H0 auch eine Alternativhypothese H A formuliert10 , das ist die „Verneinung“ der Nullhypothese. Wenn im Zuge des Hypothesentests anhand einer (oder mehrerer) Stichproben H0 verworfen wird, können wir die Alternativhypothese akzeptieren. Bei der Wahl der Alternativhypothese müssen wir unterscheiden, ob uns die Abweichungen des gestesteten Parameters nach oben und unten gleich wichtig sind oder nur in eine Richtung interessieren. Hypothesen der Form H0 : Θ = Θ0 (7.30) mit der Alternativhypothese H A : Θ = Θ0 (7.31) sind so genannte zweiseitige Fragestellungen. Die Abweichungen des wahren Parameters Θ von Θ0 sind nach oben oder unten gleich wichtig, d.h. alle abweichenden Parameterwerte bringen die Hypothese zu Fall. Umgekehrt sind Hypothesentests der Form H0 : HA : bzw. H0 : HA : Θ ≤ Θ0 Θ > Θ0 (7.34) (7.35) Θ ≥ Θ0 (7.32) (7.33)

Θ < Θ0

einseitige Fragestellungen, d.h. nur die Abweichungen in eine Richtung sind interessant. Testen wir zum Beispiel ein bestimmtes Qualitätsmerkmal, so bedeutet die Unterschreitung eines vorgegebenen Sollwertes eine „schlechte“ Qualität und das Ausscheiden des untersuchten Merkmalsträgers. Die Überschreitung hingegen hat meistens keine negativen Folgen. Verspricht zum Beispiel der Hersteller einer Batterie eine Lebensdauer von „100 Lichtstunden“ für die Verwendung in einer bestimmten Taschenlampe, so testen wir die Nullhypothese H0 : µ ≥ 100 gegen die Alternativhypothese H A : µ < 100 (einseitiger Test) und nicht H0 : µ = 100 gegen H A : µ = 100 (zweiseitiger Test). Aus Konsumentensicht heißt ja „100 Lichtstunden“ mindestens 100 Stunden, wir sind aber mit 110 oder 130 Stunden auch zufrieden. Betrachten wir die Abfüllanlage einer Molkerei, die in jede Packung 1l Milch einfüllen soll, so wird der Konsument gegebenenfalls ebenfalls eine einseitige Fragestellung testen, die Molkerei hingegen wird einen zweiseitigen Test durchführen, weil aus ihrer Sicht auch eine Abweichung nach oben (zuviel Milch) negative Konsequenzen hat. Die möglichen Nullhypothesen und Alternativhypothesen für einseitige und zweiseitige Signifikanztests sind in Tab. 7.2 zusammengefasst. Es gibt im Übrigen auch statistische Tests, die Hypothesen und Alternativhypothesen der folgenden Form verwenden: H0 : µ = 4 gegen H A : µ = 5. Diese so genannten Alternativtests sind aber nicht Gegenstand unserer weiteren Betrachtungen. Fehler erster und zweiter Art Wir hoffen natürlich, dass wir uns mit unseren Stichproben ein gutes „Spiegelbild“ der Grundgesamtheit beschafft haben. Trotzdem: Egal wie unsere Entscheidung bezüglich
10 H A

wird manchmal auch als Arbeitshypothese bezeichnet.

100 H0 Θ = Θ0 Θ ≥ Θ0 Θ ≤ Θ0 HA Θ = Θ0 Θ < Θ0 Θ > Θ0

KAPITEL 7. INDUKTIVE STATISTIK
Art der Fragestellung zweiseitig einseitig einseitig

Tabelle 7.2: Nullhypothesen und Alternativhypothesen bei ein- bzw. zweiseitigen Signifikanztests

der Nullhypothese ausfällt, es verbleibt immer eine gewisse Unsicherheit. Diese Unsicherheit hängt vom Zufall ab, man kann ihr daher eine Wahrscheinlichkeit zuordnen. Wir sprechen von der Irrtumswahrscheinlichkeit α (auch: Signifikanzniveau): α ist die Wahrscheinlichkeit dafür, dass bei einem Signikanztest die Nullhypothese H0 abgelehnt wird, obwohl sie wahr ist. Wir nennen dies auch einen Fehler erster Art (siehe Tab. 7.3). Üblicherweise11 wählen wir für α = 0.05, 0.01 oder 0.001. Eine Irrtumswahrscheinlichkeit von α = 0.05 bedeutet: Wenn wir den Signifikanztest häufig durchführen, so werden wir in 5 von 100 Fällen die Hypothese irrtümlich ablehnen. Die Gegenwahrscheinlichkeit (1 − α) heißt auch Sicherheitswahrscheinlichkeit. Sie gibt an, mit welcher Wahrscheinlichkeit wir eine richtige Nullhypothese tatsächlich als solche erkennen und nicht ablehnen. Umgekehrt können wir aber den Fehler begehen, auch eine falsche Nullhypothese nicht abzulehnen. Dies nennen wir einen Fehler zweiter Art und ordnen ihm die Wahrscheinlichkeit β zu. Die Gegenwahrscheinlichkeit (1 − β) ist die „Macht des Testes“ (auch: Teststärke). Sie gibt an, mit welcher Wahrscheinlichkeit eine falsche Nullhypothese tatsächlich als solche entlarvt und abgelehnt wird. Es ist also die Wahrscheinlichkeit, einen Fehler zweiter Art zu verhindern. H0 ist richtig richtige Entscheidung P = (1 − α ) Fehler 1. Art P=α H0 ist falsch Fehler 2. Art P=β richtige Entscheidung P = (1 − β )

H0 annehmen H A verwerfen H0 verwerfen H A annehmen

Tabelle 7.3: Entscheidungsmöglichkeiten beim Signifikanztest

Ein „idealer“ Test wäre jener, der sowohl α als auch β minimiert, d.h. die Wahrscheinlichkeit, einen Fehler erster oder zweiter Art zu begehen, gleichzeitig gering hält (besser noch: gleich Null setzt). Leider ist dies nicht möglich. Ohne auf die genauen mathematisch-statistischen Zusammenhänge einzugehen müssen wir feststellen, dass eine Verkleinerung von α den Wert für β vergrößert und – wie wir an den nachfolgenden Formeln sehen werden – eine direkte Festlegung von β in den Standardverfahren gar nicht möglich ist. Im Allgemeinen trachtet man daher danach, α nicht kleiner als notwendig zu wählen, je nachdem welche Konsequenz ein Fehler 2. Art hat. α und β verringern sich übrigens beide gleichzeitig bei einer Vergrößerung des Stichprobenumfangs n.
11 1931 beschrieb Ronald Fisher (1890-1962) in seinem Buch The Design of Experiments, dass für viele wissenschafliche Experimente ein α von 0.05 („1 aus 20“) ein angemessener Wert für das Signifikanzniveau sei. Seitdem wurde dieser Wert von vielen Disziplinen ohne weiteres Hinterfragen übernommen. – Wir werden es ebenso tun...

7.3. TESTEN STATISTISCHER HYPOTHESEN
Testfunktion, Prüfgröße und Sicherheitsgrenzen

101

Für die Durchführung des Hypothesentests benötigen wir eine Testfunktion (auch: Stichprobenfunktion) und deren Verteilung unter der Annahme, dass H0 zutrifft. Es handelt sich dabei um eine Funktion T (X) der Stichprobenvariablen X. T (X) ist selbst auch wieder eine Zufallsgröße. Ihre Verteilung hängt von der Verteilung von X ab. Als Testfunktionen verwenden wir dieselben Funktionen, die wir bereits zur Bestimmung der Konfidenzintervalle verwendet haben. Wir werden weiter unten einige Testfunktionen angeben. Für eine konkrete Stichprobe können wir eine Realisierung t von T (X) bestimmen – die so genannte Prüfgröße. Mit dieser Prüfgröße sind wir nun in der Lage, die Nullhypothese zu beurteilen. Dazu müssen wir zuvor noch ein Intervall dergestalt bestimmen, dass T mit einer Wahrscheinlichkeit von (1 − α) in diesem Intervall enthalten ist. Die Grenzen dieses Intervalls – die Sicherheitsgrenzen (auch: Schwellwerte) – sind • bei zweiseitigem Test das (α/2) und das (1 − α/2)-Quantil • bei einseitigem Test das (1 − α) Quantil der entsprechenden Verteilung. Das Intervall, das zur Ablehnung von H0 führt, bezeichnen wir als kritischen Bereich. Annahme oder Verwerfen der Hypothese Liegt die Prüfgröße t innerhalb der Sicherheitsgrenzen, so wird die Nullhypothese H0 angenommen, weil ihr die vorliegenden Stichprobendaten nicht widersprechen. Liegt die Prüfgröße allerdings im kritischen Bereich, so verwerfen wir H0 und akzeptieren die Alternativhypothese H A .

Wie sehen nun die Tests für konkrete Parameter aus? Im Folgenden werden wir die wichtigsten Parameter, Mittelwert und Varianz, statistischen Tests unterziehen:

7.3.2

Prüfen des Mittelwerts bei bekannter Varianz („Gauß-Test“)

Wir wollen überprüfen, ob der unbekannte Erwartungswert µ einer normalverteilten Zufallsvariablen X einen bestimmten Wert µ = µ0 besitzt bzw. über- oder unterschreitet. µ0 kann zum Beispiel ein Sollwert bei der Herstellung eines Produkts sein. Dabei 2 gehen wir davon aus, dass die Varianz σ2 = σ0 bekannt sei. Als einfaches Beispiel können wir die machinelle Herstellung von Brotlaiben betrachten. Deren (in kg gemessene) 2 Masse X sei normalverteilt. Die Varianz σ0 = 0.12 sei aus der Erfahrung bekannt. Das angegebene Verkaufsgewicht des Brotes sei µ = 2 kg. Eine Konsumentenschutzorganisation zieht nun eine Stichprobe von n = 20 Brotlaiben und stellt einen Stichprobenmit¯ telwert von x = 1.97 kg fest. Es soll nun überprüft werden, ob diese Stichprobe gegen die Hypothese spricht, dass die Brote der Grundgesamtheit mindestens 2 kg wiegen. Zunächst ist eine Nullhypothese festzulegen: • Für eine zweiseitige Fragestellung lautet die Nullhypothese H0 : µ = µ0 • Für die einseitige Fragestellung lautet die Nullhypothese H0 : µ ≤ µ0

102 oder

KAPITEL 7. INDUKTIVE STATISTIK

je nachdem, welche Richtung für uns interessant ist. Im konkreten Beispiel geht es um eine einseitige Fragestellung und wir wählen als Nullhypothese und Alternativhypothese: HA : µ < 2 Anschließend ist ein Signifikanzniveau festzulegen. Wir werden den üblichen Wert von α = 0.05 wählen. Als Testfunktion ziehen wir die folgende Funktion heran (siehe auch Formel (7.14): T (X) = ¯ X − µ0 √ n σ0 (7.36) H0 : µ ≥ 2

H0 : µ ≥ µ0

Aus der Realisierung der Stichprobe unseres Beispiels können wir dann die konkrete Prüfgröße angeben: ¯ 1.97 − 2 √ x − µ0 √ n= 20 = −1.34 t= σ0 0.1 Nun bestimmen wir den kritischen Bereich: Für eine zweiseitige Fragestellung sind die Sicherheitsgrenzen durch das (α/2) und das (1 − α/2)-Quantil der Normalverteilung gegeben. Der kritische Bereich sind also die beiden Intervalle [−∞, −z(1−α/2) ] ∨ [z(1−α/2) , ∞] (7.37) Bei einseitiger Fragestellung erhalten wir als kritischen Bereich im Fall H0 : µ ≤ µ0 das Intervall [ z (1− α ) , ∞ ] (7.38)

Im Fall H0 : µ ≥ µ0 ist der kritische Bereich das Intervall

Nun können wir eine Entscheidung treffen: Die Nullhypothese wird abgelehnt, falls die Testgröße im kritischen Bereich liegt, andernfalls wird H0 akzeptiert. H0 µ = µ0 µ ≥ µ0 µ ≤ µ0 HA µ = µ0 µ < µ0 µ > µ0 Prüfgröße |t| > z(1−α/2) |t| ≤ z(1−α/2) t < − z (1− α ) t ≥ − z (1− α ) t > z (1− α ) t ≤ z (1− α ) Entscheidung H0 ablehnen, H A akzeptieren H0 akzeptieren, H A ablehnen H0 ablehnen, H A akzeptieren H0 akzeptieren, H A ablehnen H0 ablehnen, H A akzeptieren H0 akzeptieren, H A ablehnen

[−∞, −z(1−α) ]

(7.39)

Tabelle 7.4: Mögliche Ergebnisse eines Gauß-Tests

In unserem Beispiel wird H0 nicht abgelehnt, da t = −1.34, z0.05 = −1.64 und somit t > z0.05 . Das bedeutet: Die in der Stichprobe beobachtete mittlere Masse von 1.97 ist zwar kleiner als der Sollwert 2 kg, diese Abweichung ist allerdings statistisch nicht signifikant sondern vermutlich zufällig bedingt. Die Wahrscheinlichkeit, aus einer Grundgesamtheit mit µ = 2 und σ2 = 0.12 eine Stichprobe mit einem Mittelwert von höchstens 1.97 zu erhalten, ist größer als 5%. Es gibt daher – aus Sicht der Statistik – keinen Grund, das angegebene Verkaufsgewicht von 2 kg zu beanstanden.

7.3. TESTEN STATISTISCHER HYPOTHESEN

103

7.3.3

Prüfen des Mittelwertes bei unbekannter Varianz („T-Test“)
¯ X − µ0 √ n S

Wenn – wie in der Praxis üblich – die Varianz σ2 unbekannt ist, lautet die Testfunktion T (X) = (7.40)

(siehe auch Formel (7.17). Unter H0 besitzt diese Funktion eine t-Verteilung mit (n − 1) Freiheitsgraden. Als Sicherheitsgrenzen gelten daher die Quantile der t-Verteilung. Die H0 µ = µ0 µ ≥ µ0 µ ≤ µ0 HA µ = µ0 µ < µ0 µ > µ0 Prüfgröße |t| > t(n−1;1−α/2) |t| ≤ t(n−1;1−α/2) t < −t(n−1;1−α) t ≥ −t(n−1;1−α) t > t(n−1;1−α) t ≤ t(n−1;1−α) Entscheidung H0 ablehnen, H A akzeptieren H0 akzeptieren, H A ablehnen H0 ablehnen, H A akzeptieren H0 akzeptieren, H A ablehnen H0 ablehnen, H A akzeptieren H0 akzeptieren, H A ablehnen

Tabelle 7.5: Mögliche Ergebnisse eines T-Tests

Vorgangsweise ist dieselbe wie beim Gauss-Test: Wir bestimmen aus der Testfunktion (7.40) die Prüfgröße und vergleichen nach Tabelle 7.5, ob wir im kritischen Bereich sind oder nicht.

7.3.4

Prüfen der Varianz („Chiquadrat-Test“)
T (X) =

Als Testfunktion ziehen wir

( n − 1) S2 2 σ0

(7.41)

heran (siehe auch Formel (7.18). Diese Testfunktion besitzt unter H0 eine χ2 -Verteilung mit (n − 1) Freiheitsgraden. Die Chiquadrat-Verteilung ist bekanntlich keine symmetrische Verteilung. Daher ist auch der kritische Bereich bei zweiseitiger Fragestellung nicht symmetrisch. Zur Ablehnung der Nullhypothese führt ein zu kleiner oder zu großer Wert der Prüfgröße, also wenn wir entweder im Bereich [0, c(n−1;a/2) ] oder im Bereich [c(n−1;1−a/2) , ∞] liegen. c ist dabei das (α/2) bzw. (1 − α/2)-Quantil der χ2 -Verteilung mit n − 1 Freiheitsgraden. H0 2 = σ0 HA 2 = σ0 Prüfgröße t ≤ c(n−1;α/2) oder t ≥ c(n−1;1−α/2) c(n−1;α/2) < t < c(n−1;1−α/2) t < c(n−1;α) t ≥ c(n−1;α) Entscheidung H0 ablehnen, H A akzeptieren H0 akzeptieren, H A ablehnen H0 ablehnen, H A akzeptieren H0 akzeptieren, H A ablehnen H0 ablehnen, H A akzeptieren H0 akzeptieren, H A ablehnen

σ2

σ2

σ2

2 σ0

σ2

<

2 σ0

2 σ2 ≤ σ0

2 σ2 > σ0

t > c(n−1;1−α) t ≤ c(n−1;1−α)

Tabelle 7.6: Mögliche Ergebnisse eines Chiquadrat-Tests

104

KAPITEL 7. INDUKTIVE STATISTIK

7.3.5

Prüfen der Gleichheit zweier Varianzen („F-Test“)

Wir wollen zwei normalverteilte Zufallsgrößen hinsichtlich ihrer Variabilität testen, also feststellen, ob sie dieselbe Varianz haben. Die Testfunktion ist dann der Quotient der beiden Stichprobenvarianzen: S2 (7.42) T (X, Y) = X 2 SY Sie ist unter der Nullhypothese F-verteilt mit (n1 − 1) und (n2 − 1) Freiheitsgraden. Je
2 σX

H0 2 = σY

2 σX

HA 2 = σY

Prüfgröße t > f (n1 −1;n2 −1;1−α/2) oder t < f (n1 −1;n2 −1;α/2) f (n1 −1;n2 −1;α/2) < t < f (n1 −1;n2 −1;1−α/2) t > f (n1 −1;n2 −1;1−α) t ≤ f (n1 −1;n2 −1;1−α)

2 2 σX ≤ σY

2 2 σX > σY

Entscheidung H0 ablehnen, H A akzeptieren H0 akzeptieren, H A ablehnen H0 ablehnen, H A akzeptieren H0 akzeptieren, H A ablehnen

Tabelle 7.7: Mögliche Ergebnisse eines F-Tests

nach der aus den Stichprobendaten erhaltenen Prüfgröße entscheiden wir nach Tab.7.7, die Nullhypothese oder die Alternativhypothese zu akzeptieren und die jeweils andere abzulehnen. Ist die Prüfgröße also größer als der theoretische Wert, dann gilt (mit einer Wahrscheinlichkeit von 1 − α): Die Varianz der einen Stichprobe unterscheidet sich von der Varianz der anderen Stichprobe signifikant. Andernfalls sind die empirisch erhaltenen Varianzen der Stichproben rein zufällig voneinander verschieden.

7.3.6

Prüfen der Gleichheit zweier Mittelwerte bei bekannter Varianz („doppelter Gauß-Test“)

Wir betrachten zwei normalverteilte Zufallsvariablen X und Y. • bei zweiseitiger Fragestellung testen wir die Nullhypothese H0 : µ X = µY gegen H A : µ X = µY • bei einseitiger Fragestellung H0 : µ X ≥ µY gegen H A : µ X < µY oder H0 : µ X ≤ µY gegen H A : µ X > µY Trifft die Nullhypothese zu, so ist die Testfunktion T ( X, Y ) = ¯ ¯ X−Y

2 2 n2 σX + n1 σY

n1 · n2

(7.43)

standardnormalverteilt. Der Test selbst läuft analog zum einfachen Gaußtest.

7.3.7

Prüfen der Gleichheit zweier Mittelwerte bei unbekannten aber gleichen Varianzen („doppelter T-Test“)

Ausgangspunkt sind wieder die beiden Zufallsvariablen X und Y wie oben, nur sind die beiden Varianzen unbekannt. Wir gehen aber davon aus, dass sie gleich sind. Dann

7.3. TESTEN STATISTISCHER HYPOTHESEN
können wir eine „gemeinsame“ Varianz beider Stichproben angeben S2 =
2 (n1 − 1)S2 + (n2 − 1)SY X n1 + n2 − 2

105

(7.44)

die wir in folgende Testfunktion einsetzen können: T (X, Y) = ¯ ¯ X−Y S

n1 · n2 n1 + n2

(7.45)

Diese Testfunktion folgt unter H0 einer Student-Verteilung mit (n1 + n2 − 2) Freiheitsgraden. Der Test läuft in weiterer Folge analog zum einfachen T-Test. Es gibt auch einen Hypothesentest für die Gleichheit der Mittelwerte zweier Zufallsvariablen, wenn die Varianzen unbekannt sind und die Voraussetzung der Gleichheit nicht gegeben ist. Dieser Test, sowie einige weitere (zum Beispiel die Prüfung des Korrelationskoeffizienten) sind aber nicht mehr Gegenstand der vorliegenden Lehrveranstaltung. Bsp. 7.1 Studie beweist: Unsere Schüler werden immer intelligenter (?) Eine aktuelle Studie des Unterrichtsministeriums bescheinigt den Jugendlichen an Österreichs Allgemeinbildenden Höheren Schulen (AHS), den Berufsbildenden Höheren Schulen (BHS) und den Mittleren Schulen tolle Leistungen. 15 Prozent der diesjährigen Zeugnisempfänger können dort auf den Vermerk „Ausgezeichneter Erfolg“ stolz sein. Das sind immerhin 50.000 Sprösslinge, knapp 3.000 oder ein Prozent mehr als im vergangenen Jahr. Gleichzeitig ging die Zahl der Klassenwiederholungen bundesweit zurück, was Ministerin Elisabeth Gehrer auf die Einführung des Frühwarnsystems zurückführt. An den AHS sank die Sitzenbleiberquote um zwei Prozent, an den BHS um 3,8 Prozent – und das trotz steigender Schülerzahlen. In Österreichs Volksschulen müssen nur noch 0,6 Prozent der wiederholen (2004: ein Prozent), an den Hauptschulen ging die Quote von 2,3 auf 1,4 Prozent zurück. Was wird hier „bewiesen“? Worin liegt der Fehlschluss der Ministerin?
(Quelle: Heute, 15.Juli 2005, Nr.217, p.5; Anm.: Das Fragezeichen in der Überschrift fehlt im Originalbeitrag)

7.3.8

Wichtiger Hinweis

Abschließend sei noch auf die richtige Reihenfolge beim Hypothesentest verwiesen: 1. Man stellt eine bestimmte Nullhypothese und Alternativhypothese auf 2. Man gibt das Signifikanzniveau vor und bestimmt damit einen Ablehnungsbereich 3. Danach wird die Stichprobe gezogen 4. Dann wird der Hypothesentest durchgeführt und entweder die Nullhypothese oder die Alternativhypothese angenommen Völlig unzulässig ist es, zuerst die Stichprobe zu ziehen, in den Stichprobendaten dann verschiedene Hypothesen auszuprobieren – womöglich unter mehrfacher, abwechslungsreicher Wahl von α , und dann diejenige auszuwählen, die am Besten zu meinen Daten „passt“. Statistische Tests dürfen nie so ablaufen, dass die eigentliche Fragestellung erst nach der Beobachtung der Stichprobe aufgestellt wird!

106

KAPITEL 7. INDUKTIVE STATISTIK

7.4 Englische Begriffe
Alternativhypothese - alternative hypothesis einseitiger Test - upper-tailed/lower-tailed or one-sided test Erwartungstreue - unbiasedness Fehler 1. (2.) Art - type I (II) error Freiheitsgrade - degrees of freedom H0 zugunsten von H A verwerfen - to reject H0 in favour of H A Konfidenzintervall - confidence interval Konfidenzniveau - confidence level Macht des Tests - power of test Nullhypothese - null hypothesis Punktschätzer - point estimate Prüfgröße - value of the test statistic Sicherheitsgrenzen - critical values Signifikanzniveau - level of significance Standardfehler - standard error Testfunktion - test statistic zweiseitiger Test - two-tailed or two sided test

Damit ist die Vorlesung „Grundlagen der Statistik“ zu Ende. Das Feld der Statistik ist sehr weit und seine Anwendungen in der Informationstechnik und (geographischen) Datenverarbeitung vielfältig. Im Rahmen der Vorlesung konnten nur einige Teilaspekte daraus besprochen werden. Manchmal waren es nur „Andeutungen“ über Themen, die eine gewisse Bedeutung in unserer Disziplin erlangt haben. Bei Interesse oder beruflicher Notwendigkeit werden sie den Einstieg in das jeweilige Thema hoffentlich erleichtern und für eine intensivere Beschäftigung zumindest homöopathische Spuren von Grundlagenwissen hinterlassen. Für Ihr Berufsleben vielleicht noch ein kleiner Hinweis: Die meisten Menschen verstehen noch weniger von Statistik als Sie! Verwenden Sie in der Argumentation daher nie tiefergehende Konzepte als arithmetische Mittelwerte. Abschließend noch eine kleines statistisches Beispiel: Finnische Wissenschafter haben herausgefunden, warum es den Weihnachtsmann nicht geben kann: Niemand sei kräftig genug, um in 31 Stunden (Zeitverschiebung mit eingerechnet) 189 Millionen Kilo schwere Geschenke an 308 Millionen christliche Kinder in 108 Millionen Haushalten verteilen zu können. Um dies bewältigen zu können, müsste der Mann 135.000 sehr muskulöse Rentiere im Stall haben. Jedes von ihnen müsste in der Lage sein, einen etwa eineinhalb Tonnen schweren Schlitten mit einer Geschwindigkeit von 1.040 Kilometern pro Sekunde ziehen zu können. Mit den 140 Millionen zu bewältigenden Kilometern vor sich, hätte der Weihnachtsmann genau eine Tausendstel Sekunde, um jeweils im Schornstein zu verschwinden, die Geschenke vor dem Baum abzulegen, und wieder auf seinen Schlitten zu gelangen. Ganz ehrlich: Kann sich das ausgehen? Damit wünsche ich schöne Weihnachten und für den Rest des Studiums: Viel Erfolg! Martin Staudinger, 17.12.2007

Anhang A

Matrizenrechnung
Das Erlernen und die Anwendung statistischer Methoden setzen voraus, dass wir uns einige mathematischen Werkzeuge in Erinnerung rufen. Dazu gehören Grundkenntnisse aus der Linearen Algebra, im Speziellen auch die Verwendung der Matrizenrechnung zur Auflösung linearer Gleichungssysteme.

A.1 Lineare Algebra
Die lineare Algebra beschäftigt sich mit Lösungsmethoden linearer Gleichungen und Gleichungssysteme wie z.B. das folgende: 8x1 + 1x2 + 6x3 = 15 3x1 + 5x2 + 7x3 = 15 4x1 + 9x2 + 2x3 = 15 oder etwas allgemeiner ausgedrückt: a11 x1 + a12 x2 + a13 x3 = b1 a21 x1 + a22 x2 + a23 x3 = b2 a31 x1 + a32 x2 + a33 x3 = b3 (A.2) (A.1)

mit den Koeffizienten a11 bis a33 , den Unbekannten x1 bis x3 und den Konstanten („rechte Seite“) b1 bis b3 . Lineare Gleichungssysteme zeichnen sich dadurch aus, dass in ihnen – wie in obigem Beispiel – die Unbekannten nur in der Potenz 0 oder 1 vorkommen. Ist mindestens ein bi auf der rechten Seite von Null verschieden, so heißt das Gleichungssystem inhomogen, im anderen Fall homogen. Obiges Gleichungssystem besteht aus 3 Gleichungen in 3 Unbekannten und ist – unter bestimmten Voraussetzungen – eindeutig lösbar. Lineare Gleichungssysteme mit mehr Gleichungen als Unbekannten sind hingegen überbestimmt; solche mit mehr Unbekannten als Gleichungen unterbestimmt. Das Wort „Algebra“ (das im Übrigen im Deutschen auf der ersten Silbe betont wird, im Österreichischen hingegen oft auf der zweiten) kommt aus dem Arabischen. Wörtlich übersetzt heißt es „Wiederherstellung“: Eines der ersten algebraischen Lehrbücher hieß Hisab al-gabr w’al-muqabala – „Wiederherstellen und Zusammenführen“. Es wurde um 800 von Abu Ja’far Muhammad ibn Musa Al-Chwarismi geschrieben und beschreibt das Auflösen von Gleichungen. Al-Chwarismi’s Buch über Algebra verdanken wir übrigens nicht nur das Wort „Algebra“ selbst. Als sein Buch ins Lateinische übersetzt wurde, wurde Al-Chwarismi zu „Algoritmi“ – unser Wort „Algorithmus“ kommt davon.

A-1

A-2

ANHANG A. MATRIZENRECHNUNG

In weiterer Folge war „Algebra“ die Bezeichnung für die Lehre vom „Auflösen von Gleichungssystemen und Ungleichungssystemen“. Die klassische Algebra beschränkte sich dabei auf die elementaren Operationen Addition, Subtraktion, Multiplikation, Division, das Potenzieren und das Radizieren1 . Nicht-algebraische Gleichungen sind in dieser Diktion Exponenzialgleichungen, Logarithmusgleichungen und trigonometrische (goniometrische) Gleichungen, also Gleichungen die z.B. Ausdrücke wie e x , lg x oder sin x enthalten. Sie werden auch als transzendente Gleichungen bezeichnet. Heute beschäftigt sich die moderne Algebra nicht nur mit Gleichungssystemen und elementaren Operationen zu ihrer Auflösung, sondern generell und sehr formal mit den Beziehungen mathematischer Größen untereinander, ihren Strukturen, Regeln und Operationen. Die lineare Algebra befasst sie sich dabei speziell mit dem n-dimensionalen Vektorraum und mit linearen Transformationen in ihm. Neben dieser Bedeutung des Wortes „Algebra“ als ein Teilgebiet der Mathematik wird auch eine mathematische Struktur, wenn sie bestimmte Eigenschaften erfüllt, als eine Algebra bezeichnet. Diese Eigenschaften betreffen unter anderem Assoziativ-, Kommutativ- und Distributivgesetz, sowie das Vorhandensein eines neutralen und eines inversen Elements. Unter diesen Gesichtspunkten können wir auch die Menge der Matrizen und ihrer Operationen als eine Algebra bezeichnen. Als praktisches Werkzeug der linearen Algebra steht uns unter anderem die Matrizenrechnung zur Verfügung. Viele der Berechnungsschemata und Algorithmen können in Matrizenschreibweise angegeben werden und in der Matrizenrechnung sehr einfach gelöst werden.

A.2 Matrizenalgebra
A.2.1 Definitionen
Eine (m,n)-Matrix ist eine (im Allgemeinen: rechteckige) Anordnung von m × n Elementen in m Zeilen und n Spalten:   a11 a12 · · · a1n  a21 a22 · · · a2n    ( aik ) :=  . (A.3) .  = m An . .. . .  .  . . . . am1 am2

···

amn

Die Elemente einer Matrix können Variable, Zahlen ∈ C (oder Untermengen davon, also N, Z, Q oder R), Polynome, Differenziale, sonstige Operatoren (Funktionen) und Symbole aber auch selbst wieder Matrizen sein. Wenn nicht anders angegeben, werden die von uns betrachteten Matrizen immer reelle Zahlen als Elemente enthalten, oder Variable, die für reelle Zahlen stehen. Die Anzahl der Zeilen und Spalten definieren den Typ (auch: Dimension oder Größe) der Matrix. Eine Matrix mit der gleichen Anzahl von Zeilen und Spalten ist eine quadratische Matrix (genauer: eine n-reihige quadratische Matrix); andernfalls sprechen wir von einer rechteckigen Matrix. Eine (m × 1)-Matrix ist ein Spaltenvektor und eine (1 × n)Matrix ein Zeilenvektor. Skalare, also „einzelne“ Zahlen, können – mit bestimmten Einschränkungen – als (1 × 1)-Matrizen aufgefasst werden. Innerhalb einer Matrix können wir die einzelnen Elemente über ihren Index ansprechen: Der Zeilenindex gibt die Zeile und der Spaltenindex die Spalte an, wo wir das Element finden. Üblicherweise werden zuerst der Zeilen- und dann der Spaltenindex angegeben. a23 ist demnach das Element in der zweiten Zeile und dritten Spalte.
1 Wurzelziehen

A.2. MATRIZENALGEBRA

A-3

Abb. A.1 „Die Melancholie“ von Albrecht Dürer zeigt rechts oben die Darstellung einer Matrix (siehe auch vergrößerten Ausschnitt). Die Matrix enthält ein so genanntes „magisches Quadrat“.

Historische Anmerkung Der Kupferstich „Die Melancholie“ (Melencolia I) von Albrecht Dürer zeigt bereits im Jahre 1514 die Darstellung einer Matrix (siehe Abb.A.1). Die Matrix enthält nicht nur in der letzten Zeile das Entstehungsjahr des Werkes (1514), sondern auch Zahlen, die – nach Meinung von Astrologen – angeblich den Planeten Jupiter repräsentieren und somit dem „schädlichen“ Einfluss des Saturns (repräsentiert durch andere Symbole auf dem Bild) entgegenwirken. Interessant ist auch, dass es sich bei der matrizenhaften Anordnung der Zahlen um ein so genanntes „magisches Quadrat“ handelt: die Summe der Zahlen in jeder Zeile, in jeder Spalte und in jeder der beiden Diagonalen (von links oben nach rechts unten von links unten nach rechts oben), ergibt jeweils denselben festen Wert (hier: 34). Die Matrix A in der Gleichung (A.5) enthält übrigens auch ein magisches Quadrat (und zwar mit der Summe 15).

Darstellung von Gleichungssystemen durch Matrizen Wir können nun das Gleichungssystem (A.1) mit Hilfe der Matrizenrechnung ausdrücken als Ax = b (A.4)

mit der quadratischen Koeffizientenmatrix A, dem Konstantenvektor b und dem Unbekanntenvektor x, jeweils mit den konkreten Elementen wie in Gleichung (A.5) angegeben. Im Unbekanntenvektor stehen zunächst Variable für die Lösungen des Gleichungssystems. Ziel ist es, einen oder mehrere Lösungsvektoren x zu finden, der an Stelle der Variablen

A-4

ANHANG A. MATRIZENRECHNUNG

Die Verwendung runder oder eckiger Klammern für Matrizen ist übrigens beliebig. Wir werden für Matrizen mit Zahlen meist eckige, sonst runde Klammern verwenden. Der besseren Lesbarkeit wegen werden wir außerdem blockweise auftretende Nullen in Matrizen meistens nicht ausschreiben, also zum Beispiel     4 1 4 0 1 0        0 5 2 0  5 2     M= an Stelle von M=      0 0 6 0  6     3 8 0 0 3 8 Submatrizen In einer (m, n)-Matrix kann man jeden (p, q)-Block von Elementen mit p ≤ m und n ≤ q selbst wieder als Matrix auffassen. Dieser (rechteckige oder quadratische) Block ist eine Submatrix der Ausgangsmatrix. Wir können z.B. die Matrix A aus (A.5) zerlegen in   6 8 1 P q 7 = A= 3 5 r s 4 9 2 8 1 3 5 6 7

reelle Zahlen enthält, sodass die Gleichung (A.4) erfüllt ist.      x1 15 8 1 6       x2  15   3 5 7  x= b= A=   x3 15 4 9 2

   

(A.5)

wobei als Submatrizen die Matrix P, der Spaltenvektor q, der Zeilenvektor r sowie die (1,1)-Matrix s auftreten, mit P= q= r= 4 9 s = [2]

Weitere Eigenschaften und Begriffe Die Hauptdiagonale einer (m, n)-Matrix sind jene Elemente, die gleichen Zeilen- und Spaltenindex haben. Das sind die Elemente a11 , a22 , . . . amm für eine Matrix mit m ≤ n bzw. die Elemente a11 , a22 , . . . ann für eine Matrix mit m ≥ n. Für eine quadratische Matrix sind dies also alle Elemente vom linken oberen bis zum rechten unteren Eck. Eine Diagonalmatrix ist eine Matrix, bei der die Hauptdiagonale mit mindestens einem Element = 0 besetzt ist, alle Elemente außerhalb der Hauptdiagonalen hingegen = 0 sind: aij = 0 ∀ i = j (A.6)

Eine Dreiecksmatrix ist eine quadratische Matrix, deren Elemente unter- oder oberhalb der Hauptdiagonale alle Null sind. Genauer spricht man von einer oberen Dreiecksmatrix wenn nur die Hauptdiagonale und Elemente oberhalb von ihr belegt sind: aij = 0 bzw. von einer unteren Dreiecksmatrix wenn nur die Hauptdiagonale und Elemente unterhalb von ihr belegt sind: aij = 0 ∀ i < j (A.8) Eine quadratische Matrix ist symmetrisch wenn aij = a ji

∀i > j

(A.7)

∀i, j ∈ {1 . . . n}

(A.9)

A.2. MATRIZENALGEBRA

A-5

A.2.2

Matrizenoperationen

Gleichheit von Matrizen Zwei Matrizen A und B sind gleich, wenn sie vom gleichem Typ sind und die entsprechenden Elemente in beiden Matrizen gleich sind, d.h. aij = bij Transposition Die einfachste Matrizenoperation ist die Transposition. Sie wird auf eine einzelne Matrix angewendet und bedeutet nichts anderes als ein „Stürzen“ der Matrix: Reihen und Spalten tauschen ihre Funktionen, Reihen werden zu Spalten und vice versa. Die so entstandene transponierte Matrix erhält die Bezeichnung AT (wenn A die Ausgangsmatrix war), manchmal auch A’.

∀i ∈ {1 . . . m }, j ∈ {1 . . . n }

(A.10)

( aT ) := ( aij ) ∀ i ∈ {1 . . . m}, j ∈ {1 . . . n} ji

(A.11)

Elementweise betrachtet kann man auch sagen: Die transponierte Matrix entsteht durch Vertauschen der Indizes der Elemente der Ausgangsmatrix. Wir werden die Transposition verwenden, um formal zwischen einem Spalten- und einem Zeilenvektor zu unterscheiden: Nachdem in der Vektorrechnung ein Vektor x üblicherweise ein Spaltenvektoren ist, werden wir einen Zeilenvektor mit xT bezeichnen. Mit Hilfe der Transposition können wir auch die Definitionen (A.9) über symmetrische Matrizen neu formulieren: Eine Matrix ist symmetrisch wenn gilt: A = AT Addition und Subtraktion Die Addition und Subtraktion von Matrizen ist definiert als Addition (Subtraktion) der jeweiligen Elemente der beiden Matrizen: A ± B = ( aik ) ± (bik ) := ( aik ± bik )     a11 ± b11 b11 · · · b1n   . . . = . . .   ± . . . bm1 (A.13)  (A.12)

  

a11 . . . am1

··· ···

a1n . . . amn

··· ···

Formal genügen Matrixaddition und -subtraktion den bekannten Rechenregeln der Addition (Subtraktion) reeller Zahlen, mit der Einschränkung dass sie offensichtlich nur für Matrizen desselben Typs definiert sind. Die Matrizenaddition ist assoziativ, d.h.

···

bmn

am1 ± bm1

a1n ± b1n  . .  . amn ± bmn

(A + B) + C = A + (B + C)
und kommutativ: A+B = B+A

(A.14) (A.15)

Müssen wir die Summe zweier Matrizen transponieren, so können wir auch summandenweise vorgehen: ( A + B )T = AT + BT (A.16)

A-6 Nullmatrix

ANHANG A. MATRIZENRECHNUNG

Die Nullmatrix 0 ist eine Matrix, die als Elemente ausschließlich Nullen enthält. Sie ist das neutrale Element der Matrizenaddition: Die Addition einer beliebigen Matrix zur Nullmatrix (oder umgekehrt) ergibt wieder die Ausgangsmatrix: A+0 = 0+A = A Multiplikation einer Matrix mit einem Skalar Die Multiplikation einer Matrix mit einem Skalar α ist definiert als α · A = α · ( aik ) := (α · aik )   α · a11 · · · · · · a1n . . = . .   . . amn α · am1 (A.18) α · a1n  . .  . α · amn  (A.17)

d.h. jedes Element aus A wird mit α multipliziert. Umgekehrt kann man auch aus jeder Matrix einen allen Elementen gemeinsamen sklaren Faktor herausheben. Die Multiplikation einer Matrix mit einem Skalar ist kommutativ und assoziativ. Für die Multiplikation einer Matrix mit einem Skalar und die Matrizenaddition gilt auch das Distributivgesetz: αA = Aα (A.19) α( βA) = (αβ)A (A.20) (A.21) (A.22)

 α·

a11 . . . am1

···

···

(α + β)A = αA + βA
α(A + B) = αA + αB Matrizenmultiplikation Die Multiplikation zweier Matrizen ist definiert als A · B = ( aik ) · (bkj ) :=

k =1

∑ aik · bkj

n

= ai · b j

(A.23)

d.h. das Produkt AB einer (m,n)-Matrix A mit einer (n,p)-Matrix B ist die (m,p)-Matrix C = AB, deren Elemente cij als skalares Produkt der i-ten Zeile von A (des Zeilenvektors ai ) mit der j-ten Spalte von B (dem Spaltenvektor b j ) gebildet werden. Es ist offensichtlich, dass Matrizen nur dann miteinander multipliziert werden können, wenn die Spaltenzahl der ersten Matrix gleich der Zeilenzahl der zweiten Matrix ist. Das Matrizenprodukt ist nicht kommutativ, d.h. im Allgemeinen sind AB und BA verschiedene Matrizen (sofern sie überhaupt auf beide Arten verknüpfbar sind). Insbesondere hat man bei einer Matrizengleichung stets beide Seiten in gleicher Weise mit einer Matrix zu multiplizieren: entweder beide Seiten „von rechts“ oder beide Seiten „von links“. Die Matrizenmultiplikation ist aber assoziativ, d.h.

(AB) C = A (BC)
Für Matrizenaddition und -multiplikation gilt das Distributivgesetz, d.h. A (B + C) = AB + AC

(A.24)

(A.25) (A.26)

(A + B)C = AC + BC

A.2. MATRIZENALGEBRA
Einheitsmatrix

A-7

Das neutrale Element der Matrizenmultiplikation ist die Einheitsmatrix I (das I entspricht dabei dem englischen Namen Identity matrix; manchmal wird im Deutschen auch die Bezeichnung E verwendet). I ist eine quadratische Diagonalmatrix mit Iik = δik wobei δik für das Kroneckersymbol steht2 : δik = 1 0 für i = k für i = k (A.28) (A.27)

Die Multiplikation mit der Einheitsmatrix ist kommutativ und es gilt: IA = AI = A (A.29)

Mithilfe der Einheitsmatrix können wir die Skalarmultiplikation erneut definieren: α · A = (α · I) · A (A.30)

Die Multiplikation mit einem Skalar kann also auch durch eine Matrixmultiplikation mit einer Diagonalmatrix, deren Elemente auf der Hauptdiagonalen diesem Skalar entsprechen, erfolgen. Transponieren von Matrizenprodukten Wird ein Matrizenprodukt transponiert, so kann man stattdessen auch zuerst jede Matrix transponieren und die Multiplikation dann in umgekehrter Reihenfolge durchführen: ( A · B · C · . . . · Z )T = ZT · . . . CT · BT · AT (A.31) Rechnen mit Submatrizen Elementare Matrizenoperationen wie Addition, Subtraktion und Multiplikation können auch durchgeführt werden, wenn die Elemente der einzelnen Matrizen selbst wieder Matrizen (Submatrizen) sind. Dabei ist natürlich besonders darauf zu achten, dass die Dimensionen der Submatrizen miteinander korrespondieren („Dimension“ einer Matrix ist hier sowohl im Sinne von „Anzahl der Zeilen mal Anzahl der Spalten“ zu verstehen als auch im Sinne der physikalischen Einheiten der einzelnen Elemente). Die Gauß’sche Transformation Unter der Gauß’scher Transformation3 einer (m, n)-Matrix A versteht man die Bildung des Produktes N = AT A (A.32) d.h. man multipliziert eine Matrix von links mit ihrer Transponierten. Das Ergebnis ist eine quadratische, symmetrische (n, n)-Matrix, hier bezeichnet mit N. Die Elemente der Produktmatrix N sind dabei die skalaren Produkte des i-ten mit dem k-ten Spaltenvektor von A.
2 benannt 3 nach

nach dem preußischen Mathematiker Leopold Kronecker, 1823-1891 Johann Friedrich Carl Gauß, deutscher Mathematiker und Geodät, 1777 - 1855

A-8

ANHANG A. MATRIZENRECHNUNG

Abb. A.2 Falk’sches Schema zur Matrizenmultiplikation

p D n n B C C=AB B A
Das Falk’sche Schema Manchmal wird man nicht umhin kommen, zwei oder mehrere Matrizen „von Hand“ zu multiplizieren (z.B. wenn die einzelnen Elemente nicht numerische Zahlen sondern Variablen oder Submatrizen sind). Dann ist eine von Falk4 vorgeschlagene Anordnung nützlich, bei der jedes Produktelement cik genau im Kreuzungspunkt der i-ten Zeile von A mit der k-ten Spalte von B erscheint (Abb. A.2). Die Falk’sche Anordnung empfiehlt sich insbesondere bei Produkten aus mehr als zwei Faktoren (z.B. ABCD). Baut man das Schema dabei von oben nach unten auf (s. Abb. A.2), so muss man die Rechnung mit dem letzten Faktor beginnen und „von hinten nach vorne“ multiplizieren. Inversion Als inverse Matrix oder Kehrmatrix einer quadratischen Matrix A bezeichnet man die Matrix A−1 , für die gilt: A A −1 = A −1 A = I (A.33) Es können nur Matrizen invertiert werden, die quadratisch sind und noch andere Eigenschaften haben, auf die wir hier aber nicht weiter eingehen wollen. Auch den Lösungsweg zur Berechnung der Inversen werden wir hier nicht weiter behandeln. Wir gehen davon aus, dass wir Rechenprogramme verwenden, die Matrizen invertieren können.

CD BCD ABCD

m

A

A.2.3

Auflösung von Gleichungssystemen mit Matrizen

Gleichungssysteme können mit Hilfe der Multiplikation, Inversion und Gauß’schen Transformation gelöst werden. Gegeben ist z.B. ein Gleichungssystem in der Form (A.4). Zur Berechnung des unbekannten Vektors x kann auf beiden Seiten der Gleichung mit A−1 multipliziert werden A−1 Ax = A−1 b (A.34) und da A−1 A = I folgt daraus:
4 Sigurd

x = A −1 b

(A.35)

Falk

A.3. MATRIZENRECHNUNG MIT MICROSOFT EXCEL

A-9

Die Auflösung dieser Gleichung setzt voraus, dass die einzelnen Matrizen in der angegebenen Form überhaupt miteinander verknüpfbar sind, also: • Anzahl der Zeilen in A = Anzahl der Elemente in b und • Anzahl der Spalten in A = Anzahl der Elemente in x Außerdem muss die Matrix A invertierbar sein. Das Gleichungssystem ist dann eindeutig lösbar. Wir werden es andererseits manchmal auch mit überbestimmten Gleichungssystemen zu tun haben, d.h. die Matrix A wird nicht quadratisch sein („mehr Gleichungen als Unbekannte“) und somit nicht invertierbar. Das Gleichungssystem muss also anders gelöst werden. Ohne auf die näheren Hintergründe einzugehen, wenden wir folgenden „Trick“ an: Wir unterwerfen das Gleichungssystem einer Gauß’schen Transformation, d.h. multiplizieren auf beiden Seiten mit AT : AT Ax = AT b (A.36)

(A.36) wird auch Normalgleichung genannt und die Matrix N = AT A die Normalgleichungsmatrix. Die Matrix N ist quadratisch und symmetrisch. Im Falle dass sie auch invertiert werden kann ist das Gleichungssystem gelöst: x = N −1 A T b mit N = AT A (A.37)

A.3 Matrizenrechnung mit Microsoft EXCEL
EXCEL ist ein Programm zur „Tabellenkalkulation“, d.h. Daten werden in Tabellenform (Zeilen und Spalten) ablegt und dann verschiedenen Berechnungen, Analysen, Visualisierungen etc. zugänglich gemacht. Die Zeilen-Spalten-Anordnung von EXCEL entspricht genau unserer Matrizenbetrachtungsweise. Der Bezug auf bestimmte Zellen geschieht durch Angabe von Spalte und Zeile, wobei 256 Spalten (bezeichnet mit A-Z, AA-AZ, BA-BZ, . . . , IA-IV) und 65536 Zeilen (bezeichnet mit 1-65536) möglich sind. Beispiel: Das Element in der 1.Zeile und 3.Spalte ist C1, jenes in der 15.Zeile und 23.Spalte W15 etc. Der Zellbezug erscheint auch links oben im „Namensfeld“ (Name Box). Wir können dieses (65536 x 256) große Feld jetzt in „Sub-Felder“ unterteilen, und damit Matrizen definieren.

A.3.1

Eine Matrix in EXCEL definieren

Jeder beliebig große rechteckige oder quadratische Bereich kann als Matrix betrachtet und angesprochen werden. Dazu gibt es zwei Möglichkeiten: Man gibt die Zellenbezeichnung der linken oberen und rechten unteren Ecke der Matrix ein, dazwischen steht ein Doppelpunkt: „A4:C6“ ist also die Matrix bestehend aus den Elementen mit dem Zellbezug   A4 B4 C4  A5 B5 C5  A6 B6 C6

A-10

ANHANG A. MATRIZENRECHNUNG

Die elegantere Möglichkeit ist es allerdings, den Matrizen auch Namen zu geben. Zu diesem Zweck markiert man den gewünschten Bereich (z.B. A1:C3) und gibt dann im Namensfeld (Name Box) eine beliebige Bezeichnung ein, z.B. „A“, „x“, „MyMatrix“... . Die Bezeichnung kann im Prinzip beliebig gewählt werden. Es gelten aber folgende Richtlinien: • Das erste Zeichen eines Namens muss ein Buchstabe oder ein Unterstrich sein. Für alle weiteren Zeichen des Namens können Buchstaben, Ziffern, Punkte, Fragezeichen oder Unterstriche verwendet werden. • Es dürfen keine Namen gewählt werden, die bereits einen Standard-Zellenbezug definieren, also z.B. „A1“ oder „HK738“ oder „IV65536“. • Namen dürfen keine Leerzeichen enthalten. Zur Trennung können Unterstriche und Punkte verwendet werden, z.B. „A_transponiert“ oder „Inverse_Matrix“. • Ein Name darf maximal 255 Zeichen umfassen. • Namen können Buchstaben in Groß- und Kleinschreibung enthalten. Excel unterscheidet aber nicht zwischen Groß- und Kleinbuchstaben. Wenn Sie z.B. den Namen „MyMatrix“ definiert haben und dann in derselben Arbeitsmappe den Namen „MYMATRIX“ oder „mymatrix“ erstellen, wird der erste Name durch den zweiten ersetzt. Die Eingabe im Namensfeld wird mit der Returntaste abgeschlossen. Bereiche, die als (verschiedene) Matrizen definiert sind, können sich auch überlappen bzw. zwei idente Bereiche mit unterschiedlichen Namen bezeichnet werden.

A.3.2

Matrizenoperationen mit EXCEL

sind durch verschiedene bereits vordefinierte Funktionen möglich. Wichtig ist: 1. Es muss vorher festgelegt sein, wie groß das Ergebnis sein wird. Dieser Bereich ist zu markieren (Wenn ich also z.B. eine 4 × 5 mit einer 5 × 8 Matrix multipliziere, wird das Ergebnis eine 4 × 8-Matrix sein und ich muss dementsprechend einen 4 × 8-Bereich markieren). 2. Alle Eingaben, die ein Ergebnis haben, das mehr als eine Zelle umfasst, dürfen nicht mit der gewöhnlichen Returntaste abgeschlossen werden, sondern durch gleichzeitiges Drücken von Strg-Shift-Return (Excel schließt dann die Formel automatisch in geschweifte Klammern {} ein). Einige wichtige Operationen: Operation Addition Multiplikation Transponieren Anzahl der Spalten Anzahl der Zeilen kleinster Wert in einer Matrix Inverse Eingabe in EXCEL =Matrix1+Matrix2 =MMULT(Matrix1;Matrix2) =MTRANS(Matrix) =SPALTEN(Matrix) =ZEILEN(Matrix) =MIN(Matrix) =MINV(Matrix)

Bei Verwendung einer englischen Version von EXCEL sind einige Abweichungen zu beachten:

A.3. MATRIZENRECHNUNG MIT MICROSOFT EXCEL
Operation Addition Multiplikation Transponieren Anzahl der Spalten Anzahl der Zeilen kleinster Wert in einer Matrix Inverse Eingabe in EXCEL =Matrix1+Matrix2 =MMULT(Matrix2, Matrix2) =TRANSPOSE(Matrix) =COLUMNS(Matrix) =ROWS(Matrix) =MIN(Matrix) =MINVERSE(Matrix)

A-11

Matrix, Matrix1, Matrix2 . . . gibt den Bereich an, der als Matrix aufgefasst werden soll (vgl. oben: Definieren einer Matrix) Beispiele: MMULT(A;x) ergibt die Produktmatrix Ax MTRANS(A3:F8) ergibt die Transponierte zu jener Matrix, die durch den rechteckigen Bereich A3 bis F8 definiert ist. Operationen können auch verschachtelt werden. Für (AT PA)−1 wird z.B. folgende Funktion eingegeben: MINV(MMULT(MTRANS(A);MMULT(P;A))) bzw. in der englischen EXCEL-Version MINVERSE(MMULT(TRANSPOSE(A),MMULT(P,A))) Wichtiger Hinweis An dieser Stelle sei darauf hingewiesen, dass sich Excel als Tool zum Erlernen (und vor allem: Verstehen) statistischer Merhoden oder eben der Matrizenrechnung einerseits sehr gut eignet, und zwar weil • das Programm in der Regel den Studierenden bereits bekannt ist und daher nicht die ohnehin knapp bemessene Zeit der Statistik-Übung für das Erlernen einer neuen Software verwendet werden muss • die meisten Studierenden in ihrer gewohnten Windows XP- oder Vista-Look-andFeel-Umgebung arbeiten können • die Anordnung der Daten mit Zeilen, Spalten und Tabellen sehr übersichtlich gestaltet werden kann • Berechnungen „on the fly“ durchgeführt werden und damit • die Auswirkung von Änderungen in den Daten sofort in den Ergebnissen sichtbar sind Andererseits sei aber ausdrücklich darauf hingewiesen, dass • bestimmte statistische Routinen und Anaysen nur auf einfache Grundverfahren limitiert sind • bestimmte Statistik-Funktionen und -algorithmen in Excel offensichtlich falsch implementiert sind • bestimmte Darstellungen nicht mehr den heute üblichen Standards statistischer Graphiken genügen, insbesondere wenn man „Default-Einstellungen“ belässt

A-12

ANHANG A. MATRIZENRECHNUNG

• Excel ganz allgemein arithmetische und numerische Probleme beinhaltet und • man sich keineswegs der Illusion hingeben darf, dass alles, was „aus dem Computer kommt“, fehlerfrei ist. (Und das liegt nicht nur am User, der vielleicht bei der Eingabe Fehler macht). Eine Alternative zur Verwendung von Excel5 , die jedenfalls in numerischer Hinsicht Excel überlegen ist, ist MATLAB. MATLAB ist ein Programm, das einen Interpreter zur Berechnung mehr oder weniger komplexer mathematische Ausdrücke, insbesondere aus der Matrizenalgebra, zur Verfügung stellt. Für die „Bedienung“ und Verwendung von MATLAB sei auf die Lehrveranstaltung „Technische Standardsoftware“ aus dem 1. Semester verwiesen.

5 abgesehen natürlich von „wirklichen“ Statistikprogrammen, in denen Daten eingelesen/eingegeben wer-

den und dann auf Knopfdruck verschiedene Analysen und Berechnungen gestartet werden können

Anhang B

Differenzialrechnung
In einigen Kapiteln der Vorlesung „Statistik“ benötigen wir Definitionen und Verfahren aus der Differenzialrechnung. Wir werden sie hier in Erinnerung rufen, ohne auf die näheren Hintergründe einzugehen.

B.1 Reelle Funktionen in einer Variablen
Eine Funktion ist eine Abbildung, die jedem Element aus einem Definitionsbereich ein Element aus einem Wertebereich eindeutig zuordnet: x → f (x) (B.1)

Eine reelle Funktion ist eine Abbildung, bei der sowohl Definitionsbereich als auch Wertebereich Teilmengen von R sind. Im Folgenden werden wir, wenn nicht anders angegeben, ausschließlich reelle Funktionen betrachten. {( x, f ( x )) | x ∈ Def.bereich } ist der Graph der Abbildung. Der Graph reeller Funktionen in einer Variablen kann in einem (x, y)-Koordinatensystem dargestellt werden, wobei y = f ( x ). Differenzenquotient Für die folgenden Überlegungen betrachten wir zunächst die Abb. B.1. Der Quotient ∆ f (x) f ( x0 + ∆x ) − f ( x0 ) = ∆x ∆x mit ∆x = x − x0

(B.2)

heißt Differenzenquotient und gibt die Steigung der Sekante durch die Punkte P1 ( x0 , f ( x0 )) und P2 ( x0 + ∆x, f ( x0 + ∆x )) an. Differenzialquotient Bilden wir nun den Grenzwert f ′ ( x0 ) = lim
h →0

f ( x0 + h ) − f ( x0 ) h

(B.3)

so erhalten wir den Differenzialquotient (auch: erste Ableitung) der Funktion f an der Stelle x0 . Wenn für jeden Punkt des Definitionsbereichs der Funktion so ein Grenzwert existiert, spricht man von einer differenzierbaren Funktion.

B-1

B-2

ANHANG B. DIFFERENZIALRECHNUNG

Abb. B.1 Eine Funktion y = f ( x ) und ihre Tangente im Punkt ( x0 , y0 )
y=f(x)

∆y y0 dx=∆x x0 dy

x

Die Ableitung einer Funktion im Punkt x gibt die Steigung der Funktionskurve in diesem Punkt, genauer gesagt die Steigung der Tangente an die Kurve im Punkt x, an (siehe die Tangente in Abb.B.1). Für lineare Funktionen (Polynome höchstens 1. Grades) sind Differenzenquotient und Differenzialquotient (also Sekante und Tangente) in jedem Punkt gleich. Statt f ′ ( x ) verwendet man auch die auf Leibniz1 zurückgehende Schreibweise dx und bezeichnet d f ( x ) und dx als Differenziale (daher auch der Name „Differenzialquotient“). Wir setzen in weiterer Folge voraus, dass sowohl die Ableitungen der wichtigsten Funktionen bekannt sind, als auch die Anwendung der folgenden Differentiationsregeln: Konstantenregel: c′ = 0 (B.4) Faktorregel: Potenzregel:
d f (x)

(c · f ( x ))′ = c · f ′ ( x ) ( x n ) ′ = n x n −1

(B.5) (B.6) (B.7) (B.8)

Summenregel: Produktregel: Quotientenregel:

( f ( x ) ± g( x ))′ = f ′ ( x ) ± g′ ( x ) ( f ( x ) · g( x ))′ = f ′ ( x ) · g( x ) + f ( x ) · g′ ( x )
f (x) g( x )

=

f ′ ( x ) · g( x ) − f ( x ) · g′ ( x ) ( g( x ))2

(B.9)

Kettenregel:
1 Gottfried

( f ( g( x )))′ = f ′ ( g( x )) · g′ ( x )

(B.10)

Wilhelm von Leibniz, dt. Mathematiker und Philosoph, 1646-1716

B.2. TAYLORREIHEN
(B.10) wird in der Leibniz’schen Schreibweise auch geschrieben als d f dg df = · dx dg dx wobei
df dg

B-3

(B.11)

als die äußere und

dg dx

als die innere Ableitung bezeichnet wird.

Numerische Differentiation Funktionen können auch numerisch abgeleitet werden. Das ist vor allem dann sinnvoll, wenn die analytische Lösung aufwändig ist. Man nähert dabei den Differenzialquotienten durch den Differenzenquotienten an und berechnet die Ableitung nach f ′ (x) ≈ oder – numerisch besser – nach f ′ (x) ≈ mit 10−8 ≤ h ≤ 10−4 . Höhere Ableitungen Die (erste und jede weitere) Ableitung einer Funktion kann wieder differenziert werden, und zwar solange, bis man bei einer konstanten Funktion landet. Man erhält dadurch Ableitungen höherer Ordnung. Dabei wird die zweite Ableitung mit f ′′ ( x ), die dritte mit f ′′′ ( x ) usw., die n-te Ableitung mit f (n) ( x ) bezeichnet. f (n) ( x ) = dn f ( x ) dx n (B.14) f ( x + h) − f ( x − h) 2h (B.13) f ( x + h) − f ( x ) h (B.12)

B.2 Taylorreihen
Viele Funktionen können durch Potenzreihen approximiert werden. Eine Potenzreihe ist zum Beispiel das Polynom f (x) =


k =0

n

f ( k ) ( x0 ) ( x − x0 ) k + R n ( x ) k!

(B.15)

das – ohne dem Restglied Rn ( x ) – das n-te Taylorpolynom2 der Funktion f im Punkt x0 genannt wird. Mit dem Taylorpolynom können die Funktionswerte einer differenzierbaren Funktion f in der Umgebung der Stelle x0 näherungsweise berechnet werden. Man spricht auch von einer Taylorentwicklung der Funktion bis zur n-ten Ordnung. Die unendliche Potenzreihe für n → ∞ ist die Taylorreihe von f . Wenn das Restglied Rn ( x ) für n = ∞ gegen Null konvergiert, dann konvergiert auch die Taylorreihe gegen f ( x ). Mit ( x − x0 ) = ∆x bzw. x = ( x0 + ∆x ) kann (B.15) auch umgeschrieben werden zu f ( x0 + ∆x ) = f ( x0 ) + f ′ ( x0 )∆x +
2 Brook

1 ′′ 1 f ( x0 )(∆x )2 + . . . + f (n) ( x0 )(∆x )n 2! n!

(B.16)

Taylor, brit. Mathematiker, 1685-1731

B-4

ANHANG B. DIFFERENZIALRECHNUNG

Dies ist eine wichtige Formel, auf die wir in weiterer Folge bei der „Varianzfortpflanzung“ und der „Methode der kleinsten Quadrate“ zurückgreifen werden. Jede Funktion f ( x ), die in der Umgebung von x0 (n + 1)-fach differenzierbar ist, lässt sich an der Stelle x0 in der Form (B.15) darstellen. Eine spezielle Taylor-Form ist jene mit x0 = 0, also eine Taylorentwicklung um den Nullpunkt der x-Achse. Sie wird auch Maclaurin-Formel3 genannt. Bekannte Beispiele dafür sind die Reihenentwicklungen der Winkelfunktionen sin x und cos x: sin( x ) = x − cos( x ) = 1 − x5 x7 x3 + − +··· 3! 5! 7! x4 x6 x2 + − +··· 2! 4! 6!

Eine wichtige Anwendung von Taylorreihen ist jene, bei der ∆x sehr klein ist. Die Taylorentwicklung kann dann nämlich bereits nach den ersten beiden Gliedern (jenen mit k = 0 und k = 1) abgebrochen werden. Die verbleibende Funktionsentwicklung ist eine Gerade, nämlich die Tangente der Funktion im Punkt x0 . Das heißt: Kennen wir den Funktionswert an der Stelle f ( x0 ), können wir in einer entsprechend kleinen Umgebung von x0 jeden Funktionswert angeben, indem wir die Funktion durch ihre Tangente im Punkt x0 ersetzen. Diese Vorgangsweise nennen wir auch „Linearisieren der Funktion“.

B.3 Funktionen in mehreren Variablen
Eine reelle Funktion in mehreren Variablen ist eine Abbildung, die jedem Vektor x eine reelle Zahl zuordnet. Entsprechend der Dimension des Vektors x spricht man auch von einer Funktion in n Variablen. Partielle Ableitungen Wir können bei einer Funktion in mehreren Variablen alle Variablen ausgenommen xi als Konstante auffassen und dann ausschließlich nach xi differenzieren. Diese Ableitung ist dann die partielle Ableitung (erster Ordnung) von f nach xi an der Stelle x und wird ∂ f (x) f xi ( x ) = (B.17) ∂xi geschrieben. Analog zu den Funktionen in einer Variablen können wir partielle Ableitungen nochmals ableiten und erhalten so partielle Ableitungen höherer Ordnung. Das totale Differenzial Die lineare Funktion df = ∂ f (x) ∂ f (x) ∂ f (x) dx1 + dx2 + . . . + dxn ∂x1 ∂x2 ∂xn (B.18)

ist das totale Differenzial von f an der Stelle x.
3 Colin

Maclaurin, schot. Mathematiker, 1698-1746

B.4. DIFFERENTIATION VON MATRIZENFUNKTIONEN
Taylorentwicklung einer Funktion in zwei Variablen

B-5

Analog zu (B.16) kann man auch eine Funktion in zwei Variablen in einem Taylorpolynom entwickeln: f ( x0 + ∆x, y0 + ∆y)

=

f ( x0 , y0 )

1 + 1! 1 + 2! ... 1 + n!

∂ f ( x0 ,y0 ) ∆x ∂x ∂ f ( x0 ,y0 ) ∆x ∂x ∂ f ( x0 ,y0 ) ∆x ∂x

+ + +

∂ f ( x0 ,y0 ) ∆y ∂y ∂ f ( x0 ,y0 ) ∆y ∂y

+
(2)

+ + Rn

(B.19)

(n) ∂ f ( x0 ,y0 ) ∆y ∂y

wobei der Klammernausdruck ∂x ∆x + ∂y ∆y nach dem binomischen Lehrsatz aufzulösen ist und ∂m f ∂ f p ∂ f m− p = p m− p ˙ (B.20) ∂x ∂y ∂x ∂y Linearisierung einer Funktion in mehreren Variablen Wie im Fall einer Variablen, können wir auch hier eine Funktion in einer entsprechend 0 0 kleinen Umgebung von ( x1 , x2 , . . . x0 ) durch ihre Tangente ersetzen und die Funktin onswerte in dieser Umgebung durch Einsetzen in die lineare Funktion
0 0 f ( x1 + ∆x1 , x2 + ∆x2 , . . . x0 + ∆xn ) = n ∂f ∂f 0 0 f ( x1 , x2 , . . . x0 ) + ∂x ∆x1 + ∂x ∆x2 + . . . + n
1 2

∂f

∂f

(m)

∂f ∂xn ∆xn

(B.21)

annähern. Eine „entsprechend kleine Umgebung“ ist eine, bei der die ∆x1 bis ∆xn so klein sind, dass in der Taylorentwicklung Glieder höherer Ordnung weggelassen werden können.

B.4 Differentiation von Matrizenfunktionen
Es gibt zwei Matrizenfunktionen, von denen wir die partiellen Ableitungen erster Ordnung benötigen: die Bilinearform und die Quadratische Form. Die Bilinearform ist ein Matrizenprodukt der Form „Zeilenvektor mal Matrix mal Spaltenvektor“. Das Ergebnis ist stets ein Skalar; außerdem gilt: xT Ay = yT AT x Eine Bilinearform, in der die beiden beteiligten Vektoren ident sind (also: auch Quadratische Form. Das Differenzial einer Bilinearform, zum Beispiel (xT AT l), lautet: ∂ ( xT AT l ) = AT l ∂x Das Differenzial einer Quadratischen Form, zum Beispiel (xT Ax), lautet: ∂(xT Ax) = ( A + AT ) x ∂x beziehungsweise bei symmetrischer Matrix A ∂(xT Ax) = 2Ax ∂x (B.25) (B.24) (B.22) xT Ax), heißt

(B.23)

6

ANHANG B. DIFFERENZIALRECHNUNG

Sign up to vote on this title
UsefulNot useful