Statistik

mit R
Erwin Grüner
Veranstaltungs-
beschreibung
Einführung
Entw.umgebung
Erste Schritte
Hilfen
Statistik mit R
Erwin Grüner
FB Psychologie Uni Marburg
27.10.2005
Statistik
mit R
Erwin Grüner
Veranstaltungs-
beschreibung
Einführung
Entw.umgebung
Erste Schritte
Hilfen
Themenübersicht
Veranstaltungsbeschreibung
Inhalte der Lehrveranstaltung
Lernziel
Ablauf
Organisatorische Hinweise
Einführung
Was ist R?
Eigenschaften von R
Nachteile von R
Einige Packages
Web-Adressen
Literatur zu S/S-Plus und R
Die Entwicklungsumgebung
Arbeitsweise von R
Fenster und Menüs
Tastatureingaben
Erste Schritte
Aufruf von Demoprogrammen
Eingabe von Ausdrücken
Verwendung eines eingebauten Datensatzes
Zugriff auf die Variablen eines Datensatzes
Aufruf von Hypothesentests
Hilfen
Statistik
mit R
Erwin Grüner
Veranstaltungs-
beschreibung
Inhalte
Lernziel
Ablauf
Hinweise
Einführung
Entw.umgebung
Erste Schritte
Hilfen
Inhalte der Lehrveranstaltung
Einführung in die Möglichkeiten und Konzepte von R
Praxisorientierte Einführung in die Arbeit mit R
Verwendung von GUIs
Arbeiten im Kommandofenster
Anwendungen aus verschiedenen Bereichen der Statistik
(z. B. EDA, lineare Modelle)
Entwicklung eigener Funktionen
Statistik
mit R
Erwin Grüner
Veranstaltungs-
beschreibung
Inhalte
Lernziel
Ablauf
Hinweise
Einführung
Entw.umgebung
Erste Schritte
Hilfen
Lernziel
Anwendung von Standardverfahren zur Statistik und
Graphik
Erstellung maßgeschneiderter, spezieller Lösungen bei
komplexeren Auswertungsproblemen
Zielgruppe: Mitarbeiter von Forschungsprojekten,
Diplomanden
Statistik
mit R
Erwin Grüner
Veranstaltungs-
beschreibung
Inhalte
Lernziel
Ablauf
Hinweise
Einführung
Entw.umgebung
Erste Schritte
Hilfen
Ablauf
Die Veranstaltung besteht aus zwei gleich gewichtigen
Teilen:
Vorlesung
Vermittlung der neuen Inhalte
Anwendungsbeispiele
Demonstrationen am PC
Praktische Übung im PC-Saal
Statistik
mit R
Erwin Grüner
Veranstaltungs-
beschreibung
Inhalte
Lernziel
Ablauf
Hinweise
Einführung
Entw.umgebung
Erste Schritte
Hilfen
Organisatorische Hinweise
Benutzung der Rechner im PC-Saal
Webseite (Folien, Übungsaufgaben, . . . )
Schein
. . .
Statistik
mit R
Erwin Grüner
Veranstaltungs-
beschreibung
Einführung
Was ist R
Eigenschaften
Nachteile
Packages
Web-Adressen
Literatur
Entw.umgebung
Erste Schritte
Hilfen
Was ist R?
R ist eine umfassende Software für die Analyse und
Visualisierung von Daten.
R ist “GNU S”, d.h. eine unter der GNU-Lizenz
stehende Implementierung von S. Damit ist R freie
Software, d.h. auch kostenlos.
S wurde bei AT&T Bell Laboratories von John
Chambers und Mitarbeitern entwickelt
1
.
S-Plus ist eine kommerzielle Implementierung von S.
R ist ein Dialekt von S: äußerlich weitgehend identisch,
aber innere Unterschiede sind vorhanden.
Die meisten S- bzw. S-Plus-Programme laufen auch
unter R.
1
Titel des “Blue Book” (Becker, Chambers & Wilks): “The New S
Language. A Programming Environment for Data Analysis and
Graphics”
Statistik
mit R
Erwin Grüner
Veranstaltungs-
beschreibung
Einführung
Was ist R
Eigenschaften
Nachteile
Packages
Web-Adressen
Literatur
Entw.umgebung
Erste Schritte
Hilfen
Eigenschaften von R
Funktionsvielfalt
Differenzierte Datentypen und -strukturen, viele
eingebaute Funktionen, Funktionsbibliotheken für viele
Anwendungen
Erweiterbarkeit
Entwicklungsumgebung und Programmiersprache
Objektorientiertheit
Alle Größen (auch die Ausgaben von Funktionen) sind
Objekte, auf die man Zugriff hat.
Offenheit
Datenschnittstelle zu SPSS, SAS u.a.
Statistikdatenformaten
Statistik
mit R
Erwin Grüner
Veranstaltungs-
beschreibung
Einführung
Was ist R
Eigenschaften
Nachteile
Packages
Web-Adressen
Literatur
Entw.umgebung
Erste Schritte
Hilfen
Eigenschaften von R (Forts.)
Open Source
Freie Software, Quelltext verfügbar, kostenfrei
Qualität
Weltweite renommierte Entwicklergemeinde
Aktualität
Neue Algorithmen sind im allgemeinen implementiert
Universalität
Läuft unter allen gängigen Betriebssystemen
Umfangreiche Dokumentation, Support
Bücher und Artikel, pdf-Dateien, Online-Hilfen,
Mailinglisten
Statistik
mit R
Erwin Grüner
Veranstaltungs-
beschreibung
Einführung
Was ist R
Eigenschaften
Nachteile
Packages
Web-Adressen
Literatur
Entw.umgebung
Erste Schritte
Hilfen
Nachteile von R
R ist komplex und sehr mächtig.
R ist weniger benutzerfreundlich als beispielsweise
SPSS.
Die graphische Benutzungsoberfläche “Rgui.exe” bietet
nur rudimentäre Unterstützung
2
.
Die volle Leistungsfähigkeit wird nur durch Verwendung
von Kommandos erreicht: man muss die Funktionen
kennen und die Syntax von R beachten.
2
Die Entwicklung von GUIs zu R schreitet aber voran, siehe z.B. “R
Commander”.
Statistik
mit R
Erwin Grüner
Veranstaltungs-
beschreibung
Einführung
Was ist R
Eigenschaften
Nachteile
Packages
Web-Adressen
Literatur
Entw.umgebung
Erste Schritte
Hilfen
Packages zu Büchern
MASS Funktionen/Daten zu “Modern Applied
Statistics with S” (Venables & Ripley)
DAAG Funktionen/Daten zu “Data Analysis And
Graphics” (Maindonald & Braun)
ISwR Funktionen/Daten zu “Introductory Statistics
with R” (Dalgaard)
UsingR Funktionen/Daten zu “Using R for
Introductory Statistics” (Verzani)
car Funktionen/Daten zu “An R and S-PLUS
Companion to Applied Regression” (J. Fox)
faraway Funktionen/Daten zu “Linear Models with R”
u.a. (Faraway)
. . . . . .
Statistik
mit R
Erwin Grüner
Veranstaltungs-
beschreibung
Einführung
Was ist R
Eigenschaften
Nachteile
Packages
Web-Adressen
Literatur
Entw.umgebung
Erste Schritte
Hilfen
Sonstige Packages
foreign Prozeduren zum Lesen von Fremdformaten
nlme hierarchische Regressionsmodelle
nortest Normalverteilungstests
psy verschiedene Psychometrie-Prozeduren
sem Strukturgleichungsmodelle
survival Survival-Analyse
tseries Zeitreihenanalyse
lattice Trellis Graphiken
rimage Bildbearbeitungsprozeduren
R2HTML HTML-Ausgabe
Rcmdr R Commander (GUI)
. . . . . .
. . . . . .
Statistik
mit R
Erwin Grüner
Veranstaltungs-
beschreibung
Einführung
Was ist R
Eigenschaften
Nachteile
Packages
Web-Adressen
Literatur
Entw.umgebung
Erste Schritte
Hilfen
Web-Adressen
http://www.r-project.org/
Homepage des R-Projekts
http://cran.r-project.org/
Comprehensive R Archive Network
http://cran.r-project.org/bin
Binaries zum Installieren von R
http://cran.r-project.org/manuals.html
Manuale zu R
http://lib.stat.cmu.edu/R/CRAN/other-docs.html
Weitere Dokumentation
Statistik
mit R
Erwin Grüner
Veranstaltungs-
beschreibung
Einführung
Was ist R
Eigenschaften
Nachteile
Packages
Web-Adressen
Literatur
Entw.umgebung
Erste Schritte
Hilfen
Web-Adressen (Forts.)
http://cran.r-project.org/src/contrib/PACKAGES.html
Packages
http://socserv.mcmaster.ca/jfox/Misc/Rcmdr/
R Commander
http://www.math.montana.edu/Rweb/
Statistical Analysis On The Web
http://lib.stat.cmu.edu/S
Statlib S Archive
Statistik
mit R
Erwin Grüner
Veranstaltungs-
beschreibung
Einführung
Was ist R
Eigenschaften
Nachteile
Packages
Web-Adressen
Literatur
Entw.umgebung
Erste Schritte
Hilfen
Literatur zu S/S-Plus und R
Venables, W. N., & Ripley, B. D. (2002). Modern
Applied Statistics with S. (4th Ed.). Springer-Verlag.
Venables, W. N., & Ripley, B. D. (2000). S
Programming. Springer-Verlag.
Dalgaard, P. (2002). Introductory Statistics with R.
Springer-Verlag.
Venables, W. N., & Smith, D. M. () An Introduction to
R. Network Theory Ltd.
Fox, J. (). An R and S-Plus Companion to Applied
Regression. Sage Publications.
Pinheiro, J. C., & Bates, D. M. (2001). Mixed-Effects
Models in S and S-PLUS. Springer-Verlag.
Weitere Dokumentation in Form von PDF-Dateien findet
man im Internet, vor allem auch auf der CRAN-Seite.
Statistik
mit R
Erwin Grüner
Veranstaltungs-
beschreibung
Einführung
Entw.umgebung
Arbeitsweise
Fenster und Menüs
Tastatureingaben
Erste Schritte
Hilfen
Arbeitsweise von R
R ist ein Interpreter.
Im interaktiven Modus arbeitet R in einer sog.
’Read-Eval-Print’-Loop:
1
Eingabe: der Benutzer gibt einen Ausdruck ein
2
Evaluierung: das System wertet den Ausdruck aus
3
Ausgabe: das System gibt das Ergebnis (oder eine
Fehlermeldung) auf dem Bildschirm aus
. . . (weiter mit 1.)
R kann auch im ’Batch-Modus’ betrieben werden.
Statistik
mit R
Erwin Grüner
Veranstaltungs-
beschreibung
Einführung
Entw.umgebung
Arbeitsweise
Fenster und Menüs
Tastatureingaben
Erste Schritte
Hilfen
Fenster und Menüs
Rgui.exe startet den interaktiven Modus unter Windows.
Die graphische Benutzungsoberfläche enthält:
Hauptfenster mit einer Menüleiste und evtl. einer
Symbolleiste sowie weiteren Fenstern . . .
Konsolfenster für Benutzereingaben und
Systemausgaben
Statistik
mit R
Erwin Grüner
Veranstaltungs-
beschreibung
Einführung
Entw.umgebung
Arbeitsweise
Fenster und Menüs
Tastatureingaben
Erste Schritte
Hilfen
Tastatureingaben
Eingaben werden mit der RETURN -Taste
abgeschlossen.
Sollen mehrere Kommandos bzw. Ausdrücke auf einmal
eingegeben werden, so sind sie mit Semikolon zu
trennen.
Der Eingabeprompt ist
>
Bei syntaktisch unvollständigen Eingaben erscheint als
Fortsetzungprompt
+
Das Kommando für das Beendigen von R ist
q()
Statistik
mit R
Erwin Grüner
Veranstaltungs-
beschreibung
Einführung
Entw.umgebung
Erste Schritte
Demoprogramme
Ausdrücke
Eingebaute Datensätze
Variablenzugriff
Hypothesentests
Hilfen
Einige Demoprogramme
Aufruf von Demo-Programmen
> demo()
Übersicht über die Demos
> demo(graphics) Graphik-Demos
> demo(image)
Höhenlinien u.ähnl.
> demo(persp) 3D-Graphik
Statistik
mit R
Erwin Grüner
Veranstaltungs-
beschreibung
Einführung
Entw.umgebung
Erste Schritte
Demoprogramme
Ausdrücke
Eingebaute Datensätze
Variablenzugriff
Hypothesentests
Hilfen
Eingabe von Ausdrücken
R kann als Tischrechner verwendet werden:
Zahlen
> 1
> 1.57
> .2356
> -1305.234
> -1.23456e8
Arithmetische Ausdrücke
> 1 + 2
> 3 / 7 * 2 - 5.7
> 3/0 → Inf (Infinity)
> 0/0 → NaN (Not a Number)
Verwendung numerischer Funktionen
> sqrt(2*3.14159ˆ3)
> log(10)
> exp(sin(pi/6))
Statistik
mit R
Erwin Grüner
Veranstaltungs-
beschreibung
Einführung
Entw.umgebung
Erste Schritte
Demoprogramme
Ausdrücke
Eingebaute Datensätze
Variablenzugriff
Hypothesentests
Hilfen
Verwendung eines eingebauten Datensatzes
Informationen über verfügbare Datensätze:
> data()
Aufruf des Datensatzes ’women’:
> data(women)
Infos zum Datensatz ’women’
> help(women)
Auflisten der Daten:
> women
Aufruf statistischer Funktionen:
> mean(women) Mittelwerte
> sd(women) Standardabweichungen
> cov(women) Kovarianzmatrix
> cor(women) Korrelationsmatrix
Erstellung einer Graphik:
> plot(women) Streuungsdiagramm
Statistik
mit R
Erwin Grüner
Veranstaltungs-
beschreibung
Einführung
Entw.umgebung
Erste Schritte
Demoprogramme
Ausdrücke
Eingebaute Datensätze
Variablenzugriff
Hypothesentests
Hilfen
Zugriff auf die Variablen eines Datensatzes
Aufruf des Datensatzes ’women’
3
:
> data(women)
Zugriff auf Variablen (Auflisten der Variable ’height’):
> women$height
Aufruf einer Funktion (Korrelation):
> cor(women$height,women$weight)
3
Neuerdings sind manche Datensätze standardmäßig verfügbar, d.h.
dieser Aufruf ist dann nicht notwendig.
Statistik
mit R
Erwin Grüner
Veranstaltungs-
beschreibung
Einführung
Entw.umgebung
Erste Schritte
Demoprogramme
Ausdrücke
Eingebaute Datensätze
Variablenzugriff
Hypothesentests
Hilfen
Komfortabler Zugriff auf einen Datensatz
Die
Variablen eines Datensatzes in den Suchpfad aufnehmen:
> attach(women) Datensatz ’women’
Auflisten der einzelnen Variablen:
> height
> weight
Aufruf statistischer Funktionen:
> mean(height)
> sd(height)
> cov(height,weight)
> cor(height,weight)
Statistik
mit R
Erwin Grüner
Veranstaltungs-
beschreibung
Einführung
Entw.umgebung
Erste Schritte
Demoprogramme
Ausdrücke
Eingebaute Datensätze
Variablenzugriff
Hypothesentests
Hilfen
Komfortabler Zugriff auf einen Datensatz (Forts.)
Erstellung von Graphiken (Streuungsdiagramm,
Histogramm, Boxplot):
> plot(height,weight)
> hist(height)
> boxplot(height)
Die Variablen eines Datensatzes aus dem Suchpfad
entfernen:
> detach(women)
Statistik
mit R
Erwin Grüner
Veranstaltungs-
beschreibung
Einführung
Entw.umgebung
Erste Schritte
Demoprogramme
Ausdrücke
Eingebaute Datensätze
Variablenzugriff
Hypothesentests
Hilfen
Durchführung von Hypothesentests,
Modellanpassung
Daten verfügbar machen:
> data(sleep)
> attach(sleep)
t-Test:
> t.test(extra~group)
Anpassung eines linearen Regressionsmodells:
> lm(extra~group)
Statistik
mit R
Erwin Grüner
Veranstaltungs-
beschreibung
Einführung
Entw.umgebung
Erste Schritte
Hilfen
Hilfen
Hilfe zu einem Objekt (z.B. einer Funktion) erhält man
mit der Eingabe
> help(objekt) oder kürzer mit
> ?objekt
Informationen zu einem Paket:
> help(package=packagename) oder
> library(,packagename)
Auflistung aller Funktionen, deren Namen einen
gegebenen String enthalten:
> apropos(string)
Beispiel zu einem angegebenen Thema:
> example(topic)
Statistik
mit R
Erwin Grüner
Veranstaltungs-
beschreibung
Einführung
Entw.umgebung
Erste Schritte
Hilfen
Hilfen (Forts.)
Aufruf der HTML-Hilfe:
> help.start()
Über das Help-Menü können darüber hinaus noch
weitere Hilfen aufgerufen werden:
Frequently Asked Questions (FAQ)
HTML-Hilfen
Die Handbücher zu R als PDF-Dateien
Statistik
mit R
Erwin Grüner
Veranstaltungs-
beschreibung
Einführung
Entw.umgebung
Erste Schritte
Hilfen