Professional Documents
Culture Documents
Kapitel 7 : Das Testen statistischer Hypothesen 1 Motivation Beispiel 1.1 (Siehe dazu auch Kapitel 6, Beispiel 3.3) : Man mchte wissen, ob die mittlere Krperlnge der Drosophila melanogaster im Hochschwarzwald wie in Rheinhessen gleich 2,3 mm ist, oder nicht. D.h. man mchte die Hypothese (Nullhypothese) gegen die Alternative (Alternativhypothese) testen . Hierzu mit man z.B. die Krperlngen x1, x2, . . . , x25 von 25 Insekten. Die zugehrigen Zufallsvariablen X1, X2, . . . , X25 bilden dann eine iid Stichprobe (X1, X2, . . . , X25) vom Umfang 25.
d Wir nehmen an, da die Xj = N(, ), wobei = 0,09 bekannt ist.
H : = 2,3 K : 2,3
Der Parameter ist unbekannt. Da ein Mittelwert der Verteilung von Xj ist, werden wir ihn durch =
anstelle von H entscheiden (d.h. wir werden H verwerfen) wenn sehr stark von 0 = 2,3 abweicht, d.h. wenn | 2,3| c,
Definition 1.2 : Ein statistischer Test fr H gegen K ist eine Vorschrift, die fr jedes aus dem Wertebereich von angibt, ob man H verwirft , d.h. sich fr K entscheidet oder nicht, d.h. der Test ist durch seinen kritischen Bereich C IRn : Entscheidung fr K C
gegeben.
117
1.3 Die zwei mglichen Fehler beim Testen, das Signifikanzniveau : Ob ein Test die richtige Entscheidung liefert, hngt von der zuflligen Realisierung der Stichprobe (den Daten !) ab. Es gibt zwei Mglichkeiten, Fehler zu begehen : Fehler erster Art : Man verwirft H, obwohl H zutrifft. Fehler zweiter Art : Man akzeptiert H, obwohl H falsch ist. H verwerfen H richtig H falsch Fr Beispiel 1.1 ergibt sich: Fehler erster Art Fehler zweiter Art H akzeptieren
K = IR \ {0} (diese Wahrscheinlichkeit hngt von ab!) Bemerkung : Je grer man c whlt, um so kleiner wird die Wahrscheinlichkeit fr den Fehler erster Art und um so grer fr den Fehler zweiter Art (fr jedes K).
Diese Situation, da man nicht beide Fehlerwahrscheinlichkeiten gleichzeitig klein machen kann, ist typisch. blicherweise gibt man sich fr die
118
Definition 1.4 : Diese Schranke nennt man die Signifikanzschranke (oder das Signifikanzniveau ) des Tests. bliche Werte fr : 0,05 ; 0,01 ; 0,005 ; 0,001 . Definition 1.5 : PH(Fehler erster Art) : = max "" Man hat deswegen einen Test zur Signifikanzschranke vor sich, falls sein Niveau . Bemerkung 1.6 : Wir haben hier H und K nicht symmetrisch behandelt. Die Wahrscheinlichkeit fr den Fehler erster Art ist klein (hchstens ), die andere Fehlerwahrscheinlichkeit hat man nicht unter Kontrolle. Sie
knnte gro sein. Deshalb formuliert man den Ausgang des Tests
vorsichtig : Entweder Ablehnung von H zugunsten von K oder H kann nicht
abgelehnt werden.
Insbesondere heit dies, da man H nicht als besttigt ansieht, wenn der Test nicht zur Entscheidung gegen H kommt. 2 Der Gautest 2.1 (Fortsetzung von Beispiel 1.1) : Zu berechnen ist das Niveau P(Fehler erster Art) = | | .
d
= N(0,1)
(siehe Kapitel 6, Beispiel 1.3, Bemerkung 2.5 und Kapitel 5, 2.3 und 2.4). Fr das Niveau des Tests ergibt sich :
| | = | X|
= | X| b,
119
wobei b : =
= (1 (b)) + ( b),
= | X| b = X b + X b =
da (x) symmetrisch um die y-Achse ist (siehe Kapitel 6, 3.1)
wobei die Werte von z tabelliert sind. Hieraus ergibt sich unmittelbar :
b = ,
, d.h.
C = | = | = | |
C = | = | = | |
fr
120
| | >
> 2,418
> 2,418
,,
= 0,118
2.4
d (X1, X2, . . . , Xn) sei wieder eine iid. Stichprobe mit Xj = N(, ),
Rechtsseitiger Test a)
hnlich wie beim zweiseitigen Test erhlt man fr TG() = C = = = | d.h. man lehnt H ab , wenn
,
.
121
Linksseitiger Test b)
hnlich wie beim zweiseitigen Test erhlt man fr TG() = C = = = d.h. man lehnt H ab , wenn
Beispiel 2.5 : Angenommen wir wollen testen, ob die mittlere Krperlnge der Drosophila melanogaster im Hochschwarzwald allenfalls kleiner ist als in Rheinhessen, und deshalb anhand der Daten berprfen, ob der Schwellenwert 0 = 2,3 wirklich unterschritten wird, d.h. wir testen : H : 2,3 gegen K : < 2,3 .
z1
2,3
,,
= 0,099
2,201 .
122
Praxis nur in seltenen Fllen angenommen werden kann, z.B. wenn die Stichprobe (X1, X2, . . ., Xn) sehr gro ist. Deshalb betrachten wir jetzt die Situation, da X1, X2, . . ., Xn eine iid. nach N(,2) verteilte Stichprobe ist, wobei nun 2 unbekannt ist.
Falls 0 der zugrunde liegende Parameter ist , dann ist Tt() nach tn 1, der Studentschen t Verteilung mit (n 1) Freiheitsgraden verteilt, siehe Kapitel 6, Bemerkung 2.5 (ii). tn 1 ; sei das Quantil von tn 1, 0 < < 1. (Diese Werte sind tabelliert !). Satz 3.2 : Gegeben sei das Signifikanzniveau > 0. t = Tt( x ) sei die Realisierung von Tt( X ). Fr den t Test (2 unbekannt !) ergeben sich nun folgende kritische Bereiche: (1) Zweiseitiger t Test : H : = 0 gegen K : 0 : C = | | ; .
123
a)
H : 0 gegen K : > 0 : C = { x | t tn 1; 1 } .
Linkssseitiger t Test :
b)
H : 0 gegen K : < 0 : C = { x | t tn 1; 1 } .
Beispiel 3.3 (Riede) : Aus jahrelangen Beobachtungen mit einer Population von Musen ist bekannt, da das Gewicht vier Wochen alter Tiere im Mittel 0 = 13,0 g betrgt. Es liege eine Stichprobe von fnf Musen vor : 14; 11,5; 12; 14; 21 g. Der Sichprobenmittelwert betrgt
x = 14,5 g.
Liegt dieser Wert noch innerhalb der biologischen Variabilitt? Ist die Abweichung von 0 = 13,0 g noch durch den Zufall zu erklren? Wir nehmen hierzu an, da das Gewicht gem N(, 2) verteilt ist, und fhren auf dem Signifikanzniveau = 0,05 einen zweiseitigen t Test : H : = 0 gegen K : 0 durch. Es ergeben sich : |t| =
x 13 su 5 =
Freiheitsgrade n 1 = 4 ; su = 3,81 ;
14,5 13 5 3,81
H kann also nicht verworfen werden, d.h. wir knnen die Abweichungen dem Zufall zuschreiben. Beispiel 3.4 (Vogt) : Man vermutet, da bei Personen, die zu Herzinfarkt neigen, der Eisengehalt des Serums mit einem hheren Durchschnittswert verteilt sein knnte. Es ist bekannt, da dieser Eisengehalt bei gesunden Mnnern um 0 = 115 (Mikrogramm / Deziliter) normalverteilt ist. Bei n = 16 Mnnern, die schon einen Infarkt berlebt haben und nach wie vor infarktgefhrdet sind, mit man folgende Werte :
124
123, 137, 148, 155, 109, 104, 136, 141, 115, 165, 147, 118, 107, 99, 104, 118. Zur statistischen Untermauerung obiger Vermutung fhren wir einen einseitigen t Test Es ergeben sich : su = H : 0 gegen K : >0 Freiheitsgrade n 1 = 15 ; x = 126,625 ; = 20,545;
1 16 2 (xi 126,625) 15 i =1
t =
Wir lehnen also H zugunsten von K : > 115 ab. 4 Der p Wert 4.1
X = (X1 , X 2 , K, X n )
nach N(, 2) verteilt sind, und x = (x 1 , x 2 , K, x n ) seien zugehrige Daten. Betrachten wir den Gautest und den t-Test . Diese Tests sind (bzw. b) legen den kritischen Bereich C (wo H abgelehnt wird) fest. ber eine Teststatistik T() definiert, T( ) und ein kritischer Wert c
von H auf einem vorgegebenen Signifikanzniveau fhren, sondern da man bestimmt einen sogenannten p Wert p( ) mit der Eigenschaft , H nicht verworfen werden kann, falls p( > ) . H verworfen wird, falls p( < ) und
125
p( ) ist das kleinste Niveau, auf dem der Test H verwirft, wenn
Der p Wert vermittelt ein Gefhl dafr, wie stark die beobachteten
Nullhypothese H.
Fr < ist
z1 < z1
und C = = .
0 : < 0 .
C C .
> p(x) TG( > ) z1 , H kann nicht verworfen werden. = p(x) TG( = ) = TG( ) 1 p(x) = ( TG( )) p(x) = 1 ( TG( = ( )) (TG())) .
, ,
( =
, ,
).
126
Fr den rechtsseitigen und den zweiseitigen Gautest erhlt man die p Werte mit hnlichen berlegungen. Satz 4.3 (p Werte des Gautests) : Rechtsseitiger Test : p(x) = ( TG( = )) 1 (TG()) Linksseitiger Test : Zweiseitiger Test : p(x) = 2(1 (|TG()|) . Teststatistik TG() =
Analog ergeben sich die p Werte fr den Studentschen t-Test. Satz 4.4 (p Werte des t-Tests) : Teststatistik Tt() =
Rechtsseitiger Test : p(x) = tn-1( Tt( = )) 1 tn-1(Tt()) Linksseitiger Test : Zweiseitiger Test : Beispiel 3.3 : |Tt(= |) p(x) = 2(1 tn-1(|Tt()|) .
5 14,5 13 3,81
, =
= 0,880
p(x) = 2(1 t4(0,880)) 2(1 0,78) = 0,44 , d.h. H kann auf keinem vernnftigen Signifikanzniveau verworfen werden. Beispiel 3.4 : Tt(= )
127
5 Zwei Stichproben t Test : Unverbundener Test 5.1 Situation und Konstruktion der Teststatistik :
= N( , 2 + ) = N( , 2
).
, : =
; 1
1 + 1
Definition 5.2 :
Der unverbundene t Test zum Signifikanzniveau hat die folgenden kritische Bereiche und p Werte : C = , | |t| ; ; , = 2 1 , .
H : = gegen K : :
128
C = , | t ; ; , = 1 , .
H : gegen K : > :
Beispiel 5.3 (Khler, Schachtel, Voleske) : In einer landwirtschaftlichen Versuchsanstalt erhielten 9 von 22 Masttieren (Gruppe A) Grnfutterzumischung, whrend die brigen 13 Tiere (Gruppe B) ausschlielich mit dem proteinhaltigen Mastfutter gefttert wurden. Nach einer gewissen Zeit wurde die Gewichtszunahme in kg bei den Tieren festgestellt : A: 7,0 11,8 10,1 8,5 10,7 13,2 9,4 7,9 11,1
B: 13,4 14,6 10,4 11,9 12,7 16,1 10,7 8,3 13,2 10,3 11,3 12,9 9,7 Fhren beide Ftterungen zu gleichen Mastergebnissen? Annahme : X1, . . ., X9 = N(, 2)
d
d
(Gruppe A) und
= 9,97
, ,
= 11,96
= 3,90
= 4,302 sg = 2,074
= 4,57
,
|t| =
, , ,
129
6 Zwei Stichproben t Test : Verbundener Test 6.1 Situation und Konstruktion der Teststatistik :
Verbundene Stichproben: ( z.B. die beiden Hlften eines Blattes werden verschieden behandelt, oder dieselbe Gruppe von Individuen oder Objekten wird vor und nach einer Behandlung untersucht.) (X1, Y1), (X2, Y2), . . ., (Xn, Yn) seien also unabhngige Paare von Beobachtungen. (Xj und Yj brauchen nicht unabhngig zu sein!)
Dj = N(0, 2) .
d
Dies berprfen wir nun mit dem uns bekannten Studentschen t Test (3) : Definition 6.2 : Verbundener t Test zum Signifikanzniveau :
; .
, = 2 1 , = 1
; .
130
Beispiel 6.3 : In einer Anlage von 10- bis 15-jhrigen Kirschbumen wurde in zwei Jahren, die sich hinsichtlich der Witterung whrend der Blte unterschieden, der Ertrag an acht Bumen ermittelt. Es sollte dabei geklrt werden, ob die Witterungseinflsse zu merklichen Ertragsunterschieden fhrten. Baum i Jahr X Jahr Y Differenz D 1 2 3 34,0 33,5 0,5 4 32,5 36,0 3,5 5 35,0 39,0 4,0 6 31,5 35,0 3,5 7 31,0 33,0 2,0 8 35,5 39,5 4,0
= 35,6875 kg = 33,375 kg ;
sd = 2,3290 kg
= = 2,3125 kg
, ,
131
Yj = b + j
(H)
Yj = axj + b + j (K) .
Da = Es sei
Unter H: a = 0 gilt :
T(x, Y) : = 2
= tn 2 .
d
; .
p Wert : , = 2 1 ,
|T(x, y)| = 4
= 19,925 > t4 ;
0,975
= 2,776 .
y = 0,2383x + 0,16 .
132
= 2,365 .
y = 1,42x + 61,58 .
Beispiel 7.4 : Folgende Daten seien gegeben : i 1 2 3 x 10 20 30 60 y 3,5 3,6 4,8 11,9 x2 100 400 900 y2 12,25 12,96 23,04 xy 35 72 144 251
1400 48,25
rxy =
|T(x, y)| = 1
, , , ,
= 0,899 ;
= 0,05 ; n = 3.
= 2,053 < t1 ;
0,975
= 12,706 .
H : a = 0 kann deshalb nicht verworfen werden. Man hat deshalb das Modell Yj = b + j vor sich.
= =
= 3,97,
d.h. y 3,97 .