You are on page 1of 17

116

Kapitel 7 : Das Testen statistischer Hypothesen 1 Motivation Beispiel 1.1 (Siehe dazu auch Kapitel 6, Beispiel 3.3) : Man mchte wissen, ob die mittlere Krperlnge der Drosophila melanogaster im Hochschwarzwald wie in Rheinhessen gleich 2,3 mm ist, oder nicht. D.h. man mchte die Hypothese (Nullhypothese) gegen die Alternative (Alternativhypothese) testen . Hierzu mit man z.B. die Krperlngen x1, x2, . . . , x25 von 25 Insekten. Die zugehrigen Zufallsvariablen X1, X2, . . . , X25 bilden dann eine iid Stichprobe (X1, X2, . . . , X25) vom Umfang 25.
d Wir nehmen an, da die Xj = N(, ), wobei = 0,09 bekannt ist.

H : = 2,3 K : 2,3

(d.h. H = {2,3}) (d.h. K = IR \ {2,3})

Der Parameter ist unbekannt. Da ein Mittelwert der Verteilung von Xj ist, werden wir ihn durch =

anstelle von H entscheiden (d.h. wir werden H verwerfen) wenn sehr stark von 0 = 2,3 abweicht, d.h. wenn | 2,3| c,

schtzen. Wir werden uns fr K

wobei c ein noch zu bestimmender kritischer Wert ist.

C := { IR 25 . | | 2,3| c } heit kritischer Bereich des Tests.

Definition 1.2 : Ein statistischer Test fr H gegen K ist eine Vorschrift, die fr jedes aus dem Wertebereich von angibt, ob man H verwirft , d.h. sich fr K entscheidet oder nicht, d.h. der Test ist durch seinen kritischen Bereich C IRn : Entscheidung fr K C

gegeben.

117

1.3 Die zwei mglichen Fehler beim Testen, das Signifikanzniveau : Ob ein Test die richtige Entscheidung liefert, hngt von der zuflligen Realisierung der Stichprobe (den Daten !) ab. Es gibt zwei Mglichkeiten, Fehler zu begehen : Fehler erster Art : Man verwirft H, obwohl H zutrifft. Fehler zweiter Art : Man akzeptiert H, obwohl H falsch ist. H verwerfen H richtig H falsch Fr Beispiel 1.1 ergibt sich: Fehler erster Art Fehler zweiter Art H akzeptieren

K = IR \ {0} (diese Wahrscheinlichkeit hngt von ab!) Bemerkung : Je grer man c whlt, um so kleiner wird die Wahrscheinlichkeit fr den Fehler erster Art und um so grer fr den Fehler zweiter Art (fr jedes K).
Diese Situation, da man nicht beide Fehlerwahrscheinlichkeiten gleichzeitig klein machen kann, ist typisch. blicherweise gibt man sich fr die

P(Fehler zweiter Art) = < ,

P(Fehler erster Art) = | |

Wahrscheinlichkeit des Fehlers erster Art eine Schranke vor, die


man zu tolerieren (bzw. zu verantworten) bereit ist, und versucht, unter dieser Einschrnkung einen Test zu finden, fr den die Wahrscheinlich-

keit des Fehlers zweiter Art mglichst klein ist.


Man betrachtet also den Fehler erster Art als den schlimmeren, dessen

Wahrscheinlichkeit man auf jeden Fall kontrollieren will.

118

Definition 1.4 : Diese Schranke nennt man die Signifikanzschranke (oder das Signifikanzniveau ) des Tests. bliche Werte fr : 0,05 ; 0,01 ; 0,005 ; 0,001 . Definition 1.5 : PH(Fehler erster Art) : = max "" Man hat deswegen einen Test zur Signifikanzschranke vor sich, falls sein Niveau . Bemerkung 1.6 : Wir haben hier H und K nicht symmetrisch behandelt. Die Wahrscheinlichkeit fr den Fehler erster Art ist klein (hchstens ), die andere Fehlerwahrscheinlichkeit hat man nicht unter Kontrolle. Sie

heit Niveau des Tests .

knnte gro sein. Deshalb formuliert man den Ausgang des Tests
vorsichtig : Entweder Ablehnung von H zugunsten von K oder H kann nicht

abgelehnt werden.
Insbesondere heit dies, da man H nicht als besttigt ansieht, wenn der Test nicht zur Entscheidung gegen H kommt. 2 Der Gautest 2.1 (Fortsetzung von Beispiel 1.1) : Zu berechnen ist das Niveau P(Fehler erster Art) = | | .

d

d Unter H ist = N(0, ) TG() : =

= N(0,1)

(siehe Kapitel 6, Beispiel 1.3, Bemerkung 2.5 und Kapitel 5, 2.3 und 2.4). Fr das Niveau des Tests ergibt sich :

| | = | X|

= | X| b,

119

wobei b : =

Setzt man nun | | = , so ergibt sich :

= (1 (b)) + ( b),

= | X| b = X b + X b =
da (x) symmetrisch um die y-Achse ist (siehe Kapitel 6, 3.1)

wobei die Werte von z tabelliert sind. Hieraus ergibt sich unmittelbar :

= 2(1 (b)) (b) = 1


c =

b = ,

, d.h.

C = | = | = | |

C = | = | = | |

Definition 2.2 : Der Test mit dem kritischen Bereich

heit zweiseitiger Gautest mit Signifikanzniveau H : = 0 gegen K : 0 :

fr

120

2.3 Fr unser Zahlenbeispiel 1.1 gilt:

Es sei = 0,05; also = z0,975 = 1,960.

n = 25; 0 = 2,3; 0 = 0,3.

| | >

Wir entscheiden uns also fr K : 2,3 mm, falls

> 2,418

> 2,418

oder < 2,182 .

,,

= 0,118

oder < 2,182 .

2.4

Einseitiger Gautest mit Signifikanzniveau :


Wir testen a) H : 0 b) H : 0 gegen gegen K : > 0 (rechtsseitiger Test) K : < 0 (linksseitiger Test).

d (X1, X2, . . . , Xn) sei wieder eine iid. Stichprobe mit Xj = N(, ),

wobei bekannt ist. Signifikanzniveau : .

Rechtsseitiger Test a)

hnlich wie beim zweiseitigen Test erhlt man fr TG() = C = = = | d.h. man lehnt H ab , wenn

wenn zu gro ist.

Wir werden uns gegen H entscheiden ,


,
.

121

Linksseitiger Test b)

hnlich wie beim zweiseitigen Test erhlt man fr TG() = C = = = d.h. man lehnt H ab , wenn

wenn zu klein ist.

Wir werden uns gegen H entscheiden ,


Beispiel 2.5 : Angenommen wir wollen testen, ob die mittlere Krperlnge der Drosophila melanogaster im Hochschwarzwald allenfalls kleiner ist als in Rheinhessen, und deshalb anhand der Daten berprfen, ob der Schwellenwert 0 = 2,3 wirklich unterschritten wird, d.h. wir testen : H : 2,3 gegen K : < 2,3 .

Da n = 25, 0 = 0,3 und fr = 0,05 z1 = z0,95 = 1,645, ergibt sich


z1

2,3

,,

= 0,099

Wir entscheiden uns also fr K : < 2,3 , wenn

2,201 .

122

3 Der Studentsche t Test 3.1


Beim Gautest mu die Varianz bekannt sein, was in der

Praxis nur in seltenen Fllen angenommen werden kann, z.B. wenn die Stichprobe (X1, X2, . . ., Xn) sehr gro ist. Deshalb betrachten wir jetzt die Situation, da X1, X2, . . ., Xn eine iid. nach N(,2) verteilte Stichprobe ist, wobei nun 2 unbekannt ist.

2 mu nun durch die unverzerrte Stichprobenvarianz 1 = 1


geschtzt werden. Wir mssen nun TG() durch die t Statistik :

Falls 0 der zugrunde liegende Parameter ist , dann ist Tt() nach tn 1, der Studentschen t Verteilung mit (n 1) Freiheitsgraden verteilt, siehe Kapitel 6, Bemerkung 2.5 (ii). tn 1 ; sei das Quantil von tn 1, 0 < < 1. (Diese Werte sind tabelliert !). Satz 3.2 : Gegeben sei das Signifikanzniveau > 0. t = Tt( x ) sei die Realisierung von Tt( X ). Fr den t Test (2 unbekannt !) ergeben sich nun folgende kritische Bereiche: (1) Zweiseitiger t Test : H : = 0 gegen K : 0 : C = | | ; .

123

(2) Rechtsseitiger t Test :

a)

H : 0 gegen K : > 0 : C = { x | t tn 1; 1 } .

Linkssseitiger t Test :

b)

H : 0 gegen K : < 0 : C = { x | t tn 1; 1 } .

Beispiel 3.3 (Riede) : Aus jahrelangen Beobachtungen mit einer Population von Musen ist bekannt, da das Gewicht vier Wochen alter Tiere im Mittel 0 = 13,0 g betrgt. Es liege eine Stichprobe von fnf Musen vor : 14; 11,5; 12; 14; 21 g. Der Sichprobenmittelwert betrgt
x = 14,5 g.

Liegt dieser Wert noch innerhalb der biologischen Variabilitt? Ist die Abweichung von 0 = 13,0 g noch durch den Zufall zu erklren? Wir nehmen hierzu an, da das Gewicht gem N(, 2) verteilt ist, und fhren auf dem Signifikanzniveau = 0,05 einen zweiseitigen t Test : H : = 0 gegen K : 0 durch. Es ergeben sich : |t| =
x 13 su 5 =

Freiheitsgrade n 1 = 4 ; su = 3,81 ;
14,5 13 5 3,81

= 0,880 < t 4; 0,975 = 2,776 .

H kann also nicht verworfen werden, d.h. wir knnen die Abweichungen dem Zufall zuschreiben. Beispiel 3.4 (Vogt) : Man vermutet, da bei Personen, die zu Herzinfarkt neigen, der Eisengehalt des Serums mit einem hheren Durchschnittswert verteilt sein knnte. Es ist bekannt, da dieser Eisengehalt bei gesunden Mnnern um 0 = 115 (Mikrogramm / Deziliter) normalverteilt ist. Bei n = 16 Mnnern, die schon einen Infarkt berlebt haben und nach wie vor infarktgefhrdet sind, mit man folgende Werte :

124

123, 137, 148, 155, 109, 104, 136, 141, 115, 165, 147, 118, 107, 99, 104, 118. Zur statistischen Untermauerung obiger Vermutung fhren wir einen einseitigen t Test Es ergeben sich : su = H : 0 gegen K : >0 Freiheitsgrade n 1 = 15 ; x = 126,625 ; = 20,545;

auf dem Signifikanzniveau = 0,05 durch.

1 16 2 (xi 126,625) 15 i =1

t =

126,625 115 16 = 2,263 > t 15; 0,95 = 1,753. 20,545

Wir lehnen also H zugunsten von K : > 115 ab. 4 Der p Wert 4.1
X = (X1 , X 2 , K, X n )

Situation und Beschreibung :

sei eine Stichprobe vom Umfang n, wobei die Xk

nach N(, 2) verteilt sind, und x = (x 1 , x 2 , K, x n ) seien zugehrige Daten. Betrachten wir den Gautest und den t-Test . Diese Tests sind (bzw. b) legen den kritischen Bereich C (wo H abgelehnt wird) fest. ber eine Teststatistik T() definiert, T( ) und ein kritischer Wert c

T() erzeugt mit variierenden kritischen Werten eine ganze Familie

von Tests , die verschiedenen Niveaus entsprechen. In dieser Situation


ist es blich, nicht nur zu entscheiden, ob die Daten zur Verwerfung

von H auf einem vorgegebenen Signifikanzniveau fhren, sondern da man bestimmt einen sogenannten p Wert p( ) mit der Eigenschaft , H nicht verworfen werden kann, falls p( > ) . H verworfen wird, falls p( < ) und

125

Salopp lt sich sagen :


beobachtet wurde.

p( ) ist das kleinste Niveau, auf dem der Test H verwirft, wenn

Der p Wert vermittelt ein Gefhl dafr, wie stark die beobachteten

Daten der Nullhypothese H widersprechen (oder sie untersttzen).


Weiter ermglicht die Angabe des p Wertes anstelle einer ja oder

nicht kennen oder die Testprozedur nicht selbst durchfhren wollen,


zu treffen:

nein Entscheidung auch anderen Anwendern, welche die Daten

ihre Entscheidung auf einem Signifikanzniveau ihrer eigenen Wahl


p(x) : H ist zu verwerfen

Nullhypothese H.

Je kleiner also p( ) ist, umso mehr widersprechen die Daten der


4.2 Hier ist TG() =

p(x) > : H kann nicht verworfen werden. Bestimmung von p(x) :

Betrachten wir zunchst den linksseitigen Gautest

Fr < ist

z1 < z1

und C = = .

0 : < 0 .

C C .

Daraus ergibt sich :

< p(x) TG( < ) z1 , H wird verworfen.


Aus Stetigkeitsgrnden folgt:

> p(x) TG( > ) z1 , H kann nicht verworfen werden. = p(x) TG( = ) = TG( ) 1 p(x) = ( TG( )) p(x) = 1 ( TG( = ( )) (TG())) .
, ,

Beispiel 2.5 : p(x) = 1

( =

, ,

).

126

Fr den rechtsseitigen und den zweiseitigen Gautest erhlt man die p Werte mit hnlichen berlegungen. Satz 4.3 (p Werte des Gautests) : Rechtsseitiger Test : p(x) = ( TG( = )) 1 (TG()) Linksseitiger Test : Zweiseitiger Test : p(x) = 2(1 (|TG()|) . Teststatistik TG() =

p(x) = (TG( = )) 1 ( TG())

Analog ergeben sich die p Werte fr den Studentschen t-Test. Satz 4.4 (p Werte des t-Tests) : Teststatistik Tt() =

Rechtsseitiger Test : p(x) = tn-1( Tt( = )) 1 tn-1(Tt()) Linksseitiger Test : Zweiseitiger Test : Beispiel 3.3 : |Tt(= |) p(x) = 2(1 tn-1(|Tt()|) .
5 14,5 13 3,81

, =

p(x) = tn-1(Tt( = )) 1 tn-1( Tt())

= 0,880

p(x) = 2(1 t4(0,880)) 2(1 0,78) = 0,44 , d.h. H kann auf keinem vernnftigen Signifikanzniveau verworfen werden. Beispiel 3.4 : Tt(= )

fikanzniveau = 0,05 verworfen werden.

p(x) = 1 t15(2,263)) 1 0,98 = 0,02, d.h. H kann auf dem Signi-

16 (126,625 115) = 2,263 20,545

127

5 Zwei Stichproben t Test : Unverbundener Test 5.1 Situation und Konstruktion der Teststatistik :

Stichproben, ( , , , , , , , sind unabhngig.) und Xj = N(, 2), Yk = N(, 2). 2 unbekannt.


d d

= , , , und = , , , seien zwei unabhngige

(a) Zweiseitiger Test : (b) Einseitiger Test : Man wird studieren.


d

H : = gegen K : H : gegen K : >

varianzen. Wir schtzen 2 durch

und seien die zu und gehrigen unverzerrten Stichproben 1 + 1 1 . = = + + 2 + 2

= N( , 2 + ) = N( , 2

).

, : =

; 1

ist unter der Bedingung =

1 + 1

nach t n+m-2 verteilt.

Definition 5.2 :

Der unverbundene t Test zum Signifikanzniveau hat die folgenden kritische Bereiche und p Werte : C = , | |t| ; ; , = 2 1 , .

t = , sei eine Realisierung von , .

(1) Zweiseitiger Test :

H : = gegen K : :

128

(2) Einseitiger Test :

C = , | t ; ; , = 1 , .

H : gegen K : > :

Beispiel 5.3 (Khler, Schachtel, Voleske) : In einer landwirtschaftlichen Versuchsanstalt erhielten 9 von 22 Masttieren (Gruppe A) Grnfutterzumischung, whrend die brigen 13 Tiere (Gruppe B) ausschlielich mit dem proteinhaltigen Mastfutter gefttert wurden. Nach einer gewissen Zeit wurde die Gewichtszunahme in kg bei den Tieren festgestellt : A: 7,0 11,8 10,1 8,5 10,7 13,2 9,4 7,9 11,1

B: 13,4 14,6 10,4 11,9 12,7 16,1 10,7 8,3 13,2 10,3 11,3 12,9 9,7 Fhren beide Ftterungen zu gleichen Mastergebnissen? Annahme : X1, . . ., X9 = N(, 2)
d
d

(Gruppe A) und

Y1, . . ., Y13 = N(, 2) (Gruppe B) , wobei

und die jeweilige erwartete Gewichtszunahme.


Zu testen ist also : H : = gegen K : . Wir whlen = 0,05 .

= 9,97

, ,

= 11,96

= 3,90

= 4,302 sg = 2,074

= 4,57
,

|t| =

, , ,

= 2,2127 > t20;0,975 = 2,086,

d.h. H ist zu verwerfen, bzw. die Mastergebnisse sind verschieden.

, = 2 1 2,2127 2(1 0,98) = 0,04 .

129

6 Zwei Stichproben t Test : Verbundener Test 6.1 Situation und Konstruktion der Teststatistik :

Verbundene Stichproben: ( z.B. die beiden Hlften eines Blattes werden verschieden behandelt, oder dieselbe Gruppe von Individuen oder Objekten wird vor und nach einer Behandlung untersucht.) (X1, Y1), (X2, Y2), . . ., (Xn, Yn) seien also unabhngige Paare von Beobachtungen. (Xj und Yj brauchen nicht unabhngig zu sein!)

j : = E(Xj) und j : = E(Yj) , j = 1, 2, . . ., n.


Wir wollen testen, ob (a) (b) H : 1 = 1 , . . ., n = n oder K : (1 , . . ., n) (1 , . . ., n) K : j j , j = 1, 2, . . ., n, und mindestens ein i > i . Annahme : Alle Differenzen Xj Yj , j = 1, 2, . . ., n, sind normalverteilt, bzw. ob H : j j , j = 1, 2, . . ., n oder

alle mit derselben unbekannten Varianz 2.


2 sei die zugehrige unverzerrte Stichprobenvarianz. Sd

Ist 1 = 1 , . . ., n = n , so sind alle

Dj = N(0, 2) .
d

Dies berprfen wir nun mit dem uns bekannten Studentschen t Test (3) : Definition 6.2 : Verbundener t Test zum Signifikanzniveau :

(1) Zweiseitiger Test : 1 = 1 , . . ., n = n wird genau dann abgelehnt,


wenn

(2) Einseitiger Test : j j , j = 1, 2, . . ., n, wird genau dann abgelehnt, wenn

; .

, = 2 1 , = 1

; .

130

Beispiel 6.3 : In einer Anlage von 10- bis 15-jhrigen Kirschbumen wurde in zwei Jahren, die sich hinsichtlich der Witterung whrend der Blte unterschieden, der Ertrag an acht Bumen ermittelt. Es sollte dabei geklrt werden, ob die Witterungseinflsse zu merklichen Ertragsunterschieden fhrten. Baum i Jahr X Jahr Y Differenz D 1 2 3 34,0 33,5 0,5 4 32,5 36,0 3,5 5 35,0 39,0 4,0 6 31,5 35,0 3,5 7 31,0 33,0 2,0 8 35,5 39,5 4,0

36,0 31,5 34,0 35,5 2,0 4,0

Da der Ertrag jeweils am selben Baum ermittelt wurde, mu ein verbun-

= 35,6875 kg = 33,375 kg ;
sd = 2,3290 kg

dener t Test durchgefhrt werden. Wir whlen = 0,05 .

= = 2,3125 kg

d.h. H ist zu verwerfen. Es bestehen also merkliche Ertragsunterschiede.

, ,

8 = 2,808 > t7; 0,975 = 2,365 ,

, = 2 1 2,808 2(1 0,99) = 0,02 .


7 t-Test fr den Parameter a der Steigung einer Regressionsgeraden (Siehe Kapitel 4, 2) 7.1 Situation : Yj = axj + b + j , 1 j n. Man interessiert sich dafr, ob die deterministische Variable x statistisch relevant ist, d.h. man hat das Testproblem H: a = 0 gegen K: a 0 .

131

Genauer: Man testet das Modell gegen das Modell

Yj = b + j

(H)

Yj = axj + b + j (K) .

Im Falle, da H nicht verworfen werden kann,

= . d.h. Yj = b + j , 1 j n, wird b geschtzt als

Wir setzen voraus, da die Yj unabhngig und normalverteilt sind,


d d.h. Yj = N(axj + b, 2) , 1 j n.

Da = Es sei

, ist die Gre rxy von Bedeutung. (d.h. rxy = (x,y)).

Unter H: a = 0 gilt :

T(x, Y) : = 2

= tn 2 .
d

Fr das Signifikanzniveau ergibt sich daher folgender kritische Bereich : C = x, y |Tx, y| = 2


; .

p Wert : , = 2 1 ,

|T(x, y)| = 4

Beispiel 7.2 : (Eichung eines Voltmeters) = 0,05 ; n = 6 ; rxy = 0,995


, ,

= 19,925 > t4 ;

0,975

= 2,776 .

H ist also abzulehnen, d.h. die Regressionsgerade ist

, = 2 1 19,925 < 2(1 0,9995) = 0,001.

y = 0,2383x + 0,16 .

132

Beispiel 7.3 : (Phosphor in Bden und Maispflanzen) |T(x, y)| = 7


,

= 0,05 ; n = 9 ; rxy = 0,805


= 3,590 > t7 ;
0,975

H ist also abzulehnen, d.h. die Regressionsgerade ist

= 2,365 .

, = 2 1 3,590 2(1 0,9954) 0,01.

y = 1,42x + 61,58 .

Beispiel 7.4 : Folgende Daten seien gegeben : i 1 2 3 x 10 20 30 60 y 3,5 3,6 4,8 11,9 x2 100 400 900 y2 12,25 12,96 23,04 xy 35 72 144 251

1400 48,25

rxy =

|T(x, y)| = 1

, , , ,

= 0,899 ;

= 0,05 ; n = 3.

= 2,053 < t1 ;

0,975

= 12,706 .

H : a = 0 kann deshalb nicht verworfen werden. Man hat deshalb das Modell Yj = b + j vor sich.

= =

= 3,97,

d.h. y 3,97 .

, = 2 1 2,053 2(1 0,84) = 0,32.

You might also like