You are on page 1of 670

See discussions, stats, and author profiles for this publication at: https://www.researchgate.

net/publication/259762088

Liczby nie wiedzą skąd pochodzą. Przewodnik po metodologii i statystyce nie


tylko dla psychologów. (Numbers do not know where they come from. A guide
through methodology and statis...

Book · January 2007

CITATIONS READS

32 32,387

2 authors:

Piotr Francuz Robert Mackiewicz


John Paul II Catholic University of Lublin SWPS University of Social Sciences and Humanities
133 PUBLICATIONS   411 CITATIONS    11 PUBLICATIONS   90 CITATIONS   

SEE PROFILE SEE PROFILE

Some of the authors of this publication are also working on these related projects:

Mental simulations in abduction and deduction of algorithms View project

Determinants of musical syntax processing. ERP study View project

All content following this page was uploaded by Piotr Francuz on 08 August 2016.

The user has requested enhancement of the downloaded file.


SPIS TREŚCI

Część I. O METODACH BADAŃ PSYCHOLOGICZNYCH


WPROWADZENIE 3

1. POSTĘPOWANIE BADAWCZE W PSYCHOLOGII 9


1.1. Problem i pytanie badawcze 9
1.2. Formułowanie hipotez badawczych 21
1.3. Zmienne i ich pomiar 26
1.4. Zmienne w eksperymentach psychologicznych 40
1.5. Operacjonalizacja zmiennych – klucz do eksperymentu 54

2. PROJEKTOWANIE EKSPERYMENTÓW 59

Część II. PRAWDOPODOBIEŃSTWO I ZMIENNA LOSOWA

3. PODSTAWOWE POJĘCIA Z RACHUNKU


PRAWDOPODOBIEŃSTWA 79

4. WYNIKI EKSPERYMENTU JAKO ZMIENNA LOSOWA 89


4.1. Próba i populacja 89
4.2. Zmienna losowa i jej rozkład 95
4.3. Porządkowanie danych, czyli o szeregu rozdzielczym 106
4.4. Graficzne metody prezentacji danych 117
4.5. Parametry rozkładu zmiennej losowej 131
4.6. Wskaźniki zmienności 152
4.7. Typy rozkładów zmiennej losowej 171
VI SPIS TREŚCI

Część III. WNIOSKOWANIE STATYSTYCZNE

5. PODSTAWY WNIOSKOWANIA STATYSTYCZNEGO 209


5.1. Estymacja, czyli oszacowanie 209
5.2. Logiczne podstawy testowania hipotez statystycznych 245
5.3. Błędy wnioskowania statystycznego 256

6. TESTOWANIE HIPOTEZ DOTYCZĄCYCH ŚREDNICH 277


6.1. Czy badana próba pochodzi z populacji o znanych
parametrach? 277
6.2. Czy dwie próby różnią się między sobą? 301
6.3. Analiza wariancji, czyli badanie różnic między wieloma
próbami 319
6.4. Statystyka na progu XXI wieku 387

7. TESTY NIEPARAMETRYCZNE 407


7.1. Co to są testy nieparametryczne i kiedy się je stosuje? 407
7.2. Czy dwie cechy jakościowe są zależne od siebie? 415
7.3. Testy nieparametryczne dla dwóch prób 429
7.4. Testy nieparametryczne dla więcej niż dwóch próbek 445
7.5. Porównanie otrzymanych wyników z rozkładem
teoretycznym 454

8. ANALIZA KORELACJI I REGRESJI 471


8.1. Pojęcie korelacji i współczynnik r Pearsona 471
8.2. Korelacje dla danych porządkowych 513
8.3. Analiza regresji 527

Część IV. DODATEK GRATIS


9. JAK NAPISAĆ RAPORT Z BADAŃ? 579

Część V. NA DOBRY POCZĄTEK 617


Bibliografia 619
Indeks 629
Aneks: tablice statystyczne 635
SZCZEGÓŁOWY SPIS TREŚCI

Część I. O METODACH BADAŃ PSYCHOLOGICZNYCH


WPROWADZENIE 3
• Czym się zajmują psychologowie? 3
• Kilka słów o podstawowych metodach badań psychologicznych 3
• Obserwacja 4
• Eksperyment 4
• Magia liczb 5
• Rola liczb w nauce – przykład z Eskimosami 5
• Co ma statystyka do ludzkich zachowań? 6

1. POSTĘPOWANIE BADAWCZE W PSYCHOLOGII 9


1.1. PROBLEM I PYTANIE BADAWCZE 9

• Ciekawość poznawcza – podstawowy warunek poszukiwania problemów


badawczych 9
• Po co zdobywać wiedzę, skoro wszystko jest w Internecie? 10
• Skąd czerpać informacje naukowe? 11
• Internet – a jednak kopalnia wiedzy! 12
• Jak organizować to, co się wie? 13
• Nowa terminologia – nowy język 14
• Kilka pouczających przykładów użycia języka naukowego w psychologii 14
• Od problemu do pytania badawczego 15
• Dwa podstawowe rodzaje pytań badawczych 15
• Jak poprawnie sformułować pytanie badawcze? 16
• Kilka słów o założeniach pytania 17
• O wyjaśnianiu, czyli „dlaczego tak właśnie jest?” 17
• Jaką rolę w wyjaśnianiu odgrywają konstrukty teoretyczne? 18
• Wyjaśnianie to poszukiwanie przyczyn i budowanie teorii 19
• Wyjaśnianie to także weryfikowanie już istniejących teorii naukowych 19
• Falsyfikacja – szukanie dziury w całym 20
• Jak przebiega rozumowanie w postępowaniu naukowym? 21

1.2. FORMUŁOWANIE HIPOTEZ BADAWCZYCH 21


• Co to jest hipoteza badawcza? 21
• Hipotezy nie powinny być ani zbyt ogólne, ani zbyt szczegółowe 22
• Hipoteza badawcza powinna być empirycznie sprawdzalna 24
• Hipoteza powinna być prosta 25
VIII SZCZEGÓŁOWY SPIS TREŚCI

1.3. ZMIENNE I ICH POMIAR 26


• Cecha a zmienna 26
• Cechy stałe i zmienne 26
• Zmienne ilościowe i jakościowe – cóż to takiego? 27
• Co to jest pomiar? 28
• Jak można mierzyć zmienne nieobserwowalne? 29
• Skale do pomiaru zmiennych 29
• Pomiar na skalach typu nominalnego 30
• Cechy pomiaru na skali nominalnej 30
• Pomiar na skalach porządkowych 31
• Skala porządkowa i logiczne relacje pomiędzy obiektami 31
• Skala porządkowa a pomiar cech w psychologii 32
• Jeśli skala rangowa, to rangi i rangowanie 33
• Rangi wiązane 33
• Pomiar na skali przedziałowej – skale Celsjusza i Fahrenheita 34
• Skala przedziałowa i pomiar w psychologii – iloraz inteligencji 35
• Rodzaje skal przedziałowych 36
• Pomiar na skali stosunkowej 38
• Raz jeszcze o pomiarze temperatury 38
• Wykorzystanie skali stosunkowej w badaniach psychologicznych 39
• Raz jeszcze o wszystkich rodzajach skal pomiarowych 39

1.4. ZMIENNE W EKSPERYMENTACH PSYCHOLOGICZNYCH 40


• Co to jest eksperyment psychologiczny? 40
• Zmienne niezależne i zależne 41
• Przykład eksperymentu psychologicznego – efekt Rosenthala 42
• Zmienne i stałe w eksperymentach psychologicznych 42
• Zmienna niezależna główna a kanon jedynej różnicy Johna S. Milla 43
• Czy zmienna niezależna naprawdę różnicuje badane grupy? 44
• Trzy grupy zmiennych niezależnych ubocznych 45
• Różnice indywidualne między osobami badanymi 45
• Czynniki zewnętrzne 46
• Błędy procedury eksperymentalnej – instrukcja 47
• Zmienne zakłócające 48
• Okazjonalne zmienne zakłócające 49
• Zmienna zależna 50
• Czy zmienne zależne zależą od osób badanych czy od zmiennych
niezależnych? 51
• Jedna zmienna czy wiele zmiennych? 52

1.5. OPERACJONALIZACJA ZMIENNYCH – KLUCZ DO


EKSPERYMENTU 54
• Terminy teoretyczne i terminy empiryczne 54
• Operacjonalizacja – definicja i przykład ze szczurem w labiryncie 54
• Znaczenie kontekstu teoretycznego w operacjonalizacji zmiennych 55
• Krótko o zdaniach teoretycznych i zdaniach empirycznych 56
• Operacjonalizacja zmiennej poprzez grupę wskaźników 57
• Operacjonalizacja a tradycja badawcza 57
SZCZEGÓŁOWY SPIS TREŚCI IX

2. PROJEKTOWANIE EKSPERYMENTÓW 59
• Eksperyment jako procedura pozwalająca na zbieranie danych 59
• Modelowanie badań empirycznych 59
• Układ z dwoma grupami badawczymi – przykład z mikrusem grającym na puzonie 60
• Warunki poprawności układu z dwoma grupami badawczymi 61
• Układ z powtarzanymi pomiarami w jednej grupie badanej – o tygrysach i kuguarach 62
• Jakie zalety ma układ z powtarzanymi pomiarami? 63
• Jakie są wady układu z powtarzanymi pomiarami? 65
• Badanie eksperymentalne i różnicowe 67
• Pretest i posttest zmiennej zależnej 67
• Plan czterogrupowy Salomona 68
• Układ Solomona jako przykład eksperymentu czynnikowego 69
• Eksperyment czynnikowy z czterema grupami badanych – o fałszywych zeznaniach 70
• Plany eksperymentalne – uogólnienie na wiele zmiennych 72
• Plany z powtarzanymi pomiarami – wiele grup badanych 72
• Badania bez manipulacji eksperymentalnej 72
• Badanie korelacyjne 73
• Korelacja wielokrotna i związki krzywoliniowe 74

Część II. PRAWDOPODOBIEŃSTWO I ZMIENNA LOSOWA

3. PODSTAWOWE POJĘCIA Z RACHUNKU


PRAWDOPODOBIEŃSTWA 79
• Co zwykle rozumiemy przez „prawdopodobieństwo”? 79
• Eksperymenty grupy Kahnemana i Tversky’ego 79
• Prawdopodobieństwo obiektywne i subiektywne – przykład ze świadkiem na ślubie 80
• Prawdopodobieństwo pojedynczego zdarzenia 81
• Częstość zjawisk i zaniedbywanie tzw. prawdopodobieństw bazowych 81
• Problem taksówek w wersji łatwiejszej 82
• Podsumowanie sporu o rozumienie prawdopodobieństwa 83
• Matematyczna definicja prawdopodobieństwa – aksjomaty Kołmogorowa 84
• Częstościowe rozumienie prawdopodobieństwa 85
• Prawdopodobieństwo iloczynu dwóch zdarzeń 86
• Błąd koniunkcji 86
• Proporcje, ułamki, procenty 88

4. WYNIKI EKSPERYMENTU JAKO ZMIENNA LOSOWA 89


4.1. PRÓBA I POPULACJA 89
• Kłopoty eksperymentatora 89
• Pojęcie populacji 89
• Typy populacji w bazie PsycInfo 90
• Próba losowa – próba prosta 90
• Próba złożona – próba warstwowa – losowanie grupowe 91
• Próba incydentalna – badanie ochotników 92
• Jaki wpływ na wynik eksperymentu może mieć dobór osób badanych? 93
• Plusy i minusy eksperymentów z udziałem studentów 94
X SZCZEGÓŁOWY SPIS TREŚCI

4.2. ZMIENNA LOSOWA I JEJ ROZKŁAD 95


• Niejednoznaczność wyników eksperymentów 95
• Eksperyment psychologiczny to doświadczenie losowe 95
• Zmienna losowa – co to takiego? 96
• Wyniki rzutu kostką – przykład zmiennej losowej 96
• Rozkład zmiennej losowej 99
• Teoretyczny i empiryczny rozkład zmiennej losowej 99
• Eksperyment psychologiczny – poszukiwanie przyczyn zmienności 100
• Zmienne losowe ciągłe i dyskretne 101
• Wykresy rozkładu prawdopodobieństwa dyskretnej zmiennej losowej 102
• Zmienne ciągłe – przedziałowy charakter pomiaru 102
• Wykres rozkładu prawdopodobieństwa zmiennej losowej ciągłej 103

4.3. PORZĄDKOWANIE DANYCH, CZYLI O SZEREGU


ROZDZIELCZYM 106
• Dużo danych 106
• Zbyt wiele danych to brak danych 107
• Zacznijmy jeszcze raz: po pierwsze, musimy mieć... armaty 107
• Kilka słów o rozpiętości zbioru danych 108
• Związki między rozpiętością, interwałem i liczbą przedziałów klasowych 109
• Do szeregu, wstąp! 111
• Sprawdzamy rachunki, czyli powtórka z wzorologii 112
• O komputerowych interwałach 113
• Czym się różni środek przedziału klasowego od średniej arytmetycznej? 114
• „Jeden w rozumie” – kilka słów o kumulacji 116

4.4. GRAFICZNE METODY PREZENTACJI DANYCH 117


• Żyjemy w „kulturze obrazkowej”...117
• Wielobok liczebności (poligon) 118
• Wykres słupkowy (histogram) 120
• Krzywa wyrównana 121
• Krzywa skumulowana 123
• Histogram skumulowany 124
• Wykres kołowy 125
• Skalowanie współrzędnych wykresu 126
• Przesadny makijaż jest w złym guście! 128
• Kiedy słupki, a kiedy linie? 129
• Nieczytelność wykresu, czyli o przeroście formy nad treścią 129
• Krótkie podsumowanie 131

4.5. PARAMETRY ROZKŁADU ZMIENNEJ LOSOWEJ 131


• Jeszcze raz o teoretycznym i empirycznym rozkładzie zmiennej losowej 131
• Parametry rozkładu i statystyki opisowe 132
• Arytmetyczne właściwości średniej arytmetycznej 133
• Jak sobie radzić z zafałszowaniem średniej? 134
• Średnia arytmetyczna a skala pomiarowa 134
• Kilka słów o symbolach i wzorach statystycznych 135
• Symboliczne oznaczenia zbiorów danych 135
• Indeksowanie, czyli jak się odwołać do dowolnego wyniku w zbiorze danych? 136
• Symboliczne oznaczenia liczebności zbioru danych 137
• Wzór na średnią arytmetyczną trochę inaczej 137
SZCZEGÓŁOWY SPIS TREŚCI XI

• Błąd w obliczaniu średniej – przykład z ziemniakami 139


• Pensje dla kadry i pracowników, czyli o średniej ważonej 140
• Jeszcze inaczej o średniej ze średnich i średniej ważonej 140
• Średnia arytmetyczna jako wartość oczekiwana 142
• Wartość oczekiwana, nadzieja matematyczna – loterie uczciwe i nieuczciwe 143
• Wartość oczekiwana w ciągłych i nieciągłych rozkładach zmiennej losowej 144
• Geometryczna interpretacja średniej arytmetycznej 145
• O medianie i korzyściach płynących z używania kart American Express 146
• Sposób obliczania mediany 147
• Obliczanie mediany a skale pomiarowe 148
• Kwartyle 148
• Sposób obliczania kwartyli 149
• Inne miary położenia 149
• Kwantyle 150
• Modalna 151
• Miary tendencji centralnej 152

4.6. WSKAŹNIKI ZMIENNOŚCI 152


• Dlaczego konieczne jest obliczanie miar zmienności dla zbioru danych? 152
• Jak policzyć wariancję? 154
• Matematyczne własności wariancji 155
• Wariancja jako nadwyżka średniej kwadratów nad kwadratem średniej – o co
chodzi? 156
• Zakupy w supermarkecie, czyli o wariancji dla średnich 157
• Kryterium podziału jako zasada wyjaśniająca zmienność w zbiorze danych 158
• Odchylenie standardowe 159
• Wariancja i odchylenie standardowe jako wskaźniki statystyczne 161
• Odchylenie przeciętne, czyli średnie odchylenie od średniej 163
• Odchylenie ćwiartkowe 164
• Rozpiętość lub inaczej rozstęp 165
• Statystyki opisowe – podsumowujący przykład z bezrobotnymi 166
• Statystyki opisowe – co tak naprawdę znaczą? 167
• Uwaga na koniec: zawsze spójrz na dane surowe, zanim zaczniesz
obliczenia 169

4.7. TYPY ROZKŁADÓW ZMIENNEJ LOSOWEJ 171


• O wykładach ze statystyki profesora Wesołego i Smutnego 171
• Tajemnica średniej arytmetycznej 172
• Jeszcze raz o teoretycznych i empirycznych rozkładach zmiennej 174
• Zgadnij, ile wypadnie orłów 176
• Dwumian sir Izaaka Newtona i trójkąt Błażeja Pascala 180
• Różne rozkłady cech dwuwartościowych 181
• Czy nie za dużo dziewczyn studiuje psychologię? 182
• Teraz już całkiem na serio: dane empiryczne i rozkłady teoretyczne 183
• Czy młodzież ze wsi i z miasta ma takie same szanse na studiowanie? 185
• Moivre, Galton, Gauss i Laplace o rozkładzie normalnym 186
• Właściwości rozkładu normalnego 187
• O dowcipie Ramseyera i prawdopodobieństwie w rozkładzie normalnym 188
• Rozkład normalny a rozkład dwumianowy 189
XII SZCZEGÓŁOWY SPIS TREŚCI

• Kobiece kształty rozkładu normalnego 191


• Rozkład normalny: teoretyczny i najlepiej dobrany 192
• Rodzina rozkładów normalnych 193
• Superekspresem czy na piechotę? Refleksja o życiu, w kontekście poszukiwania
powierzchni pod krzywą normalną 193
• Rozkład normalny standaryzowany w tablicach statystycznych 194
• Wyniki standaryzowane z 196
• Pole powierzchni w rozkładzie normalnym, prawdopodobieństwo i procenty 199
• Zapamiętaj, człowieku! Rozkład normalny jest rozkładem zmiennej losowej
ciągłej 200
• Jak myślisz, ilu studentów dostało dokładnie 20 punktów na egzaminie? 201
• A jeśli byłbyś właścicielem hotelu w Wenecji? 203
• No to podsumujmy 204
• Czy pan Sławek ma wystarczające powody, żeby cieszyć się z podwyżki? 205

Część III. WNIOSKOWANIE STATYSTYCZNE

5. PODSTAWY WNIOSKOWANIA STATYSTYCZNEGO 209


5.1. ESTYMACJA, CZYLI OSZACOWANIE 209
• Czy brałeś udział w ostatnich wyborach prezydenckich? 209
• Wielkość próby a dokładność oszacowania 209
• „Prawo małych liczb” 210
• Powtarzamy losowanie małych prób 212
• Ile to jest „mało”, czyli kiedy można zapomnieć o prawie małych liczb? 213
• Prawo wielkich liczb Jakuba Bernoulliego 215
• Co to znaczy, że średnia ze średnich zbliża się do średniej w populacji? 216
• Estymacja, czyli oszacowanie 218
• Statystyki próby, parametry populacji 218
• Estymatory 220
• Kwantyle w próbie jako estymatory kwantyli w populacji 221
• Czy wariancja z próby jest dobrym estymatorem wariancji z populacji? 222
• Nieobciążony estymator wariancji 224
• Estymacja punktowa 226
• Estymacja przedziałowa 227
• Centralne twierdzenie graniczne 228
• Centralne twierdzenie graniczne a rozkład normalny 229
• Centralne twierdzenie graniczne a średnia i odchylenie standardowe w rozkładzie
normalnym 232
• Rozkład średnich z próby i właściwości rozkładu normalnego 234
• W jakim zakresie możesz ufać średniej z próby, gdy nic nie wiesz na temat
populacji? 236
• Od czego zależy wielkość przedziału ufności dla średniej? 238
• W jaki sposób wartość średniej w próbie wpływa na położenie przedziału
ufności? 240
• Estymacja przedziałowa: czyli o tym, co wiadomo, i o tym, czego nie
wiadomo 241
• A jak Polacy naprawdę głosowali w wyborach prezydenckich 2000
i parlamentarnych 2001? 243
• Jak duża musi być próba, aby można było estymować średnią? 244
SZCZEGÓŁOWY SPIS TREŚCI XIII

5.2. LOGICZNE PODSTAWY TESTOWANIA HIPOTEZ


STATYSTYCZNYCH 245
• Czy pamiętasz dużo zdarzeń z dzieciństwa? 245
• Hipotezy badawcze i hipotezy statystyczne 245
• Hipotezy jednostronne i dwustronne, czyli w lewo i w prawo 246
• Czy jeśli ulica jest mokra, to padał deszcz? O prawdziwości hipotez
statystycznych 248
• Indukcja i eksperyment psychologiczny 250
• Kanon jedynej różnicy, czyli ostatnia deska ratunku 250
• Historyczne testowanie proporcji londyńczyków do londynek 251
• Na scenę wkracza rodzina Pearsonów 252
• Z jakim prawdopodobieństwem można odrzucić hipotezę zerową? 253
• Czy sir Ronald Fisher miał rację? 253
• Co może wyniknąć z niechęci i przyjaźni między statystykami? 254
• Etapy testowania hipotez – podsumowanie 255

5.3. BŁĘDY WNIOSKOWANIA STATYSTYCZNEGO 256


• Gra pomiędzy Praktykiem, Teoretykiem i Przyrodą 256
• Prawidłowe i błędne decyzje przy testowaniu hipotezy zerowej 258
• Konsekwencje błędów typu α i β 260
• Skąd się bierze prawdopodobieństwo popełnienia błędu I oraz II rodzaju? 261
• Wielkość błędu β przy ustalonej z góry wartości α 266
• Moc testu 268
• Wielkość efektu 270
• Wielkość efektu, poziom α, moc testu i liczba pomiarów w próbie 271
• Ryzyko producenta i konsumenta, czyli raz jeszcze o błędach wnioskowania
na przykładzie produkcji wykałaczek 274
• Na koniec o tym, że ziemia jest okrągła z prawdopodobieństwem α<0,05 274

6. TESTOWANIE HIPOTEZ DOTYCZĄCYCH ŚREDNICH 277


6.1. CZY BADANA PRÓBA POCHODZI Z POPULACJI
O ZNANYCH PARAMETRACH? 277
• Czy studenci psychologii należą do populacji studentów? 277
• Zastosowanie testu z dla jednej średniej, czyli o konsekwencjach opuszczania
wykładów ze statystyki 278
• Hipotezy statystyczne dla testu z dla jednej średniej 279
• Rozkład średnich z próby 280
• Test z i rozkład normalny standaryzowany 281
• Prawdopodobieństwo uzyskania wartości z w teście dla jednej średniej 282
• Hipoteza alternatywna – jednostronna i dwustronna 283
• Jaki jest związek między sformułowaniem hipotezy alternatywnej
a prawdopodobieństwem przyjęcia hipotezy zerowej? 286
• Ukłon w kierunku profesora Fishera, czyli o poziomie istotności różnic 288
• Final cut, czyli ostateczne rozstrzygnięcie 289
• Najczęściej wykorzystywane wartości krytyczne w teście z 291
• Reguły odrzucania hipotezy zerowej w teście z 292
• Zastosowanie testu z, gdy nieznane jest odchylenie standardowe w populacji 292
• William Gosset i testy dla małych próbek piwa 294
• Rozkład t Studenta 295
• Test t dla jednej próby 296
XIV SZCZEGÓŁOWY SPIS TREŚCI

• Przykład zastosowania testu t dla jednej próby 297


• Prawdopodobieństwo w rozkładzie z i t Studenta 297
• Dwa sposoby weryfikacji hipotezy zerowej w teście t 299
• A teraz o tym, co to jest liczba stopni swobody 299
• Kiedy stosować test t dla jednej próby, a kiedy test z? 300

6.2. CZY DWIE PRÓBY RÓŻNIĄ SIĘ MIĘDZY SOBĄ? 301


• Porównywanie dwóch populacji 301
• Tytuły dla bezsensownych obrazków 301
• Hipotezy w eksperymencie „Nazwy i zapamiętywanie obrazków” 302
• Test t dla dwóch średnich (próby niezależne) 303
• Interpretacja wyniku testu t dla dwóch średnich 304
• Jak poprawnie zapisać wynik testu? 306
• Podobieństwa i różnice między testami t i z dla dwóch średnich 306
• Założenia testów t oraz z dla dwóch średnich 308
• Najważniejsza maksyma badacza 308
• Dane zależne, czyli o tym, jak rozumują płetwonurkowie 310
• A jeśli płetwonurek myśli na powierzchni? 310
• Test t dla danych zależnych 311
• Prawda o płetwonurkach na podstawie wyniku testu t dla prób zależnych 312
• Wielkość efektu dla testów, za pomocą których porównujemy średnie 313
o Wielkość efektu w testach dla jednej średniej 315
o Wielkość efektu w testach dla dwóch średnich (dane niezależne) 316
o Wielkość efektu w testach dla dwóch średnich (dane zależne) 317
• Wielkość efektu, moc testu i liczba osób w badanej próbie przy stosowaniu testów
dla średnich 317

6.3. ANALIZA WARIANCJI, CZYLI BADANIE RÓŻNIC


MIĘDZY WIELOMA PRÓBAMI 319
• List w sprawie, w której jesteś „na nie” 319
• Zacznijmy od hipotez i... 320
• ... skonstruowania modelu sytuacji eksperymentalnej 321
• Co by było, gdyby wszyscy badani należeli do jednej populacji? 322
• A co by było, gdybyśmy uwzględnili podział badanych na grupy? 324
• Któż z nas jednak wie, na jakie kategorie naprawdę dzielą się badani? 326
• Kilka zdań o różnicach indywidualnych 327
• Jak policzyć wariancję wewnątrz grup? 329
• Podział wariancji całkowitej na składowe 330
• Czy musisz pamiętać wszystkie wzory do obliczenia analizy wariancji? 331
• Rozkład F Snedecora 332
• O teście F i raz jeszcze o hipotezach w analizie wariancji 333
• Wartości kryterialne dla wyników testu F 334
• Jakie muszą być spełnione warunki, żeby można było wykorzystać analizę
wariancji do danych z badań empirycznych? 336
• …testy jednorodności wariancji dla kilku grup danych 336
• O płytkach ceramicznych, majtkach i admirałach oraz o jednoczynnikowej analizie
wariancji 338
• Ile kafelków leżało na podłodze pomiędzy konwersującymi marines? 338
• Tajemnicze sumy kwadratów „między” i „wewnątrz” 339
SZCZEGÓŁOWY SPIS TREŚCI XV

• Liczby stopni swobody w jednoczynnikowej analizie wariancji 340


• Wariancja między grupami i wewnątrz grup badanych w jednoczynnikowej analizie
wariancji 341
• No to podsumujmy, czyli wzory jednoczynnikowej analizy wariancji w tabelce 341
• Dwuczynnikowa analiza wariancji, czyli kto jest bardziej dociekliwy w sklepie
osiedlowym, a kto w supermarkecie? 343
• Struktura wyniku w dwuczynnikowej analizie wariancji 344
• Hipotezy statystyczne w dwuczynnikowej analizie wariancji 348
• Efekty główne i efekty proste 350
• Co to znaczy, że zmienne niezależne działają w interakcji na zmienną zależną,
czyli jeszcze raz o pisaniu listu sprzecznego z własnym przekonaniem 350
• Garść ogólników na temat analizy wariancji dla więcej niż dwóch zmiennych
niezależnych 353
• Czy kilka cukierków to wysoki koszt zachowań ekonomicznych dzieci? 354
• Wyniki eksperymentu „dzieci i domki” 355
• Kryminały na kolorowym papierze? 356
• Omnibusowy test F 358
• Na czym polega różnica między hipotezami a priori i post hoc? 359
• Sposoby weryfikacji hipotez post hoc, czyli, dlaczego porównując dwie średnie,
musimy brać pod uwagę także wszystkie inne 362
• Test uczciwie istotnej różnicy Tukeya 364
• Konserwatywny test Sheffégo 368
• Testy Neumana-Keulsa i Duncana uwzględniające rozstęp 369
• I na koniec dwa słowa o mocy testów post hoc 369
• Porównanie hipotez a priori, czyli analiza kontrastów 370
• Kilka prostych przykładów 373
• Zastosowanie kontrastów w analizie liniowego trendu 374
• Analiza trendu jako test „dobroci” teorii 376
• Co nieco na temat trendów kwadratowych 378
• Co powinniśmy zapamiętać o analizie kontrastów? 380
• Wielkość efektu w analizie wariancji 380
• O wielkości efektu raz jeszcze 382
• Co łączy ze sobą moc testu, wielkość efektu i liczbę obserwacji w grupach? 383
• Na deser: Co Portugalczycy wiedzieli o euro, zanim wstąpili do Unii? 384

6.4. STATYSTYKA NA PROGU XXI WIEKU 387


• Zacznijmy od powtórki ze skal pomiarowych 387
• Komu najbardziej ufają Polacy? 388
• Czy można stosować test t lub F dla danych porządkowych? 389
• „Liczby nie wiedzą, skąd pochodzą” 389
• O niejawnych związkach między skalą porządkową i przedziałową 390
• Dwie historyjki, które dają wiele do myślenia 391
• Nie należy mylić skali pomiarowej z interpretacją danych 393
• Weryfikacja hipotez, błędy wnioskowania statystycznego i testy Monte Carlo 394
• Statystyczne zabawki? 396
• Czy test F jest elastyczny? 397
• Monte Carlo – koniec gry, pora na wnioski 398
• Gdy jednak nie można stosować testów parametrycznych 399
• Stare-nowe metody repróbkowania 400
• Pomysły Bradleya Efrona na metody rzemykowe 402
• Testy permutacjne, czyli na ile sposobów można uporządkować zbiór liczb 403
• Statystyka na progu XXI wieku i ta z początku ubiegłego stulecia 406
XVI SZCZEGÓŁOWY SPIS TREŚCI

7. TESTY NIEPARAMETRYCZNE 407

7.1. CO TO SĄ TESTY NIEPARAMETRYCZNE


I KIEDY SIĘ JE STOSUJE? 407

• Dlaczego testy nieparametryczne nazywają się „nieparametryczne”? 407


• Czy test statystyczny może być prostszy niż dwumianowy? 408
• Dwa słowa o różnych testach nieparametrycznych 410
• Testy oparte na rozkładzie χ 411
2

• Raz jeszcze echo dyskusji na temat mocy testów 413


• Kiedy test parametryczny, a kiedy nieparametryczny? 414
• Co każdy badacz wiedzieć powinien o teście statystycznym? 415

7.2. CZY DWIE CECHY JAKOŚCIOWE SĄ ZALEŻNE OD


SIEBIE? 415

• Prolog: „Czy smakują ci obiady w stołówce akademickiej?” 415


• O zjeździe fanów Chaplina i niezależności testu χ niezależności 416
2

• Jeśli czarny melonik, to tylko w kółka! 417


• Hipoteza zerowa i alternatywna w teście χ niezależności 418
2

• Panie i panowie, meloniki z głów – liczymy χ 419


2

• I co z tego, że χ = 8,18? 420


2

• Zacznijmy jeszcze raz: „Czy smakują ci obiady w stołówce akademickiej?” 421


• Na liczebności oczekiwane – sposób łatwy 422
• Na liczebności oczekiwane – sposób jeszcze łatwiejszy 423
• Poćwiczmy dodawanie i odejmowanie 424
• Epilog: „Co tak naprawdę oznacza odrzucenie hipotezy zerowej w teście χ
2

niezależności?” 425
• O poprawce Yatesa do testu χ ze względu na małe liczebności 426
2

• O zdrowym rozsądku i wielkości tabel liczebności dla testu χ niezależności 427


2

• Pieśń o teście χ niezależności prawie skończona, prosimy o oklaski 427


2

• Na koniec coś dla ochłody: „Cola czy pepsi? A może royal crown?” 428
• Czy statystyka byłaby możliwa bez Karla Pearsona? 429

7.3. TESTY NIEPARAMETRYCZNE DLA DWÓCH PRÓB 429

7.3.1. TESTY DLA DANYCH NIEZALEŻNYCH 429

• Co ciekawego wymyślili Andriej i Władymir? 429


• O naszych ściśle tajnych zainteresowaniach zaskrońcami 430
• Jak policzyć test Kołmogorowa-Smirnowa? 431
• O jeden wzór za daleko...432
• No to jak jest z tymi wężami, czyli interpretacja wyników testu 432
• Podróże w wyobraźni i zabawy liczbami, na marginesie testu Manna-
Whitneya 433
• Jak zinterpretować wynik testu Manna-Whitneya? 435
• Test Manna-Whitney’a, testy t i wyniki standaryzowane z 436
• „Jeżeli Anny nie ma w Granadzie, to Teresa jest w Toledo” 436
SZCZEGÓŁOWY SPIS TREŚCI XVII

7.3.2. TESTY DLA DANYCH ZALEŻNYCH 437

• Poważne problemy decyzyjne sprzedawców komputerów 437


• Czy Aśka i Frank Wilcoxon pomogą komputerowcom? 438
• O przydatności statystyki w życiu, czyli jak zinterpretować wynik testu
Wilcoxona 439
• Jak ma się wynik w teście Wilcoxona do wyniku standaryzowanego z? 440
• Test Wilcoxona a test t dla danych zależnych 441
• Test Wilcoxona z automatyczną skrzynią biegów, czyli o teście znaków 441
• O animowanych książeczkach dla dzieci i interpretacji wyniku testu
znaków 442
• Zamiana wyników testu znaków na wyniki standaryzowane z 444
• Kiedy warto pomyśleć o teście znaków? 444

7.4. TESTY NIEPARAMETRYCZNE


DLA WIĘCEJ NIŻ DWÓCH PRÓBEK 445
• Kilka uwag o bardzo użytecznych testach nieparametrycznych 445
• O niepokojach Najważniejszego Szefa Wielkiej Firmy i teście opartym
na medianie 445
• Obliczenia Pierwszego Psychologa w Wielkiej Firmie 447
• Nawet w teście opartym na medianie nie uciekniesz od χ 447
2

• A może tak testem Kruskala-Wallisa? 449


• Czy test Friedmana pozwoli nam się czegoś dowiedzieć o potrzebach
linoskoczków? 450
• O terapii światłem na długie zimowe wieczory 453

7.5. PORÓWNANIE OTRZYMANYCH WYNIKÓW


Z ROZKŁADEM TEORETYCZNYM 454
• Rozkład empiryczny i rozkład teoretyczny 454
• Hipotezy o typie rozkładu – rozkład najlepiej dobrany 454
• Założenie o rozkładzie w badanej próbie 455
• Liczebności otrzymane i oczekiwane 456
• Liczebność oczekiwana dla najmniejszego rozstawu ramion u mężczyzn 457
• Skumulowane liczebności oczekiwane 458
• Liczebności oczekiwane dla całego zbioru danych 459
• Test χ zgodności 460
2

• Interpretacja wyniku w teście χ zgodności 462


2

• Czy mężczyźni są rzeczywiście szersi w barach od kobiet? 462


• Test χ zgodności dla innych rozkładów teoretycznych niż rozkład normalny 463
2

• Test Kołmogorowa-Smirnowa, czyli ile ważą noworodki z Brisbane 465


• Kiedy stosuje się test Kołmogorowa-Smirnowa, a kiedy test χ zgodności? 469
2

• Są jeszcze inne testy zgodności 469

8. ANALIZA KORELACJI I REGRESJI 471


8.1. POJĘCIE KORELACJI I WSPÓŁCZYNNIK R PEARSONA 471
• Bestseller na temat statystyki 471
• O zarobkach pastorów w stanie Massachusetts i cenach rumu w Hawanie 472
XVIII SZCZEGÓŁOWY SPIS TREŚCI

• Czy ssaki śnią? 472


• Długość snu a waga ciała i długość życia 473
• Współczynnik korelacji liniowej r Pearsona dla danych standaryzowanych 474
• Czy ssaki, które długo żyją, długo śpią? 476
• O związkach między korelacją i prostoliniowością regresji 477
• A jeśli dane odchylają się od linii regresji 481
• Korelacja, wartości przewidywane 483
• Procent wariancji wyjaśnionej za pomocą współczynnika determinacji 485
• W taki razie, od czego naprawdę zależy długość snu u ssaków? 487
• Kiedy można obliczać współczynnik korelacji r Pearsona? 489
• Korelacja w próbie i w populacji 490
• Test istotności współczynnika korelacji, czyli jeszcze raz o pomysłach
Studenta 490
• Uważaj, jak interpretujesz współczynnik korelacji r Pearsona 494
o Obserwacje nietypowe 494
o Błędne połączenie dwóch lub więcej grup w jeden zbiór 497
o Nieliniowa zależność między zmiennymi 499
• Trochę zabawy w przekształcenia wzoru na współczynnik korelacji r
Pearsona 501
• Korelacja, liniowość, kowariancja, a na dodatek wariancja sum i różnic 503
• Korelacje rzeczywiste i pozorne a związki przyczynowo-skutkowe 504
• Czy w krajach, w których jest więcej bocianów rodzi się więcej dzieci? 506
• Raz jeszcze o macierzy korelacji 507
• Korelacje cząstkowe i semi-cząstkowe 508
• Krótkie podsumowanie 510
• Liczba bocianów i liczba dzieci – rozwiązanie zagadki 510
• Niekończąca się historia o korelacji i przyczynowości w badaniach
psychologicznych 511
• Iluzja kontroli 513

8.2. KORELACJA DLA DANYCH PORZĄDKOWYCH 513


• Nieparametryczni koledzy r Pearsona 513
• Czy morświny spontanicznie tańczą na ogonie? 514

2
Czy wpadłbyś na to, że d jest miarą inwersji? 516

2
W jaki sposób Charles Spearman wykorzystał d do obliczania korelacji? 517
• Współczynnik korelacji R Spearmana i rangi wiązane 519
• Istotność współczynnika R Spearmana 519
• Najbardziej liberalny współczynnik korelacji τ Kendalla i jego istotność 521
• Na co idziemy do kina? 523
• Obliczanie i interpretacja współczynnika zgodności W Kendalla 524
• Istotność współczynnika zgodności W Kendalla 525

8.3. ANALIZA REGRESJI 527


• O Franciszku Galtonie i regresji geniuszu 527
• Równanie linii regresji dla danych standaryzowanych 528
• Powtórka z matematyki: o równaniu prostej w układzie współrzędnych 530
• Równanie regresji jako model zależności między zmiennymi 531
• Dlaczego ciągle trzeba odwoływać się do pojęcia wariancji? 534
• Analiza wariancji dla regresji: ocena dopasowania modelu regresji do danych
empirycznych 536
SZCZEGÓŁOWY SPIS TREŚCI XIX

• Czy długość życia wpływa na długość snu? 539


• Czy samochody z mocniejszym silnikiem są droższe? 540
• Jeszcze raz o cenach samochodów, czyli znaczenie analizy reszt 542
• O samochodach po raz trzeci: wyniki analizy regresji dla danych surowych 544
• Surowe czy standaryzowane? 546
• Obliczanie współczynników równania regresji dla danych surowych 548
• Czas na krótkie podsumowanie 551
• Predykcja, znaczy przewidywanie 551
• Krzywe ufności dla linii regresji 553
• Istotność współczynnika regresji 556
• Test F czy t? 557
• Regresja wielokrotna, czyli od czego zależy czas marzeń sennych u ssaków? 557
• Regresja wielokrotna i analiza wariancji 559
• Co oznaczają te wszystkie liczby w tabeli wyników regresji wielokrotnej? 563
• Regresja wielokrotna – interpretacja graficzna 564
• Regresja jedno- i wielokrotna – porównanie 567
• O zmiennych nadmiarowych i regresji krokowej 568
• O stałej w równaniu regresji 571
• A najlepiej, jeśli reszty są normalne 572
• I na koniec jeszcze jeden eksperymencik 574

Część IV. DODATEK GRATIS


9. JAK NAPISAĆ RAPORT Z BADAŃ 579
• Goals are dreams with deadlines 579
• Co to jest styl APA? 579
• Kiedy należy stosować styl APA? 581
• Części raportu badawczego 581
• Strona tytułowa 582
• Streszczenie 583
• Wprowadzenie 584
o Przedstawienie problemu 585
o Opis wcześniejszych badań, które mają związek z problem badawczym 586
o Cel badania i proponowany sposób rozwiązania problemu 587
o I na koniec kilka uwag o wprowadzeniu 587
• Metoda 588
o Osoby badane 589
o Materiały 589
o Procedura 591
• Wyniki 594
o O zdjęciach twarzy i bakteriach w sałatce z kurczaka 596
o O satysfakcji z zakupów w supermarkecie 598
o Wykresy i tabele 600
• Dyskusja wyników 603
• Dyskusja ogólna lub zakończenie 605
• Powoływanie się na prace innych badaczy w tekście raportu 606
o Dosłowne cytowanie fragmentów publikacji 606
o Odwołania bibliograficzne 608
XX SZCZEGÓŁOWY SPIS TREŚCI

• Bibliografia, czyli literatura cytowana 610


• Załączniki zwane Aneksem 613
• Nota autorska 613
• Kilka uwag technicznych dotyczących składu i łamania tekstu raportu 614
• Sugestie dotyczące języka 615
• I coś na deser 616

Część V. NA DOBRY POCZĄTEK

Bibliografia 619

Indeks 629

Aneks: tablice statystyczne 635


A Powierzchnie pod krzywą normalną odpowiadające wynikom standaryzowanym z przedziału
od –3z do +3z (hipoteza jednostronna) 635
B Wyniki standaryzowane odpowiadające powierzchniom pod krzywą normalną (hipoteza
jednostronna) 639
C Wartości krytyczne testu t dla hipotezy jedno- i dwustronnej 641
D Zależność między przewidywaną wielkością efektu d i mocą testu a minimalną liczbą osób
badanych w eksperymencie (test jedno- i dwustronny dla α = 0,05) 644
E Wartości testu F Snedecora dla α = 0,05 645 (dla α = 0,01 648)
2
F Wartości krytyczne testu χ 651
G Wartości krytyczne testu Wilcoxona (test jedno- i dwustronny) 653
H Wartości współczynnika korelacji Spearmana istotne na poziomie 0,05 i 0,01 (test
jednostronny) 654
PRZEDMOWA

Każdego roku podejmowałem ryzyko i każdego prze-


grywałem: podczas 20 lat swojej pracy w Yale wielo-
krotnie nauczałem psychologii poznawczej i nigdy nie
używałem dwukrotnie tego samego podręcznika. [...]
W końcu postanowiłem wziąć się do dzieła i napisać
własną książkę.
[Robert Sternberg (2001). Psychologia poznawcza.
Warszawa: WSiP SA, s. 8].

KAŻDA PRZEDMOWA MA SWÓJ WSTĘP

Kiedy przed kilku laty postanowiliśmy napisać przewodnik po metodologii


i statystyce, mieliśmy na względzie przede wszystkim tych studentów, z któ-
rymi kiedykolwiek zetknęliśmy się podczas prowadzonych przez nas zajęć
dydaktycznych. Brakowało nam podręcznika, w którym w przystępny spo-
sób przedstawiony byłby cały proces prowadzenia badań empirycznych, po-
czynając od tego, skąd się biorą pomysły na eksperymenty, poprzez opis me-
tod badawczych i metod statystycznej analizy danych, a kończąc na zasa-
dach pisania raportu.
Studenci nauk społecznych i humanistycznych często uważają, że metodolo-
gia i statystyka to najtrudniejsze przedmioty podczas ich edukacji uniwersy-
teckiej. Z naszego punktu widzenia sprawa wygląda zupełnie inaczej. Przy-
stępując do pisania tej książki, byliśmy przekonani, że ani statystyka, ani
tym bardziej metody badań w naukach społecznych lub humanistycznych
wcale nie są jakoś nadmiernie skomplikowane czy pozbawione logiki. Nie
mieliśmy jednak również wątpliwości, że wiedza niezbędna do projektowa-
nia badań i analizowania ich wyników nie sprowadza się tylko do ogólnej
znajomości metodologii i kilku wzorów statystycznych. Naszym zdaniem
znacznie ważniejsza jest umiejętność wybierania właściwych metod poszu-
kiwania odpowiedzi na stawiane pytania oraz właściwych procedur analizy
danych. Te zaś można ustalić tylko wtedy, gdy będziemy świadomi wszyst-
kich elementów składających się na proces badawczy w nauce.
Każde bowiem badanie naukowe można opisać jako ciąg wielu decyzji. Naj-
pierw musimy wybrać problem, którym chcemy się zajmować, potem po-
XXII PRZEDMOWA

stawić odpowiednie hipotezy, a ich poprawność weryfikować w badaniach


empirycznych. Hipotezy należy jednak uzasadnić, musimy więc podjąć de-
cyzję, jakie teorie najlepiej będą się do tego nadawały. Badania także można
przeprowadzić dopiero wtedy, gdy dobierze się właściwą metodę i sposób
statystycznej analizy danych. Na końcu tego ciągu wyborów trzeba także
podjąć decyzję, komu będziemy prezentować wyniki swoich badań i w jaki
sposób to uczynić. Jak to zwykle bywa, każda poprzednia decyzja ogranicza
możliwości następnej. Niektóre wybory można uzasadnić lepiej, inne gorzej.
Niemal wszystko, o czym napisaliśmy w tej książce, znajduje się w wielu
podręcznikach do statystyki, dostępnych również na polskim rynku wydaw-
niczym. Podjęliśmy jednak wysiłek napisania własnego przewodnika przede
wszystkim dlatego, że chcieliśmy przedstawić swój punkt widzenia na spo-
sób prezentacji zagadnień związanych z prowadzeniem badań empirycznych
w psychologii i naukach pokrewnych. Mieliśmy i nadal mamy nadzieję, że
metodologię i statystykę da się przedstawić w sposób atrakcyjny i zrozumia-
ły dla „humanistycznego umysłu”. I choć istnieje wiele podręczników,
w których udaje się ten cel osiągnąć, to jednak postanowiliśmy, wzorem Ro-
berta Sternberga, „wziąć się do dzieła i napisać własną książkę”.

TRZY ZASADY

Badanie empiryczne jest sekwencją czynności, czyli procedur, które badacz


stosuje w przemyślany i systematyczny sposób. Rozpoczynając pracę nad
niniejszym przewodnikiem, uznaliśmy, że o procedurach trzeba więc także
rozmawiać w szczególny sposób.
• Po pierwsze, wszystkie procedury staraliśmy się przedstawiać w kontek-
ście konkretnych przykładów, które są łatwe do wyobrażenia. Dbaliśmy
o to, by były one ciekawe, zaskakujące lub choćby tylko trochę dowcip-
ne. Większość informacji, na jakie się powołujemy w naszym przewod-
niku, pochodzi z opublikowanych już wyników badań. Czasem decydo-
waliśmy się skorzystać z istniejących zbiorów danych, aby jakąś metodę
przedstawić bardziej szczegółowo. Od czasu do czasu wymyślaliśmy
również własne przykłady.
• Drugą regułą, której podporządkowaliśmy tekst naszego przewodnika,
jest zasada opowiadania. Chcieliśmy, aby ta książka bardziej przypomi-
nała rozmowę niż typowy podręcznik, w którym wykład jest prowadzo-
ny ex cathedra, językiem tyleż poprawnym formalnie, ile suchym i bez-
osobowym. W końcu skoro mogą być „śpiewane telegramy”, to chyba
mogą być też „mówione podręczniki do statystyki”?! Rozdziały tego
przewodnika zostały więc podzielone na wiele krótkich fragmentów. Za-
leżało nam na tym, aby przedstawiać informacje w małych porcjach, bez
PRZEDMOWA XXIII

zbędnego przeładowania i z wieloma pauzami, jak w rozmowie. Z tego


też powodu nie obawialiśmy się wtrącać do naszych opowieści swobod-
nych dygresji i uzupełnień, czasem dosyć luźno powiązanych z tematem,
ale przecież moc wiedzy tkwi w skojarzeniach, a tych nigdy za wiele.
• Po trzecie, przyjęliśmy, że nie zakładamy żadnego poziomu przygoto-
wania matematycznego naszych Czytelników. Każdy wzór i każdy za-
stosowany w nim symbol opisujemy szczegółowo i niemal wszystkie
obliczenia robimy „na piechotę”. Nie trzeba ich samemu powtarzać, ale
w większości przypadków można to zrobić, dysponując kalkulatorem.
Przy okazji warto dodać, że niemal wszystkie obliczenia i wykresy za-
mieszczone w książce zostały wykonane z wykorzystaniem programu
STATISTICA.

KIMKOLWIEK JESTEŚ, DROGI CZYTELNIKU

Ponieważ jesteśmy psychologami, więc w naszym przewodniku najchętniej


odwołujemy się do przykładów z zakresu psychologii, którą notabene i tak
wszyscy bardziej lub mniej naiwnie uprawiamy na co dzień. I dlatego wła-
śnie mamy nadzieję, że to, co w nim napisaliśmy, może się przydać także
tym, którzy choć nie są psychologami, to jednak prowadzą lub zamierzają
prowadzić badania empiryczne i poszukują źródeł informacji na temat róż-
nych metod badawczych, sposobów analizy danych i ich interpretacji.
Być może, do tej książki zajrzą nie tylko studenci, lecz także pracownicy
naukowo-dydaktyczni, którzy przygotowują swoich podopiecznych do pro-
wadzenia samodzielnych badań. Przewodnik ten może się okazać pożytecz-
ny również dla tych wszystkich praktyków, którzy nierzadko z dala od
ośrodków akademickich pozostają osamotnieni w swoich poszukiwaniach
badawczych.
Kiedy grono adresatów książki jest niejednorodne pod względem płci, wie-
ku, stanu, stażu pracy, tytułów naukowych, a nadto funkcji na uniwersytecie
i poza nim, niezwykle komplikuje się konwencja, w jakiej – z należnym dla
każdego Czytelnika szacunkiem – należałoby się z nim komunikować.
Zastanawiając się nad możliwie prostą formą zwracania się do Czytelników
naszego przewodnika, doszliśmy do wniosku, że najbardziej odpowiednia
będzie forma „Ty”, a na dodatek w rodzaju męskim. I możemy tylko dodać,
że nie ma to nic wspólnego ani z (anty-)feminizmem, ani także z poprawno-
ścią lub niepoprawnością polityczną. Z naszego punktu widzenia jest to po
prostu krótka forma, a jej bezpośredniość dobrze oddaje atmosferę komuni-
kacji, na której szczególnie nam zależy.
XXIV PRZEDMOWA

KILKA ZDAŃ NA TEMAT TYTUŁU

* Lord, F. (1946). On the statis- Tytuł naszego przewodnika pochodzi z artykułu Frederica Lorda*. Opisał on
tical treatment of football num- spór między statystykiem a psychologiem, który to spór miał (lub mógł
bers. American Psychologist, 8,
750-751. mieć) miejsce na pewnej uczelni. Statystyk twierdził, że może zastosować
dowolną metodę obliczeniową w odniesieniu do dostarczonych mu danych,
całkowicie ignorując to, jakie jest ich źródło, ponieważ i tak „liczby nie wie-
dzą, skąd pochodzą”. Psycholog zaś się upierał, że nie można swobodnie
dobierać metody statystycznej analizy danych, dlatego że liczby zgromadzo-
ne w wyniku określonego eksperymentu mają swoje znaczenie i nie są po
prostu zbiorem dowolnych liczb losowych.
Kiedy zastanawialiśmy się nad tytułem naszego przewodnika, doszliśmy do
wniosku, że zdanie: „Liczby nie wiedzą, skąd pochodzą” idealnie pasuje do
tego, co chcemy w nim przekazać. W pewnym sensie ten tytuł jakby sam się
do nas „zgłosił”. Liczby rzeczywiście nie mają zielonego pojęcia, skąd się
wzięły. Świadomy jednak swoich działań badacz, który je zdobył, wie lub
powinien wiedzieć wiele na ich temat. Kiedy uważnie przyjrzymy się temu,
czym zajmują się naukowcy, stwierdzimy, że lwią część swojego czasu pra-
cy poświęcają oni na myślenie właśnie o liczbach: najpierw, kiedy projektują
badania i formułują hipotezy, później podczas badań, gdy je gromadzą,
i wreszcie wtedy, gdy poddają je analizie statystycznej i interpretacji.
W największym skrócie treścią naszego przewodnika jest zatem opis procesu
zdobywania, analizowania i publikowania informacji o liczbach, które coś
znaczą. Rozpoczynamy od momentu, w którym nie mamy jeszcze żadnych
liczb i jesteśmy na etapie poszukiwania interesujących pytań badawczych.
Na ostatnim etapie zajmujemy się już tylko problemem sposobu, w jaki ma-
my powiadomić innych ludzi o wynikach naszych badań, czyli o znaczeniu
zebranych liczb. Pomiędzy pierwszym a ostatnim rozdziałem naszego prze-
wodnika, a zarazem między pierwszym i ostatnim stadium procesu ba-
dawczego, jest wiele etapów pośrednich. Dobrze jest, jeśli na każdym z tych
etapów badacz wie, co zamierza osiągnąć i w jaki sposób chce dojść do sta-
wianych sobie celów. O wszystkich etapach procesu badawczego oraz
o tym, co badacz powinien wiedzieć na temat każdej z tych faz, jest właśnie
ta książka.

DWA SŁOWA USPRAWIEDLIWIENIA

Podręcznik poświęcony metodologii i statystyce można pisać w nieskończo-


ność, ponieważ zawsze jest coś, co należałoby w nim poprawić. Zapewne
dotyczy to także naszego przewodnika. Książkę tę pisaliśmy długo i kilka
razy byliśmy już niemal pewni, że te nieustające poprawki nigdy nie dopro-
wadzą nas do pomyślnego jej wydania. Oczywiście nie przyznamy się do te-
PRZEDMOWA XXV

go, ile czasu zajęło nam jej napisanie, ale jedno jest pewne: z wersji począt-
kowej, która liczyła niewiele mniej stron niż ta, nie zostało już chyba ani
jedno zdanie.

CZAS NA PODZIĘKOWANIA

Podczas kolejnych etapów przygotowywania tego przewodnika prosiliśmy


o radę bardzo wiele osób, którym jesteśmy wdzięczni za wszystkie uwagi.
Chcemy jednak szczególnie podziękować recenzentom tej książki, profeso-
rom Zdzisławowi Chlewińskiemu i Tadeuszowi Markowi, zwłaszcza za po-
parcie i życzliwość, jakimi nas obdarzali. Dziękujemy pani Ewie Łupinie,
która cierpliwie poprawiała nasze poprawki do kolejnych poprawianych
przez nas wersji przewodnika, członkom zaś Uniwersyteckiej Komisji Wy-
dawniczej Katolickiego Uniwersytetu Lubelskiego Jana Pawła II i Wydaw-
nictwu Uniwersyteckiemu KUL za zaufanie i finansowe wsparcie jego II
wydania.
I.
O METODACH BADAŃ
PSYCHOLOGICZNYCH
WPROWADZENIE

CZYM SIĘ ZAJMUJĄ PSYCHOLOGOWIE?

Bardzo trudno jest dokładnie określić, co właściwie jest przedmiotem psy-


chologii. Jedni uważają, że są nim procesy psychiczne człowieka – ich po-
wstawanie i przebieg – drudzy, że jest to nauka o zachowaniu się ludzi
i zwierząt. Niektórzy badacze jednak nie dopuszczają możliwości, aby
przedmiotem badań psychologicznych mogło być cokolwiek innego niż za-
chowanie człowieka. Inni argumentują, że nawet studiowanie bardzo pro-
stych organizmów, takich jak bakteria Escherichia coli, można traktować ja-
ko wartościowe badanie psychologiczne. (Tak, tak! znaleźliśmy taką bakte-
* Johnson-Laird, Ph. N. (1993). rię w książce poświęconej badaniom umysłu Philipa Johnsona-Lairda*. Au-
The computer and the mind. An tor, opisując jej „zachowanie”, argumentuje, że jest to doskonały przykład
introduction to cognitive
science. London: Fontana Press. organizmu zachowującego się zgodnie z oczekiwaniami behawiorystów). Są
również i tacy, którzy włączają w obszar badań psychologicznych sztuczne
systemy – np. komputery – twierdząc, że one też „zachowują się” w pewien
sposób. Wątpliwości co do tego, czym zajmuje się psychologia, mnożą się
do tego stopnia, że niektórzy autorzy twierdzą, iż nie można mówić o jednej
** Zob. Łukaszewski, W. psychologii, ale o kilku**.
(2000). Psychologiczne koncep-
cje człowieka. W: J. Strelau W środowisku psychologów nie ma też jednomyślności co do tego, jakie
(red.), Psychologia. Podręcznik aspekty zachowania ludzi, zwierząt czy komputerów należy badać. Pewne
akademicki (s. 67-92). Gdańsk:
GWP. grupy uczonych upierają się, że – zgodnie z literalnym brzmieniem nazwy
„psychologia” – należy badać jedynie to, co psychiczne (duchowe). Zwolen-
nicy przeciwnego poglądu mówią, że tego, co psychiczne, nie da się zbadać,
wobec czego pozostaje jedynie uważna obserwacja fizycznych (material-
nych) zachowań potencjalnych nośników psyche. Jeszcze inni zauważają, że
większość organizmów żyje w społecznościach, a zatem badanie zachowań
pojedynczych osobników zupełnie mija się z celem. Ciekawą grupę stanowią
również ci psychologowie, którzy są przekonani, że badanie zachowania lu-
dzi ma sens tylko wtedy, gdy daje się je opisać za pomocą wzorów matema-
tycznych albo – jeszcze lepiej – w formie komputerowego programu symu-
lacyjnego.

KILKA SŁÓW O PODSTAWOWYCH METODACH BADAŃ PSYCHOLOGICZNYCH

Naszym celem nie jest ani próba systematyzacji poglądów na temat tego,
czym jest lub czym się zajmuje psychologia, ani też przedstawienie jakiejś
4 O METODACH BADAŃ PSYCHOLOGICZNYCH

nowej syntetycznej wizji człowieka. W niniejszym przewodniku chcemy je-


dynie pokazać, w jaki sposób różni psychologowie – niezależnie od szczegó-
łowego przedmiotu swoich zainteresowań – zdobywają wiedzę, prowadzą
badania i argumentują na rzecz swoich poglądów. Często stosowaną przez
nich metodą jest prezentacja wyników systematycznej obserwacji zachowa-
nia się badanych „obiektów”. Nierzadko kreują również specyficzne sytuacje
eksperymentalne, aby móc sprawdzić, w jakim stopniu słuszne są ich własne
przewidywania.

OBSERWACJA

Obserwacja i eksperyment w istocie nie różnią się aż tak bardzo od siebie.


Niektórzy utrzymują nawet, że obserwacja (zwłaszcza w wersji „uzbrojo-
* Sillamy, N. (1994). Słownik nej” – Norbert Sillamy* ma wyraźne zacięcie militarne) stanowi podstawo-
psychologii. Katowice: Wydaw- wą fazę eksperymentu. Z pewnością można powiedzieć, że podczas prowa-
nictwo „Książnica”.
dzenia obserwacji badacz nie tworzy nowej sytuacji, lecz jedynie stara się
opisać to, czego jest świadkiem, w sposób jak najbardziej uporządkowany.
Klasycznym przykładem takiej aktywności są badania szwajcarskiego psy-
chologa, Jeana Piageta, który przyglądał się rozwojowi procesów po-
** Piaget, J. (1966). Narodziny znawczych u dzieci. W Narodzinach inteligencji dziecka** pisał:
inteligencji dziecka. Warszawa:
PWN. W końcu dźwięki, będące „przedłużeniem” krzyku lub uśmiechu, zostają bezpo-
*** Ten zapis oznacza, że średnio przez dziecko odkryte i utrzymywane dla siebie samych: grucha przez chwi-
dziecko ma 0 lat, 2 miesiące lę, nie śmiejąc się ani nie kwiląc (0; 2, 12)***. W dniu 0; 2, 13 wydaje rodzaj gru-
i 12 dni. chającego trelu. W dwa dni później płacz przekształca się w zabawę głosem,
w „acha”, „achi” itp. Począwszy od tego wieku (0; 2, 15), Żaklina uprawia stale za-
bawę głosem, gdy tylko się obudzi (s. 91).
Piaget dokładnie zapisywał, kiedy dziecko wydawało określone dźwięki,
i w tym sensie był systematyczny. Starał się być również obiektywny, cho-
ciaż wielu badaczy zarzucało mu subiektywizm, ponieważ bohaterami jego
obserwacji była trójka jego własnych dzieci (m.in. opisywana w tym frag-
mencie Żaklina). Nawiasem mówiąc, znacznie poważniejsze wątpliwości co
do obiektywizmu niejednego badacza można mieć w odniesieniu do wielu
innych tzw. naukowych obserwacji, niekoniecznie własnych dzieci.

EKSPERYMENT

Odpowiedzią na subiektywizm obserwacji jest eksperyment, czyli taka pro-


cedura, zgodnie z którą staramy się określić związek pomiędzy branymi pod
uwagę zachowaniami w kontrolowanych warunkach. Jean Piaget był nie tyl-
ko wybitnym obserwatorem, ale również mistrzem eksperymentu, co bez
wątpienia przyczyniło się do niezaprzeczalnego uznania jego dorobku na-
ukowego za podstawowy dla współczesnej psychologii poznawczej. Wspól-
WPROWADZENIE 5

nie z Bärbel Inhelder przeprowadził on dziesiątki eksperymentów, które do-


tyczyły m.in. rozwoju myślenia.
Zasadniczy schemat tych doświadczeń był bardzo podobny. Najczęściej u-
czestniczyły w nich dzieci podzielone na kilka grup wiekowych. W każdej
grupie dzieci wykonywały jedno, to samo zadanie. Mogło ono polegać np.
* Zob. Piaget, J., Inhelder, B. na mieszaniu bezbarwnych i bezwonnych płynów w celu uzyskania określo-
(1967). Operacje umysłowe i ich nych kolorów* lub na zabawie z ciężarkami kładzionymi na tłok umieszczo-
rozwój. W: P. Fraisse, J. Piaget
(red.), Inteligencja. Warszawa: ny w naczyniach połączonych, w których znajdowała się woda lub inny
PWN. płyn**.
** Zob. Inhelder, B., Piaget, J. Celem eksperymentów było ustalenie, w jaki sposób wiek wpływa na podej-
(1970). Od logiki dziecka do lo- ście dzieci do rozwiązywania różnych zadań intelektualnych. Na podstawie
giki młodzieży (s. 162-164).
Warszawa: PWN. wniosków wyprowadzonych z analizy zgromadzonych danych Piaget i In-
helder opracowali teorię stadiów rozwojowych, obejmującą liczne prawa
rządzące rozwojem poznawczym dzieci. Wykazali np., że na przełomie 11.
i 12. roku życia konkretne myślenie dzieci ulega wzbogaceniu o zdolność do
posługiwania się tzw. operacjami formalnymi, czyli np. umiejętnością for-
mułowania abstrakcyjnych reguł.

MAGIA LICZB

Obserwacja i eksperyment są podstawowymi narzędziami badawczymi w


naukach empirycznych. Ich wartość jest tym większa, im łatwiej pozwalają
na wyrażenie rejestrowanych danych w postaci liczb.
Liczby mają w sobie coś magicznego. Przysłuchaj się uważnie wiadomo-
ściom radiowym lub telewizyjnym. Czym byłby news o 200 osobach, które
od 6 godzin przebywają pod gruzami XVIII-wiecznej kamienicy, która za-
waliła się dzisiaj między 8. a 9. rano, i są poszukiwane przez 4 ekipy złożone
z 18 ratowników, 3 psów i jednego (słownie) helikoptera – gdyby nie liczby?
Nie byłoby newsa – a więc nie byłoby wydarzenia. Niektórzy – nieco zło-
śliwie – zauważają, że nic tak nie zwiększa wrażenia obiektywności przed-
stawianych informacji, jak właśnie liczby. Stwierdzenie to wydaje się szcze-
gólnie trafne w odniesieniu do tzw. naukowej psychologii.

ROLA LICZB W NAUCE – PRZYKŁAD Z ESKIMOSAMI

Niezależnie od powyższych uwag, liczby są konieczne w doniesieniach z ba-


dań psychologicznych co najmniej z czterech powodów.
• Po pierwsze, liczby pozwalają precyzyjnie się wyrażać (z dokładnością
do ilu się chce miejsc po przecinku). W badaniach naukowych, zwłasz-
cza w komunikacji między uczonymi, jest to szczególnie ważne.
6 O METODACH BADAŃ PSYCHOLOGICZNYCH

• Po drugie, liczby umożliwiają opis i wnioskowanie na temat zachowań


różnych grup ludzi znajdujących się w różnych sytuacjach.
• Po trzecie, dzięki liczbom można stosunkowo łatwo porównywać wyniki
różnych obserwacji i eksperymentów.
• Wreszcie, po czwarte, liczby pozwalają oszacować, jaka jest szansa, że
zaobserwowane przez badacza zjawisko jest dziełem przypadku, a jaka,
że jego nazwisko zostanie wymienione w najnowszym podręczniku psy-
chologii jako odkrywcy nowego prawa naukowego.
Podawanie liczb może jednak prowadzić także do wielkich nieporozumień.
Przykładem może być powszechne przekonanie badaczy, że Eskimosi mają
znacznie więcej słów na określenie śniegu niż Europejczycy czy Ameryka-
nie. Rzeczywiście, twierdzenie to wydaje się bardzo wiarygodne, w końcu
śnieg jest na pewno czymś ważnym w życiu Eskimosa, a w dodatku są oni
dostatecznie dziwni przez sam fakt życia w wiecznym zimnie, mieszkania w
igloo, chodzenia w ubraniu ze skór niedźwiedzia polarnego, nie wspomina-
jąc o dzieleniu się żonami. Nic więc dziwnego, że twórca tzw. hipotezy rela-
tywizmu językowego, Benjamin Lee Whorf, wyolbrzymił nieco pochodzące
z 1911 roku doniesienia Franza Boasa mówiące o 4 eskimoskich słowach na
określenie śniegu. Whorf w swoim niezwykle wpływowym w tamtym czasie
artykule nieco powiększył liczbę 4 do 7, sugerując, że to i tak nie wszystko.
Wyobraźnia poniosła dalej następców Whorfa, doprowadzając nawet do zi-
dentyfikowania 400 eskimoskich słów oznaczających śnieg (Steven Pinker
* Pinker, S. (1994) The lan- w swojej książce The language instinct [Instynkt językowy]* twierdzi, że
guage instinct. London: Pen- spotkał się z taką właśnie liczbą). Liczby rzeczywiście działają na wyobraź-
guin.
nię i dotychczas ciągle jeszcze wielu psychologów uczy się na studiach, że
Eskimosi mają znacznie więcej słów na określenie śniegu niż ci właśnie psy-
chologowie. W rzeczywistości jednak Eskimosi mają około 12 słów na okre-
ślenie śniegu, czym nieszczególnie różnią się od innych narodów. (Spróbuj
policzyć, ilu słów używa Polak, włączając w to „zawieję”, „zamieć” itd.).

CO MA STATYSTYKA DO LUDZKICH ZACHOWAŃ?

W naukowych badaniach empirycznych statystyka odgrywa szczególną rolę.


Jako dziedzina wiedzy, ma ona dwa stopnie wtajemniczenia.
• Osiągnięcie pierwszego pozwala badaczowi na sporządzenie możliwie
dokładnego opisu obserwowanego zachowania jakiegoś „obiektu psy-
chologicznego”. Ten zakres wiedzy nazywa się statystyką opisową. Po-
zwala ona wprowadzić pewien porządek do zgromadzonych danych ob-
serwacyjnych lub eksperymentalnych: liczby ująć w tabele lub przed-
stawić na wykresie, policzyć średnią arytmetyczną oraz miary tego,
w jakim stopniu poszczególne obserwacje różnią się od siebie lub w ja-
WPROWADZENIE 7

kim zakresie zmieniają się obserwowane cechy. Opis statystyczny może


dotyczyć wyników uzyskanych zarówno od jednej grupy, jak i od kilku,
a nawet kilkunastu grup naraz.
• Sztuka naukowej obserwacji polega m.in. na tym, że obserwując, stara-
my się niczego nie domyślać, ani tym bardziej nastawiać na to, co zoba-
czymy. Jeżeli jednak zaczynamy dostrzegać jakieś związki między ob-
serwowanymi zjawiskami, jeśli próbujemy przewidywać zachowania
obserwowanych obiektów, oznacza to, że budzi się w nas tęsknota do
osiągnięcia drugiego stopnia wtajemniczenia statystycznego, czyli umie-
jętności wnioskowania. Podobnie jak obserwacja jest podstawową fazą
eksperymentu, opis statystyczny jest wstępną fazą wnioskowania.
W przypadku eksperymentów zadaniem uczonego najczęściej jest
stwierdzenie, czy zastosowana przez niego manipulacja miała rzeczy-
wiście wpływ na zmianę zachowania się osób badanych, czy też ewen-
tualne zmiany w ich zachowaniu są spowodowane innymi czynnikami.
W naukach empirycznych wnioskowanie statystyczne stanowi pomost
między światem faktów (reprezentowanych przez zachowania się ob-
serwowanych obiektów) a światem idei (reprezentowanych przez teorie
wyjaśniające te zachowania). Jeśli chcesz zrozumieć czyjeś zachowanie,
to musisz się odwołać do jakiejś teorii tego zachowania, ale żeby ocenić
wartość tej teorii, musisz wiedzieć, jak ona powstała.
Zanim przejdziemy do dokładnego przedstawienia, w jaki sposób wykorzy-
stanie metod statystycznych pozwala na precyzyjny opis badanych zjawisk,
a także na wnioskowanie, jak dalece zachowanie badanych obiektów jest
wynikiem jakiegoś prawa, a nie tylko dziełem przypadku, chcemy przedsta-
wić krótkie wprowadzenie metodologiczne. Zanim badacz będzie mógł ana-
lizować zależności liczbowe „odkryte” w wyniku przeprowadzenia ekspe-
rymentu, musi w sposób systematyczny zaplanować i przeprowadzić ekspe-
ryment lub obserwację. W dalszym ciągu tej części opisujemy, w jaki sposób
powstają problemy badawcze w psychologii.
POSTĘPOWANIE BADAWCZE
1. W PSYCHOLOGII

We wstępie do tej części napisaliśmy, że psychologia jest nauką o zachowa-


niu się oraz że podstawowe metody badawcze to obserwacja i eksperyment,
które pozwalają na gromadzenie danych liczbowych. Pisząc tak, mieliśmy na
myśli tę część psychologii, w której uczeni usiłują odkryć ogólne prawidło-
wości charakteryzujące zachowanie badanych obiektów i na tej podstawie
sformułować prawa naukowe.
Oczywiście w psychologii jest jeszcze dużo miejsca na inną aktywność. Na
przykład w ustawie o zawodzie psychologa wymienia się siedem obszarów
działalności przedstawicieli tej dziedziny. Są to: (1) diagnoza psychologicz-
* Ustawa z dnia 8 czerwca 2001 na, (2) opiniowanie, (3) orzekanie (np. o poczytalności sprawcy przestęp-
roku o zawodzie psychologa stwa), (4) psychoterapia, (5) udzielanie pomocy psychologicznej, (6) prowa-
i samorządzie zawodowym psy-
chologów (Dz.U. Nr 73, poz. dzenie badań naukowych oraz (7) nauczanie psychologii*. Ponieważ jednak
763). Zgodnie z aktualnym sta- celem tego przewodnika jest przedstawienie statystyki jako narzędzia opisu
nem prawnym ustawa wchodzi
w życie z dniem 1 stycznia 2006
i wyjaśniania zachowania ludzi, skoncentrujemy się przede wszystkim na
roku. działalności nr 6, czyli na obszarze badań naukowych.

1.1. PROBLEM I PYTANIE BADAWCZE

CIEKAWOŚĆ POZNAWCZA – PODSTAWOWY WARUNEK POSZUKIWANIA PROBLEMÓW BADAWCZYCH

Osobom stawiającym pierwsze kroki w danej dziedzinie często się wydaje,


że nie ma nic trudniejszego, jak znalezienie ciekawego i oryginalnego pro-
blemu badawczego. Nawiasem mówiąc, zjawisko to można również zaob-
serwować u tych, którzy stawiają drugie lub trzecie kroki, np. wtedy, gdy za-
stanawiają się nad tematem pracy proseminaryjnej lub seminaryjnej. Bez
wątpienia jednak impulsem do działań zmierzających w kierunku zrozumie-
nia świata zjawisk fizycznych czy psychicznych jest coś, co psychologowie
** Maslow, A. H. (1990). Mo-
nazywają ciekawością poznawczą.
tywacja i osobowość. Warszawa:
PAX. Abraham Maslow** twierdzi, że człowiek ma naturalną potrzebę „wiedzy i
zrozumienia”, która pcha go do tego, aby jak najwięcej wiedzieć na temat
*** Berlyne, D. E. (1969).
Struktura i kierunek myślenia. otaczającej go rzeczywistości. Z kolei Daniel Berlyne*** uważa, że cieka-
Warszawa: PWN. wość wynika raczej z potrzeby redukcji konfliktu poznawczego, odczuwa-
10 O METODACH BADAŃ PSYCHOLOGICZNYCH

nego jako wątpliwości, rozterki czy sprzeczności, w każdym razie jako jakaś
forma dezorientacji poznawczej. Zdaje się, że podobnego zdania są również
* Festinger, L. (1957). A theory psychologowie społeczni, Leon Festinger* i Fritz Heider**. Ich zdaniem
of cognitive dissonance. New ciekawość jest raczej wynikiem praktyki dnia codziennego niż jakąś bardziej
York: Harper and Row.
** Heider, F. (1958). The psy-
podstawową potrzebą poznawania świata.
chology of interpersonal rela-
tions. New York: Wiley.
Pozostawiając wszelkie spory na boku, wystarczy stwierdzić, że ludzie naj-
częściej podejmują aktywność poznawczą wtedy, gdy spełnione są dwa wa-
runki: po pierwsze, uświadomią sobie, że czegoś nie wiedzą, tzn. że spotyka-
ją takie fakty, które nie pasują do ich wiedzy, i po drugie, mają odpowiednią
motywację, aby się dowiedzieć, o co tutaj chodzi.

PO CO ZDOBYWAĆ WIEDZĘ, SKORO WSZYSTKO JEST W INTERNECIE?

Nie da się, niestety, podać ogólnej recepty pozwalającej wpadać na genialne


pomysły. Jedyna wskazówka, jakiej można udzielić, brzmi dość zniechęca-
jąco: „Mało wiedzy – mało pytań”. Niestety, to prawda. Ciekawe pytania
badawcze z reguły przychodzą do głowy tym, którzy dostatecznie dużo do-
wiedzieli się na dany temat od tych, którzy wiedzieli to już wcześniej. Takie
osoby albo potrafią zauważyć jakieś sprzeczności w tym, co do tej pory
uznawano za pewne, albo też łatwiej przychodzi im dostrzec nowe obszary
niewiedzy.
Robert Weisberg, psycholog zajmujący się badaniem twórczości, uważa, że
do powstawania nowych pomysłów niekonieczne są jakieś „egzotyczne”
zdolności, ale wystarczy dostatecznie silna motywacja i odpowiedni okres
*** Za: Nęcka, E. (2001). Psy- „zanurzenia się” w danej dziedzinie***. Niestety, mamy dla Ciebie złą wia-
chologia twórczości. Gdańsk: domość: taki minimalny okres zanurzenia się, zdaniem Weisberga, trwa 10
GWP.
lat, czyli znacznie dłużej niż przeciętne studia.
Tak więc pierwszy etap każdej naukowej pracy badawczej to żmudne gro-
madzenie wiedzy. Trudność z dotarciem do potrzebnej informacji w dzisiej-
szych czasach jest związana nie tyle z brakiem, ile przeciwnie – z nadmia-
rem informacji, która na dodatek najczęściej jest albo fragmentaryczna, albo
nieuporządkowana lub wręcz chaotyczna. Stan naszej wiedzy na początku
poszukiwań przypomina stos klocków rozrzuconych na podłodze. Dopiero
świadomy wybór odpowiednich elementów i próba ich połączenia zwiększa-
ją szansę na sukces.
Nawiasem mówiąc, jeżeli składałeś coś z klocków Lego, to dobrze wiesz, że
podczas zabawy początkowy zarys budowli ulega różnym modyfikacjom.
(Nie wiemy, czy jest Ci bliski przykład z klockami – my, jako rodzice, na
budowaniu z klocków znamy się doskonale). Podobnie jest z problemami
badawczymi. Nie wszystkie pomysły dają się zrealizować, niektórych po
prostu realizować nie warto; czasem lepiej porzucić pytania stawiane na po-
POSTĘPOWANIE BADAWCZE W PSYCHOLOGII 11

czątku, gdy w trakcie poszukiwania odpowiedzi natrafiamy na zagadnienia


dużo ciekawsze.

SKĄD CZERPAĆ INFORMACJE NAUKOWE?

Szukając interesujących informacji, warto zacząć od zapoznania się z istnie-


jącymi już teoriami. Najczęściej można je znaleźć w najnowszych opraco-
waniach podręcznikowych lub w artykułach przeglądowych publikowanych
w czasopismach popularnonaukowych (np. „Charaktery” lub „Świat nauki”)
bądź specjalistycznych (np. „Przegląd Psychologiczny”, „Czasopismo Psy-
chologiczne” czy też angielskojęzyczny „Annual Review of Psychology”).
Nieodzowną pomocą są elektroniczne bazy danych. Wśród psychologów
najpopularniejszą bazą jest PsycInfo. Baza ta funkcjonuje w języku angiel-
skim i gromadzone są w niej informacje na temat artykułów publikowanych
nieomal we wszystkich czasopismach na świecie. W chwili, gdy piszemy ten
tekst, w bazie tej dostępne są informacje na temat artykułów opublikowa-
nych od 1872 roku do chwili obecnej, a baza jest uaktualniana co tydzień.
Załóżmy, że przeczytałeś ten rozdział do końca i zainteresowały cię infor-
macje na temat wyobraźni wzrokowej. Załóżmy też, że chciałbyś się dowie-
dzieć czegoś więcej na ten temat. Gdybyś wszedł do bazy PsycInfo w mo-
mencie, kiedy piszemy to zdanie, wówczas znalazłbyś 498 pozycji (tytułów
artykułów, sprawozdań, recenzji, rozdziałów w książkach itd.), czyli tzw. re-
kordów, w których posłużono się wyrażeniem visual imagery (co jest angiel-
skim odpowiednikiem terminu „wyobraźnia wzrokowa”). Zanim byś jednak
znalazł te rekordy, musiałbyś wiedzieć, jakie hasło wpisać do bazy. PsycInfo
ma również opcję podpowiadania terminów – czyli mały słowniczek (ang.
thesaurus). Po wpisaniu do tego słowniczka pojęcia visual (czyli „wzroko-
wy”) otrzymaliśmy 27 haseł związanych z tym terminem. Jednym z nich by-
ło właśnie visual imagery. Mógłbyś też postąpić inaczej i wpisać „Kosslyn”,
czyli nazwisko badacza, który problematyką wyobraźni zajmuje się naj-
prawdopodobniej znacznie dłużej, niż ty żyjesz na ziemi. Po wpisaniu tego
nazwiska otrzymaliśmy 260 rekordów.
Działanie PsycInfo, podobnie zresztą jak działanie większości baz danych,
polega na sprawdzeniu, czy wpisane przez Ciebie słowa są gdzieś w tej bazie
zapisane. W przypadku PsycInfo sprawdzenie polega na poszukiwaniu ta-
kich słów wśród tzw. pól bazy, a więc w miejscach, gdzie są zapisane infor-
macje o autorach, tytuły artykułów i książek, tzw. słowa kluczowe (m.in. vi-
sual imagery) oraz streszczenia. Na przykład pojawienie się nazwiska Koss-
lyn wcale nie oznacza, że to on właśnie jest autorem wszystkich 260 prac,
ale że jego nazwisko pojawia się w tych 260 pozycjach. Korzystanie z bazy
danych wymaga więc pewnej umiejętności zawężania swoich zainteresowań.
12 O METODACH BADAŃ PSYCHOLOGICZNYCH

Na przykład wpisanie hasła visual memory (czyli „pamięć wzrokowa”) po-


woduje pojawienie się informacji, że to hasło wystąpiło w 2480 rekordach.
Samo przejrzenie takiej ich liczby jest już bardzo uciążliwe, nie mówiąc
o czytaniu nawet niewielkiej części artykułów, do których one się odnoszą
(to i tak nie jest najgorzej – np. wpisanie hasła memory, czyli „pamięć”,
prowadzi do pojawienia się informacji o 86 661 pracach, w których znalazło
się to słowo).
Jeśli więc chciałbyś wiedzieć wszystko, co napisano na temat pamięci, i czy-
tałbyś 10 prac dziennie, zajęłoby to ponad 23 lata. Jeżeli jednak zainteresuje
Cię związek pomiędzy pamięcią wzrokową a telewizją, to po wpisaniu hasła
visual memory AND television (użycie wielkich liter w słowie „and” w Psyc-
Info oznacza akurat, że oba te pojęcia muszą wystąpić w każdym rekordzie,
ale niekoniecznie obok siebie) zorientujesz się (tak było przynajmniej we
wrześniu 2003), że na ten temat napisano zaledwie 10 (słownie: dziesięć)
prac.
W chwili obecnej PsycInfo jest najbardziej popularną bazą danych z psycho-
logii, ale nie jedyną. Takich baz jest naprawdę bardzo dużo. Na przykład bi-
blioteka jednego z prestiżowych amerykańskich uniwersytetów oferuje do-
stęp do 88 (o ile nie pomyliliśmy się w liczeniu) baz gromadzących informa-
cje w jakiś sposób związane z psychologią lub takie, które psycholog może
wykorzystać. Nie będziemy szczegółowo wskazywać ani tego, jakie bazy
warto wykorzystywać, ani też jak sobie praktycznie z nimi poradzić. Do tego
musisz dojść sam. Chcemy Cię jednak bardzo zachęcić do tego, abyś w jak
największym stopniu wykorzystał możliwości gromadzenia informacji. Na
pewno szczegółowe informacje uzyskasz w swojej bibliotece (prawdopo-
dobnie w każdej bibliotece naukowej, do której pójdziesz).

INTERNET – A JEDNAK KOPALNIA WIEDZY!

Obecnie zdecydowanie najobfitszym źródłem informacji jest Internet. Nie


będziemy znowu podawać szczegółów dotyczących stron, które warto od-
wiedzić, bo i tak konkrety sam będziesz musiał znaleźć. Chcemy jednak
zwrócić Twoją uwagę na kilka typów informacji dostępnych w Internecie.
• Po pierwsze, możesz odwiedzać tzw. portale internetowe. Najbardziej
oczywisty adres to www.psychologia.pl (zarządzany przez Wydział Psy-
chologii Uniwersytetu Warszawskiego), ale każda wyższa uczelnia
w Polsce ma specjalne strony dotyczące wydziałów lub instytutów psy-
chologii. Na niektórych stronach są też linki do innych ciekawych miejsc
dotyczących psychologii.
• Po drugie, niektóre biblioteki oferują dostęp do swoich baz danych przez
Internet. Warto się dowiedzieć, w jakim zakresie jest to możliwe w Two-
POSTĘPOWANIE BADAWCZE W PSYCHOLOGII 13

jej bibliotece. Są też biblioteki, które w ramach prenumeraty czasopism


naukowych mają dostęp do ich elektronicznych wydań. Oznacza to, że
nie musisz fizycznie wypożyczać całego czasopisma, by przeczytać inte-
resujący Cię artykuł, ale możesz artykuł ten ściągnąć z sieci.
• Wreszcie, po trzecie, możesz w Internecie znaleźć własne strony róż-
nych naukowców, którzy piszą na nich o prowadzonych przez siebie ba-
daniach. Często badacze ci zamieszczają listę opublikowanych przez
siebie artykułów, a czasem podają informację, w jaki sposób te artykuły
można zdobyć (np. zamieszczają linki do stron z pełnym tekstem).

JAK ORGANIZOWAĆ TO, CO SIĘ WIE?

Gromadząc wiedzę, warto pamiętać, że najlepiej jest zaczynać od czytania


najnowszych opracowań.
Nie bez znaczenia jest także zasięgnięcie porady u osób, które z racji swoich
zainteresowań mogą służyć wiedzą i doświadczeniem.
Obecnie naukowcy mają stosunkowo łatwy dostęp do dużej liczby baz da-
nych i czasopism zajmujących się podsumowywaniem wiedzy z różnych
dziedzin. Ważne jest również to, aby na początku nie koncentrować się wy-
łącznie na jednym podejściu czy opinii, ale postarać się spojrzeć na problem
z możliwie wielu punktów widzenia.
Oprócz gromadzenia informacji na temat meritum sprawy, ważne są również
dane dotyczące metod, za pomocą których badacze dochodzą do swoich
wniosków. W wyniku przeglądu literatury z jednej strony i własnych prze-
myśleń z drugiej – w Twojej głowie powinna pojawić się w miarę klarowna
odpowiedź na pytanie, czy zajmowanie się interesującym Cię dotąd proble-
mem nie jest jedynie próbą wyważania otwartych już drzwi.
Poruszając się po nieznanych Ci obszarach wiedzy, proponujemy przemy-
ślenie kilku praktycznych wskazówek, które – mamy nadzieję – pomogą Ci
w docieraniu do informacji i organizowaniu wiedzy:
• zaczynaj czytanie literatury od najnowszych publikacji,
• podczas czytania zawsze rób notatki,
• czytaj krytycznie, tzn. próbuj dyskutować z tekstem,
• nie staraj się zapamiętywać szczegółów, ale oceniaj to, co czytasz,
• staraj się zapamiętywać najczęściej pojawiające się nazwiska; nie musisz
pamiętać wszystkich, ale dobrze się orientować, jakie są główne postacie
w danej dziedzinie.
14 O METODACH BADAŃ PSYCHOLOGICZNYCH

NOWA TERMINOLOGIA – NOWY JĘZYK

Człowiek nie jest biernym odbiorcą informacji – ucząc się, przyswaja nie
tylko nowe pojęcia, lecz także nowy język. Początkowo niezbyt jasna termi-
nologia – z czasem wypełnia się zrozumiałą treścią. Opanowując język nie-
znanej Ci dyscypliny wiedzy, musisz nauczyć się nim sprawnie posługiwać,
tak by móc swobodnie wyrażać w nim poglądy i dyskutować z innymi.
Stawiane przez Ciebie problemy muszą być zrozumiałe nie tylko dla Ciebie,
ale również (a może nawet przede wszystkim) dla innych. Krótko mówiąc,
muszą one być zrozumiałe intersubiektywnie.
Język każdej dziedziny wiedzy jest osadzony w pewnym teoretycznym tle
i stanowi jego integralny element. Każde zagadnienie, które jest przedmio-
tem badań naukowych, powinno znajdować uzasadnienie w kontekście aktu-
alnej wiedzy i być wyrażone za pomocą odpowiednich terminów.
Uwaga ta odnosi się oczywiście do wszystkich dziedzin wiedzy, ale zwłasz-
cza do psychologii. Wynika to stąd, że w całkiem sporym zakresie wszyscy
czujemy się psychologami: czyż wiele naszych kłótni nie bierze się właśnie
z przekonania, że mamy lepszą teorię psychologiczną na temat wychowania
dzieci, fatalnych cech osobowości naszych przełożonych czy irytujących
przyzwyczajeń rodziców?
* Pylyshyn, Z. W. (1984). Com- Zenon Pylyshyn*, jeden z najwybitniejszych współczesnych kognitywistów,
putation and cognition: Toward jest nawet przekonany, że tzw. psychologia naukowa to nieco bardziej roz-
a foundation of cognitive
science. Cambridge, Mass.: MIT winięta psychologia potoczna (folk psychology), ze swoim dość swobodnym
Press. i zdecydowanie nieprecyzyjnym językiem. Z kolei dla wielu osób niewpra-
wionych w posługiwaniu się naukowym językiem psychologii może się on
wydać udziwniony i sztuczny. Niestety, jest również dosyć hermetyczny.
W rezultacie wiele czasopism naukowych i książek wypełniają teksty adre-
sowane do bardzo niewielkich grup specjalistów, którzy mniej więcej rozu-
mieją, o co w nich chodzi.

KILKA POUCZAJĄCYCH PRZYKŁADÓW UŻYCIA JĘZYKA NAUKOWEGO W PSYCHOLOGII

W wartościowej skądinąd książce na temat reprezentacji poznawczych


** Najder, K. (1989). Reprezen- Krzysztof Najder** m.in. pisze:
tacje i ich reprezentacje. Analiza
podstawowych kontrowersji teo- Z powyższego mamy, że nawet po założeniu analogowości funkcjonalnej nie otrzy-
retycznych we współczesnych mujemy jednojednoznacznej odpowiedniości pomiędzy stanami świata reprezento-
koncepcjach reprezentacji po- wanego i reprezentującego jako reguły oraz to, że analogowość funkcjonalna z zało-
znawczej. Wrocław–Warszawa–
Kraków: Ossolineum. żonym poziomem rozdzielczości dopuszcza możliwość nieciągłego o- i n-reprezen-
towania przemieszczeń przestrzennych (s. 92).
Powyższy cytat raczej mało zachęca do czytania całej książki, prawda?
Równie trudno się zorientować „folkowemu” psychologowi, o co mogło
POSTĘPOWANIE BADAWCZE W PSYCHOLOGII 15

chodzić autorowi referatu wygłoszonego podczas XXXI Naukowego Zjaz-


* Psychologia w perspektywie du Polskiego Towarzystwa Psychologicznego*, na podstawie następującego
XXI wieku. XXXI Zjazd Na- fragmentu streszczenia:
ukowy Polskiego Towarzystwa
Psychologicznego, Lublin, 5-8 Punktem wyjścia stały się dwa mechanizmy wyznaczające zakres przetwarzanego
września 2002 r. Lublin: TN
KUL.
materiału: mechanizm aktywacji semantycznej, zapewniający chwilową dostępność
zgromadzonych w pamięci reprezentacji poznawczych, oraz mechanizm inhibicji
poznawczej, odpowiedzialny za selekcję materiału do dalszego przetwarzania
(s. 241).
** Crick, F. (1997). Zdumiewa- I choć trudno się nie zgodzić z Francisem Crickiem**, że „żaden inny rodzaj
jąca hipoteza. Warszawa: Pró- prozy nie jest trudniejszy w zrozumieniu i żmudniejszy w czytaniu niż prze-
szyński i S-ka.
ciętny artykuł naukowy” (s. 14), to i tak nie mamy innego wyjścia, ponieważ
zbieranie informacji dotyczącej stanu wiedzy na jakiś temat jest bardzo waż-
nym etapem, nie tylko dlatego, że – mimo wszystko – pozwala się dowie-
dzieć, co już na ten temat wiadomo, lecz także dlatego, że nie ma innej drogi
do nauczenia się nowego języka.

OD PROBLEMU DO PYTANIA BADAWCZEGO

Wróćmy jednak do naszych refleksji na temat problemu badawczego. Jeśli


chcesz rozwiązać jakiś problem, powinieneś przede wszystkim nadać mu
formę pytania. Niektórzy nazywają to „ujęzykowieniem problemu”.
Pytanie badawcze musi wyglądać jak konkretne zadanie do rozwiązania.
Dobre pytanie nie tylko doprecyzowuje, o co chodzi badaczowi, ale wskazu-
je również na to, w jakiej formie pytający oczekuje odpowiedzi.
*** Ajdukiewicz, K. (1985). Kazimierz Ajdukiewicz*** twierdzi: „Kto zrozumiał zdanie pytajne, ten tym
Język i poznanie. T. I. Wybór samym nie wie jeszcze, jak będzie brzmiała prawdziwa odpowiedź na nie,
pism z lat 1920-1939. Warsza-
wa: PWN. zna już jednak jej brzmienie do pewnego stopnia [...]” (s. 279).
Odpowiedź na pytanie: „Kto odkrył Amerykę?” będzie brzmiała raczej:
„x odkrył Amerykę” niż np.: „Ciotka Zuzanna lubi je tylko jesienią”.

DWA PODSTAWOWE RODZAJE PYTAŃ BADAWCZYCH

Jest wiele różnych klasyfikacji pytań badawczych, ale niemal wszystkie py-
tania badawcze można sprowadzić do dwóch rodzajów: pytań rozstrzyg-
**** Por. Brzeziński, J. (1996). nięcia i dopełnienia****.
Metodologia badań psycholo-
gicznych. Warszawa: PWN. • Pytania rozstrzygnięcia najczęściej mają postać zdań rozpoczynających
się od partykuły „czy”, np.: „Czy wzrośnie wydajność pracownika, gdy
dostanie 5% podwyżki?”. Odpowiedzią na takie pytanie może być
stwierdzenie: „tak” lub „nie”.
16 O METODACH BADAŃ PSYCHOLOGICZNYCH

• Łatwo się domyślić, że odpowiedzią na pytania dopełnienia jest coś


więcej niż proste „tak” lub „nie”. Pytania te zaczynają się od partykuł:
„w jakim zakresie”, „kiedy”, „o ile” itp. Pytanie o wydajność czasu pra-
cy można za ich pomocą sformułować np. w taki sposób: „O ile zwięk-
szy się wydajność pracownika, jeżeli dostanie on 5% podwyżki?”.
Wbrew pozorom, odpowiedź na tak postawione o pytanie nie jest prosta.

JAK POPRAWNIE SFORMUŁOWAĆ PYTANIE BADAWCZE?

Każde pytanie badawcze musi być wyrażone w języku danej dziedziny wie-
dzy, a użyte w nim terminy – precyzyjne i jednoznaczne. Musi także istnieć
realna szansa uzyskania na nie odpowiedzi.
• Pytania badawcze powinny więc być przede wszystkim jasne, to znaczy
zrozumiałe przynajmniej dla specjalistów z danej dziedziny, czyli zawie-
rające tylko takie terminy, co do których znaczenia nikt z nich nie ma
wątpliwości. Na przykład pytanie: „Jaki jest zakres pamięci roboczej?”
zawiera dwa takie terminy.
Słowo „zakres” oznacza ilość informacji w jakiś sposób zmierzoną,
a wyrażenie „pamięć robocza” – zdolność ludzkiego umysłu do prze-
chowywania i przetwarzania informacji w danej chwili.
Pytanie zaś: „Ile mieści się w pamięci?” na pewno nie jest sformułowane
w sposób jasny, bo ani nie wiadomo, o jaki rodzaj pamięci chodzi, ani
też co miałoby się tam mieścić.
• Kolejnym warunkiem, jaki powinno spełniać poprawne pytanie badaw-
cze jest rozstrzygalność. Chodzi o to, że pytanie naukowe (i nie tylko
naukowe) ma sens wtedy, gdy za pomocą dostępnych środków można
próbować poszukiwać na nie odpowiedzi.
Z jednej strony nietrudno jest wygenerować wiele interesujących pytań,
na które zupełnie nie wiadomo, jak odpowiedzieć, ponieważ nie ma me-
tod, które pozwoliłyby znaleźć odpowiedź. Z drugiej jednak strony war-
to pamiętać, że sytuacja w nauce jest tak dalece dynamiczna, iż jeszcze
kilkanaście lat temu „pytania niemożliwe” – obecnie stają się jak najbar-
dziej sensowne.
Który z poważnych uczonych sprzed 100 lat uznałby za sensowne pyta-
nie o możliwość istnienia życia na Marsie? Teraz nie tylko stawia się ta-
kie pytania, ale co więcej – z uwagą analizuje się dane przesyłane przez
sondy kosmiczne Mars Odyssey czy Mars Global Surveyor, umieszczo-
ne na orbicie i na powierzchni „czerwonej planety”. Tak więc, skoro ist-
nieją metody badania Marsa, to pytania o życie na tej planecie nabierają
sensu.
POSTĘPOWANIE BADAWCZE W PSYCHOLOGII 17

KILKA SŁÓW O ZAŁOŻENIACH PYTANIA

* Ajdukiewicz, K. (1985). Język Pisząc o pytaniach, chcielibyśmy jeszcze wspomnieć, że każde pytanie ma
i poznanie. T. I. Wybór pism pewne ukryte założenia. Kazimierz Ajdukiewicz* podzielił je na założenia
z lat 1920-1939. Warszawa:
PWN. pozytywne i założenia negatywne. Założenie pozytywne to stwierdzenie, że
przynajmniej jedna z odpowiedzi, jakich teoretycznie można udzielić na da-
ne pytanie, jest prawdziwa. Z kolei założenie negatywne to stwierdzenie, że
przynajmniej jedna z możliwych odpowiedzi prawdziwa nie jest. Pytania,
które nie spełniają obu tych założeń, to pytania niewłaściwie postawione.
Oczywiście każde pytanie typu rozstrzygnięcia jest pytaniem właściwie po-
stawionym, bo ma tylko dwie odpowiedzi – „tak” lub „nie” – i jeżeli jedna
z nich jest prawdziwa, to druga musi być fałszywa.
Inaczej jest już jednak z pytaniami typu dopełnienia. Na przykład pytanie:
„Jaki rozkład wzmocnień jest najbardziej efektywny w warunkowaniu zło-
tych rybek?” zakłada, że spośród wszystkich możliwych odpowiedzi (czyli
wszystkich możliwych rozkładów wzmocnień) przynajmniej jedna jest
prawdziwa (założenie pozytywne), a jedna fałszywa (założenie negatywne).
W rzeczywistości jednak, jak twierdzą niektórzy badacze, żadna z odpowie-
dzi nie jest prawdziwa, a więc pytanie jest niewłaściwie postawione, bo nie
jest spełnione jego pozytywne założenie. Wykazali to m.in. Gillian Lowes
** Lowes, G., Bitterman, M. E. i Martin Bitterman**. W swoim eksperymencie nauczyli oni złote rybki ude-
(1967). Reward and learning in rzać w kartonowe kółko zawieszone w wodzie. Po każdym takim uderzeniu
goldfish. Science, 157, 455-457.
rybki dostawały stosowną porcję robaczków tubifex. Bez względu na wiel-
kość nagrody, rybki z jednakową częstotliwością i siłą uderzały w kartonowe
kółko. Rozkład wzmocnień nie miał więc żadnego znaczenia dla warunko-
wania rybek, a pytanie o jego optymalną charakterystykę oparto na błędnym
założeniu, że w ogóle taki rozkład istnieje. To samo jednak pytanie jest już
właściwie postawione w odniesieniu np. do szczurów lub gołębi.

O WYJAŚNIANIU, CZYLI „DLACZEGO TAK WŁAŚNIE JEST?”

Poszukiwanie odpowiedzi na pytania badawcze dotyczące przyczyny jakie-


goś zjawiska nazywa się wyjaśnianiem. Nie wchodząc w zawiłe analizy tego
pojęcia prowadzone przez filozofów nauki, warto zapamiętać kilka zdań na
temat dwóch rodzajów wyjaśniania, z jakimi najczęściej mamy do czynienia
w psychologii. Pierwszy – zwany indukcją – pozwala na wyjaśnianie przy-
czyn jakiegoś zjawiska poprzez odwołanie się do ogólnej prawidłowości
ustalonej w wyniku analizy wielu konkretnych przypadków tej prawidłowo-
ści; drugi to dedukcja i zajmiemy się nim nieco później.
Krzysiowi źle „idzie” w szkole. Dlaczego mu nie idzie? – pytamy z troską.
Może być wiele powodów, ale zadowalającą odpowiedź znajdziemy wtedy,
gdy uda nam się przeprowadzić takie badanie, które wskaże na przyczynę
18 O METODACH BADAŃ PSYCHOLOGICZNYCH

najbardziej prawdopodobną. Zwróć uwagę, że oprócz faktu, który wyjaś-


niamy (słaba nauka Krzysia), oraz przyczyny, do której się odwołujemy, ist-
nieje w naszym rozumowaniu jeszcze jeden element. Jest nim ogólna prawi-
dłowość, uprawniająca do połączenia przyczyny ze skutkiem. W nauce taką
funkcję pełnią prawa naukowe, czyli ogólne zasady ustalone na podstawie
wcześniej przeprowadzonych badań.
Zastanawiając się nad przyczynami niepowodzeń Krzysia, możemy się od-
wołać do wielu różnych praw. Wiemy przecież, że problemy w szkole mogą
być spowodowane równie dobrze trudną sytuacją rodzinną, dysgrafią (kłopo-
tami z pisaniem liter), jak brakiem witamin. Jeżeli dojdziemy do wniosku, że
w przypadku Krzysia chodzi właśnie o brak witamin, to będziemy w stanie
wyjaśnić jego problemy tylko wtedy, gdy odwołamy się do ogólnego pra-
wa naukowego, które może brzmieć mniej więcej tak: „Jest trochę dzieci
w wieku szkolnym, które cierpią na brak witamin i gorzej «idzie» im
w szkole niż dzieciom, które mają witamin w bród”. To w zasadzie schemat
standardowego postępowania diagnostycznego. Nie zawsze jednak jest tak
prosto. Czasami jest więcej przyczyn niż jedna, a między nimi występują
różnego rodzaju interakcje, o których albo wiemy (bo inni ustalili to wcze-
śniej), albo sami musimy je odkryć.

JAKĄ ROLĘ W WYJAŚNIANIU ODGRYWAJĄ KONSTRUKTY TEORETYCZNE?

We współczesnej nauce bardzo rzadko udaje się zakończyć wyjaśnianie je-


dynie na podstawie „skodyfikowanego” katalogu możliwych przyczyn. Z re-
guły wyjaśnianie odbywa się przez odwołanie do teorii. Teoria to zbiór nie
tylko praw naukowych, lecz także pewnych ogólnych założeń, które leżą
u ich podstaw. Znaczna część niemal każdej teorii w ogóle nie jest spraw-
dzalna. Są to właśnie założenia, w które badacz musi po prostu uwierzyć,
tylko wtedy bowiem może logicznie wyjaśnić dostatecznie dużo zjawisk.
Często założenia przyjmują formę tzw. konstruktów lub terminów teoretycz-
nych, czyli takich wyrażeń, które nie mają konkretnych odpowiedników w
rzeczywistości. Przykładem takiego terminu może być wspomniana „pamięć
robocza”, ale w naukach empirycznych jest ich bardzo wiele. Wsłuchaj się
kiedyś dobrze w to, o czym rozmawiają psychologowie, a okaże się, że
większość słów w ich żargonie, takich jak „motywacja”, „inteligencja”,
„osobowość” czy „agresja”, nie ma odniesienia do konkretnych przedmio-
tów istniejących w świecie. Konstrukt teoretyczny jest obiektem idealnym
lub procesem o pewnych, wymyślonych przez badaczy, własnościach. Od-
wołanie się do niego pozwala lepiej wyjaśnić jakieś obserwowalne zjawisko
niż uznanie, że tego obiektu lub procesu nie ma.
Konstrukty teoretyczne istnieją głównie w teoriach naukowych, chociaż
trudno jest czasem ustalić, czy ich źródła tkwią raczej w nauce, czy też
POSTĘPOWANIE BADAWCZE W PSYCHOLOGII 19

w życiu codziennym. Dobrym przykładem zacierania się w potocznym języ-


ku różnicy pomiędzy tym, co istnieje jedynie w teorii naukowej, a tym, co
istnieje w rzeczywistości, jest słowo „pamięć”. Pod koniec lat sześćdzie-
* Atkinson, R. C., Shiffrin, R. siątych dwóch Richardów: Atkinson i Shiffrin*, opublikowało ważny arty-
M. (1968). Human memory: kuł, w którym przedstawili swój model wielomagazynowej pamięci. Zgod-
A proposed system and its con-
trol processes. W: K. W. Spence, nie z nim pamięć jest jakby zestawem pudełek, między którymi przepływają
J. T. Spence (red.), The psycho- informacje. W jednym pudełku informacja jest tylko przez jakiś czas (pa-
logy of learning and motivation
(t. 2, s. 89-105). New York:
mięć krótkoterminowa), w drugim jest stale (pamięć długoterminowa). Mo-
Academic Press. del ten nie tylko dobrze odzwierciedla stan ówczesnej wiedzy na temat pa-
mięci, ale również odpowiada temu, w jaki sposób intuicyjnie myślimy lub
mówimy o pamięci. Gdy o czymś zapomniałeś, powiesz: „wyleciało mi
z głowy” (niczym z pudełka), gdy zaś nie możesz czegoś zapamiętać, zrezy-
gnowany stwierdzasz, że nie może Ci to wejść do głowy (interesujące uwagi
na temat metaforycznych podstaw naszego języka i myślenia poczynili m.in.
** Lakoff, G., Johnson, M. George Lakoff i Mark Johnson**). Mimo że każda nowa informacja musi
(1988). Metafory w naszym
życiu. Warszawa: Państwowy być w jakiś sposób zapisana w naszym mózgu, nie oznacza to jednak, że na-
Instytut Wydawniczy. sza pamięć rzeczywiście jest kontenerem do przechowywania danych.

WYJAŚNIANIE TO POSZUKIWANIE PRZYCZYN I BUDOWANIE TEORII

Podsumujmy: odpowiedź na pytanie badawcze jest równoznaczna z poda-


niem wyjaśnienia, czyli wskazaniem na jedną lub wiele przyczyn danego
zjawiska, które badacz uznaje za wystarczająco prawdopodobne. Z reguły
wyjaśnianie odbywa się na podstawie któregoś z wcześniej ustalonych praw
naukowych lub też polega na sformułowaniu nowego prawa (gdy jesteśmy
dostatecznie twórczy). Finalnym produktem wyjaśniania jest teoria, włącz-
nie z prawami naukowymi i założeniami zawartymi w terminach teore-
tycznych. Terminy te noszą nazwę teoretycznych, ponieważ bezpośrednio
nie odnoszą się do żadnej obserwowalnej rzeczywistości. Czasami też termi-
ny te są nazywane konstruktami teoretycznymi. Słowo „konstrukt”, zesta-
wione z „teoretyczny”, jeszcze bardziej niż słowo „termin” sugeruje, że
przedmiot, do którego się ono odnosi, jest wytworem twórczego umysłu ba-
dacza, potrzebnym mu do wyjaśnienia jakichś zjawisk.

WYJAŚNIANIE TO TAKŻE WERYFIKOWANIE JUŻ ISTNIEJĄCYCH TEORII NAUKOWYCH

W przypadku budowania teorii nasze rozumowanie (wnioskowanie) ma cha-


rakter indukcyjny, natomiast weryfikując teorię, mamy do czynienia z rozu-
mowaniem dedukcyjnym, czyli poszukiwaniem określonych skutków, jeżeli
istnieją określone przyczyny. Kierunek wynikania jest tutaj odwrotny.
Na przykład jednym z założeń teorii pamięci opracowanej przez dwóch pa-
nów „R.” (Atkinsona i Shiffrina) jest stwierdzenie, że pamięć krótkotermi-
20 O METODACH BADAŃ PSYCHOLOGICZNYCH

nowa ma charakter akustyczny. Oznacza to, że próba krótkotrwałego utrzy-


mania w pamięci jakiejś informacji powiedzie się wtedy, gdy będziemy ją
kilkakrotnie powtarzać na głos lub choćby tylko szeptem (w taki sposób czę-
sto usiłujemy zapamiętać np. numer telefonu, zanim zdążymy go zapisać).
Jeżeli tak jest, to ludzie powinni gorzej zapamiętywać informacje, których
z jakiś powodów nie mogą powtarzać. W tym przypadku weryfikowanie teo-
rii polega na zaprojektowaniu takiego eksperymentu, w którym się wykaże,
że zablokowanie możliwości powtarzania informacji pogarsza ich zapamię-
* Rundus, D. J. (1971). Analysis tywanie. Eksperyment taki przeprowadził Dewey Rundus*. Prosił on osoby
of rehearsal processes in free re- badane o powtarzanie różnych słów na głos. Słowa te były powtarzane z
call. Journal of Experimental
Psychology, 89, 63-77. różną częstotliwością i dokładnie zgodnie z przewidywaniami teorii okazało
się, że im częściej słowo było powtórzone, tym większe było prawdopodo-
bieństwo, że osoba badana przypomni sobie to słowo.

FALSYFIKACJA – SZUKANIE DZIURY W CAŁYM

Bardzo często autor teorii naukowej jest tak do niej przywiązany, że wymy-
śla tylko takie eksperymenty, które potwierdzają jego przewidywania. Do-
brze jednak, że nauka jest publiczna i dość w niej miejsca na uzasadnioną
złośliwość. Kiedy tylko ktoś opracuje teorię, zaraz inni zaczynają poszuki-
wać takich wynikających z niej konsekwencji, które wcale nie mają potwier-
dzenia w faktach.
Pudełkowa teoria pamięci nie jest wyjątkiem. Jeżeli uniemożliwienie powta-
rzania informacji przeszkadza w ich zapamiętywaniu, to informacje, z któ-
rymi mamy kontakt tylko raz, powinny być najszybciej zapominane. Łatwo
jednak się przekonać, że tak być nie musi. Napisz na kartce kilka słów i
przeczytaj je komuś tylko raz. Przypuśćmy, że na tej liście znajdzie się rów-
nież imię tej osoby. Jeśli nawet za kilka dni nie będzie ona już pamiętała
żadnego innego słowa, to najprawdopodobniej wymieni przynajmniej jedno
– swoje imię. To skądinąd proste zjawisko trudno wyjaśnić w ramach teorii
Atkinsona i Shiffrina, chyba że się udowodni, iż osoba badana przez kilka
dni cały czas powtarzała w pamięci swoje imię. Jest to jednak raczej mało
prawdopodobne. Należy więc uznać, że – wbrew przewidywaniom wynika-
jącym z teorii – są takie informacje, które zapamiętujemy od razu, i nie mu-
simy stale zaprzątać nimi uwagi, żeby je sobie przypomnieć.
W obliczu empirii zadrży każda teoria (oczywiście z wyjątkiem teorii Hegla,
według której jeśli fakty nie potwierdzają teorii, to tym gorzej dla faktów).
Jeżeli wynik badania jest sprzeczny z teorią, to należy albo odrzucić ją w ca-
łości, albo też ją tak zmodyfikować, by nowo odkryte zjawisko również z
niej wynikało. Postępowanie, którego celem jest próba obalenia istniejącej
** Popper, K. (1997). Logika
odkrycia naukowego. Warszawa: teorii, nazywa się falsyfikacją. Autorem tego pojęcia jest Karl Popper**,
PWN. który twierdził nawet, że nie ma większego sensu zajmowanie się potwier-
POSTĘPOWANIE BADAWCZE W PSYCHOLOGII 21

dzaniem teorii naukowych. Badacze powinni raczej starać się je obalać, czyli
falsyfikować.

JAK PRZEBIEGA ROZUMOWANIE W POSTĘPOWANIU NAUKOWYM?

Przedstawiliśmy dwa schematy postępowania w naukach empirycznych: bu-


dowanie teorii, poprzez uogólnianie wyników badań, oraz weryfikowanie
(i falsyfikowanie) teorii na podstawie testowania wynikających z niej konse-
kwencji. Oba schematy są równie ważne, a pełne postępowanie badawcze
* Por. Such, J. (1975). Problemy zawiera je równocześnie*.
weryfikacji wiedzy. Warszawa:
PWN. • Najpierw nowy problem badawczy jest przedstawiany w postaci jednego
lub wielu pytań. Znalezienie odpowiedzi na te pytania pozwala sformu-
łować teorię.
• Teraz przychodzi czas na drugi etap, czyli wyciąganie empirycznych
wniosków z nowo powstałej teorii i sprawdzanie, czy potwierdzają je
wyniki eksperymentów. Jeżeli są one sprzeczne z przewidywaniami wy-
nikającymi z teorii, to poszukujemy przyczyn dla odkrytych przez nas
nieprawidłowości. Gdy odstępstwa są nieznaczne lub dotyczą tych
aspektów, które – choć zgodne z teorią – nie były wcześniej brane pod
uwagę, wówczas utrzymujemy teorię w nieco zmodyfikowanej postaci
i wszystko jest w porządku. Możemy jednak również odrzucić teorię
w całości i od nowa rozpocząć proces eksperymentowania i budowania
nowej teorii.

1.2. FORMUŁOWANIE HIPOTEZ BADAWCZYCH

CO TO JEST HIPOTEZA BADAWCZA?

Może to zabrzmi nieco dziwnie, ale wiele wskazuje na to, że możemy zadać
pytanie tylko wtedy, gdy w naszej głowie mamy już przynajmniej jedną od-
powiedź. Właśnie to, że jest jedna albo że jest jakaś niewyraźna lub że jest
ich zbyt wiele, skłania nas do postawienia pytania. Tę niejasną, dopiero
przeczuwaną odpowiedź można nazwać zalążkiem hipotezy badawczej.
Wyprzedzając nieco, ustalmy: hipoteza badawcza to zdanie twierdzące, do-
tyczące przewidywanego wyniku eksperymentu, skonstruowanego w celu
uzyskania odpowiedzi na pytanie badawcze. Rozpatrzymy kilka przykładów.
Większą część swojej naukowej aktywności Stephen Kosslyn poświęcił na
badania wyobraźni. Zarówno problem, jak i nazwisko badacza wykorzystali-
22 O METODACH BADAŃ PSYCHOLOGICZNYCH

śmy już do zilustrowania tego, jak funkcjonuje baza danych PsycInfo. Teraz
odwołamy się do badań Kosslyna, żeby pokazać, na czym polega sformuło-
wanie interesującej hipotezy badawczej. Analizując różne przejawy funkcjo-
nowania wyobraźni, doszedł on do wniosku, że z psychologicznego punktu
widzenia, niewielka jest różnica między wyobrażeniami wzrokowymi a per-
cepcją wzrokową. Innymi słowy, wyobrażając sobie coś, zachowujemy się
* Kosslyn, S. (1973). Scanning podobnie, jak byśmy to coś oglądali. Stephen Kosslyn* postanowił ekspe-
visual images: Some structural rymentalnie sprawdzić tę intuicję. Wystarczyło przyjąć tylko dwa, dość
implications. Perception and
Psychophysics, 14, 90-94. oczywiste założenia: (1) każdy spostrzegany przedmiot ma pewną wielkość
i kilka charakterystycznych punktów, np. róża ma od kilku do kilkudziesię-
ciu centymetrów wysokości oraz składa się z korzenia, liści i kwiatu;
(2) przesuwając wzrok od kwiatu w dół, szybciej zauważymy liście niż ko-
rzeń. Jeżeli zatem wyobraźnia działa podobnie jak spostrzeganie, to czas
udzielenia odpowiedzi na pytania dotyczące szczegółów „bliższych” lub
„dalszych” części jakiegoś przedmiotu powinien być wprost proporcjonalny
do długości drogi, jaką należy „przebyć w wyobraźni” z miejsca, które aktu-
alnie znajduje się w centrum uwagi. I to jest właśnie hipoteza.
Z pewnością dobrze pamiętasz eksperymenty dotyczące warunkowania kla-
sycznego, które Iwan Pawłow przeprowadzał na psach. Jak według ciebie
mogła brzmieć najważniejsza z testowanych przez niego hipotez? Być może,
tak: jeżeli specyficzny bodziec (np. pokarm), który naturalnie wywołuje re-
akcję fizjologiczną (ślinienie), będzie wielokrotnie podawany zwierzęciu w
towarzystwie innego bodźca (np. dzwonka), który nie wywołuje reakcji śli-
nienia, to po pewnym czasie bezwarunkowa reakcja ślinienia pojawi się już
na sam dźwięk dzwonka. Nawiasem mówiąc – czy nie tak właśnie brzmi
ogólne prawo warunkowania klasycznego?
Między prawem naukowym a hipotezą badawczą zachodzi bardzo ścisły
związek: prawo naukowe to potwierdzona i wyrażona w nieco ogólniejszej
postaci hipoteza badawcza.

HIPOTEZY NIE POWINNY BYĆ ANI ZBYT OGÓLNE, ANI ZBYT SZCZEGÓŁOWE

Poprawne sformułowanie hipotezy wcale nie jest łatwe.


Po pierwsze, hipoteza nie może być zbyt ogólna. Jeśli jest zbyt ogólna, to
umożliwia niemal każdy rodzaj generalizacji. Hipoteza, która wyjaśnia zbyt
wiele, w gruncie rzeczy nic nie wyjaśnia. Zdarza się, że niektóre teorie za-
czynają funkcjonować jako bardzo ogólne hipotezy badawcze. Uwaga ta
dotyczy np. teorii schematów poznawczych, która z tego właśnie powodu
** Zalewski, A. (2000). Zapo- spotkała się ze zdecydowaną krytyką. Z jednej strony filozof, Andrzej Za-
znane dziedzictwo: czy kogni-
tywna teoria filmu jest kogni- lewski**, nie może się oprzeć wrażeniu, iż „[...] badacz-kognitywista po
tywna? Principia, 26, 99-129. prostu wyczarowuje swe schematy zawsze wtedy, gdy mu są potrzebne”. Z
POSTĘPOWANIE BADAWCZE W PSYCHOLOGII 23

* Najder, K. (1997). Schematy drugiej strony psycholog-kognitywista, Krzysztof Najder*, również stawia
poznawcze. W: M. Materska, poważny zarzut, twierdząc, iż „[...] koncepcja schematowa ma wprawdzie
T. Tyszka (red.), Psychologia
i poznanie (s. 38-60). Warszawa: dużą moc wyjaśniającą, ale jednocześnie (z punktu widzenia psychologa) –
PWN. niewielką moc predyktywną” (s. 57). Moc predyktywna koncepcji (teorii
lub modelu) to taka jej własność, dzięki której możliwe jest przewidywanie
na podstawie tej koncepcji przyszłych wydarzeń.
Zdarza się więc, że hipoteza jest zbyt ogólna – ale czy może być zbyt szcze-
gółowa? Wszystko zależy od tego, jak będziemy rozumieć słowo „szczegó-
łowa”. Jeśli oznacza: „dokładna”, „nie budząca wątpliwości co do znaczeń
używanych w niej słów” czy też „jednoznacznie odnosząca się do weryfiku-
jącej ją procedury eksperymentalnej”, to wobec takiej hipotezy wyrażenie
„zbyt szczegółowa” jest nie na miejscu. Oczywiście nie należy przesadzać z
nadmierną dokładnością wyrażania się, ponieważ hipoteza powinna zawie-
rać wyłącznie te słowa, które są ważne z punktu widzenia pytania ba-
dawczego. Wrócimy do tego później. Tak rozumiane szczegółowe hipotezy
mają tę zaletę, że stosunkowo łatwo je weryfikować, to znaczy potwierdzić,
że jest prawdziwa, albo odrzucić.
Hipoteza może być jednak „zbyt szczegółowa”, ale w nieco innym znacze-
niu. Chodzi o meritum. Można sobie wyobrazić projekt badawczy, którego
celem byłoby zweryfikowanie hipotez dotyczących szybkości czytania
wszystkich kombinacji dwuliterowych w kilkunastu krojach i wielkościach
pisma. Moglibyśmy oczekiwać, że badacze takiego problemu musieliby po-
stawić setki hipotez w rodzaju: „czas czytania sekwencji liter «os» zapisa-
nych pismem Times Roman o wielkości 12 punktów typograficznych jest
krótszy niż czas czytania sekwencji «os» zapisanych pismem Times Roman
o wielkości 11 punktów” lub „czas czytania sekwencji liter «ot» zapisa-
nych...” itd. Przykład jest oczywiście nieco przerysowany, ale przeglądając
literaturę naukową, trudno się czasem oprzeć wrażeniu, że jest w niej cał-
kiem sporo opisów tego rodzaju eksperymentów.
W praktyce o właściwym poziomie ogólności hipotez badawczych decyduje
wiedza i doświadczenie. Im więcej wiadomo na temat badań prowadzonych
w danej dziedzinie, tym łatwiej ustalić, jaki jest najbardziej typowy poziom
ogólności stawianych w niej hipotez. Przykładem mogą być eksperymenty
dotyczące zapamiętywania bezsensownych zbitek liter, przeprowadzone
** Baddeley, A. (1998). Pamięć. przez Alana Baddeleya**. Sprawdzał on, jakiego rodzaju kombinacje kilku
Poradnik użytkownika. Warsza- liter są lepiej zapamiętywane przez osoby badane. Mogłoby się wydawać, że
wa: Prószyński i s-ka.
sprawdzenie, czy ludzie lepiej pamiętają sekwencję NGORHQ, czy też se-
kwencję REASYS, to zdecydowanie zbyt szczegółowe zagadnienie. Pozory
jednak mylą w tym przypadku. Porównanie tych dwóch sekwencji miało
ważny cel teoretyczny. Otóż pierwsza z nich to zbitka przypadkowych liter,
druga zaś to zbitka dwóch trójek liter (REA plus SYS), które w tej formie po-
jawiają się w angielskich słowach. Ludzie lepiej pamiętają drugą zbitkę, bo
24 O METODACH BADAŃ PSYCHOLOGICZNYCH

jest ona zbudowana z dwóch elementów, które mogą rozpoznać, a nie z sze-
ściu. Warto też wspomnieć, że powód przeprowadzenia takiego właśnie eks-
perymentu był całkiem praktyczny. Baddeley zaprojektował go na potrzeby
poczty w Wielkiej Brytanii, gdy pracowano nad nowym systemem kodów
pocztowych i ktoś chciał zaprojektować takie kody, które byłyby łatwe do
zapamiętania. Niestety, współczesna technologia popsuła ten szlachetny za-
miar i z powodu ograniczeń technicznych wprowadzono inny system kodów
– jak pisze Baddeley: „znacznie trudniejszy do zapamiętania!”.

HIPOTEZA BADAWCZA POWINNA BYĆ EMPIRYCZNIE SPRAWDZALNA

Oprócz optymalizacji poziomu ogólności, następnym warunkiem stawianym


hipotezom jest weryfikowalność, czyli możliwość ich empirycznego spraw-
dzenia. Oczywiście warunek ten dotyczy nauk empirycznych, a więc takich,
w których weryfikacja hipotez następuje na drodze konfrontacji z rzeczywi-
stością, a nie jest tylko wynikiem rozważań teoretycznych.
Weryfikowalność hipotezy jest wprost związana z jej szczegółowością. Im
hipoteza ogólniejsza, tym trudniej ją potwierdzić albo odrzucić. Trudno np.
stwierdzić, czy zwierzęta mają inteligencję, jeżeli wcześniej szczegółowo się
nie określi, co to jest inteligencja. Zgodnie z jedną z definicji inteligencja
jest tożsama ze zdolnością do uczenia się. Przy takiej definicji oczywiście
można już weryfikować hipotezę o inteligencji zwierząt, a także wiele in-
nych, bardziej szczegółowych hipotez (np. że złote rybki są mniej inteligent-
ne od szczurów). Nie zawsze jednak samo poprawne sformułowanie hipote-
zy pozwala na taką empiryczną weryfikację, która nie wywołałaby sprzeci-
wu innych badaczy.
Wspomnieliśmy wcześniej o prostym eksperymencie pokazującym fałszy-
wość hipotezy – im dłużej powtarzasz, tym lepiej pamiętasz. Przypomnijmy:
hipoteza ta nie dotyczy każdego typu materiału, np. to, że przeczytałeś swoje
imię na liście osób, które zdały egzamin, zapamiętasz nawet wtedy, gdy
przeczytałeś je tylko raz (co więcej, jeżeli lista studentów podana zostanie
nie w postaci nazwisk, ale w postaci jakichś kodów, to i tak zapamiętasz, że
Twój kod był na liście, a prawdopodobnie nie zapamiętasz żadnego innego).
* Craik, F. I. M., Lockhart, R. S. Fergus Craik i Robert Lockhart* zaproponowali hipotezę, że zapamiętujemy
(1972). Levels of processing: A to, co głębiej przetworzyliśmy – „głębiej” oznacza tu „z większym wysił-
framework for memory research.
Journal of Verbal Learning and kiem”. Hipoteza ta potwierdzona została w wielu eksperymentach, można
Verbal Behavior, 11, 671-684. np. powiedzieć, że zapamiętujemy to, iż nasze nazwisko (albo kod) było na
liście, dlatego że wkładamy szczególny wysiłek w jego znalezienie. Krytycy
koncepcji poziomów przetwarzania szybko jednak zauważyli, że hipoteza ta
jest w zasadzie niemożliwa do zweryfikowania empirycznego. Spowodowa-
ne jest to tzw. błędnym kołem w definiowaniu terminów: lepiej zapamięty-
POSTĘPOWANIE BADAWCZE W PSYCHOLOGII 25

wany jest materiał, który jest głębiej przetworzony, a o tym, że materiał jest
głębiej przetworzony, wiemy dlatego, że został... lepiej zapamiętany.

HIPOTEZA POWINNA BYĆ PROSTA

Kolejną cechą poprawnie sformułowanej hipotezy naukowej jest jej prosto-


ta. Tylko pozornie nie brzmi to naukowo, ale ma duży sens praktyczny.
Pod koniec XVII wieku naukowcy byli przekonani, że spalanie polega na
ubywaniu czegoś ze spalanego przedmiotu. To „coś” to była jakaś substancja
palna obecna w każdym ciele, które może się spalić. Substancję tę nazwano
„flogistonem”. Hipoteza ta może utrzymałaby się do dzisiaj, gdyby francuski
badacz, Antoine Lavoisier, nie przeprowadził spalania w kontrolowanych
warunkach i nie stwierdził, że masa popiołu jest większa od masy spalanego
ciała – a przecież powinna być mniejsza, gdy czegoś z tego ciała ubywa.
Zwolennicy flogistonu postanowili obronić swą hipotezę poprzez jej skom-
plikowanie – stwierdzili, że flogiston ma ciężar ujemny. W takiej formie hi-
poteza była oczywiście nie do obalenia.
Kiedy hipoteza jest zbyt skomplikowana, wówczas z reguły jest bardzo trud-
na do weryfikacji. Weźmy np. starą hipotezę „homunculusa” – małego
człowieczka ukrytego w głowie, który tak naprawdę jest odbiorcą sygnałów
z zewnątrz organizmu i dyspozytorem naszego ciała. Prostą wersję tej hipo-
tezy całkiem łatwo odrzucić: jeśli siedzisz sam w pokoju i nie słyszysz żad-
nych głosów (co tylko dobrze świadczy o Twoim stanie psychicznym), to
znaczy, że w Twojej głowie nic nie siedzi. Postawmy jednak tę hipotezę w
wersji bardziej skomplikowanej: „Homunculus” jest niewidzialny i niedo-
stępny naszej świadomości – a okaże się, że z takiej hipotezy niewiele już
wynika. Zawsze bowiem można zapytać, czy homunculus ma głowę i kto
w niej siedzi. Ad absurdum.
* Selfridge, O. (1959). Pande- Niezrażony tymi niedemokratycznymi próbami dyskryminacji homunculu-
monium: A paradigm for learn- sów, Oliver Selfridge* zaproponował cały system homunculusów-demonów
ing. W: Symposium on the me-
chanization of thought pro- odpowiedzialnych za rozpoznawanie obrazu. Psychologowie wymyślili wie-
cesses. London: HM Stationary le różnych mechanizmów realizujących różne procesy umysłowe; istnienia
Office.
większości z nich nie da się ani potwierdzić, ani zaprzeczyć. Jeden z guru
** Anderson J. (1990). The psychologii poznawczej, John Anderson** – najprawdopodobniej w stanie
adaptive character of thought. chwilowej depresji lub w uniesieniu medytacyjnym – stwierdził nawet, że
Hillsdale: Erlbaum.
dalsze odkrywanie mechanizmów działania umysłu jest bezużyteczne, a psy-
chologia powinna się zajmować czymś zupełnie innym. Nawiasem mówiąc,
Anderson dokładnie opisał to, czym – jego zdaniem – powinna się zajmować
psychologia. Swoje podejście nazwał analizą racjonalną, ale w gruncie rze-
czy jest to po prostu dość wysublimowana wersja behawioryzmu.
26 O METODACH BADAŃ PSYCHOLOGICZNYCH

1.3. ZMIENNE I ICH POMIAR

CECHA A ZMIENNA

Jednym z ciekawszych zagadnień, jakie badają psychologowie zajmujący się


spostrzeganiem przez organizmy żywe, jest problem „niezmienników per-
cepcyjnych”. Najprościej mówiąc, chodzi o to, by się dowiedzieć, w jaki
sposób mózg integruje zmieniające się obrazy w taki sposób, że ciągle ma-
my poczucie spostrzegania tych samych obiektów. Przeciętnie oko człowie-
ka wykonuje około czterech tzw. ruchów skokowych na sekundę. Ruch taki
składa się z bardzo szybkiego skoku gałki ocznej i krótkiego zatrzymania na
* Por. Młodkowski, J. (1998). pewnym punkcie oglądanego przedmiotu*. Jeżeli więc patrzymy na jakikol-
Aktywność wizualna człowieka. wiek przedmiot, to jego obraz na siatkówce zmienia się co najmniej cztery
Warszawa–Łódź: Wydawnictwo
Naukowe PWN. razy w ciągu sekundy, a jednak nie mamy wątpliwości, że jest to ciągle ten
** Epstein, S. (1977). Stability
sam przedmiot. Według Samuela Epsteina** dzieje się tak dlatego, że mamy
and constancy in visual percep- genetycznie zakodowaną umiejętność wydobywania tego, co stałe, w zmie-
tion: Mechanism and processes. niającym się środowisku. Bez takiej umiejętności bardzo szybko pogubili-
New York: Wiley.
byśmy się w chaotycznym świecie ciągle zmieniających się obrazów.
Podobnie jak człowiek poszukuje stałości w tym, co dynamicznie się zmie-
nia wokół niego, tak też do pewnego stopnia można powiedzieć, że poszu-
kiwanie stałości jest głównym celem badania naukowego. Tworzenie praw
naukowych to właśnie poszukiwanie stałych związków pomiędzy różnymi
cechami badanych obiektów.
Cecha jest podstawowym pojęciem w planowaniu praktycznie każdego typu
eksperymentu w psychologii. Cechą może być np. płeć, jako właściwość
obiektów stanowiących gatunek homo sapiens. Cechą może być także pe-
wien sposób zachowania się człowieka lub skłonność do pewnego typu za-
chowania. Na przykład mówiąc o kimś, że jest pogodny, mamy na myśli
pewną cechę jego zachowania się, która zresztą wcale nie musi się bez prze-
rwy ujawniać. Cecha „pogodny” różni się np. od cechy „wesołkowaty”. Co
innego mamy na myśli, mówiąc, że ktoś jest pogodny, a co innego, mówiąc,
że ktoś jest wesołkowaty.

CECHY STAŁE I ZMIENNE

Cechy mogą być stałe dla pewnej grupy obiektów (np. dla czytelników tego
przewodnika, którzy – mamy nadzieję – wszyscy są „zaciekawieni”) lub dla
tego samego obiektu (czyli dla Ciebie, drogi czytelniku, czytający w tej
chwili – mamy nadzieję, że jesteś „bardzo zaciekawiony”). Cechy mogą też
odróżniać od siebie poszczególne grupy i jednostki – np. studenci różnych
kierunków różnią się co do tego, jaką wartość przyjmuje dla nich cecha „kie-
POSTĘPOWANIE BADAWCZE W PSYCHOLOGII 27

runek studiów”. Scholastycy w średniowieczu twierdzili, że cały świat zor-


ganizowany jest hierarchicznie, to znaczy każda cecha charakteryzuje się
pewnymi wartościami, które stanowią cechy niższego rzędu, a te z kolei dają
się wyrazić za pomocą cech jeszcze niższego rzędu – i tak dalej. Trochę po-
dobnie możemy potraktować cechy w badaniach i eksperymentach psycho-
logicznych. Na przykład „bycie studentem” jest cechą stałą dla wszystkich
studiujących, ale „bycie studentem psychologii” jest cechą stałą już tylko dla
części tych, którzy „są studentami”.
Jeżeli jakaś cecha przyjmuje co najmniej dwie wartości, to możemy określić
ją jako zmienną. Przykłady takich cech można mnożyć w nieskończoność:
płeć, kierunek studiów, nastrój w czasie czytania książki i tak dalej.
Oczywiście każdą cechę można potraktować jako stałą lub jako zmienną
w zależności od tego, na czym aktualnie się koncentrujemy. Gdy z jakichś
powodów ważne jest dla Ciebie zróżnicowanie ludzi ze względu na płeć,
wówczas płeć jest zmienną, ale gdy nie ma to dla Ciebie znaczenia lub masz
na myśli tylko jedną grupę (np. kobiet lub mężczyzn), wtedy płeć traktujesz
jako stałą. Jeżeli interesuje Cię np. to, czy kobiety różnią się od mężczyzn
pod względem nasilenia potrzeby afiliacji (kontaktów z innymi ludźmi), to
płeć osób badanych traktujesz jako zmienną. Jeśli natomiast chcesz podjąć
badania, których celem byłoby dowiedzenie się, czy mężczyźni-grotołazi
różnią się od mężczyzn-alpinistów pod względem nasilenia potrzeby wyczy-
nu, to płeć potraktujesz jako stałą. W tym drugim przypadku zmienną będzie
preferowany kierunek poruszania się tych mężczyzn w przestrzeni: „do” lub
„od środka ziemi”.

ZMIENNE ILOŚCIOWE I JAKOŚCIOWE – CÓŻ TO TAKIEGO?

Ze zmienną mamy do czynienia wtedy, gdy interesująca nas cecha nie przy-
sługuje w taki sam sposób wszystkim branym przez nas pod uwagę obiek-
tom. W zależności od tego, czy wartość zmiennej traktujemy jako nasilenie
danej cechy, czy nie, wyróżnimy zmienne ilościowe i jakościowe. Łatwo
zgadnąć, że zmienne ilościowe przyjmują wartości liczbowe (np. liczba ka-
napek zjadanych na śniadanie lub przeczytanych dzisiaj stron tego przewod-
nika). Zmienne jakościowe przyjmują wartości nominalne, tzn. są charak-
teryzowane jedynie za pomocą nazw (np. gatunek filmu: melodramat, we-
stern, horror czy komedia).
Wcale nierzadko bywa, że liczby stosuje się na oznaczenie różnych wartości
zmiennych jakościowych. Wtedy są one używane jako nazwy. Naszym ulu-
bionym przykładem są numery środków komunikacji miejskiej lub nazwy
programów telewizyjnych. Takie określenia, jak „Jedynka” czy „Dwójka” –
niezależnie od tego, czy dotyczą tramwajów, czy programów telewizyjnych
28 O METODACH BADAŃ PSYCHOLOGICZNYCH

– są nazwami własnymi, a nie liczbami 1 i 2. Czasem używanie nazw licz-


bowych wynika z potrzeby poprawienia orientacji w przestrzeni (np. taką
funkcję pełnią numery pokoi hotelowych, które na piątym piętrze zaczynają
się od „5”), czasem odzwierciedlają pewną chronologię wydarzeń (np. histo-
rycznie rzecz biorąc, Ludwik XIV wcześniej rządził Francją niż Ludwik XV,
ale Ludwik XXIX nie jest sumą obu tych Ludwików).
Numery autobusów, pokoi hotelowych czy Ludwików równie dobrze można
by oznakować np. za pomocą obrazków, ale nie wiadomo, czy byłoby wtedy
dużo łatwiej. Chyba że przedszkolakom, których szafki na kapcie raczej
oznacza się za pomocą rysunków niż liczb.

CO TO JEST POMIAR?

W naukach empirycznych analizowanie różnych cech staje się szczególnie


„użyteczne” wtedy, gdy można mierzyć ich nasilenie w badanych obiektach.
Pomiar jest procedurą przyporządkowywania liczb różnym wartościom
zmiennej według ustalonej zasady.
Najprostszym przypadkiem pomiaru jest zliczanie (np. sandałów o różnych
fasonach w oknie wystawowym sklepu obuwniczego). Po prostu liczymy, ile
elementów (czyli konkretnych typów sandałów) danego zbioru (tj. sandałów
jako takich) ma daną cechę (np. trochę więcej pasków i klamerek niż w in-
nych butach). Zliczanie jest typowym zabiegiem stosowanym we wszystkich
sondażach opinii publicznej, np. na temat potrzeby zaostrzenia kodeksu kar-
nego – wynikiem jest liczba osób głosujących na „tak” i na „nie”.
Bardziej typowym przykładem pomiaru niż zliczanie głosów czy przedmio-
tów jest pomiar długości. Mierząc długość materaca dmuchanego, postępu-
jemy dokładnie zgodnie z definicją pomiaru – chodzi przecież o to, abyśmy
przyporządkowali temu materacowi jedną liczbę oznaczającą jego długość.
Na przykład aby zmierzyć wysokość stołu, wystarczy wziąć metrówkę sto-
larską, przyłożyć ją do krawędzi mebla i odczytać, ile jest centymetrów od
podłogi do powierzchni blatu. Zwróć uwagę na określoną w tym przypadku
zasadę pomiaru długości. Brzmi ona: „policz, ile odcinków o znanej nam
długości (czyli o długości 1 cm) mieści się wzdłuż mierzonego przedmiotu”.
Pomiar długości, przeprowadzony za pomocą centymetrów, metrów czy ki-
lometrów, jest całkowicie arbitralny. Oznacza to, że w gruncie rzeczy jed-
nostki pomiaru są dowolne, a ich stosowanie wyznacza umowa społeczna.
Brytyjczycy np. stwierdzili, że o długości łatwiej mówi się w calach, stopach
czy milach. Nawiasem mówiąc, czasem na styku różnych umów powstają
dziwne hybrydy. Jeśli chcesz kupić deski w tartaku, to ich grubość powinie-
neś wyrazić w calach (np. „półtorówka” oznacza 1,5 cala, czyli 3,81 cm), a
długość i szerokość w centymetrach. Dlaczego? Bo taka jest tradycja.
POSTĘPOWANIE BADAWCZE W PSYCHOLOGII 29

JAK MOŻNA MIERZYĆ ZMIENNE NIEOBSERWOWALNE?

Większości cech, z jakimi mamy do czynienia w psychologii, nie da się


zmierzyć bezpośrednio (tak jak możemy zmierzyć długość za pomocą cen-
tymetra), bo są one po prostu teoretycznymi konstruktami, czyli ideami.
W jaki sposób zmierzyć np. poziom agresji u przestępców? Trzeba ustalić
zasadę tego pomiaru i przeprowadzić operację porównywania poziomu agre-
sji z jakąś jednostką. W psychologii jednak stosunkowo rzadko możemy
mówić o jednostkach pomiaru w taki sam sposób, jak mówimy o pomiarze
długości. Pomiar długości to w zasadzie porównywanie mierzonego obiektu
z jednostką pomiarową i liczenie jednostek przypadających na ten obiekt.
Jeślibyśmy tak chcieli zmierzyć agresję, to pewnie przypominałoby to po-
miar zawartości cukru w cukrze, czego rzekomo dokonywał jeden z bohate-
rów filmu Poszukiwany – poszukiwana. Jedyne, co można zrobić, to ustalić
jakiś wskaźnik danej cechy, czyli takie zjawisko, które da się obserwować
(oraz mierzyć) i którego istnienie świadczy o tym, że dana cecha przyjmuje
określoną wartość.
Jeśli więc chcesz wiedzieć, jak wielki masz talent w dziedzinie muzyki (to
znaczy dowiedzieć się czegoś o hipotetycznym konstrukcie teoretycznym,
którego istnienie podejrzewasz u siebie), to przede wszystkim musisz zdecy-
dować, co jest obserwowalnym wskaźnikiem tego konstruktu. W przypadku
cech ilościowych istnieje dodatkowy warunek: wartości liczbowe wskaźnika
powinny rosnąć wraz z natężeniem danej cechy. Jeśli więc dojdziesz do
wniosku, że rozsądną miarą (wskaźnikiem) talentu muzycznego jest po-
prawne odtworzenie ze słuchu sekwencji złożonej z kilkunastu dźwięków, to
możesz powiedzieć, że tym bardziej jesteś utalentowany, im większą liczbę
dźwięków odtworzysz.
Co jednak mogłoby być wskaźnikiem agresji? Być może, liczba wypowia-
danych wulgarnych słów albo nieprzyjaznych gestów okazywanych innym
ludziom w ciągu jednego dnia. A może jako wskaźnik agresji lepiej wyko-
rzystać siłę naciśnięcia na przycisk joysticka podczas gry w Mortal Combat
(to taki komputerowy turniej walki)?

SKALE DO POMIARU ZMIENNYCH

Gdy mierzymy natężenie jakiejś cechy i chcemy podać wynik za pomocą


liczb, wtedy zawsze musimy się odwołać do jakiejś skali pomiarowej. Napi-
saliśmy, że długość obiektu można zmierzyć zarówno za pomocą centyme-
trów, jak i cali. Formalnie nie ma żadnej różnicy między tymi pomiarami,
choć każdy z nich wykorzystuje inną skalę. Wyniki pomiarów są jednak
równorzędne, bo wszystkie te skale należą do tej samej kategorii: ostatecznie
1 cal = 2,54 cm.
30 O METODACH BADAŃ PSYCHOLOGICZNYCH

Nie zawsze jednak wyniki poszczególnych pomiarów dają się bezpośrednio


* Stevens, S. S. (1935a). The o-
perational basis of psychology. przełożyć. Dzieje się tak wtedy, gdy pomiary oparte są na różnych typach
American Journal of Psycholo- skal pomiarowych. Stanley Smith Stevens* rozróżnił cztery typy pomiarów
gy, 47, 323-330; tenże (1935b). i – co za tym idzie – cztery rodzaje skal pomiarowych: nominalną (służącą
The operational definition of
psychological concepts. Psycho- do mierzenia cech jakościowych) oraz trzy skale przeznaczone do pomiaru
logical Review, 42, 517-527. cech ilościowych: porządkową, przedziałową i stosunkową.

POMIAR NA SKALACH TYPU NOMINALNEGO

Najprostszym przykładem pomiaru zmiennych w psychologii jest klasyfika-


cja, inaczej nazywanie, czyli nadawanie nominałów – dlatego właśnie skalę
pomiarową, która pozwala jedynie na klasyfikowanie obiektów, określa się
jako nominalną. Za pomocą skali nominalnej można podzielić ludzi na eks-
trawertyków, introwertyków i sangwiników, na zewnątrz- lub wewnątrzste-
rownych albo na męskich lub kobiecych (w tym wypadku nie chodzi o płeć
w sensie biologicznym, ale psychologicznym).
Klasyfikacja dotyczy wyłącznie zmiennych jakościowych i ma sens tylko
wtedy, gdy brane pod uwagę kategorie są rozłączne. Rozłączność oznacza,
że każdy element można jednoznacznie przyporządkować tylko do jednej
klasy. Jeżeli bierzemy pod uwagę wszystkie możliwe kategorie danej
zmiennej, to podział jest także wyczerpujący. Na przykład o podziale war-
Stanley Smith Stevens tości w zakresie zmiennej „wykształcenie” powiemy, że jest wyczerpujący,
(1906-1973) gdy wszystkim obiektom możemy przypisać jakąś wartość tej cechy. Z po-
działem wyczerpującym mamy zawsze do czynienia wtedy, gdy dzielimy
„obiekty” na te, które albo mają jakąś cechę, albo jej nie mają (np. ssaki lub
nie-ssaki, zadowoleni z pracy lub niezadowoleni, owłosieni lub łysi). Taki
podział nazywany jest czasem podziałem binarnym lub dychotomicznym.
Podsumowując, można więc powiedzieć, że pomiar na skali nominalnej
i kategoryzacja obiektów oznaczają to samo. Mówiąc zaś nieco dokładniej
– mierzenie za pomocą skali nominalnej polega na klasyfikacji zbioru ba-
danych przedmiotów lub zjawisk do wyodrębnionych wcześniej, zupełnych
i rozłącznych kategorii jakościowych.

CECHY POMIARU NA SKALI NOMINALNEJ

Pomiar na skali nominalnej pozwala jedynie na stwierdzenie, że dwa obiek-


ty, należące do różnych kategorii, są od siebie różne, jeżeli chodzi o wartość
mierzonej cechy. Nie można jednak określić relacji między takimi obiektami
w terminach: „większe niż...”, „równe sobie” lub „mniejsze niż...”. Czasami
w kwestionariuszach psychologicznych przypomina się osobom badanym,
że odpowiedzi przez nich podawane są odpowiedziami na skali nominalnej.
Oczywiście nie pisze się: „będziesz teraz odpowiadał w kwestionariuszu
POSTĘPOWANIE BADAWCZE W PSYCHOLOGII 31

wykorzystującym skalę nominalną”. W takiej sytuacji badacze często uży-


wają określeń typu: „w kwestionariuszu tym nie ma odpowiedzi lepszych
i gorszych ani dobrych i złych”. Jest to jak najbardziej uzasadnione np.
w kwestionariuszu dotyczącym zainteresowań – trudno jest bowiem porów-
nywać oglądanie filmów science fiction i czytanie gazet.
Ostatecznie wynikiem pomiaru jakiejś cechy za pomocą skali nominalnej
jest stwierdzenie, że w zbiorze branych pod uwagę obiektów pewna ich
część należy do kategorii „A”, inna część do kategorii „B”, a jeszcze inna –
do kategorii „C” itd.

POMIAR NA SKALACH PORZĄDKOWYCH

Pomiar jakiejś cechy przedmiotów lub zjawisk za pomocą skali porządko-


wej (inaczej: rangowej) oznacza uporządkowanie ich ze względu na nasile-
nie tej cechy. Innymi słowy, skala porządkowa pozwala na ustalenie relacji
„większości” lub „mniejszości” między tymi obiektami, które daną cechę
mają w różnym stopniu, lub „równości” wtedy, gdy ze względu na tę cechę
są one identyczne.
Dobrym przykładem ilustrującym różnicę między skalą nominalną a porząd-
kową jest odwołanie się do takiej zmiennej, jak „męskość–kobiecość”.
Z biologicznego punktu widzenia klasyfikacja ludzi na kobiety i mężczyzn
opiera się na genetycznych różnicach w strukturze DNA. W tym znaczeniu
posiadanie pary chromosomów XX oznacza „kobiecość”, a pary chromoso-
mów XY – „męskość”. To, czy ktoś jest kobietą czy mężczyzną w sensie
genetycznym, jest więc określeniem wartości na skali nominalnej.
Jeżeli jednak „kobiecość–męskość” będziemy rozpatrywali w kontekście za-
chowań, które w określonej kulturze są traktowane jako bardziej lub mniej
„męskie” czy „kobiece”, to może się okazać, że jest to cecha stopniowalna
i odnosi się do wszystkich ludzi, niezależnie od tego, czy z biologicznego
punktu widzenia są kobietami, czy mężczyznami.
Na przykład „męskość”, w znaczeniu: „przywódczość”, „umiejętność szyb-
kiego podejmowania decyzji”, „agresywność” lub „niezależność”, może w
większym stopniu charakteryzować niektóre biologiczne kobiety niż niektó-
rych biologicznych mężczyzn. Pomiar tak rozumianej cechy może być zatem
z powodzeniem przeprowadzony za pomocą skali porządkowej.

SKALA PORZĄDKOWA I LOGICZNE RELACJE POMIĘDZY OBIEKTAMI

Między wartościami cechy mierzonej w skali porządkowej zachodzą dwie


logiczne relacje: spójność i przechodniość.
32 O METODACH BADAŃ PSYCHOLOGICZNYCH

• Mianowicie między dowolnymi dwoma pomiarami x i y zachodzi rela-


cja spójności wtedy, gdy jeżeli x jest różne od y, to albo x jest większe
od y, albo x jest mniejsze od y. Innymi słowy, jeżeli ktoś twierdzi, że nie
lubi w tym samym stopniu pomarańczy, co bananów, to znaczy, że albo
bardziej lubi pomarańcze niż banany, albo przeciwnie – bardziej lubi
banany niż pomarańcze.
• Z kolei pomiędzy pomiarami x, y i z zachodzi relacja przechodniości
wtedy, gdy jeśli x jest większe od y i y jest większe od z, to x jest także
większe od z. Jeżeli więc ktoś woli pomarańcze niż banany i bardziej lu-
bi banany niż jabłka, to znaczy, że tym samym bardziej lubi pomarańcze
niż jabłka.
Ciekawe, że ludzie rzadko określają swoje preferencje zgodnie z wymogami
skali rangowej. Dość często spotykanym zjawiskiem jest indyferencja, czyli
trudność w określaniu własnych preferencji.
Na przykład nie jest łatwo powiedzieć, czy filmy sensacyjne są lepsze od
melodramatów, czy gorsze. Dla wielu i jedne, i drugie mogą być atrakcyjne,
ale z innych powodów. W ocenie preferencji wiele zależy więc od kontekstu
i dlatego najczęściej nie mamy prostej odpowiedzi na pytanie, które filmy są
lepsze.
Trudno jest również zachować zasadę przechodniości preferencji. Clyde
* Coombs, C. H. (1958). On the Coombs* już w roku 1958 przeprowadził eksperyment polegający na po-
use of inconsistenc of prefe- rządkowaniu (rangowaniu) 12 odcieni szarości przez studentów uniwersytetu
rences in psychological mea-
surement. Journal of Experimen- w Amsterdamie. Oglądali oni serie 4 bodźców o różnym nasileniu szarości
tal Psychology, 55, 1-7. i za każdym razem mieli je uszeregować według tego, w jakim stopniu każ-
dy z tych bodźców jest koloru „idealnie szarego”. Badani studenci nie byli
w stanie utrzymać stałości ocen co do tych samych bodźców pojawiających
się w różnych konfiguracjach.

SKALA PORZĄDKOWA A POMIAR CECH W PSYCHOLOGII

Niektórzy badacze uważają, że większość cech psychologicznych może być


mierzona co najwyżej na skali porządkowej. Takie twierdzenie staje się cał-
kiem zrozumiałe, gdy zastanowimy się nieco nad tym, jakie mamy możliwo-
ści wglądu w przebieg zjawisk psychicznych czy umysłowych zachodzących
„w głowach” osób badanych. Złudzenie odpowiedniości między zachowa-
niami ludzi a ich stanami psychicznymi bierze się ze sposobu, w jaki mie-
rzymy te zachowania. Jeżeli np. w kwestionariuszu znajduje się pytanie:
„Czy miewasz koszmarne sny?” i dajemy osobie badanej tylko dwie możli-
wości odpowiedzi: „tak” lub „nie”, to z pewnością przynajmniej część osób
odpowie na to pytanie twierdząco. Czy jednak oznacza to, że wszystkie one
w taki sam sposób rozumieją „koszmarność” snów? Albo też: czy relatywny
POSTĘPOWANIE BADAWCZE W PSYCHOLOGII 33

przecież termin „miewasz” oznacza: „co drugi dzień”, czy raczej: „raz na
dwadzieścia lat”?

JEŚLI SKALA RANGOWA, TO RANGI I RANGOWANIE

Skala porządkowa bywa także nazywana skalą rangową. Przypisać jakiemuś


pomiarowi określoną rangę, to nic innego, jak określić jego relację w sto-
sunku do innych wyników pomiaru w terminach „większości”, „wyższości”
lub „nadrzędności” (intuicję tę dobrze ilustrują rangi rozumiane jako stopnie
wojskowe). Czasem w praktyce badawczej, ale i w życiu, zdarza się, że z ja-
kichś powodów znacznie dokładniejszy pomiar wyrażamy na skali porząd-
kowej za pomocą rang.
Pomyśl na chwilę o zawodach lekkoatletycznych, podczas których o zwycię-
stwie decydują centymetry i setne części sekundy, które są zamieniane na
miejsca na podium: pierwsze, drugie i trzecie. Zabieg rangowania polega
więc na przypisaniu kolejnym pomiarom (np. czasów przebiegnięcia 100 m)
– od najmniejszych do największych (lub odwrotnie) – całkowitych liczb
dodatnich w taki sposób, że np. najniższemu wynikowi przypisujemy war-
tość (czyli rangę) „1”, następnemu – „2” itd.
Warto zwrócić uwagę na to, że kolejne rangi odzwierciedlają porządek za-
chodzący między pomiarami, a nie wielkości różnic między nimi. Jeżeli
więc w zbiorze pomiarów inteligencji w grupie studentów najniższym ilora-
zem jest 124, to zgodnie z przyjętą konwencją możemy przypisać mu rangę
„1”. Bez względu jednak na to, czy drugi w kolejności iloraz wynosi 125,
czy 146, na tej samej zasadzie przysługuje mu ranga „2”. Zapamiętaj: różni-
ca między bezwzględną wartością rangi pierwszej i drugiej nie odzwiercie-
dla wielkości różnic między rangowanymi miarami cechy.

RANGI WIĄZANE

Czasem się zdarza, że w grupie pomiarów jest kilka takich samych wyni-
ków. Na przykład w Twojej grupie ćwiczeniowej może być kilka osób z tym
samym ilorazem inteligencji. Załóżmy na początek, że tylko dwie z nich ma-
ją iloraz równy 128 punktów, a wszystkie pozostałe mają ilorazy wyższe lub
niższe. Spójrz na tabelkę 1.1.
Najniższy iloraz ma Anka i dlatego jej przypisujemy rangę „1”, następny jest
Tadek (ranga „2”), ale Ewa i Krzysztof mają taki sam iloraz i ponieważ nie
wiadomo, któremu przypisać rangę „3”, a któremu „4”, wobec tego, krakow-
skim targiem, obydwojgu przypisujemy rangę „3,5” (to po prostu średnia
z rang „3” i „4”). Najwyższy iloraz w grupie ma Marta i jej z kolei przypisu-
jemy rangę „5” – nie „4”, bo ta została już wykorzystana dla Ewy i Krzyśka.
34 O METODACH BADAŃ PSYCHOLOGICZNYCH

Tabela 1.1. Przykład rangowa- Imię studenta Iloraz inteligencji Ranga


nia ilorazów inteligencji pięciu
studentów Anka 123 1

3+4
Krzysiek 128 = 3,5
2

Tadek 124 2

3+4
Ewa 128 = 3,5
2

Marta 131 5

Prześledźmy inny przykład. Jak wyglądałyby rangi, gdyby Marta również


miała iloraz równy 128? Gdyby rangi Anki i Tadka pozostały bez zmian –
przypisalibyśmy im rangi „1” i „2”. Ponieważ pozostała trójka studentów ma
taki sam iloraz i nie ma powodów, żeby kogoś wyróżniać, wszystkim więc
przypisujemy tę samą wartość równą „4”. Dlaczego? Otóż dlatego:
3+ 4+5
=4
3
To znowu jest wartość uśredniona.
Rangi, które odpowiadają więcej niż jednemu pomiarowi, nazywają się ran-
gami wiązanymi. Ich liczba odzwierciedla to, jak różnorodny jest badany
przez nas zbiór obiektów. Im więcej rang wiązanych, tym trudniej go zróżni-
cować. Tyle na razie o rangach, ale do tego tematu jeszcze wrócimy.

POMIAR NA SKALI PRZEDZIAŁOWEJ – SKALE CELSJUSZA I FAHRENHEITA

Typowym przykładem cechy mierzonej za pomocą skali przedziałowej jest


temperatura. W Europie do pomiaru temperatury na ogół stosuje się skalę
zaproponowaną przez szwedzkiego fizyka, Andersa Celsjusza (1701-1744),
a np. w USA – skalę Gabriela Fahrenheita (1686-1736), fizyka pochodzące-
go z rodziny niemieckich kupców osiadłych w Gdańsku. Każda z tych skal
ma jednostkę pomiarową o określonej, choć nieco innej długości. Każda ma
także swoje zero, ale w skali Celsjusza odpowiada mu temperatura zamarza-
nia chemicznie czystej wody, a w skali Fahrenheita – jest to najniższa tem-
peratura zimy 1709 roku w Gdańsku, równa temperaturze topnienia miesza-
niny śniegu z salmiakiem. Temperatura mierzona za pomocą obu tych skal
może przyjmować wartości wyższe i niższe od 0. Jeżeli na dworze jest –5oC,
a w pomieszczeniu +20oC, to można powiedzieć, że za oknem jest o 25oC
mniej niż w pokoju. Bynajmniej nie oznacza to jednak, że temperatura
w pokoju jest 5 razy wyższa niż na zewnątrz. Można to łatwo pokazać, jeżeli
obydwa wskazania termometrów znajdujących się w pokoju i za oknem za-
POSTĘPOWANIE BADAWCZE W PSYCHOLOGII 35

mienimy na jednostki w skali Fahrenheita: –5oC odpowiada +23oF, a 25oC to


+77oF, (toF = 1,8 × toC + 32; w drugą stronę jest trochę trudniej: toC = 5/9 ×
toF – 17,78). Teraz nie ma już żadnych wątpliwości, że 23 nie jest 5 razy
mniejsze od 77, chociaż niezależnie od rodzaju zastosowanej skali pomiaro-
wej mówimy przecież o tych samych temperaturach na dworze i w pokoju.
Różnica między temperaturami wyrażonymi w skali Celsjusza wynosi 25o,
wyrażona zaś w skali Fahrenheita równa się 54o, co jest związane z różną
długością jednostek zastosowanych w obu typach skal.
Skala przedziałowa, podobnie jak porządkowa (rangowa), także jest skalą
ilościową. Ma ona wszystkie własności skali rangowej, a dodatkowo zawiera
jeszcze równe jednostki (interwały) i dlatego bywa również nazywana skalą
interwałową. Pomiar za pomocą skali przedziałowej nie tylko pozwala na
uporządkowanie obiektów ze względu na stopień, w jakim mają one pewną
cechę, ale również umożliwia stwierdzenie, o ile natężenie tej cechy w jed-
nym obiekcie jest większe (lub mniejsze) od jej natężenia w drugim. Pomiar
na skali przedziałowej jest de facto zliczaniem, ile jednostek o stałej długo-
ści „przypada” na każdy mierzony obiekt. Na przykład wynik 12,73 oznacza,
że jakaś wartość danego obiektu równa jest 12 i 73/100 jednostek o stałej
długości. Oprócz stałej jednostki, na skali przedziałowej może znajdować się
wartość „0”. Zerowa wartość natężenia jakiejś cechy nie musi jednak ozna-
czać, że dany obiekt w ogóle jej nie posiada. Wartość zerowa niekoniecznie
musi być nawet początkiem skali.

SKALA PRZEDZIAŁOWA I POMIAR W PSYCHOLOGII – ILORAZ INTELIGENCJI

Do oceny stopnia inteligencji lub nasilenia pewnych cech osobowości stosu-


je się w psychologii narzędzia pomiarowe zwane testami lub kwestionariu-
szami. Zazwyczaj są one zbudowane z wielu zadań testowych lub pytań,
czyli tzw. itemów. Liczba odpowiedzi określonego typu jest wskaźnikiem
nasilenia badanej cechy.
Przyjrzyjmy się nieco uważniej pomiarowi ilorazu inteligencji. Autorem
* Stern, W. (1921). Differentiel- tego pojęcia jest William Stern*. Iloraz inteligencji (IQ – Intelligence Quo-
le Psychologie (wyd. 3). Leip- tient) zdefiniował on jako stosunek wieku umysłowego do wieku rzeczywi-
zig: Johann Ambrosius Barth.
stego dziecka, dla wygody pomnożony przez 100. Wiek umysłowy określił
on jako wiek, w którym dzieci przeciętnie rozwiązują określoną liczbę zadań
w teście inteligencji. Kiedy więc dziecko rozwiązuje w teście dokładnie tyle
zadań, ile przeciętnie rozwiązują inne dzieci w jego wieku, wówczas ma ilo-
raz inteligencji równy 100. Ale jeżeli dziecko w wieku 8 lat rozwiązuje w te-
ście tyle zadań, ile przeciętnie rozwiązują dzieci w wieku 9 lat, to jego iloraz
inteligencji jest wyższy. Zgodnie z definicją Sterna, można go obliczyć,
dzieląc umysłowy wiek dziecka przez jego wiek rzeczywisty (czyli dzieląc
9 przez 8) i mnożąc to, co wyjdzie, przez 100. W wyniku tego działania
36 O METODACH BADAŃ PSYCHOLOGICZNYCH

otrzymujemy iloraz równy 112,5. Oznacza to, że iloraz inteligencji ośmio-


latka rozwiązującego zadania dla 9-latków jest o 12,5 punktu wyższy od
przeciętnej dla dzieci w wieku 8 lat. Jeżeli jednak dziecko 8-letnie rozwiązu-
je tyle zadań, ile rozwiązałby przeciętny 10-latek, to jego iloraz inteligencji
wynosi już 125. Zdefiniowany w taki sposób pomiar ilorazu inteligencji za-
kłada równe jednostki, czyli spełnia podstawowy warunek pomiaru za po-
mocą skali przedziałowej. Różnica 12,5 punktu dla dziecka 8-letniego prze-
kłada się na jeden rok w wieku umysłowym. Jeżeli więc dziecko 8-letnie
rozwiązuje zadania, które przeciętnie rozwiązują dzieci o 4 lata starsze od
niego, to jego iloraz inteligencji będzie o 4 × 12,5, czyli o 50 punktów wyż-
szy od przeciętnej dla dzieci w jego wieku. Warto przy okazji zwrócić uwa-
gę na pewien niuans – jednostka ilorazu inteligencji, według Sterna, jest sta-
ła tylko dla dzieci w tym samym wieku. Jeżeli bowiem dziecko 10-letnie
rozwiązuje zadania, które przeciętnie rozwiązują dzieci o rok starsze, to
wtedy iloraz inteligencji takiego dziecka wyniesie:
11
× 100 = 110
10
Roczna przewaga w inteligencji u dzieci dziesięcioletnich jest więc „warta”
tylko 10 punktów ilorazu.

RODZAJE SKAL PRZEDZIAŁOWYCH

Bardzo często psychologowie przyjmują, że wyniki zbierane za pomocą tzw.


skal ocen, w których wyrażają swoje odpowiedzi za pomocą liczb, najczę-
ściej od 1 do 7, to właśnie wyniki na skali przedziałowej. Osoby badane mo-
gą np. wyrażać za pomocą tych liczb, jak dalece podoba im się jakiś produkt
(od 1 – nie podoba mi się, do 7 – bardzo), jak bardzo chciałyby go mieć
i w jakiej mierze uważają, że jest atrakcyjny. Ponieważ oceny na tych ska-
lach traktowane są jako liczby na skali pomiarowej, więc można do siebie
dodać wszystkie trzy wyniki dla każdej osoby badanej i utworzyć w ten spo-
sób jedną wartość liczbową określającą „lubienie” danego produktu.
Podobne skale do opisanych tutaj wykorzystali w swoim eksperymencie
* Adaval, R., Monroe, K. B. Rashmi Adaval i Kent B. Monroe*. Badacze ci oceniali m.in., jak konsu-
(2002). Automatic construction menci oceniają atrakcyjność reklamowanego produktu w zależności od tego,
and use of contextual informa-
tion for product and price evalu- czy jest on prezentowany w kontekście produktów drogich, czy tanich. Jak
ations. Journal of Consumer Re- łatwo się domyślić, średnia atrakcyjność ocenianych produktów była wyższa
search, 28, 572-588.
wtedy, gdy tłem do oceny były produkty drogie. Zbieranie odpowiedzi osób
badanych za pomocą skal punktowych jest powszechną praktyką w prawie
wszystkich dziedzinach psychologii. W taki właśnie sposób osoby badane
oceniają np., w jakim stopniu poszczególne twierdzenia testu osobowości do
POSTĘPOWANIE BADAWCZE W PSYCHOLOGII 37

nich pasują. Na takich skalach bada się postawy wobec polityków, a także
przekonanie, że jakiś wniosek jest poprawny logicznie.
Ponieważ wartość „zero” na skali przedziałowej jest umowna, może więc
ona się znaleźć w dowolnym miejscu skali ocen wykorzystywanej przez
osoby badane. Przykład przedstawiony wyżej zakładał oceny na skali od
1 do 7, czyli na skali bez wartości „zero”. Można jednak skalę siedmiostop-
niową przedstawić w postaci od „-3” (co może oznaczać: „zdecydowanie mi
się nie podoba”) do „+ 3” („bardzo mi się podoba”) i z „0” w środku („nie
mam zdania”). Oba te typy skali wyrażają trochę coś innego, ale z matema-
tycznego punktu widzenia jedna jest przesunięta w stosunku do drugiej
o 3 punkty. O ile jednak dla matematyka dodawanie wyników na takich róż-
nych skalach nie byłoby problemem, o tyle psycholog musi być w takiej sy-
tuacji dosyć ostrożny. Spróbuj się zastanowić nad tym, co myślałaby osoba
badana, zaznaczając swoją odpowiedź na dwóch skalach poniżej:
„Czy lubisz (i jak bardzo) coca-colę?”

Nie lubię Bardzo lubię

lub
-3 -2 -1 0 1 2 3

Nie lubię Bardzo lubię

W przypadku skali rosnącej bez zera osoby badane raczej traktują swoją wy-
powiedź jako ocenę natężenia pewnej cechy, czyli myślą o tym, że colę
można lubić w pewnym stopniu, zaczynając od 1 (brak lubienia) aż do 7
(największe nasilenie lubienia).
W przypadku skali z wartościami ujemnymi osoby badane raczej będą
skłonne traktować swoją odpowiedź najpierw jako ocenę tego, czy lubią co-
lę, czy nie, a dopiero w drugiej kolejności będą oceniać siłę swoich odczuć
pozytywnych oraz negatywnych.
Stosunkowo często poszczególne odpowiedzi są dokładniej opisane, zawsze
jednak skala jednokierunkowa sugeruje osobie badanej, że ma się wypowie-
dzieć o natężeniu jednej cechy, a skala dwukierunkowa – że oddaje głos „za”
albo „przeciw” i ocenia siłę przekonania co do słuszności swojego wyboru.
Należy jednak pamiętać, że nie można dodawać do siebie ani liczyć średnich
arytmetycznych z pomieszanych skal jedno- i dwubiegunowych.
Podsumujmy – pomiar na skali przedziałowej pozwala na wykonywanie
pewnych operacji matematycznych, które nie są dozwolone dla pomiarów na
skali nominalnej i porządkowej. Operacje, które wolno przeprowadzać na
wynikach zgromadzonych na skali przedziałowej, to dodawanie i odejmo-
38 O METODACH BADAŃ PSYCHOLOGICZNYCH

wanie. Można także porównywać wartości i stwierdzać, o ile są one większe


lub mniejsze od siebie nawzajem. Nie wolno jednak mnożyć i dzielić jed-
nych wyników przez drugie. Nie można też wyrażać stosunków między war-
tościami, czyli stwierdzać, ile razy jedna wartość jest większa od drugiej.
Można natomiast liczyć średnią arytmetyczną.

POMIAR NA SKALI STOSUNKOWEJ

Pomiarem, który dostarcza najwięcej informacji o badanej cesze, jest pomiar


bezwzględny, wyrażony na skali stosunkowej (ilorazowej). Skala stosun-
kowa ma takie same cechy jak skala przedziałowa, z jedną tylko różnicą –
zamiast umownego ma ona zero bezwzględne (absolutne). Jest to najniższa
wartość na tej skali. Zero bezwzględne stanowi więc początek skali pomia-
rowej, a mierzona za jej pomocą cecha nie może przyjmować wartości
ujemnych. Mało tego, wartość zerowa w odniesieniu do jakiejś cechy ozna-
cza, że właściwie tej cechy nie ma. Czas, prędkość, masa lub długość są naj-
lepszymi przykładami zmiennych mierzonych za pomocą skali stosunkowej.
Przedmiot może mieć 2 metry, 2 milimetry lub 0,0002 milimetra długości,
ale nie może być krótszy niż 0 milimetrów. A czy jakikolwiek przedmiot
może mieć 0 mm? Oczywiście, że nie – w takiej sytuacji nie ma przedmiotu,
nie ma długości, nie ma cechy.

RAZ JESZCZE O POMIARZE TEMPERATURY

Pomiar temperatury przedstawiliśmy wyżej jako typowy przykład cechy


mierzonej za pomocą skal przedziałowych (Celsjusza lub Fahrenheita).
Można ją również mierzyć za pomocą skali lorda Kelvina, czyli Williama
Thomsona (1824-1907), brytyjskiego fizyka i matematyka. Jako stały punkt
odniesienia do pomiaru temperatury Thomson przyjął tzw. punkt potrójny
czystej wody (o składzie izotopowym wód oceanicznych) z przyporządko-
waną temu punktowi wartością 0oK, co w skali Celsjusza oznacza tempera-
turę równą –273,16oC. Metoda pomiaru temperatury w jednostkach Kelvina
opiera się na wskazaniach termometru gazowego i nie można nawet oczeki-
wać, by udało się osiągnąć temperaturę poniżej 0oK. Zresztą nawet bardzo
trudno się do niej zbliżyć. Wiąże się to z tym, że podczas schładzania gazu,
wraz ze spadkiem jego temperatury, zmniejsza się zarówno jego objętość,
jak i ciśnienie, aż do osiągnięcia stanu zerowego w temperaturze ok. –273oC.
Dalej pomiar nie jest już możliwy.
Szukając w Internecie informacji na temat najniższej temperatury, jaką kie-
dykolwiek udało się osiągnąć w laboratorium, natknęliśmy się na artykuł na-
pisany przez laureatów nagrody Nobla z fizyki z roku 1997, Stevena Chu,
Williama Phillipsa i Claude’a Cohena-Tannoudji z Massachusetts Institute
POSTĘPOWANIE BADAWCZE W PSYCHOLOGII 39

* Zob. of Technology*. Opisali w nim metodę schładzania atomów sodu do tempe-


http://www.nobel.se/physics/ ratury 170 miliardowych stopnia Kelvina!
laureates/1997/

WYKORZYSTANIE SKALI STOSUNKOWEJ W BADANIACH PSYCHOLOGICZNYCH

W badaniach psychologicznych stosuje się skalę stosunkową wtedy, gdy


chcemy mierzyć cechy, które są wielkościami fizycznymi, np. czas reakcji,
oporność skóry (czyli tzw. reakcja skórno-galwaniczna) albo natężenie
dźwięku w badaniach nad wrażliwością słuchową. Wspólną cechą wszyst-
kich tych pomiarów jest możliwość ich wyrażenia za pomocą wielkości fi-
zycznych: czasu, oporności przewodnika czy siły dźwięku. Interesującym
przykładem posługiwania się skalą stosunkową jest także proste zliczanie.
Liczenie książek wypożyczonych z biblioteki z powodzeniem może być
traktowane jako pomiar na skali stosunkowej.
Skala stosunkowa nazywana jest także ilorazową. Oznacza to, że jedna
wartość może być traktowana jako wielokrotność innej. Ten, kto od momen-
tu pojawienia się bodźca do rozpoczęcia reakcji potrzebuje 2 sekund, działa
4 razy wolniej od tego, kto na ten sam bodziec zareaguje już po 500 milise-
kundach (0,5 sek.).
Na pomiarach wyrażonych w skali ilorazowej można zatem wykonywać nie
tylko takie działania matematyczne, jak dodawanie czy odejmowanie (co jest
możliwe w odniesieniu do skali interwałowej), lecz również mnożenie
i dzielenie. W praktyce jednak trudno wyobrazić sobie takie sytuacje, w któ-
rych musielibyśmy np. mnożyć przez siebie dwa pomiary czasu. Trudno
powiedzieć, co by miało oznaczać to, że iloczyn czasu reakcji prostej i czasu
reakcji z wyborem dla jakiejś osoby wynosi, powiedzmy, 150 000.
Reakcja prosta to taka, w której osoba badana musi zareagować, gdy się po-
jawi bodziec – np. nacisnąć przycisk, gdy zapali się lampka – a reakcja
z wyborem to taka, w której osoba badana musi wybrać rodzaj reakcji po
tym, jak pojawi się bodziec – np. musi zareagować lewą ręką na światło zie-
lone i prawą na światło czerwone. Z reguły reakcja prosta trwa około
0,2 sek., a reakcja z wyborem około 0,5 sek.

RAZ JESZCZE O WSZYSTKICH RODZAJACH SKAL POMIAROWYCH

Kończąc charakterystykę skal pomiarowych, chcemy jeszcze zwrócić uwagę


na kilka drobiazgów. Przede wszystkim trzeba pamiętać, że wybór skali, za
pomocą której chcemy mierzyć jakąś cechę, jest wypadkową zarówno spe-
cyfiki badanych przedmiotów lub zjawisk, jak i dostępnych narzędzi. Nie-
które cechy mogą być równie dobrze mierzone za pomocą skali nominalnej
lub porządkowej, jak przedziałowej.
40 O METODACH BADAŃ PSYCHOLOGICZNYCH

Jeśli np. interesuje Cię tylko podział osób badanych na te, które „zdały”
i „nie zdały”, to do pomiaru wystarczy skala nominalna. Jeśli zaczniesz te
osoby różnicować ze względu na ocenę: „bardzo dobrze”, „dobrze”, „dosta-
tecznie” itd., to masz do czynienia ze skalą porządkową. Jeśli zaś powiesz,
że ktoś zdał na 5; 4,5; 4; 3,5; 3 itd., to posługujesz się skalą przedziałową.
W pewnych sytuacjach badawczych bardziej uzasadnione jest wyrażenie
miar jakiejś cechy w postaci nominalnej, a w innych jako wartości porząd-
kowych (trochę więcej na ten temat będzie przy okazji omawiania tzw.
zmiennych zależnych i niezależnych). Nie zawsze udaje się skonstruować
wystarczająco precyzyjne narzędzie pomiarowe, aby gromadzić dane inter-
wałowe czy ilorazowe. Zawsze jest jednak możliwe sprowadzenie otrzyma-
nych wyników do skali prostszej, za pomocą zabiegu rangowania lub no-
minalizacji.
Zmienna i sposób jej pomiaru za pomocą takiej czy innej skali są nie tylko
określone przez naturę mierzonej cechy, ale również – a może nawet przede
wszystkim – przez potrzeby i możliwości badacza. W psychologii klasyfika-
cja za pomocą nominałów (nazw) najczęściej jest stosowana jako podstawa
do rozróżnienia grup osób badanych (np. podział na płeć czy preferencje po-
lityczne). Z kolei dane liczbowe zgromadzone w wyniku pomiaru za pomocą
skal porządkowych, przedziałowych lub stosunkowych najczęściej są trak-
towane jako wskaźniki szeroko rozumianych zachowań osób badanych.

1.4. ZMIENNE W EKSPERYMENTACH PSYCHOLOGICZNYCH

CO TO JEST EKSPERYMENT PSYCHOLOGICZNY?

Jedną z najważniejszych metod badawczych w psychologii jest eksperyment.


Przypomnijmy, jest to taka procedura, zgodnie z którą staramy się określić
związek pomiędzy branymi pod uwagę zmiennymi w maksymalnie kontro-
lowanych warunkach.
Jeden z polskich psychologów, Andrzej Szmajke, zainteresował się związ-
kiem pomiędzy wzrostem mężczyzny a jego atrakcyjnością ocenianą przez
kobiety. Planując eksperyment, starał się on stworzyć taką sytuację, w
* Szmajke, A. (1998). Niski
wyniku której mógłby analizować relacje między tymi dwiema zmiennymi
mężczyzna – człowiek bez wła- i maksymalnie ograniczyć wpływ innych, np. ubioru czy zarostu mężczyzny.
ściwości? Rola informacji o Rezultaty swoich badań Szmajke opublikował w artykule pod znamiennym
wzroście w spostrzeganiu męż-
czyzn przez kobiety. Przegląd tytułem Niski mężczyzna – człowiek bez właściwości?* (łatwo się domyślić,
Psychologiczny, 41, 181-195. jaki był ich wynik).
POSTĘPOWANIE BADAWCZE W PSYCHOLOGII 41

Najprościej eksperyment można więc zdefiniować jako procedurę, w której


badacz manipuluje co najmniej jedną zmienną (np. informacją o wzroście
mężczyzny), dokonuje pomiaru innej zmiennej (np. oceny atrakcyjności)
i stara się kontrolować lub ograniczyć wpływ pozostałych zmiennych (np.
ubioru lub zarostu mężczyzny).

ZMIENNE NIEZALEŻNE I ZALEŻNE

Wszystkie zmienne eksperymentalne można podzielić na dwie grupy: nieza-


leżne i zależne (zob. rys. 1.1). Pierwszą stanowią te, które mają lub mogą
mieć wpływ na zachowania osób badanych. Są to zmienne niezależne.
Ze względu na to, czy ich wpływ na zachowania osób badanych jest kontro-
lowany przez eksperymentatora czy nie, dzielą się one na zmienne nieza-
leżne istotne i zmienne niezależne nieistotne, czyli zakłócające.
Zmienne niezależne istotne dzielą się na kolejne dwie grupy. Przyjmując ja-
ko kryterium podziału to, czy badacz manipuluje, czy nie manipuluje daną
zmienną, możemy więc mówić o zmiennych niezależnych istotnych głów-
nych (to właśnie przykładowy wzrost mężczyzny) lub o zmiennych nieza-
leżnych istotnych ubocznych (np. typ ubioru u ocenianego mężczyzny).

Rysunek 1.1. Podział zmien-


nych eksperymentalnych na
niezależne i zależne

Zmienne niezależne:
istotne:
nieistotne główne
(zakłócające) Zmienne zależne
uboczne

Oprócz istotnych zmiennych niezależnych na zachowania osób badanych


może mieć wpływ także wiele innych czynników, które nazwiemy zmien-
nymi zakłócającymi. Takimi zmiennymi mogą być np.: nastawienie osoby
badanej do uczestnictwa w eksperymencie albo do osoby przeprowadzającej
badanie, zmiany ciśnienia powietrza, a także błędne przepisanie wyników
kwestionariusza do komputera. Trudno jednoznacznie stwierdzić, gdzie
przebiega granica między zmiennymi niezależnymi istotnymi ubocznymi
a zmiennymi niezależnymi zakłócającymi. W jakimś sensie ostatecznie
wszystkie one mogą mieć wpływ na zachowania się osób badanych w ekspe-
rymentach. Najprościej więc chyba jest przyjąć, że zmienne uboczne to te,
42 O METODACH BADAŃ PSYCHOLOGICZNYCH

których wpływ badacz może określić i stara się minimalizować, a zmienne


* Podział przez nas zapropono- zakłócające to zmienne niekontrolowane przez badacza*.
wany odpowiada temu, co Jerzy
Brzeziński w Metodologii badań Drugą, tym razem znacznie bardziej jednorodną grupę stanowią zmienne za-
psychologicznych (Warszawa: leżne: to te, które badacz mierzy podczas eksperymentu, czyli w badaniach
PWN, 1996) określa jako
zmienne uboczne kontrolowane Andrzeja Szmajkego – ocena atrakcyjności mężczyzn. Projektując ekspery-
i niekontrolowane. W ramach ment, badacz ma oczywiście nadzieję, że główna zmienna niezależna będzie
każdej z tych grup z kolei wy-
różnia on zmienne uboczne
mieć istotny wpływ na zmienną zależną i ten związek w zasadzie interesuje
i zmienne zakłócające. Nieco go najbardziej. Sytuacja, z jaką ma do czynienia naukowiec podczas prowa-
upraszczając, zmienne kontro- dzenia badań eksperymentalnych, jest jednak dość skomplikowana i dlatego
lowane utożsamiliśmy z ubocz-
nymi i niekontrolowane z zakłó- musimy się jej przyjrzeć nieco dokładniej, a najlepiej na przykładzie kon-
cającymi. kretnego eksperymentu.

PRZYKŁAD EKSPERYMENTU PSYCHOLOGICZNEGO – EFEKT ROSENTHALA

Jednym z tematów ćwiczeń w psychologii eksperymentalnej jest uczenie


szczurów odnajdywania drogi w labiryncie. Podczas takich zajęć Robert
** Rosenthal, R., Fode, K. Rosenthal i Kermit Fode** podzielili studentów na dwie grupy. Osobom
(1963). The effect of experimen- z pierwszej grupy powiedziano, że będą uczyły szczury pochodzące ze spe-
ter bias on performance of the
albino rat. Behavioral cjalnej hodowli, do której dobierane były zwierzęta wyróżniające się nieco
Science, 8, 183-189. wyższą inteligencją (maze bright). Studentów z drugiej grupy poinformowa-
no, że obserwowane przez nich szczury pochodzą z hodowli, do której tra-
*** Zgodnie z obiegową i nieco fiały najmniej „bystre” osobniki (maze dull)***. Jak łatwo się domyślić, stu-
złośliwą opinią psychologia jest denci zostali oszukani, ponieważ tak naprawdę wszystkie zwierzęta zostały
nauką o białych szczurach i stu-
dentach I roku psychologii. Opi- losowo wybrane z jednej hodowli szczurów laboratoryjnych. Okazało się
sany przez nas eksperyment jest jednak, że osoby, które sądziły, iż uczą szczury inteligentne, oceniały ich za-
najlepszym tego przykładem.
chowanie dużo korzystniej niż studenci przekonani, że obserwowane przez
nich osobniki nie należą do wybitnych „mózgowców”.
Tendencja do tego, aby uzgadniać to, co widzimy, z własnym przekonaniem,
nosi nazwę efektu Rosenthala. Został on wielokrotnie potwierdzony w in-
nych eksperymentach, a jego znaczenie jest istotne zwłaszcza w edukacji.
**** Rosenthal, R., Jacobson, L. Na przykład Robert Rosenthal i Lenore Jacobson**** wykazali, że dzieci
(1963). Teachers’ expectancies: uważane przez nauczycieli za nieco zdolniejsze po pewnym czasie rzeczywi-
Determinants of pupils’ IQ
gains. Psychological Reports, ście lepiej wypadają w testach inteligencji niż dzieci uważane za przeciętne.
19, 115-118. Powróćmy jednak do zmiennych w eksperymencie ze szczurami.

ZMIENNE I STAŁE W EKSPERYMENTACH PSYCHOLOGICZNYCH

Na początek ustalmy, jakie cechy osób badanych i sytuacji eksperymentalnej


można uznać za zmienne. Najważniejsza w tym wypadku jest instrukcja, ja-
ką podano osobom badanym – pierwsza grupa dostała informacje, że uczone
przez nich szczury są dość inteligentne, druga zaś informację przeciwną – że
„ich” szczury nie są zbyt rozgarnięte. Zauważmy, że o tym, kto dostał pierw-
POSTĘPOWANIE BADAWCZE W PSYCHOLOGII 43

szą czy drugą instrukcję, decydowali eksperymentatorzy, a nie osoby bada-


ne. Była to więc zmienna niezależna od osób badanych.
Jakie jeszcze inne zmienne niezależne musieli wziąć pod uwagę badacze
w tym eksperymencie? Było ich całkiem sporo. Na przykład musieli zdecy-
dować, czy studenci będą uczestniczyć w eksperymencie pojedynczo, czy
w grupie, czy instrukcje powinny być czytane osobom badanym, czy też
powinni oni czytać je sami. Trzeba było też ustalić porę dnia, w jakiej prze-
prowadzi się eksperyment, i czas, przez jaki studenci mieli obserwować
szczury. Wreszcie należało wybrać miejsce przeprowadzania badań, szczu-
ry, które brały w nim udział, oraz sposób, w jaki badani mieli podawać swo-
je oceny. Początkowo wszystkie cechy sytuacji eksperymentalnej mogły
przyjmować różne wartości, a zatem spełniały definicję zmiennej. Konkret-
ny wybór takiej, a nie innej wartości każdej z tych cech zależał od badaczy.
Zauważmy, że wszystkie wymienione zmienne niezależne od osób badanych
można podzielić na dwie grupy.
• Pierwszą grupę stanowiła właściwie tylko jedna zmienna: była nią in-
strukcja przedstawiona osobom badanym. W tym eksperymencie pełniła
ona funkcję zmiennej niezależnej głównej, która przyjmowała dwie war-
tości: „masz do czynienia ze szczurami inteligentnymi” lub „masz do
czynienia ze szczurami nieinteligentnymi”. Rosenthala i Fodego cieka-
wiło po prostu, czy wytworzenie u osób badanych określonego nasta-
wienia do szczurów może wpłynąć na ocenę zdolności szczurów do
uczenia się drogi w labiryncie.
• Druga grupa zmiennych to te cechy, które również mogły wpłynąć na
zachowanie się studentów w tym eksperymencie, ale których wpływ nie
interesował badaczy. Zmienne niezależne istotne, które mogą mieć
wpływ na zachowanie się osób badanych w eksperymencie, ale aktualnie
nie interesują badacza, nazywamy zmiennymi niezależnymi ubocznymi.
Ich wpływ można kontrolować na dwa sposoby: albo poprzez ustalenie
wartości na pewnym stałym poziomie – np. można badać wszystkich
o tej samej porze dnia – albo poprzez losowy dobór wartości zmiennej,
tak jak dobór szczurów do dwóch grup w analizowanym eksperymencie.

ZMIENNA NIEZALEŻNA GŁÓWNA A KANON JEDYNEJ RÓŻNICY JOHNA S. MILLA

Każdy eksperyment psychologiczny to taki minispektakl reżyserowany przez


badacza, który chciałby sprawdzić, w jaki sposób jedna, wybrana przez nie-
go zmienna wpływa na reakcje badanych obiektów. Autorem pierwszego
systematycznego opisu sytuacji, w których możemy stwierdzić, że coś na
coś wpływa, był angielski filozof, John Stuart Mill. Opis ten, pochodzący
z jego dzieła A system of logic, przeszedł do historii filozofii pod nazwą
44 O METODACH BADAŃ PSYCHOLOGICZNYCH

kanonów Milla. Szczególnie ważny jest kanon jedynej różnicy: jeżeli dane
zjawisko ma miejsce tylko w jednej z dwóch sytuacji, a sytuacje te różnią się
tylko jedną z cech, to zjawisko to jest skutkiem lub przyczyną wystąpienia
tej cechy.
Przełóżmy to na język eksperymentu. Jeśli mamy do czynienia z dwiema
niemal identycznymi sytuacjami (dwie grupy studentów uczą szczury drogi
w labiryncie) różniącymi się tylko pod względem jednej cechy (w jednej
grupie studenci sądzą, że szczury są bystre, a w drugiej, że nie za bardzo)
i obserwujemy różnice w zachowaniu się osób znajdujących się w tych
dwóch sytuacjach (studenci w jednej grupie dostrzegają więcej pozytywnych
cech u swoich podopiecznych niż w drugiej), to znaczy, że różnice w reak-
cjach osób badanych można wyjaśnić przez odwołanie się do tej jednej ce-
John Stuart Mill chy. Instrukcja w badaniu Rosenthala jest więc przyczyną wystąpienia róż-
(1806-1873) nic w zachowaniu się osób badanych.

CZY ZMIENNA NIEZALEŻNA NAPRAWDĘ RÓŻNICUJE BADANE GRUPY?

Ponieważ cała logika eksperymentu psychologicznego opiera się na kanonie


jedynej różnicy Milla, badacz za każdym razem powinien mieć pewność, że
zmienna niezależna rzeczywiście przyjmuje różne wartości. Gdybyś np.
chciał sprawdzić, czy ludzie lepiej zapamiętują reklamy telewizyjne przeka-
zujące pozytywne emocje, czy też reklamy przekazujące emocje negatywne,
musiałbyś mieć pewność, że reklamy pozytywne i negatywne emocjonalnie
rzeczywiście są takie. Mógłbyś nagrać na kasetę wideo kilkanaście reklam
i spośród nich wybrać tę, która jest najbardziej pozytywna, i tę, która jest
najbardziej negatywna. Charakter reklamy byłby więc zmienną niezależną
w Twoim eksperymencie. Potem mógłbyś zaprezentować dwóm grupom
osób badanych blok prawie takich samych reklam. Jedyną różnicą byłaby
obecność reklamy uznanej przez Ciebie za pozytywną w jednej grupie i tej
uznanej za negatywną w drugiej. Czy jednak miałbyś w takiej sytuacji pew-
ność, że uczestnicy eksperymentu będą myśleć dokładnie tak samo jak Ty i
że Twoja reklama pozytywna wzbudzi w nich pozytywne emocje, a nega-
tywna – negatywne?
Istnieją co najmniej dwa sposoby uwolnienia się od tego niepokoju. Sposób
pierwszy polega na zleceniu oceny bodźców innym ludziom. Mogą to być
albo tzw. sędziowie kompetentni (np. specjaliści od reklamy), albo ludzie
pochodzący z tej samej populacji, co przyszłe osoby badane. Taka wstępna
* Friestad, M., Thorson, E. weryfikacja bodźców może zresztą przybierać różne formy.
(1993). Remembering ads: the
effects of encoding strategies, Przykład dotyczący pozytywnych i negatywnych reklam zaczerpnęliśmy
retrieval cues and emotional re-
sponse. Journal of Consumer z artykułu Marian Friestad i Esther Thorson*, którzy analizowali m.in. me-
Psychology, 21, 1-23. chanizmy zapamiętywania reklam. Przed przeprowadzeniem właściwego
POSTĘPOWANIE BADAWCZE W PSYCHOLOGII 45

eksperymentu poprosili grupę 72 studentów o obejrzenie 20 reklam. Każda


z tych osób miała w ręku potencjometr, który był ustawiony w połowie skali
(skala miała wartości od 0 do 100). Przekręcenie gałki w prawo w trakcie
oglądania reklamy oznaczało pozytywny stosunek do reklamy, przekręcenie
gałki w lewo poniżej środka – stosunek negatywny. W ten sposób do dal-
szych badań zostały wyselekcjonowane reklamy z większością ocen pozy-
tywnych i negatywnych. Żaden ze studentów, którzy oceniali reklamy, nie
brał już jednak udziału we właściwym eksperymencie.
Drugi sposób sprawdzenia, czy zmienna niezależna rzeczywiście przybiera
różne wartości w badanych grupach, polega na... zapytaniu uczestników
właściwego eksperymentu. Sposób taki jest bardzo często praktykowany w
badaniach z dziedziny psychologii zachowań konsumenckich i w literaturze
często jest określany jako sprawdzenie manipulacji eksperymentalnej (mani-
pulation check). Najczęściej sposób ten polega na wprowadzeniu do ekspe-
rymentu dodatkowej zmiennej zależnej, którą jest ocena sytuacji ekspery-
mentalnej. W eksperymencie Friestada i Thorson uczestnicy właściwego ba-
dania m.in. oceniali emocjonalność oglądanych przez siebie reklam. W ten
sposób badacze mogli stwierdzić, że reklamy uznane wcześniej za pozytyw-
ne i negatywne emocjonalnie są tak samo spostrzegane przez badane osoby.

TRZY GRUPY ZMIENNYCH NIEZALEŻNYCH UBOCZNYCH

W każdym eksperymencie, oprócz zmiennej niezależnej głównej, mamy tak-


że do czynienia z wieloma innymi czynnikami, które wpływają lub mogą
wpływać na reakcje badanych obiektów. Napisaliśmy wyżej, że zmienne te
charakteryzują się tym, że badacz wie o tym, iż mogą one wpływać na wyni-
ki eksperymentu, i stara się ich wpływ zminimalizować. Zmienne uboczne
można podzielić na trzy grupy: zmienne związane z (1) różnicami indywidu-
alnymi osób badanych, (2) sytuacją, w jakiej jest przeprowadzany ekspery-
ment (czynnikami zewnętrznymi), oraz (3) błędami w konstrukcji samego
eksperymentu.

RÓŻNICE INDYWIDUALNE MIĘDZY OSOBAMI BADANYMI

W czasie eksperymentu osoby badane nie tylko wykonują określone zadania


testowe, lecz także podlegają różnym uwarunkowaniom.
• Mogą być bardziej lub mniej zmęczone czy znudzone przebiegiem eks-
perymentu, odczuwają głód lub pragnienie, mogą być w większym lub
mniejszym stopniu sfrustrowane, pobudzone czy zaniepokojone.
• Innym źródłem modyfikacji zachowań osób badanych mogą być ich
uprzednie doświadczenia. Ktoś może np. szybciej zapamiętać jakiś tekst,
46 O METODACH BADAŃ PSYCHOLOGICZNYCH

ale nie dlatego, że za pomocą określonej instrukcji został bardziej zmo-


tywowany (zmienna niezależna główna), ale być może dlatego, że dwa
dni wcześniej ukończył intensywny kurs mnemotechniczny.
• Kolejnym czynnikiem mogącym wpłynąć na wynik eksperymentu mogą
być różnice między pewnymi cechami osób badanych. Na przykład
w eksperymencie wymagającym wyciągania wniosków logicznych taką
cechą mogącą mieć wpływ na wyniki jest na pewno tzw. inteligencja
ogólna osób badanych.
• Wpływ na wyniki może mieć też temperament: osoby wysoce reaktywne
inaczej reagują niż osoby nisko reaktywne. Niestety, nawet dobór loso-
wy nie gwarantuje w 100%, że w jednej grupie nie znajdą się np. osoby
bardziej spostrzegawcze czy inteligentniejsze niż w drugiej. W rezulta-
cie uzyskane przez tych ludzi wyniki mogą okazać się znacząco wyższe
od wyników osiągniętych przez osoby należące do drugiej grupy, i to
wcale nie ze względu na wpływ zmiennej niezależnej głównej, ale wła-
śnie z powodu przypadkowej kumulacji osób o podobnych cechach.
• Może być wreszcie i tak, że w przeprowadzanym eksperymencie nałożą
się na siebie wpływy różnych wymienionych źródeł różnic indywidual-
nych, np. niekontrolowanego doboru osób badanych do grup porównaw-
czych i efektu uprzednich doświadczeń.

CZYNNIKI ZEWNĘTRZNE

• Czas i miejsce przeprowadzania eksperymentu mogą mieć niebagatelne


znaczenie dla wyników uzyskiwanych przez osoby testowane. Wiado-
mo, że nieco inaczej funkcjonuje nasza psychika rano, a inaczej po po-
łudniu lub w nocy. Bezpośrednio wiąże się to z dobowymi różnicami
w zakresie stężenia różnych substancji chemicznych w naszym organi-
zmie, takich jak insulina, kortyzol, melatonina czy hemoglobina. W cią-
gu każdej doby mniej więcej o tej samej porze zmienia się temperatura
naszego ciała, ciśnienie krwi i tętno. W wyniku tych zmian jesteśmy
bardziej lub mniej sprawni intelektualnie, opanowani emocjonalnie bądź
zmotywowani do podjęcia jakiejś aktywności. Ludzie reagują również
inaczej na duże, a inaczej na małe pomieszczenia, podobnie jak w róż-
nym stopniu może oddziaływać na nich temperatura, hałas czy oświetle-
nie miejsca, w którym prowadzone są badania.
• Znaczący wpływ na reakcje osób badanych może mieć także zachowa-
nie się samego badacza w trakcie przeprowadzanego eksperymentu.
Czasem, nawet nieświadomie, może on zmniejszać lub zwiększać u osób
badanych motywację do badań, poczucie niepewności, a nawet zdolno-
ści intelektualne. Okazuje się np., że jeżeli eksperymentatorem jest
POSTĘPOWANIE BADAWCZE W PSYCHOLOGII 47

atrakcyjna kobieta, to badani mężczyźni lepiej (to znaczy szybciej i do-


kładniej) wykonują zadania testowe niż wtedy, gdy badaczem jest męż-
czyzna. Zasada ta działa również w drugą stronę. Poprzez swoje zacho-
wanie eksperymentator również wzbudza większe lub mniejsze zaufanie
do rzetelności czy powagi prowadzonych badań. W eksperymentach,
w których biorą udział inni ludzie, w naturalny sposób uaktywniają się
relacje społeczne i badacz musi być ich świadomy, a co za tym idzie –
w jak największym stopniu kontrolować swoje postępowanie.

BŁĘDY PROCEDURY EKSPERYMENTALNEJ – INSTRUKCJA

Błędy w konstrukcji samego eksperymentu często są trudne do uchwycenia.


Pomijamy w tym miejscu błędy o charakterze teoretycznym, wynikające
z „niedoczytanych lektur” lub „niezrozumianych idei” – na te jest tylko jed-
na rada: „doczytaj i zrozum”.
Z praktycznego punktu widzenia najważniejszym czynnikiem, który w istot-
ny sposób wpływa na wyniki osób badanych, jest instrukcja. W każdej in-
strukcji poprzedzającej badanie psychologiczne można wyróżnić dwa ele-
menty: instruktażowy i motywacyjny.
• Instruktaż zawiera dokładny i jednoznaczny opis oczekiwanej przez ba-
dacza formy zachowania się osoby badanej podczas eksperymentu.
W zależności od badania w części instruktażowej pojawiają się sformu-
łowania w rodzaju: „kiedy zobaczysz czerwone światło, naciśnij klawisz
znajdujący się z Twojej lewej strony” lub „przeczytaj każde zdanie i za-
znacz na skali, w jakim stopniu ono Ciebie dotyczy”. Oczywiście ocze-
kiwana forma zachowania może być bardziej lub mniej skomplikowana,
chociaż im bardziej jest złożona, tym bardziej jest prawdopodobne, że
osoba badana coś pokręci i w rezultacie otrzymamy „pokręcone” dane.
Krótko mówiąc, instruktaż powinien dawać osobie badanej jasne odpo-
wiedzi na pytania, „co?” i „jak?” ma ona robić podczas eksperymentu.
• Instrukcja jednak odgrywa jeszcze jedną – i kto wie, czy nie ważniejszą
– rolę w badaniach psychologicznych. Jej treść bowiem może zawierać
różne sugestie dotyczące oczekiwanych zachowań osób badanych, czyli
– innymi słowy – aktywizować w nich różne stany motywacyjne. Zasta-
nów się, w jaki sposób na odpowiedzi osób badanych może wpłynąć
zamiana sformułowania: „przeczytaj każde zdanie” na: „przeczytaj bar-
dzo uważnie każde zdanie” lub „przeczytaj możliwie jak najszybciej
każde zdanie”. Jak sądzisz, czemu ma służyć z pozoru nic nieznaczące
zdanie dodane do instrukcji w niemal każdym kwestionariuszu psycho-
logicznym: „nie ma tutaj odpowiedzi dobrych, ani złych”? Tego rodzaju
sformułowania w bardziej lub mniej zawoalowany sposób nastawiają
48 O METODACH BADAŃ PSYCHOLOGICZNYCH

motywację osoby badanej do wykonania zadania testowego. Informacja


o tym, że żadna odpowiedź podana przez osobę badaną nie jest ani do-
bra, ani zła, w gruncie rzeczy jest równoznaczna ze stwierdzeniem: „nie
obawiaj się, nie będę oceniał Twoich odpowiedzi, chciałbym, żebyś czuł
się bezpiecznie, a przede wszystkim był szczery”.
Dobrym przykładem ilustrującym wpływ nastawienia wywołanego przez in-
strukcję jest eksperyment przeprowadzony przez Jamesa Picherta i Richarda
* Pichert, J. W., Anderson, R. C. Andersona*. W pierwszej części eksperymentu dwie grupy osób badanych
(1977). Taking different pers- otrzymały do przeczytania tekst opisujący czynności oglądania domu. Jedna
pectives on a story. Journal of
Educational Psychology, 69, grupa otrzymała dodatkowo w instrukcji informację, żeby czytała to opo-
309-315. wiadanie z pozycji osoby, która jest potencjalnym nabywcą tego domu,
a druga – z pozycji włamywacza. W drugiej części badani mieli za zadanie
przypomnieć sobie szczegóły tego opisu. Stwierdzono, że rodzaj zapamięta-
nych szczegółów był inny w obu grupach osób badanych. Na inne elementy
domu zwrócili uwagę i zapamiętali je potencjalni nabywcy, a na inne – po-
tencjalni włamywacze. Pichert i Anderson doszli do wniosku, że nastawie-
nie, z jakim dana informacja jest interpretowana, stanowi podstawę jej zro-
zumienia i zapamiętania.

ZMIENNE ZAKŁÓCAJĄCE

Zmienne zakłócające stanowią największą podgrupę zmiennych, które mogą


mieć wpływ na zachowanie się osób badanych. Czasami dość trudno zdecy-
dować, czy dana cecha jest zmienną niezależną uboczną, czy zakłócającą.
Zmienne uboczne zdefiniowaliśmy jako te, które badacz stara się kontrolo-
wać, a zmienne zakłócające jako te, których wpływ na zachowanie się osób
badanych jest niekontrolowany. Podział ten jest trochę uproszczony i nie do
końca oddaje istotę różnicy pomiędzy obydwoma typami zmiennych. Uzna-
nie jakiejś cechy za jeden lub drugi rodzaj zmiennej często wynika ze stanu
wiedzy, a nierzadko tylko z intuicji badacza na temat wpływu, jaki mogą one
mieć na zachowania się badanych obiektów.
Są w tej kwestii dwie ogólne zasady:
• Zgodnie z pierwszą: „jeśli już uświadomiłeś sobie, że jakaś zmienna
może mieć wpływ na reakcje osób badanych, to lepiej jest ten wpływ
kontrolować, niż go nie kontrolować”. Innymi słowy, lepiej jest uznać,
że dana cecha jest zmienną istotną, niż ją zignorować.
• Druga zasada brzmi: „to, czy dana zmienna niezależna należy do katego-
rii głównych, ubocznych czy zakłócających, zawsze musi wynikać z
problemu badawczego”. W żadnym eksperymencie nie jesteśmy w sta-
nie kontrolować wszystkich zmiennych, więc przypisując im określone
POSTĘPOWANIE BADAWCZE W PSYCHOLOGII 49

role w spektaklu zwanym „eksperyment”, musimy się czegoś trzymać.


Ostatecznym kryterium podziału zmiennych zawsze jest problem, po-
nieważ to on jest głównym sprawcą naszej aktywności badawczej.
Kryterium rozróżnienia zmiennych tkwi zatem w samym przedmiocie bada-
nia. Prawdopodobnie kolor włosów osoby badanej nie jest czynnikiem, który
warto kontrolować w badaniach nad rozpoznawaniem obrazów wzroko-
wych, ale może on mieć pewne znaczenie w eksperymencie dotyczącym
oceny atrakcyjności osoby, z którą masz rozwiązać zadanie testowe.
Zanim więc na serio zaprosisz pierwszą osobę badaną do laboratorium,
przyjrzyj się uważnie wymyślonej przez Ciebie sytuacji eksperymentalnej:
zrób listę wszystkich możliwych czynników, które potencjalnie mogą wpły-
nąć na zachowanie osoby badanej, przeprowadź badania pilotażowe, a przy-
jaciół, znajomych i uznane autorytety proś o krytykę. Dzięki temu w dal-
szych badaniach będziesz mógł się skoncentrować tylko na kilku zmiennych,
które warto kontrolować, bo niestety raczej nie uda Ci się kontrolować
wszystkich. Dobrą praktyką jest przeprowadzanie badania pilotażowego
przed każdym eksperymentem. A nawet wtedy, gdy jesteś przekonany, że
eksperyment jest dobrze zaplanowany, warto przerwać badanie po kilku
pierwszych osobach i przyjrzeć się wynikom. Dobrze jest też porozmawiać
z pierwszymi osobami badanymi o tym, co sądzą o eksperymencie, w któ-
rym wzięli udział. Ich wypowiedzi z reguły są źródłem ciekawych sugestii.

OKAZJONALNE ZMIENNE ZAKŁÓCAJĄCE

Szczególnie przykrą grupą zmiennych zakłócających są te, które w całkiem


nieoczekiwany sposób mogą przeszkodzić w przeprowadzaniu eksperymen-
tu. Nazywa się je okazjonalnymi zmiennymi zakłócającymi. Pomimo podję-
cia wszystkich środków ostrożności trudno jest np. przewidzieć, że spadnie
napięcie prądu elektrycznego i w rezultacie zgaśnie światło lub wyłączy się
komputer, który właśnie wykorzystujemy w badaniu. Takim nieoczekiwa-
nym czynnikiem może być również ból głowy czy inna chwilowa niedyspo-
zycja osoby badanej. Ktoś może też gwałtownie wejść do laboratorium, eks-
perymentator może narobić hałasu, spadając z krzesła, a przez okno może
wpaść meteor (raczej mało prawdopodobne). Zajście każdego z tych incy-
dentów w większym lub mniejszym stopniu wpłynie na zachowanie się oso-
by badanej. Czasem taka sytuacja może nawet spowodować, że uzyskane
dane trzeba będzie usunąć z dalszej analizy.
Wpływ przynajmniej niektórych okazjonalnych zmiennych zakłócających
można dość łatwo zminimalizować, np. wyrzucając do kosza trzeszczące
słuchawki czy wymieniając migoczącą neonówkę. Z innymi może być, nie-
stety, trochę gorzej, np. z nieoczekiwanymi zapachami z uczelnianej kuchni
50 O METODACH BADAŃ PSYCHOLOGICZNYCH

w trakcie sprawdzania zdolności uczenia się sylab bezsensownych przez stu-


dentów po 24-godzinnym okresie głodzenia, lub choćby wtedy, gdy jednak
do laboratorium wpadnie meteor (który wpadł jakoś do naszej książki i nie
chce wylecieć).
Mistrzami eksperymentów, w których zmienne, wyglądające na okazjonalne
zmienne zakłócające, wykorzystuje się jako zmienne niezależne główne, są
psychologowie społeczni. W jednym z badań John A. Bargh i Mark Chen
* Bargh, J. A., Chen, M. (1996). z New York University* dali studentom pomieszane fragmenty zdań z proś-
Automaticity of social behavior: bą o ich uporządkowanie zgodnie z zasadami języka angielskiego. Wśród
Direct effects of trait construct
and stereotype activation on ac- fragmentów zdań znajdowały się m.in. słowa odnoszące się do uprzejmości
tion. Journal of Personality and (np. „cierpliwy”, „uprzejmy”, „pełen szacunku”) lub wrogości (np. „agre-
Social Psychology, 71, 230-244.
sywny”, „nieuprzejmy, „przerywać”, „przeszkadzać”). Podczas badania na-
gle ktoś wchodził do laboratorium i prosił eksperymentatora o krótką roz-
mowę na korytarzu. Ten, wychodząc, nieco zakłopotany prosił osobę bada-
ną, żeby poszukała go na zewnątrz, gdy skończy pierwszą część badania.
Z reguły w eksperymencie taka sytuacja byłaby czymś niepożądanym. Tym
razem jednak było inaczej. Po zakończeniu układanki językowej badani ła-
two znajdowali na korytarzu eksperymentatora, który jednak, zajęty rozmo-
wą z jakąś osobą, wcale nie zwracał na nich uwagi. Studenci czekali w po-
bliżu i wtedy okazało się, że ci, którzy w teście językowym mieli słowa
związane z nieuprzejmością, częściej przerywali badaczowi rozmowę przed
upływem 10 minut (67% badanych) niż ci, którym wcześniej eksponowano
słowa związane z uprzejmością (tylko 16% badanych). W istocie Barghowi
i jego kolegom chodziło o sprawdzenie, czy nieświadoma aktywizacja okre-
ślonego wzorca zachowań społecznych (w tym wypadku uprzejmości lub
nieuprzejmości) może spowodować zachowania zgodne z tym wzorcem. No
i hipoteza się potwierdziła.

ZMIENNA ZALEŻNA

Celem eksperymentów psychologicznych jest gromadzenie ilościowych lub


jakościowych danych, które są wskaźnikami zachowania się badanych osób.
Wskaźniki te określiliśmy jako zmienne zależne. W rzeczywistości bardzo
wiele czynników może mieć wpływ na zachowanie się człowieka i tylko
niewielka ich część jest brana pod uwagę w danym eksperymencie. Jeżeli
np. interesuje cię taka zmienna zależna, jak „tendencja do ulegania prośbom
innych ludzi”, to możesz wziąć pod uwagę wiele czynników, które mogą
mieć wpływ na taką tendencję. Być może, jest to sytuacja, w której człowiek
się znajduje, charakter prośby lub też związek pomiędzy cechami osoby pro-
szonej a tendencją do ulegania prośbom. Psychologów jednak najbardziej
interesuje nie samo podanie pary zmiennych niezależnej i zależnej oraz
stwierdzenie, że jedna wpływa na drugą. Najciekawsze jest poszukiwanie
POSTĘPOWANIE BADAWCZE W PSYCHOLOGII 51

odpowiedzi na pytanie, dlaczego zmienna niezależna wpływa na zachowanie


się człowieka.
Bardzo ciekawym eksperymentem, który dobrze ilustruje to zagadnienie, są
badania dotyczące tzw. huśtawki emocjonalnej, prowadzone przez Dariusza
* Doliński, D., Nawrat, R. Dolińskiego i Ryszarda Nawrata*. W jednym z przeprowadzonych przez
(1994). „Huśtawka emocji” jako nich eksperymentów część kierowców znajdowała reklamę środka na porost
nowa technika manipulacji spo-
łecznej. Przegląd Psychologicz- włosów za wycieraczką swojego samochodu. Reklama ta wyglądała dokład-
ny, 37, 7-20. nie tak samo jak mandat, a kierowcy ci częściej godzili się na wypełnianie
kwestionariusza dotyczącego organizacji ruchu drogowego. Gdy zaś reklama
przyklejona była do drzwi samochodu, wtedy kierowcy byli zdecydowanie
mniej skłonni do ulegania prośbie eksperymentatora. Moglibyśmy powie-
dzieć, że chodziło o to, by sprawdzić, jaki jest wpływ miejsca wkładania kar-
tek przypominających mandaty (zmienna niezależna) na skłonność do wy-
pełniania kwestionariusza organizacji ruchu drogowego (zmienna zależna).
Zdefiniowanie celu eksperymentu w ten sposób byłoby jak najbardziej po-
prawne, ale nie wydaje się, że wynik wnosiłby coś ciekawego do wiedzy
o zachowaniu się ludzi. W eksperymencie tym (a także w wielu innych)
zmienna niezależna i zmienna zależna są tylko pewnymi „przykładami”
określonych typów bodźców i zachowań. Autorom nie chodziło przecież
o to, by sprawdzić, jak kierowcy reagują na wkładanie im kartek za wycie-
raczki. Manipulacja ta była tylko środkiem do tego, by wywołać u osób ba-
danych „huśtawkę emocjonalną”, czyli stan, w którym przeżywają krótki
lęk, a następnie uczucie ulgi. Kwestionariusz, który potem wypełniali kie-
rowcy, też zresztą był tylko jedną z metod sprawdzania, czy ludzie po prze-
życiu huśtawki emocjonalnej są skłonni do ulegania prośbom. Skłonność do
wypełnienia kwestionariusza była więc tylko pewną formą „ujawnienia się”
stanu, w jakim osoba badana się znajduje.

CZY ZMIENNE ZALEŻNE ZALEŻĄ OD OSÓB BADANYCH CZY OD ZMIENNYCH NIEZALEŻNYCH?

Omawiając pojęcie zmiennej zależnej, najczęściej podaje się dwa wyjaśnie-


nia. Zgodnie z pierwszym mówi się, że nazwa „zmienna zależna” wzięła się
stąd, iż odnosi się do zjawiska (cechy lub czynnika) zależnego od osoby ba-
danej (w odróżnieniu od zmiennej niezależnej, która od niej nie zależy, po-
nieważ zależy od badacza). Innymi słowy, o ile od osoby badanej zależą jej
reakcje, o tyle od eksperymentatora zależy dobór czynników, które mogą te
reakcje wywołać. Jest to zasada ogólna.
Trzeba jednak pamiętać, w jakim znaczeniu używa się tutaj przymiotnika
„zależna”. Bynajmniej nie oznacza on, że reakcja osoby badanej koniecznie
wynika z jej woli czy świadomości tego, że właśnie tak chce się zachować
i w pełni kontroluje swoje reakcje. Oczywiście może być i tak, ale w ekspe-
rymentach psychologicznych – paradoksalnie – im więcej refleksji i woli po
52 O METODACH BADAŃ PSYCHOLOGICZNYCH

stronie osób badanych, tym bardziej prawdopodobne, że dane uzyskane od


nich będą zafałszowane. Z tego właśnie powodu w instrukcjach do testów
lub kwestionariuszy psychologicznych często prosi się badanych, aby nie za-
stanawiali się zbyt długo nad odpowiedzią.
Zgodnie z drugim wyjaśnieniem gromadzone podczas badania dane, czyli
wartości zmiennej zależnej, są właśnie takie, a nie inne dlatego, że pojawiają
się one jako reakcja na zmienne niezależne, a zwłaszcza zmienną niezależną
główną. W tym sensie termin „zmienna zależna” odnosi się do jakiegoś zja-
wiska (cechy lub czynnika), którego pojawienie się jest skutkiem, rezultatem
zadziałania innego zjawiska (cechy lub czynnika), traktowanego jako przy-
czyna, powód tego pierwszego. „Zależność” oznacza w tym wypadku „za-
leżność od zmiennej niezależnej”. Tak jak w opisanym wyżej przykładzie
badań Dolińskiego i Nawrata, tendencja do uległości zależy od sytuacji
wprowadzającej osoby badane w stan huśtawki emocjonalnej.

JEDNA ZMIENNA CZY WIELE ZMIENNYCH?

Z tego wszystkiego, co dotąd napisaliśmy, wynika, że ze słowem „ekspery-


ment” powinna kojarzyć się para „zmienna niezależna – zmienna zależna”.
Niekoniecznie jednak oba te określenia muszą być użyte w liczbie pojedyn-
czej. Dosyć często (jeśli nie bardzo często) w eksperymentach bada się łącz-
ny wpływ większej liczby zmiennych niezależnych na zmienną zależną.
Można np. zapytać, czy tendencja do ulegania prośbom zależy wyłącznie od
przeżycia „huśtawki emocjonalnej”, czy też ma związek z typem prośby.
Stosunkowo łatwo się zgodzić na wypełnianie kwestionariusza dotyczącego
ruchu drogowego. Zdecydowanie trudniej byłoby skłonić kogoś do wykona-
nia czegoś, co wymaga przekroczenia standardowej bariery w kontaktach fi-
zycznych między nieznajomymi. Czy zgodziłbyś się, nawet po przeżyciu
huśtawki emocjonalnej, na to, by podrapać nieznajomą osobę po plecach?
Gdybyśmy wyobrazili sobie eksperyment, który miałby za zadanie to spraw-
dzić, wtedy byłyby w nim dwie zmienne niezależne: przeżycie (albo nie)
huśtawki emocjonalnej oraz rodzaj prośby – wymagającej lub niewymagają-
cej przekroczenia dystansu.
Jeżeli eksperyment można tak zaprojektować, że są w nim dwie zmienne
niezależne, to można go także zaprojektować w taki sposób, że byłyby
w nim trzy zmienne niezależne i więcej. Należy jednak zwrócić uwagę na
fakt, że im więcej zmiennych niezależnych, tym trudniej określić, które rze-
czywiście wpływają na zachowanie osób badanych. W części II przedstawi-
my metody statystyczne pozwalające na określenie stopnia wpływu wielu
zmiennych niezależnych na zmienną zależną. Można także przeprowadzić
eksperyment, w którym zmiennych zależnych jest więcej niż jedna.
POSTĘPOWANIE BADAWCZE W PSYCHOLOGII 53

Oto przykład takiego eksperymentu z psychologii zachowań konsumen-


* Mukherjee, A., Hoyer, W. ckich. Ashesh Murkherjee i Wayne Hoyer* przeprowadzili eksperyment,
(2001). The effect of novel w którym sprawdzali, jaki jest wpływ dodawania nowych informacji o pro-
attributes on product evaluation.
Journal of Consumer Research, dukcie na ocenę tego produktu. Oprócz obecności nowych informacji bada-
28, 462-473. cze manipulowali tym, jak dalece produkt jest skomplikowany.
W skrócie można opisać ten eksperyment w sposób następujący: osoby ba-
dane czytały na monitorze komputera informacje dotyczące pewnego pro-
duktu. Połowa osób badanych czytała informacje dotyczące komputera,
a połowa informacje dotyczące lodówki (zmienna niezależna numer 1 –
skomplikowanie produktu). Połowa spośród osób czytających informacje
dotyczące komputera i połowa spośród tych, co czytali informacje na temat
lodówki, znalazła wśród tych informacji także wiadomość następującą: „sys-
tem ASM i multiplekser jako nowość za niewielką dopłatą”. (Jeżeli nie
wiesz, co to jest, nie przejmuj się – uczestnicy eksperymentu też nie wie-
dzieli, terminy te wymyślili sami badacze). Obecność tej informacji lub jej
brak jest więc zmienną niezależną numer 2, określoną jako obecność nowe-
go atrybutu.
Po przeczytaniu informacji badani mieli ocenić produkt na różnych skalach
liczbowych (zmienna zależna numer 1), po czym mieli za zadanie przeczytać
opinie innych konsumentów na temat tego produktu (wszyscy takie same,
więc to nie była zmienna niezależna) i ocenić produkt ponownie (zmienna
zależna numer 2).
Jak się łatwo domyślić, obie zmienne niezależne miały wpływ na obie
zmienne zależne. Uczestnicy eksperymentu poinformowani o istnieniu no-
wych cech produktu lepiej oceniali ten produkt niż ci, którzy nie wiedzieli
o tych fantastycznych innowacjach. Nowe atrybuty były jednak dużo bar-
dziej istotne dla osób badanych, gdy dotyczyły produktu prostego, czyli lo-
dówki. (Autorzy badania zakładali, że ktoś, kto się dowiedział, że
w komputerze jest system ASM, będzie się obawiał, że trzeba będzie się
czegoś nowego uczyć, w przypadku zaś lodówki raczej nikt nie spodziewa
się żadnych szczególnych obciążeń edukacyjnych).
Także wartości obu zmiennych zależnych różniły się w zależności od tego,
czy osoba badana oceniała produkt przed przeczytaniem opinii innych ludzi,
czy po jej przeczytaniu (opinie te były tak dobrane, aby badani nie mogli
wyrobić sobie poglądu na temat ocenianego produktu – czy jest dobry, czy
nie). W przypadku lodówek przeczytanie opinii innych ludzi podnosiło war-
tość produktu w oczach osoby badanej (niższe wyniki przed przeczytaniem,
wyższe po), a w przypadku komputera czytanie opinii innych zaniżało oce-
ny produktu przez osoby badane (wyższe wyniki ocen przed czytaniem
opinii niż po).
54 O METODACH BADAŃ PSYCHOLOGICZNYCH

1.5. OPERACJONALIZACJA ZMIENNYCH – KLUCZ DO EKSPERYMENTU

TERMINY TEORETYCZNE I TERMINY EMPIRYCZNE

W każdej nauce najważniejsze jest stawianie ciekawych pytań. Często jed-


nak równie ważny jest sposób, w jaki poszukuje się odpowiedzi na te pyta-
nia. W naukach empirycznych działamy na dwóch poziomach. Na jednym
posługujemy się konstruktem teoretycznym w rodzaju „huśtawka emocjo-
nalna”, a na drugim – konkretnym sposobem wprowadzenia osoby badanej
w taki właśnie stan. W zasadzie na jednym i drugim poziomie myślimy
o tym samym, tyle tylko, że raz w terminach teoretycznych, a innym razem
w terminach empirycznych.
Terminy teoretyczne dotyczą psychologicznych zmiennych, które nie są
obserwowalne, a terminy empiryczne – pewnych sytuacji, faktów czy wy-
darzeń, które możemy obserwować. W przywołanych wcześniej badaniach
Dariusza Dolińskiego i Ryszarda Nawrata, dotyczących tendencji do ulega-
nia prośbom pod wpływem huśtawki emocjonalnej, określenia: „uleganie”
i „huśtawka” są właśnie terminami teoretycznymi. Terminami empirycznymi
zaś są: miejsce, w którym znajduje się kartka na samochodzie (wycieraczka
lub drzwi), oraz zgoda na odpowiadanie na pytania kwestionariusza ruchu
drogowego. Procedurę znajdowania empirycznych odpowiedników dla ter-
minów teoretycznych nazywamy operacjonalizacją.

OPERACJONALIZACJA – DEFINICJA I PRZYKŁAD ZE SZCZUREM W LABIRYNCIE

Zgodnie z definicją, operacjonalizacja polega na poszukiwaniu empirycz-


nych odpowiedników terminów teoretycznych. Można śmiało powiedzieć,
że operacjonalizacja jest kluczem do eksperymentu.
Prześledźmy przykład dotyczący związków pomiędzy poziomem motywacji
u szczurów a szybkością znajdowania przez nie drogi w labiryncie. Jest to
typowy problem psychologa-behawiorysty. Przypuśćmy, że interesuje go
uzyskanie odpowiedzi na pytanie: „Czy szczury lepiej zapamiętują drogę do
pokarmu, gdy mają większą motywację?”. W pytaniu tym znajdują się dwa
terminy teoretyczne: „zapamiętywanie drogi do pokarmu” i „motywacja”.
Niełatwo dokładnie określić ich znaczenia. Słownikowe definicje takich
słów, jak „pamięć” czy „motywacja”, pełne są ogólników lub szczególnych
przypadków i niemal zawsze są kontekstowe. W operacjonalizacji najważ-
niejsze jest to, co potocznie określa się jako „wylądowanie”, czyli takie od-
niesienie terminu teoretycznego do konkretnego przejawu zachowania się
obserwowanego obiektu, które pozwoli na odróżnienie od siebie dwóch
osobników ze względu na to zachowanie.
POSTĘPOWANIE BADAWCZE W PSYCHOLOGII 55

Warto zwrócić uwagę na to, że z punktu widzenia problemu badawczego,


nasz psycholog-behawiorysta chciałby móc odróżnić od siebie przynajmniej
dwa szczury, z których jeden „lepiej”, a drugi „gorzej” zapamiętuje drogę
w labiryncie – i tylko tyle. Pozostaje mu więc odpowiedzieć sobie na pyta-
nie: „jakie obserwowalne i mierzalne zjawisko (np. zachowanie się szczura)
może być dobrym wskaźnikiem intuicyjnie rozumianego pojęcia zapamię-
tywania?”. Bez wątpienia to, jakie zjawisko przyjmie za wskaźnik lub miarę
pamięci, zależy wyłącznie od niego (od psychologa, nie od szczura, oczywi-
ście). Rzadko jednak jako pierwsi posługujemy się jakimś terminem teore-
tycznym i jesteśmy pozostawieni sami sobie w ustalaniu jego wskaźników.
Prawie zawsze istnieje już jakaś tradycja badań nad danym zjawiskiem i mo-
żemy wykorzystać wskaźniki ustalone przez innych. Jednym z powszechnie
akceptowanych wskaźników pamięci jest liczba błędów popełnianych pod-
czas nauki. Z tego punktu widzenia szczur, który lepiej „zapamiętał drogę do
pokarmu”, to ten, który rzadziej skręca w niewłaściwą stronę.
Odwołanie się do tradycji badawczej, oprócz tego, że ułatwia nam zadanie
zoperacjonalizowania terminu teoretycznego, ma też jeszcze jedną zaletę.
Używanie tych samych wskaźników pozwala na porównywanie wyników
eksperymentów prowadzonych przez różnych badaczy.

ZNACZENIE KONTEKSTU TEORETYCZNEGO W OPERACJONALIZACJI ZMIENNYCH

Przyjrzyjmy się teraz operacjonalizacji drugiego terminu teoretycznego,


* Sillamy, N. (1994). Słownik czyli „motywacji”. Nasz ulubiony słownik Norberta Sillamy’ego* podaje, że
psychologii. Katowice: Wydaw- motywacja to „ogół czynników dynamicznych, mających decydujący wpływ
nictwo „Książnica”.
na postępowanie jednostki” (s. 161). Nigdy dotąd nie sądziliśmy, że np. la-
wina śniegu, będąca składową niewątpliwie dynamicznych czynników i ma-
jąca „decydujący wpływ na postępowanie jednostki”, inaczej nazywa się
motywacją. Takie są następstwa zbyt ogólnych definicji leksykalnych.
** Por. Łukaszewski, W. (2000). Zgodnie z inną definicją, „motywacja” to termin, który odnosi się do wszel-
Motywacja w najważniejszych kich mechanizmów (zarówno dyspozycji organizmu, jak i sytuacji zewnętrz-
systemach teoretycznych. W:
J. Strelau, Psychologia. Pod- nych), które powodują rozpoczęcie jakiegoś działania, jego podtrzymanie
ręcznik akademicki (t. 2, s. 427- lub zakończenie**.
-440). Gdańsk: GWP.
Jak jednak zdefiniować zachodzące wewnątrz organizmu szczura procesy,
*** Thorndike, E. L. (1990). które ukierunkowują go na znalezienie pokarmu? Edward Thorndike***,
Uczenie się ludzi. Warszawa: który jako pierwszy badał zachowanie się szczurów w labiryncie, dość bru-
PWN.
talnie zoperacjonalizował ich stany motywacyjne przez długość czasu,
w którym były pozbawione jedzenia. Po prostu przyjął, że im szczur jest
głodniejszy, tym ma większą motywację do poszukiwania jedzenia. W tym
kontekście pierwotne pytanie badawcze teraz brzmi następująco: „Czy
szczur głodny (to znaczy bardziej zmotywowany) popełnia mniej błędów
56 O METODACH BADAŃ PSYCHOLOGICZNYCH

w labiryncie niż szczur najedzony (czyli mniej zmotywowany)?”. Godząc


się na propozycję Thorndike’a, nasz badacz może przyjąć, że zoperacjonali-
zował pojęcie motywacji szczurów i w badaniu traktuje je jako zmienną nie-
zależną główną – to ostatecznie on zdecyduje, kiedy i ile jedzenia da szczu-
rom przed testem. Liczba błędów popełnionych przez szczury jest wskaźni-
kiem zmiennej zależnej, czyli miarą zapamiętywania drogi w labiryncie.
Sposób, w jaki eksperymentator przeprowadza operacjonalizację, pozwala
innym zrozumieć, co dokładnie ma na myśli, używając terminów, które od-
noszą się do człowieka mniej więcej tak, jak pojęcie atomu do kawałka szkła
czy kamienia. Wbrew pozorom, w życiu potocznym także mamy dość często
do czynienia z operacjonalizacją. Za większością używanych przez nas abs-
trakcyjnych określeń kryją się całkiem dokładne odpowiedniki empiryczne.
Zarówno jednak w nauce, jak i w życiu potocznym sposób operacjonalizacji
zależy od konkretnych okoliczności. Zupełnie inaczej będzie wyglądać ope-
racyjna wersja pojęcia „duży korek na mieście” dla mieszkańca Warszawy,
a inaczej dla mieszkańca pięciotysięcznego miasteczka w górach.

KRÓTKO O ZDANIACH TEORETYCZNYCH I ZDANIACH EMPIRYCZNYCH

Terminy teoretyczne i terminy empiryczne mają odpowiedniki również na


poziomie zdań. Zdanie teoretyczne to takie, w którym występuje co naj-
mniej jeden termin teoretyczny. Na przykład w zdaniu: „Krzysiek ma więk-
szą zdolność myślenia dedukcyjnego niż Piotrek” terminem teoretycznym
jest „zdolność myślenia dedukcyjnego”. Z kolei zdanie empiryczne (zwane
też spostrzeżeniowym) nie zawiera żadnych terminów teoretycznych – np.:
„W ciągu godziny Krzysiek rozwiązał więcej zadań z logiki niż Piotrek”.
To, jak poprawnie przeprowadziliśmy zabieg operacjonalizacji, ma zasadni-
czy wpływ na związek pomiędzy zdaniami teoretycznymi a zdaniami empi-
rycznymi. Pytanie badawcze z reguły formułujemy w terminach teoretycz-
nych. Wyniki przeprowadzonego eksperymentu to oczywiście zdania empi-
ryczne. Jeżeli poprawnie zoperacjonalizujemy terminy teoretyczne, to także
możemy poprawnie odpowiedzieć na stawiane pytanie badawcze. Czasami
mówi się nawet, że eksperyment pozwala odpowiadać na pytania badawcze
„z dokładnością właściwą do procedury”.
Przy takim dwoistym, teoretyczno-empirycznym ujęciu przedmiotów ba-
dawczych w psychologii, spory między badaczami koncentrują się z reguły
wokół dwóch kwestii.
• Pierwsza dotyczy pytań badawczych i udzielanych na nie odpowiedzi
(np.: „Czy rzeczywiście motywacja ma związek z zapamiętywaniem
drogi w labiryncie?” lub „Czy zjawisko to dotyczy tylko szczurów?”).
POSTĘPOWANIE BADAWCZE W PSYCHOLOGII 57

Spory takie nazwa się merytorycznymi, gdyż dotyczą meritum, czyli tre-
ści istotnej dla sprawy.
• Drugi rodzaj sporów toczy się wokół sposobów operacjonalizacji
zmiennych (np.: „Czy stopień wygłodzenia szczura jest adekwatną (wła-
ściwą) miarą motywacji?” lub „Jak długie powinny być przerwy w gło-
dzeniu szczurów, aby można było uznać, że kierują się one różną moty-
wacją?”). Spory takie należą do kategorii sporów metodologicznych,
ponieważ odnoszą się do metody ujęcia treści.

OPERACJONALIZACJA ZMIENNEJ POPRZEZ GRUPĘ WSKAŹNIKÓW

* Zob. Brzeziński, J., Hornow- Nie zawsze można przeprowadzić operacjonalizację zmiennych według za-
ska, E. (red.) (1998) Skala inte- sady „jeden termin teoretyczny – jeden empiryczny”. Przykładem takiej sy-
ligencji Wechslera WAIS-R: pol-
ska adaptacja, standaryzacja, tuacji jest operacjonalizacja inteligencji. David Wechsler* w jednym z naj-
normalizacja i wykorzystanie częściej używanych testów do badania inteligencji podaje aż 15 różnych
w diagnostyce psychologicznej.
Warszawa: PWN.
wskaźników. Z kolei Robert Sternberg** twierdzi, że należy mówić raczej
o trzech ogólnych grupach komponentów inteligencji i dopiero w ich obrębie
** Sternberg, R. (2001). Psycho-
logia poznawcza. Warszawa: wyróżniać poszczególne subkomponenty. Jednym z proponowanych przez
Wydawnictwa Szkolne i Peda- niego wskaźników inteligencji jest – upraszczając nieco – „zdrowy rozsądek
gogiczne. na co dzień”. David Wechsler w ogóle nie bierze pod uwagę takiej zmiennej.
Może się więc okazać, że w jednym teście ktoś okazuje się bardzo inteli-
gentną osobą, a w drugim – całkiem przeciętną. Wynik konkretnego ekspe-
rymentu w znacznym stopniu zależy więc od przyjętego sposobu operacjo-
nalizacji zmiennej.

OPERACJONALIZACJA A TRADYCJA BADAWCZA

Ostatnim problemem, na który warto zwrócić uwagę przy okazji omawiania


zagadnienia operacjonalizacji zmiennych, jest wspomniana już tradycja ba-
dawcza. W psychologii istnieje wiele obszarów, w których pewne pojęcia od
wielu lat mają bardzo podobną operacjonalizację. Przykładem są prowadzo-
ne od ponad stu lat eksperymenty, w których do testowania różnych cech
pamięci używa się sylab bezsensownych, a wskaźnikiem trwałości zapamię-
tywania jest czas, po jakim ktoś jest w stanie bezbłędnie powtórzyć wyuczo-
ne wcześniej sylaby typu: „ber”, „mor” itd. Nestor psychologii poznawczej,
*** Simon, H. (1990). Invariants a zarazem noblista z dziedziny ekonomii, Herbert Simon*** z Carnegie In-
of human behavior. Annual Re- stitute of Technology w Pittsburghu, zauważył, że ze względu na pieczoło-
view of Psychology, 41, 1-19.
wicie kultywowaną w różnych działach psychologii tradycję operacjonaliza-
cji zmiennych można odnieść wrażenie, iż psychologia rozpadła się na nie-
skończenie wiele dziedzin, z których każda zajmuje się tym, jak ludzie roz-
wiązują tylko jedno zadanie. Miał on przy tym na myśli to, że powtarzając
ciągle tę samą operacjonalizację, badacze z czasem zapominają, jakie termi-
58 O METODACH BADAŃ PSYCHOLOGICZNYCH

ny teoretyczne kryją się za terminami empirycznymi. A jeśli nawet nie za-


pominają, to bardzo rzadko zadają sobie trud, by na nowo przemyśleć opera-
cjonalizację starych terminów.
Przykładem takiego podejścia może być wykorzystywanie, jako materiału do
badania procesu rozwiązywania problemów, zadania znanego pod nazwą
„problem misjonarzy i kanibali”. Treść tego zadania wygląda, mniej więcej,
następująco: po jednej stronie rzeki znajduje się trzech misjonarzy, trzech
kanibali i dwuosobowa łódka. Misjonarze i kanibale chcą przepłynąć na dru-
gą stronę rzeki. Problem w tym, że należy uniknąć sytuacji, w której na jed-
nym bądź na drugim brzegu rzeki stanie więcej kanibali niż misjonarzy. Po-
wód jest dosyć oczywisty: gdy ci pierwsi są w przewadze, zjadają drugich.
Zadanie to jest wykorzystywane niezwykle często w eksperymentach, w któ-
rych chodzi o sprawdzenie, w jaki sposób ludzie radzą sobie z przełamaniem
strategii „bliżej do celu” podczas rozwiązywania problemów. Strategia ta
polega na stopniowym zmniejszaniu różnicy między sytuacją początkową
(wszyscy są po jednej stronie rzeki) a sytuacją końcową (wszyscy znajdują
się po drugiej stronie). Jeżeli spróbujesz sam rozwiązać ten problem, zorien-
tujesz się, że ta strategia nie jest skuteczna i prędzej czy później będziesz
musiał wrócić do wcześniejszego etapu. Nawiasem mówiąc, problem ten do-
czekał się wielu wersji. W jednej z nich misjonarze i kanibale zostali zamie-
nieni na miłośników i niszczycieli książek. Liczba eksperymentów, w któ-
rych wykorzystuje się ten problem, jest tak duża, że czasem trudno stwier-
dzić, czy ich autorom nadal jeszcze chodzi o badanie myślenia, czy też ra-
czej o wymyślanie nowych wersji zadania.
2. PROJEKTOWANIE EKSPERYMENTÓW

EKSPERYMENT JAKO PROCEDURA POZWALAJĄCA NA ZBIERANIE DANYCH

Badania eksperymentalne projektujemy i przeprowadzamy po to, by weryfi-


kować nasze hipotezy. Jeśli jednak uważniej przyjrzymy się temu, co robi
badacz podczas eksperymentu, to się okaże, że cały wysiłek wkłada w zbie-
ranie, czyli rejestrowanie danych liczbowych lub jakościowych (nominal-
nych). Dopiero wykonanie procedur opisu i wnioskowania statystycznego
pozwoli mu na uzyskanie odpowiedzi na stawiane pytanie badawcze.
To, jaki sens mają zgromadzone przez niego dane, zależy tylko od niego i –
* Brzeziński, J. (1996). Metodo- jak to nazywa Jerzy Brzeziński* – od jego „świadomości metodologicznej”.
logia badań psychologicznych. Jednym z najważniejszych wskaźników tej świadomości jest umiejętność
Warszawa: PWN.
właściwego projektowania eksperymentów.

MODELOWANIE BADAŃ EMPIRYCZNYCH

Plany eksperymentów są przedmiotem badań dość elitarnej grupy metodolo-


gów zajmujących się modelowaniem badań empirycznych. Badacze ci for-
mułują propozycje modeli eksperymentalnych będących wypadkową odpo-
wiedzi na trzy pytania: „Co chcę wiedzieć?”, „Z jaką dokładnością chcę to
wiedzieć?” i „O jakiej grupie chcę to wiedzieć?”.
Pierwsze pytanie odnosi się nie tylko do treści konkretnego pytania ba-
dawczego, ale przede wszystkim do tego, jakiej formy odpowiedzi się ocze-
kuje. Określenie, co i jak chcemy wiedzieć, ściśle wiąże się z zadowalającą
nas precyzją uzyskanej wiedzy.
Pytanie o dokładność to oczywiście pytanie o sposób operacjonalizacji
Jerzy Brzeziński zmiennych, czyli o to, w jaki sposób będziemy mierzyć empiryczne wskaź-
niki terminów teoretycznych.
Równie ważnym jak poprzednie elementem modelowania badań empirycz-
nych jest zaprojektowanie właściwego układu grup badawczych. W najbar-
dziej typowej, a zarazem najprostszej wersji eksperymentu osoby badane są
losowo przydzielane do dwóch grup.
Poniżej dokładniej przedstawimy ten i kilka innych najczęściej realizowa-
nych planów eksperymentalnych. Każdy z nich zostanie zilustrowany rze-
czywistym przykładem badań.
60 O METODACH BADAŃ PSYCHOLOGICZNYCH

UKŁAD Z DWOMA GRUPAMI BADAWCZYMI – PRZYKŁAD Z MIKRUSEM GRAJĄCYM NA PUZONIE

Podstawowy plan eksperymentu można sprowadzić do sytuacji, w której


osoby badane są dzielone na dwie grupy. Kryterium podziału stanowią po-
ziomy zmiennej niezależnej głównej. Ponieważ celem tak zaprojektowanego
eksperymentu jest zebranie danych umożliwiających porównanie dwóch
grup, schemat ten określa się jako układ międzygrupowy. W takim planie
eksperymentu mówi się albo o dwóch grupach porównawczych (np. gdy in-
teresują nas różnice między kobietami a mężczyznami ze względu na nasile-
nie potrzeby afiliacji), albo jedną grupę nazywa się eksperymentalną, a dru-
gą – kontrolną (np. w sytuacji, gdy badani w jednej grupie są poddani jakie-
muś treningowi, a w drugiej nie). Często badacze nadają grupom krótkie,
umowne nazwy, pozwalające czytelnikom raportu z badań uświadomić so-
bie, na czym polega różnica pomiędzy obydwoma grupami.
Z taką właśnie sytuacją mamy do czynienia w jednym z eksperymentów
przeprowadzonych przez Gordona Bowera, Martina Karlina i Alvina Due-
* Bower, G. H., Karlin, M. B., cka*. Przedmiotem ich badań była pamięć wzrokowa. Autorzy ci chcieli
Dueck A. (1975). Comprehen- sprawdzić, czy łatwiej jest zapamiętywać takie rysunki, które mają sens, czy
sion and memory for pictures.
Memory and Cognition, 3, 216- rysunki bezsensowne. W eksperymencie wzięło udział 18 osób badanych.
220. Każda z nich oglądała 28 obrazków narysowanych na kartkach o wymiarach
7 x 12 cm. Rysunki prezentowano osobom badanym pojedynczo, każdy
przez 10 sekund. Dwa z nich przedstawione są na rysunku 2.1.
Rysunek 2.1. Obrazki wyko- A B
rzystane w eksperymencie
Bowera, Karlina i Duecka
(1975). Rysunek A: mikrus
grający na puzonie w budce
telefonicznej; B: mały ptak
złapał silnego robaka

Poziomem zmiennej niezależnej głównej była obecność (lub brak) informa-


cji na temat tego, co przedstawiają rysunki. Wszystkich badanych podzielo-
no losowo na dwie grupy. Pierwszą z nich nazwano „etykieta” – ponieważ
oprócz obrazka badani otrzymali informację, co się na nim znajduje (np. ob-
razkom przedstawionym na rysunku 2.1 towarzyszyła informacja: „mikrus
grający na puzonie w budce telefonicznej” i „pisklę, które złapało bardzo
silnego robaka”). Osobom z drugiej grupy, nazwanej „bez etykiety”, nie
podano żadnych dodatkowych informacji na temat oglądanych rysunków. Po
obejrzeniu wszystkich obrazków każdy z uczestników miał 10 minut na na-
PROJEKTOWANIE EKSPERYMENTÓW 61

rysowanie tego wszystkiego, co z nich zapamiętał, w dowolnej kolejności.


W psychologii pamięci taką czynność nazywa się „swobodnym odtwarza-
niem”. Uczestnicy eksperymentu zasadniczo nie mieli problemów z rysowa-
niem tego, co zapamiętali. Jeżeli pamiętali jakiś obrazek, to rysowali go do-
syć dokładnie. Osoby z grupy „etykieta” średnio zapamiętały 70% rysun-
ków, a osoby z grupy „bez etykiety” – 51%.

WARUNKI POPRAWNOŚCI UKŁADU Z DWOMA GRUPAMI BADAWCZYMI

W eksperymencie Bowera i współpracowników oraz w każdym innym eks-


perymencie skonstruowanym na podobnym układzie badawczym muszą być
spełnione pewne warunki.
• Po pierwsze, osoby badane muszą być losowo przydzielone do obu grup
badawczych. Zabieg ten nazywa się randomizacją (od angielskiego
przymiotnika random, znaczącego: „przypadkowy”, „losowy”). Losowy
podział osób badanych na grupy ma eliminować jakikolwiek związek
pomiędzy indywidualnymi cechami osób badanych lub sytuacji ekspe-
rymentalnej (czyli zmiennymi ubocznymi) a specyfiką grupy, w której
dana osoba się znajdzie. Specyfika grupy jest – jak pamiętasz – wyzna-
czona wartością zmiennej niezależnej głównej. Oznacza to, że nie było-
by dobrze, gdyby np. w grupie „etykieta” znaleźli się analfabeci albo
obcokrajowcy nie znający języka, w którym podawano informację z na-
zwą rysunku. W tym eksperymencie bycie analfabetą jest taką cechą
osoby badanej, która pozostaje w ścisłym związku ze stymulującą funk-
cją dodatkowej informacji, traktowanej tutaj jako zmienna niezależna
główna. Bower i jego współpracownicy nie napisali w swoim artykule,
w jaki sposób przeprowadzili randomizację osób badanych, ale możemy
chyba założyć, że ich „świadomość metodologiczna” była wystarczająco
wysoka, by zrobić to poprawnie. W praktyce najprostszą metodą przy-
padkowego podziału osób na dwie grupy jest rzucanie monetą; można
też wykorzystać tablice liczb losowych znajdujące się w większości
* Tablice liczb losowych oraz to, podręczników do statystyki*.
w jaki sposób z nich korzystać,
podaje w swoim podręczniku Je- • Drugim istotnym warunkiem poprawności układu międzygrupowego jest
rzy Brzeziński (2000. Badania
eksperymentalne w psychologii
to, by procedura eksperymentalna była identyczna dla wszystkich osób
i pedagogice. Warszawa: Wy- badanych, a jedynie poziom zmiennej niezależnej głównej był różny dla
dawnictwo Naukowe PWN). porównywanych grup. W eksperymencie z zapamiętywaniem rysunków
badacze dołożyli wiele starań, aby maksymalnie ujednolicić sytuację ba-
dawczą. Wszyscy badani oglądali te same rysunki i mieli na to dokładnie
tyle samo czasu. Najprawdopodobniej każdy z nich oglądał je w przy-
padkowej kolejności. Podczas prezentowania jednej osobie badanej serii
bodźców jest to najlepszy sposób na uniknięcie tzw. efektu pozycji – ry-
62 O METODACH BADAŃ PSYCHOLOGICZNYCH

sunki pokazywane na początku i na końcu z reguły pamiętane są lepiej


niż te, które pojawiają się w środku serii.
• Zgodnie z ostatnim warunkiem procedura pomiaru zmiennej zależnej
powinna być identyczna dla każdej osoby badanej, niezależnie od tego,
do której grupy należy. Krótko mówiąc, chodzi o porównywalność wy-
ników uzyskanych od osób badanych w obu grupach. Musimy mieć stu-
procentową pewność, że te wyniki zebraliśmy w taki sam sposób.
W eksperymencie Bowera i współpracowników wszystkie osoby badane
miały tyle samo czasu na przypomnienie sobie obrazków, a to, co sobie
przypomniały, musiały narysować na identycznych kartkach.

UKŁAD Z POWTARZANYMI POMIARAMI W JEDNEJ GRUPIE BADANEJ – O TYGRYSACH I KUGUARACH

Układ eksperymentu z dwoma losowo dobranymi grupami osób badanych


ma jeden słaby punkt. Otóż zawsze jesteśmy narażeni na tzw. błąd próbko-
wania, to znaczy nigdy nie możemy być pewni, czy rozkład cech osób ba-
danych przydzielonych do jednej grupy jest taki sam, jak rozkład cech osób
w drugiej grupie.
Chociaż, teoretycznie rzecz biorąc, niewielkie jest prawdopodobieństwo, że
za każdym razem wypadnie reszka, gdy jednocześnie podrzucimy kilka razy
pięć monet, to jednak taka sytuacja jest możliwa. Podobnie jest z losowym
doborem osób do grup. W zasadzie prawdopodobieństwo, że w wyniku lo-
sowania w jednej grupie znajdą się np. tylko osoby z wysokim ilorazem inte-
ligencji, a w drugiej z niskim, jest małe, ale może się tak zdarzyć. Tę właśnie
możliwość nazywa się błędem próbkowania.
Oczywiście dobór losowy obniża ryzyko wpływu niekontrolowanych
zmiennych ubocznych związanych z osobami badanymi, ale nie redukuje go
całkowicie. Wydaje się więc, że najlepszym sposobem na to, aby osoby ba-
dane w obu grupach były takie same, jest po prostu... dobranie tych samych
osób do obu grup. W praktyce oznacza to, że bada się jedną grupę ludzi, ale
w dwóch sytuacjach, na początku i po zakończeniu jakiegoś procesu, np. te-
rapii czy szkolenia. O takim planie eksperymentalnym mówi się, że jest to
układ z powtarzanym lub powtarzanymi pomiarami zmiennej zależnej. Zbie-
rane w ten sposób dane określa się jako dane zależne. Eksperymenty z po-
wtarzanymi pomiarami są dość często wykorzystywane w psychologii.
* Smith, E. E., Shafir, E., Edward Smith, Eldair Shafir i Daniel Osherson* przeprowadzili ekspery-
Osherson, D. N. (1993). Similar- ment, w którym wzięło udział 40 studentów uniwersytetu w Michigan. Ich
ity, plausibility, and judgments
of probability. Cognition, 49, zadaniem była ocena prawdopodobieństwa (na skali od 0 do 1) prawdziwo-
67-96. ści wniosków przy założeniu, że przesłanki są prawdziwe. Na przykład ba-
dani oceniali poprawność następujących wnioskowań:
PROJEKTOWANIE EKSPERYMENTÓW 63

Przesłanka 1: Serotonina jest neurotransmiterem u tygrysów.


Przesłanka 2: Serotonina jest neurotransmiterem u kuguarów.
Wniosek 1: Serotonina jest neurotransmiterem u rysiów.
a później:
Przesłanka 1: Serotonina jest neurotransmiterem u tygrysów.
Przesłanka 2: Serotonina jest neurotransmiterem u kuguarów.
Wniosek 2: Serotonina jest neurotransmiterem u żyraf.
Zauważ, że obie sytuacje różni tylko sformułowanie wniosku. W pierwszym
mowa jest o zwierzęciu, które jest podobne do opisanych w przesłankach;
w drugiej – podobieństwo jest znacznie mniejsze. Stopień podobieństwa
zwierząt wymienionych w przesłankach i we wniosku jest zatem w tym ba-
daniu zmienną niezależną główną. Analiza zebranych danych ujawniła, że
osoby badane średnio szacowały prawdopodobieństwo pierwszego wniosku
na 0,86, a drugiego – na 0,39.
Okazało się więc, że wyciągnięcie wniosku jest łatwiejsze wtedy, gdy in-
formacje w przesłankach są bardziej podobne do wniosku (tygrysy i kuguary
do rysiów), niż wtedy, gdy podobieństwo między przesłankami a wnioskiem
jest mniejsze (tygrys, kuguary i żyrafy). Zastosowanie układu z powtarza-
nymi pomiarami pozwala więc stwierdzić, że te same osoby w pewnych sy-
tuacjach radzą sobie bardzo dobrze, a w innych gorzej. Poprawność wnio-
skowania zależy od treści zadania, a nie od różnic indywidualnych osób bio-
rących udział w eksperymencie.

JAKIE ZALETY MA UKŁAD Z POWTARZANYMI POMIARAMI?

W eksperymencie dotyczącym wnioskowania na temat serotoniny jako neu-


rotransmitera u zwierząt zastosowanie układu z powtarzanymi pomiarami
wydaje się całkiem uzasadnione.
• Po pierwsze, intuicyjnie wydaje się, że wymowa takiego eksperymentu
jest mocniejsza niż eksperymentu z różnymi grupami badanymi. Za po-
mocą manipulacji eksperymentalnej udaje się pokazać, że te same osoby
badane w różnych sytuacjach dają różne odpowiedzi. W każdym ekspe-
rymencie wyniki osób badanych różnią się między sobą i oprócz wpły-
wu zmiennej niezależnej na zachowanie się badanych „obiektów”
wpływa także wiele innych czynników, które określiliśmy wcześniej ja-
ko zmienne uboczne i zakłócające. Część tych czynników wiąże się
z osobami badanymi biorącymi udział w eksperymencie. Przeprowadze-
nie pomiaru zmiennej zależnej dwukrotnie w tej samej grupie powoduje,
że przynajmniej wpływ tej grupy czynników jest istotnie zredukowany.
64 O METODACH BADAŃ PSYCHOLOGICZNYCH

W końcu inteligencja, motywacja, nastrój i wiele innych cech, mogących


mieć wpływ na wyniki, mniej się różnią u jednej osoby w dwóch (nawet
bardzo różnych) sytuacjach niż u dwóch różnych osób. Poprzez przed-
stawienie dwóch różnych zadań tym samym osobom w dużym stopniu
redukujemy zmienność w obu grupach badanych, w końcu tłem dla każ-
dego badanego jest on sam.
• Po drugie, układ z powtarzanymi pomiarami pozwala na zmniejszenie
liczby osób badanych przy zachowaniu tej samej liczby pomiarów. Jeże-
li w grupie jest np. 40 osób i każda z nich ocenia prawdopodobieństwo
prawdziwości dwóch wniosków wynikających z tych samych przesła-
nek, to do analizy można wykorzystać 80 pomiarów (40 odnosi się do
pierwszego wniosku i 40 do drugiego). Jeżeli natomiast tę samą 40-
osobową grupę podzielimy losowo na dwie 20-osobowe, to powinniśmy
przyjąć, że jedna grupa ocenia prawdziwość wniosku pierwszego (20
pomiarów), a druga – drugiego (20 pomiarów). Przy tej samej liczbie
przebadanych osób o połowę zmniejszyła się liczba danych do analizy.
• Trzeci argument na rzecz stosowania porównań zachowań tych samych
osób badanych w różnych sytuacjach odnosi się do szerszego zagadnie-
nia, jakim jest związek między wizją eksperymentu badacza a tym,
w jaki sposób eksperyment rozumieją osoby badane. Zwraca na to uwa-
* Gigerenzer, G. (1996). On nar- gę m.in. Gerd Gigerenzer* z Instytutu Maxa Plancka. Artykuł Gigeren-
row norms and vague heuristics: zera, do którego się odnosimy, powstał w wyniku sporu między nim
A rebuttal to Kahneman and
Tversky (1996). Psychological a Danielem Kahnemanem i Amosem Tverskym o to, czy można za po-
Review, 103, 592-596. mocą eksperymentów psychologicznych pokazać, że człowiek jest nie-
** Przy okazji warto przypo- racjonalny. Kahneman i Tversky** w licznych publikacjach opisali wie-
mnieć, że Daniel Kahneman do- le sytuacji, w których „zwykli” ludzie zachowują się niezgodnie np.
stał za swą pracę Nagrodę Nobla
z ekonomii w roku 2002. Amos z zasadami rachunku prawdopodobieństwa.
Tversky zmarł w roku 1996.
Podczas konferencji prasowej Jednym z częściej popełnianych przez ludzi błędów, odkrytych przez Kah-
zorganizowanej po ogłoszeniu nemana i Tversky’ego, jest „błąd zakotwiczenia”. Polega on na dostosowy-
wiadomości o przyznaniu mu
nagrody Nobla Kahneman po-
waniu oszacowania do wartości najbardziej typowej lub najbardziej rzucają-
wiedział: „Jestem pewien, że cej się w oczy. Najczęściej cytowany eksperyment dotyczy oszacowania
gdyby żył Amos Tversky, na wyniku następującego mnożenia: 8 × 7 × 6 × 5 × 4 × 3 × 2 × 1. Jeżeli chcesz,
pewno dostalibyśmy tę nagrodę
razem”. Kahneman jest jedynym możesz spróbować sam ocenić, jaki jest wynik – podajemy go w przypisie.
psychologiem, który do tej pory W oryginalnym eksperymencie Kahneman i Tversky (1974) przedstawili to
otrzymał nagrodę Nobla, choć
bliskie związki z psychologią
zadanie dwóm grupom osób badanych. Pierwsza grupa miała szybko i bez
miało także kilkunastu innych dokładnych obliczeń oszacować wynik mnożenia przedstawionego w takiej
badaczy (m.in. Herbert Simon formie, jak ta wydrukowana powyżej. Druga grupa miało to samo zadanie,
czy Iwan Pawłow). Pełną listę
noblistów związanych z psycho- ale liczby w zadaniu przedstawione były w innej kolejności – od 1 do 8.
logią można znaleźć w 58. nu- Oczywiście nie da się w ciągu kilku sekund przemnożyć ośmiu liczb w pa-
merze czasopisma American mięci, więc osoby badane musiały jakoś oszacować wynik. Ci, którym
Psychologist z roku 2003.
przedstawiono mnożenie rozpoczynające się od ósemki, oceniały wynik
PROJEKTOWANIE EKSPERYMENTÓW 65

średnio na 2250, a ci, którzy dostawali zadanie rozpoczynające się od 1,


oceniali wynik na 512. A tak naprawdę było 40 320.
Zarzut Gigerenzera wobec eksperymentów przeprowadzanych w dwóch
grupach badanych jest bardzo prosty – zastosowanie takiego planu może
wymuszać różne odpowiedzi w różnych sytuacjach. Przecież gdyby obie
wersje mnożenia z eksperymentu Kahnemana i Tversky’ego przedstawiono
tej samej grupie osób, wtedy wszyscy wiedzieliby, że wynik jest taki sam.
Zastosowanie układu z dwoma grupami badanymi sprawia, że uczestnicy
badania rozwiązują zupełnie inne zadania. Osoby, które mają podać wynik
mnożenia rozpoczynającego się od ósemki, najprawdopodobniej mnożą
dwie, trzy pierwsze liczby (np. 8 × 7 × 6 = 336), zatrzymują się w tym miej-
scu, a potem nieco zwiększają wynik, sądząc, że dalej to już tylko mnożenie
przez małe liczby. Osoby zaczynające obliczenia od 1 postępują zapewne
podobnie. Zaczynają od przemnożenia kilku pierwszych liczb (np. 1 × 2 × 3
× 4 = = 24) i wynik tego początkowego mnożenia, który jest małą liczbą,
powiększają nawet kilkakrotnie, ale i tak w sumie jest on niewielki (np. jeże-
li pomnożymy 24 przez 20, to i tak jest w sumie tylko 480). Zarówno w jed-
nej, jak i w drugiej grupie ludzie zachowują się więc tak samo – różnica w
odpowiedziach jest do pewnego stopnia wymuszona przez procedurę ba-
dawczą. Zupełnie inne informacje o zachowaniu się ludzi otrzymujemy wte-
dy, gdy stosujemy układ z powtarzanymi pomiarami w tej samej grupie osób
badanych. Jeżeli ci sami uczestnicy eksperymentu różnie reagują w różnych
sytuacjach, to mamy „czysty” dowód na to, że zmienna niezależna rzeczywi-
ście wpływa na zmienną zależną.

JAKIE SĄ WADY UKŁADU Z POWTARZANYMI POMIARAMI?

Czy w związku z tym, co napisaliśmy, należy porzucić stosowanie ekspery-


mentów z różnymi grupami badanymi? Oczywiście, że nie. Wynik opisane-
go eksperymentu Kahnemana i Tversky’ego, pokazującego istnienie błędu
zakotwiczenia, nie byłby możliwy do uzyskania w jednej grupie badanej.
Uczestnicy łatwo by się zorientowali, że jest to to samo działanie, i podawa-
liby taki sam wynik. Niemniej jednak stwierdzenie faktu, że wyniki są inne
w różnych grupach, samo w sobie jest dostatecznie ciekawe. Choć zgodnie
* Kahneman, D., Tversky, A. z określeniem Kahnemana i Tversky’ego* układ z różnymi grupami bada-
(1996). On the reality of cogni- nymi pozwala jedynie na pośredni test wpływu zmiennej niezależnej na
tive illusions. Psychological Re-
view, 103, 582-591. zmienną zależną, to jednak często lepiej jest wykonać taki test niż żaden.
• Zastosowanie układu z powtarzanymi pomiarami w tej samej grupie
znacznie zwiększa możliwość odkrycia prawdziwej intencji ekspery-
mentatora przez osoby badane. Gdybyś np. uczestniczył w eksperymen-
cie, w którym proszono by Cię o ocenę wiarygodności polityka ubrane-
go w dwie różne koszule (takie eksperymenty przeprowadził m.in. Woj-
66 O METODACH BADAŃ PSYCHOLOGICZNYCH

ciech Cwalina – jeżeli chcesz być politykiem, unikaj koszul oliwko-


wych), wówczas pewnie nie miałbyś większego problemu z odkryciem,
że celem badania jest stwierdzenie, jaki jest wpływ koloru koszuli na
wiarygodność polityka. Gdybyś jednak oceniał tylko jedno zdjęcie, wte-
dy najprawdopodobniej napisałbyś to, co myślisz, nie zastanawiając się
nad tym, czy polityk w ogóle mógłby wystąpić w innym ubraniu.
• Drugą wadą układu z powtarzanymi pomiarami w tej samej grupie jest
możliwość korygowania swoich reakcji i świadomego modyfikowania
zachowania przez osoby badane. Gdyby eksperymentator poprosił Cię
najpierw o podanie wyniku mnożenia 8 × 7 × 6 × 5 × 4 × 3 × 2 × 1, a po-
tem o podanie wyniku tego samego mnożenia, ale w odwróconej kolej-
ności, wtedy na pewno Twoja druga odpowiedź byłaby dokładnie taka
sama, jak pierwsza. Pewnie zresztą byłaby stosunkowo wysoka. Gdybyś
natomiast zaczął od mnożenia w wersji rosnącej (czyli od 1), wtedy
przypuszczalnie dostosowałbyś do swojej odpowiedzi następne oszaco-
wanie mnożenia w wersji malejącej. Układ z powtarzanymi pomiarami
może więc w istocie okazać się badaniem tego, jak osoby testowane
rozwiązują konflikt pomiędzy tendencją do reagowania pod wpływem
zmiennej niezależnej głównej a tendencją do tego, by wypaść w ekspe-
rymencie jako osoba spójna i racjonalna, czyli reagująca zawsze w ten
sam sposób w podobnych sytuacjach. Istnieje także niebezpieczeństwo
odwrotne. Osoby badane mogą chcieć się przypodobać eksperymentato-
rowi i celowo reagować w taki sposób, jak sądzą, że się od nich oczeku-
je. Mogą więc podawać różne wyniki w obu mnożeniach, spodziewając
się, że tego dotyczy przedstawiony im eksperyment.
Koniec końców dochodzimy do konkluzji typowej dla sytuacji spornych
w naukach społecznych – nie ma jednoznacznych odpowiedzi i nie ma roz-
wiązań lepszych i gorszych. Każdy typ eksperymentu pozwala znaleźć od-
powiedź na innego rodzaju pytania. Eksperymenty z powtarzanymi pomia-
rami są bezpośrednim testem tego, czy zmienna niezależna rzeczywiście
wpływa na zmienną zależną. Istnieje jednak pewne prawdopodobieństwo, że
uczestnicy tego typu eksperymentów domyślą się, o co chodzi badaczowi.
W takiej sytuacji albo będą starali się mu przypodobać i wtedy zarejestruje-
my zależność, która w rzeczywistości nie ma miejsca, albo też będą się sta-
rali wypaść jako osoby niepoddające się manipulacji i wtedy będą w iden-
tyczny sposób reagować na różne poziomy zmiennej niezależnej. Z kolei za-
stosowanie układu z dwoma różnymi grupami badanymi niejako osłabia siłę
przekonania badacza, że zmienna niezależna wpływa na zmienną zależną.
Wpływ ten bowiem może być wynikiem różnego zrozumienia zadania przez
uczestników z obu badanych grup, może też być rezultatem specyficznego
doboru osób do grup badanych. W konkretnej sytuacji nie pozostaje więc nic
innego, jak odwołanie się do doświadczenia i praktyki innych. Zanim zdecy-
PROJEKTOWANIE EKSPERYMENTÓW 67

dujesz, jaki układ wybrać, możesz zawsze poprosić inne osoby o krytyczną
ocenę Twojego projektu.

BADANIE EKSPERYMENTALNE I RÓŻNICOWE

W jednej sytuacji na pewno nie ma problemu z wyborem modelu ekspery-


mentalnego. Nie da się przeprowadzić eksperymentu z powtarzanymi pomia-
rami wtedy, gdy zmienna niezależna jest zmienną różnicującą grupy bada-
ne ze względu na jakąś stałą cechę badanych obiektów. W takiej sytuacji ba-
dacz nie tyle manipuluje zmienną niezależną, ile po prostu dobiera osoby
badane do grup zgodnie z pewnym kryterium.
Przykładem może być analiza wpływu miejsca zamieszkania (duże miasto,
średnie miasto, małe miasto, wieś) na dostęp do edukacji (np. mierzony licz-
bą studentów na stu mieszkańców). W tej sytuacji badacz może jedynie wy-
brać do analizy osoby z różnych miejscowości, ale nie może arbitralnie
przydzielać wartości zmiennej „miejsce zamieszkania” osobom badanym.
Co za tym idzie, nie można też zastosować układu z powtarzanymi pomia-
rami – a więc przypisywać kolejnych wartości zmiennej niezależnej tym sa-
mym osobom.

PRETEST I POSTTEST ZMIENNEJ ZALEŻNEJ

Szczególną wersją planu z powtarzanymi pomiarami jest taki eksperyment,


w którym dokonujemy pomiaru zmiennej zależnej bez żadnej dodatkowej
stymulacji i po stymulacji. Ten pierwszy pomiar określa się jako pretest,
a drugi jako posttest.
Z taką sytuacją mamy do czynienia np. w badaniach wpływu reklam na
* Cwalina, W. (2000). Telewi- preferencje konsumentów lub wyborców. Wojciech Cwalina* prosił osoby
zyjna reklama polityczna. Lu- badane o określenie swojego stosunku do kandydatów na prezydenta RP.
blin: Towarzystwo Naukowe
KUL. Każda osoba dwukrotnie udzielała odpowiedzi: na początku eksperymentu
(pretest) i po obejrzeniu reklamówki politycznej kandydata (posttest). Oka-
zało się zresztą, że niezbyt przekonani zwolennicy jednego z kandydatów po
obejrzeniu reklamówek wyborczych zmieniali swój stosunek zarówno do
swojego kandydata, jak i do jego konkurenta. Była to więc grupa wyborców,
których odpowiednie reklamy mogły przyciągnąć do obozu zwolenników
innego kandydata niż ten, którego popierali do tej pory. Zależność taka nie
miała miejsca u „twardych” zwolenników swojego kandydata. Osoby te nie
zmieniały stosunku (posttest) do kandydata obozu przeciwnego.
Zwróć uwagę na to, że pretest może być nie tylko pierwszą fazą układu
z powtarzanymi pomiarami, ale również można go zastosować w ekspery-
mencie z grupami niezależnymi. Pretest daje możliwość zorientowania się,
68 O METODACH BADAŃ PSYCHOLOGICZNYCH

jaki jest stan wyjściowy danej cechy (zmiennej zależnej) przed wprowadze-
niem właściwej stymulacji, której wpływ na reakcje osób badanych staramy
* Brzeziński, J. (1996). Metodo- się ustalić. Jerzy Brzeziński* uważa, że pomijanie fazy pretestu zmiennej za-
logia badań psychologicznych. leżnej, zwłaszcza w porównaniach międzygrupowych, jest poważnym zanie-
Warszawa: PWN.
dbaniem ze strony eksperymentatora. Stwierdzenie na początku eksperymen-
tu, że nie ma różnic w miarach zmiennej zależnej pomiędzy porównywany-
mi grupami, działa tylko na korzyść tezy, iż różnice w reakcjach osób bada-
nych podczas właściwego eksperymentu są wynikiem działania jednego
z poziomów zmiennej niezależnej głównej, a nie np. tendencyjnego doboru
badanych do obu grup.

PLAN CZTEROGRUPOWY SOLOMONA

Pretest pozwala na precyzyjną ocenę wielkości zmiany wartości zmiennej


zależnej pod wpływem zmiennej niezależnej. Ma jednak także pewną wadę.
Niewłaściwie zaprojektowany, może nadmiernie uwrażliwić osoby badane
na obecność zmiennej niezależnej we właściwym eksperymencie. Może
również spowodować transfer, czyli przeniesienie sposobu reagowania z fa-
zy wcześniejszej (pretest) na późniejszą (posttest). Z taką sytuacją możemy
mieć do czynienia np. w badaniach nad zmianą postaw. Jeżeli w początko-
wej fazie eksperymentu ktoś zdecydowanie określi się jako konsument wy-
łącznie polskich produktów (jest to tzw. etnocentryzm konsumencki), to na-
wet po wysunięciu bardzo silnych argumentów przeciwko temu stanowisku
(manipulacja eksperymentalna) i tak może go nie zmienić. Nie chodzi jednak
o to, że nie przekonały go argumenty, ale o to, że pamięta, w jaki sposób
wcześniej określił swoją postawę, i chcąc utrzymać dobre zdanie na swój
temat, uważa, że powinien być konsekwentny.
Można jednak przeprowadzić ten eksperyment bez rezygnowania z fazy pre-
testu. Należy tylko podzielić osoby badane nie na dwie, ale na cztery grupy.
W dwóch z nich badani zostaną poddani pretestowi oraz manipulacji zmien-
ną niezależną główną, a w dwóch – tylko zmienną niezależną główną. Przy-
puśćmy, że chcesz się dowiedzieć, jaki jest wpływ dwóch typów argumen-
tów na postawę etnocentryzmu konsumenckiego. Pierwszy rodzaj argumen-
tacji bezpośrednio odwołuje się do sytuacji osoby badanej (np. „kupowanie
produktów żywnościowych pochodzących z różnych krajów poszerzy twoją
wiedzę na temat kuchni tych krajów”), a drugi jest bardziej teoretyczny (np.
„kupowanie produktów z różnych krajów wpływa na zwiększenie asorty-
mentu produktów na rynku”). Dwom grupom badanym przedstawisz listę
argumentów „osobistych”, z tym że tylko w jednej z nich przeprowadzisz
pretest, czyli poprosisz uczestników o wypełnienie kwestionariusza etnocen-
tryzmu konsumenckiego. Z kolei dwóm następnym grupom przekażesz listę
argumentów „teoretycznych” – i znowu tylko w jednej z tych grup przepro-
PROJEKTOWANIE EKSPERYMENTÓW 69

wadzisz wstępne badanie etnocentryzmu. Oczywiście po przedstawieniu ar-


gumentów wszyscy badani raz jeszcze odpowiadają na pytania skali etno-
centryzmu, przy czym dla połowy z nich będzie to drugi raz. Układ tego
eksperymentu można przedstawić następująco (zob. tab. 2.1):

Tabela 2.1. Plan czterogru- Argumenty


powy Solomona
„osobiste” „teoretyczne”

Pretest i posttest Grupa 1 Grupa 2


Pomiar etnocentryzmu
Tylko posttest Grupa 3 Grupa 4

Taki plan eksperymentalny jako pierwszy zaproponował Richard L. Solo-


* Solomon, R. L. (1949). An mon* i jest on uważany za najlepszą procedurę eksperymentalną w sytuacji,
extension of control group gdy zmienna niezależna główna przyjmuje dwa poziomy.
design. Psychological Bulletin,
46, 137-150.
• Jego największą zaletą jest to, że pozwala na kontrolowanie wpływu za-
równo pretestu, jak i zmiennej niezależnej na zmienną zależną bez ko-
nieczności zrezygnowania z jakże ważnego pomiaru wstępnego. Jest
jednak stosowany rzadziej od prostego układu z dwoma grupami bez
pretestu, głównie z tego powodu, że wymaga czterech, a nie dwóch grup
osób badanych, czyli dwukrotnie więcej.
• Po drugie, interpretacja wyników takich eksperymentów jest nieco bar-
dziej skomplikowana. Można się wprawdzie ograniczyć do prostych po-
równań, np. wyników średnich w grupach 1 i 2 oraz 3 i 4, ale kompletna
interpretacja wszystkich efektów eksperymentalnych wymaga zastoso-
wania bardziej zaawansowanej metody analizy.

UKŁAD SOLOMONA JAKO PRZYKŁAD EKSPERYMENTU CZYNNIKOWEGO

Eksperymenty w układzie planu Solomona można potraktować jako bada-


nie, w którym mamy do czynienia nie z jedną zmienną niezależną główną,
ale z dwiema: właściwą (czyli np. typem argumentacji) oraz dodaną, która
przyjmuje dwa poziomy: z pretestem lub bez pretestu. Zauważ, że plan czte-
rogrupowy jest kombinacją układu międzygrupowego (dwie niezależne gru-
py osób badanych otrzymują dwa różne typy argumentacji) oraz układu
z powtarzanymi pomiarami (reakcje tych samych osób badanych są dwu-
krotnie rejestrowane za pomocą tego samego narzędzia w fazie pretestu
i posttestu). Osoby badane są więc przydzielane do grup na podstawie
dwóch różnych kryteriów: rodzaju argumentów, jakie zostaną im przedsta-
wione, i tego, czy będą wypełniać kwestionariusz etnocentryzmu przed za-
70 O METODACH BADAŃ PSYCHOLOGICZNYCH

poznaniem się z argumentami, czy też nie. Z formalnego punktu widzenia


nie ma różnic pomiędzy tymi kryteriami.
Układy eksperymentalne, w których osoby badane są przydzielane do grup
ze względu na więcej niż jedno kryterium, nazywa się eksperymentami
czynnikowymi. W tym wypadku słowo „czynnik” i wyrażenie „zmienna
niezależna główna” traktuje się zamiennie. Zastosowanie układów czynni-
kowych pozwala nie tylko na wzięcie pod uwagę większej liczby zmiennych
niezależnych w eksperymencie, lecz także na analizowanie wspólnego
wpływu tych zmiennych na zmienną zależną.

EKSPERYMENT CZYNNIKOWY Z CZTEREMA GRUPAMI BADANYCH – O FAŁSZYWYCH ZEZNANIACH

Eksperyment dwuczynnikowy, w którym każda ze zmiennych niezależnych


przyjmuje po dwie wartości, to chyba najczęściej stosowany model badaw-
czy w psychologii.
* Kassin, S., Kiechel, K. (1996). Saul Kassin i Katherine Kiechel* badali zachowania osób w sztucznej sytu-
The social psychology of false acji, choć przeprowadzony przez nich eksperyment dotyczył ważnej spo-
confessions: Compliance, inter-
nalization, and confabulation. łecznie kwestii składania fałszywych zeznań. Osoby badane zostały poin-
Psychological Science, 7, formowane, że biorą udział w eksperymencie, którego celem jest pomiar
125-128.
czasu wpisywania do komputera różnych liter czytanych w różnym tempie
(wolno lub szybko) przez drugą osobę (współpracownika eksperymentatora).
W rzeczywistości jednak badanie dotyczyło czegoś zupełnie innego. (Na-
wiasem mówiąc, nieraz zastanawiamy się nad tym, gdzie są granice uczci-
wości wobec osób biorących udział w naszych eksperymentach). Każda
osoba badana została poproszona o to, żeby jak najszybciej naciskała kla-
wisz z literą, która została wymieniona przez pomocnika eksperymentatora.
Poinformowano ją również, że pod żadnym pozorem nie wolno jej nacisnąć
klawisza „Alt”, ponieważ spowoduje to utratę wszystkich danych. Jak się ła-
two domyślić, w pewnym momencie komputer się wyłączał, a do pokoju,
gdzie przeprowadzano badanie, wchodził eksperymentator z pytaniem: „Czy
nie nacisnąłeś klawisza Alt?”. Oczywiście niemal wszyscy badani zaprze-
czali. Badacz zwracał się więc do osoby, która dyktowała, z pytaniem, czy
zauważyła, żeby badany nacisnął klawisz „Alt”. Jak wiemy, lektorka była
podstawiona i w połowie przypadków zeznawała, „że faktycznie widziała,
jak badany naciskał klawisz Alt” (czyli fałszywe zeznawała), a w połowie
twierdziła, że nie patrzyła na klawiaturę (co w gruncie rzeczy też było nie-
prawdą, ale w tym wypadku nie miało większego znaczenia).
W tym momencie kończyła się pierwsza część eksperymentu i osoba oskar-
żona o nieuwagę i zepsucie całego badania wychodziła z eksperymentatorem
do poczekalni, gdzie czekał następny badany. Nieco „skołowana”, nie wie-
działa jednak, że w poczekalni czeka na nią kolejny współpracownik bada-
PROJEKTOWANIE EKSPERYMENTÓW 71

cza. Scenariusz eksperymentu przewidywał teraz następującą scenę: Pod po-


zorem poszukania kalendarza, by wyznaczyć osobie badanej następne spo-
tkanie, eksperymentator na chwilę opuszczał poczekalnię, a w tym czasie
pomocnik badacza nawiązywał rozmowę z osobą, która właśnie opuściła la-
boratorium, rozpoczynając od pytania: „Co się stało?”.
Wszystkie odpowiedzi osób badanych były nagrywane. Później inna grupa
osób, nie mających pojęcia, o co chodziło w eksperymencie, słuchała tych
nagrań i kwalifikowała wypowiedzi osób badanych jako przyznających się
i nieprzyznających do wciśnięcia niewłaściwego klawisza. Zastosowano su-
rowe kryterium przyznawania się do winy i np. odpowiedź: „Być może, na-
cisnąłem niewłaściwy klawisz”, nie była uznawana za przyznanie się do wi-
ny. Zmienną zależną w tym badaniu było więc wewnętrzne przekonanie
osoby wpisującej litery co do tego, czy rzeczywiście nacisnęła zakazany
klawisz.
Badanie Kassina i Kiechel opisaliśmy jako przykład eksperymentu dwu-
czynnikowego, co znaczy, że manipulowano w nim dwiema zmiennymi nie-
zależnymi. Pierwszą było „tempo czytania liter” (wolne lub szybkie), a dru-
gą – „zeznanie osoby dyktującej litery” (fałszywe lub neutralne). Wszystkie
osoby badane zostały losowo przydzielone do czterech grup.

Tabela 2.2. Procent osób, któ-


re przyznały się do naciśnię- Fałszywe zeznanie świadka
cia niewłaściwego klawisza w
eksperymencie Kassina i Kie- NIE TAK
chel (1996)
Wolne 0% 12%
Tempo dyktowania
Szybkie 44% 65%

W tabeli 2.2 zestawiliśmy procent osób, które przyznały się do naciśnięcia


niewłaściwego klawisza. Jak widzisz, obie zmienne niezależne miały wpływ
na wartości zmiennej zależnej. Osoby zmuszone do szybkiego pisania zde-
cydowanie częściej przyznawały się do winy niż osoby mające większe pod-
stawy, by sądzić, że nie popełniły błędu, czyli te, które pisały wolniej. Rów-
nież w sytuacji fałszywego oskarżenia badani byli częściej skłonni do przy-
znawania się do winy niż w sytuacji, gdy tego oskarżenia nie było.
Dla porządku dodajmy, że żadna z osób badanych na nacisnęła klawisza
„Alt” oraz że po zakończeniu całego eksperymentu wyjaśniono sytuację ba-
danym i przeproszono za manipulowanie ich zachowaniem bez ich wiedzy.
Na tę informację – jak zaobserwowali autorzy eksperymentu – badani re-
agowali „z mieszaniną poczucia ulgi” (że jednak nie popsuli eksperymentu)
i zdumienia (że badaczom udało się „wyprowadzić ich w pole”) lub z poczu-
ciem satysfakcji (że wzięli udział w ważnym badaniu).
72 O METODACH BADAŃ PSYCHOLOGICZNYCH

PLANY EKSPERYMENTALNE – UOGÓLNIENIE NA WIELE ZMIENNYCH

Eksperyment dwuczynnikowy z czterema grupami badanych jest układem,


który dość łatwo daje się rozwijać do bardziej skomplikowanych sytuacji.
W zależności od potrzeby i zgodnie ze zdrowym rozsądkiem można zwięk-
szać zarówno liczbę branych pod uwagę zmiennych niezależnych głównych,
jak i ich poziomów. Możesz więc zaplanować eksperyment, w którym weź-
miesz pod uwagę trzy lub cztery zmienne niezależne główne. Jeżeli każda
przyjmie po dwie wartości, to przy trzech czynnikach potrzeba ośmiu grup
badanych, przy czterech szesnaście itd. Dołożenie każdej nowej dwuwarto-
ściowej zmiennej powoduje konieczność podwojenia liczby grup.
Możesz także zaprojektować eksperyment, biorąc pod uwagę tylko jedną
zmienną niezależną, która przyjmuje – powiedzmy – siedem wartości. Taką
nominalną zmienną niezależną mogą być np. dni tygodnia, a zmienną zależ-
ną – liczba otwieranych stron w Internecie. W wyniku realizacji takiego
planu eksperymentalnego możesz stwierdzić np., czy liczba odwiedzanych
* Zob. http://www.aarp.org/ witryn w jakimś dniu tygodnia jest istotnie większa od liczby witryn odwie-
comuters-news/Articles/a2002-
08-13-computers- dzanych w inne dni. Nawiasem mówiąc, czy wiesz, że strony internetowe
news_Monday. html najczęściej są odwiedzane w poniedziałek?*

PLANY Z POWTARZANYMI POMIARAMI – WIELE GRUP BADANYCH

Zwiększanie liczby zmiennych niezależnych testowanych w jednym ekspe-


rymencie nie musi jednak oznaczać konieczności przebadania większej licz-
by osób. Jednym ze sposobów uniknięcia poszukiwań nowych osób bada-
nych jest zastosowanie eksperymentu z powtarzanymi pomiarami. Na przy-
kład dla zmiennej niezależnej przyjmującej trzy wartości można albo zbadać
trzy grupy osób, albo zbadać jedną grupę w trzech sytuacjach. Wybierając
odpowiednią procedurę, należy uwzględnić oczywiście wszystkie zastrzeże-
nia w stosunku do obu typów eksperymentów, jakie przedstawiliśmy powy-
żej. Często się zdarza, że eksperyment jest kombinacją dwóch lub więcej
czynników. Część z nich to czynniki różnicujące grupy osób badanych,
a część – powtarzane wewnątrz grup.

BADANIA BEZ MANIPULACJI EKSPERYMENTALNEJ

Opisane plany eksperymentalne różnią się od siebie pod wieloma względa-


mi, ale u podłoża każdego z nich leży hipoteza badawcza, która ustala zwią-
zek między zmienną lub zmiennymi niezależnymi głównymi a zmienną lub
zmiennymi zależnymi. Chodzi o to, że każdy z tych planów jest nieco inną
propozycją uzyskania odpowiedzi na pytania badawcze dotyczące np. różnic
w zachowaniu, wyglądzie lub w postawach ludzi. Bez względu na to, który
z wymienionych układów eksperymentalnych wykorzysta badacz, zawsze
PROJEKTOWANIE EKSPERYMENTÓW 73

musi on najpierw postawić hipotezę dotyczącą związków pomiędzy zmienną


niezależną a zmienną zależną.
W najprostszym przypadku, gdy zmienna niezależna jest dwuwartościową
zmienną nominalną, a zmienna zależna zmienną liczbową, postępowanie ba-
dawcze sprowadza się do sprawdzenia, czy wyniki zmiennej zależnej w sy-
tuacji, gdy obecna jest jedna wartość zmiennej niezależnej, różnią się od
wyników zmiennej zależnej, gdy obecna jest druga wartość zmiennej nieza-
leżnej. Taki sposób postępowania to nie jedyny typ analizowania danych,
z jakim możemy spotkać się w psychologii. Trudno sklasyfikować wszystkie
możliwe sytuacje badawcze. Na potrzeby naszego przewodnika chcemy wy-
różnić jeszcze jedna z nich, czyli tzw. badanie korelacyjne.

BADANIE KORELACYJNE

W typowym eksperymencie badacz manipuluje zmienną niezależną i spraw-


dza, jaki jest wpływ tej manipulacji na reakcje osób badanych, czyli zmienne
zależne. Może jednak być też tak, że eksperymentator nie jest zainteresowa-
ny odpowiedzią na pytanie: „Czy jedna zmienna wpływa na drugą?”, ale
chciałby wiedzieć, w jaki sposób dwie zmienne są ze sobą powiązane.
* Buss, D. M. (2001). Psycholo- Na przykład David Buss*, przedstawiciel tzw. psychologii ewolucjonistycz-
gia ewolucyjna. Jak wytłuma- nej, opisuje badanie, w którym sprawdzano, jaki jest związek między szyb-
czyć społeczne zachowania
człowieka? Gdańsk: GWP. kością chodzenia a pozycją społeczną. W tym celu można by przeprowadzić
typowy eksperyment, zakładając np., że pozycja społeczna jest zmienną nie-
zależną, a szybkość chodzenia zmienną zależną. Należałoby wówczas, we-
dług jakichś kryteriów, wyodrębnić dwie grupy osób: o wysokiej i o niskiej
pozycji społecznej (zmienna niezależna nominalna przyjmuje dwie wartości)
oraz porównać średnią szybkość chodzenia w obu tych grupach. Można jed-
nak postąpić inaczej. Można dla każdej osoby badanej zestawić parę dwóch
liczb odpowiadających pomiarom dwóch zmiennych: pozycji społecznej
i szybkości chodzenia, oraz przedstawić wyniki tych wszystkich osób na
wykresie (zob. rys. 2.2).

Rysunek 2.2. Korelacja mię-


1,70
dzy pozycją społeczną a tym,
jak szybko chodzą kobiety
i mężczyźni 1,60

1,50

1,40

1,30 10 11 12 13 14 15 16 17 18 19 20 21 22
74 O METODACH BADAŃ PSYCHOLOGICZNYCH

Na rysunku 2.2 zaznaczone są punkty odpowiadające poszczególnym oso-


bom badanym. Zmienną na osi poziomej jest szybkość chodzenia, a na osi
pionowej pozycja społeczna. Jak widać, relacja między obydwiema zmien-
nymi nie jest przypadkowa. Rozkład punktów na wykresie wskazuje na pe-
wien trend, ale tylko w grupie mężczyzn – im szybciej mężczyzna chodzi,
tym wyższa jest jego pozycja społeczna. Nie ma natomiast żadnego związku
pomiędzy szybkością chodzenia a pozycją społeczną kobiet (tak przynaj-
mniej wynika z badań cytowanych Bussa).
Na podstawie wykresu nie da się jednoznacznie stwierdzić, czy szybkość
chodzenia mężczyzn wpływa na pozycję społeczną, czy też jest odwrotnie.
Rzeczywiście, nawet teoretycznie trudno ustalić właściwy kierunek wpływu.
Może być tak, że osoby, które mają wyższą pozycję społeczną, szybciej
chodzą, bo stopniowo przyzwyczajają się do coraz większego pośpiechu, ale
może być też odwrotnie: osoby, które szybko chodzą, mogą być osobami
dynamicznymi i przebojowymi i dzięki tym cechom zajmować wyższe po-
zycje w hierarchii społecznej. Możemy więc stwierdzić, że nie da się okre-
ślić, która ze zmiennych analizowanych przez Davida Bussa jest zmienną
niezależną, a która zmienną zależną. Z formalnego punktu widzenia obie
zmienne powinniśmy potraktować jako zmienne zależne – zarówno szyb-
kość chodzenia, jak i pozycja społeczna są cechami mierzonymi w grupie
osób badanych, a nie cechami, którymi manipuluje eksperymentator. Wiemy
jednak, że obie analizowane zmienne pozostają ze sobą w pewnym związku
– gdy rosną wartości jednej z nich, rosną też wartości drugiej. Takie postę-
powanie badawcze, w którym analizujemy wzajemny związek dwóch
zmiennych zależnych, nazywamy postępowaniem korelacyjnym.

KORELACJA WIELOKROTNA I ZWIĄZKI KRZYWOLINIOWE

Badania korelacyjne nie zawsze muszą się ograniczać do analizy współ-


zmienności tylko dwóch zmiennych zależnych. Biorąc pod uwagę np. trzy
zmienne, można sprawdzić, jaka jest siła związku pomiędzy parami tych
zmiennych lub też jaki jest związek między dwoma z nich, działającymi
równocześnie, a trzecią zmienną.
Ze słowem korelacja wiąże się założenie, że związek pomiędzy dwiema ce-
chami ma charakter liniowy, to znaczy można go przedstawić na wykresie
w postaci linii prostej. Czasami jednak związek pomiędzy zmiennymi jest
krzywoliniowy. Gdy odstępstwo od prostoliniowości jest znaczne, wów-
czas nie mówimy o korelacji. Pamiętasz prawo Yerkesa-Dodsona? Zgodnie
z nim poziom wykonania jakiegoś zadania wzrasta wraz ze wzrostem moty-
wacji, ale tylko do pewnego stopnia. Wzrost motywacji powyżej określone-
go poziomu „paraliżuje” i powoduje spadek poprawności wykonania tego
zadania. Zależność tę ilustruje rysunek 2.3. Zauważ, że zakładając prostoli-
PROJEKTOWANIE EKSPERYMENTÓW 75

niowy związek pomiędzy obydwiema zmiennymi (linia przerywana na wy-


kresie), stracilibyśmy możliwość uchwycenia jakiejkolwiek zależności po-
między motywacją a poziomem wykonania zadania.

Rysunek 2.3. Prawo Yerkesa-


Dodsona opisujące zależność
między motywacją a pozio-

Poziom wykonania zadania


mem wykonania zadania

Poziom motywacji
II.
PRAWDOPODOBIEŃSTWO
I ZMIENNA LOSOWA
PODSTAWOWE POJĘCIA
3. Z RACHUNKU PRAWDOPODOBIEŃSTWA

CO ZWYKLE ROZUMIEMY PRZEZ „PRAWDOPODOBIEŃSTWO”?

Rachunek prawdopodobieństwa jest częścią matematyki zajmującą się zja-


wiskami losowymi. Można określić (lub obliczyć) prawdopodobieństwo wy-
stąpienia jakiegoś losowego zjawiska, ale nie można pojawienia się takiego
zjawiska przewidzieć. Nie tylko matematycy i wróżki zajmują się tym, cze-
go nie da się przewidzieć. W zasadzie każdy z nas – zwykłych śmiertelni-
ków – bardzo często ma wrażenie, że świat wokół niego jest nieprzewidy-
walny. Nie możemy przewidzieć, jak duży będzie korek w centrum miasta,
w którym mieszkamy, wtedy, gdy bardzo będziemy się spieszyć; nie może-
my przewidzieć, która z kolejek w urzędzie szybciej będzie się posuwać; nie
możemy przewidzieć, czy tramwaj, na który czekamy, przyjedzie punktual-
nie; nie możemy przewidzieć, czy nasz nowy szef w pracy nas polubi, i nie
Amos Tversky możemy przewidzieć jeszcze wielu innych rzeczy.
(1937-1996)
Na co dzień jednak udaje się nam jakoś radzić sobie w tych wszystkich nie-
pewnych sytuacjach, ponieważ jesteśmy w stanie oszacować, jak dalece
pewne sytuacje są bardziej, a inne mniej prawdopodobne. Możemy np. poje-
chać objazdem, wiedząc, że bardzo prawdopodobne jest zakorkowanie cen-
trum miasta w piątkowe popołudnie. Możemy być wyjątkowo uprzejmi
w pierwszych dniach nowej pracy, wiedząc, że pracodawcy bardziej lubią
osoby miłe niż niemiłe. We wszystkich tych sytuacjach staramy się ocenić,
co jest bardziej, a co mniej prawdopodobne. Taką codzienną ocenę praw-
dopodobieństwa psychologowie określają jako prawdopodobieństwo su-
biektywne.
Oczywiście, prawdopodobieństwo subiektywne nie spełnia matematycznej
definicji prawdopodobieństwa. Nie oznacza to jednak, że nie można prowa-
dzić badań ujawniających, w jaki sposób zwykli ludzie radzą sobie w sytu-
Daniel Kahneman acjach niepewnych. Poniżej przedstawimy dwa przykłady tego typu badań.

EKSPERYMENTY GRUPY KAHNEMANA I TVERSKY’EGO

Zawsze, gdy się pisze o psychologicznych badaniach dotyczących rozumo-


wania w warunkach niepewności, należy się odwołać do wyników badań
grupy kierowanej przez Daniela Kahnemana i Amosa Tversky’ego. Wszyst-
ko w zasadzie rozpoczęło się od artykułu z 1974 r. opublikowanego przez
80 PRAWDOPODOBIEŃSTWO I ZMIENNA LOSOWA

* Tversky, A., Kahneman, D. nich w prestiżowym amerykańskim czasopiśmie Science*. Tekst ten był
(1974). Judgment under uncer- w ciągu następnych 5 lat cytowany 227 razy w 127 czasopismach i do tej po-
tainty: heuristics and biases.
Science, 185, 1124-1131. ry jest uważany za jeden z najbardziej znaczących artykułów w psychologii.
Główną jego myśl streszcza następujący cytat:
Przewidując i dokonując ocen w warunkach niepewności, ludzie na ogół nie postę-
pują zgodnie z rachunkiem prawdopodobieństwa lub teorią statystyczną. Raczej po-
sługują się ograniczoną liczbą heurystyk, które czasami prowadzą do racjonalnych
ocen, a czasami do systematycznych i poważnych błędów (s. 237).
No cóż, nie jest to zbyt pocieszający wniosek dla podtrzymania poglądu, że
człowiek jest istotą racjonalną – oczywiście jeśli ma to dla Ciebie jakiekol-
wiek znaczenie.

PRAWDOPODOBIEŃSTWO OBIEKTYWNE I SUBIEKTYWNE – PRZYKŁAD ZE ŚWIADKIEM NA ŚLUBIE

Pierwsze badanie, jakie chcemy opisać, nie jest faktycznie przeprowadzo-


nym eksperymentem, ale raczej wyobrażeniem eksperymentu, jaki można by
wykonać. Czasami o takich teoretycznie możliwych, ale nie przeprowadzo-
nych eksperymentach mówi się, że są to „eksperymenty myślowe”. Autorką
** Bar-Hillel, M., Wagenaar, tego pomysłu jest Maya Bar-Hillel**.
W. A. (1993). The perception of
randomness. W: G. Keren, Wyobraź sobie, że trzymasz w ręku kalendarz i ze wszystkich sobót, jakie są
C. Lewis (red.), A handbook for w ciągu roku, losujesz jedną. Następnie spoglądając na mapę Polski, losujesz
data analysis in the behavioral
sciences: Methodological issues jedno miasto, a w tym mieście losujesz jedno miejsce, w którym zawierane
(s. 369-393). Hillsdale NJ: są małżeństwa (kościół, urząd stanu cywilnego – musisz uwzględnić wszyst-
Erlbaum.
kie możliwe miejsca). Następnie wybierasz jedną przypadkową godzinę
i sprawdzasz, kto o tej porze w tym konkretnym miejscu wstępuje w związek
małżeński. A teraz spróbuj odpowiedzieć na takie pytanie: „Jakie jest praw-
dopodobieństwa, że para ta się rozwiedzie?”. Możesz na nie odpowiedzieć,
odwołując się do danych statystycznych. Na przykład w roku 2002 w Polsce
rozwiodło się około 45 400 małżeństw i w tym samym roku zawartych zo-
stało 191 900 małżeństw, a więc prawdopodobieństwo tego, że wylosowane
przez Ciebie małżeństwo się rozwiedzie, wynosi:
*** Do obliczenia wykorzystali- 45 400
śmy dane Głównego Urzędu Sta- = 0,2366 ***
tystycznego (zob. www.gus.pl) 191 900
Jest to prawdopodobieństwo obiektywne, obliczone poprzez podzielenie
liczby wszystkich zdarzeń, których prawdopodobieństwo obliczamy, przez
liczbę wszystkich możliwych zdarzeń. Wyobraź sobie jednak, że ktoś inny
przeprowadził takie losowanie pary nowożeńców i akurat wypadło na ślub
Twoich bardzo bliskich znajomych, na którym Ty jesteś świadkiem. Jeżeli
teraz ten hipotetyczny badacz podejdzie do Ciebie i zapyta, jakie jest praw-
dopodobieństwo, że akurat ta para rozwiedzie się w ciągu roku, to co wtedy
PODSTAWOWE POJĘCIA Z RACHUNKU PRAWDOPODOBIEŃSTWA 81

odpowiesz? Jest mało prawdopodobne, że weźmiesz pod uwagę swoją wie-


dzę na temat liczby małżeństw i rozwodów. Raczej oprzesz swoją odpo-
wiedź na znajomości młodej pary.
Czym innym więc będzie obiektywne prawdopodobieństwo wystąpienia ja-
* Nisbett, R. E., Borgida, E., kiegoś zdarzenia, a czym innym czyjeś subiektywne przekonanie, że zdarze-
Crandall, R., Reed, H. (1982).
Popular induction: Information nie to nastąpi. Jak zauważył Richard Nisbett i jego współpracownicy*, jedną
is not necessarily informative. z pierwszych osób, która zwróciła uwagę na to rozróżnienie, był brytyjski fi-
W: J. Carroll, J. Payne (red.),
Cognition and social behavior
lozof, Bertrand Russell, który stwierdził, że „codzienne indukcje (a ocena
(s. 227-236). Hillsdale, NJ: Erl- prawdopodobieństwa jest właśnie typem indukcji) bardziej zależą od emo-
baum. cjonalnego znaczenia faktów niż od ich liczby”.

PRAWDOPODOBIEŃSTWO POJEDYNCZEGO ZDARZENIA

Przykład ze świadkiem na ślubie pokazuje, że czym innym jest prawdopo-


dobieństwo obiektywne, a czym innym prawdopodobieństwo subiektywne.
Czy jednak to, że subiektywne oceny często pozostają w sprzeczności z oce-
ną obiektywną, dowodzi ludzkiej nieracjonalności?
Stwierdzeniu temu przeciwstawił się Gerd Gigerenzer**. Ten niemiecki
psycholog zakwestionował rozróżnienie dwóch typów myślenia – racjonal-
nego i potocznego (czyli nieracjonalnego). Jego zdaniem, zasady rachunku
prawdopodobieństwa nie mogą być stosowane jako norma w ocenie racjo-
nalności myślenia wtedy, gdy ocenia się prawdopodobieństwo wystąpienia
pojedynczego wydarzenia. Po prostu rachunek prawdopodobieństwa nie ma
wtedy zastosowania, bo jego zasady odnoszą się do tego, co się pojawia re-
Gerd Gigerenzer gularnie, a nie do tego, co się pojawia tylko raz. Można więc oceniać, jakie
jest prawdopodobieństwo rozwodu dla wszystkich małżeństw w ciągu roku,
** Gigerenzer, G. (1994). Why ale ocena ta nie ma nic do rzeczy wtedy, gdy dotyczy określonego małżeń-
the distinction between single- stwa. Choć jakieś wydarzenie może być jednym z wielu przypadków danego
event probabilities and frequen-
cies is important for psychology typu, to jednak czyjeś subiektywne przekonanie co do tego, czy zdarzenie to
(and vice versa). W: G. Wright, nastąpi, czy też nie, może być zupełnie niezwiązane z tym, jak często takie
P. Ayton (red.), Subjective pro-
bability (s. 129-162). Chichester:
zdarzenia następują. Na przykład student na egzaminie może wiedzieć, że
John Wiley. egzamin zdaje za pierwszym razem jedynie 30% osób, które do niego przy-
stępują. Nie zmienia to jednak jego przekonania, że swoje własne szanse
ocenia na 90%.

CZĘSTOŚĆ ZJAWISK I ZANIEDBYWANIE TZW. PRAWDOPODOBIEŃSTW BAZOWYCH


*** Zob. np. Lewicka, M. Teraz będzie o kolejnym eksperymencie Daniela Kahnemana i Amosa Tver-
(1993). Aktor czy obserwator. sky’ego. Został on przeprowadzony wiele razy, także w Polsce***, i jest
Psychologiczne mechanizmy od-
chyleń od racjonalności w my- znany jako „problem taksówkowy”. W eksperymencie proszono osoby ba-
śleniu potocznym. Warszawa: dane, aby oceniły, jakie jest prawdopodobieństwo, że wypadek w pewnym
Pracownia Wydawnicza PTP.
mieście spowodowała taksówka niebieska, jak twierdzi świadek, jeżeli
82 PRAWDOPODOBIEŃSTWO I ZMIENNA LOSOWA

* Thomas Bayes był brytyjskim w mieście jest 85% taksówek zielonych i 15% niebieskich, a zgodnie z prze-
matematykiem i duchownym prowadzonym eksperymentem świadek poprawnie rozpoznaje kolor taksów-
prezbiteriańskim. Jest znany ze
sformułowania teowemu Ba- ki w 80% przypadków. Poprawna odpowiedź wymaga zastosowania reguły
yesa. Jego najważniejsze dzieło: Bayesa*, która wygląda tak:
Essay towards solving o pro-
blem in the doctrine of chances, p (H ) p (D / H )
zostało wydane dopiero po jego p (H / D) =
śmierci w 1763 r. p (H ) p (D / H ) + p (−H ) p (D / − H )
H hipoteza (wypadek spowodowała taksówka niebieska),
D dane (świadek twierdzi, że taksówka była niebieska),
p(H/D) prawdopodobieństwo tego, że hipoteza jest prawdziwa, jeżeli dostarczone dane są prawdziwe
(a więc jeżeli świadek się nie pomylił), czyli właśnie poszukiwane prawdopodobieństwo te-
go, że wypadek spowodowała taksówka niebieska,
p(H) prawdopodobieństwo wyjściowe albo inaczej bazowe, czyli prawdopodobieństwo spowodo-
wania wypadku przez taksówkę niebieską, bez żadnych informacji ze strony świadka (wyno-
si ono 0,15, ponieważ taksówek niebieskich jest tylko 15%),
p(–H) drugie prawdopodobieństwo bazowe, czyli prawdopodobieństwo tego, że wypadku nie spo-
wodowała taksówka niebieska (wynosi ono 0,85, bo jeśli wypadku nie spowodowała tak-
sówka niebieska, to musiała spowodować go taksówka zielona, a tych jest 85%).
p(D/H) prawdopodobieństwo poprawnego rozpoznania taksówki niebieskiej jako niebieskiej, czyli
0,8, ponieważ świadek poprawnie rozpoznaje kolor taksówki w 80% przypadków,
p(D/–H) prawdopodobieństwo błędnego rozpoznania taksówki zielonej jako niebieskiej, które wynosi
0,2, ponieważ świadek błędnie rozpoznaje kolor taksówki w 20% przypadków.

Jeżeli pogubiłeś się we wszystkich tych wzorach – nie przejmuj się. Więk-
szość uczestników eksperymentów też nie zadaje sobie trudu, aby to obli-
czać, i jako odpowiedź podaje wskaźnik trafności świadka, czyli 80%. Jest
to jednak odpowiedź błędna, bo tak naprawdę prawdopodobieństwo, że wy-
padek spowodowała taksówka niebieska, jest mniejsze niż to, że spowodo-
wała go taksówka zielona, ponieważ:
0,15× 0,8 0,12 0,12
p (H / D) = = = = 0,414
0,15× 0,8 + 0,85× 0,2 0,12 + 0,17 0,29
Błędna ocena prawdopodobieństwa w tym wypadku jest przykładem tzw.
Thomas Bayes
(1702-1761) błędu zaniedbywania prawdopodobieństw bazowych. Po prostu bez względu
(lub prawie bez względu) na to, co mówi świadek, taksówek zielonych jest
o wiele więcej niż niebieskich i bardziej jest prawdopodobne, iż wypadek
spowodowała taksówka zielona niż niebieska.

PROBLEM TAKSÓWEK W WERSJI ŁATWIEJSZEJ

Zgodnie z koncepcją Gerda Gigerenzera błąd w subiektywnej ocenie poje-


dynczego zdarzenia wcale nie świadczy o tym, że człowiek jest nieracjonal-
PODSTAWOWE POJĘCIA Z RACHUNKU PRAWDOPODOBIEŃSTWA 83

ny. Dlaczego jednak nie radzimy sobie z problemem taksówek zielonych


i niebieskich, czyli dlaczego nie bierzemy pod uwagę częstości pojawiania
się taksówek obu kolorów na ulicy? Gigerenzer podaje odpowiedź zaskaku-
jąco prostą: „zwykli” ludzie nie mają wystarczająco dużego doświadczenia
z procentami i prawdopodobieństwem, by sobie poradzić z tak skompliko-
wanym zadaniem. Można im jednak pomóc poprzez zamianę treści proble-
mu w następujący sposób: „Wyobraź sobie, że w mieście jeździ 85 taksówek
zielonych i 15 niebieskich. Świadek twierdzi, że wypadek spowodowała tak-
sówka niebieska, ale na 10 pokazanych mu taksówek poprawnie rozpoznał
kolor tylko 8 z nich”.
Teraz znacznie łatwiej można obliczyć prawdopodobieństwo tego, że wypa-
dek spowodowała taksówka niebieska, rozumując w sposób następujący:
Gdyby świadek miał rozpoznawać wszystkie taksówki jeżdżące po mieście,
czyli 100 samochodów, to powiedziałby, że taksówek niebieskich jest 12,
ponieważ poprawnie rozpoznaje 80% samochodów, a w mieście jeździ 15
taksówek niebieskich (0,8 × 15 = 12). Spośród zielonych taksówek, których
w mieście jest 85, nasz świadek aż 17 uznałby za niebieskie, ponieważ w
20% rozpoznań popełnia błąd (0,8 × 85 = 17). W sumie świadek myślałby,
że w mieści jeździ 29 taksówek niebieskich (12 + 17 = 29), podczas gdy na-
prawdę było ich tylko 15. Ot i wszystko, a więc prawdopodobieństwo tego,
że wypadek spowodowała taksówka niebieska, wynosi:
liczba taksówek rozpoznanych poprawnie jako niebieskie
p( H / D) = =
liczba wszystkich taksówek rozpoznanych jako niebieskie
12
= = 0,414
12 + 17
Nawet gdyby komuś nie chciało się wykonać końcowego obliczenia,
i tak zapewne by zauważył, że prawdopodobieństwo spowodowania wypad-
ku przez taksówkę niebieską jest mniejsze niż 0,5, ponieważ licznik jest
mniej niż o połowę mniejszy od mianownika.

PODSUMOWANIE SPORU O ROZUMIENIE PRAWDOPODOBIEŃSTWA

Maria Lewicka w swojej książce poświęconej analizie błędów, jakie popeł-


niamy w myśleniu potocznym, przedstawia tzw. spór o racjonalność. Mniej
więcej co dziesięć lat zmienia się pogląd psychologów na to, czy myślenie
człowieka można uznać za racjonalne, czy też nie.
Wyniki badań Kahnemana i Tversky’ego nad subiektywnym rozumieniem
prawdopodobieństwa to stanowisko reprezentatywne dla badaczy lat 80.
W dekadzie tej panowało przekonanie, że człowiek jest istotą skłonną do
wielu błędów, które można w sposób systematyczny przewidywać.
84 PRAWDOPODOBIEŃSTWO I ZMIENNA LOSOWA

Stanowisko Gigerenzera to przykład poglądów charakterystycznych w na-


stępnej dekadzie, czyli w latach 90. Jego zdaniem człowiek zupełnie dobrze
sobie radzi z oceną prawdopodobieństwa, ale wtedy, gdy uwzględnimy to, że
aksjomaty matematyczne nie dotyczą subiektywnego przekonania o poje-
dynczych zjawiskach.
Można się zastanawiać, jakie stanowisko w tej sprawie dominować będzie
w następnym dziesięcioleciu. Zapewne, jak zawsze, obie strony złagodzą
swoje przekonania i możemy oczekiwać czegoś w rodzaju kompromisu.

MATEMATYCZNA DEFINICJA PRAWDOPODOBIEŃSTWA – AKSJOMATY KOŁMOGOROWA

Rachunek prawdopodobieństwa to dział matematyki zajmujący się analizą


zjawisk losowych. Prawdopodobieństwo oznacza miarę szansy zajścia ja-
kiegoś zdarzenia, wyrażoną za pomocą liczby, która może być większa lub
równa zero, ale nie większa niż jeden.
Na przykład prawdopodobieństwo równe 0,5 jest matematyczną miarą szan-
sy, że reprezentacja Polski w piłce nożnej w ciągu najbliższych dziesięciu lat
zostanie mistrzem świata, sugerującą, że w tej sprawie „na dwoje babka
wróżyła”.
Fanatyczny kibic piłkarski może jednak bardzo wysoko oceniać szansę pol-
skiej reprezentacji (czemu będzie odpowiadała wartość prawdopodobieństwa
równa np. 0,9), podczas gdy sceptyk będzie uważał, że zdobycie mistrzostwa
świata przez Polaków w ogóle nie jest możliwe (czyli np. zaledwie na
Andriej Kołmogorow
(1903–1987) 0,001).
Zdaniem wybitnego rosyjskiego matematyka z Uniwersytetu Moskiewskie-
go, Andrieja Kołmogorowa, prawdopodobieństwo należy traktować jako za-
sadę przyporządkowującą określonym zdarzeniom wartości liczbowe. Zasa-
da ta musi spełniać trzy warunki, znane jako aksjomaty rachunku praw-
dopodobieństwa Kołmogorowa.
• Po pierwsze, prawdopodobieństwo nie jest liczbą ujemną, czyli nie może
być mniejsze od zera.
• Po drugie, jeżeli dwa zdarzenia nie są od siebie zależne, to prawdopodo-
bieństwo tego, że wystąpi którekolwiek z nich, jest równe sumie praw-
dopodobieństw zajścia każdego z nich oddzielnie. O dwóch zdarzeniach
powiemy, że zachodzą niezależnie od siebie, wtedy, gdy zajście jednego
w żaden sposób nie jest związane z zajściem drugiego.
• Trzeci aksjomat głosi, że prawdopodobieństwo zdarzenia, które jest
pewne, wynosi 1.
PODSTAWOWE POJĘCIA Z RACHUNKU PRAWDOPODOBIEŃSTWA 85

CZĘSTOŚCIOWE ROZUMIENIE PRAWDOPODOBIEŃSTWA

Pomimo że aksjomaty Kołmogorowa są ogólne, to jednak w zupełności po-


rządkują wszystko to, co powinniśmy wiedzieć na temat prawdopodobień-
stwa. Najważniejsze, że bezpośrednio wynika z nich intuicyjnie uchwytne
częstościowe prawdopodobieństwo jakiegoś zdarzenia.
Po raz pierwszy zostało ono sformułowane przez francuskiego matematyka
oraz markiza, Pierre’a-Simona Laplace’a. Zgodnie z jego propozycją praw-
dopodobieństwo zajścia jakiegoś zdarzenia jest równe ilorazowi liczby przy-
padków, w których to zdarzenie zachodzi, przez liczbę wszystkich możli-
wych przypadków, w których zdarzenie to może wystąpić.
Zgodnie z tą definicją, prawdopodobieństwo wypadnięcia orła po jednora-
zowym podrzuceniu monety jest równe ilorazowi liczby sytuacji, w których
wypada orzeł (czyli 1, ponieważ na monecie orzeł jest tylko z jednej strony),
przez wszystkie możliwe sytuacje (czyli 2, ponieważ moneta może upaść
tylko na jedną z dwóch stron). Krótko mówiąc, prawdopodobieństwo wyrzu-
1
cenia orła wynosi . Podobnie ma się rzecz z innymi „podręcznikowymi”
Pierre-Simon Laplace 2
(1749-1827) zdarzeniami, np. z rzutem sześcienną kostką. Prawdopodobieństwo wyrzu-
1
cenia na kostce liczby parzystej także wynosi , ponieważ takie liczby
2
3 1
znajdują się na trzech spośród sześciu ścianek kostki, czyli = .
6 2
Zwróć uwagę na to, że częstościowe określenie prawdopodobieństwa jest
w zgodzie z drugim z aksjomatów Kołmogorowa. Prawdopodobieństwo wy-
rzucenia parzystej liczby oczek na kostce jest równe sumie trzech wartości
1
równych , a każda z tych wartości odpowiada prawdopodobieństwu wy-
6
rzucenia dwóch, czterech albo sześciu oczek. Zdarzenia te są od siebie nieza-
leżne, bo bez względu na to, co wypadnie przy rzucie kostką, wynik następ-
nego rzutu jest sprawą zupełnie otwartą. Nie uwzględniamy tutaj oczywiście
takich przypadków, jak granie w chińczyka z dzieckiem w wieku przed-
szkolnym. Dzieciom w tym wieku wyjątkowo często wypadają szóstki, trud-
no jednak uznać wyniki takich rzutów za zdarzenia od siebie niezależne, jak
również za zdarzenia przypadkowe.
Przeprowadźmy eksperyment myślowy. Wyobraź sobie, że równocześnie
rzucasz monetą i kostką. Kiedy po każdym rzucie spojrzysz na podłogę, zo-
baczysz jedną z dwunastu teoretycznie możliwych sytuacji:
(o,1); (o,2); (o,3); (o,4); (o,5); (o,6); (r,1); (r,2); (r,3); (r,4); (r,5); (r,6)
86 PRAWDOPODOBIEŃSTWO I ZMIENNA LOSOWA

o orzeł,
r reszka,
cyfry {1, ..., 6} liczba oczek na kostce.

Czy wiesz, jakie jest prawdopodobieństwo zdarzenia, że równocześnie wy-


padnie orzeł i więcej niż 3 oczka na kostce? Są tylko trzy zdarzenia, które
spełniają to kryterium: (o,4), (o,5) i (o,6), a wszystkich możliwych sytuacji
3 1
jest 12. Poszukiwane prawdopodobieństwo wynosi więc = . Innymi
12 4
słowy, jest to suma prawdopodobieństw trzech niezależnych zdarzeń, z któ-
rych każde ma szansę zajść tylko jeden raz na dwanaście możliwości, czyli
1 1 1 3 1
+ + = =
12 12 12 12 4

PRAWDOPODOBIEŃSTWO ILOCZYNU DWÓCH ZDARZEŃ

Z definicji prawdopodobieństwa wynika również inna ciekawa właściwość:


prawdopodobieństwo iloczynu zdarzeń niezależnych równa się iloczyno-
wi ich prawdopodobieństw.
Weźmy jeszcze raz przykład z monetą i kostką. Prawdopodobieństwo wy-
rzucenia więcej niż trzech oczek na kostce, a równocześnie orła na monecie,
w gruncie rzeczy można potraktować jako iloczyn prawdopodobieństw
dwóch zupełnie niezależnych od siebie zdarzeń. Prawdopodobieństwo wy-
1 3
rzucenia więcej niż trzech oczek wynosi (a właściwie , ponieważ na
2 6
sześć możliwości tylko trzy spełniają warunek). Z kolei szansa na wyrzuce-
1
nie orła także równa się . Prawdopodobieństwo zajścia obu sytuacji jedno-
2
1 1 1
cześnie wynosi więc × = , czyli dokładnie tyle samo, ile wyszło z ana-
2 2 4
lizy częstości przypadków.

BŁĄD KONIUNKCJI

W potocznym myśleniu ludzie raczej nie mają wątpliwości co do tego, że


szansa, by jakieś dwa zjawiska wystąpiły jednocześnie, jest mniejsza niż
szansa wystąpienia każdego z nich osobno. Na przykład bardziej prawdopo-
dobne jest zobaczenie na ulicy samochodu czerwonego lub niebieskiego niż
czerwono-niebieskiego. Okazuje się jednak, że wiedza, jaką posiadamy na
temat świata, może poważnie zakłócić te poprawne intuicje na temat praw-
dopodobieństwa.
PODSTAWOWE POJĘCIA Z RACHUNKU PRAWDOPODOBIEŃSTWA 87

* Kahneman, D., Tversky, A. Kilkakrotnie wspominani już Daniel Kahneman i Amos Tversky* przedsta-
(1982). Variants of uncertainty. wili trzem grupom badanych (studentom nie znającym statystyki, uczęszcza-
Cognition, 11, 143-157.
jącym na kurs podstawowy, oraz słuchaczom kursu zaawansowanego) na-
stępujące zadanie:
W wyniku badania psychologicznego otrzymano następującą charakterystykę Billa:
Bill ma 34 lata. Jest inteligentny, ale bez wyobraźni, kompulsywny i bez iskry życio-
wej. W szkole był silny w matematyce, lecz słaby w naukach humanistycznych i spo-
łecznych. Uszereguj poniższe zdania według Twojego przekonania co do ich praw-
dopodobieństwa:
(a) Bill jest księgowym.
(b) Hobby Billa to granie muzyki jazzowej.
(c) Bill jest księgowym, a jego hobby to muzyka jazzowa.
Studenci we wszystkich trzech grupach uznali, że odpowiedź (c) jest bar-
dziej prawdopodobna niż odpowiedź (a). Biorąc za podstawę zasady rachun-
ku prawdopodobieństwa, niezależnie od tego, co wiemy o Billu, możemy
być bardziej pewni, że jest on, powiedzmy, jazzmanem niż równocześnie
jazzmanem i księgowym. Wynik eksperymentu pokazuje, że w potocznym
myśleniu „psychiczny rachunek prawdopodobieństwa” i jego zasady wyło-
żone przez Kołmogorowa mogą się znacznie rozmijać. Nie chcąc być posą-
dzeni o dyskryminację płci (sic!), Kahneman i Tversky przygotowali rów-
nież kobiecą wersję zadania eksperymentalnego. Jego bohaterką była Linda,
przedstawiona jako aktywna feministka, które pracuje w banku. Bez wzglę-
du jednak na wersję zadania wyniki tego eksperymentu były takie same.
Eksperyment Kahnemana i Tversky’ego jest jednym z najczęściej cytowa-
nych przez psychologów w dyskusji na temat ludzkiej racjonalności. Jego
wynik został nazwany „błędem koniunkcji”, ponieważ badani postępowali
niezgodnie z zasadą, że prawdopodobieństwo koniunkcji dwóch zdarzeń jest
co najwyżej równe prawdopodobieństwu jednego z nich, co symbolicznie
można wyrazić jako:
p(P i Q) ≤ p(P)
P zdarzenie P,
Q zdarzenie Q, inne niż zdarzenie P,
p(P i Q) prawdopodobieństwo zajścia obu zdarzeń P i Q razem (prawdopodobieństwo koniunkcji),
p(P) prawdopodobieństwo zajścia zdarzenia P.

Kahneman i Tversky wraz ze współpracownikami przeprowadzili znacznie


więcej tego typu badań, w których wykazali, że zachowania ludzi systema-
tycznie odbiegają od racjonalności, gdy na decyzję o ich podjęciu wpływa
nie wiedza na temat zasad rachunku prawdopodobieństwa (lub logiki), ale
heurystyki.
88 PRAWDOPODOBIEŃSTWO I ZMIENNA LOSOWA

Heurystyki to zasady myślenia, które często mogą być pomocne w rozwią-


zywaniu problemów, ale czasami bywają zawodne. Wiele wskazuje na to, że
np. za błąd koniunkcji odpowiedzialna jest heurystyka podobieństwa: badani
uznają, że bardziej prawdopodobne są te odpowiedzi, które są podobne do
opisu Billa. Ponieważ Bill jest osobą „bez iskry życiowej” i w szkole był
dobry z matematyki, więc wydaje się mało prawdopodobne, by ktoś taki
mógł być jazzmanem-amatorem. Doskonale jednak nadaje się na księgowe-
go. Jeżeli więc uczestnicy eksperymentu muszą uszeregować odpowiedzi ze
względu na ich prawdopodobieństwo, to każda odpowiedź, która zawiera
słowo „księgowy”, będzie przez nich oceniana wyżej niż odpowiedzi, w któ-
rych to słowo nie występuje. A zatem Bill może być jazzmanem, ale tylko
pod warunkiem, że równocześnie jest księgowym.

PROPORCJE, UŁAMKI, PROCENTY

Formułując swoją definicję prawdopodobieństwa, Laplace odwołał się do


częstości zdarzeń. Z pojęciem tym wiążą się również inne określenia.
• Na przykład słowo proporcja oznacza iloraz liczebności danego podzbioru
do całości. Proporcja studentów psychologii w zbiorze wszystkich studen-
tów danej uczelni jest więc ilorazem liczebności studentów psychologii do
wszystkich studentów.
• Proporcje najczęściej są wyrażane w postaci ułamków zwykłych lub dzie-
siętnych, ale można je również przedstawić w postaci liczby obserwacji da-
nego typu przypadających na sto przypadków. Takie określenie nazywamy
procentem. Powstaje on z pomnożenia proporcji przez 100 oraz dopisania
do wyniku symbolu „%”. Nazwa „procent” pochodzi od łacińskiego wyra-
żenia per cent – czyli „na sto”.
• Trzecim słowem, które warto zapamiętać, jest stosunek i oznacza ono iloraz
dwóch liczebności, z których obie mogą być podzbiorami większej całości.
Na przykład stosunek liczby studentów pedagogiki (Nped) do liczby studen-
N ped
tów psychologii (Npsych) wynosi: . Szczególnym przypadkiem stosun-
N psych
ku jest proporcja, gdy w mianowniku wpiszemy liczebność całego zbioru.

WYNIKI EKSPERYMENTU
4. JAKO ZMIENNA LOSOWA

4.1. PRÓBA I POPULACJA

KŁOPOTY EKSPERYMENTATORA

Jednym z podstawowych ograniczeń badań empirycznych jest to, że stosun-


kowo rzadko można przeprowadzać eksperymenty na dużą skalę. Podsta-
wową cechą eksperymentów psychologicznych jest takie zaplanowanie sy-
tuacji badawczej, aby można było kontrolować wszystkie zmienne uboczne
i do minimum ograniczyć wpływ zmiennych zakłócających. W praktyce
uniemożliwia to przeprowadzanie badania na bardzo dużej grupie, ponieważ
ograniczenie wpływu wszystkich niepożądanych zmiennych byłoby w zasa-
dzie niemożliwe. Nawet gdyby sobie wyobrazić taką możliwość, wówczas
na pewno taki eksperyment byłby bardzo czasochłonny i kosztowny.

POJĘCIE POPULACJI

Choć psychologowie byliby z pewnością bardzo zadowoleni, gdyby mogli


zaprosić do udziału w swoim eksperymencie wszystkich ludzi, którzy ich
pod jakimś względem interesują, to jednak w praktyce muszą ograniczać
swoje zapędy i przeprowadzać eksperymenty na mniejszych grupach.
Zbiór wszystkich ludzi lub, ogólniej, obiektów badawczych – pamiętajmy,
że eksperymenty psychologiczne to nie tylko eksperymenty na ludziach –
nazywamy populacją. Można powiedzieć, że populacja to zbiór elementów
zróżnicowanych ze względu na daną cechę. Na przykład jeżeli interesuje Cię
potrzeba sukcesu, to populacją są wszystkie te „obiekty”, którym taką po-
trzebę możemy przypisać.
Łatwo zauważyć, że cecha, której posiadanie stanowi o należeniu do danej
populacji, równocześnie odróżnia wszystkich jej członków od innych moż-
liwych populacji. Bycie studentem politechniki odróżnia tych, którzy ten wa-
runek spełniają, od tych wszystkich, którzy go nie spełniają. Choć posiada-
nie cechy interesującej badacza decyduje o tym, że ktoś zostanie zakwalifi-
kowany jako członek danej populacji, to jednak nie wyklucza to należenia
tej samej osoby także do innych populacji. Z pewnością wszyscy czytelnicy
tej książki należą równocześnie do populacji Polaków, osób inteligentnych,
90 PRAWDOPODOBIEŃSTWO I ZMIENNA LOSOWA

zjadaczy śniadań, konsumentów pączków itd. Zakres każdej populacji moż-


na w zasadzie dowolnie zawężać. Badacza niekoniecznie musi interesować
potrzeba osiągania sukcesów u wszystkich ludzi. Dla niektórych ciekawsze
jest mierzenie tej cechy u dzieci w młodszym wieku szkolnym, siedzących
w klasie z reguły przy oknie.

TYPY POPULACJI W BAZIE PsycInfo

W dobie powszechnej komputeryzacji i standaryzacji nie ma większego tru-


du ze znalezieniem badania, które dotyczyłoby jakiejś szczególnie Ciebie in-
teresującej populacji. Na przykład w przedstawionej przez nas wcześniej ba-
zie PsycInfo opisy wszystkich eksperymentów zawierają też informacje do-
tyczące populacji, z jakiej pochodziły badane obiekty. W tabeli 4.1 podaje-
my listę tych populacji, tak jak są przedstawione w wersji oryginalnej, a tak-
że polskie tłumaczenia wszystkich terminów. Jeżeli więc interesują Cię je-
dynie badania, w których brała udział młodzież, wystarczy w odpowiednim
miejscu ograniczyć przeszukiwanie bazy danych tylko do tych eksperymen-
tów, które dotyczą populacji określonej jako ADOLESCENCE.
Tabela 4.1. Populacje
Nazwa angielska Nazwa polska
w PsycInfo
Human Ludzie
Animal Zwierzęta
Male Mężczyźni
Female Kobiety
Inpatient Pacjenci hospitalizowani
Outpatient Pacjenci niehospitalizowani

Age Group Grupy wiekowe

Childhood (birth-12 yrs) Dzieciństwo (od urodzenia do 12 r.ż.)


Neonatal (birth-1 mo) Noworodki (od urodzenia do 1 m.ż.)
Infancy (2-23 mo) Wczesne dzieciństwo (od 2 do 23 m.ż)
Preschool Age (2-5 yrs) Wiek przedszkolny (od 2 do 5 r.ż.)
School Age (6-12 yrs) Wiek szkolny (od 6 do 12 r.ż.)
Adolescence (13-17 yrs) Okres dojrzewania (od 13 do 17 r.ż.)
Adulthood (18 yrs & older) Okres dorosłości (od 18 r.ż. do starości)
Young Adulthood (18-29 yrs) Wczesna dorosłość (od 18 do 29 r.ż.)
Thirties (30-39 yrs) 30-latkowie (od 30 do 39 r.ż.)
Middle Age (40-64 yrs) Wiek średni (od 40 do 64 r.ż.)
Aged (65 Yrs & older) Osoby starsze (od 65 r.ż. i starsze)
Very Old (85 yrs & older) Seniorzy (od 85 r.ż. i starsze)

PRÓBA LOSOWA – PRÓBA PROSTA

Jak łatwo się domyślić, próba to część populacji podlegająca badaniu ze


względu na daną cechę. Na przykład dla populacji osób o wysokiej potrzebie
sukcesu próbą będzie grupa takich osób biorąca udział w eksperymencie
psychologicznym. Najlepiej oczywiście jest wtedy, gdy żadna ze zmiennych
WYNIKI EKSPERYMENTU JAKO ZMIENNA LOSOWA 91

ubocznych mogących mieć wpływ na wynik eksperymentu nie ma wpływu


na to, jakie obiekty dostaną się do badanej próby. Warunek ten jest spełnio-
ny, gdy dobór do badanej grupy ma charakter losowy. Mówimy wtedy, że
badana próba jest próbą losową.
* Zob. np. Greń, J. (1987). Sta- W statystyce matematycznej funkcjonuje pojęcie próby prostej*. Jest to ta-
tystyka matematyczna. Podręcz- ka sytuacja, w której każdy element populacji jest losowany z całej popula-
nik programowany. Warszawa:
PWN. cji, indywidualnie i niezależnie od innych. Ponieważ jest to sytuacja mode-
lowa, rozwińmy tę definicję.
• Po pierwsze, każdy obiekt musi być losowany bezpośrednio z całej po-
pulacji, czyli bez żadnych stopni pośrednich.
• Po drugie, obiekty losowane są pojedynczo, a nie np. w grupach.
• Po trzecie, wynik każdego losowania powinien być całkowicie niezależ-
ny od innych.
Ten trzeci warunek gwarantuje tzw. losowanie ze zwracaniem. To, że wy-
losowany został pewien obiekt „X”, nie powinno mieć wpływu na prawdo-
podobieństwo wylosowania jakiegokolwiek innego obiektu. Sytuacja taka
ma miejsce wtedy, gdy obiekt „X” po wylosowaniu jest „zwracany” do po-
pulacji, czyli prawdopodobieństwo wylosowania tego obiektu i każdego in-
nego jest za każdym razem takie samo. Przy losowaniu bez zwracania po
wylosowaniu każdego obiektu zwiększa się prawdopodobieństwo wyloso-
wania innych obiektów, ponieważ zmniejsza się badana próba.

PRÓBA ZŁOŻONA – PRÓBA WARSTWOWA – LOSOWANIE GRUPOWE

W praktyce stosunkowo rzadko stosuje się próby proste. Inne próby noszą
nazwę prób złożonych i mamy z nimi do czynienie wtedy, gdy w doborze
obiektów nie został spełniony któryś z warunków próby prostej.
Typowym przykładem próby złożonej jest tzw. próba warstwowa. Jest to
rodzaj próby często wykorzystywany w badaniach opinii publicznej. W ta-
kiej próbie nie losuje się obiektów badanych bezpośrednio z całej populacji,
ale z pewnych jej podgrup, zwanych warstwami. Celem podziału populacji
na warstwy jest zagwarantowanie, że skład próby będzie jak najbardziej
zbliżony do składu populacji. Na przykład wykształcenie jest taką cechą,
która może mieć wpływ na opinie wyrażane przez ludzi. Jeżeli więc badacze
chcą, aby opinia badanej próby była reprezentatywna dla opinii całej popula-
cji, to powinni najpierw podzielić całą populację na grupy, czyli warstwy,
w zależności od wykształcenia. Jeżeli więc w danym społeczeństwie jest 9%
osób z wyższym wykształceniem, to także w badanej próbie powinno być
9% osób pochodzących z tej warstwy.
92 PRAWDOPODOBIEŃSTWO I ZMIENNA LOSOWA

Inny przykład losowania, w wyniku którego mamy do czynienia z próbą zło-


żoną, to losowanie grupowe. W takiej sytuacji do udziału w badaniu losuje
się nie pojedyncze elementy, ale całe ich grupy. Dobrym przykładem takiego
zabiegu jest tzw. marketing bezpośredni. Jeżeli jakaś firma chce wysłać swo-
je ankiety pocztą do stu tysięcy domów i chce, aby była to grupa reprezenta-
tywna dla całego kraju, to raczej nie odbędzie się to w wyniku losowania po-
jedynczych obiektów. Można uprościć procedurę, losując całe grupy po-
szczególnych odbiorców. W celu poznania opinii mieszkańców terenów
wiejskich można np. wylosować trzy miejscowości z listy wszystkich wsi
i wysłać kwestionariusze badawcze do każdej rodziny.

PRÓBA INCYDENTALNA – BADANIE OCHOTNIKÓW

W badaniach psychologicznych rzadko mamy do czynienia z losowym do-


borem osób do eksperymentów. Dzieje się tak głównie z powodu dużej
uciążliwości i kosztów związanych z zorganizowaniem takiej próby.
W praktyce więc często mamy do czynienia z incydentalnym, czyli nie-
przypadkowym doborem osób badanych. Można wyróżnić dwa typy takiego
doboru: dobór ochotników i badania studentów.
* Zob. Baddeley, A. (1998). Alan Baddeley* i Debra Bekerian przeprowadzili na zlecenie radia BBC ba-
Pamięć. Poradnik użytkownika. danie dotyczące zapamiętywania nowych częstotliwości fal, na których miał
Warszawa: Prószyński i s-ka.
być nadawany program tej rozgłośni. Przez dwa miesiące programy nada-
wane przez BBC były przeplatane różnymi informacjami dotyczącymi
zmiany częstotliwości. Badacze mieli stwierdzić, w jakim stopniu informa-
cje te rzeczywiście dotarły do badanych. W samym badaniu wzięło udział
około 50 osób wybranych spośród tych, którzy – jak pisze Baddeley – „zgła-
szają się do naszego zakładu psychologii stosowanej w Cambrigde, aby
uczestniczyć w eksperymentach ...” (s. 77). Oznacza to, że w tym badaniu
wzięli udział ochotnicy, w dodatku pochodzący z okolic Cambridge. Na
podstawie czasu poświęconego słuchaniu radia badacze stwierdzili, że każda
z osób badanych musiała usłyszeć o planowanej zmianie więcej niż tysiąc
razy. Okazało się, że chociaż 84% osób badanych wiedziało o tym, że nastą-
pi zmiana fal, to jedynie 25% z nich było w stanie podać, jakie będą nowe
częstotliwości.
Czy fakt, że badanie nie zostało przeprowadzone na losowej próbie słucha-
czy radia BBC, obniża jego wartość? Do pewnego stopnia tak. Zanim jednak
przejdziemy do krótkiego omówienia wad eksperymentów prowadzonych
z udziałem ochotników, najpierw przedstawimy pozytywny aspekt ekspery-
mentu Baddeleya i Bekerian. Otóż nawet po analizie danych pochodzących
od tak specyficznej grupy osób można podejrzewać, że intensywna kampa-
nia radiowa, której celem jest zapamiętanie przez ludzi konkretnej informa-
cji, nie przyniesie spodziewanego efektu. Jeżeli tylko 25% ochotników pa-
WYNIKI EKSPERYMENTU JAKO ZMIENNA LOSOWA 93

mięta takie informacje, to trudno podejrzewać, że proporcja tych, którzy bę-


dę ją pamiętać, będzie zasadniczo inna w próbie dobranej w sposób losowy.
Przy okazji warto dodać, że osoby z BBC odpowiedzialne za kampanię re-
klamową przewidziały ten efekt i przysłały swoim słuchaczom specjalne na-
klejki z nowymi długościami fali.

JAKI WPŁYW NA WYNIK EKSPERYMENTU MOŻE MIEĆ DOBÓR OSÓB BADANYCH?

Podstawową wadą eksperymentów, w których biorą udział ochotnicy, jest


nieuzasadnione generalizowanie wyników tych eksperymentów na całą po-
pulację. Ponieważ badacze dosyć rzadko powtarzają swoje własne ekspery-
menty, może się więc okazać, że jakaś teoria psychologiczna zbudowana zo-
stała tylko dlatego, że w eksperymencie brali udział ochotnicy albo ich spe-
cyficzna grupa – ochotnicy-studenci.
Oto konkretny przykład z badań nad tzw. rozumowaniem logicznym. Zasta-
nów się, co wynika z następujących dwóch zdań:
Piotr jest w Lublinie albo Robert jest w Warszawie.
Piotra nie ma w Lublinie.
* Roberge, J. J. (1978). Linguis- W eksperymentach przeprowadzonych przez Jamesa Roberge’a ponad 90%
tic and psychometric factors in badanych studentów wyciągało poprawny wniosek: Robert jest w Warsza-
propositional reasoning. Quar-
terly Journal of Experimental wie. (Oczywiście zdania w oryginalnym eksperymencie były inne, ale układ
Psychology, 30, 705-716. logiczny taki sam). Phil Johnson-Laird, Walter Schaeken i Ruth Byrne**
** Johnson-Laird, Ph. N., Byrne, poprosili o wyciągnięcie tego typu wniosków grupę pochodzącą z populacji
R.M., Schaeken, W. (1992). osób nie będących studentami. Okazało się, że poprawny wniosek wyciągnę-
Propositional reasoning by mod-
el. Psychological Review, 99, ło jedynie 48% osób badanych. Dobór osób badanych miał więc istotny
418-439. wpływ także na ocenę tego, czy ludzie potrafią wyciągać logicznie poprawne
wnioski, czy też nie.
*** Brzeziński J. (1996). Meto- Jerzy Brzeziński*** wymienia aż 17 cech, którymi ochotnicy-studenci róż-
dologia badań psychologicz- nią się od przypadkowych osób badanych. Do najważniejszych należą na-
nych. Warszawa: PWN.
stępujące:
• wyższy poziom wykształcenia,
• wyższy status społeczny,
• wyższy poziom inteligencji,
• wyższy poziom aprobaty społecznej,
• większe zsocjalizowanie.
Jeśli którakolwiek z tych cech może mieć wpływ na wyniki eksperymentu
(czyli zmienną zależną), to należy dołożyć wszelkich starań, by osoby były
94 PRAWDOPODOBIEŃSTWO I ZMIENNA LOSOWA

dobierane do grupy badanej w sposób losowy. Ma to szczególnie istotne


znaczenie, gdy celem badania jest np. ustalenie norm dla testów inteligencji.

PLUSY I MINUSY EKSPERYMENTÓW Z UDZIAŁEM STUDENTÓW

Wbrew temu, co można by podejrzewać, nie we wszystkich eksperymentach


psychologicznych biorą udział studenci psychologii. Niektórzy badacze re-
krutują ochotników do badań na podstawie ogłoszeń w gazetach, inni starają
się przeprowadzać eksperymenty poza laboratorium uniwersyteckim, np. na
dworcu, lotnisku lub w pociągu.
Można też znaleźć takie badania, w których doborem osób badanych zajmu-
ją się w sposób profesjonalny firmy badania opinii publicznej. Niemniej jed-
nak faktem jest, że zwłaszcza w badaniach laboratoryjnych zdecydowanie
największą grupę osób badanych stanowią studenci.
Na przykład w badaniach z dziedziny psychologii zachowań konsumenckich
proporcja studentów biorących udział w eksperymentach wzrosła z 30%
* Zob. Simonson, I., Carmon, wszystkich badanych osób w latach 80. do około 75% w latach 1995–1999*.
Z., Dhar, R., Drolet, A. (2001).
Consumer research: In search of Studenci są po prostu populacją najłatwiej dostępną dla badaczy. Najczęściej
identity. Annual Review of Psy- są to ochotnicy albo osoby, które są zobowiązane do wzięcia udziału w eks-
chology, 52, 249-276.
perymentach psychologicznych z powodu kierunku studiów lub wybranych
przez siebie zajęć. W eksperymentach często biorą udział studenci pierw-
szych lat psychologii, bo zaliczenie roku lub określonego przedmiotu wy-
maga udziału np. w dwóch eksperymentach.
Pomimo całej masy zarzutów, jakie można postawić tego typu badaniom,
i tak prawdopodobnie werbowanie studentów ciągle będzie najpopularniej-
szym sposobem tworzenia grup badanych. Ponieważ praktycznie nie da się
takich badań uniknąć, należy przeprowadzić je w taki sposób, aby fakt, że
osoby badane pochodzą z tak specyficznej populacji, w jak najmniejszym
stopniu wpływał na wynik eksperymentu.
Eksperymenty z udziałem studentów w szczególności powinny odpowiadać
standardom etycznym, jakie stawiane są wszystkim eksperymentom, w któ-
rych udział biorą ludzie.
Dodatkowo jeszcze studenci – uczestnicy eksperymentu – powinni mieć
pewność, że ich udział w eksperymencie w żadnym stopniu nie jest związa-
ny z ich nauką, a więc że nie są oceniani, a ich zachowanie podczas badania
(np. rezygnacja w trakcie trwania eksperymentu) nie będzie miało najmniej-
szego wpływu na ich ocenę podczas normalnych zajęć akademickich.
WYNIKI EKSPERYMENTU JAKO ZMIENNA LOSOWA 95

4.2. ZMIENNA LOSOWA I JEJ ROZKŁAD

NIEJEDNOZNACZNOŚĆ WYNIKÓW EKSPERYMENTÓW

Psychologowie przeprowadzają eksperymenty po to, aby odkryć pewne stałe


tendencje w zachowaniu badanych przez siebie obiektów. Na przykład mogą
się interesować liczbą błędów popełnianych w uczeniu się drogi w labiryncie
przez szczury głodne lub najedzone albo związkiem pomiędzy wielkością
podwyżki a wzrostem wydajności pracy. Oba te przykłady dotyczą badań
nad motywacją i w obu z nich możemy oczekiwać pewnych regularności
w zachowaniu się badanych obiektów. Szczury głodne powinny popełniać
mniejszą liczbę błędów, a pracownicy, którzy otrzymali podwyżkę, powinni
pracować wydajniej. W praktyce jednak bardzo rzadko mamy do czynienia
z jednoznacznymi wynikami badań: niekoniecznie wszyscy ci pracownicy,
którzy dostali podwyżkę, muszą pracować lepiej od wszystkich tych, którzy
jej nie dostali. Co więcej – powtórzenie tego samego eksperymentu w innej
grupie osób badanych, nawet wtedy, gdy obydwie grupy zostały dobrane
w sposób losowy z całej badanej populacji, nie gwarantuje, że badacze uzy-
skają po raz drugi te same wyniki.

EKSPERYMENT PSYCHOLOGICZNY TO DOŚWIADCZENIE LOSOWE

Wyobraźmy sobie, że badamy umiejętność szybkiego podejmowania decyzji


w dwóch różnych grupach: szachistów i kierowców rajdowych. Przyjmijmy,
że są pewne podstawy, aby sądzić, że kierowcy rajdowi szybciej podejmują
decyzje. W celu zweryfikowania tej hipotezy tworzymy grę komputerową,
której istota polega na chodzeniu po labiryncie i zbieraniu przedmiotów.
Podczas tej gry osoby badane muszą podjąć 10 prostych decyzji („pójść
w prawo czy w lewo?”, „wziąć ten przedmiot czy inny?” itd.). Zmienną za-
leżną jest czas, jaki upływa od pojawienia się każdego problemu na monito-
rze do podjęcia decyzji przez osobę badaną (czyli w praktyce np. do kliknię-
cia myszką). Jeżeli w eksperymencie weźmie udział 40 osób, to w sumie ba-
dacze zbiorą w tej grupie 400 danych. Każdemu zachowaniu się każdej oso-
by badanej zostanie przyporządkowana dokładnie jedna liczba. Wyobraźmy
sobie teraz, że do jednego pudełka wrzucono karteczki z kolejnymi numera-
mi osób badanych od 1 do 40, a do drugiego 400 karteczek z czasami reak-
cji. Czy istnieje jakakolwiek szansa, aby przewidzieć, które 10 karteczek
z czasami reakcji oznacza reakcje gracza z numerem 6? Liczba możliwych
zbiorów 10-elementowych wylosowanych ze zbioru 400 czasów reakcji wy-
nosi 2,57981 × 1019 (liczba ta ma w sumie dwadzieścia cyfr). Wydaje się
bardzo nieprawdopodobne, aby komukolwiek udało się zgadnąć, które dzie-
sięć wyników odpowiada każdemu z uczestników.
96 PRAWDOPODOBIEŃSTWO I ZMIENNA LOSOWA

Przykład z losowaniem jest i tak dużo prostszy niż przewidywanie wyników


rzeczywistego eksperymentu. Przy rzeczywistym badaniu eksperymentator
też nie jest w stanie przewidzieć, jaki konkretnie wynik uzyska dana osoba
badana. Co więcej, liczba wyników, jakie może ona uzyskać, jest teoretycz-
nie nieograniczona. Można więc całkiem zasadnie potraktować każdy ekspe-
ryment jako pewne doświadczenie losowe, to znaczy takie doświadczenie,
którego wynik jest nieznany, zanim to doświadczenie się nie odbędzie. Po-
dobnie jest z rzutem kostką do gry – nie wiadomo, ile wypadnie oczek, do-
póki się tej kostki nie rzuci.

ZMIENNA LOSOWA – CO TO TAKIEGO?

Podstawową cechą każdego eksperymentu psychologicznego jest pomiar za-


chowania się badanych obiektów. Jak pamiętasz, pomiar to przypisywanie
liczb badanym obiektom, czyli każdemu mierzonemu zachowaniu się osoby
badanej jest przypisywana jakaś liczba. Ponieważ każde takie zachowanie
można potraktować jako doświadczenie losowe, więc również liczby przypi-
sywane poszczególnym reakcjom mają do pewnego stopnia charakter loso-
wy. Ta „losowość” ma jednak szczególny charakter.
Wróćmy do przykładu z grą decyzyjną kierowców rajdowych i szachistów.
Czas, jaki poświęcają oni na podjęcie każdej decyzji, nie jest przecież przy-
pisywany im przypadkowo. Jest to wynik pomiaru dokonanego za pomocą
specjalnej aparatury. W przypadku eksperymentu przeprowadzanego za po-
mocą komputera będzie to pomiar czasu rejestrowany przez program kom-
puterowy na podstawie zegara systemowego w komputerze. Poprzez „loso-
wość” rozumiemy to, że nie da się z góry przewidzieć czasów przypisywa-
nych poszczególnym reakcjom.
W statystyce matematycznej wartości zmiennych przypisywanych zdarze-
niom przypadkowym określa się jako wartości zmiennej losowej, a zmien-
ną, która jest związana ze zbiorem przypadkowych zdarzeń, określa się mia-
nem zmiennej losowej. Używając określeń: „doświadczenie losowe”,
„zmienna losowa” i „wartości zmiennej losowej”, można opisać ekspery-
ment psychologiczny jako zbiór doświadczeń losowych (reakcji badanych
obiektów), w wyniku którego dokonuje się pomiarów jakiejś zmiennej loso-
wej (czyli zmiennej zależnej). Rezultat każdego pojedynczego pomiaru jest
wartością zmiennej losowej (czyli wartością zmiennej zależnej).

WYNIKI RZUTU KOSTKĄ – PRZYKŁAD ZMIENNEJ LOSOWEJ

Typowym doświadczeniem, którego wyniku nie da się z góry przewidzieć,


jest rzut kostką. Rzeczywiście, zanim tego nie wykonamy, nie wiadomo, na
którą ściankę kostka upadnie. Tak się składa, że większość kostek ma różną
WYNIKI EKSPERYMENTU JAKO ZMIENNA LOSOWA 97

liczbę oczek na swoich ściankach. Można więc liczbę oczek na ściance wi-
dzianej z góry po rzucie potraktować jako zmienną losową. Można też sytu-
ację nieco skomplikować, np. rzucając dwiema kostkami. Wówczas zmienną
losową może być np. suma oczek na obydwu „górnych” ściankach kostek.
Najmniejsza wartość takiej zmiennej równa się 2. Wartość tę można uzyskać
wtedy, gdy na obu kostkach wypadną jedynki.
Największa zaś wartość wynosi 12 – sumę taką otrzymamy, gdy na obu
kostkach wypadną szóstki. Zarówno w przypadku sumy równej 2, jak i sumy
równej 12, liczba sytuacji, w których mogą one wypaść na dwóch kostkach,
jest taka sama: dla sumy równej 2 na obu kostkach muszą być jedynki, a dla
sumy równej 12 na obu kostkach muszą być szóstki.
Liczba wszystkich możliwych kombinacji oczek na dwóch kostkach wynosi
36. Łatwo to policzyć. Załóżmy, że na kostce numer 1 zawsze wypada je-
dynka, a na kostce numer 2 może się pojawić dowolna liczba oczek, czyli
1 albo 2, albo 3, albo 4, albo 5, albo 6. Tak więc przy ciągle wypadającej je-
dynce na pierwszej kostce i dowolnej liczbie oczek na kostce drugiej możli-
wych jest sześć różnych „wypadnięć”:
(1,1); (1,2); (1,3); (1,4); (1,5); (1,6)
gdzie pierwsza cyfra oznacza liczbę oczek na pierwszej kostce, a druga – na
drugiej.
Jeżeli teraz przyjmiemy, że na kostce numer 1 zawsze ciągle wypada dwój-
ka, a na kostce numer 2 dowolna liczba oczek, to uzyskamy kolejnych 6 par
itd. W sumie oznacza to, że liczba wszystkich możliwych par wynosi 36
(6 × 6 = 36). Wszystkie te kombinacje oraz sumy oczek na obu kostkach
przedstawione są w tabeli 4.2.

Tabela 4.2. Możliwe do uzy- Liczba Liczba oczek na kostce nr 2


skania sumy oczek przy rzu- oczek
cie dwoma kostkami na kostce 1 2 3 4 5 6
nr 1
1 1+1=2 1+2=3 1+3=4 1+4=5 1+5=6 1+6=7
2 2+1=3 2+2=4 2+3=5 2+4=6 2+5=7 2+6=8
3 3+1=4 3+2=5 3+3=6 3+4=7 3+5=8 3+6=9
4 4+1=5 4+2=6 4+3=7 4+4=8 4+5=9 4+6=10
5 5+1=6 5+2=7 5+3=8 5+4=9 5+5=10 5+6=11
6 6+1=7 6+2=8 6+3=9 6+4=10 6+5=11 6+6=12

Na pewno analizowanie wszystkich sum z tabeli 4.2 nie jest zajęciem szcze-
gólnie ciekawym. Zwróć jednak uwagę na to, że sumy równe 2 i 12 wpisali-
śmy tylko raz. Każdą z nich można otrzymać w jednym szczególnym przy-
98 PRAWDOPODOBIEŃSTWO I ZMIENNA LOSOWA

padku: w odniesieniu do sumy równej 2 na obu kostkach muszą być jedynki,


a do sumy równej 12 na obu kostkach muszą być szóstki. Zgodnie z często-
ściowym rozumieniem prawdopodobieństwa, ponieważ liczba wszystkich
możliwych kombinacji wynosi 36, więc prawdopodobieństwo uzyskania
1
sumy równej 2 przy rzucie dwoma kostkami wynosi i jest ono dokładnie
36
takie samo, jak prawdopodobieństwo uzyskania sumy równej 12.
Zwróć teraz uwagę na sumę równą 7. W całej tabeli 4.2 pojawia się ona aż
sześciokrotnie. Podobnie jak poprzednio, również dla sumy równej 7 może-
my obliczyć prawdopodobieństwo jej wypadnięcia na dwóch kostkach, dzie-
ląc liczbę sytuacji, w których suma ta może się pojawić (czyli 6), przez licz-
bę wszystkich możliwych kombinacji sum (czyli 36).
W tabeli 4.3 przedstawione są poszczególne wartości zmiennej losowej
„suma oczek na dwóch kostkach”, jakie można uzyskać, a także to, jak czę-
sto takie sumy mogą się pojawić oraz jakie jest prawdopodobieństwo ich
otrzymania.

Tabela 4.3. Prawdopodobień- Suma oczek Liczba takich układów Prawdopodobieństwo


stwo uzyskania różnych sum na dwóch kostkach wyników a obu kostkach otrzymania takiej sumy
oczek na dwóch kostkach
1
2 1
36
2
3 2
36
3
4 3
36
4
5 4
36
5
6 5
36
6
7 6
36
5
8 5
36
4
9 4
36
3
10 3
36
2
11 2
36
1
12 1
36
Suma wszystkich możliwych
36
do uzyskania wartości
WYNIKI EKSPERYMENTU JAKO ZMIENNA LOSOWA 99

ROZKŁAD ZMIENNEJ LOSOWEJ

Przyjrzyjmy się dwóm skrajnym kolumnom z tabeli 4.3, zawierającej praw-


dopodobieństwo uzyskania różnych sum oczek w rzucie dwoma kostkami.
Wartości w kolumnie z lewej strony to możliwe do uzyskania wartości
zmiennej losowej (w przypadku eksperymentu byłyby to wartości zmiennej
zależnej). Wartości w kolumnie z prawej strony to prawdopodobieństwa
uzyskania poszczególnych wartości z kolumny z lewej strony. Na przykład
1
prawdopodobieństwo uzyskania sumy oczek równej 2 wynosi .
36
Z formalnego punktu widzenia, układ par składający się z dwóch liczb,
z których pierwsza jest wartością zmiennej losowej (czyli możliwym do
uzyskania wynikiem), a druga określa prawdopodobieństwo, z jakim taki
wynik można uzyskać, nazywa się rozkładem zmiennej losowej. W przy-
padku sumy oczek na dwóch kostkach rozkład zmiennej losowej to po prostu
zbiór par, z których pierwsza liczba jest wartością zmiennej (czyli sumą
oczek), a druga prawdopodobieństwem uzyskania takiej wartości. Rozkład
ten można także przedstawić na wykresie, takim jak wykres 4.1.
Rysunek 4.1. Rozkład praw- 0,18
Prawdopodobieństwo wystąpienia danej sumy oczek

dopodobieństw zmiennej lo-


sowej (suma oczek na dwóch 0,16
kostkach) [STATISTICA]
0,14

0,12

0,10

0,08

0,06

0,04

0,02

0,00
2 3 4 5 6 7 8 9 10 11 12
Suma oczek na dwóch kostkach

TEORETYCZNY I EMPIRYCZNY ROZKŁAD ZMIENNEJ LOSOWEJ

Mówiąc o rozkładzie zmiennej losowej, musimy rozróżnić dwie sytuacje.


Rozkład możliwych wyników rzutów dwiema kostkami przedstawiony w ta-
beli 4.3 jest rozkładem teoretycznym. Wartości wpisane do tabeli są wyni-
kiem znajomości rachunku prawdopodobieństwa i wiedzy na temat często-
ści, z jaką kostka do gry powinna upadać na poszczególne ścianki. Taki ide-
alny rozkład wartości zmiennej losowej w praktyce zdarza się niezmiernie
100 PRAWDOPODOBIEŃSTWO I ZMIENNA LOSOWA

rzadko. Tym, co otrzymujemy w wyniku przeprowadzenia badań, jest empi-


ryczny rozkład zmiennej losowej.
Sam możesz się łatwo zorientować, jak bardzo rozkład empiryczny może się
różnić od rozkładu teoretycznego. Wystarczy tylko, że zaczniesz rzucać
dwoma kostkami lub monetami i zapisywać wyniki. Jeślibyś miał pokusę
przeprowadzenia tego doświadczenia, to mamy dla Ciebie dwie wiadomości
– obydwie dobre.
• Po pierwsze, pokusa taka nie jest aż tak bardzo dziwaczna, bo wielu ma-
tematyków i statystyków rzeczywiście już wcześniej tak się zabawiało
w imię nauki.
• Po drugie, nie musisz tego robić, ponieważ z tych eksperymentów rze-
czywiście wynika, że im więcej razy się rzuca np. monetą, tym bardziej
proporcja orłów do reszek zbliża się do 0,5.
W doświadczeniu, które wymagało niewątpliwie ogromnej wytrwałości,
Karl Pearson (jeden z pierwszych guru w dziedzinie statystyki) otrzymał
5005 głów na 10 000 rzutów (Pearson był Anglikiem, a angielskie monety
nie mają orłów i reszek, tylko głowy i ogony – ang. heads and tails).
Jeszcze bardziej wytrwały był matematyk Wsiewołod Romanowski (1879-
* Niestety, nie udało się nam -1954)*, który podrzucał monetę 80 640 razy i uzyskał 49,23% orłów. Warto
znaleźć zdjęcia rosyjskiego ma- zauważyć, że musiał on być niezwykle wytrwały. Gdyby podrzucał monetę
tematyka.
2 razy na sekundę, wówczas przy tej liczbie podrzutów zajęłoby mu to bez
** Zob. Gajek, L., Kałuszka, M. przerwy ponad 11 godzin**.
(1996). Wnioskowanie staty-
styczne. Warszawa: PWN. Tak na marginesie, w sytuacji, gdy rozkład empiryczny różni się wyraźnie
od teoretycznego, zawsze możemy pytać, czy nie ma jakichś istotnych czyn-
ników, które wpływają na charakter tego rozkładu. Na przykład może być
tak, że moneta jest niesymetryczna i istnieje tendencja do tego, aby orły wy-
padały częściej niż reszki.
Trudno jednak byłoby uwierzyć w to, że Romanowski albo Pearson posłu-
giwali się w swoich doświadczeniach fałszywymi monetami. Nawet przy in-
tuicyjnym rozumieniu tego, co jest istotne, a co nie, jesteśmy dosyć mocno
przekonani, że mniej niż 1% odchyleń od teoretycznie przewidywanej czę-
stości nie daje podstaw do tego, by monety uznawać za fałszywe.

EKSPERYMENT PSYCHOLOGICZNY – POSZUKIWANIE PRZYCZYN ZMIENNOŚCI

Eksperyment psychologiczny możemy traktować jako pewnego rodzaju do-


świadczenie losowe, to znaczy takie doświadczenie, w którym nie da się
z góry przewidzieć reakcji poszczególnych osób badanych, a co za tym idzie
– uzyskiwanych przez nich wartości zmiennej zależnej.
WYNIKI EKSPERYMENTU JAKO ZMIENNA LOSOWA 101

Wróćmy do opisanego wcześniej teoretycznego doświadczenia z pomiarem


czasów reakcji u kierowców rajdowych i szachistów. W tym hipotetycznym
eksperymencie wyobraziliśmy sobie zbiór 400 czasów reakcji 40 osób bada-
nych. Napisaliśmy również, że możemy ten zbiór wyników potraktować jako
zmienną losową, ponieważ nie dałoby się z góry powiedzieć, np. które 10
czasów reakcji pochodzi od której osoby badanej. Pamiętasz jednak, że po-
łowa osób badanych w naszym eksperymencie to szachiści, a połowa to kie-
rowcy rajdowi. Tak więc każdej osobie badanej przypisane są tak naprawdę
wartości ze zbiorów dwóch zmiennych: czasów reakcji oraz profesji (kie-
rowca lub szachista).
Załóżmy, że naprawdę przeprowadziliśmy ten eksperyment i na oddzielnych
kartkach zapisaliśmy numer każdej osoby badanej, to, czy jest ona kierowcą
czy szachistą, oraz zbiór dziesięciu jej czasów reakcji. Jak sądzisz, czy na
jednej kartce, odpowiadającej jednej osobie, będą zapisane dokładnie takie
same czasy reakcji? Czy zapisane na kartkach czasy kilku osób należących
do tej samej kategorii, np. kierowców, będą identyczne? Żeby odpowiedzieć
na te pytania, wcale nie trzeba robić badań. Oczywiście, wszystkie wyniki,
bardziej lub mniej, będą się od siebie różniły.
Celem naszego eksperymentu było sprawdzenie, czy istnieją różnice pomię-
dzy czasami reakcji w grupie kierowców i w grupie szachistów. Możemy
więc powiedzieć, że celem tego eksperymentu było znalezienie jakiejś regu-
larności w rozkładzie zmiennej „czasy reakcji”. Choć nie da się z góry prze-
widzieć, kto będzie reagował w jakim czasie, to jednak po przeprowadzeniu
eksperymentu może się okazać, że czasy reakcji kierowców rajdowych są
z reguły krótsze niż czasy szachistów. Będziemy więc mieli podstawy do te-
go, by zakwestionować przekonanie o całkowicie losowym charakterze roz-
kładu czasów reakcji. W praktyce analiza wyników eksperymentów psycho-
logicznych sprowadza się do znalezienia podstawy do zakwestionowania za-
łożenia o losowym charakterze rozkładu wyników.

ZMIENNE LOSOWE CIĄGŁE I DYSKRETNE

* W matematyce słowo „dys- Na koniec tej części jeszcze jedno ważne rozróżnienie. Z formalnego punktu
kretny” ma specyficzne znacze- widzenia wszystkie zmienne można podzielić na dwa rodzaje – zmienne nie-
nie i bynajmniej nie wskazuje na
osobę umiejącą dochować ta- ciągłe, zwane inaczej dyskretnymi*, i zmienne ciągłe. Podział ten dotyczy
jemnicy. Łacińskie słowo discre- tak naprawdę tego, ile wartości liczbowych może przyjąć dana zmienna.
tim znaczy „oddzielnie”, „osob-
no”, a to bardzo dobrze oddaje • W przypadku zmiennej dyskretnej (jeszcze inaczej: skokowej) liczba ta
ideę ciągu oddzielnych znaków
wziętych z pewnego zbioru jest ograniczona. Na przykład dla zmiennej „liczba oczek na kostce do
skończonego; tak więc, oprócz gry” możliwe są jedynie wartości ze zbioru: {1, 2, 3, 4, 5, 6}.
„pełnego umiaru”, „dyskretny”
to także „nieciągły” lub „prze- • Jeżeli zmienna ma charakter ciągły, to może przyjmować nieskończoną
rywany”.
liczbę wartości, nawet gdy są one ograniczone przez jakąś wartość mi-
102 PRAWDOPODOBIEŃSTWO I ZMIENNA LOSOWA

nimalną i maksymalną. Przykładem może być oporność skóry mierzona


za pomocą psychogalwanometru. Jest to jeden z częściej stosowanych
* Por. Sosnowski, T., Zimmer, pomiarów w badaniach psychofizjologicznych*. Skóra człowieka może
K. (red.) (1993). Metody psycho-
fizjologiczne w badaniach psy- przewodzić prąd elektryczny, który przy małym napięciu (np. 0,5 wolta)
chologicznych. Warszawa: nie jest szkodliwy. Natężenie przechodzącego przez skórę prądu (około
PWN.
5 µA – mikroamperów) zmienia się oczywiście w sposób ciągły i w za-
leżności od aparatury pomiarowej można je mierzyć z bardzo dużą do-
kładnością.

WYKRESY ROZKŁADU PRAWDOPODOBIEŃSTWA DYSKRETNEJ ZMIENNEJ LOSOWEJ

Porównajmy teraz wykresy rozkładu prawdopodobieństw dyskretnej i ciągłej


zmiennej losowej. Rozkład dyskretnej zmiennej losowej to układ par. Pierw-
sza wartość oznacza wartość zmiennej, a druga prawdopodobieństwo jej
otrzymania. Taki właśnie rozkład zmiennej „suma oczek na dwóch kost-
kach” przedstawiony jest w tabeli 4.3.
Możemy ten rozkład przedstawić na wykresie. Na osi poziomej umieszczone
zostaną wówczas wszystkie wartości zmiennej losowej, a na osi pionowej
prawdopodobieństwa ich uzyskania. Wykres taki to w zasadzie 11 punktów
w układzie współrzędnych. W praktyce jednak bardzo rzadko (a właściwie
nigdy) można spotkać taki wykres. Jeśli w ogóle, to najczęściej zamiast
punktów rysuje się słupki, np. tak jak na rysunku 4.1.

ZMIENNE CIĄGŁE – PRZEDZIAŁOWY CHARAKTER POMIARU

Narysowanie wykresu rozkładu prawdopodobieństw zmiennej losowej ciąg-


łej nie jest już takie proste, jak w przypadku zmiennych dyskretnych.
W przypadku zmiennych ciągłych nie da się przedstawić rozkładu prawdo-
podobieństwa w postaci zbioru par {wartość zmiennej, prawdopodobień-
stwo}. Powodem jest to, że liczba wartości, jakie może przyjmować zmienna
losowa, jest nieskończona. Wartości zmiennej na osi OX są zatem ułożone
nieskończenie gęsto – między dowolnymi dwoma zawsze można znaleźć
wartość pośrednią. W przypadku zmiennej losowej ciągłej nie da się określić
prawdopodobieństwa, z jakim przyjmie ona pewną wartość dokładnie w jed-
nym punkcie na osi OX. Dlaczego?
Z matematycznego punktu widzenia pojedynczy punkt jest nieskończenie
mały. Z kolei wzdłuż całej osi OX (tzw. odciętej – bo leży! – ☺) takich nie-
skończenie małych punktów jest nieskończenie wiele. A zatem prawdopo-
1
dobieństwo wylosowania jednego punktu wynosi p = , czyli 0.

WYNIKI EKSPERYMENTU JAKO ZMIENNA LOSOWA 103

W praktyce jednak często posługujemy się zmiennymi ciągłymi i raczej nie


mamy problemów z podawaniem ich wartości. Nie są to jednak wartości
punktowe. Na przykład stwierdzenie, że wartość przewodnictwa skóry osoby
badanej w jakimś momencie wynosi 5,5 µA, nie oznacza dokładnie tej war-
tości, ale to, że wynik należy do pewnego przedziału możliwych do uzyska-
nia wyników reprezentowanych przez 5,5 µA. Wiele zależy od dokładności,
z jaką przeprowadzany jest pomiar. Jeżeli pomiarów dokonywano np. z do-
kładnością do 0,1 mikroampera, to rzeczywisty wynik osoby badanej mógł
być minimalnie mniejszy lub minimalnie większy niż 5,5 µA, ale w sumie
długość całego przedziału, w jakim znajdował się rzeczywisty wynik, nie
mogła być większa niż wartość jednostki pomiarowej, czyli 0,1 µA. Tak
więc wynik pomiaru równy 5,5 µA w rzeczywistości oznacza którąkolwiek
wartość z przedziału 5,5 ± 0,05 (0,05 to połowa z jednostki równej 0,1), czy-
li 5,45–5,55.
Choć na pierwszy rzut oka może się to wydać dziwne, to jednak z przedzia-
łowym pomiarem zmiennych ciągłych mamy do czynienia znacznie częściej,
niż nam się wydaje. Jeżeli np. czytasz w gazecie, że jakiś film będzie trwał
119 minut, nie oznacza to dokładnie 119 minut, ale pewien przedział cza-
sów, które są bliżej 119 niż 118 czy 120 minut. Pomiar zmiennych ciągłych
ma charakter przedziałowy bez względu na dokładność pomiaru. Czas trwa-
nia filmu podaje się w minutach, ponieważ na ogół nie ma żadnego powodu,
żeby czynić to z większą dokładnością, np. do setnej części sekundy. Inaczej
jest jednak w przypadku niektórych dyscyplin sportowych – czasy zjazdów
na nartach mierzy się z dokładnością do jednej tysięcznej sekundy.

WYKRES ROZKŁADU PRAWDOPODOBIEŃSTWA ZMIENNEJ LOSOWEJ CIĄGŁEJ

Wykresy w matematyce nie są wykresami czegoś, co naprawdę istnieje –


lecz wynikiem pewnej idealizacji. Jeżeli dziecko uczy się twierdzenia Pita-
gorasa dotyczącego trójkątów prostokątnych, to uczy się też, jak narysować
taki trójkąt. Jest to oczywiście trójkąt, który ma jeden kąt o mierze 90 stopni.
Praktycznie niemożliwe jest narysowanie idealnego trójkąta prostokątnego.
Nie przeszkadza to jednak dziecku w nauczeniu się poprawnego stosowania
twierdzenia Pitagorasa. Umie to zrobić, dlatego że konkretny rysunek tylko
reprezentuje jego wiedzę na temat trójkątów prostokątnych, twierdzenie zaś
dotyczy ogólnej zasady, a nie tylko ograniczonej liczby poprawnie naryso-
wanych trójkątów.
Podobnie jest z wykresami prawdopodobieństw zmiennej losowej ciągłej –
są one jedynie symboliczną reprezentacją tego, co wiemy na temat rozkładu
danej zmiennej. Ciągłe zmienne mogą przybrać nieskończenie wiele warto-
ści, więc zakładamy, że oś, na której są zaznaczane wartości zmiennej (naj-
104 PRAWDOPODOBIEŃSTWO I ZMIENNA LOSOWA

częściej oś OX), zawiera nieskończenie wiele punktów. Ponieważ nie da się


określić prawdopodobieństwa dla każdego pojedynczego punktu ze zbioru
nieskończenie wielu punktów, nie da się też narysować takiego wykresu, na
którym punktom na osi wartości zmiennej losowej odpowiadają punkty na
osi prawdopodobieństwa.
To, co da się wyrazić na wykresie, to prawdopodobieństwo uzyskania warto-
ści z pewnego przedziału. Jeżeli pomiar przewodnictwa skórnego w jakimś
badaniu nie przekroczył np. 11 µA, to wiadomo, że prawdopodobieństwo, iż
przypadkowy wynik ze zbioru wyników tego eksperymentu będzie miał war-
tość mniejszą niż 11 µA, wynosi 1. Załóżmy także teoretycznie, że prawdo-
2
podobieństwo uzyskania wyników mniejszych niż 7 µA wynosi , a praw-
3
1
dopodobieństwo uzyskania wyniku mniejszego niż 5 µA wynosi .
3
Możemy wiedzę na temat tej zależności przedstawić na wykresie, takim jak
na rysunku 4.2. Na osi OX zaznaczone są tam wartości zmiennej losowej
w zakresie od 0 do 11 µA, a na osi OY wartości prawdopodobieństwa uzy-
skania dowolnej wartości z zakresu 0 do 11µA i wszystkich wartości od niej
mniejszych. Dla 11 µA mamy więc wartość równą 1, gdyż prawdopodobień-
stwo jej uzyskania i dowolnej wartości niższej od 11 wynosi 1. Na rysunku
4.2 zaznaczyliśmy też prawdopodobieństwo uzyskania wartości niższych niż
7 µA oraz niższych niż 5 µA. Wykres przedstawiony na rysunku 4.2 nosi na-
zwę dystrybuanty zmiennej losowej.
Dystrybuanta nie jest jedynym typem wykresu pokazującym związek mię-
dzy wartościami ciągłej zmiennej losowej a prawdopodobieństwem. Drugi
rodzaj wykresu to wykres gęstości prawdopodobieństwa. Powstaje on
z matematycznego przetworzenia dystrybuanty. Ma on taką właściwość, że
stosunek pola powierzchni pod funkcją gęstości ograniczonego przez dwie
proste przechodzące przez punkty, nazwijmy je A i B, do pola powierzchni
pod całym wykresem równy jest prawdopodobieństwu otrzymania dowolnej
wartości z przedziału (A, B).
Samo pojęcie gęstości jest określeniem matematycznym, ale do pewnego
stopnia można je intuicyjnie zrozumieć. W statystyce mówi się czasem, że
oznacza ono stopień, w jakim prawdopodobieństwo jest „rozmazane” na osi
OY. Innymi słowy – prawdopodobieństwo trafienia wartości z niektórych re-
jonów zmiennej losowej przedstawione na osi OX jest większe niż z innych,
gdy wyższe są w tych rejonach wartości gęstości prawdopodobieństwa za-
znaczone na osi OY. Zależności pomiędzy wykresem dystrybuanty a wykre-
sem gęstości przedstawiamy na przykładzie rozkładu inteligencji na ry-
sunku 4.3.
WYNIKI EKSPERYMENTU JAKO ZMIENNA LOSOWA 105

1,0
Rysunek 4.2. Dystrybuanta
zmiennej losowej dla pomia-
rów przewodnictwa skórnego 0,9
[STATISTICA]
0,8

p(7mA i mniej)
0,7

0,6

0,5

0,4 p(5mA i mniej)

0,3

0,2

0,1

0,0
1 3 5 7 9 11

Funkcja gęstości prawdopodobieństwa Dystrybuanta


Rysunek 4.3. Wykres gęsto-
ści prawdopodobieństwa 1,0
i dystrybuanta rozkładu 0,028 p(120 i mniej)
ilorazu inteligencji 0,9
0,026
[STATISTICA]
0,024 p(110 i mniej) 0,8 p(110 i mniej)
0,022
0,7
0,020

0,018 0,6
p(120 i mniej)
0,016
0,5
0,014

0,012 0,4

0,010
0,3
0,008

0,006 0,2

0,004
0,1
0,002

0,000 0,0
70 80 90 100 110 120 130 70 80 90 100 110 120 130
106 PRAWDOPODOBIEŃSTWO I ZMIENNA LOSOWA

Na rysunku 4.3 po prawej stronie jest przedstawiona dystrybuanta rozkładu


ilorazu inteligencji mierzonego testem WAIS (skrót ten oznacza nazwę testu,
którego autorem jest David Wechsler). Po lewej stronie znajduje się wykres
gęstości prawdopodobieństwa dla tego rozkładu. Na osi OX (odciętej, po-
ziomej) obu wykresów przedstawione są wartości ilorazów inteligencji, na-
tomiast wykresy różnią się tym, co jest na osi OY (rzędnej, pionowej).
Na wykresie dystrybuanty oś OY oznacza wartość prawdopodobieństwa, że
np. osoba, z którą rozmawiasz, ma określony iloraz inteligencji lub jakikol-
wiek iloraz niższy od niego. Z wykresu wynika, że z prawdopodobieństwem
około 0,75 możesz się spodziewać, że twój rozmówca ma iloraz inteligencji
równy 110 lub niższy, a z prawdopodobieństwem ponad 0,9 możesz być pe-
wien, że jego iloraz jest równy lub niższy od 120. Z kolei na wykresie gęsto-
ści prawdopodobieństwa wartości funkcji gęstości dla tych ilorazów przed-
stawione są w postaci wielkości odpowiednich pól powierzchni pod krzywą.
To proste: większe pole na wykresie gęstości prawdopodobieństw odpowia-
da wyższemu prawdopodobieństwu odczytanemu z dystrybuanty.

4.3. PORZĄDKOWANIE DANYCH, CZYLI O SZEREGU ROZDZIELCZYM

DUŻO DANYCH

Przypuśćmy, że przeprowadzasz eksperyment, w którym mierzysz reakcje


fizjologiczne osób badanych na różne dźwięki płynące z głośników. Zmien-
nymi zależnymi w tym badaniu są: ciśnienie krwi oraz napięcie jednego
z mięśni twarzy. Pomiar tych zmiennych jest prowadzony trzy razy na se-
kundę. Gdyby taki eksperyment trwał tylko pięć minut, wtedy od jednej oso-
by badanej zebrałbyś 900 danych o ciśnieniu krwi i tyleż samo o napięciu
mięśnia. Ale przecież eksperyment ma sens tylko wtedy, gdy kontrolujesz
i manipulujesz zmiennością niezależną. Załóżmy więc, że dźwięki emitowa-
ne z głośników różnią się tylko ze względu na dwie dwuwartościowe cechy:
wysokość i głośność, czyli dwie zmienne niezależne główne. Oznacza to, że
jeśli chcesz ustalić, w jakim zakresie cechy słuchanych dźwięków wpłynęły
na ciśnienie krwi i napięcie mięśnia odbiorcy, musisz przebadać cztery gru-
py osób (2 zmienne niezależne razy 2 poziomy każdej z tych zmiennych).
Jeśli w każdej grupie przebadasz po 40 osób, to w sumie zbierzesz dane od
160 ludzi. No to podsumujmy: 900 pomiarów ciśnienia krwi + 900 pomia-
rów napięcia mięśnia = 1800 pomiarów od jednej osoby. Ponieważ przeba-
dasz 160 osób, więc w całym eksperymencie zgromadzisz 1800 × 160 =
= 288 000 danych!
WYNIKI EKSPERYMENTU JAKO ZMIENNA LOSOWA 107

Liczmy dalej: jeżeli każda dana jest zapisana w formacie pięciocyfrowym


(plus przecinek i spacja rozdzielająca kolejne liczby, np. 5,4872, 7,7762,
5,9992 itd.), to zarejestrujesz 288 × 7 = 2 016 000 znaków (cyfr, przecinków
i spacji). Przełóżmy to na jakiś konkret. Jeżeli np. na jednej stronie Worda
zapisanej 12-punktowym Timesem z interlinią 1,5 i marginesami po 2,54 cm
z każdej strony mieści się około 2000 znaków, włącznie ze spacjami, to żeby
zapisać wyniki Twojego badania, potrzebujesz 1008 stron papieru, czyli po-
nad 2 ryzy. Przypuśćmy, że chciałbyś nieco przyjrzeć się tym danym i wy-
drukowałbyś je papierze. Jedna strona kartki w formacie A4 ma wymiary
210 mm na 297 mm, tzn. ma powierzchnię równą 0,06237 m2. Żeby rozło-
żyć wszystkie kartki na ziemi i „rzucić okiem” na zapisane na nich dane, po-
trzebowałbyś przestrzeni o powierzchni 62,87 m2, czyli mniej więcej tyle, ile
ma średniej wielkości mieszkanie w bloku lub kwadrat o boku niespełna
8 m. No to teraz możesz już sobie... rzucić okiem.
Operowanie taką liczbą danych nie sprawia „kłopotu” komputerom, ale
człowiekowi na pewno nie jest łatwo się zorientować, o co chodzi w tej ma-
sie znaków. A już na pewno nie jest możliwe odpowiedzenie na pytanie, czy
jakiekolwiek hipotezy związane z tymi liczbami są prawdziwe.

ZBYT WIELE DANYCH TO BRAK DANYCH

Podstawowym problemem z dużymi zbiorami danych jest nadmiar informa-


cji. Aby mieć jakikolwiek wgląd w taki zbiór danych, porządkuje się je
w szereg rozdzielczy lub inaczej szereg klasowy, czyli kategoryzuje się
je w kilka lub kilkanaście przedziałów o stałej wielkości.
Zbudowanie szeregu rozdzielczego pozwala badaczowi z jednej strony na
uporządkowanie wszystkich zgromadzonych przez niego danych, a z drugiej
umożliwia znaczącą redukcję nadmiaru informacji. Im bardziej jednak
upodobnimy do siebie wyniki, tzn. im mniej utworzymy klas, tym większą
przeprowadzimy redukcję informacji. Podstawowy problem przy tworzeniu
szeregu sprowadza się zatem do wyważenia między tym, na jak dużą stratę
informacji możemy sobie pozwolić, a tym, iloma wartościami liczbowymi
jesteśmy w stanie sensownie operować.

ZACZNIJMY JESZCZE RAZ: PO PIERWSZE, MUSIMY MIEĆ... ARMATY

Przytoczmy w tym miejscu wyniki pewnych badań nad zainteresowaniem


statystyką przez studentów psychologii. Badania polegały na wykonaniu
przez studentów 31 zadań, których rozwiązanie traktowano jako wskaźnik
ich zainteresowania tym przedmiotem. Każda osoba badana mogła otrzymać
od 0 do 31 punktów, gdzie 0 oznaczało całkowity brak zainteresowania sta-
108 PRAWDOPODOBIEŃSTWO I ZMIENNA LOSOWA

tystyką, a 31 – bezgraniczną miłość do tego przedmiotu. Być może, nie jest


to najbardziej oryginalny sposób operacjonalizacji „zainteresowania staty-
styką”, ale pozostańmy przy nim – chodzi nam tutaj raczej o pewną ilustra-
cję. Przebadano 50 osób. Zobaczmy, jakie wyniki otrzymali studenci (ko-
* No i oczywiście oznaczają lejne liczby oznaczają, ile kto rozwiązał zadań*):
także tytułowe armaty.
27, 15, 5, 27, 14, 14, 15, 22, 23, 16, 19, 20, 10, 14, 17, 18, 23, 25, 26, 29, 2,
4, 16, 17, 12, 9, 13, 14, 16, 20, 21, 17, 17, 14, 19, 12, 13, 18, 16, 12, 5, 8, 10,
16, 18, 19, 22, 12, 23, 16
Na pierwszy rzut oka niewiele wynika z takiego zapisu. Jeżeli chcemy się
dowiedzieć czegoś sensownego o osobach badanych, trzeba coś z tymi licz-
bami zrobić. Na razie jest ich zbyt wiele i nie są uporządkowane. Poukła-
dajmy je więc np. rosnąco:
2, 4, 5, 5, 8, 9, 10, 10, 12, 12, 12, 12, 13, 13, 14, 14, 14, 14, 14, 15, 15, 16,
16, 16, 16, 16, 16, 17, 17, 17, 17, 18, 18, 18, 19, 19, 19, 20, 20, 21, 22, 22,
23, 23, 23, 25, 26, 27, 27, 29
Teraz dane są wprawdzie uporządkowane, ale przez to wcale nie zmniejszyła
się ich liczba. Prawdę powiedziawszy, nadal niewiele nam to mówi o zainte-
resowaniu studentów statystyką. Zastanówmy się jednak, czy po dokonaniu
tak prostej operacji, jaką było uporządkowanie danych, możemy się dowie-
dzieć czegoś więcej o osobach badanych. Zwróć najpierw uwagę na to, że
nie wszystkie dane są takie same. Niby to oczywiste, ale przecież możemy
zapytać, dlaczego tak jest. Jest to tym bardziej zastanawiające, że wynik mi-
nimalny (2) i maksymalny (29) niemal dotykają granic skali pomiarowej
(przypomnijmy: nie można rozwiązać mniej niż 0 zadań i więcej niż 31).
Czy nie wynika z tego, że pobrana przez nas losowo grupa studentów psy-
chologii nie jest jednorodna pod względem zainteresowania statystyką? Naj-
prawdopodobniej, niestety, tak. Na tę różnorodność rezultatów z pewnością
wpłynęło wiele czynników. Być może, wynika to z natury samego zjawiska
„interesowania się czymś”, a może to być także związane z naszą metodą
pomiaru zmiennej zależnej. Będziemy się musieli nad tym zastanowić.

KILKA SŁÓW O ROZPIĘTOŚCI ZBIORU DANYCH

Spróbujmy zredukować liczbę danych poprzez sprowadzenie ich do kilku


lub kilkunastu przedziałów klasowych (czy też krócej: klas) gromadzących
podobne do siebie wyniki. Musimy przy tym jednak pamiętać o tym, że im
więcej przedziałów utworzymy, tym trudniej będzie analizować przetworzo-
ny w ten sposób zbiór danych. I odwrotnie: im będzie ich mniej, tym więcej
utracimy informacji na jego temat. Nie ma ściśle określonych wskazań co do
liczby przedziałów klasowych. To jest decyzja badacza. Niemniej wydaje
WYNIKI EKSPERYMENTU JAKO ZMIENNA LOSOWA 109

się, że nie powinno być ich więcej niż 20, a niektórzy twierdzą, że optymal-
na liczba to od 10 do 15.
W zasadzie są dwa sposoby konstruowania szeregu rozdzielczego.
• Pierwszy, który może być realizowany tradycyjną metodą za pomocą
kartki i ołówka, polega na znalezieniu takiej wielkości przedziału klaso-
wego, która jest liczbą naturalną, czyli całkowitą dodatnią (dalej bę-
dziemy ją nazywali interwałem).
• Drugi sposób, nazwijmy go „komputerowym”, będzie się opierał na
wielkości interwału, który niekoniecznie jest liczbą całkowitą.
Punktem wyjścia obu wymienionych metod jest ustalenie wielkości zwanej
rozstępem – albo inaczej rozpiętością – zbioru danych. Rozstęp jest wiel-
kością charakteryzującą zmienność w zbiorze. Określa on, jaki jest zakres
wyników (od najmniejszego do największego) w badanej grupie. Jeżeli zbiór
danych składałby się tylko z czterech wyników: 6, 7, 7 i 8, to bez większego
trudu moglibyśmy stwierdzić, że dane te różnią się w zakresie tylko trzech
wartości, tj. 6, 7 i 8, co oznaczałoby tym samym, że rozpiętość zbioru równa
się 3. Dla małego zbioru sprawa jest oczywista, a gdybyśmy to chcieli poli-
czyć, należałoby od wartości największej (maksymalnej) odjąć wartość naj-
mniejszą (minimalną) i do otrzymanej różnicy dodać 1, czyli: 8 – 6 + 1 = 3.
Zwróć uwagę na to, że rozpiętość to nie różnica pomiędzy wartością mak-
symalną a minimalną, ale liczba jednostek skali pomiarowej, jakich potrzeba
do zmierzenia wszystkich danych (lub inaczej: liczba jednostek „zajmowa-
nych” przez dane). Do różnicy pomiędzy wartością maksymalną a wartością
minimalną należy dodać 1, właśnie po to, aby uwzględnić również najmniej-
szą wartość „zajętą” przez dane.
Policzmy teraz, ile wynosi rozpiętość zbioru danych pochodzących z badań
nad zainteresowaniem statystyką przez studentów psychologii. Ustaliliśmy,
że maksymalna wartość to 29, a minimalna 2, tak więc: 29 – 2 + 1 = 28.
Dla przypomnienia, zapiszmy teraz te rachunki za pomocą symboli. Jeżeli li-
terą R oznaczymy rozpiętość zbioru, wartość maksymalną jako Xmax i mini-
malną jako Xmin, to:
R = Xmax – Xmin + 1

ZWIĄZKI MIĘDZY ROZPIĘTOŚCIĄ, INTERWAŁEM I LICZBĄ PRZEDZIAŁÓW KLASOWYCH

Teraz możemy zrobić następny krok. Pamiętając o wskazówce, że najlepiej,


jeśli liczba przedziałów klasowych waha się od 10 do 15, następną operację
możemy przeprowadzić na dwa wcześniej wspomniane sposoby: „papier
i ołówek” lub „komputerowy”.
110 PRAWDOPODOBIEŃSTWO I ZMIENNA LOSOWA

Jeżeli będziemy stosować metodę „papier i ołówek”, to raczej będzie nam


zależało na tym, aby rachunki były w miarę proste. Oznacza to, że wygod-
niej będzie dla nas przyjąć, iż interwał – inaczej mówiąc, długość przedzia-
łu klasowego, lub jeszcze inaczej: różnica między granicami przedziału, co
na jedno wychodzi – będzie liczbą naturalną. Jeśli tak, to w celu ustalenia tej
wielkości wystarczy podzielić rozstęp przez różne wartości interwałów, po-
cząwszy od 1, i sprawdzać, czy wynik zaokrąglony do góry, do najbliższej
liczby całkowitej, będzie się mieścił w granicach 10-15.
W dalszej części na oznaczenie interwału będziemy się posługiwali dużą li-
terą I, w odróżnieniu od małej litery i, którą zachowamy na oznaczenie in-
deksu, np. danych, przedziałów, grup. Wyniki przykładowych dzieleń roz-
piętości przez różne interwały przedstawia tabela 4.4.

Tabela 4.4. Liczba przedzia- Liczba klas Liczba klas


Rozpiętość Interwał
łów klasowych w szeregu roz- R zaokrąglona
(R) (I)
dzielczym w zależności od I do góry
wielkości interwałów
28 : 1 = 28,00 28
28 : 2 = 14,00 14
28 : 3 = 9,33 10
28 : 4 = 7,00 7

Zanim przejdziemy dalej, dwa słowa wyjaśnienia na temat owego zaokrąg-


lenia liczby klas do góry. Chodzi o to, że jeżeli po podzieleniu rozpiętości
przez interwał otrzymamy liczbę ułamkową, to nie możemy jej całkiem zi-
gnorować, ponieważ okazałoby się, że niektóre skrajne dane musielibyśmy
odrzucić z dalszej analizy. Będzie to jasne już za chwilę, kiedy na podstawie
powyższych wyliczeń przystąpimy do konstrukcji szeregu. Teraz musimy
podjąć decyzję, który interwał wybieramy.
Interwały równe 1 i 4 możemy od razu odrzucić, ponieważ jeśli je zastosu-
jemy, to wykroczymy poza przyjęte granice optymalnej liczby przedziałów.
Pozostają dwie możliwości: interwał równy 2 (i wtedy otrzymamy 14 klas)
lub interwał równy 3 (i wówczas mamy 10 klas). Co więc wybrać: 2 czy 3?
W podjęciu decyzji pomoże nam intuicja. Przypomnijmy najpierw, że ce-
lem naszych zabiegów jest sprowadzenie całego zbioru danych do takiej po-
staci, która z jednej strony zachowa specyficzną informację dla tego zbioru,
a z drugiej będzie maksymalnie czytelna.
Dwie rzeczy warto tutaj wziąć pod uwagę – rozpiętość oraz liczebność zbio-
ru danych:
• Jeżeli rozpiętość zbioru jest bardzo duża, to aby nie upraszczać zbytnio
danych, będziemy skłonni zwiększać liczbę przedziałów klasowych.
WYNIKI EKSPERYMENTU JAKO ZMIENNA LOSOWA 111

• Z kolei im mniejsza jest rozpiętość, tym mniej może być tych przedzia-
łów. Podobnie im większa jest liczebność zbioru, tym korzystniej jest
zwiększać liczbę przedziałów.
Jak zauważyłeś, obie intuicje opierają się na pojęciach „duży” i „mały”, któ-
re są relatywne. Stąd też decyzja musi być arbitralna i w dużej mierze będzie
opierała się na pewnym wyczuciu i doświadczeniu. Nie wchodząc więc
w dalsze spekulacje typu „co by było, gdyby...”, przyjmijmy, że 10 przedzia-
łów klasowych dla 50 danych będzie w zupełności wystarczające.

DO SZEREGU, WSTĄP!

Po tych wyjaśnieniach mamy już prawie pełną informację niezbędną do


utworzenia szeregu. Aby to zrobić, najlepiej posłużyć się prostą tabelką, w
której literą „i” oznaczymy indeks, tzn. liczbę porządkową kolejnych prze-
działów. Następne kolumny będą zawierały informacje o granicach przedzia-
łów klasowych i ich liczebnościach. Spójrz na tabelę 4.5.

Tabela 4.5. Szereg rozdziel-


Granice Dokładne granice
czy dla danych z badań nad Indeks Liczebności klasowe
przedziałów przedziałów
zainteresowaniem statystyką (i) (fi)
klasowych klasowych

1 2–4 1,5 – 4,5 2


2 5–7 4,5 – 7,5 2
3 8 – 10 7,5 – 10,5 4
4 11 – 13 10,5 – 13,5 6
5 14 – 16 13,5 – 16,5 13
6 17 – 19 16,5 – 19,5 10
7 20 – 22 19,5 – 22,5 5
8 23 – 25 22,5 – 25,5 4
9 26 – 28 25,5 – 28,5 3
10 29 – 31 28,5 – 31,5 1

Ze zbioru danych weźmy, jako pierwszą, wartość minimalną. Wynosi ona 2.


Przyjęty przez nas interwał, czyli rozpiętość klasy, równa się 3. Tak więc do
pierwszego przedziału wchodziłyby wszystkie dane o wartościach 2, 3 i 4.
Do następnego: 5, 6 i 7 itd. Rozpiętość każdej klasy, rozumiana dokładnie
tak samo jak rozpiętość całego zbioru, wskazuje na zróżnicowanie wyników
w tej klasie.
W tabeli 4.5, w kolumnie „granice przedziałów klasowych” zapisaliśmy dol-
ne i górne granice kolejnych przedziałów. Na przykład zapis 26–28 oznacza,
że do tego przedziału należą wszystkie dane o wartościach co najmniej rów-
nych 26 i co najwyżej 28, czyli praktycznie tylko 26, 27 i 28.
112 PRAWDOPODOBIEŃSTWO I ZMIENNA LOSOWA

Zwróć teraz uwagę na kolumnę oznaczoną „dokładne granice przedziałów


klasowych”. Są one wyznaczone na podstawie ustalonych przed chwilą gra-
nic przedziałów klasowych, a przymiotnik „dokładne” oznacza tylko, że
znajdują się one dokładnie w połowie między każdymi dwoma przedziałami.
W ten sposób dokładna dolna granica przedziału 2-4 wynosi 1,5, a górna
granica – 4,5. Zapis dokładnych granic przedziałów klasowych jest czasem
użyteczny, np. kiedy konstruujemy wykresy ilustrujące dane. Wrócimy jesz-
cze do tego zagadnienia później.
Szereg rozdzielczy byłby niepełny, gdybyśmy nie dopisali do niego liczeb-
ności odpowiadających poszczególnym przedziałom, czyli tzw. liczebności
klasowych. Z tabeli 4.5 wynika, że w pierwszym przedziale znajdują się
dwie dane, w drugim – także dwie, w trzecim – cztery itd. Liczebności kla-
sowe zostały wpisane do ostatniej kolumny tabeli i oznaczone symbolem fi
(od pierwszej litery łacińskiego słowa frequentia lub angielskiego frequency,
a znaczącego po prostu „częstotliwość”). Indeks i pojawiający się przy lite-
rze f wskazuje, który przedział mamy na myśli. Tak więc przez f1 rozumiemy
liczbę obserwacji, jaka została zakwalifikowana do pierwszego przedziału
klasowego, przez f2 – liczbę obserwacji w drugim przedziale klasowym itd.
Postaraj się zapamiętać ten sposób oznaczania, gdyż będziemy się nim dalej
często posługiwać.
Z tabeli 4.5 można odczytać, że najwięcej jest wyników w części środkowej
skali, czyli między 14 a 19. Widać również, że wyniki skrajne pojawiają się
znacznie rzadziej niż te ze środka skali, a nawet są one tym rzadsze, im bar-
dziej zbliżają się do jej krańców.

SPRAWDZAMY RACHUNKI, CZYLI POWTÓRKA Z WZOROLOGII

Jedną z podstawowych reguł podczas zabawy liczbami jest sprawdzanie


wszystkich swoich działań. Dotyczy to zwłaszcza tych operacji, w których
błąd popełniony wcześniej może lawinowo pociągać za sobą cały szereg na-
stępnych błędów. W tym miejscu warto więc sprawdzić, czy suma wszyst-
kich liczebności klasowych zapisanych w tabelce zgadza się z liczbą
wszystkich danych zgromadzonych w badaniu. Jeżeli chciałbyś za pomocą
przyjętych symboli zapisać operację sumowania kolejnych wartości liczeb-
ności klasowych, mógłbyś zrobić to tak:
f1 + f2 + f3 + f4 + f5 + f6 + f7 + f8 + f9 + f10 = n
Jak z pewnością pamiętasz, jest prostszy sposób zapisu operacji sumowania
za pomocą greckiego znaku dużej sigmy, czyli:
k

∑f
i =1
i =n
WYNIKI EKSPERYMENTU JAKO ZMIENNA LOSOWA 113

fi liczebność klasowa i-tego przedziału,


i indeks kolejnego przedziału klasowego,
k liczba wszystkich przedziałów klasowych,
n liczebność zbioru danych równa sumie liczebności przedziałów klasowych,
k

∑f
i =1
i suma liczebności przedziałów klasowych.

Gdybyś chciał przeczytać ten wzór, powiedziałbyś, że oznacza on sumowa-


nie kolejnych wartości liczebności klasowych (fi), począwszy od pierwszego
przedziału (i = 1) do ostatniego (k), lub też w skrócie oznacza on po prostu
sumę liczebności przedziałów klasowych. Ta powtórka z rozumienia wzo-
rów niech służy utrwaleniu symboli i zasad posługiwania się nimi na gruncie
tajemnej wiedzy zwanej wzorologią, ponieważ coraz więcej operacji bę-
dziemy się starali przedstawiać w takiej właśnie formie. Ostatecznie przecież
wzór to nic innego, jak skrótowy zapis kolejno wykonywanych czynności,
jakby ogólny schemat postępowania, gotowy do użycia w konkretnej sytu-
acji. Psychologu, zapamiętaj, że jeśli w twojej głowie jest coś takiego, jak
pamięć proceduralna, to z pewnością ona także korzysta ze wzorów opartych
na symbolach!

O KOMPUTEROWYCH INTERWAŁACH

Ponieważ podstawowe elementy szeregu rozdzielczego mamy w zasadzie


opracowane, wróćmy jeszcze na moment do miejsca, w którym ustalaliśmy
jaka powinna być wielkość interwału przedziałów klasowych, a ściślej, do
drugiej ze wspomnianych metod konstrukcji szeregu rozdzielczego. Jest ona
niewątpliwie mniej wygodna do realizacji „na piechotę”, ale za to znacznie
dokładniejsza.
Czy zwróciłeś uwagę na to, iż konstruując szereg klasowy metodą tradycyj-
ną, ustaliliśmy nieco szersze granice ostatniego z przedziałów (tj. 29–31),
niż wskazywałyby na to nasze dane? Chodzi o to, że maksymalna wartość
w zbiorze danych wynosi 29, a granice przedziału mogą sugerować, że znaj-
dują się w nim także dane o wartościach 30 lub 31. Wynika to oczywiście
z tego, że zgodziliśmy się na przyjęcie takiej długości przedziału, która jest
liczbą całkowitą. Gdybyśmy jednak chcieli zlikwidować tę niejednoznacz-
ność, musielibyśmy posłużyć się interwałem, który siłą rzeczy nie mógłby
być liczbą całkowitą. Punktem wyjścia do konstrukcji szeregu rozdzielczego
nie byłoby wówczas oszacowywanie liczby klas ze względu na interwał, ale
odwrotnie – obliczanie interwału ze względu na przyjętą liczbę klas. Mia-
nowicie w zakresie od 10 do 15 przedziałów klasowych otrzymalibyśmy in-
terwały przedstawione w tabeli 4.6.
114 PRAWDOPODOBIEŃSTWO I ZMIENNA LOSOWA

Tabela 4.6. Interwały w sze- Rozpiętość (R) Liczba klas Interwał (I)
regu klasowym o rozpiętości
R = 28, w zależności od licz- 28 : 10 = 2,80
by klas 28 : 11 = 2,55
28 : 12 = 2,33
28 : 13 = 2,15
28 : 14 = 2,00
28 : 15 = 1,87

Gdybyśmy przyjęli, że optymalna dla naszych danych jest liczba klas równa
10, wówczas musielibyśmy przyjąć interwał równy 2,8, a dokładne granice
przedziałów w szeregu rozdzielczym wyglądałyby tak, jak w tabeli 4.7.

Tabela 4.7. Szereg rozdziel- i Dokładne granice fi


czy dla danych z badań nad
zainteresowaniem statystyką 1 1,5 – 4,3 2
dla interwału o długości 2,8 2 4,3 – 7,1 2
3 7,1 – 9,9 2
4 9,9 – 12,7 6
5 12,7 – 15,5 9
6 15,5 – 18,3 13
7 18,3 – 21,1 6
8 21,1 – 23,9 5
9 23,9 – 26,7 2
10 26,7 – 29,5 3
Suma 50

Zauważ, że zmieniły się nieco liczebności w poszczególnych klasach, ale


mimo większej dokładności w uporządkowaniu zbioru jego czytelność ra-
czej zmalała, nie mówiąc już o ilości pracy potrzebnej do jego skonstruowa-
nia. Oczywiście ostatnia uwaga ma sens tylko wtedy, gdy szereg klasowy
próbujemy zbudować „na piechotę”. Dla komputera to fraszka i prawdę po-
wiedziawszy, więcej wysiłku kosztowałoby programistę napisanie algorytmu
tworzenia szeregu rozdzielczego metodą tradycyjną niż tą, którą właśnie
omówiliśmy.

CZYM SIĘ RÓŻNI ŚRODEK PRZEDZIAŁU KLASOWEGO OD ŚREDNIEJ ARYTMETYCZNEJ?

Wróćmy do tabeli 4.5 z szeregiem rozdzielczym rozpisanym metodą trady-


cyjną. Brakuje w niej dosyć użytecznego wskaźnika, a mianowicie wartości,
która reprezentowałaby każdą klasę. Wiemy już, ile danych mieści się w
każdej klasie, ale do wykonywania dalszych obliczeń wygodniej byłoby się
posługiwać jakąś jedną wartością odpowiadającą skali pomiarowej niż
WYNIKI EKSPERYMENTU JAKO ZMIENNA LOSOWA 115

dwoma granicami każdego przedziału. Dobrym rozwiązaniem wydaje się


wyznaczenie środka każdego przedziału i potraktowanie go właśnie jako
wartości reprezentującej ten przedział na skali pomiarowej. Środek przedzia-

łu klasowego oznaczmy symbolem X i i – jak sama nazwa wskazuje – jest
to wartość na skali pomiarowej, która mieści się dokładnie w środku pomię-
dzy dolną i górną granicą przedziału klasowego. Na oznaczenie środka prze-

działu posłużyliśmy się symbolem X i , podobnym zarówno do symbolu da-
nej (Xi), jak i średniej arytmetycznej ( x ). Środek przedziału można bowiem
potraktować jako średnią, choć obliczoną tylko z dwóch wartości: jego dol-
nej i górnej granicy, a nie ze wszystkich danych znajdujących się w tym
przedziale. Tak rozumianą wartość bez trudu możemy obliczyć, np. dla
pierwszego przedziału środek wynosi:

2+4
X1 = =3
2
a dla drugiego:

5+7
X2 = =6
2
i tak dalej ...
Można jednak mieć wątpliwości co do tego, czy środek przedziału klasowe-
go faktycznie reprezentuje dane znajdujące się w tym przedziale. Na przy-
kład w przedziale drugim znajdują się dwie dane: 5 i 5, podczas gdy środek
dla tego przedziału wynosi 6. Niewątpliwie bylibyśmy bardziej precyzyjni,
gdyby ten przedział był reprezentowany przez wartość równą 5, czyli średnią
ze znajdujących się w nim danych, a nie średnią z jego dolnej i górnej grani-
cy. Dla małych liczebności w klasie faktycznie możemy popełnić pewien
błąd. Spójrzmy jednak na przedział piąty, w którym znajduje się 13 danych:
pięć o wartości równej 14, dwie o wartości 15 i sześć równych 16. Średnia
arytmetyczna dla tego przedziału wynosi:
5 × 14 + 2 × 15 + 6 × 16
x= = 15,08
13
a jego środek, oszacowany z dolnej i górnej jego granicy, równa się:

14 + 16
X2 = = 15
2
Jak widzisz, błąd jest niewielki. Chociaż metoda wyznaczania środków
przedziałów z granic jest obciążona pewnymi błędami, to możemy się na nią
zgodzić bez większych obaw, przyjmując założenie, że podczas obliczania
116 PRAWDOPODOBIEŃSTWO I ZMIENNA LOSOWA

różnych globalnych wskaźników dla całego zbioru danych błędy powstałe


podczas konstruowania szeregu rozdzielczego się zrównoważą. W tym miej-
scu warto dodać, że o ile jest to tylko możliwe, korzystniej jest przyjąć jako
interwał liczbę nieparzystą, ponieważ wtedy środkiem przedziału jest liczba
całkowita. Ma to jednak znaczenie wyłącznie kosmetyczne.

„JEDEN W ROZUMIE” – KILKA SŁÓW O KUMULACJI

Na zakończenie tego paragrafu wprowadźmy jeszcze jedno użyteczne poję-


cie – szeregu skumulowanego. Kumulacja to nic innego, jak dodawanie do
siebie liczb, ale w taki sposób, że po każdym dodaniu kolejnej liczby zapisu-
jemy wynik dotychczasowego sumowania. Szereg skumulowany jest więc
zapisem operacji sumowania liczebności odpowiadających kolejnym prze-
działom klasowym, tak że każdej klasie zostanie przypisana liczebność
skumulowana (fci od angielskiego frequency cumulated), tj. wartość równa
sumie liczebności i-tego przedziału i wszystkich przedziałów go poprzedza-
jących. Inaczej mówiąc, liczebności skumulowane to te wartości, które za-
pamiętujemy jako sumy wszystkich, kolejno dodawanych do siebie liczeb-
ności klasowych.
Liczebności klasowe mogą być skumulowane albo „od dołu do góry” (fci↑),
tj. począwszy od przedziału zawierającego najniższe wyniki, albo „z góry na
dół” (fci↓), czyli odwrotnie, począwszy od przedziału zawierającego wyniki
najwyższe (zob. tabela 4.8).
Wyrażenie „przedział pierwszy” odnosi się do przedziału zawierającego naj-
niższe wartości danych, a „przedział ostatni” – do klasy zawierającej naj-
wyższe wartości danych. Ostatnia liczebność szeregu skumulowanego równa
się liczebności całego zbioru, czyli
fck = n
fc liczebność skumulowana,
k liczba przedziałów klasowych,
fck liczebność skumulowana ostatniego przedziału klasowego,
n liczba wszystkich danych w zbiorze.

W przedziale pierwszym liczebność wynosi 2. Kumulując szereg liczebności


od dołu, powinniśmy do liczebności przedziału pierwszego, czyli do 2, do-
dać liczebność następnego przedziału, czyli także 2. Suma tych liczebności
(4) stanowi skumulowaną liczebność przedziału drugiego. Obliczając sku-
mulowaną liczebność dla przedziału trzeciego, musimy dodać do siebie
skumulowaną liczebność przedziału drugiego oraz liczebność otrzymaną
w przedziale trzecim itd.
WYNIKI EKSPERYMENTU JAKO ZMIENNA LOSOWA 117

Tabela 4.8. Szeregi skumu- i Granice przedziałów fi fci↑ fci↓


lowane „od dołu” i „od góry”
dla danych z badań nad za- 1 2 – 4 2 2 50
interesowaniem statystyką 2 5 – 7 2 4 48
3 8 – 10 4 8 46
4 11 – 13 6 14 42
5 14 – 16 13 27 36
6 17 – 19 10 37 23
7 20 – 22 5 42 13
8 23 – 25 4 46 8
9 26 – 28 3 49 4
10 29 – 31 1 50 1
Suma 50

Na koniec zastanówmy się chwilę, do czego może się nam przydać informa-
cja zawarta w szeregu skumulowanym. Najczęściej służy ona do analizy
tzw. przyrostów wartości. W przypadku danych dotyczących zainteresowa-
nia statystyką, początkowo wartości skumulowane narastają bardzo powoli,
a następnie, w okolicy środka skali, gwałtownie wzrastają, by wreszcie bliżej
drugiego jej krańca znowu wzrastać coraz wolniej. Daje nam to pewne wy-
obrażenie o kształcie rozkładu naszych danych. Dokładniej będziesz to mógł
śledzić na rysunkach przedstawionych w następnym paragrafie. Szeregi ku-
mulacyjne są szczególnie przydatne, gdy przedmiotem naszych zaintereso-
wań jest analiza dynamiki jakiegoś procesu, np. nabywania wprawy w czy-
taniu lub uczenia się czegoś na pamięć.

4.4. GRAFICZNE METODY PREZENTACJI DANYCH

ŻYJEMY W „KULTURZE OBRAZKOWEJ”...

Żyjemy w „kulturze obrazkowej” i z informacją prezentowaną w sposób gra-


ficzny mamy do czynienia niemal na co dzień. Z wykresami spotykamy się
w różnych miejscach. W aptece znajdziemy kołowy wykres, tzw. torcik, któ-
ry pokrojony na mniejsze kawałki uzmysłowi nam, ile kalorii i z jakiego
źródła powinniśmy czerpać, aby czuć się wspaniale i zapomnieć o tym, że
istnieją lekarze. W telewizyjnych programach informacyjnych, na specjal-
nie przygotowanej mapie, zostanie przekazana informacja o rozkładzie sił
(w postaci maleńkich czołgów czy żołnierzyków) podczas zmagań wojen-
nych w dowolnym punkcie zapalnym na świecie. Trudno przecenić znacze-
nie, jakie dla zapaleńców giełdowych mają wykresy technicznej analizy kur-
118 PRAWDOPODOBIEŃSTWO I ZMIENNA LOSOWA

sów akcji. Wykresy mogą także stanowić ważny element reklamowy, gdy
np. nad biurkiem zawsze uśmiechniętego właściciela hurtowni pomidorów
ilustrują wyraźny progres w obrotach jego firmy w ciągu ostatnich czterech
lat. Wykres nie wymaga wielu słów. Najczęściej towarzyszy mu krótki tytuł
i legenda wyjaśniająca, co poszczególne jego elementy oznaczają.
W nauce wykresy również pełnią bardzo ważną funkcję i wszystko wskazuje
na to, że znaczenie graficznych form prezentacji wyników badań naukowych
będzie stale rosło. Coraz częściej mówi się o tym, że ze względu na ilość
publikowanej na świecie literatury fachowej, nie ma możliwości przejrzeć
jej w całości – a gdzie znaleźć czas na jej uważne czytanie? Często nie pozo-
staje nic innego, jak tylko analiza wykresów czy ilustracji.
Dobrze przygotowany wykres nie tylko unaocznia charakter omawianego
zjawiska, lecz także może zachęcić czytelników do przestudiowania przy-
najmniej wniosków z omawianych badań.
W poprzednim punkcie wykorzystaliśmy wyniki badań nad zainteresowa-
niem statystyką przez studentów psychologii do skonstruowania szeregu roz-
dzielczego. Mając za podstawę przedstawione tam rezultaty, przyjrzyjmy się
kilku sposobom ich graficznej prezentacji.

WIELOBOK LICZEBNOŚCI (POLIGON)

Jednym z najczęściej stosowanych wykresów do przedstawiania rozkładu


danych jest wielobok liczebności, który ze względu na swój kształt zwany
jest także poligonem.
Wykres ten jest kreślony w układzie dwóch współrzędnych: osi odciętych
(to ta pozioma – OX) i osi rzędnych (ta pionowa – OY). Na osi odciętych
zaznaczamy poszczególne wartości zmiennej zależnej (dotyczące np. ilora-
zów inteligencji bądź liczby rozwiązanych zadań w teście zainteresowania
statystyką), na osi rzędnych zaś – częstość występowania tych wartości
w zbiorze danych.
Korzystając z szeregu rozdzielczego, na osi odciętych zaznaczamy środki
przedziałów klasowych. Biorąc pod uwagę to, jak wyskalowana jest oś rzęd-
nych, na wykresie będziemy zaznaczali po kolei liczebności klasowe odpo-
wiadające kolejnym środkom przedziałów. Innymi słowy, nad każdym środ-
kiem przedziału zaznaczamy punkt na takiej wysokości, która zgodnie z po-
działką na osi rzędnych będzie odpowiadała liczbie danych w tym przedzia-
le. Kiedy wszystkie punkty będą już naniesione, połączymy je jedną ciągłą
linią i wykres będzie wyglądał mniej więcej tak, jak na rysunku 4.4.
Wykres przygotowany w taki sposób prezentuje rozkład danych. Przyjrzyj-
my się mu bliżej. Przypomina on szczyt góry lodowej. Zauważ, że pomimo
WYNIKI EKSPERYMENTU JAKO ZMIENNA LOSOWA 119

pewnych nieregularności jest prawie symetryczny. Jak pamiętasz, z tabeli


4.5, zawierającej opis szeregu rozdzielczego, wynika, że większość osób
osiąga wyniki bliskie środka skali. Niestety, nie są to entuzjaści statystyki.
Rysunek 4.4. Wielobok 14
liczebności (poligon) 13
[STATISTICA] 12

Liczba obserwacji w przedziale klasowym


11
10
9
8
7
6
5
4
3
2
1
0
3 6 9 12 15 18 21 24 27 30
Środki przedziałów klasowych

Jedną z zalet poligonu jest to, że umożliwia prezentowanie na jednym wy-


kresie kilku zbiorów danych bez zamazania całego obrazu. Wystarczy tylko
zróżnicować wzór albo kolor linii odpowiadających poszczególnym zbiorom
danych i bez utraty czytelności na jednym wykresie możemy przedstawić
wyniki – podkreślamy – kilku, a nie np. 40 różnych zbiorów danych. Poligon
przedstawiający zainteresowanie statystyką w grupach studentów psycholo-
gii, pedagogiki i socjologii mógłby np. wyglądać tak, jak na rysunku 4.5.
Rysunek 4.5. Wieloboki 20
liczebności dla trzech równo- Studenci:
18 psychologii
licznych zbiorów danych
Liczba obserwacji w przedziale klasowym

(npsychologowie = nsocjologowie = pedagogiki


16
npedagodzy = 50) [STATISTICA] socjologii
14

12

10

0
3 6 9 12 15 18 21 24 27 30
Środki przedziałów klasowych

Wystarczy rzut oka, żeby się zorientować, że najbardziej zainteresowani sta-


tystyką są studenci socjologii, następnie psychologii, a najmniej pedagogiki.
120 PRAWDOPODOBIEŃSTWO I ZMIENNA LOSOWA

Taki wniosek można wyciągnąć na podstawie położenia punktów o najwięk-


szych liczebnościach, czyli na podstawie tzw. modalnych.

WYKRES SŁUPKOWY (HISTOGRAM)

Wykres słupkowy, jak sama nazwa wskazuje, nie ma postaci liniowej, lecz
składa się ze słupków ustawionych jeden obok drugiego. W odróżnieniu od
poligonu, na osi odciętych zaznaczamy tym razem dokładne granice prze-
działów klasowych. Szerokość poszczególnych słupków histogramu to
oczywiście długość interwału.
Podobnie jak w przypadku poligonu, na osi rzędnych zaznaczamy liczebno-
ści kolejnych przedziałów klasowych. Czasem, podpisując wartości liczbo-
we pod słupkami histogramu, zamiast dokładnych granic wpisujemy środki
poszczególnych przedziałów. Opierając się znowu na danych otrzymanych
w badaniach nad zainteresowaniem statystyką, możemy wykreślić następu-
jący histogram:

Rysunek 4.6. Histogram dla 14


Liczba obserwacji w przedziale klasowym

danych z badania nad zainte- 13


12
resowaniem statystyką
11
(wersja I) [STATISTICA] 10
9
8
7
6
5
4
3
2
1
0
1,5 4,5 7,5 10,5 13,5 16,5 19,5 22,5 25,5 28,5 31,5
Dokładne granice przedziałów klasowych

Ewentualnie słupki można nieco odsunąć od siebie i – dla ułatwienia – nad


każdym podać, jaką liczebność obserwacji w danym przedziale klasowym
reprezentują (zob. rys. 4.7).
Histogramy od pewnego czasu wyraźnie przeżywają renesans, a to głównie
za przyczyną coraz częściej stosowanych arkuszy kalkulacyjnych i innych
programów komputerowych przeznaczonych do graficznej prezentacji da-
nych. Za ich pomocą można prezentować dane pochodzące od kilku grup,
podobnie jak w przypadku poligonu, choć ich czytelność nie jest już tak do-
bra (zob. rys. 4.8).
WYNIKI EKSPERYMENTU JAKO ZMIENNA LOSOWA 121

Rysunek 4.7. Histogram dla 14


13
danych z badania nad zainte- 13
resowaniem statystyką 12

Liczba obserwacji w przedziale klasowym


(wersja II) [STATISTICA]
11
10
10
9
8
7
6
6
5
5
4 4
4
3
3
2 2
2
1
1
0
1,5 4,5 7,5 10,5 13,5 16,5 19,5 22,5 25,5 28,5 31,5
Dokładne granice przedziałów klasowych

Rysunek 4.8. Porównanie 20


liczebności w przedziałach Studenci:
18 psychologii
klasowych dla studentów
Liczba obserwacji w przedziale klasowym

psychologii, pedagogiki pedagogiki


16
i socjologii na podstawie socjologii
badań nad zainteresowaniem 14
statystyką [STATISTICA]
12

10

0
3 6 9 12 15 18 21 24 27 30
Środki przedziałów klasowych

KRZYWA WYRÓWNANA

Bez wątpienia poligon czy histogram pozwala na precyzyjne zobrazowanie


rozkładu danych. Czasem stosuje się również dość szczególny typ wykresu,
zwany krzywą wyrównaną. Bywa, że poligon jest nieregularny, wręcz „zę-
baty”, i bardziej przypomina piłę do cięcia drewna niż wykres danych. W ta-
kiej sytuacji można go nieco wyrównać, to znaczy sprawić, żeby jego prze-
bieg był „gładszy”.
Podstawą do wykreślenia krzywej wyrównanej jest wyznaczenie dla każde-
go przedziału tzw. liczebności oszacowanej, którą oznaczymy symbolem: fe
(ang. estimated frequency). Liczebność oszacowaną oblicza się z wartości li-
czebności otrzymanych. Cała procedura sprowadza się do uśrednienia trzech
122 PRAWDOPODOBIEŃSTWO I ZMIENNA LOSOWA

leżących obok siebie wartości liczebności otrzymanych, przy czym wartość


środkowa jest podwajana. Przyjrzyj się tabeli 4.9.

Tabela 4.9. Wyniki badań nad i Granice przedziałów fi fei


zainteresowaniem statystyką
– dane do skonstruowania 0 -1 – 1 0 0,50
krzywej wyrównanej 1 2 – 4 2 1,50
2 5 – 7 2 2,50
3 8 – 10 4 4,00
4 11 – 13 6 7,25
5 14 – 16 13 10,50
6 17 – 19 10 9,50
7 20 – 22 5 6,00
8 23 – 25 4 4,00
9 26 – 28 3 2,75
10 29 – 31 1 1,25
11 32 – 34 0 0,25
Σ 50 50,00

Aby wyliczyć wartość fe4 (czyli dla czwartego przedziału klasowego), bie-
rzemy pod uwagę liczebność tego przedziału (= 6) oraz liczebność przedzia-
łu powyżej (= 4) i poniżej (= 13). Następnie dodajemy do siebie te warto-
ści, ale liczebność przedziału czwartego podwajamy. Chodzi o zwiększenie
wpływu liczebności otrzymanej w przedziale, dla którego wyznaczamy li-
czebność do wykresu krzywej wyrównanej.
Tak czy inaczej, sumę dzielimy przez 4 (ponieważ faktycznie dodaliśmy do
siebie cztery wartości) i w ten sposób mamy oszacowaną liczebność dla
czwartego przedziału. Rachunek wygląda następująco:
4 + (6 + 6) + 13
fe4 = = 7,25
4
Przy okazji zwróć uwagę na to, że w tabelce 4.9 pojawiły się dwa nowe
przedziały, oznaczone w kolumnie indeksowej jako zerowy i jedenasty; na
dodatek oba są puste, a więc nie zawierają żadnych liczebności. Przedziałom
tym odpowiadają jednak pewne ułamkowe wartości liczebności oszacowa-
nych. Ze względu na przyjętą zasadę obliczania tych liczebności jest to zu-
pełnie zrozumiałe.
Obliczenie liczebności oszacowanej dla przedziału zerowego wyglądałoby
następująco:
0 + ( 0 + 0) + 2
fe0 = = 0,5
4
WYNIKI EKSPERYMENTU JAKO ZMIENNA LOSOWA 123

Pierwsze zero to liczebność w przedziale poniżej przedziału zerowego (ta-


kiego nie ma, więc na pewno jego liczebność wynosi zero); w nawiasie ma-
my podwojoną liczebność z interesującego nas przedziału; 2 to liczebność
z przedziału powyżej przedziału zerowego, czyli z przedziału pierwszego.
Teraz pozostaje już tylko oszacowane liczebności nanieść na wykres. Bę-
dziemy postępowali analogicznie jak w przypadku poligonu, czyli na osi od-
ciętych zaznaczając środki przedziałów klasowych, a na osi rzędnych – war-
tości oszacowanych właśnie liczebności dla każdego przedziału.
Dla porównania spójrzmy na nałożone na siebie dwa wykresy tych samych
danych: poligonu i krzywej wyrównanej (zob. rys. 4.9).

Rysunek 4.9. Poligon i krzy- 16


wa wyrównana dla danych Wykres liczebności otrzymanych
z badania nad zainteresowa- 14 Krzywa wyrównana
Liczba obserwacji w przedziale klasowym

niem statystyką
[STATISTICA] 12

10

0
3 6 9 12 15 18 21 24 27 30
Środki przedziałów klasowych

KRZYWA SKUMULOWANA

Tym razem za podstawę do wykonania wykresu weźmiemy zbiór liczebno-


ści skumulowanych. Przypomnijmy, że jest to taki szereg rozdzielczy, w któ-
rym dla każdego przedziału obliczamy sumę liczebności danych z tego prze-
działu i wszystkich przedziałów poniżej (lub powyżej – to zależy od tego,
czy kumulujemy liczebności od dołu, czy od góry). Kreśląc krzywą skumu-
lowaną lub inaczej kumulacyjną, będziemy postępowali podobnie jak po-
przednio. Na osi odciętych zaznaczymy środki przedziałów klasowych, a na
osi rzędnych kolejne wartości liczebności kumulowanych od góry lub od do-
łu. Teraz wykres pozwoli nam dokładniej się przyjrzeć przyrostom liczebno-
ści otrzymanych pomiędzy kolejnymi przedziałami.
Rysunek 4.10 przedstawia krzywą liczebności skumulowanych od dołu. Za-
pewne nie masz problemu z wyobrażeniem sobie krzywej skumulowanej dla
szeregu rozdzielczego pogrupowanego od góry.
124 PRAWDOPODOBIEŃSTWO I ZMIENNA LOSOWA

Wykresy kumulacyjne są bardzo przydatne wtedy, gdy chcemy raczej uwy-


puklić różnice między liczebnościami w poszczególnych przedziałach niż
samą częstość występowania poszczególnych wartości zmiennej zależnej
w tych przedziałach.
Na wykresie można wyróżnić kilka obszarów o wyraźnie innym przebiegu
krzywej, czyli – w odniesieniu do naszego przykładu – o innej dynamice
wzrostu zainteresowania statystyką.
Z formalnego punktu widzenia każda krzywa kumulacyjna nosi nazwę dys-
trybuanty.

Rysunek 4.10. Krzywa sku-


mulowana „od dołu” dla da- 50
Liczebność skumulowana w przedziale klasowym

nych z badania nad zaintere-


45
sowaniem statystyką gwałtowny
[STATISTICA] 40 wzrost powolny
liczebności przyrost
35 liczebności

30

25

20

15
powolny
przyrost
10
liczebności
5

0
3 6 9 12 15 18 21 24 27 30
Środki przedziałów klasowych

HISTOGRAM SKUMULOWANY

Stosując zasady konstrukcji histogramu dla liczebności skumulowanych,


możemy wykreślić histogram skumulowany, który będzie się różnił od
krzywej skumulowanej tym, czym histogram dla liczebności otrzymanych
różni się od poligonu.
Tak więc na osi odciętych zaznaczamy dokładne granice przedziałów klaso-
wych, a na osi rzędnych kolejne wartości liczebności kumulowanych od dołu
lub od góry.
Zwróć uwagę na wysokości kolejnych „schodków” na rysunku 4.11. Te
między 10,5 a 19,5 są wyraźnie wyższe, co świadczy o tym, że osoby badane
najczęściej uzyskiwały wyniki z tego przedziału skali pomiarowej.
Podobnie jak poprzednio, rysunek 4.11 przedstawia histogramy liczebności
skumulowanych od dołu.
WYNIKI EKSPERYMENTU JAKO ZMIENNA LOSOWA 125

Rysunek 4.11. Histogram


skumulowany dla danych 50

Liczebność skumulowana w przedziale klasowym


z badań nad zainteresowa-
45
niem statystyką powolny
[STATISTICA] 40 przyrost
liczebności
35 gwałtowny
wzrost
30 liczebności

25

20

15
powolny
10 wzrost
liczebności
5

0
1,5 4,5 7,5 10,5 13,5 16,5 19,5 22,5 25,5 28,5 31,5
DokładneŚrodki przedziałów
granice klasowych
przedziałów klasowych

WYKRES KOŁOWY

Na koniec chcemy zaprezentować jeszcze jeden typ wykresu, który co praw-


da do niedawna nie był zbyt często stosowany w publikacjach naukowych,
ale ostatnio, ze względu na coraz większą popularność programów kompute-
rowych umożliwiających łatwe tworzenie „ciasteczek”, staje się coraz bar-
dziej atrakcyjny nie tylko w prasie.

Wykres ten to koło podzielone na części zgodnie z założeniem, że cała jego


powierzchnia odpowiada 100% danych (zob. rys. 4.12). Mianowicie na po-
niższym „torciku” wydzielone wycinki koła reprezentują procentowy udział
poszczególnych liczebności klasowych w całym zbiorze danych.

Rysunek 4.12. Wykres koło- #7; 5


wy dla danych z badań nad
zainteresowaniem statystyką; #6; 10
#8; 4
liczba po znaku # oznacza
numer kolejnego przedziału
klasowego, a po średniku –
#9; 3
liczebność tego przedziału
[STATISTICA]
#10; 1

#1; 2

#2; 2
#5; 13
#3; 4

#4; 6
126 PRAWDOPODOBIEŃSTWO I ZMIENNA LOSOWA

SKALOWANIE WSPÓŁRZĘDNYCH WYKRESU

Przedstawianie na wykresie rozkładu danych empirycznych zgromadzonych


podczas eksperymentu jest tylko jednym z wielu możliwych zastosowań gra-
fiki w nauce. Nie sposób omówić tutaj ich wszystkich. Dość powiedzieć, że
do jednego z pakietów statystycznych – STATISTICA PL – wydawca dołączył
ponad 900-stronicowy podręcznik poświęcony wyłącznie formom graficznej
prezentacji wyników analiz statystycznych.
W tym miejscu chcielibyśmy jednak zasygnalizować kilka zagadnień, które
uważamy za dość istotne dla prawidłowego wykorzystywania grafiki do pre-
zentacji wyników badań.
Zacznijmy od osi współrzędnych. Przypuśćmy, że chciałbyś zilustrować
wyniki badań nad wpływem długości trwania treningu jedną ręką na czas re-
akcji drugą ręką. Taki eksperyment mógłby się składać z dwóch części. Pod-
czas pierwszej fazy osoby badane kilkakrotnie powtarzałyby zachowanie po-
legające na naciskaniu na klawisz jedną ręką (np. prawą) w momencie, kiedy
zapali się zielone światło o określonej jasności.
Dla utrudnienia światło zapalałoby się w sposób nieregularny, tzn. czas po-
między kolejnymi ekspozycjami nie byłby równy. Podobnie nieregularnie
pojawiałyby się światła o różnej jasności. Musiałbyś przeprowadzić ekspe-
ryment z kilkoma grupami osób badanych, które różniłyby się za względu na
długość treningu, np. 15 sek., 30 sek., 45 sek i 60 sek.
W drugiej fazie badani wykonywaliby podobne zadanie jak w fazie pierw-
szej, ale tym razem liczba ekspozycji byłaby taka sama dla wszystkich osób
badanych oraz reagowaliby tą ręką, która wcześniej nie była trenowana.
Miarą zmiennej zależnej byłby średni czas latencji (tj. czas od zadziałania
bodźca do rozpoczęcia reagowania) w fazie drugiej. Przypuśćmy, że średnie
czasy reakcji w obu grupach wahały się w od 2,87 sek. do 3,24 sek.
To, odkąd dokąd rozciągają się osie wykresu, ma znaczenie zwłaszcza w
przypadku tzw. wykresów liniowych. Najczęściej są one tak konstruowane,
że obie osie współrzędne stykają się ze sobą w punkcie zerowym, który sta-
nowi jednoznaczny punkt odniesienia dla prezentowanego wykresu. Gdybyś
zdecydował się przedstawić wyniki z eksperymentu na wykresie w taki spo-
sób, że obie osie współrzędnych, oznaczające czas reakcji i czas trwania tre-
ningu, zaczynałyby się w punkcie 0, wówczas wykres mógłby wyglądać
mniej więcej tak, jak na rysunku 4.13.
Jak widać, na wykresie 4.13 niewiele widać. Przebiegi dwóch smętnie snują-
cych się krzywych w górnej części wykresu trudno zróżnicować i nie bardzo
wiadomo, jak je zinterpretować. Warto więc się zastanowić nad taką mody-
fikacją obrazu, aby relacje między danymi były wyraźniejsze.
WYNIKI EKSPERYMENTU JAKO ZMIENNA LOSOWA 127

Rys. 4.13. Niezbyt czytelna 4,0


prezentacja danych na wy-
kresie [STATISTICA] 3,5

3,0

Czas reakcji (sek.)


2,5

2,0

1,5

1,0

0,5 Trening: ręka lewa; test: ręka prawa


Trening: ręka prawa; test: ręka lewa
0,0
15 sek. 30 sek. 45 sek. 60 sek.
Długość treningu

Najprostszym sposobem realizacji tego zamierzenia byłoby „wykadrowanie”


tylko tego fragmentu, który jest rzeczywiście interesujący. Musimy jednak
zrezygnować z zerowania osi współrzędnych, zaznaczając to jednak wyraź-
nie na wykresie. Spójrz na rysunek 4.14.
Rys. 4.14. Wykadrowany wy- 3,5
kres z rysunku 4.13 Trening: ręka lewa; test: ręka prawa
3,4 Trening: ręka prawa; test: ręka lewa
[STATISTICA]
3,3

3,2
Czas reakcji (sek.)

3,1

3,0

2,9

2,8

2,7

2,6

2,5
15 sek. 30 sek. 45 sek. 60 sek.
Długość treningu

Teraz wyraźnie widać różnice nie tylko między grupami, które ćwiczyły
prawą rękę, a reagowały lewą, i odwrotnie, ćwiczyły lewą rękę, a reagowały
prawą, a także między grupami osób, które zostały poddane treningowi
o różnej długości. Z wykresu łatwo odczytać, że wraz z długością treningu
lewej ręki systematycznie wzrasta sprawność wykonania zadania za pomocą
ręki prawej. Można więc w tym przypadku zinterpretować dane jako efekt
tzw. pozytywnego transferu bilateralnego, który polega na przeniesieniu wy-
uczonej czynności z jednej połowy ciała na drugą. Przebieg krzywej ilustru-
128 PRAWDOPODOBIEŃSTWO I ZMIENNA LOSOWA

jącej czasy reakcji ręką lewą, po wcześniejszym treningu ręki prawej, jest
zupełnie inny niż poprzedni. Krótki trening ręki prawej (między 15 a 30
sek.) wyraźnie wpływa na skrócenie się czasu reagowania lewą ręką, ale im
jest dłuższy, tym gorsze rezultaty przynosi. W tym przypadku pozytywny
transfer bilateralny zachodzi tylko wtedy, gdy trening jest krótki, a gdy jest
dłuższy, wtedy albo mamy do czynienia z negatywnym transferem bilateral-
nym, albo z jakimś innym zjawiskiem, np. zmęczeniem, które nie ujawniło
się w odniesieniu do ręki prawej.

PRZESADNY MAKIJAŻ JEST W ZŁYM GUŚCIE!

Drugą sprawą, o której warto pamiętać, konstruując wykres, jest wyskalo-


wanie jednostek obu osi współrzędnych w rozsądnej proporcji. Spójrz na na-
stępny wykres 4.15, ilustrujący te same wyniki z badania czasów reakcji.

Rys. 4.15. Wykres nadmier- 3,25


nie ilustrujący ustaloną w ba- Trening: ręka lewa; test: ręka prawa
daniach zależność 3,20 Trening: ręka prawa; test: ręka lewa
[STATISTICA]
3,15
Czas reakcji (sek.)

3,10

3,05

3,00

2,95

2,90

2,85
15 sek. 30 sek. 45 sek. 60 sek.
Długość treningu

W porównaniu z poprzednim wykresem, jednostka na osi rzędnych została


znacznie skrócona, co spowodowało nieco przesadne wyolbrzymienie różnic
w czasach reakcji. Jeślibyśmy nie przeanalizowali dokładniej wykresu, mo-
glibyśmy ulec złudzeniu, że różnice między poszczególnymi grupami osób
badanych są bardzo duże. Dopiero kiedy zwrócimy uwagę na to, że pomię-
dzy najdłuższymi a najkrótszymi czasami reakcji jest zaledwie 0,37 sek.
różnicy, nasza interpretacja wyników może być odpowiednio wyważona.
Niestety, z taką przejaskrawianą prezentacją danych mamy nieraz do czy-
nienia w środkach masowego przekazu (oczywiście na ogół w tych przeka-
zach nie chodzi o długość czasu reakcji którąkolwiek ręką, choć czasem mo-
że chodzić np. o stabilność prawej czy lewej nogi, ale to już jest zupełnie in-
na historia). Dzieje się tak zwłaszcza wtedy, gdy prezentującym te wyniki
WYNIKI EKSPERYMENTU JAKO ZMIENNA LOSOWA 129

zależy na przemyceniu treści zgodnych z ich interesami politycznymi lub


ekonomicznymi. Bazuje się tutaj na pewnych złudzeniach, którym – przy
odpowiednio krótkotrwałej prezentacji wykresu, np. w telewizji – mogą ulec
potencjalni odbiorcy, nastawieni raczej na pasywny niż krytyczny odbiór in-
formacji. Publikacje naukowe także nie są wolne od tego typu manipulacji.

KIEDY SŁUPKI, A KIEDY LINIE?

Teraz chcielibyśmy zwrócić Twoją uwagę na to, kiedy dane przedstawiać za


pomocą wykresu liniowego, a kiedy za pomocą wykresu słupkowego. Za-
sadniczo liniowość wykresu sugeruje pewną ciągłość zmiennej, zwłaszcza
tej, która jest wyskalowana na osi odciętych. Jeżeli na tej osi zaznaczamy
wartości np. czasu, ciężaru czy długości, to nie ma wątpliwości, że są to
zmienne naturalnie ciągłe, nawet jeśli narzędzie, którym się posługujemy do
ich pomiaru, nie jest zbyt precyzyjne. Podobnie jest wtedy, gdy mamy do
czynienia z pomiarem takich zmiennych, jak motywacja, natężenie potrzeby
sukcesu czy inteligencja. Ich ciągłość jest co prawda tylko zakładana, ale to
założenie wydaje się mocno uzasadnione. Dla prezentacji takich danych
optymalny jest więc wykres liniowy.
Nieco inaczej jest wtedy, gdy chcemy zestawić obok siebie np. wyniki z kil-
ku niezależnych eksperymentów albo liczebności głosów oddanych na kan-
dydatów w wyborach prezydenckich. Krótko mówiąc, jeżeli zmienna wyska-
lowana na osi odciętych jest zmienną nominalną (skokową, dyskretną), to do
prezentacji takich danych uzasadnione jest posłużenie się raczej wykresem
słupkowym. Dla podkreślenia owej skokowości zmiennej można nawet nie-
co odsunąć od siebie poszczególne słupki, co w większym stopniu sugeruje
ich niezależność.

NIECZYTELNOŚĆ WYKRESU, CZYLI O PRZEROŚCIE FORMY NAD TREŚCIĄ

Następna uwaga dotyczy czytelności wykresu. Wiadomo, że prostota przed-


stawienia danych jest warunkiem ich prawidłowego rozumienia. Coraz czę-
ściej jednak – również w publikacjach naukowych – spotyka się takie formy
prezentacji danych, które nie tylko są nośnikami informacji, ale także wyra-
żają (nie)wątpliwe talenty plastyczne ich twórców. W przypadku takich re-
alizacji trzeba wykazać szczególną ostrożność, aby ich forma nie przerosła
treści, zamazując lub utrudniając jej odbiór. Spójrz na wykres 4.16. Prezen-
tuje on znane ci już rozkłady liczebności trzech zbiorów wyników pocho-
dzących z badań nad zainteresowaniem statystyką przez studentów psycho-
logii, pedagogiki i socjologii.
Pomimo wysiłku, nie dało nam się ustawić wykresu 4.16 w taki sposób, aby
pokazać liczebności klasowe we wszystkich przedziałach w porównywanych
130 PRAWDOPODOBIEŃSTWO I ZMIENNA LOSOWA

grupach, a jednocześnie zachować jeszcze jakąś możliwość odczytu ich war-


tości. Gdybyśmy chcieli odsłonić w całości rozkłady liczebności dla socjo-
logów i pedagogów, musielibyśmy zmienić perspektywę na bardziej „z gó-
ry”, ale wtedy sprawa skomplikuje się jeszcze bardziej, ponieważ ustawienie
wykresu w takiej perspektywie praktycznie uniemożliwia odczyt którejkol-
wiek z wartości liczebności. Konia z rzędem temu, kto powie, ile wynosi li-
czebność np. trzeciego od dołu przedziału w grupie pedagogów.

Rysunek 4.16. Quasi-


trójwymiarowe histogramy,
tzw. 3D (3-Dimensional) dla 20
trzech rozkładów liczebności Liczebności przedziałów klasowych
18
z badań nad zainteresowa-
niem statystyką 16
[STATISTICA] 14

12

10

4
socjologowie
2
pedagogodzy
3 6 9 12 psycholodzy
15 18 21 24
Środki przedziałów klasowych 27 30

Rys. 4.17. „Poprawiona” wer-


sja rysunku wykresu 4.16
[STATISTICA]
20
18
16
Liczebności 14
przedziałów 12
klasowych 10
8
6
4
2
3
6
9
Środki 12
przedziałów 15
klasowych 18
21
24 socjologowie
27
30 pedagogodzy
psycholodzy

Jednym z najczęściej popełnianych błędów związanych z prezentacja danych


jest dublowanie informacji poprzez równoczesne przedstawianie ich w for-
mie wykresów i przytaczanie danych in extenso w tabelach. Analityczna
skrupulatność jest cnotą, ale zawsze trzeba mieć na względzie odbiorcę i je-
go potrzeby, no i oczywiście koszty papieru, który wydawca musi przezna-
czyć na nasz artykuł czy książkę.
WYNIKI EKSPERYMENTU JAKO ZMIENNA LOSOWA 131

KRÓTKIE PODSUMOWANIE

Większość wykresów ilustrujących dane z badań opiera się na funkcji:


y = f(x)
gdzie x odpowiada konkretnej wartości zmiennej X na osi odciętych, a litera
y symbolizuje konkretną wartość na osi rzędnych. Wyrażenie f(X) oznacza
formułę matematyczną, która jednoznacznie ustala wartość zmiennej Y na
podstawie znanej wartości zmiennej X.
Gdyby udało nam się znaleźć regułę, która dowolnej wartości zmiennej
X przyporządkowuje wartość zmiennej Y, wówczas moglibyśmy powie-
dzieć, że znamy model opisujący związki zachodzące między tymi zmien-
nymi. Znajomość takiego modelu jest bardzo użyteczna, dlatego że może on
stanowić narzędzie służące do przewidywania wyników. Na przykład znając
funkcję charakteryzującą relację między skalą zainteresowań statystyką
a częstością występowania pewnych wyników, bez dodatkowych badań em-
pirycznych moglibyśmy przewidywać prawdopodobieństwo, z jakim dany
wynik powinien występować w określonym przedziale klasowym. Podsta-
wowym problemem jest oczywiście znalezienie takiej funkcji, ale dokładniej
na ten temat napiszemy w jednym z ostatnich rozdziałów naszego przewod-
nicka. Najpierw musimy Cię jeszcze trochę przygotować.

4.5. PARAMETRY ROZKŁADU ZMIENNEJ LOSOWEJ

JESZCZE RAZ O TEORETYCZNYM I EMPIRYCZNYM ROZKŁADZIE ZMIENNEJ LOSOWEJ

Wiesz już, że wyniki każdego eksperymentu w psychologii można trakto-


wać jako realizację jakiejś zmiennej losowej. Zmienna taka może mieć cha-
rakter dyskretny (nieciągły), wtedy gdy zakres wartości, jakie może ona
przybierać, jest ograniczony, albo ciągły – gdy zmienna może przybierać
nieskończenie wiele wartości. Potrafisz także rozróżnić dwa typy rozkładów
zmiennej losowej – rozkład empiryczny, będący rozkładem wyników
w konkretnym eksperymencie, i rozkład teoretyczny, czyli rozkład możli-
wy do uzyskania w sytuacji modelowej.
W obu tych przypadkach istnieje możliwość przedstawienia informacji na
temat rozkładu w postaci charakterystycznych liczb odzwierciedlających
pewne własności rozkładu. Taką liczbą jest np. średnia arytmetyczna, czyli
suma wszystkich wartości podzielona przez ich liczbę. Średnia jest liczbą,
którą najczęściej przywołuje się wtedy, gdy chce się zobrazować większą
grupę liczb za pomocą jednej, najbardziej typowej dla tej grupy. Na przykład
132 PRAWDOPODOBIEŃSTWO I ZMIENNA LOSOWA

rozkład liczby oczek możliwych do uzyskania podczas rzutów idealnie sy-


metryczną kostką do gry wygląda następująco:
⎧⎛ 1 ⎞ ⎛ 1 ⎞ ⎛ 1 ⎞ ⎛ 1 ⎞ ⎛ 1 ⎞ ⎛ 1 ⎞⎫
⎨⎜1, ⎟ ⎜ 2, ⎟ ⎜ 3, ⎟ ⎜ 4, ⎟ ⎜ 5, ⎟ ⎜ 6, ⎟⎬
⎩⎝ 6 ⎠ ⎝ 6 ⎠ ⎝ 6 ⎠ ⎝ 6 ⎠ ⎝ 6 ⎠ ⎝ 6 ⎠⎭
gdzie pierwsza z tych liczb to liczba oczek na każdej ze ścianek, a druga to
prawdopodobieństwo uzyskania takiej liczby oczek. Średnia arytmetyczna
w tym idealnym rozkładzie wynosi 3,5, dlatego że:
1 + 2 + 3 + 4 + 5 + 6 21
= = 3,5
6 6
W rzeczywistości jednak, gdybyś sześć razy rzucił kostką, mógłbyś otrzy-
mać np. takie liczby oczek: 4, 1, 3, 2, 2 i 5. Średnia arytmetyczna dla tego
zbioru wyników wynosiłby więc 2,83, ponieważ:
4 + 1 + 3 + 2 + 2 + 5 17
= = 2,83
6 6
Oczywiście i w jednym, i w drugim przypadku średnia została obliczona
w taki sam sposób (suma wszystkich wartości została podzielona przez ich
liczbę). W statystyce trzeba wyraźnie odróżniać od siebie wartości typowe
dla rozkładu teoretycznego i empirycznego.

PARAMETRY ROZKŁADU I STATYSTYKI OPISOWE

Średnia w teoretycznym rozkładzie zmiennej losowej jest jednym z parame-


trów tego rozkładu. Inaczej mówiąc, jest to jedna z liczb określających wła-
ściwości tego rozkładu. Średnia w rozkładzie liczby oczek w rzucie jedną
kostką wynosi 3,5, a średnia dla rozkładu sumy oczek na dwóch kostkach
wynosi 7. Można to łatwo policzyć – wystarczy pomnożyć każdą liczbę
oczek, jaka może się pojawić na dwóch kostkach, przez to, jak często teore-
tycznie taka liczba powinna się pojawić. Wystarczy więc samo porównanie
wartości jednego parametru obu rozkładów – w tym wypadku średniej liczby
oczek na jednej i na dwóch kostkach – aby stwierdzić, że rozkłady te różnią
się między sobą.
Średnia obliczona dla konkretnego zbioru wyników nie odzwierciedla stałej
cechy zbioru tego typu, lecz jest tylko wartością opisującą ten jeden zbiór.
Wartości takie nazywane są statystykami opisowymi. Słowo statystyka
oznacza tutaj po prostu jakąś liczbę obliczoną dla zbioru danych. W przy-
padku takiej zmiennej losowej, jak liczba oczek na kostce (a także na dwóch
i więcej), średnia jako parametr i średnia jako statystyka różnią się od siebie
nie sposobem obliczania, ale zbiorem wartości, dla których są obliczane.
WYNIKI EKSPERYMENTU JAKO ZMIENNA LOSOWA 133

W przypadku parametrów są to wartości teoretycznie możliwe do uzyskania,


a w przypadku statystyk są to konkretne dane z eksperymentu.
Średnia arytmetyczna nie jest jedyną statystyką opisową (ani jedynym para-
metrem), jaką (jaki) można wykorzystać, by zobrazować pewną grupę da-
nych empirycznych (lub teoretyczny rozkład danych). Celem tego rozdziału
jest przedstawienie najczęściej używanych liczb tego typu.

ARYTMETYCZNE WŁAŚCIWOŚCI ŚREDNIEJ ARYTMETYCZNEJ

Zanim przedstawimy inne statystyki opisowe, warto przeanalizować kilka


specyficznych cech podstawowej z nich, czyli średniej arytmetycznej. To,
jak obliczyć średnią ze zbioru danych, wie każdy student, nawet jeśli jedy-
nymi liczbami, z jakimi do tej pory miał do czynienia były jego oceny w in-
deksie. Na wszelki wypadek powiedzmy to jeszcze raz: średnią arytmetycz-
ną określonego zbioru danych jest suma wszystkich wartości podzielona
przez ich liczbę. Jeżeli zbiór składa się tylko z czterech danych: 1, 3, 5 i 7, to
średnia arytmetyczna, którą oznaczymy x , wyniesie:
1 + 3 + 5 + 7 16
x= = =4
4 4
Dodajmy do tego zbioru jeszcze trzy liczby o wartości 5 i zobaczmy, co się
będzie działo ze średnią:
1 + 3 + 5 + 5 + 5 + 5 + 7 31
x= = = 4,43
7 7
Gdyby zaś zbiór ten zawierał jeszcze więcej danych o wartości równej 5 –
np., gdyby w sumie było ich aż 30 – ile wówczas wyniosłaby średnia?
* W równaniu użyliśmy zapisu 1 + 3 + 30 × 5 + 7
30 × 5, aby uniknąć konieczno- x= = 4,88 *
ści wypisywania 30 piątek. 33
Średnia arytmetyczna wyraźnie „reaguje” na częstotliwość, z jaką w zbiorze
występują pewne dane. Im więcej jest danych o tej samej wartości, tym bliż-
sza tej wartości jest średnia. Jest to jej pierwsza interesująca właściwość.
Załóżmy z kolei, że w naszym pierwotnym zbiorze danych pojawiła się war-
tość przekraczająca znacznie dotychczasowy zakres zbioru, np. wartość
równa 20. Jak wówczas zachowa się średnia?
1 + 3 + 5 + 7 + 20 36
x= = = 7, 2
5 5
Wartość średniej „przesunęła” się w kierunku danej istotnie odbiegającej od
pozostałych wartości. Kolejną ważną własnością średniej arytmetycznej jest
134 PRAWDOPODOBIEŃSTWO I ZMIENNA LOSOWA

więc jej „wrażliwość” na występowanie w zbiorze danych o wartościach


ekstremalnych. Im bardziej odbiegają one od większości danych w zbiorze,
tym silniejszy wpływ wywierają na średnią.
Podawanie średniej jako „reprezentanta” całego zbioru może czasem być
mylące, zwłaszcza gdy jej wartość została obliczona dla wartości o bardzo
dużym rozrzucie. Wtedy wynik średni może być błędną informacją o typo-
wych wartościach w analizowanej grupie danych.

JAK SOBIE RADZIĆ Z ZAFAŁSZOWANIEM ŚREDNIEJ?

Niedostrzeżenie faktu występowania danych ekstremalnych może spowo-


dować, że wartość średniej arytmetycznej zostanie przez te dane w pewien
* Reichmann, W. J. (1968). sposób zafałszowana. Jak twierdzi William Reichmann*, średnią należy za-
Drogi i bezdroża statystyki. tem obliczać tylko wtedy, gdy zbiór zawiera dane podobne do siebie.
Warszawa: PWN.
Nie zawsze jednak jest to możliwe. Na przykład wtedy, gdy w ekspery-
mencie mierzymy czasy reakcji osób badanych, jest prawie pewne, że czasy
z początku badania będą dłuższe niż czasy otrzymane pod koniec ekspery-
mentu. Jeszcze gorzej jest wtedy, gdy zadanie eksperymentalne wymaga
maksymalnie szybkich reakcji.
Nawet chwilowe zagapienie się osoby badanej w takiej sytuacji może spo-
wodować, że czas tej reakcji będzie rażąco dłuższy od wszystkich po-
zostałych.
Istnieją dwa sposoby radzenia sobie z taką sytuacją.
• Pierwszy, o ile masz podstawy do przypuszczenia, że ekstremalna dana
pojawiła się przypadkowo, polega na usunięciu tej danej ze zbioru i li-
czenie średniej bez niej. Ta procedura przypomina nieco odrzucanie
najwyższej i najniższej noty sędziowskiej za skoki narciarskie.
Yoshio Takane
• Drugi sposób polega na przekształceniu wszystkich danych za pomocą
jakieś funkcji, np. logarytmicznej, w wyniku czego wartości w zbiorze
po transformacji będą znacznie bardziej do siebie podobne niż poprzed-
** Ferguson, G. A., Takane, Y.
(1997). Analiza statystyczna
nio, a zarazem relacje między nimi zostaną zachowane. Dokładne zasa-
w psychologii i pedagogice. dy takich transformacji przedstawiają m.in. George Ferguson i Yoshio
Warszawa: PWN. Takane**.

ŚREDNIA ARYTMETYCZNA A SKALA POMIAROWA

Wyznaczenie średniej wymaga, aby skala, na której dokonywaliśmy pomia-


ru zmiennej zależnej, miała stałą i znaną jednostkę. Innymi słowy, średnia
może być wyliczana tylko wówczas, gdy dane pochodzą ze skali przedzia-
łowej lub stosunkowej. Oznacza to, że gdy dysponujemy danymi wyrażo-
WYNIKI EKSPERYMENTU JAKO ZMIENNA LOSOWA 135

nymi na skali porządkowej, wówczas liczenie średniej z takich danych po


prostu nie ma sensu.
Nie można dodawać do siebie wyników, dla których nie ma wspólnej, z gó-
ry ustalonej jednostki – średnia arytmetyczna wymaga przecież dodania
wszystkich wyników do siebie. Nawet przy pomiarach na skalach stosunko-
wych musimy uważać, żeby jednostki, w jakich dokonano pomiaru, były ta-
kie same. Nie można np. liczyć średniej, gdy część danych wyrażona w me-
trach, a część w centymetrach.

KILKA SŁÓW O SYMBOLACH I WZORACH STATYSTYCZNYCH

Zapisywanie procedury obliczania średniej arytmetycznej za pomocą równa-


nia z kreską ułamkową może okazać się nieco kłopotliwe dla większej liczby
danych. Wyobraź sobie, jak wyglądałoby to równanie, gdybyś chciał rozpi-
sać wzór na średnią np. z 2000 danych. Mogłoby zabraknąć na to kartki pa-
pieru. Taki zapis z pewnością byłby poprawny, ale mało wygodny. Pomija-
jąc już sprawę jego rozwlekłości, warto dysponować nieco krócej zapisany-
mi definicjami pojęć statystycznych, tak by móc w razie potrzeby szybko
przeprowadzić odpowiednie obliczenie. W statystyce taką właśnie rolę od-
grywają wzory.
Wzór statystyczny to nic innego, jak tylko zapisana za pomocą symboli
procedura obliczania jakiegoś ważnego wskaźnika statystycznego, np. śred-
niej arytmetycznej. Można więc powiedzieć, że wzór statystyczny to opera-
cyjna definicja jakiegoś terminu. Wzory składają się z symboli, które jedno-
znacznie wskazują na określoną grupę wartości liczbowych lub oznaczają
jakąś procedurę matematyczną.
W jaki więc sposób za pomocą symboli można zapisać procedurę obliczania
średniej arytmetycznej?

SYMBOLICZNE OZNACZENIA ZBIORÓW DANYCH

Zacznijmy od danych liczbowych, dla których chcemy wyznaczyć średnią


arytmetyczną. Na ogół podczas badań gromadzimy bardzo wiele danych,
które naturalnie tworzą pewne kategorie, tzn. są miarami jakichś zmiennych,
np. wynikami w teście mierzącym iloraz inteligencji. O takim zbiorze da-
nych, który grupuje wartości liczbowe będące miarami jednej zmiennej, mo-
żemy powiedzieć, że jest jednorodny. Zamiast jednak pisać, że dany zbiór
jest np. zbiorem „ilorazów inteligencji uzyskanych w wyniku badań prze-
prowadzonych wśród młodzieży szkolnej w wieku 16-17 lat”, możemy po
prostu napisać, że jest to zbiór X. Litera „X” właśnie dlatego, że jest symbo-
lem, równie dobrze może oznaczać zbiór „ilorazów inteligencji”, „wskaźni-
136 PRAWDOPODOBIEŃSTWO I ZMIENNA LOSOWA

ków poziomu motywacji” lub „długości paznokci” – to zależy od przyjętej


zasady. Zwróć także uwagę na to, że litera „X” jest zapisana kursywą, itali-
kiem czy – jak wolisz – pismem pochyłym. To ma znaczenie. Symbole sta-
tystyczne będziemy zawsze zapisywać w ten sposób, tym samym odróżnia-
jąc je od innych liter, których przecież nie brakuje w tekście. Wyjątkiem są
oznaczenia pochodzące z alfabetu greckiego – te symbole zapisuje się pi-
smem prostym. Ma również znaczenie to, że – w tym wypadku – litera „X”
jest duża. W ten sposób małe x-y zarezerwujemy sobie na inną okazję.
Oczywiście zamiast litery „X” możemy wykorzystać każdą inną, ale
umówmy się co do trzech spraw.
• Jeżeli już wprowadzamy do tekstu jakiś symbol na oznaczenie określo-
nej kategorii danych czy procedury, to – o ile to możliwe – nie ozna-
czajmy za pomocą tego samego symbolu innej kategorii czy procedury.
Czasem kontekst wymaga wprowadzenia jakiejś korekty, ale jako zasadę
przyjmijmy, żeby...
• pod każdym wzorem zamieszczać wyjaśnienia poszczególnych symboli.
Jeżeli na jednej stronie będzie kilka wzorów i wszystkie będą wykorzy-
stywały te same symbole, to takie wyjaśnienie będziemy dawali tylko
raz po pierwszym wzorze, ale...
• dobierając litery na symbole, będziemy się starali respektować pewną
tradycję, zgodnie z którą np. litera „F” będzie się raczej kojarzyła z te-
stem F Snedecora, a litera „B” – z testem B Bartletta niż z nazwą zbioru
danych. W tym momencie jest Ci oczywiście trudno zdecydować, czy
dana litera jest już zarezerwowana na jakiś wskaźnik statystyczny, czy
nie, ale z czasem opanujesz i tę sztukę.

INDEKSOWANIE, CZYLI JAK SIĘ ODWOŁAĆ DO DOWOLNEGO WYNIKU W ZBIORZE DANYCH?

Wiemy już, że X reprezentuje zbiór danych liczbowych będących miarami


jakiejś zmiennej. Stosując jednak symbole, wcale nie mamy zamiaru rezy-
gnować z dostępu do poszczególnych danych. Ostatecznie przecież każda
liczba w zbiorze X reprezentuje pomiar jakiejś cechy u konkretnej osoby.
Jeżeli więc zgodziliśmy się, że X oznacza zbiór wyników, to umówmy się
również, że kolejne cyfry (czy liczby) zapisane – mówiąc fachowo – w dol-
nej frakcji litery „X” będą oznaczały kolejne osoby badane. Innymi słowy,
niech symbol X1 oznacza osobę nr 1 należącą do zbioru X-ów, symbol X2 –
drugą, a Xi niech oznacza dowolną (i-tą) osobę ze zbioru danych X. Właści-
wie zamiast cyfr moglibyśmy posłużyć się nominalnymi identyfikatorami
każdej osoby badanej, np. jej imieniem i nazwiskiem, ale z punktu widzenia
analiz statystycznych nie ma to znaczenia, a tylko skomplikowałoby zapis.
WYNIKI EKSPERYMENTU JAKO ZMIENNA LOSOWA 137

Takie cyfrowe (czy liczbowe) identyfikatory poszczególnych danych nazy-


wa się indeksem.

SYMBOLICZNE OZNACZENIA LICZEBNOŚCI ZBIORU DANYCH

Każdy zbiór danych jest zbiorem skończonym, tzn. możemy powiedzieć, ile
dokładnie zawiera elementów. Oczywiście jest to związane z liczbą dokona-
nych pomiarów, a najczęściej z liczbą osób badanych w jednym ekspery-
mencie. Powinniśmy się więc również dogadać co do symbolu oznaczające-
go liczbę pomiarów w jednym zbiorze. W tradycji statystycznej wiele sym-
boli ustalono według ogólnej zasady, zgodnie z którą jest to pierwsza litera
jakiegoś słowa kluczowego. A ponieważ ta tradycja ukształtowała się głów-
nie w kulturze angielskojęzycznej, więc często symbole statystyczne są
pierwszymi literami słów angielskich. Na przykład symbol oznaczający licz-
bę pomiarów w zbiorze mógłby być literą n, ponieważ jest to pierwsza litera
angielskiego odpowiednika słowa „liczba” (number).
Tym razem symbol zapisaliśmy małą literą. Nie zawsze będziemy tu konse-
kwentni, ale dużą literę „N” wolelibyśmy zarezerwować sobie na oznaczenie
liczebności kilku zbiorów danych razem. Jeśli więc z kontekstu będzie wy-
nikało, że chodzi nam o liczebność jednego zbioru, to napiszemy, że zawiera
on n elementów (danych lub pomiarów), lub inaczej, że jest n-elementowy.
Gdy zaś będziemy chcieli podkreślić, że tym razem mamy na myśli sumę
kilku zbiorów danych, wówczas zapiszemy, że liczy on N elementów. Pod-
sumowując kilka ostatnich akapitów, możemy już symbolicznie opisać do-
wolny zbiór danych X, który zawiera n elementów, w następujący sposób:
X = {X1, ..., Xi, ..., Xn}
X zbiór danych liczbowych,
{} zbiór danych jest skończony i zawiera n elementów, włącznie z pierwszym i ostatnim,
X1 dana liczbowa oznaczona jako pierwsza w zbiorze,
Xi dowolna dana liczbowa, która w zbiorze ma indeks większy niż 1 i mniejszy niż n,
n indeks ostatniej danej liczbowej w zbiorze, a zarazem wielkość wskazująca na liczebność
zbioru danych,
Xn ostatnia (n-ta) dana liczbowa.

WZÓR NA ŚREDNIĄ ARYTMETYCZNĄ

Pójdźmy krok dalej i spróbujmy za pomocą znanej już symboliki zapisać


procedurę obliczania średniej arytmetycznej. Bez zbędnych wyjaśnień prze-
myciliśmy już wcześniej symbol średniej, czyli x . Czasem możesz spotkać
inne oznaczenia, np. M, ponieważ jest to pierwsza litera angielskiego odpo-
138 PRAWDOPODOBIEŃSTWO I ZMIENNA LOSOWA

wiednika słowa „średnia” (mean) lub – rzadziej – X . W dalszej części tej


książki będziemy się posługiwać małą literą „x” z daszkiem.
Jak z pewnością pamiętasz, średnia arytmetyczna jest sumą wartości danych,
podzieloną przez ich liczbę. Moglibyśmy więc zapisać następujący wzór:
X 1 + ... + X i + ... + X n
x=
n
x średnia arytmetyczna,

X 1 + ... + X i + ... + X n suma kolejnych danych liczbowych, począwszy od X1, do Xn,

n liczebność zbioru danych.

Matematycy lubią sprowadzać wszystko, co się da, do jak najprostszej po-


staci. W naszym wzorze niezbyt elegancko wygląda zapis w liczniku. Ozna-
cza on procedurę sumowania kolejnych wartości danych liczbowych ze zbio-
ru X.
Kiedy więc chcemy zaznaczyć, że jakieś wartości liczbowe mają być do sie-
bie po kolei dodawane, wtedy warto posłużyć się symbolem tej operacji, któ-
ra w matematyce jest oznaczana za pomocą dużej greckiej litery Σ (czytaj:
„sigma”). Sama jednak litera nie wystarczy. Trzeba jeszcze dodać do niej in-
formację, jakie wartości mają być dodawane i w jakiej kolejności. Zapis ope-
racji sumowania kolejnych wartości danych liczbowych będzie teraz wyglą-
dał następująco:
n

∑X
i =1
i

i należy odczytać go jako „sumę kolejnych wartości liczbowych ze zbioru X,


począwszy od wartości oznaczonej indeksem i = 1, a kończąc na ostatniej
wartości oznaczonej indeksem n”.
Po uwzględnieniu nowego zapisu procedury sumowania, wzór na średnią
arytmetyczną będzie wyglądał tak:
n

∑X i
x= i =1

n
x średnia arytmetyczna,
n

∑X
i =1
i suma kolejnych danych liczbowych, począwszy od X1, do Xn,

n liczebność zbioru danych.


WYNIKI EKSPERYMENTU JAKO ZMIENNA LOSOWA 139

BŁĄD W OBLICZANIU ŚREDNIEJ – PRZYKŁAD Z ZIEMNIAKAMI

Choć obliczanie średniej wydaje się czynnością bardzo łatwą, czasem jednak
można popełnić błąd. Jeden z takich błędów polega na obliczaniu średniej
nie na podstawie pojedynczych obserwacji, ale na podstawie znanych już
wcześniej średnich, w dwóch lub więcej grupach wyników.
Angielski statystyk, William Reichmann, opisuje następujący przykład po-
myłki tego rodzaju. W pewnym mieście znajdują się dwa sklepy, w których
sprzedaje się po 60 kg ziemniaków dziennie. W sklepie A można kupić dwa
kilogramy za złotówkę (zmieniliśmy brytyjskie funty i szylingi na kilogramy
i złotówki), a w sklepie B za tę samą cenę można kupić trzy kilogramy
ziemniaków, choć nieco gorszej jakości. Oznaczało to, że właściciel sklepu
A za sprzedane ziemniaki dziennie zarabiał 30 zł, a właściciel sklepu B – 20
zł. Zdarzyło się, że właściciel sklepu A przejął sklep B i zmieszał ze sobą
obydwa gatunki ziemniaków. Postanowił jednak sprzedawać je po takiej ce-
nie, która będzie odzwierciedlała uprzedni stosunek ceny i jakości produktu.
Przed połączeniem sklepów za dwa złote można było kupić pięć kilogramów
ziemniaków (2 kg w sklepie A i 3 kg w sklepie B). Właściciel nowo powsta-
łego sklepu postanowił utrzymać tę tendencję i uznał, że za dwa złote nadal
będzie można kupić u niego pięć kilo ziemniaków, czyli że cena kilograma
2 zł
ziemniaków zmieszanych powinna wynosić , tj. 40 groszy.
5 kg
Po połączeniu sklepów preferencje konsumentów nie zmieniły się i kupowa-
li teraz w jednym sklepie tyle samo ziemniaków dziennie, ile przedtem
w dwóch, czyli w sumie 120 kg. Jak łatwo obliczyć, za 120 kg zmieszanych
ziemniaków właściciel sklepu inkasował teraz 48 zł (120 × 0,4 zł = 48 zł).
Choć na pierwszy rzut oka wydaje się to dosyć dziwne, to jednak sprzedaw-
ca ziemniaków stracił na całej operacji mieszania obu gatunków. Przedtem
obydwa sklepy zarabiały razem 50 zł.
Przyczyna błędu leży w pominięciu wartości kilograma ziemniaków przed
połączeniem obu gatunków. Obliczające średnią cenę pomieszanych ziem-
niaków, właściciel połączonego sklepu potraktował równorzędnie wartość
sprzedaży obu sklepów. Średnią cenę pomieszanych ziemniaków należało
policzyć, dodając do siebie wartość sprzedaży dziennej w jednym i drugim
sklepie oraz dzieląc tę liczbę przez sumę kilogramów ziemniaków sprzeda-
wanych w obu sklepach razem, co daje nie 40 groszy, ale 41,67 groszy
⎛ 30 zł + 20 zł ⎞
⎜⎜ = 0,4167 zł = 41,67 gr ⎟⎟ . Można by to zaokrąglić do 41 groszy
⎝ 120 kg ⎠
na korzyść klienta, do 42 na korzyść właściciela lub sprzedawać 3 kilogramy
za 1,25 zł.
140 PRAWDOPODOBIEŃSTWO I ZMIENNA LOSOWA

PENSJE DLA KADRY I PRACOWNIKÓW, CZYLI O ŚREDNIEJ WAŻONEJ

Przykład z ceną ziemniaków z poprzedniego akapitu jest szczególnie intry-


gujący, dlatego że, na pierwszy rzut oka, trudno dopatrzyć się błędu w ro-
zumowaniu sprzedawcy. W istocie błąd ten polega na zaniedbaniu liczebno-
ści zbiorów, z których pochodziły dane do obliczania średniej. Nie chodzi
jednak o liczbę kilogramów ziemniaków, ale o liczbę złotówek zarabianych
w każdym z tych sklepów, a te właśnie nie były równe. Zaniedbywanie li-
czebności zbiorów, z których pochodzą dane, jest bardzo częstym błędem
przy obliczaniu średniej.
Wyobraźmy sobie jakieś przedsiębiorstwo, w którym średnia pensja kadry
zarządzającej jest znacznie wyższa niż średnia pensja pozostałych pracowni-
ków. Załóżmy, dla uproszczenia, że średnia pensja 10-osobowej kadry za-
rządzającej wynosi 2000 złotych, a średnia pensja pozostałych dziewięćdzie-
sięciu „zwykłych” pracowników wynosi 1000 zł. Gdybyśmy jednak chcieli
obliczyć średnią płacę w tym zakładzie, nie moglibyśmy po prostu policzyć
średnich z obu tych wartości, ponieważ liczba osób zarabiających dwa tysią-
ce jest dużo mniejsza niż liczba osób zarabiających tysiąc. Trzeba więc
uwzględnić to, ilu pracowników jest w każdej z tych grup, i obliczyć średnią
w sposób następujący:
(10 osób × 2000 zł) + (90 osób × 1000 zł)
= 1100 zł
100 osób
Średnią arytmetyczną obliczoną w ten sposób określa się jako średnią wa-
żoną. Nazwa uwzględnia „wagę” obydwu zbiorów danych, którą jest ich li-
czebność. Nie można liczyć średniej ze średnich, nie uwzględniając liczeb-
ności zbiorów, z których te średnie pochodzą.

JESZCZE INACZEJ O ŚREDNIEJ ZE ŚREDNICH I ŚREDNIEJ WAŻONEJ

Podsumujmy nasze rozważania nad średnią arytmetyczną i średnią ważoną


na przykładzie liczenia średniej dla kilku zbiorów. Przeanalizujmy cztery
sposoby obliczenia takiej średniej z danych powstałych z połączenia trzech
następujących zbiorów:
A = {1, 2, 3}; x A = 2
B = {4, 5, 6, 7, 8}; x B = 6
C = {9, 10, 11, 12, 13, 14, 15}; x C = 12
Pierwszy sposób – zdecydowanie niepoprawny – to obliczenie średniej
arytmetycznej ze średnich:
WYNIKI EKSPERYMENTU JAKO ZMIENNA LOSOWA 141

2 + 6 + 12
x= = 6,67
3
Nigdy tego więcej nie rób – to jest kategoria grzechów ciężkich! Chyba że
liczebność poszczególnych zbiorów jest taka sama. Wtedy to co innego – ale
to jedyny taki przypadek.
Pozostałe trzy sposoby są już poprawne w każdej sytuacji.
Sposób numer dwa polega na wyliczeniu średniej arytmetycznej ze wszyst-
kich obserwacji:
1 + 2 + 3 + 4 + 5 + 6 + 7 + 8 + 9 + 10 + 11 + 12 + 13 + 14 + 15
x= =8
15
Kolejny sposób to wyliczenie średniej ważonej ze średnich, czyli z uwzględ-
nieniem liczebności kolejnych zbiorów, z których pochodzą te średnie:
3 × 2 + 5 × 6 + 7 × 12
xw = =8
15
W tym ostatnim wzorze w liczniku znajdują się średnie z każdego zbioru,
pomnożone przez liczebności tych zbiorów. W mianowniku jest łączna licz-
ba wszystkich elementów, dla których obliczana jest średnia.
Sposób ostatni jest, być może, nieco dziwaczny:
2 + 2 + 2 + 6 + 6 + 6 + 6 + 6 + 12 + 12 + 12 + 12 + 12 + 12 + 12
x= =8
15
ale wynik ciągle jest prawidłowy. W liczniku tego wzoru średnie dla każde-
go zbioru powtarzają się tyle razy, ile jest elementów w tym zbiorze. Średnia
z dowolnej liczby takich samych liczb jest cały czas taka sama. Trzykrotne
powtórzenie średniej np. ze zbioru A daje w sumie taką samą wartość śred-
nią, jak średnia w tym zbiorze: średnia z liczb {1, 2, 3} jest taka sama jak
średnia z liczb {2, 2, 2}.
⎛1+ 2 + 3 2 + 2 + 2 ⎞
⎜ = ⎟=2
⎝ 3 3 ⎠
Obliczanie średniej ważonej można więc potraktować jako obliczanie „zwy-
kłej” średniej, przy czym każda średnia powinna być pomnożona przez li-
czebność zbioru, dla którego została wyznaczona. Symbolicznie można to
zapisać w postaci następującego wzoru:

∑( n × x )
k

i i
xw = i =1

N
142 PRAWDOPODOBIEŃSTWO I ZMIENNA LOSOWA

xw średnia ważona,

k liczba średnich, a zarazem liczba zbiorów, z których jest liczona średnia ważona,
liczebności poszczególnych zbiorów danych, począwszy od zbioru oznaczonego indeksem
ni
i = 1 do i = k,
średnie arytmetyczne poszczególnych zbiorów danych, począwszy od zbioru oznaczonego
xi indeksem i = 1 do i = k,

∑ (n × x )
k
suma iloczynów (mnożenia) liczebności i średnich arytmetycznych zbiorów danych, począw-
i i
szy od zbioru oznaczonego indeksem i = 1 do i = k,
i =1

k
N suma liczebności wszystkich zbiorów danych razem, czyli N = ∑n .
i =1
i

Średnia ważona jest więc po prostu średnią arytmetyczną obliczoną w specy-


ficzny sposób.

ŚREDNIA ARYTMETYCZNA JAKO WARTOŚĆ OCZEKIWANA

Czasami średnia arytmetyczna nazywana jest też wartością oczekiwaną.


Przeanalizujmy jeszcze raz wzór na średnią ważoną. Zgodnie z nim wszyst-
kie średnie mnożymy przez liczebność zbiorów, z których zostały wyliczo-
ne, i dzielimy przez sumę liczebności wszystkich zbiorów razem. Pamiętasz,
że dla dowolnego zbioru danych średnią arytmetyczną możemy potraktować
jako wartość najbardziej typową, reprezentującą wszystkie wartości danych
w zbiorze, z którego została wyznaczona. Można więc powiedzieć, że zgod-
nie ze wzorem na średnią ważoną poszczególne wartości zmiennej (czyli
średnie) mnożymy przez to, ile razy wystąpiły one w zbiorze. Rzuć okiem na
czwarty, ten dziwny wzór w poprzednim paragrafie. Przekształcimy teraz
nieco wzór na średnią ważoną i przeanalizujemy następujące równanie:

∑( n × x )
k

i i
n1 n n
xw = i =1
= × x1 + ... + i × xi + ... + k × xk
N N N N
Nie wyjaśniamy już symboli, ponieważ chyba wszystkie są zrozumiałe.
Po lewej stronie równania jest znany Ci już wzór na średnią ważoną. Po
stronie prawej wzór ten jest rozwinięty i przekształcony w taki sposób, że
poszczególne średnie ze zbiorów są przemnożone przez iloraz liczby ele-
mentów w danym zbiorze i liczby danych we wszystkich zbiorach łącznie.
Obliczenie średniej ważonej prowadzi dokładnie do takiego samego wyniku,
jak obliczenie średniej ze zbioru, w którym każda średnia jest powtórzona
tyle razy, ile jest obiektów, które reprezentuje (to jeszcze raz na temat dziw-
nego równania numer 4 z poprzedniego paragrafu). Można więc potraktować
WYNIKI EKSPERYMENTU JAKO ZMIENNA LOSOWA 143

wzór na średnią ważoną jako wzór na średnią, w którym wartości ni oznacza-


ją to, ile razy dana liczba występuje w zbiorze danych. W ten sposób średnią
arytmetyczną dla zbioru: X = {2, 3, 3, 4, 4, 4, 5, 5, 5, 5} można obliczyć
w sposób następujący:
1 2 3 4
x= ×2+ ×3+ ×4 + ×5 = 4
10 10 10 10
Ułamki w tym wzorze wskazują na to, ile razy dana wartość liczbowa po-
wtórzyła się w stosunku do wszystkich wartości. Takie ułamki jednak to
przecież nic innego, jak prawdopodobieństwo występowania danej wartości.
n
Można więc symbol i , oznaczający liczbę wystąpień i-tej wartości w zbio-
N
rze N elementów, zastąpić symbolem pi, oznaczającym prawdopodobieństwo
wystąpienia i-tego elementu. Po wprowadzeniu nowego symbolu do wzoru
otrzymujemy następujące wyrażenie:
k k
x = ∑ pi × X i lub x = ∑ pi X i
i =1 i =1

x średnia arytmetyczna,

k liczba różnych wartości liczbowych w zborze X,


pi prawdopodobieństwo wystąpienia danej wartości Xi w zbiorze X,
Xi dowolna wartość liczbowa w zbiorze X.

W drugim wzorze zrezygnowaliśmy z użycia symbolu mnożenia „ × ”, co –


jak wiesz – jest również poprawne.
Ostatni wzór to ciągle wzór wyrażający to samo – średnią arytmetyczną. Te-
raz jednak kładzie się akcent na to, że średnia to suma iloczynów wartości
zmiennej i prawdopodobieństw uzyskania tych wartości. W rachunku praw-
dopodobieństwa tak wyliczona średnia nosi nazwę wartości oczekiwanej
i często bywa oznaczana E(X) – wartość oczekiwana dla zmiennej X. Cza-
sami też używa się określenia „wartość przeciętna”.

WARTOŚĆ OCZEKIWANA, NADZIEJA MATEMATYCZNA – LOTERIE UCZCIWE I NIEUCZCIWE

Wartość oczekiwaną niektórzy nazywają także „nadzieją matematyczną”.


Łatwo można się zorientować, skąd wzięło się takie określenie, gdy się prze-
analizuje, na czym polega tzw. uczciwy zakład lub uczciwa loteria. Najogól-
niej mówiąc, w każdym zakładzie chodzi o pewną umowę z drugą osobą lub
instytucją, stwierdzającą, że jeśli coś się wydarzy, to dostaniemy nagrodę,
a jeśli zdarzy się coś innego, to przegramy. Nagrodą może być np. pewna
144 PRAWDOPODOBIEŃSTWO I ZMIENNA LOSOWA

suma pieniędzy, a przegraną – opłata za udział w zakładzie, czyli stawka.


Zakład można określić jako uczciwy tylko wtedy, gdy średnia wartość wy-
granej równa jest średniej wartości straty, tzn. gdy wartość oczekiwana suk-
cesu równa jest wartości oczekiwanej porażki.
Przypuśćmy, że na zmianę rzucamy kostką i jeżeli wypadnie „szóstka”, to
płacimy Ci 3 złote, ale jeżeli wypadnie jakakolwiek inna cyfra, to Ty płacisz
nam złotówkę. Czy ten zakład jest uczciwy? Wystarczy policzyć średnią wy-
⎛1⎞
sokość zysku i straty. Jeżeli szóstka wypada raz na sześć rzutów ⎜ ⎟ , a wte-
⎝6⎠
dy wygrywasz 3 zł, to średnia wysokość Twojego zysku wyniesie 50 groszy,
ponieważ:
1 1
x zysk = × 3 zł = zł
6 2
5 5
Z kolei średnia wysokość Twojej straty wynosi: x strata = × 1 zł = zł , po-
6 2
nieważ grając z nami, pięć razy na sześć możesz stracić złotówkę. Zysk to
wartość pozytywna, a strata to wartość negatywna. Można uznać, że zmien-
na losowa (tj. wypłata w zakładzie) wynosi +3 zł w przypadku wygranej
i 1 zł – w przypadku przegranej. Tak więc wartość oczekiwana wyniku w
tym zakładzie, czyli wynik średni dla Ciebie, wynosi:
1 5
x= × (+3 zł) + × (−1 zł) = −2 zł
6 6
Czy zauważyłeś, że jest ujemny? Nigdy nie graj ze statystykami – z pewno-
ścią będą chcieli „nabić Cię w butelkę”. Może udałoby Ci się wygrać raz czy
dwa razy, ale gdybyśmy dłużej pograli, wtedy z pewnością sporo byś stracił.
W codziennym życiu ludzie dosyć często grają w nieuczciwe loterie. Dzieje
się tak dlatego, że są skłonni obstawiać nawet wartości mało prawdopodob-
ne, jeżeli tylko są one dostatecznie duże, a wartość ewentualnej straty – nie-
wielka. Tak właśnie jest np. w wielu grach losowych. Kluczem do tych gier
bowiem nie jest obliczone prawdopodobieństwo wygrania, ale nadzieja na
bardzo wysoką wygraną za niewielką cenę.

WARTOŚĆ OCZEKIWANA W CIĄGŁYCH I NIECIĄGŁYCH ROZKŁADACH ZMIENNEJ LOSOWEJ

Średnią arytmetyczną można traktować albo jako statystykę wyliczoną dla


konkretnej próby, albo jako typową wartość dla jakiegoś rozkładu zmiennej
losowej. W tej drugiej sytuacji, zamiast pojęcia średniej, można użyć pojęcia
wartości oczekiwanej. Na przykład wartość oczekiwana dla rzutu kostką
wynosi:
WYNIKI EKSPERYMENTU JAKO ZMIENNA LOSOWA 145

1+ 2 + 3 + 4 + 5 + 6
E( X ) = = 3,5
6
i jest to oczywiście średnia z możliwych do uzyskania wartości tej zmiennej.
Niestety, nie da się w tak prosty sposób wyliczyć wartości oczekiwanej dla
rozkładu ciągłej zmiennej losowej. Nie można tego zrobić, dlatego że nie
można nieskończenie wielu wartości (a tyle wartości jest możliwych do uzy-
skania dla każdej ciągłej zmiennej) dodać do siebie i podzielić przez ich
liczbę (czyli nieskończoność). W matematyce wartość oczekiwana ciągłej
zmiennej losowej definiowana jest w bardzo zaawansowany sposób i nawet
* Postanowiliśmy wpisać tę de- nie zachęcamy Cię do zaglądania do tego przypisu*.
finicję do przypisu dla porządku,
ale możesz spokojnie ją opuścić: Łatwiejszy sposób wyznaczenia wartości oczekiwanej ciągłego rozkładu
+∞
zmiennej to obliczenie średniej arytmetycznej z pewnej próby losowo wy-
E(X ) =
∫ xf (x)dx , gdzie f(x) jest branych elementów tego rozkładu. Wartość średniej w tej próbie nie musi się
−∞
funkcją gęstości rozkładu praw- dokładnie pokrywać z wartością oczekiwaną, ale różnice stają się coraz
dopodobieństwa tej zmiennej. mniejsze w miarę wzrostu wielkości próby. Do metody tej odwołujemy się
z reguły wtedy, gdy nie znamy rozkładu danej zmiennej lub nie znamy jego
położenia. Będzie o tym mowa jeszcze dalej.

GEOMETRYCZNA INTERPRETACJA ŚREDNIEJ ARYTMETYCZNEJ

Czasami mówi się, że średnia to wartość najbardziej typowa. Trafna to intu-


icja, choć trochę upraszczająca. Średnia nie jest nawet wartością, dla której
prawdopodobieństwo pojawienia się jest największe. Na przykład dla rzutu
kostką prawdopodobieństwo pojawienia się każdej wartości ze zbioru {1, 2,
3, 4, 5, 6} jest dokładnie takie samo. Co więcej, średnia arytmetyczna dla te-
go rozkładu, równa 3,5, wcale nie występuje w zbiorze wartości.
Można geometrycznie interpretować średnią arytmetyczną jako pewien
punkt podparcia osi, na której umieszczone są „odważniki” reprezentujące
** Pomysł na takie przedstawie- liczbę występowania poszczególnych wartości zmiennej**. Można też inter-
nie średniej arytmetycznej pod- pretować średnią jako środek ciężkości jakiegoś obiektu. Ta pierwsza inter-
sunęła nam Maria Mańkowska.
Dzięki. pretacja przedstawione są na rysunku 4.18.
Rys. 4.18. „Odważnikowa”
interpretacja średniej
arytmetycznej 4 10
2 4 7 10
2 4 7 10

x=6
Średnia arytmetyczna – lub ogólniej wartość oczekiwana – jest podstawo-
wym parametrem reprezentującym centralną tendencję rozkładu danej
zmiennej.
146 PRAWDOPODOBIEŃSTWO I ZMIENNA LOSOWA

O MEDIANIE I KORZYŚCIACH PŁYNĄCYCH Z UŻYWANIA KART AMERICAN EXPRESS

Wartość oczekiwana (średnia arytmetyczna) nie jest jedyną statystyką, którą


można wykorzystać jako reprezentanta danego zbioru danych. Nie jest też
ona jedynym możliwym parametrem rozkładu teoretycznego zmiennej loso-
wej. Istnieje wiele innych parametrów, z których najważniejsze są tzw. mia-
ry położenia. Są to wartości zmiennej, o których wiemy, w jakim „miejscu”
całego zbioru danych są położone. Jedną z takich miar położenia, stosunko-
wo często stosowaną w analizach statystycznych, jest mediana, oznaczana
jako xe , a czasem jako me.
Mediana jest to taka wartość zmiennej, powyżej i poniżej której znajduje się
dokładnie po 50% obserwacji.
Praktyczne znaczenie tej wartości pokażemy na przykładzie z psychologii
zachowań konsumenckich. Dla kształtowania wizerunku każdej firmy
szczególnie ważne jest to, jaki wizerunek firmy jej klienci przedstawiają in-
nym osobom. Wskaźnikiem tej zmiennej może być np. informacja o tym, ilu
osobom klienci opowiadają o kłopotach, na jakie napotykają w przypadku
zetknięcia się z daną firmą lub jej produktami. Takie właśnie badania prze-
prowadziła amerykańska firma TARP wśród ponad tysiąca klientów korzy-
* Zob. Adamson C. (1993). stających z kart kredytowych American Express*. Klientów podzielono na
Evolving complaint procedures. dwie grupy – tych, którzy byli usatysfakcjonowani sposobem załatwienia
Managing service quality, 3,
439-445. problemu przez firmę, i tych, którzy zostali załatwieni negatywnie. Zmienną
zależną była liczba osób, którym badani opowiedzieli o swoich kłopotach.
W takiej sytuacji jednak nie ma sensu liczenie średnich, bo jeden gadatliwy
klient może zaciemnić prawdziwy obraz zjawiska. Jeżeli wszyscy średnio
skarżą się kilku osobom, a jeden pieniacz opowiedział o swoich problemach
setce, to wynik średni raczej odzwierciedlałby nastrój tego jednego, a nie
większości badanych. Dlatego właśnie w takich sytuacjach podaje się rezul-
taty za pomocą mediany. Podaje je tabela 4.10.

Tabela 4.10. Sposób zała- Liczba osób, którym o swoich problemach Liczba osób, którym o swoich problemach
twienia skargi a satysfakcja opowiedzieli klienci usatysfakcjonowani ze opowiedzieli klienci nieusatysfakcjonowani ze
klienta sposobu załatwienia ich spraw (mediana) sposobu załatwienia ich spraw (mediana)
8 16

Ponieważ wyniki pokazane w tabeli to właśnie mediany, więc na podstawie


definicji tego wskaźnika możemy wyciągnąć wniosek, że połowa osób uzy-
skała wyniki niższe niż mediana, a połowa wyniki wyższe od mediany. Zna-
czy to, że 50% tych, którzy mimo wszystko są zadowoleni, opowie o swoich
kłopotach mniej niż 8 osobom, a drugie 50% usatysfakcjonowanych opowie
o tym więcej niż 8 osobom. Ci, którzy pozostają nieusatysfakcjonowani ze
sposobu załatwienia reklamacji, są dużo bardziej gadatliwi. Połowa opowie
o tym mniej niż 16 osobom, a druga połowa więcej niż 16 osobom. Wniosek
WYNIKI EKSPERYMENTU JAKO ZMIENNA LOSOWA 147

jest chyba oczywisty: zdecydowanie lepiej jest w ogóle nie mieć reklamacji,
a jeżeli już, to załatwiać je pozytywnie.

SPOSÓB OBLICZANIA MEDIANY

W każdym zbiorze danych mediana jest wartością dzielącą ten zbiór na dwie
równe grupy – połowa wszystkich obserwacji znajduje się poniżej, a połowa
powyżej mediany.
Definicja mediany odwołuje się do pojęcia prawdopodobieństwa. Mediana
jest to w pewnym zbiorze danych taka wartość xe , dla której prawdopodo-
bieństwo tego, że przypadkowo wylosowana liczba z tego zbioru będzie
mniejsza lub większa od niej, jest dokładnie takie samo.
Jeżeli rozkład zmiennej losowej jest ciągły, to obliczenie mediany jest dosyć
skomplikowane i nie będziemy tu przedstawiać szczegółów. Jeżeli natomiast
rozkład zmiennej losowej jest skokowy, to mediany w zasadzie nie trzeba
obliczać – wystarczy ją tylko znaleźć. W tym celu należy wszystkie obser-
wacje ustawić w kolejności rosnącej (lub malejącej – wszystko jedno)
i sprawdzić, czy ich liczba jest parzysta, czy nieparzysta. Jeżeli liczba ob-
serwacji jest nieparzysta, to mediana jest wartością znajdującą się dokładnie
w środku tego ciągu.
Na przykład dla zbioru składającego się z 9 obserwacji mediana jest warto-
ścią piątą z kolei. Dla parzystej liczby obserwacji mediana jest średnią aryt-
metyczną z dwóch wartości środkowych, a więc np. dla zbioru składającego
się z ośmiu obserwacji, mediana jest średnią z wartości czwartej i piątej. Oto
przykłady obu tych sytuacji:
• zbiór A zawiera nieparzystą liczbę obserwacji {2, 4, 6, 8, 10, 12, 14, 16,
18} – mediana wynosi 10;
• zbiór B zawiera parzystą liczbę obserwacji {1, 3, 5, 7, 9, 11, 13, 15} –
7+9
mediana wynosi 8, ponieważ =8.
2
Sposób obliczania mediany nie zmienia się nawet wtedy, gdy w „środku”
grupy analizowanych wyników znajdują się takie same liczby.
Na przykład jeżeli zebrano 50 obserwacji, to medianą będzie średnia z tych
ustawionych na pozycji 25 i 26 po uporządkowaniu danych. Gdyby były to
takie same liczby, wówczas mediana byłaby po prostu średnią z tych dwóch
liczb, czyli ciągle tą samą liczbą, np. taką:
16 + 16
xe = = 16
2
148 PRAWDOPODOBIEŃSTWO I ZMIENNA LOSOWA

OBLICZANIE MEDIANY A SKALE POMIAROWE

Jak wynika z definicji, mediana nie wymaga tego, aby skala, na której był
dokonywany pomiar zmiennej, miała stałą jednostkę. Wymaga tylko tego,
by wartości tej skali tworzyły zbiór uporządkowany (rosnąco lub malejąco),
w którym każdy obiekt ma jednoznacznie przyporządkowaną rangę. W od-
różnieniu od średniej, medianę możemy poprawnie oszacować dla danych
zgromadzonych za pomocą każdej skali pomiarowej, oprócz nominalnej.

KWARTYLE

Mediana dzieli wszystkie dane na dwie równoliczne grupy, których wartości


w 50% są wyższe od mediany i w 50% niższe od niej. Czasem używa się
miar położenia dzielących dane na więcej niż dwie grupy, np. na cztery. Ła-
two zauważyć, że potrzeba trzech takich wartości. Noszą one nazwę kwar-
tyli (od łac. quarta, czyli czwarta część). Spróbujmy najpierw zdefiniować je
w sposób graficzny. Oto rysunek 4.19.

Rysunek 4.19. Kwartyle 0,028


w rozkładzie gęstości
prawdopodobieństwa 0,026

0,024

0,022

0,020

0,018

0,016

0,014

0,012

0,010

0,008

0,006

0,004

0,002

0,000
-2 -1 0 1 2
Q1 Q2= xe Q3

Do zilustrowania kwartyli użyliśmy znanego ci już rozkładu gęstości praw-


dopodobieństw. Kwartyl pierwszy, symboliczne oznaczany jako Q1, to licz-
ba, poniżej której znajduje się 25% danych o najniższych wartościach.
Kwartyl drugi, oznaczony jako Q2, to liczba, poniżej której jest 50% wszyst-
kich danych, czyli mediana. Kwartyl trzeci (Q3) to taka wartość zmiennej,
WYNIKI EKSPERYMENTU JAKO ZMIENNA LOSOWA 149

poniżej której leży 75% danych lub powyżej której znajduje się 25% naj-
wyższych wyników. Krótko mówiąc, między kwartylami jest po 25% da-
nych, podobnie jak między początkiem skali pomiarowej a kwartylem
pierwszym oraz kwartylem trzecim a końcem skali pomiarowej. Kwartyle to
po prostu punkty na skali pomiarowej, które dzielą zbiór danych na ćwiartki.

SPOSÓB OBLICZANIA KWARTYLI

Kwartyle wyznacza się dokładnie w taki sam sposób, jak medianę. W prak-
tyce wygląda to tak, że najpierw należy znaleźć medianę, która podzieli
zbiór danych na dwie równoliczne grupy, a potem obliczyć punkty, które
znowu podzielą każdą z tych grup na dwie.
W przypadku gdy liczba wszystkich obserwacji jest parzysta, nie ma więk-
szego problemu. Na przykład dla zbioru {1, 2, 3, 4, 5, 6, 7, 8} mediana wy-
⎛ 4+5 ⎞
nosi 4,5 ⎜ = 4,5 ⎟ i dzieli ten zbiór na dwa podzbiory: {1, 2, 3, 4} i {5, 6,
⎝ 2 ⎠
7, 8}. Ponieważ liczba obserwacji w obu tych podzbiorach jest parzysta,
wartości dzielące te podzbiory na dwie grupy to średnie arytmetyczne z obu
wartości środkowych. Pierwszy kwartyl wynosi więc 2,5, a trzeci – 6,5.
Gdy liczba wszystkich obserwacji w zbiorze danych jest parzysta, ale po po-
dzieleniu na dwie grupy otrzymamy dwa podzbiory zawierające nieparzystą
liczbę elementów, wtedy pierwszym i trzecim kwartylem będą odpowiednio
wartość środkowa w pierwszym podzbiorze i wartość środkowa w drugim.
Na przykład dla zbioru 10-elementowego {1, 2, 3, 4, 5, 6, 7, 8, 9, 10} warto-
ści kwartyli wynoszą odpowiednio Q1 = 3, Q2 = 5,5 i Q3 = 8.
Wyznaczenie kwartyli dla zbioru zawierającego nieparzystą liczbę obserwa-
cji nie jest bardziej skomplikowane. Mediana jest wartością środkową w tym
zbiorze. Nie można jej jednak pozostawić poza zbiorem danych po podziele-
niu go na dwie grupy, dlatego też wartość środkową wpisuje się dwukrotnie
– jako wartość najwyższą w zbiorze poniżej mediany i jako wartość najniż-
szą w zbiorze poniżej mediany. Na przykład dla zbioru {1, 2, 3, 4, 5, 6, 7, 8,
9} wartość środkowa wynosi 5. Wyznaczenie pierwszego i trzeciego kwarty-
la wymaga podzielenia tego zbioru na dwa podzbiory {1, 2, 3, 4, 5} oraz {5,
6, 7, 8, 9}. Wartość środkowa w całym zbiorze została powtórzona w obu
tych podzbiorach. Dalej postępowanie jest takie samo, jak przy wyliczaniu
mediany: wartość pierwszego kwartyla wynosi 3, a trzeciego – 7.

INNE MIARY POŁOŻENIA

Mediana dzieli zbiór obserwacji na dwie grupy, a kwartyle na cztery. Każdy


zbiór można podzielić na dowolną liczbę podzbiorów.
150 PRAWDOPODOBIEŃSTWO I ZMIENNA LOSOWA

Najczęściej jednak stosowane są jeszcze tylko dwie miary położenia: decyle,


które dzielą wszystkie dane na 10 grup – takich decyli jest 9 – oraz centyle
(czasem zwane z angielska percentylami), które ustalają, wartości, przez ja-
kie przebiegają linie podziału dla 100 grup, i jest ich 99. Łatwo się domyślić,
że 25. centyl to pierwszy kwartyl, 50. centyl to drugi kwartyl, czyli mediana
i równocześnie 5. decyl, a 75. centyl to trzeci kwartyl. Metoda wyznaczania
decyli i centyli jest taka sama, jak w przypadku mediany i kwartyli.
Nie możemy przy tej okazji oprzeć się pokusie, aby przywołać scenę z filmu
Firma, nakręconego na podstawie powieści Johna Grishama. Głównym bo-
haterem filmu jest absolwent prestiżowego wydziału prawa na Uniwersyte-
cie Harvarda w USA. Ponieważ był on bardzo dobrym studentem, wielu pra-
codawców chciało zatrudnić go w swojej kancelarii. Jeden z nich, podczas
rozmowy kwalifikacyjnej, z satysfakcją pochwalił go jako studenta z górne-
go piątego centyla, co po angielsku brzmi top five percentile. Bohater filmu
oburzył się jednak i poprawił swego rozmówcę, że nie jest on z górnego pią-
tego percentyla, ale z górnej piątki (top five), a to oczywiście znaczy zupeł-
nie coś innego.

KWANTYLE

Mediana, kwartyle, decyle i centyle mają ze sobą coś wspólnego. Wszystkie


dzielą dane na pewną liczbę równolicznych grup. Czasami noszą one ogólną
nazwę kwantyli.
Po co te wszystkie miary położenia? Otóż stosowanie ich pozwala na wzbo-
gacenie wiedzy o rozkładzie zmiennej losowej w stosunku do tego, co wia-
domo jedynie na podstawie średniej. Jeżeli np. uczeń powie, że uzyskał
z klasówki trójkę przy średniej arytmetycznej wszystkich wyników 3,25, to
wiemy, że uzyskał on ocenę niższą niż przeciętna. Jeżeli jednak dowiemy
się, że uzyskany przez niego wynik to 7. decyl, to uzyskamy informację, że
70% uczniów było od niego gorszych. Czy taka sytuacja jest możliwa? Ależ
oczywiście, wystarczy, by dostatecznie dużo uczniów dostało dwóję, pojawi-
ło się kilka piątek, a nie było prawie wcale ocen pośrednich.
Ze wszystkich miar położenia chyba najczęściej stosowane są mediana i cen-
tyle. Te ostatnie szczególnie chętnie wykorzystywane są w edukacji. Dla ro-
dziców bardziej satysfakcjonująca jest informacja, że ich pociecha zajmuje
pierwsze miejsce w skali całej klasy lub szkoły niż jaka jest średnia jej ocen.
Jeżeli ktoś osiąga np. 95. centyl z matematyki w całej szkole, to warto się
zastanowić, czy nie powinien pomyśleć o takim właśnie kierunku studiów.
Stosowanie miar położenia pozwala na porównywanie wyników w różnych
grupach. Ktoś, kto otrzymał czwórkę od nauczyciela, który stawia cztery
plus raz na pięć lat, a poza tym tylko trójki, z pewnością jest lepszy od ko-
WYNIKI EKSPERYMENTU JAKO ZMIENNA LOSOWA 151

goś, kto ma czwórkę przy średniej 4,3 w całej klasie u innego nauczyciela.
Wynik wynikowi nierówny, dopóki się nie dowiesz, jaką zajmuje on pozycję
w danym zbiorze.
Niektóre uczelnie wyższe korzystają z miar położenia przy wyznaczaniu wy-
sokości stypendium naukowego. Wysokość wsparcia, jakie dostaje student,
uzależniona jest nie od średniej ocen, ale od tego, jaki centyl na danym kie-
runku studiów osiąga.

MODALNA

Jest jeszcze jedna miara położenia, innego jednak typu niż średnia i kwanty-
le. Nazywa się modalna lub krócej – moda – i jest niewątpliwie najprost-
szym z parametrów rozkładu zmiennej losowej. Jest to ta wartość, która
w zbiorze danych powtarza się najczęściej.
(Nawiasem mówiąc, jeżeli ubierasz się lub zachowujesz tak jak większość
twoich przyjaciół, to wygląda na to, że jesteś modny, ale równocześnie –
przyznasz – dość banalny. No cóż, paradoksalnie, to jest właśnie cena, jaką
płacisz za modę).
Modalna to także jedyny parametr, który możemy ustalić dla każdej ze skal
pomiarowych. Już nawet dla skali nominalnej możemy ustalić, która wartość
(nominał lub kategoria) jest najliczniejsza. Rysunek 4.20 ilustruje częstość
występowania kolejnych danych w pewnym zbiorze wyników.
Dane przedstawione na rysunku to hipotetyczne wyniki uzyskane podczas
jednej z sesji egzaminacyjnych na uczelni. W zbiorze danych połączyliśmy
wyniki trzech egzaminów, jakie odbywały się podczas tej sesji. Za każdy eg-
zamin można było zdobyć po 8 punktów.
Rysunek 4.20. Wykres zbioru 200
danych, dla którego modalna
180
wynosi 13 [STATISTICA]
160

140
Liczba studentów

120

100

80

60

40

20

0
2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
Liczba zdobytych punktów
152 PRAWDOPODOBIEŃSTWO I ZMIENNA LOSOWA

Na osi poziomej przedstawione są punkty zdobyte przez studentów, a na osi


pionowej – liczba studentów, którzy zdobyli określona liczbę punktów.
Z wykresu wynika, że kilku studentów otrzymało z egzaminów tylko po
2 punkty, a kilku maksymalną liczbę punktów.
Najczęściej powtarzającą się wartością w całym zbiorze, czyli modalną, jest
wartość równa 13 punktów. O takim rozkładzie danych, w którym tylko jed-
na wartość jest najczęściej reprezentowana, powiemy, że jest to rozkład jed-
nomodalny. Naturalnie, łatwo taki rozkład rozpoznać po tym, że ma tylko
jeden wierzchołek górujący nad pozostałymi.
Może być jednak i tak, że w zbiorze pojawią się dwie, a nawet więcej warto-
ści równie często i zarazem najczęściej występujące w porównaniu z innymi.
O takim rozkładzie danych, który ma dwie modalne (lub więcej), powiemy,
że jest to rozkład dwu-, trzy- lub więcej modalny.

MIARY TENDENCJI CENTRALNEJ

Średnią, medianę lub modalną często nazywa się „miarami tendencji cen-
tralnej”. Wszystkie one wskazują na wartość pod jakimś względem typową
dla danego rozkładu.
Średnia to „środek ciężkości” zbioru danych (por. rys. 4.18), mediana to
wartość leżąca „w środku” całej grupy wyników, a modalna to wartość, jaka
pojawia się najczęściej. Każda z tych miar wskazuje więc na jakąś tendencję
centralną, ale każda „mówi” trochę o czymś innym.

4.6. WSKAŹNIKI ZMIENNOŚCI

DLACZEGO KONIECZNE JEST OBLICZANIE MIAR ZMIENNOŚCI DLA ZBIORU DANYCH?

Wyobraź sobie, że jesteś młodym polonistą i masz przeprowadzić zajęcia w


czterech klasach piątych („A”, „B”, „C” i „D”), w których uczy się po 18
dzieci. Od dyrektorki szkoły dowiedziałeś się, że średnia ocena z języka pol-
skiego we wszystkich tych klasach jest identyczna i wynosi 3,5.
Jeśli twoja świadomość metodologiczna jest niska, to tę informację weź-
miesz za dobrą monetę: wystarczy, że przygotujesz się do lekcji z jedną kla-
są, a potem powtórzysz ją w taki sam sposób w pozostałych – i problem
masz z głowy.
Jeżeli jednak jesteś istotą myślącą (łac. homo sapiens), to zastanowisz się,
czy nie warto rzucić okiem na cząstkowe oceny uczniów w obu klasach.
WYNIKI EKSPERYMENTU JAKO ZMIENNA LOSOWA 153

Wiesz już przecież, że ta sama wartość średnia może powstać z różnych da-
nych. Jeśli np. wszyscy uczniowie w klasie będą mieli tylko oceny równe
3,5, to średnia też będzie wynosiła 3,5. O takim rozkładzie powiemy, że jest
* My – autorzy niniejszego homogeniczny albo jednorodny.
przewodnika – należymy do po-
kolenia, dla którego piątka, a nie Jeżeli połowa uczniów będzie miała piątki*, a druga połowa dwóje, to śred-
szóstka, była najwyższą oceną nia także będzie równa 3,5, podobnie jak wtedy, gdy jedna trzecia będzie
osiągnięć szkolnych.
miała tróje, jedna trzecia tróje z plusem i jedna trzecia czwórki. Takie roz-
kłady będziemy z kolei nazywali heterogenicznymi lub niejednorodnymi.
Wszystko byłoby jeszcze dobrze, gdyby rozkład ocen cząstkowych we
wszystkich klasach był identyczny.
Ale jeśli w jednej klasie są sami „przeciętniacy”, a w innej tylko „geniusze”
i „leserzy”? Czy wiedząc o tym, tak samo poprowadzisz lekcję w obu tych
klasach? Nie życzymy ci tego, ale wygląda na to, że w tej drugiej nie będzie
łatwo.
Spójrz na wykresy na rysunku 4.21. Ilustrują one cztery możliwe rozkłady
ocen z języka polskiego w różnych klasach wtedy, gdy średnie arytmetyczne
w tych klasach są identyczne.
Można sobie wyobrazić wiele takich rozkładów zmiennej losowej, które ma-
ją nie tylko taką samą średnią, ale także identyczna medianę czy modalną,
a mimo to nie są takie same. Aby dobrze rozumieć, o czym mówią nam dane
z badań, nie wystarczy więc wiedzieć – jaki jest najbardziej typowy dla nich
wynik, ale – kto wie, czy nie jest to ważniejsze, jaki jest częstościowy roz-
kład poszczególnych wyników na skali pomiarowej. Potrzebna jest więc ja-
kaś miara liczbowa określająca, w jakim zakresie wyniki otrzymane w eks-
perymencie różnią się od siebie.
Takie liczbowe wskaźniki różnorodności danych nazywają się wskaźnikami
dyspersji lub miarami zmienności. Jednymi z najważniejszych tego rodza-
ju wskaźników są: wariancja (nie mylić z „wariacją”!) i odchylenie stan-
dardowe, czyli pierwiastek kwadratowy z wariancji.

Rozkład całkowicie homogeniczny (jednorodny)


Rysunek 4.21. Przykładowe A Klasa wyjątkowo przeciętnych przeciętniaków
rozkłady ocen z języka pol- 18
17
skiego w czterech klasach 16
piątych, w których średnia 15
14
ocen jest równa 3,5 13
Liczba uczniów w klasie

12
[STATISTICA] 11
10
9
8
7
6
5
4
3
2
1
0
2,0 2,5 3,0 3,5 4,0 4,5 5,0
Ocena z języka polskiego
154 PRAWDOPODOBIEŃSTWO I ZMIENNA LOSOWA

Rozkład jednorodny, ale nie w takim stopniu co poprzedni


B Klasa dość normalnych przeciętniaków
18
17
16
15
14
13

Liczba uczniów w klasie


12
11
10
9
8
7
6
5
4
3
2
1
0
2,0 2,5 3,0 3,5 4,0 4,5 5,0
Ocena z języka polskiego

Rozkład heterogeniczny (niejednorodny)


C Klasa normalnie zróżnicowana pod względem zamiłowania do języka polskiego
18
17
16
15
14
13
Liczba uczniów w klasie

12
11
10
9
8
7
6
5
4
3
2
1
0
2,0 2,5 3,0 3,5 4,0 4,5 5,0
Ocena z języka polskiego

Rozkład skrajnie heterogeniczny (niejednorodny)


D Klasa leserów i geniuszy (pod względem dydaktycznym przypadek kliniczny)
18
17
16
15
14
13
Liczba uczniów w klasie

12
11
10
9
8
7
6
5
4
3
2
1
0
2,0 2,5 3,0 3,5 4,0 4,5 5,0
Ocena z języka polskiego

JAK POLICZYĆ WARIANCJĘ?

Formalnie rzecz biorąc, wariancja jest to suma podniesionych do kwadratu


odchyleń poszczególnych wyników danego zbioru od jego średniej, podzie-
lona przez liczbę elementów tego zbioru. W postaci wzoru wygląda to tak:
n

∑(X i − x) 2
s = 2 i =1

n
WYNIKI EKSPERYMENTU JAKO ZMIENNA LOSOWA 155

s2 (czytaj: „s kwadrat”) wariancja,


n liczba wszystkich obserwacji w zbiorze,
Xi wartość kolejnego, i-tego pomiaru,

x średnia arytmetyczna,
n

∑i =1
suma n wartości danych.

Stosowanie wariancji jako miary zmienności wymaga w zasadzie tylko tego,


aby pomiar dokonany został na skali przedziałowej lub stosunkowej, tylko
bowiem w takich sytuacjach można obliczać średnią arytmetyczną, która jest
potrzebna do wyznaczenia wariancji. Ponieważ skala ocen jest skalą prze-
działową, więc możemy policzyć wariancję do wszystkich przedstawionych
w poprzednim punkcie rozkładów ocen z języka polskiego. Spójrz na wyniki
w ostatniej kolumnie w tabeli 4.11.

Tabela 4.11. Dyspersja ocen Liczba


z języka polskiego w klasach Wykres uczniów Średnia Minimum Maksimum Wariancja
piątych w klasie
A 18 3,5 3,5 3,5 0,000
B 18 3,5 3,0 4,0 0,167
C 18 3,5 2,0 5,0 0,556
D 18 3,5 2,0 5,0 2,250

We wszystkich klasach liczba uczniów i średnia ich ocen z polskiego są


identyczne, ale inny jest ich rozkład. Ponieważ wszystkie oceny w klasie
„A” są takie same, więc wariancja = 0; po prostu nie ma zmienności, a ze-
rowa wartość wskaźnika to właśnie oznacza. Oceny w klasie „B” oscylują
między 3,0 a 4,0, co odzwierciedla się w większej od 0 wartości wskaźnika
dyspersji. Jeszcze wyższa jest jego wartość w klasie „C”, ponieważ w tym
przypadku uczniowie mają na swoim koncie wszystkie możliwe oceny ze
skali ocen. Zwróć jednak uwagę na sytuację w klasie „D”. Tym razem wa-
riancja jest kilkakrotnie większa niż w poprzednich klasach. Jej wartość po-
twierdza bardzo wyraźnie nasze wcześniejsze obawy co do tej klasy.

MATEMATYCZNE WŁASNOŚCI WARIANCJI

Wariancja dla zbioru takich samych danych, np. {2, 2, 2, 2, 2, 2, 2, 2}, wy-
nosi 0. Łatwo zauważyć, dlaczego tak jest. Po pierwsze, średnia arytmetycz-
na w tym zbiorze jest taka sama, jak jego wszystkie elementy (w przykłado-
wym zbiorze x = 2 ), po drugie, jedną z operacji przy obliczaniu wariancji
jest zsumowanie różnic między średnią i wszystkimi wartościami w zbiorze,
156 PRAWDOPODOBIEŃSTWO I ZMIENNA LOSOWA

a po trzecie, jeśli wynik odejmowania od siebie dwóch identycznych liczb


jest równy zero, to suma zerowych różnic także równa się 0.
Im bardziej zróżnicowane są dane w zbiorze, tym bardziej rośnie wariancja
dla całego tego zbioru. Należy jednak zauważyć, że „wpływ” na ostateczną
wartość wariancji zależy od tego, jak bardzo poszczególne wyniki oddalone
są od średniej arytmetycznej. Ponieważ wartości odchyleń od średniej we
wzorze podnoszone są do kwadratu, więc wariancja niejako „zwiększa” zna-
czenie właśnie tych danych, które są bardziej oddalone od średniej.
W jednym z obliczeń przedstawionych w poprzednim punkcie dla rozkładu
ocen z języka polskiego w klasie „C” wariancja wynosi s2 = 0,556. Suma
odchyleń poszczególnych wartości danych od średniej, czyli licznik we wzo-
rze na wariancję, w tym obliczeniu wynosi 10,0. Choć wartość ta została ob-
liczona dla wszystkich osiemnastu obserwacji, to jednak nie wszystkie one
mają jednakowy wpływ na jej wielkość. Suma tylko dwóch skrajnych skład-
ników licznika wynosi 4,5, ponieważ (2 − 3,5) 2 + (5 − 3,5) 2 = 4,5, a to stano-
wi aż 45% końcowej wartości licznika. Z kolei suma sześciu środkowych
składników wynosi 0, ponieważ 6 × (3,5 − 3,5) 2 = 0, co w ogóle nie wpływa
na sumę w liczniku.

WARIANCJA JAKO NADWYŻKA ŚREDNIEJ KWADRATÓW NAD KWADRATEM ŚREDNIEJ


– O CO CHODZI?

Jeden z największych polskich popularyzatorów matematyki, prof. Hugo


Steinhaus (1961), definiuje wariancję jako... nadwyżkę średniej kwadratów
nad kwadratem średniej. Ta dość tajemniczo brzmiąca formuła to skrót my-
ślowy. Słowo „nadwyżka” oznacza tutaj różnicę. Wyrażenie „średnia kwa-
dratów” znaczy tyle, co średnia arytmetyczna obliczona z liczb podniesio-
nych do kwadratu, wyrażenie „kwadrat średniej” to nic innego, jak średnia
arytmetyczna z tych liczb podniesiona do kwadratu. Na przykład dla liczb
1 i 3 wartości te wynoszą odpowiednio w przypadku średniej kwadratów:
12 + 32 1 + 9
x= = =5
2 2
oraz w przypadku kwadratu średniej:
2
⎛1+ 3 ⎞
x=⎜ ⎟ =4
⎝ 2 ⎠
Jak widać, podniesienie średniej do kwadratu daje w rezultacie wartość niż-
szą niż obliczenie średniej arytmetycznej z tych samych dwóch liczb, pod-
niesionych do kwadratu. Okazuje się, że tak jest zawsze, gdy liczby różnią
WYNIKI EKSPERYMENTU JAKO ZMIENNA LOSOWA 157

się między sobą. Jeżeli chcesz, możesz samemu sprawdzić, że np. dla zbioru
{2, 2} wynik będzie taki sam, niezależnie od tego, czy podniesiesz średnią
z obu tych liczb do kwadratu, czy też obliczysz średnią z kwadratów tych
liczb. Różnica między kwadratem średniej a średnią kwadratów jest tym
większa, im większa jest różnorodność w zbiorze liczb. Co ciekawe, różnica
między średnimi arytmetycznymi obliczonymi na te dwa sposoby to właśnie
zdefiniowana wcześniej wariancja. Okazuje się bowiem, że:
2
n n
⎛ n ⎞
∑ ( X i − x) 2 ∑ X i2 ⎜ ∑ Xi ⎟
s2 = i =1
= i =1
− ⎜ i =1 ⎟
n n ⎜ n ⎟
⎜ ⎟
⎝ ⎠
Mamy nadzieję, że wszystkie symbole użyte w tym wzorze są dla ciebie zro-
zumiałe. Jeśli masz wątpliwości, spróbuj samodzielnie policzyć wariancję
dla zbioru {1, 3}, a wynik porównaj z różnicą między średnią kwadratów
a kwadratem średniej.
We wzorze wyrażenie po lewej stronie znaku odejmowania oznacza średnią
z poszczególnych liczb podniesionych do kwadratu, a wyrażenie po stronie
prawej – po prostu średnią arytmetyczną podniesioną do kwadratu.

ZAKUPY W SUPERMARKECIE, CZYLI O WARIANCJI DLA ŚREDNICH

Eksperymenty psychologiczne w pewnym sensie można potraktować jako


procedurę pozwalającą na zidentyfikowanie przyczyn zmienności w zbiorze
zmiennej zależnej.
Pomyśl o eksperymencie, w którym zmienną zależną jest liczba pytań zada-
wanych sprzedawcom przez klientów. Załóżmy, że wzięło w nim udział 12
osób, które zadały sprzedawcom od 1 do 6 pytań. Pełny zbiór wyników tego
badania mógłby wyglądać np. tak:
{1, 2, 3, 4, 3, 2, 5, 4, 3, 6, 5, 4}
Średnia arytmetyczna dla całego zbioru wynosi x = 3,5 , a wariancja –
s2 = 1,92. Na razie wartości te niewiele mówią. Przypuśćmy jednak, że dane
pochodzą od 12 osób, badanych w różnych sytuacjach. Połowa osób bada-
nych to ekstrawertycy, a druga połowa – introwertycy; połowa wzięła udział
w eksperymencie w supermarkecie, druga zaś w sklepie osiedlowym. W od-
niesieniu do każdej z tych osób zapisywano liczbę pytań, jakie zadały one
sprzedawcy.
Wszystkie dane z eksperymentu prezentuje tabela 4.12, w której uwzględni-
liśmy podział osób badanych na różne grupy.
158 PRAWDOPODOBIEŃSTWO I ZMIENNA LOSOWA

Tabela 4.12. Liczba pytań za- Rodzaj sklepu Ekstrawertycy Introwertycy Średnia
dawanych sprzedawcom
przez klientów w fikcyjnym Supermarket 5, 4, 3 (4) 1, 2, 3 (2) 3,0
eksperymencie (w nawiasach Sklep osiedlowy 6, 5, 4 (5) 4, 3, 2 (3) 4,0
znajdują się średnie w każdej
grupie) Średnia 4,5 2,5 3,5

Tak jak mogliśmy policzyć wariancję dla wszystkich wyników w zbiorze,


tak też można obliczyć wariancję dla średnich w grupach. Na przykład wa-
riancja dla średnich w grupach „Supermarket” i „Sklep osiedlowy” wynosi:
(3 − 3,5) 2 + (4 − 3,5) 2
s2 = = 0,25
2
Liczby w tym wzorze to średnia liczba pytań zadanych w supermarkecie (3)
i w sklepie osiedlowym (4) oraz średnia z tych średnich (3,5). W mianowni-
ku jest liczba średnich wziętych pod uwagę w tym wzorze. W taki sam spo-
sób można obliczyć wariancję dla średnich w grupach „Ekstrawertycy”
i „Introwertycy”:
(4,5 − 3,5) 2 + (2,5 − 3,5) 2
s2 = =1
2
Zwróć uwagę na to, że wariancja związana z podziałem osób badanych na
ekstrawertyków i introwertyków jest większa niż wariancja związana z miej-
scem, w którym osoby badane dokonywały zakupów. Ponieważ – jak pamię-
tasz – wariancja jest miarą zmienności, można z tego wyciągnąć wniosek, że
w analizowanym zbiorze danych zmienność uzyskanych wyników w więk-
szym stopniu zależy od zmiennej „ekstrawersja – introwersja” niż od zmien-
nej „zakupy w supermarkecie – zakupy w sklepie osiedlowym”. Można tak-
że powiedzieć inaczej: że wpływ pierwszej zmiennej niezależnej na różno-
rodność danych w całym zbiorze jest większy niż wpływ drugiej zmiennej
niezależnej.

KRYTERIUM PODZIAŁU JAKO ZASADA WYJAŚNIAJĄCA ZMIENNOŚĆ W ZBIORZE DANYCH

Wyniki fikcyjnego eksperymentu z klientami w supermarkecie i w sklepie


osiedlowym, przedstawione w poprzednim punkcie, najpierw zapisaliśmy po
prostu jako zbiór liczb: {1, 2, 3, 4, 3, 2, 5, 4, 3, 6, 5, 4}, a dopiero potem po-
klasyfikowaliśmy poszczególne obserwacje w zależności od miejsca badania
i cechy osobowości klienta. Warto zauważyć, że to właśnie zasada podziału
danych na grupy, czyli sposób ich klasyfikacji, umożliwia odkrycie, jaki
czynnik ma największy wpływ na zmienność wyników w zbiorze.
Przypuśćmy teraz, że co drugi wynik z tego zbioru to wynik kobiety, a pozo-
stałe pochodzą od mężczyzn. Średnia arytmetyczna dla kobiet równa się:
WYNIKI EKSPERYMENTU JAKO ZMIENNA LOSOWA 159

1+ 3 + 3 + 5 + 3 + 5
xK = = 3,33
6
a dla mężczyzn:
5+ 4+3+6+5+ 4
xM = = 4,5
6
Gdy zbiór wyjściowy nie zostanie podzielony na żadne podgrupy, wtedy ob-
liczamy wariancję w całym tym zbiorze. Wariancja ta – jak już napisaliśmy
wyżej – wynosi s2 = 1,92, a średnia w całym zbiorze: x = 3,5 .
Możemy teraz sprawdzić, jak podział wyników na takie dwie grupy wpływa
na zróżnicowanie pomiędzy tymi grupami. Wystarczy policzyć wariancję dla
średnich w grupach „Kobiety” i „Mężczyźni”, badając, o ile średnie pomię-
dzy tymi grupami odchylają się od średniej całkowitej:
(3,33 − 3,5) 2 + (4,5 − 3,5) 2
s2 = = 0,43
2
Okazuje się, że zmienność danych w analizowanej grupie związana z płcią
osób badanych jest mniejsza niż zmienność spowodowana cechami osobo-
wości klientów, ale większa niż zmienność związana z miejscem dokonywa-
nia zakupów.

* Jakiekolwiek podobieństwo
Innymi słowy, na liczbę pytań zadawanych sprzedawcy w największym
osób, instytucji lub wydarzeń stopniu wpływają cechy osobowości klientów (ekstrawertycy są szczególnie
opisanych w tym eksperymencie gadatliwi), dalej płeć (mężczyźni są bardziej dociekliwi) i wreszcie miejsce
do autentycznych osób, instytu-
cji lub wydarzeń jest przypad-
zakupów (sklep osiedlowy stwarza lepsze warunki do wymiany myśli ze
kowe (P. F. i R. M.). sprzedawcą)*.

ODCHYLENIE STANDARDOWE

Często stosowaną miarą zmienności jest tzw. odchylenie standardowe. For-


malnie rzecz ujmując, odchylenie standardowe jest pierwiastkiem kwadra-
towym z wariancji.
Przypomnijmy, że pierwiastek jest odwrotnością potęgi, podobnie jak doda-
wanie jest odwrotnością odejmowania.
Jeżeli podniesiesz do kwadratu np. liczbę 2, czyli 22, to otrzymasz 4, jeśli zaś
z czterech wyciągniesz pierwiastek kwadratowy, czyli 2 4 , to znowu otrzy-
masz 2. W przypadku pierwiastka kwadratowego – dla uproszczenia – naj-
częściej pomija się „dwójeczkę” i zapis wygląda tak: 4 .
Wróćmy do odchylenia standardowego; jego wzór wygląda następująco:
160 PRAWDOPODOBIEŃSTWO I ZMIENNA LOSOWA

∑(X i − x) 2
s= i =1

s odchylenie standardowe,
n liczba wszystkich obserwacji w zbiorze,
Xi wartość kolejnego, i-tego pomiaru,

x średnia arytmetyczna,
n


i =1
suma n wartości danych,

pierwiastek kwadratowy.

Odchylenie standardowe jest bardzo ważnym wskaźnikiem zmienności


w tzw. normalnym rozkładzie zmiennej losowej. Własności tego rozkładu
dokładnie przedstawiamy nieco dalej, a tutaj chcemy jedynie wspomnieć
o tzw. regule trzech sigm. Zgodnie z tą regułą prawdopodobieństwo otrzy-
mania wartości większej lub mniejszej niż trzy odchylenia standardowe od
średniej jest bardzo małe.
Sprawdźmy to na prostym przykładzie. Niech zbiór {1, 2, 3, 4, 5, 6} oznacza
wyniki 6-krotnego rzucenia kostką do gry. Oczywiście jest bardzo mało
prawdopodobne, aby uzyskać dokładnie takie liczby oczek w kolejnych sze-
ściu rzutach. Potraktujmy jednak te dane jako sytuację idealną. Średnia w
tym rozkładzie wynosi:
1+ 2 + 3 + 4 + 5 + 6
x= = 3,5
6
wariancja:
(1 − 3,5) 2 + (2 − 3,5) 2 + (3 − 3,5) 2 + (4 − 3,5) 2 + (5 − 3,5) 2 + (6 − 3,5) 2
s2 = = 2,92
6
i odchylenie standardowe:
s = 2,92 = 1,71
Zgodnie z regułą trzech sigm, prawdopodobieństwo wyrzucenia na kostce
liczby oczek większej od średniej o trzy odchylenia standardowe lub mniej-
szej od średniej o tę samą wartość jest bardzo małe. W przypadku rzutu
kostką otrzymanie takich wartości praktycznie jest niemożliwe. Średnia dla
rozkładu liczby oczek wynosi x = 3,5 . Po dodaniu do niej trzech wartości
WYNIKI EKSPERYMENTU JAKO ZMIENNA LOSOWA 161

odchyleń standardowych otrzymamy 8,63 (3,5 + 3 × 1,71 = 8,63) , a po odję-


ciu –1,63 (3,5 – 3 × 1,71 = –1,63), są to więc wartości leżące poza zakresem
wyników możliwych do uzyskania podczas rzutu kostką.
W badaniach empirycznych reguła trzech sigm potwierdza się niemal zaw-
sze. Do wyjątków należą sytuacje, w których dane odchylają się od średniej
o więcej niż o trzy odchylenia standardowe, ale jeśli już się pojawią, to po-
winny wzbudzić twoje zainteresowanie. Zdarza się tak np. w eksperymen-
tach, w których do pomiaru zmiennej zależnej stosuje się czas reakcji.
Zwłaszcza podczas pierwszych prezentacji bodźców osoby badane potrzebu-
ją nieproporcjonalnie więcej czasu na reakcję niż podczas następnych ekspo-
zycji. Zdarza się, że w trakcie badania ktoś się zagapi czy zamyśli i wtedy
czas jego reakcji może się znacznie wydłużyć. Bywa, że ktoś zbyt długo
przytrzyma klawisz i zamiast zarejestrowanego czasu jednej reakcji kompu-
ter zarejestruje dwie, przy czym czas drugiej będzie bardzo krótki. Niepro-
porcjonalnie długie lub krótkie czasy reakcji mogą więc równie dobrze być
wskaźnikiem szoku na bodziec, jak wpływu jakiś niekontrolowanych zmien-
nych zakłócających. Dlatego właśnie powinny zwrócić Twoją uwagę.

WARIANCJA I ODCHYLENIE STANDARDOWE JAKO WSKAŹNIKI STATYSTYCZNE

Zarówno wariancja, jak i odchylenie standardowe są ważnymi wskaźnikami,


które często wykorzystuje się do opisu danych, a także w bardziej zaawan-
sowanych procedurach statystycznych. Warto jednak zwrócić uwagę na to,
że jeżeli są one wyznaczane tylko dla jednego zbioru danych, to niewiele
mówią. O ile jeszcze dla przeciętnego odbiorcy wartość średnia może coś
znaczyć (np. średnia ocena na półrocze), o tyle wariancja lub odchylenie
standardowe będą wielkościami niemal całkowicie abstrakcyjnymi.
Tajemnica odczytywania znaczenia wskaźników statystycznych tkwi w po-
równywaniu. Średnia np. ocen z jakiegoś przedmiotu wydaje się intuicyjnie
zrozumiała dlatego, że interpretujemy ją w kontekście znanych nam krańców
skali ocen, czyli np. 2 i 5. Innymi słowy, porównujemy ją z jakimś punktem
odniesienia i wtedy różnica między nią a tym punktem ma dla nas określony
sens. Pomyśl jednak, co znaczyłoby dla ciebie, gdybyś się dowiedział, że
średni wynik studentów psychologii na twoim roku w teście mierzącym za-
interesowanie statystyką wynosi 327 lub 6,5 albo 0,76. Raczej niewiele, do-
póki nie zestawiłbyś tej liczby z jakąś inną liczbą kryterialną, z jakimś punk-
tem odniesienia. Zauważ, że nawet gdybyś nie znał minimalnej i maksymal-
nej wartości na skali pomiarowej, wówczas średnia nabrałaby sensu w kon-
tekście informacji, że np. studenci psychologii na innym uniwersytecie uzy-
skali w tym teście średnią 282 lub 3,1 albo 0,49. Wiedziałbyś już wtedy
przynajmniej tyle, że wasz rok jest lepszy, a to znaczy, że średnia przemówi-
łaby do Ciebie.
162 PRAWDOPODOBIEŃSTWO I ZMIENNA LOSOWA

Podobnie jest z każdym wskaźnikiem statystycznym, również z miarami


zmienności. Jeżeli wiesz, że wariancja w jednym zbiorze jest większa niż
w drugim, to możesz z tego wywnioskować, że rozrzut wyników w tym
pierwszym zbiorze jest większy niż w zbiorze drugim. Możesz wtedy zapy-
tać: Dlaczego zmienność w jednym zbiorze jest większa niż w drugim? I je-
śli się chwilę nad tym dobrze zastanowisz, to odkryjesz, że im bardziej jed-
norodna jest grupa wyników, tym mniej czynników wpływa na jej zmien-
ność. Prawdziwa jest także zależność odwrotna: im większa jest zmienność
wyników, tym bardziej interesujące jest poszukiwanie przyczyn, które po-
wodują tak duży rozrzut.
Możemy to wyjaśnić na przykładzie kontroli jakości. Wyobraź sobie fabry-
kę, która produkuje plastikowe zabawki. Zabawki te składają się z różnych
elementów wycinanych z polipropylenu za pomocą drewnianych matryc.
Dobrze wykonana matryca zawsze wycina identyczną formę. Jeśli jest dość
twarda i nie zniekształca się pod wpływem pracy, jeżeli jest odporna na wil-
goć i temperaturę, to zmienność w zakresie wycinanych za jej pomocą form
jest równa 0. Żaden czynnik, czyli żadna zmienna niezależna – ani istotna,
ani zakłócająca – nie wpływa na wynik jej pracy. Jeżeli zaś inna matryca nie
jest wykonana z materiału wysokiej jakości i np. pod wpływem temperatury
ulega zniekształceniu, to wycinane za jej pomocą formy będą się różnić od
siebie. Wariancja w tym zbiorze nie będzie już zerowa. Jakiś czynnik lub ja-
kieś czynniki wpływają na kształty wycinanych form. Czy jednak wiesz, ja-
kie? Wiesz, bo wcześniej napisaliśmy, że chodzi o temperaturę. Teraz jednak
spójrz na to z innego punktu widzenia. Jesteś kontrolerem jakości i na pod-
stawie przeprowadzonych badań stwierdzasz, że formy wycinane za pomocą
jednej matrycy są zawsze niemal identyczne, a za pomocą drugiej – znacznie
różnią się od siebie. Oczywiście duża liczba elementów wykonanych za po-
mocą tej drugiej matrycy zupełnie nie nadaje się do dalszej produkcji zaba-
wek. Co sobie pomyślisz? Pomijając już to, za pomocą jakich inwektyw wy-
razisz swój stosunek emocjonalny do drugiej matrycy, z pewnością doj-
dziesz do wniosku, że na jakość wycinanych form wpływa niekontrolowany
przez ciebie czynnik, czyli zmienna niezależna zakłócająca.
Jeśli będziesz dociekliwy, postawisz kilka hipotez, przeprowadzisz badania
i ustalisz, jaki czynnik wpływa na zmienność w zbiorze danych, wtedy kto
wie, może awansujesz albo dostaniesz podwyżkę? A jeśli nie będziesz cie-
kawy, dlaczego druga matryca źle wycina, wtedy wyrzucisz ją do kosza
i zaprzepaścisz, być może, unikalną w twoim życiu szansę na odkrycie
prawdy o otaczającym Cię świecie (nawet jeśli w tym przypadku światem
jest jakaś beznadziejna matryca, która źle wycina). Jedno jest pewne – tylko
porównawcza analiza wskaźnika statystycznego, np. miary zmienności, mo-
że stać się dla Ciebie kluczem do sukcesu zawodowego lub odkrycia jakiejś
interesującej prawdy.
WYNIKI EKSPERYMENTU JAKO ZMIENNA LOSOWA 163

ODCHYLENIE PRZECIĘTNE, CZYLI ŚREDNIE ODCHYLENIE OD ŚREDNIEJ

Wariancja i pierwiastek z wariancji, czyli odchylenie standardowe, są zde-


cydowanie najczęściej stosowanymi miarami zmienności w analizach staty-
stycznych. Wynika to z kilku powodów. Jednym z nich jest to, że wiele ba-
danych cech jest mierzonych za pomocą skal przedziałowych lub stosunko-
wych. Rodzaj skali pomiarowej nie jest warunkiem wystarczającym do obli-
czania wariancji, ale jest to warunek konieczny. Istnieją jednak także inne
miary zmienności, które choć stosowane rzadziej, w pewnych sytuacjach są
bardzo użyteczne.
Pierwsza z tych miar – odchylenie przeciętne – jest prostszą wersją odchy-
lenia standardowego. Jest to wskaźnik przeciętnej (średniej) odległości
wszystkich wyników od średniej arytmetycznej. Z tego zdania w zasadzie
bezpośrednio wynika matematyczny wzór na odchylenie przeciętne. Naj-
pierw trzeba obliczyć, o ile poszczególne wyniki różnią się od średniej aryt-
metycznej. W tym celu wystarczy je po prostu odjąć od średniej. Tu jednak
może Cię spotkać niespodzianka.
Skorzystajmy raz jeszcze ze zbioru {1, 2, 3, 4, 5, 6}, oznaczającego wyniki
6-krotnego rzucenia kostką do gry. Jak pamiętasz, średnia w tym rozkładzie
równa się 3,5. Ile w takim razie wynosi suma odchyleń (różnic) poszczegól-
nych wartości od tej średniej?
n

∑(X
i =1
i − x) = (1 − 3,5) + (2 − 3,5) + (3 − 3,5) + (4 − 3,5) + (5 − 3,5) + (6 − 3,5) =

= (−2,5) + (−1,5) + (−0,5) + 0,5 + 1,5 + 2,5 = −2,5 − 1,5 − 0,5 + 0,5 + 1,5 + 2,5 =
= −4,5 + 4,5 = 0
Niezłe, co? Suma odchyleń poszczególnych wyników od średnich zawsze
równa się 0. Średnia arytmetyczna jest tak położona na skali pomiarowej, że
jej sumaryczna „odległość” od danych umieszczonych z jednej jej strony jest
identyczna jak jej sumaryczna „odległość” od danych z drugiej strony. Być
może, nie zauważyłeś tego wcześniej, chociaż do wyznaczenia wariancji
także obliczałeś sumę odchyleń od średniej. W tamtym wzorze sprawę
ujemnych różnic załatwiliśmy jednak podniesieniem każdej różnicy do kwa-
dratu, co spowodowało, że wszystkie wartości były dodatnie, a ich suma
większa od 0. Podobny ruch zastosujemy w przypadku liczenia odchylenia
przeciętnego. Zamiast jednak podnosić różnice do kwadratu, wyciągniemy
z nich wartość bezwzględną, a ta zawsze przecież jest dodatnia.
Ostatni krok w ustaleniu wartości odchylenia przeciętnego to obliczenie
średniej arytmetycznej z sumy bezwzględnych różnic od średniej. Krótko
mówiąc, wszystkie wartości odchyleń należy dodać i podzielić przez liczbę
danych. W postaci wzoru można to zapisać w następujący sposób:
164 PRAWDOPODOBIEŃSTWO I ZMIENNA LOSOWA

∑ Xi − x
δ= i= 1

n
δ (czytaj: delta) odchylenie przeciętne,
Xi wartość kolejnego, i-tego pomiaru,

x średnia arytmetyczna,

n liczba wszystkich obserwacji w zbiorze,


n


i =1
suma n wartości danych,

|| Nawias wskazujący na wartość bezwzględną.

W krótszej wersji wzór na odchylenie przeciętne można również zapisać tak:


n

∑ |x i |
δ= i= 1

W tym wzorze zamiast wyrażenia: Xi – x posłużyliśmy się małym x-em, czy-


li xi. Warto zapamiętać ten symbol, ponieważ od czasu do czasu będzie nam
jeszcze potrzebny. Oznacza on „odchylenie i-tej wartości danej od średniej”
* Z naszych doświadczeń dydak- lub w skrócie „odchylenie od średniej”*.
tycznych wynika, że małe x-y
i duże X-y z jakichś powodów Wartość odchylenia przeciętnego dla teoretycznego rozkładu liczby oczek
trochę plączą się studentom. przy rzucie kostką obliczamy więc w sposób następujący:
W porządku. Mamy na to spo-
sób. Zrelaksuj się i powtarzaj:
1 − 3,5 + 2 − 3,5 + 3 − 3,5 + 4 − 3,5 + 5 − 3,5 + 6 − 3,5 9
„małe x-y oznaczają odchylenie
dużych X-ów od średniej; małe
δ= = = 1,5
x-y oznaczają odchylenie dużych
6 6
X-ów od średniej; małe x-y
oznaczają odchylenie dużych
Choć odchylenie przeciętne jest raczej rzadko stosowane w analizach staty-
X-ów od średniej...”. Proste? stycznych, to czasami wygodnie jest podać jego wartość jako miarę zmien-
No to jedziemy dalej. ności, gdyż intuicyjnie jest bardziej zrozumiałe niż np. wariancja. W prakty-
ce odchylenie przeciętne obliczmy nie tylko wtedy, gdy pomiar cechy był
przeprowadzony na skali o znanej jednostce (przedziałowej lub stosunko-
wej), ale zwłaszcza wtedy, gdy rozkład wyników jest silnie skośny, np.
większość danych ma wartości z górnej części skali pomiarowej.

ODCHYLENIE ĆWIARTKOWE

Kolejna miara zmienności zawiera informacje na temat tego, jaki jest rozrzut
danych w stosunku do dwóch miar położenia, czyli pierwszego i trzeciego
kwartyla. Przypomnijmy, że wartość pierwszego kwartyla to liczba, poniżej
której znajduje się 25% wszystkich obserwacji, a trzeci kwartyl to wartość,
WYNIKI EKSPERYMENTU JAKO ZMIENNA LOSOWA 165

poniżej której jest 75% wszystkich obserwacji. Odchylenie ćwiartkowe,


oznaczone literą Q, oblicza się zgodnie z następującym wzorem:
Q3 − Q1
Q=
2
Q odchylenie ćwiartkowe,
Q3 kwartyl trzeci,
Q1 kwartyl pierwszy.

Przypuśćmy, że dla wyrażonych w punktach wyników z egzaminu wstępne-


go na psychologię na pewnej uczelni wartości kwartyli wynoszą odpowied-
nio: Q1 = 19 i Q3 = 31,5. Odchylenie ćwiartkowe wynosi więc:
31,5 − 19
Q= = 6,25
2
Czasem wygodniej jest nie dzielić przez dwa różnicy między kwartylem
trzecim i pierwszym. Taką miarę zmienności (Q3 – Q1) nazywa się zakre-
sem kwartyli. Łatwo zrozumieć, co dokładnie oznacza ta wartość – jest to
długość przedziału (a odchylenie ćwiartkowe jest połową tej długości),
w którym znajduje się środkowe 50% wszystkich obserwacji. Jeżeli więc
rozpiętość kwartyli dla wyników egzaminu wynosi 13,5 – oznacza to, że
środkowe 50% wszystkich wyników na egzaminie mieści się właśnie
w przedziale o długości 13,5 punktów.
Odchylenie ćwiartkowe, podobnie jak kwartyle, można wyznaczyć dla skal
pomiarowych o nieznanej jednostce, czyli np. dla skal porządkowych, dla
których nie możemy obliczyć ani wariancji, ani odchylenia standardowego,
ani przeciętnego.

ROZPIĘTOŚĆ LUB INACZEJ ROZSTĘP

Ostatnią miarą zmienności, a równocześnie najłatwiejszą do zrozumienia ze


wszystkich, jest tzw. rozpiętość. Oznacza się ją za pomocą litery R. Rozpię-
tość – lub inaczej rozstęp – jest różnicą między wynikiem maksymalnym
a minimalnym, czyli:
R = X max − X min
R rozpiętość,
Xmax najwyższy wynik w zbiorze danych,
Xmin najniższy wynik w zbiorze danych.

Właściwie poprawnie powinno być R = X max − X min + 1 , dlatego że sama


różnica nie odzwierciedla dokładnie zmienności w zbiorze wyników. Spójrz,
166 PRAWDOPODOBIEŃSTWO I ZMIENNA LOSOWA

różnica między 6 i 5, czyli 6 – 5, równa się 1. Gdy jednak myślisz o wskaź-


niku zmienności, interesuje Cię zakres skali pomiarowej, jaki „zajmują” da-
ne. W tym przypadku dane obejmują skalę pomiarową w zakresie dwóch
jednostek (5 i 6), a nie jednej, co znaczyłoby, że R = 6 – 5 + 1 = 2. Nie jest
to może sprawa najwyższej wagi, ale warto o tym pamiętać. W rozdziale 4.3,
* Guilford, J. P. (1960). Podsta- w którym omawialiśmy szereg rozdzielczy, zdefiniowaliśmy rozpiętość za
wowe metody statystyczne J. P. Guilfordem*, dodając jedynkę do różnicy między największym i naj-
w psychologii i pedagogice.
Warszawa: PWN. mniejszym pomiarem w zbiorze danych. Większość jednak komputerowych
programów statystycznych oblicza rozpiętości bez tej jedynki. Niestety, nie
jest to jedyny przykład nieścisłości terminologicznych, z jakimi możesz się
spotkać w literaturze poświęconej statystyce.

STATYSTYKI OPISOWE – PODSUMOWUJĄCY PRZYKŁAD Z BEZROBOTNYMI

Zgodnie z naszą wcześniejszą definicją, wszystkie wartości obliczone dla


pewnego zbioru danych nazywamy statystykami opisowymi. Na koniec tej
części przedstawimy przykład wykorzystania wszystkich omówionych staty-
styk do opisania konkretnego zbioru danych. W tym celu odwołamy się do
danych zawartych w Polskim Generalnym Sondażu Społecznym z roku
** Cichomski, B., Jerzyński, T., 2002**. Sondaż zawiera zbiór wyników badań socjologicznych mierzących
Zieliński, M. (2003). Polskie różnego typu trendy społeczne. W roku 2002 badanie zostało przeprowadzo-
Generalne Sondaże Społeczne:
skumulowany komputerowy ne na reprezentatywnej próbie ponad 2300 dorosłych Polaków. Ponieważ
zbiór danych 1992-2002. War- w tym okresie jednym z najważniejszym problemów społecznych było bez-
szawa: Instytut Studiów Spo-
łecznych, Uniwersytet War-
robocie, podajemy wartości jednej ze zmiennych, tj. średniego czasu, w któ-
szawski. rym 716 Polaków przez co najmniej 1 miesiąc nie miało pracy w latach
1992-2002. Czas ten podany jest w miesiącach w tabeli 4.13.
Tabela 4.13. Czas bezrobo- Liczba miesięcy bez pracy
Nazwa wskaźnika Symbol
cia „przeciętnego” Polaka w ciągu ostatnich 10 lat
w latach 1992-2002
Średnia x 29,82

Mediana xe 20,00

Pierwszy kwartyl Q1 9,00


Trzeci kwartyl Q3 42,00
Modalna Modalna 12,00
2
Wariancja s 843,47
Odchylenie standardowe s 29,04
Odchylenie ćwiartkowe Q 16,50
Rozpiętość R 119,00
Minimum Xmin 1,00
Maksimum Xmax 120,00
WYNIKI EKSPERYMENTU JAKO ZMIENNA LOSOWA 167

W tabeli zawarliśmy wszystkie znane ci statystyki opisowe z wyjątkiem jed-


nej – odchylenia przeciętnego. Żaden z dostępnych programów kompute-
rowych do obliczeń statystycznych nie zawierał tej funkcji.
Prezentację danych w tabeli rozpoczęliśmy od liczby, która zawsze niesie ze
sobą najwięcej informacji, czyli od średniej arytmetycznej. Wynosi ona
29,82, co znaczy, że w grupie osób pozbawionych pracy przez co najmniej
jeden miesiąc w latach 1992-2002 przeciętny czas bezrobocia wynosił pra-
wie 2,5 roku.
Wartość pierwszego kwartyla równa 9,00 oznacza, że jedna czwarta z tych
osób, które były bezrobotne, nie pracowała przez 9 miesięcy i krócej. Z kolei
wartość trzeciego kwartyla (42) to liczba miesięcy, powyżej której bez pra-
cy pozostawało 25% respondentów – tych, którzy najdłużej byli bezrobotni.
Rozpiętość oraz związane z nim minimum i maksimum w tym zbiorze da-
nych przedstawiają informacje oczywiste. Wyniki zostały obliczone tylko
dla tych, którzy przyznali się, że nie mieli pracy co najmniej przez miesiąc
w ciągu ostatnich dziesięciu lat przed przeprowadzeniem sondażu (stąd war-
tość minimalna musiała wynieść 1). Maksymalna wartość 120 oznacza, że
zdarzyła się przynajmniej jedna osoba pozostająca bez pracy przez całe 10
lat, o które pytali ankieterzy.
Wartość odchylenia ćwiartkowego najłatwiej jest zinterpretować po po-
mnożeniu jej przez dwa – wtedy będzie to różnica między trzecim i pierw-
szym kwartylem. Wynosi ona 33 i oznacza różnicę w czasie bezrobocia
w środkowej grupie respondentów – po odrzuceniu 25% tych, którzy bez
pracy byli najkrócej, i 25% tych, którzy bez pracy byli najdłużej.
Ze wszystkich statystyk opisowych najtrudniej jest nadać „ludzki” sens wa-
riancji i odchyleniu standardowemu. To, co można zrobić, to porównać
dwie wariancje ze sobą. W grupie osób, które w roku 2002 w Polskim Gene-
ralnym Sondażu Społecznym przyznawały się do jakiegoś okresu bezrobocia
w ciągu minionych dziesięciu lat, 326 osób to mężczyźni, a 390 to kobiety.
Mężczyźni pozostawali bez pracy nieco krócej, bo średnio przez 25,78 mie-
siąca, a kobiety przez 33,21 miesiąca. Czasy bezrobocia w grupie kobiet
również były bardziej zróżnicowane niż w grupie mężczyzn.
Wariancja w grupie mężczyzn wyniosła 653,71 (odchylenie standardowe
= 25,57), a w grupie kobiet – 978,97 (odchylenie standardowe = 31,29).

STATYSTYKI OPISOWE – CO TAK NAPRAWDĘ ZNACZĄ?

Na koniec części poświęconej statystykom opisowym mamy dla ciebie jesz-


cze „ostrzeżenie”. Statystyka czasem bywa określana jako szczególna forma
kłamstwa – uwaga ta w znacznym stopniu dotyczy używania statystyk opi-
168 PRAWDOPODOBIEŃSTWO I ZMIENNA LOSOWA

sowych. Dwie z nich są szczególnie często używane po to, by zrobić odpo-


wiednie wrażenie na odbiorcy: procenty i średnie. Na przykład w wypowie-
dzi dla mediów politycy mogą się chwalić, że w ich regionie bezrobocie
spadło o 1% w porównaniu z poprzednim rokiem.
Cóż jednak oznacza taki jeden procent? Czy jest to jeden procent z ogółu
liczby wszystkich aktywnych zawodowo, czy tylko bezrobotnych w tym
regionie? Prześledźmy ten problem, odwołując się do danych w skali całe-
go kraju.
Z danych Głównego Urzędu Statystycznego wynika, że w czerwcu 2004 ro-
ku bez pracy było 19,5% aktywnych zawodowo Polaków. Zgodnie z ostat-
nim Narodowym Spisem Powszechnym Ludności i Mieszkań z roku 2002,
aktywnych zawodowo Polaków było 23 625 719. Przyjmując, że liczba ta się
nie zmieniła do czerwca 2004 (a musimy tak przyjąć, bo kiedy pisaliśmy ten
fragment, nie mieliśmy dostępu do nowszych danych), stwierdzimy, że
w połowie 2004 roku w Polsce bez pracy pozostawało 19,5% × 23 625 719,
czyli 4 607 015 osób.
Czy więc spadek o jeden procent to zmniejszenie się liczby bezrobotnych
o jeden procent spośród wszystkich bezrobotnych spośród wszystkich ak-
tywnych zawodowo Polaków, a więc o 1% × 4 607 015, czyli o 46 070
osób? A może jest to zmniejszenie się wskaźnika bezrobocia o jeden pro-
cent, a więc o 1% × 23 625 719, co oznacza, że 236 257 osób znalazło pra-
cę? Zwróć uwagę na to, że przy tym drugim sposobie obliczania spadek
* Wszystkie dane cytowane liczby bezrobotnych jest aż czterokrotnie większy!*
w tym fragmencie podajemy za
Głównym Urzędem Statystycz- Cóż więc może mieć na myśli ktoś, kto twierdzi, że w jego regionie wybor-
nym zgodnie z informacjami na
stronie Polskiej Statystyki Pu-
czym bezrobocie spadło o 1% (a między wierszami sugeruje, że to właśnie
blicznej: http://www.stat.gov.pl dzięki niemu)? Ciekawe, nie sądzisz?
Podawanie wyników eksperymentów w procentach może także być spowo-
dowane chęcią wywarcia określonego wrażenia na odbiorcach. Jeżeli po-
wiemy, że np. wśród mieszkańców dużych miast 25% osób przyznaje się, że
mają problemy z kontrolowaniem swoich wydatków, czyli są tzw. kompul-
sywnymi klientami, a wśród mieszkańców wsi takich osób jest 10%, to od-
biorca takiego komunikatu może odnieść wrażenie, że znacznie więcej
mieszkańców dużych miast ma problemy z kontrolą wydatków niż miesz-
kańców wsi.
Jeżeli jednak się dowiemy, że procentowe zestawienie jest wynikiem wy-
wiadów z 20 osobami w mieście i 30 osobami na wsi, oznacza to, że tak na-
prawdę w badanych próbach było 5 kompulsywnych klientów w mieście
oraz 3 takich klientów na wsi. Różnica dwóch osób jednak brzmi mniej
przekonująco niż różnica 15%. Większe liczby zawsze robią większe wraże-
nie niż małe.
WYNIKI EKSPERYMENTU JAKO ZMIENNA LOSOWA 169

Z powodzeniem wykorzystują to sprzedawcy przy różnego rodzaju promo-


cjach cenowych. Jeżeli chcą pokazać, że cena czekolady kosztującej np.
4 złote spadła o 50 gr, to na opakowaniu raczej napiszą: „12,5% taniej” niż:
„50 gr taniej”. Przeciętnemu klientowi 12,5% wyda się całkiem sporo, w od-
różnieniu od 50 gr, co nie jest obniżką szczególnie imponującą. Sprzedawca
jednak zachowa się odwrotnie, gdy obniża cenę towaru drogiego.
Sprzedając samochód wart np. 60 000 zł, raczej obwieści, że jest gotów
obniżyć jego cenę o 1500 złotych, a nie o 2,5%. W pierwszym przypadku
klient może pomyśleć, że zostanie mu w kieszeni jeszcze dość pieniędzy,
żeby coś za nie kupić. Natomiast 2,5% to – tak na pierwszy rzut oka –
* Por. Falkowski, A., Tyszka, T. niewiele*.
(2002). Psychologia zachowań
konsumenckich. Gdańsk: GWP. Drugą ze statystyk, której nadużycie może wprowadzić odbiorców w błąd,
jest średnia arytmetyczna. Jeden z największych psychologów XX wieku,
** Por. Aron, A., Aron, E. Frederik Bhurus Skinner**, podaje następujący przykład swoich ekspery-
(1999). Statistics for psychology. mentów nad uczeniem trzech myszy. Jedna z nich miała wrodzoną skłonność
Upper Saddle River: Prentice
Hall. do objadania się, u drugiej skłonność ta została wywołana przez podanie
pewnej ilości związku złota, u trzeciej zaś uszkodzono strukturę mózgu
zwaną podwzgórzem. Wszystkie trzy myszy uczyły się reagowania na bo-
dziec sygnalizujący pożywienie w inny sposób, a jednak średnie popraw-
nych reakcji u tych myszy były do siebie bardzo podobne. Jak zauważa
Skinner, analiza tylko średnich zaciemniłaby badaczowi prawdziwą różnicę
między tymi myszami.
Drugi przykład nadużywania średniej pochodzi z badań nad satysfakcją
*** Zob. Robson, J. (1993). klientów pewnej linii lotniczej***. Podczas gdy menedżerowie wysokiego
Soaring to new heights. Mana- szczebla uważali, że średni czas opóźnienia samolotu, wynoszący kilka mi-
ging Service Quality, 3, 465-
468. nut, jest świadectwem bardzo dobrej organizacji, pasażerom w ogóle do
głowy nie przychodziło, by interesować się jakąkolwiek średnią. Jedyne, co
było dla nich ważne, to czas opóźnienia konkretnego samolotu, na który
czekali. Menedżerowie musieli więc zmienić swój sposób widzenia proble-
mu, ponieważ z punktu widzenia pasażerów ich linii lotniczej istotne było
nie obniżanie średniego czasu spóźnienia, ale przede wszystkim wyelimino-
wanie dużych opóźnień.

UWAGA NA KONIEC: ZAWSZE SPÓJRZ NA DANE SUROWE, ZANIM ZACZNIESZ OBLICZENIA

W 1996 roku Amerykańskie Towarzystwo Psychologiczne (American Psy-


chological Associacion, w skrócie APA) powołało zespół ekspertów, zajmu-
jący się opracowywaniem standardów dotyczących publikacji wyników ba-
dań psychologicznych, w których wykorzystywane są obliczenia statystycz-
ne. Efektem pracy Task Force on Statistical Inference (czyli Grupy Zadanio-
wej do spraw Wnioskowania Statystycznego) był raport, opublikowany
170 PRAWDOPODOBIEŃSTWO I ZMIENNA LOSOWA

w 1999 roku w czasopiśmie American Psychologist, który zawierał liczne


* Zob. Wilkinson, L. (1999). wskazówki dla psychologów-eksperymentalistów*. Chociaż adresatami tego
Statistical methods in psycho- raportu byli również psychologowie z doświadczeniem badawczym, to jed-
logy journals. Guidelines and
explanations. American Psy- nak znalazła się w nim także następująca uwaga:
chologist, 54, 594-604.
Po tym, jak zgromadziłeś dane, zanim rozpoczniesz jakiekolwiek obliczenia staty-
styczne, przyjrzyj się uważnie swoim danym. [...] Jeżeli zaczniesz odnosić się do
stawianych przez siebie hipotez bez analizy danych, ryzykujesz tym, że opublikujesz
nonsens (s. 597).
Wskazówka ta jest tak ważna, że eksperci zdecydowali się przypomnieć ją
również profesjonalistom. Tym bardziej więc powinien wziąć ją sobie do
serca każdy, kto dopiero rozpoczyna karierę badacza, nawet gdyby ta kariera
miała się zakończyć na etapie pracy magisterskiej.
„Wszystko się może zdarzyć...” – jak z wdziękiem przekonuje Anita Lipnic-
ka: mogłeś źle przepisać dane z kwestionariuszy do komputera, jakiś Trojan
mógł pozamieniać ci dane miejscami, w badanej przez Ciebie grupie mogły
być osoby, które nie zrozumiały instrukcji, mogły być też osoby, które robiły
wszystko „na odwal się” i np. wszędzie wpisywały takie same odpowiedzi
albo mechaniczne naciskały klawisze komputera, a wreszcie w to wszystko
mógł „walnąć meteor”.
I jeszcze jedno, nie jesteśmy pewni, czy dokładnie o to chodziło byłej woka-
listce Varius Manx.
Tak czy inaczej, dopóki nie spojrzysz na dane surowe, przedstawione w po-
staci tabel albo na wykresach, nie masz żadnych szans na wykrycie, że coś
było nie tak. Czasem ze zbioru danych trzeba usunąć wyniki jednej lub kilku
osób badanych. Musisz „namierzyć” takie osoby, zanim zaczniesz oblicze-
nia, nawet tak podstawowych wskaźników, jak średnia czy mediana. Oczy-
wiście pisząc końcowy raport badawczy, musisz napisać, dlaczego się po-
zbyłeś pewnych danych.
Mieliśmy kiedyś taką sytuację. Badani czytali zdania wyświetlane na moni-
torze komputera i po przeczytaniu każdego naciskali klawisz. Mierzyliśmy
czas od rozpoczęcia ekspozycji zdania do naciśnięcia klawisza. Kiedy zebra-
liśmy dane i zaczęliśmy je analizować, okazało się, że nasze hipotezy zupeł-
nie się nie potwierdzają.
Wtedy uważniej przyjrzeliśmy się tabeli wyników surowych i nie bez zdzi-
wienia stwierdziliśmy, że kilka osób potrzebowało na „przeczytanie” więk-
szości zdań mniej niż 1 sekundę. To nie miało sensu. W tak krótkim czasie
z pewnością nie można było przeczytać żadnego z prezentowanych zdań ze
zrozumieniem, a co za tym idzie – wyniki tych osób były zupełnie bezwarto-
ściowe. Po ich odrzuceniu, ku naszej radości, okazało się, że eksperyment
jednak się udał.
WYNIKI EKSPERYMENTU JAKO ZMIENNA LOSOWA 171

4.7. TYPY ROZKŁADÓW ZMIENNEJ LOSOWEJ

O WYKŁADACH ZE STATYSTYKI PROFESORA WESOŁEGO I SMUTNEGO

* Lomax, R. G., Moosavi, S. A. Richard Lomax i Seyed Moosavi* opublikowali w 2002 roku artykuł pod in-
(2002). Using humour to teach trygującym tytułem: Wykorzystanie humoru w nauczaniu statystyki: czy oba
statistics: must they be ortho-
gonal? Understanding Statistics, obszary muszą być ortogonalne? Słowo „ortogonalne” w tym przypadku
1, 113-130. oznacza rzeczy od siebie niezależne.
W artykule tym autorzy przytaczają wiele dowcipów i anegdot dotyczących
statystyki, które można wykorzystać przy różnych okazjach. Podają także
adresy internetowe, gdzie można znaleźć takie dowcipy. Większość z nich to
strony amerykańskich profesorów statystyki. Na przykład na stronie profeso-
ra Gary’ego Ramseyera z Illinois State University znaleźliśmy dowcip, który
bezpośrednio nawiązuje do treści tego rozdziału:
Wyobraź sobie, jak wygląda osoba przeciętnie głupia. A teraz pomyśl, że zgodnie
z rozkładem normalnym połowa wszystkich ludzi jest jeszcze głupsza.
Brutalnie trafne spostrzeżenie, nieprawdaż? (Jeżeli zdanie, które właśnie
przeczytałeś, jest trochę bez związku z poprzednim, to znaczy, że wydawca
niniejszego przewodnika uznał cytowany dowcip za nienadający się do pu-
blikacji). W każdym razie do dowcipu Ramseyera wrócimy jeszcze później,
gdy opiszemy, co to jest rozkład normalny.
Przypuśćmy, że artykuł Lomaxa i Moosaviego przeczytało dwóch profeso-
rów prowadzących kursy statystyki na uniwersytecie. Bardzo przejęli się je-
go główną tezą i postanowili wprowadzić więcej humoru do swoich zajęć ze
studentami. Tak się złożyło, że jeden z tych profesorów wyśmienicie opo-
wiadał dowcipy. Był to profesor Józef Wesoły, niewysoki, ruchliwy i za-
zwyczaj uśmiechnięty.
Drugi natomiast, profesor Arnold Smutny, nie miał poczucia humoru za
grosz, a większość opowiadanych przez niego dowcipów była drętwa, scze-
zła lub, jak wolisz, czerstwa. Dopięty garnitur, nienaganne maniery i cy-
niczny wyraz twarzy idealnie współgrały z jego poziomem poczucia humo-
** Zob. np. Ruch, W. (red.) ru. No cóż, pod tym względem ludzie znacznie się różnią między sobą**.
(1998). To joke or not to joke:
exploring individual differences Tak czy inaczej, obydwaj profesorowie postanowili wprowadzić humory-
concerning the positive and the styczne elementy do swoich wykładów. Jak można sobie wyobrazić, udało
dark side of humour: the sense
of humour. Explorations of per- im się to z różnymi wynikami. Dowcipy opowiadane przez profesora Weso-
sonality characteristics. New łego często budziły salwy śmiechu, choć i jemu zdarzyło się kilka razy „spa-
York: Mouton de Gruyter.
lić na panewce”. Z kolei dowcipy w wykonaniu profesora Smutnego
z reguły były katastrofą, choć trzeba przyznać, że raz na jakiś czas, przy na-
prawdę dużej koncentracji, i jemu udawało się wzbudzić aplauz studentów.
172 PRAWDOPODOBIEŃSTWO I ZMIENNA LOSOWA

No i teraz wyobraź sobie, że studiujesz na uczelni, na której wykładają oby-


dwaj profesorowie i musisz się zapisać do jednego z nich na statystykę.
Praktycznie to chyba niemożliwe, ale przypuśćmy, że nie masz żadnych zna-
jomych, których mógłbyś poprosić o radę. Dziwnym trafem natknąłeś się w
Internecie na stronę poświęconą dowcipom statystycznym i postanowiłeś, że
wybierzesz tego wykładowcę, który jest zabawniejszy (co wcale nie musi
oznaczać, że jest lepszym dydaktykiem, ale na razie tym się nie przejmu-
jesz). Na pierwszy wykład idziesz więc dwa razy – raz do profesora Wesołe-
go i raz do profesora Smutnego, a na wykładach notujesz, ile razy studenci
się zaśmieją z opowiadanych przez nich dowcipów. Po godzinnym wykła-
dzie powinieneś wyrobić sobie już jakiś pogląd na temat obu profesorów.
Rzeczywiście, okazało się, że na wykładzie Wesołego studenci śmiali się
5 razy, a u Smutnego 4. Niby wszystko jest jasne, ale zaczynają Cię nacho-
dzić wątpliwości: może Smutny miał dziś gorszy dzień, a Wesoły w zasadzie
jest smutny, tylko dziś był jakiś nakręcony? Czujesz się zagubiony, ale nie
możesz czekać do drugiego wykładu. Ostateczny termin zapisów właśnie
upływa i musisz podjąć decyzję. Co robisz? Skoro Wesoły częściej jednak
wywołał śmiech u studentów niż Smutny, to pewnie w przyszłości także uda
mu się to więcej razy. Z punktu widzenia przyjętych kryteriów bardziej ra-
cjonalne wydaje się więc wybranie wykładu profesora Wesołego.

TAJEMNICA ŚREDNIEJ ARYTMETYCZNEJ

Ostatecznie zapisujesz się na wykłady profesora Wesołego, ale postanawiasz


sprawdzić, czy rzeczywiście opowiada on lepsze dowcipy niż Smutny. Na
każdy wykład chodzisz więc z dwoma zeszytami: w jednym masz notatki ze
statystyki, a w drugim zapisujesz wszystkie dowcipy oraz za pomocą plusów
i minusów zaznaczasz, czy studenci się śmiali, czy też nie. O to samo prosisz
* Z własnego doświadczenia kolegę, który chodzi na wykłady profesora Smutnego*. Na koniec semestru,
wiemy, że studenci rzeczywiście czyli po 15 wykładach, ty i twój kolega porównujecie rozkłady śmiechów
zapisują dowcipne powiedzenia
swoich wykładowców (P. F. u Wesołego i Smutnego i otrzymujecie następujące rozkłady przedstawione
i R. M.) na rysunkach 4.22 i 4.23.
Jak łatwo się zorientować z wykresów na rysunkach 4.22 i 4.23, wykłady
profesora Wesołego rzeczywiście są zabawniejsze niż wykłady profesora
Smutnego. Okazuje się więc, że dobrze wybrałeś. Gdyby jednak na pierw-
szym wykładzie obydwaj profesorowie wywołali tyle samo reakcji śmiechu,
np. 4, nie miałbyś wystarczających przesłanek do podjęcia sensownej decy-
zji (oczywiście pod warunkiem, że któryś profesor nie wydałby ci się sym-
patyczniejszy lub bardziej komunikatywny). Niewątpliwie miałbyś jednak
ułatwioną sytuację, gdybyś wiedział, jaki jest rozkład śmiechów na wykła-
dach obu profesorów, czyli gdybyś przed podjęciem decyzji mógł spojrzeć
na wykresy przedstawione na rysunkach 4.22 i 4.23.
WYNIKI EKSPERYMENTU JAKO ZMIENNA LOSOWA 173

Rysunek 4.22. Rozkład liczby 6


śmiechów na wykładzie pro-
fesora Wesołego
[STATISTICA] 5

Liczba wykładów
3

0
1 2 3 4 5 6 7
Liczba "śmiechów" podczas wykładów

Rysunek 4.23. Rozkład liczby 6


śmiechów na wykładzie pro-
fesora Smutnego
[STATISTICA] 5

4
Liczba wykładów

0
1 2 3 4 5 6 7
Liczba "śmiechów" podczas wykładów

Z porównania obu wykresów wynika, że rozkład śmiechów wywoływanych


przez profesora Wesołego jest nieco przesunięty w prawo względem środka
osi OX w porównaniu z rozkładem śmiechów na wykładach profesora Smut-
nego. Wprawdzie mediany w obu rozkładach są takie same i wynoszą 4, to
jednak rozkłady różnią się pod względem średnich: w odniesieniu do wykła-
dów profesora Wesołego x = 4,27 , a w odniesieniu do wykładów profesora
Smutnego x = 3,53 . Co ciekawe, obydwa rozkłady mają podobne odchyle-
nie standardowe (dla profesora Wesołego s = 1,53, a dla Smutnego s = 1,55).
Jeśli chodzi o trzy najważniejsze statystyki: średnią, medianę i odchylenie
standardowe, to rozkłady śmiechów na wykładach profesorów Wesołego
i Smutnego różnią się znacząco tylko ze względu na jedną z nich: średnią.
174 PRAWDOPODOBIEŃSTWO I ZMIENNA LOSOWA

Na wykresie różnica ta wyraża się przesunięciem rozkładu śmiechów na


wykładach profesora Wesołego w prawo w stosunku do rozkładu śmiechów
na wykładach profesora Smutnego.
Znajomość średniej w konkretnym rozkładzie wyników jest bardzo ważna.
Jeśli wiesz, że średnia wybuchów śmiechu u profesora Smutnego wynosi
3,53, a u profesora Wesołego 4,27, to łatwiej jest Ci ocenić, który z nich jest
zabawniejszy, nawet jeśli na dwóch wstępnych wykładach obaj powiedzieli
po tyle samo dobrych dowcipów. Jeżeli Smutnemu przypadkiem udały się
4 dowcipy, to na podstawie średniej wiesz, że tego dnia był w wyjątkowo
dobrej formie, ale tylko 4 śmieszne dowcipy Wesołego to widomy znak, że
w semestrze jesienno-zimowym Wesoły ma problemy z nastrojem.
Oczywiście jeżeli znasz średnie z jakichś rozkładów, to niepotrzebne Ci są
żadne pojedyncze obserwacje, aby porównać położenie tych rozkładów
względem skali pomiarowej, czyli na osi OX. Nawet gdyby na pierwszym
wykładzie Smutny opowiedział 5 dobrych dowcipów, a Wesoły tylko 1 (taka
sytuacja jest przecież możliwa, spójrz na wykresy na rysunkach 4.8 i 4.9), to
i tak, średnio, Smutny jest bardziej smutny, a Wesoły – bardziej wesoły.
Znajomość średniej (a także innych cech rozkładu, ale o tym później) po-
zwala także na określenie prawdopodobieństwa, że konkretna obserwacja
pochodzi z tego rozkładu. Jeżeli więc byś się dowiedział, że ktoś był na faj-
nym wykładzie ze statystyki, na którym profesor opowiedział 5 świetnych
dowcipów, to raczej byś podejrzewał, że był to wykład profesora Wesołego
niż Smutnego. Pomyślałbyś tak właśnie dlatego, że średnia arytmetyczna dla
liczby wybuchów śmiechu wywoływanych dowcipami Wesołego jest wyż-
sza niż średnia arytmetyczna dla śmiechów, których źródłem są dowcipy
Smutnego. Przekonanie o tym, że wykład z 5 dowcipami to raczej dzieło
Wesołego niż Smutnego, jest uzasadnione nawet pomimo to, że w ciągu ca-
łego semestru Smutny miał de facto tyle samo wykładów z 5 dobrymi dow-
cipami niż Wesoły.

JESZCZE RAZ O TEORETYCZNYCH I EMPIRYCZNYCH ROZKŁADACH ZMIENNEJ

W jednej z poprzednich części napisaliśmy, że wyniki każdego eksperymen-


tu można traktować jako zmienną losową. Oznacza to, że wynik poje-
dynczego doświadczenia nie jest możliwy do przewidzenia, zanim się go nie
przeprowadzi.
W przypadku liczby salw śmiechu na wykładach profesorów Smutnego
i Wesołego nie można było z góry przewidzieć, ile razy studenci będą się
śmiali na kolejnych wykładach. Zależało to od zbyt wielu czynników – dys-
pozycji wykładowców, nastawienia studentów, a nawet pogody. Znając jed-
nak rozkład śmiechów na wykładach, wiemy, że więcej jest śmiechów na
WYNIKI EKSPERYMENTU JAKO ZMIENNA LOSOWA 175

wykładach Wesołego niż Smutnego, że podczas wykładu profesor Wesoły


jest zdolny aż 7-krotnie wywołać śmiech, co Smutnemu się nigdy nie udaje,
że obu zdarzają się wykłady, w których rozśmieszą studentów tylko raz.
Wiemy to wszystko dlatego, że znamy empiryczne rozkłady zmiennej, czy-
li rozkłady utworzone dla konkretnych zbiorów danych (obserwacji).
Wspomnieliśmy wcześniej także i o tym, że oprócz rozkładów empirycz-
nych wiemy również trochę na temat tzw. rozkładów teoretycznych, któ-
rych analiza nie wymaga prowadzenia badań empirycznych.
Podręcznikowymi przykładami takich rozkładów są np. rozkłady liczby
oczek w rzucie kostką lub liczba orłów i reszek w rzucie monetą. Oba przy-
kłady są zresztą do siebie bardzo podobne. W przypadku rzutu kostką praw-
1
dopodobieństwo wypadnięcia dowolnej liczby oczek wynosi , a podczas
6
1
rzutu monetą prawdopodobieństwo orła lub reszki jest równe .
2
Określenie „rozkład teoretyczny” sugeruje, że właściwości takiego rozkła-
dów znane są na podstawie znajomości reguł wynikających z zasad rachun-
ku prawdopodobieństwa, a nie w wyniku empirycznych obserwacji.
Wiemy np., że gdy rzuci się nie jedną monetą, lecz dwoma, wtedy możliwe
są trzy kombinacje orłów i reszek: dwa orły, dwie reszki oraz reszka i orzeł.
Co więcej, wiemy także, że prawdopodobieństwo uzyskania orła i reszki jest
większe niż prawdopodobieństwo uzyskania dwóch orłów albo dwóch re-
szek. Rozkład prawdopodobieństwa wszystkich tych sytuacji przedstawiony
jest na rysunku numer 4.24.

Rysunek 4.24. Rozkład


prawdopodobieństw kombi- 0,50
nacji orłów i reszek w rzucie
dwiema monetami
[STATISTICA] 0,45
Prawdopodobieństwo

0,40

0,35

0,30

0,25

2/0 1/1 0/2


Proporcja orłów do reszek w rzucie dwiema monetami
176 PRAWDOPODOBIEŃSTWO I ZMIENNA LOSOWA

Na rysunku 4.24 na osi OX oznaczone są proporcje orłów do reszek: 2/0,


czyli dwa orły i żadnej reszki, 1/1, czyli jeden orzeł jedna reszka oraz 0/2,
żadnego orła i dwie reszki. Przypomnijmy, dlaczego takie prawdopodobień-
stwa przypisaliśmy poszczególnym kombinacjom orłów i reszek. W sumie
możliwe są cztery układy, co symbolicznie zapiszemy w sposób następują-
cy: (o,o), (o,r), (r,o) i (r,r), gdzie symbole o i r oznaczają, odpowiednio, orła
i reszkę na pierwszej i na drugiej monecie.
Rozkład kombinacji orłów i reszek na dwóch kostkach, przedstawiony na ry-
sunku 4.24, to rozkład teoretyczny. Jeżeli teraz wyjmiesz z portfela dwie
monety i kilkakrotnie nimi podrzucisz, to proporcje orłów do reszek wcale
nie muszą dokładnie się pokrywać z tymi na wykresie. Jeśli jednak się za-
weźmiesz i będziesz podrzucał nimi przez cały dzień, to otrzymane przez
Ciebie proporcje będą coraz bliższe teoretycznym (nie mówiąc już o wpisie
do księgi Guinnessa).

ZGADNIJ, ILE WYPADNIE ORŁÓW

Teoretyczne rozkłady zmiennych mają to do siebie, że jesteśmy w stanie


przewidzieć ich wygląd na podstawie zasad rachunku prawdopodobieństwa,
bez wykonywania jakichkolwiek doświadczeń. W przypadku rzutu dwiema
monetami, proporcje orłów i reszek wynikają z definicji tzw. zdarzeń nieza-
leżnych. Jeżeli dwie monety są symetryczne i jeżeli podczas podrzucania
nikt nie oszukuje, to prawdopodobieństwo, że pojawi się dowolna kombina-
cja wyników na obu monetach, równa się iloczynowi prawdopodobieństw
pojawienia się danego wyniku na jednej i na drugiej monecie. To właśnie
znaczy, że rzuty dwiema monetami są zdarzeniami niezależnymi od siebie.
Wynikiem rzutu jedną monetą jest orzeł lub reszka, a prawdopodobieństwo
1
otrzymania każdej z tych stron wynosi . Prawdopodobieństwo pojawienia
2
1
się dwóch orłów wynosi , czyli prawdopodobieństwo pojawienia się orła
4
1
na pierwszej monecie × , czyli prawdopodobieństwo pojawienia się orła
2
1
na drugiej monecie, co ostatecznie daje . Takie samo jest prawdopodo-
4
bieństwo wypadnięcia dwóch reszek. Natomiast prawdopodobieństwo kom-
binacji orła i reszki jest sumą dwóch prawdopodobieństw: prawdopodobień-
stwa pojawienia się orła na pierwszej monecie i reszki na drugiej
⎛1 1⎞
⎜ × ⎟ oraz prawdopodobieństwa sytuacji odwrotnej, tj. reszki na pierw-
⎝2 2⎠
WYNIKI EKSPERYMENTU JAKO ZMIENNA LOSOWA 177

⎛1 1⎞
szej monecie i orła na drugiej, czyli także ⎜ × ⎟ . W sumie daje to:
⎝2 2⎠
1 1 1
+ = . Zbierając teraz wszystkie te obliczenia razem, możemy stwier-
4 4 2
dzić, że suma wszystkich prawdopodobieństw na wykresie 4.24 wynosi 1,
1 1 1
ponieważ + + = 1 .
4 2 4
Czy wiesz teraz, jak obliczyć teoretyczną częstość wypadnięć np. różnej
liczby orłów w rzucie trzema monetami? Rozpisując wszystkie możliwe
układy wypadnięć orłów i reszek w wyniku rzutu trzema monetami, łatwo
się zorientować, że jest osiem możliwych kombinacji:
(1) (o, o, o) (2) (o, o, r) (3) (o, r, o) (4) (o, r, r)
(5) (r, o, o) (6) (r, o, r) (7) (r, r, o) (8) (r, r, r)
Zauważ że w połowie wszystkich kombinacji na pierwszej monecie wypada
orzeł, a w drugiej – reszka. Podobnie w połowie kombinacji na drugiej
i trzeciej monecie wypada orzeł, a w połowie reszka. Jakie są więc możliwe
do otrzymania liczby orłów w wyniku rzutu trzema monetami? Tylko raz
możemy oczekiwać, że na żadnej monecie nie wypadnie orzeł (zob. kombi-
nacja 8) lub że pojawi się na wszystkich monetach (zob. kombinacja 1). Je-
den orzeł może pojawić się w trzech przypadkach na osiem (zob. kombina-
cje 4, 6 i 7), podobnie jak dwa orły (zob. kombinacje 2, 3 i 5).
Prawdopodobieństwa pojawiania się różnej liczby orłów w rezultacie rzutu
trzema monetami przedstawiamy w tabeli 4.14. Oczywiście wszystkie one
sumują się do 1.

Tabela 4.14. Prawdopodo- Liczba orłów Prawdopodobieństwo


bieństwo pojawienia się róż-
nej liczby orłów w rzucie 1
0
trzema monetami 8
3
1
8
3
2
8
1
3
8

No dobrze, skoro poradziliśmy sobie z trzema monetami, to może spróbujmy


utworzyć teoretyczny rozkład prawdopodobieństw dla liczby orłów na czte-
rech monetach. Wbrew pozorom, nie jest to wcale takie trudne. Jeżeli mamy
już wypisane wszystkie kombinacje orłów i reszek dla trzech monet, to wy-
starczy dopisać do każdej z nich jeszcze jedną, czwartą monetę. Ponieważ na
178 PRAWDOPODOBIEŃSTWO I ZMIENNA LOSOWA

niej także może wypaść albo orzeł, albo reszka, a więc w kombinacjach
„trzymonetowych” także trzeba to uwzględnić. Musimy przepisać poprzed-
nich osiem kombinacji, najpierw dopisując na końcu orła, a potem jeszcze
raz, dopisując na końcu reszkę. Ostatecznie otrzymamy 16 kombinacji:

(1) (o, o, o, o) (2) (o, o, r, o) (3) (o, r, o, o) (4) (o, r, r, o)


(5) (r, o, o, o) (6) (r, o, r, o) (7) (r, r, o, o) (8) (r, r, r, o)
(9) (o, o, o, r) (10) (o, o, r, r) (11) (o, r, o, r) (12) (o, r, r, r)
(13) (r, o, o, r) (14) (r, o, r, r) (15) (r, r, o, r) (16) (r, r, r, r)

Same reszki (brak orłów) występują tylko w jednym przypadku, jeden orzeł
występuje w czterech, dwa orły w sześciu, trzy orły znowu w czterech i czte-
ry orły tylko w jednej sytuacji na szesnaście możliwych.
Zapewne się domyślasz, jak ustalić prawdopodobieństwa różnej liczby orłów
na pięciu monetach. Do szesnastu kombinacji czterech monet trzeba dopisać
znowu albo orła, albo reszkę na miejscu piątym, co w sumie da 32 kombina-
cje. Jeśli zaś już będziesz miał wszystkie kombinacje pięciu monet, to łatwo
utworzysz kombinacje dla sześciu. Jak się przekonasz – będzie ich 64. Po-
tem utworzysz 128 kombinacji dla siedmiu monet, 256 kombinacji dla ośmiu
monet, 512 kombinacji dla 9 monet i tak dalej, i tak dalej.
Czy nie sądzisz, że rachunek prawdopodobieństwa to dla Ciebie wielkie wy-
zwanie na całe życie? Ileż tu jest do policzenia!
Mówią, że „potrzeba jest matką wynalazków, a ojcem – lenistwo”. To nam
pasuje, więc jako ojcowie uważamy, że warto się zastanowić, czy zamiast
wypisywać tasiemcowe układy „orlo-reszkowe”, nie lepiej znaleźć ogólną
formułę, która pozwoliłaby łatwiej oszacować liczby wypadnięć orłów na
dowolnej liczbie monet.
Wróćmy do sytuacji najprostszej, czyli rzutu jedną monetą. Z jednakowymi
prawdopodobieństwami może wypaść albo orzeł, albo reszka, a suma tych
prawdopodobieństw wynosi 1. Zapiszmy to w takiej postaci:
1
⎛1 1⎞
⎜ + ⎟ =1
⎝2 2⎠
Jak zauważyłeś, sumę prawdopodobieństw podnieśliśmy do pierwszej potę-
gi. Jeżeli zamiast wykładnika 1 wpiszemy 2, to i tak nie zmieni się wynik
równania, bo przecież:
2
⎛1 1⎞
⎜ + ⎟ =1
⎝ 2 2⎠
WYNIKI EKSPERYMENTU JAKO ZMIENNA LOSOWA 179

Wartość potęgi ma znaczenie, gdybyśmy chcieli przekształcić wyrażenia po


lewej stronie równania. W tym celu musimy, niestety, przeprowadzić teraz
coś w rodzaju ekshumacji i odwołać się do twojej wiedzy z matematyki na
poziomie II klasy gimnazjum. Chodzi nam o jeden z tzw. wzorów skrócone-
go mnożenia, a mianowicie „kwadrat sumy”. Jak pamiętasz – oczywiście nie
mamy co do tego żadnych złudzeń – wyrażenie to wygląda następująco:
(a + b) 2 = a 2 + 2ab + b 2
Jeżeli jednak zastosujemy je nie do obliczania pola kwadratu złożonego
z mniejszych kwadratów i prostokątów, ale do rozwinięcia podniesionej do
2
⎛1 1⎞
kwadratu sumy ⎜ + ⎟ , to otrzymamy coś takiego:
⎝2 2⎠
2 2 2 2
⎛1 1⎞ ⎛1⎞ ⎛1⎞ ⎛1⎞ 1 1 1
⎜ + ⎟ = ⎜ ⎟ + 2 × ⎜ ⎟ + ⎜ ⎟ = + + =1
⎝ 2 2⎠ ⎝ 2⎠ ⎝ 2⎠ ⎝ 2⎠ 4 2 4
Jak szaleć, to szaleć. A co byś powiedział na to, gdybyśmy Cię poprosili
o przypomnienie sobie takiego wzoru skróconego mnożenia:
(a + b)3 = a 2 + 3a 2b + 3ab 2 + b 2

⎛1 1⎞
Jeśli znowu za (a + b) podstawimy ⎜ + ⎟ , to otrzymamy coś takiego:
⎝2 2⎠
3 3 2 2 3
⎛1 1⎞ ⎛1⎞ ⎛1⎞ ⎛1⎞ ⎛1⎞ ⎛1⎞ ⎛1⎞ 1 3 3 1
⎜ + ⎟ = 1⎜ ⎟ + 3 ⎜ ⎟ ⎜ ⎟ + 3 ⎜ ⎟ ⎜ ⎟ + 1⎜ ⎟ = + + + = 1
⎝2 2⎠ ⎝2⎠ ⎝2⎠ ⎝2⎠ ⎝2⎠ ⎝2⎠ ⎝2⎠ 8 8 8 8
Czy rozumiesz, do czego zmierzamy? W tabeli 4.15 zapisaliśmy prawdopo-
dobieństwa wypadnięć różnej liczby orłów w wyniku rzutu 1–6 monetami.

Tabela 4.15. Prawdopodo- Liczba


bieństwa wypadnięć różnej 0 orłów 1 orzeł 2 orły 3 orły 4 orły 5 orłów 6 orłów
monet
liczby orłów w rzucie 1-6 mo-
netami 1 1
1 – – – – –
2 2
1 2 1
2 – – – –
4 4 4
1 3 3 1
3 – – –
8 8 8 8
1 4 6 4 1
4 – –
16 16 16 16 16
1 5 10 10 5 1
5 –
32 32 32 32 32 32
1 6 15 20 15 6 1
6
64 64 64 64 64 64 64
180 PRAWDOPODOBIEŃSTWO I ZMIENNA LOSOWA

W tabeli celowo nie skracaliśmy ułamków, aby uwypuklić fakt, że w każ-


dym wierszu suma wszystkich liczników jest taka sama jak mianownik.

DWUMIAN SIR IZAAKA NEWTONA I TRÓJKĄT BŁAŻEJA PASCALA

Z tabeli 4.15 możesz łatwo odczytać, że gdy się rzuca 6 monetami, najbar-
dziej prawdopodobne jest pojawienie się 3 orłów. Wiesz także, że wartości
prawdopodobieństwa dla rzutu jedną, dwoma i trzema monetami powstały
1 2 3
⎛1 1⎞ ⎛1 1⎞ ⎛1 1⎞
z rozwinięć wyrażeń: ⎜ + ⎟ , ⎜ + ⎟ i ⎜ + ⎟ . Pierwszego wyraże-
⎝2 2⎠ ⎝2 2⎠ ⎝2 2⎠
nia właściwie nie ma co rozwijać. Do pozostałych dwóch wykorzystaliśmy
wzory skróconego mnożenia. Zapewne domyślasz się, że dla obliczenia
prawdopodobieństw różnej liczby orłów na czterech monetach trzeba rozwi-
sir Izaak Newton 4 5
(1642-1727) ⎛1 1⎞ ⎛1 1⎞
nąć wyrażenie: ⎜ + ⎟ , dla pięciu – ⎜ + ⎟ itd. Znajdowanie prawdo-
⎝2 2⎠ ⎝2 2⎠
podobieństwa wypadnięcia dla różnej liczby orłów na dowolnej liczbie mo-
n
⎛1 1⎞
net wymaga rozwijania wyrażenia ⎜ + ⎟ , gdzie n oznacza liczbę monet.
⎝2 2⎠
n
⎛1 1⎞
Czy wiesz, w jaki sposób znajdować rozwinięcia wyrażenia ⎜ + ⎟ ?
⎝2 2⎠
Wbrew pozorom, nie jest to wcale takie trudne. Autorem, który opracował
n
⎛1 1⎞
zasady rozwijania wyrażenia ⎜ + ⎟ dla dowolnej liczby n, był sir Izaak
⎝2 2⎠
Błażej Pascal
Newton. Stąd też wyrażenie to określane jest jako dwumian Newtona. Ko-
(1623-1662) lejne współczynniki tego dwumianu łatwo jest znajdować, wykorzystując
tzw. trójkąt Pascala, którego nazwa pochodzi od nazwiska słynnego filozo-
fa francuskiego, Błażeja Pascala. Fragment trójkąta Pascala znajduje się w
tabeli 4.16.
Zauważ, że dokładnie takie same liczby, jak w trójkącie Pascala, pojawiają
* Dla porządku powinniśmy na- się w licznikach prawdopodobieństw w poprzedniej tabeli 4.15*. Dla przy-
pisać, że dwumian Newtona w kładu z monetami, różne wartości n, znajdujące się w lewej kolumnie w ta-
wersji ogólnej wygląda tak:
beli 4.16, wskazują na liczbę podrzucanych monet. W środkowej części ta-
( p + q )n , gdzie p i q oznaczają n
prawdopodobieństwa dwóch do- ⎛1 1⎞
pełniających się zdarzeń, tak że beli dla każdego n mamy ustalone liczniki wyrażenia ⎜ + ⎟ po rozwinię-
p + q = 1. Do tej ogólniejszej ⎝2 2⎠
postaci powracamy poniżej. ciu, czyli np. różne możliwe do uzyskania liczby orłów. Liczby w kolumnie
po prawej stronie odpowiadają mianownikom sumy ułamków oznaczających
prawdopodobieństwa. Warto zauważyć, że liczby w trójkącie Pascala mają
WYNIKI EKSPERYMENTU JAKO ZMIENNA LOSOWA 181

pewną bardzo ciekawą właściwość: każda z nich jest sumą dwóch znajdują-
cych się bezpośrednio nad nią.

Tabela 4.16. Trójkąt Pascala n Współczynniki mnożenia w rozwinięciach dwumianu Newtona Mianownik
1 1 1 2
2 1 2 1 4
3 1 3 3 1 8
4 1 4 6 4 1 16
5 1 5 10 10 5 1 32
6 1 6 15 20 15 6 1 64
7 1 7 21 35 35 21 7 1 128
8 1 8 28 56 70 56 28 8 1 256
9 1 9 36 84 126 126 84 36 9 1 512
10 1 10 45 120 210 252 210 120 45 10 1 1024
11 1 11 55 165 330 462 462 330 165 55 11 1 2048
12 1 12 66 220 495 792 924 792 495 220 66 12 1 4096

RÓŻNE ROZKŁADY CECH DWUWARTOŚCIOWYCH

Im więcej powtórzeń dwuwartościowej cechy, tym bardziej zróżnicowany


jest rozkład prawdopodobieństw wystąpienia różnych kombinacji tej cechy.
Oczywiście niektóre z nich będą się pojawiały bardzo rzadko, inne częściej,
ale które i w jakiej proporcji – to już jest zadanie z zakresu rachunku praw-
dopodobieństwa. Rysunki 4.25, 4.26 i 4.27 ilustrują rozkłady prawdopodo-
bieństw wystąpienia różnej liczby orłów w rzucie pięcioma, dziesięcioma
i dwudziestoma monetami. Wykres przedstawiający prawdopodobieństwa
wypadnięcia orłów w wyniku rzucania dwiema monetami znajduje się na ry-
sunku 4.24.

Rysunek 4.25. Rozkład


prawdopodobieństw kombi-
nacji orłów i reszek w rzucie 0,30
pięcioma monetami
[STATISTICA] 0,25
Prawdopodobieństwo

0,20

0,15

0,10

0,05

0,00
5/0 4/1 3/2 2/3 1/4 0/5
Proporcja orłów do reszek w rzucie 5 monetami
182 PRAWDOPODOBIEŃSTWO I ZMIENNA LOSOWA

Rysunek 4.26. Rozkład


prawdopodobieństw kombi- 0,25
nacji orłów i reszek w rzucie
dziesięcioma monetami
[STATISTICA] 0,20

Prawdopodobieństwo
0,15

0,10

0,05

0,00
10/0 9/1 8/2 7/3 6/4 5/5 4/6 3/7 2/8 1/9 0/10
Proporcja orłów do reszek w rzucie 10 monetami

Rysunek 4.27. Rozkład 0,20


prawdopodobieństw kombi-
nacji orłów i reszek w rzucie
dwudziestoma monetami 0,15
[STATISTICA]
Prawdopodobieństwo

0,10

0,05

0,00
20/0 18/2 16/4 14/6 12/8 10/10 8/12 6/14 4/16 2/18 0/20
19/1 17/3 15/5 13/7 11/9 9/11 7/13 5/15 3/17 1/19
Proporcja orłów do reszek w rzucie 20 monetami

Rzucanie pięcioma, dziesięcioma czy dwudziestoma monetami to jakby lo-


sowanie pięciu, dziesięciu czy dwudziestu próbek z populacji. Orły i reszki
łatwo zastąpić np. przez kobiety i mężczyzn, ekstrawertyków i introwerty-
ków lub grubych i chudych. Korzystając z trójkąta Pascala, możesz przewi-
dzieć, jaka jest najbardziej prawdopodobna proporcja, np. płci, w grupie 5-
osobowej. Wystarczy, że orły zamienisz na mężczyzn (to się nam nawet po-
doba – P. F. i R. M.), a reszki na kobiety (też w porządku).

CZY NIE ZA DUŻO DZIEWCZYN STUDIUJE PSYCHOLOGIĘ?

Sprawdźmy, czy to przypadek, że wśród studentów psychologii większość


stanowią kobiety. Weźmy jakąś grupę ćwiczeniową i policzmy, ile w tej
grupie jest studentek, a ilu studentów. Przypuśćmy, że w losowo wybranej,
12-osobowej grupie jest tylko dwóch studentów. Załóżmy, dla uproszczenia,
że gdyby proporcje kobiet i mężczyzn na studiach psychologicznych były
WYNIKI EKSPERYMENTU JAKO ZMIENNA LOSOWA 183

takie same, wówczas prawdopodobieństwo pojawienia się w grupie kobiety


albo mężczyzny również powinno być takie samo i wynosić 0,5. Ponieważ
ustaliliśmy, że grupa liczy 12 osób, zatem – podobnie, jak z proporcjami or-
łów do reszek – w grupie mogą być same studentki, jeden student i 11 stu-
dentek (interesujący układ), 2 studentów i 10 studentek (też może być) itd.
Również, podobnie jak z rzutem 12 monetami, pewne układy będą bardziej
prawdopodobne, a inne mniej. Dla 12-osobowej grupy liczba wszystkich
układów wynosi 4096 (zobacz w kolumnie po prawej stronie trójkąta Pasca-
la dla 12 powtórzeń).
Z trójkąta Pascala wynika, że możliwy jest tylko jeden przypadek na 4096,
że w grupie są same studentki, w 12 przypadkach na 4096 w grupie jest je-
den student i jedenaście studentek, oraz w 66 przypadkach, że w grupie jest
dwóch studentów i dziesięć studentek. W sumie więc liczba wszystkich
możliwych sytuacji, w których w grupie 12-osobowej znajdzie się nie więcej
niż dwóch studentów, wynosi: 1 + 12 + 66 = 79. Można łatwo policzyć
prawdopodobieństwo, że w grupie 12-osobowej będzie nie więcej niż dwóch
79
studentów, ponieważ wynosi ono: = 0,0193 . Jest więc bardzo nie-
4096
wielka szansa, by przypadkiem w grupie 12 studentów psychologii znalazło
się dwóch albo mniej niż dwóch mężczyzn. To nie przypadek, że psycholo-
gię studiują raczej kobiety niż mężczyźni. Tylko dlaczego?

TERAZ JUŻ CAŁKIEM NA SERIO: DANE EMPIRYCZNE I ROZKŁADY TEORETYCZNE

Rozkład dwumianowy możemy wykorzystać w każdej sytuacji, gdy intere-


sująca nas cecha jest dwuwartościowa i gdy możemy założyć, że prawdopo-
dobieństwo pojawienia się każdej z tych wartości jest takie samo i wynosi
1
. W przykładzie ze studentami wykorzystaliśmy rozkład teoretyczny do
2
sprawdzenia, czy można uznać za przypadek to, że w grupie 12 osób uczęsz-
czających na zajęcia na psychologii jest nie więcej niż 2 mężczyzn.
Jednym z gorących tematów dyskutowanych w Polsce w ostatnich latach jest
dostęp młodzieży pochodzącej ze wsi do edukacji wyższej. Załóżmy, że na
dziesięciu studentów, siedmiu pochodzi z miasta, a trzech ze wsi. Jeżeli
młodzi ludzie pochodzący z różnych środowisk mieliby mieć równą szansę
w dostępie do edukacji, to prawdopodobieństwo, że przypadkowo wyloso-
wana osoba z grupy studentów będzie pochodzić z miasta lub ze wsi, powin-
1
no być takie samo i wynosić . Korzystając z trójkąta Pascala, łatwo mo-
2
żesz sprawdzić, jakie jest prawdopodobieństwo, że w 10-osobowej grupie
184 PRAWDOPODOBIEŃSTWO I ZMIENNA LOSOWA

120
znajduje się 7 studentów z miasta: wynosi ono = 0,18 . Niewielkie, a w
1024
każdym razie sporo odbiegające od 0,5.
Możesz także sprawdzić, jakie jest prawdopodobieństwo tego, że w grupie
10-osobowej znajdzie się nie więcej niż 7 studentów pochodzących z miasta.
Prawdopodobieństwo to wyniesie:
1 + 10 + 45 + 120 + 210 + 252 + 210 + 120 968
= = 0,94
1024 1024
Liczba 0,94 to prawdopodobieństwo znalezienia co najwyżej 7 osób z miasta
w przypadkowo wylosowanej, 10-osobowej grupie studentów. Oczywiś-
cie liczba ta ma sens tylko wtedy, gdy prawdą jest stwierdzenie, że to, czy
w grupie znajdzie się osoba pochodząca z miasta lub ze wsi, jest tylko dzie-
łem przypadku, innymi słowy wtedy, gdy prawdopodobieństwo tego zdarze-
1
nia wynosi .
2
Porównanie empirycznie ustalonej wartości z rozkładem teoretycznym
umożliwia m.in. stwierdzenie, czy wybrany rozkład teoretyczny rzeczywi-
ście dobrze opisuje analizowaną przez nas relację. Innymi słowy, możemy
stwierdzić, czy założenia, które poczyniliśmy przy wyborze rozkładu, są
właściwe. Prawdopodobieństwo tego, że na 10 osób, co najwyżej 7 będzie
pochodzić z miasta, wynosi 0,94 i wydaje się, że jest raczej duże.
Być może jednak wyszliśmy z błędnego założenia. Przyjmując, że prawdo-
1
podobieństwo tego, że ktoś mieszka w mieście lub na wsi, wynosi , zało-
2
żyliśmy, że połowa ludzi w Polsce mieszka na wsi, a połowa w mieście, a to
nie jest zgodne z prawdą. Według danych ze spisu ludności w Polsce z roku
2002 na wsi mieszka 1 407 200 osób w wieku 19-24 lata, a w mieście
mieszka 2 482 700 osób w tym samym wieku. Oznacza to, że prawdopodo-
bieństwo tego, iż młody Polak mieszka na wsi, wynosi:
⎛ 1 407 200 ⎞
⎜⎜ = 0,37 ⎟⎟
⎝ 1 407 200 + 2 482 700 ⎠
a tego, że pochodzi z miasta – 0,63 (1 – 0,37 = 0,63). Jeżeli więc chcemy
sprawdzić, czy proporcje studentów świadczą o tym, iż szanse edukacyjne
młodzieży z miast i wsi są wyrównane, to musimy zrezygnować z założenia,
że prawdopodobieństwo tego, że przypadkowy student pochodzi ze wsi lub
miasta, wynosi 0,5. Zamiast tego powinniśmy posługiwać się prawdopodo-
bieństwami – odpowiednio – 0,37 i 0,63.
WYNIKI EKSPERYMENTU JAKO ZMIENNA LOSOWA 185

CZY MŁODZIEŻ ZE WSI I Z MIASTA MA TAKIE SAME SZANSE NA STUDIOWANIE?

Opisując rozkład dwumianowy, do tej pory ograniczaliśmy się do sytuacji,


w której prawdopodobieństwo pojawienia się analizowanej cechy w jednej
1
z dwóch możliwości wynosiło . Pojęcie rozkładu dwumianowego jest jed-
2
nak ogólniejsze. Nazwa ta oznacza każdy rozkład kombinacji dwóch takich
cech, że suma prawdopodobieństw ich występowania równa się 1. Rozkła-
dów dwumianowych jest więc nieskończenie wiele, a wszystkie one dają się
sprowadzić do znanego już wzoru, który w ogólnej postaci wygląda tak:
( p + q)n
p prawdopodobieństwo zajścia jakiegoś zdarzenia p,
q prawdopodobieństwo, że zdarzenie p nie zajdzie,
n liczba niezależnych prób.

Symbole p, q i n nazywamy parametrami rozkładu dwumianowego. W przy-


padku rzutu dwiema monetami parametry te wynoszą odpowiednio:
1
p = q = oraz n = 2. Jeżeli jednak chcemy sprawdzić, czy liczba studentów
2
w 10-osobowej grupie odpowiada proporcji mieszkańców miast i wsi, to
musimy wziąć rozkład dwumianowy o innych parametrach, np.: p = 0,63
i q = 0,37, gdzie p oznacza prawdopodobieństwo, że przypadkowa osoba jest
mieszkańcem miasta, a q, że jest mieszkańcem wsi. Musimy jeszcze określić
wartość trzeciego parametru, czyli liczbę prób, która w naszym przykładzie
wyniosła 10, czyli n = 10.
Teraz można już obliczyć, jakie jest prawdopodobieństwo tego, że jeżeli
młodzież z miast i wsi ma równy dostęp do edukacji, to w 10-osobowej gru-
pie studentów będzie dokładnie 7 mieszkańców miast.
Oczywiście obliczenie tego „na piechotę” może Ci sprawić pewną trudność,
ale jeśli masz dostęp do Excela, to możesz je łatwo oszacować za pomocą
funkcji: ROZKŁAD.DWUM. Excel wymaga wpisania następujących danych:
• liczba sukcesów w próbach – wpisujesz: 7,
• liczba niezależnych prób – wpisujesz: 10,
• prawdopodobieństwo sukcesu w pojedynczej próbie – wpisujesz: 0,63,
• wartość logiczna – wpisujesz: FAŁSZ.
Poszukiwane prawdopodobieństwo wynosi: 0,24.
Natomiast prawdopodobieństwo tego, że w grupie 10-osobowej będzie nie
więcej niż 7 studentów z miast, wynosi 0,78. Oczywiście prawdopodobień-
186 PRAWDOPODOBIEŃSTWO I ZMIENNA LOSOWA

stwo zdarzenia dopełniającego, czyli tego, że w grupie 10-osobowej będzie


nie więcej niż 3 studentów ze wsi, jest dokładnie takie samo.
* Wszystkie dane, jakie wyko- Zgodnie z danymi Głównego Urzędu Statystycznego* w roku 2002 w Pol-
rzystujemy w tej części, wzięli- sce, na każde 100 osób z wyższym wykształceniem, było 15 osób pochodzą-
śmy ze strony www.stat.gov.pl
cych ze wsi. Proporcja ta jest więc dużo mniejsza niż proporcja mieszkań-
ców wsi i miast w stosunku do wszystkich Polaków.
Niezależnie od trafności przyjętego założenia oznacza to, że dostęp do edu-
kacji na poziomie wyższym młodzieży z terenów wiejskich jest niższy, niż
wynikałoby to z proporcji mieszkańców miast i wsi w całej populacji.

MOIVRE, GALTON, GAUSS I LAPLACE O ROZKŁADZIE NORMALNYM

Pojęcie „rozkład dwumianowy” nie odnosi się tylko do jednego rozkładu, ale
do całej grupy rozkładów. To, z jakim rozkładem akurat mamy do czynienia,
zależy od wartości trzech parametrów: prawdopodobieństwa zajścia pewne-
go zdarzenia, prawdopodobieństwa zajścia zdarzenia dopełniającego (w su-
mie oba muszą wynosić 1) oraz liczby prób, które analizujemy.
Prawdopodobieństwa zajścia określonej liczby zdarzeń można znaleźć, wy-
korzystując liczby z trójkąta Pascala. Trójkąt ten można łatwo rozbudowy-
wać, ale przecież nie da się go generować w nieskończoność.
Prawdopodobnie pierwszym uczonym, któremu się udało poradzić sobie
z tym problemem, był francuski matematyk, Abraham de Moivre, który
Abraham de Moivre większą część życia spędził w Anglii. Udało mu się osiągnąć przybliżenie
(1667-1754)
wartości trójkąta Pascala dla bardzo dużej liczby prób.
W 1889 roku brytyjski przyrodnik, sir Franciszek Galton, nazwał rozkładem
normalnym przybliżenie dla nieskończenie wielu prób. Rozkład ten przed-
stawiony jest na rysunku 4.28.

Rysunek 4.28. Rozkład nor- 0,40


malny
Gęstość prawdopodobieństwa

0,35

0,30

0,25

0,20

0,15
punkt oddalony
0,10 średnia arytmetyczna od średniej arytmetycznej
o jedno odchylenie standardowe
0,05

0,00
Wartości zmiennej
WYNIKI EKSPERYMENTU JAKO ZMIENNA LOSOWA 187

Jak to często bywa, sukces ma wielu ojców, więc odkrycie rozkładu normal-
nego przypisywane jest jeszcze kilku innym osobom. Wymienia się tu nie-
mieckiego matematyka, Karla Friedricha Gaussa, a także Francuza, Pierre’a
Laplace’a, o którym wspomnieliśmy już wcześniej. Najczęściej jednak rów-
nanie opisujące rozkład normalny przypisywane jest Gaussowi, stąd też
nazywany jest on krzywą Gaussa. Nawiasem mówiąc, do czasu wymiany
waluty niemieckiej na euro, rozkład ten, wraz z portretem Gaussa, znajdował
się na niemieckim banknocie 10-markowym.
Przy okazji warto wspomnieć, że przez niektórych uczonych Gauss uważany
jest za najwybitniejszego matematyka wszechczasów. Jego geniusz ujawnił
się już dosyć wcześnie. Jak głosi jedna z anegdot, podczas lekcji matematyki
Karl Friedrich Gauss nauczyciel, któremu tego dnia nie bardzo chciało się pracować, kazał dzie-
(na 10-markówce) ciom obliczyć sumę wszystkich liczb od 1 do 100. Był już na to wzór, ale ów
mędrzec wiedział, że uczniowie nie mogli go znać, więc spodziewał się go-
dziny spokoju. Miał jednak pecha – 8-letni wówczas Karl Gauss niemal na-
tychmiast podał prawidłową odpowiedź – po prostu sam wymyślił od-
* Zob. Richards, I. (1983). Teo- powiedni wzór*. Biografowie Gaussa potwierdzają jednak powszechne
ria liczb. W: Steen L. A. (red.), przekonanie, że niektórzy wybitni ludzie niezbyt dobrze radzą sobie w nor-
Matematyka współczesna (s. 50-
79). Warszawa: PWN. malnym życiu. Gauss na co dzień był człowiekiem nieprzystępnym, a do te-
go bardzo zarozumiałym.
Z Gaussem kojarzy nam się jeszcze jedna informacja, ale nie mieliśmy oka-
zji jej sprawdzić. Podobno na jego grobowcu w Getyndze wykreślono sie-
demnastokąt foremny (spróbuj to sobie wyobrazić!). Jeżeli stwierdzisz empi-
rycznie, czyli zobaczysz na własne oczy, że to prawda, to koniecznie daj
nam znać.

WŁAŚCIWOŚCI ROZKŁADU NORMALNEGO

Rozkład normalny jest uogólnieniem rozkładu dwumianowego dla


1
p=q= na sytuacje, gdy jest nieskończenie wiele prób. Innymi słowy,
2
rozkład normalny jest rozkładem zmiennej losowej ciągłej. Przypomnijmy,
że zmienne ciągłe to takie, które mogą przyjmować wartości ze zbioru nie-
skończenie dużego. Jak widać na rysunku 4.28, rozkład normalny jest syme-
tryczny wokół prostej, prostopadłej do osi OX, przechodzącej przez średnią.
Średnia, mediana (czyli wartość, powyżej i poniżej której znajduje się po-
łowa obserwacji) oraz modalna (czyli wartość, która powtarza się najczę-
ściej) są identyczne w rozkładzie normalnym. Ani z lewej, ani z prawej stro-
ny rozkład nie dochodzi do osi OX (czasem, na niektórych wykresach wyko-
Karl Friedrich Gauss nywanych za pomocą komputera, rozkład normalny dotyka osi OX, ale jest
(1777-1855) to tylko uproszczenie). Ze względu na swój kształt rozkład ten nazywany
188 PRAWDOPODOBIEŃSTWO I ZMIENNA LOSOWA

jest często krzywą dzwonowatą. Ponieważ jest rozkładem ciągłej zmiennej,


oś OY nie oznacza prawdopodobieństwa otrzymania wartości na osi OX. Jak
pamiętasz, dla rozkładów ciągłych, wartości na osi OY oznaczają gęstości,
a prawdopodobieństwa odczytuje się z pola powierzchni tych rozkładów.
Na rysunku 4.28 zaznaczyliśmy średnią i odchylenie standardowe. Są to je-
dyne parametry rozkładu normalnego. Matematyczny wzór rozkładu nor-
malnego jest następujący:
( X − x )2
1 −
f (X ) = e 2σ2

σ 2π
π znana z matematyki stała, równa 3,14159...,
e również stała, która wynosi 2,71828...,
X zmienna, której rozkład dotyczy (np. liczba orłów w rzucie nieskończoną liczbą monet),
σ odchylenie standardowe w rozkładzie zmiennej X,

x średnia arytmetyczna*.

* Z reguły średnia w rozkładzie Choć ten wzór wygląda na dość skomplikowany, warto się przyjrzeć, co on
normalnym jest oznaczana za w rzeczywistości oznacza. Otóż jest to formuła na znajdowanie wartości
pomocą łacińskiej litery m lub
greckiej litery µ, natomiast zna- funkcji gęstości f(X), czyli wartości na osi OY, dla dowolnej wartości
ny ci już symbol x zarezerwo- zmiennej X. Spójrz na prawą stronę równania, a zobaczysz, od czego zależy
wany jest dla średniej w próbie. ta gęstość.
Aby nie komplikować sytuacji,
na razie pozostaniemy przy To, czy rozkład normalny leży bardziej na lewo, czy bardziej na prawo
oznaczeniu stosowanym do tej w stosunku do osi OX, zależy od tego, jaka jest średnia, natomiast kształt
pory. Nieco później jednak po-
wrócimy jeszcze do tego pro- rozkładu zależy od wartości odchylenia standardowego. Pod tym względem
blemu. z rozkładem normalnym jest podobnie, jak np. z wykresem prostej Y = AX +
+ B. Parametr A oznacza kierunek nachylenia prostej do osi OX, a B – jej od-
ległość od tej osi. Takich prostych, a także takich rozkładów normalnych
można wykreślić nieskończenie wiele.

O DOWCIPIE RAMSEYERA I PRAWDOPODOBIEŃSTWIE W ROZKŁADZIE NORMALNYM

Dla rozkładów zmiennej losowej ciągłej nie da się znaleźć prawdopodobień-


stwa uzyskania pojedynczych wartości tej zmiennej, ale da się ustalić praw-
dopodobieństwo, że przyjmie ona wartość z pewnego przedziału. Ponieważ
rozkład normalny jest symetryczny, więc jego powierzchnie na lewo i na
prawo od prostej prostopadłej przechodzącej przez średnią arytmetyczną
obejmują dokładnie po połowie całej powierzchni pod krzywą. Dlatego wła-
śnie w dowcipie, od którego zaczęliśmy tę część, mówi się, że połowa ludz-
kości jest głupsza od osoby przeciętnie głupiej. Można jednak zależność tę
przedstawić także w wersji optymistycznej i powiedzieć, że połowa ludzko-
WYNIKI EKSPERYMENTU JAKO ZMIENNA LOSOWA 189

ści jest mądrzejsza od osoby przeciętnie mądrej. No, ale wtedy – z jakiegoś
powodu, który mówi chyba coś ważnego o naszym poczuciu humoru – nie
byłoby to już takie zabawne.
Prawdopodobieństwo uzyskania wyników z dowolnego przedziału łatwo jest
przedstawić graficznie. Jest to wielkość pola powierzchni ograniczonego
przez proste prostopadłe do osi OX, przechodzące przez początek i koniec
przedziału. Ilustruje to rysunek 4.29.
Rysunek 4.29. Pola po- 0,40
wierzchni odpowiadają praw- Gęstość prawdopodobieństwa
0,35
dopodobieństwom w rozkła-
dzie normalnym (wyrażenie 0,30
p(X<A) należy czytać jako
0,25
„prawdopodobieństwo, że
wartość X jest mniejsza od 0,20
liczby A”)
0,15

0,10
p(X<A) p(A<X<B) p(B<X<C) p(X>C)
0,05

0,00
-2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,0

A B C

ROZKŁAD NORMALNY A ROZKŁAD DWUMIANOWY

Możemy łatwo sprawdzić, czy rzeczywiście rozkład normalny jest uogólnie-


niem rozkładu dwumianowego. Wystarczy tylko porównać obydwa te roz-
kłady. Zrobimy to na przykładzie rzutu 10 monetami.
Z trójkąta Pascala możemy odczytać prawdopodobieństwa pojawienia się
dowolnych kombinacji orłów i reszek. Ponieważ analizujemy 10 rzutów,
więc możemy skupić się np. tylko na orłach – niezależnie od tego, ile ich
wypadnie, liczba reszek musi dopełniać wynik do 10 obserwacji.
Na rysunku 4.30 przedstawiamy rozkład prawdopodobieństw uzyskania od
0 do 10 orłów w tej sytuacji. Prawdopodobieństwa te obliczyliśmy, dzieląc
po kolei liczby z 10. wiersza tabeli 4.16 przez 1024, czyli przez liczbę
wszystkich możliwych układów.
Oprócz słupków reprezentujących prawdopodobieństwa pojawienia się od
0 do 10 orłów na rysunku 4.30 umieściliśmy także rozkład normalny, który
jest uogólnieniem rozkładu dwumianowego dla p = q = 0,5 oraz n = 10. Po-
nieważ każdy rozkład normalny jest jednoznacznie określony przez średnią
i odchylenie standardowe, więc tworząc go, musieliśmy znać wartości tych
dwóch parametrów.
190 PRAWDOPODOBIEŃSTWO I ZMIENNA LOSOWA

Rysunek 4.30. Rozkład nor-

Prawdopodobieństwo w rozkładzie dwumianowym


malny, przybliżający rozkład 0,25
dwumianowy dla 10 prób
1
oraz p = q = [STATISTICA] 0,20
2
p = 0,114
0,15

0,10

0,05

0,00
0 1 2 3 4 5 6 7 8 9 10
Liczba orłów w rzucie 10 monetami

Odpowiednikiem rozkładu dwumianowego w ogólnej postaci jest rozkład


n
normalny o średniej równej x = i odchyleniu standardowych wynoszącym
2
n
s= . Ponieważ rozkład normalny przedstawiony na rysunku 4.30 jest
4
dopasowany do rozkładu dwumianowego dla 10 prób, więc parametry tego
dopasowanego rozkładu normalnego są następujące:

n 10
x= = =5
2 2

n 10
s= = = 1,58
4 4

Jak widzisz, rozkład normalny o średniej 5 i odchyleniu standardowym 1,58


prawie idealnie pokrywa wszystkie punkty oznaczające prawdopodobień-
stwa w rozkładzie dwumianowym. Sprawdźmy jeszcze, czy prawdopodo-
bieństwo wystąpienia odpowiednich kombinacji orłów i reszek na podstawie
rozkładu normalnego jest takie samo, jak wynika z trójkąta Pascala.
W dziesiątym wierszu tabeli 4.16, jako ósma z kolei znajduje się liczba 120.
Jest to liczba sytuacji, w których na 10 rzutów monetą wystąpi dokładnie
7 orłów (bierzemy ósmą liczbę z kolei, ponieważ pierwsza oznacza 0 orłów,
druga 1 orła, trzecia 2 orły itd.). Ponieważ liczba wszystkich możliwych
kombinacji orłów i reszek przy rzucie 10 monetami wynosi 1024, więc
prawdopodobieństwo uzyskania 7 orłów w rzucie 10 monetami jest równe:

120
= 0,117
1024
WYNIKI EKSPERYMENTU JAKO ZMIENNA LOSOWA 191

Możemy to samo prawdopodobieństwo odczytać z wykresu rozkładu nor-


malnego. Ponieważ jednak jest to rozkład ciągły, więc nie można znaleźć
prawdopodobieństwa tego, że zmienna przyjmie jedną konkretną wartość,
ale trzeba je odczytać z przedziału wokół interesującej nas wartości, czyli
w przypadku 7 orłów chodzi o obszar między 6,5 a 7,5.
Porównajmy prawdopodobieństwa w rozkładzie ciągłym z prawdopodobień-
stwami w rozkładzie dyskretnym, jakim jest rozkład dwumianowy. W roz-
kładzie dwumianowym wartości zmieniają się dokładnie o 1 (nie można
mieć wyniku równego 7,5 orła na 10 rzutów), natomiast w rozkładzie cią-
głym wartości na osi OX są ułożone nieskończenie gęsto. Tak więc odpo-
wiednikiem siódemki w rozkładzie dwumianowym jest przedział wartości,
które leżą bliżej siódemki niż każdej innej wartości z rozkładu dwumia-
nowego.
Obszar odpowiadający prawdopodobieństwu uzyskania wartości z przedzia-
łu 6,5–7,5 także zaznaczyliśmy na rysunku 4.30.
Wielkość tego przedziału wynosi 0,114. Różnica między prawdopodobień-
stwem wyliczonym z rozkładu dwumianowego a przybliżeniem tego praw-
dopodobieństwa za pomocą rozkładu normalnego wynosi tylko 0,003. Im
większa jednak jest liczba prób w rozkładzie dwumianowym, tym dokład-
niejsze podobieństwo tego rozkładu do rozkładu normalnego.
Na przykład prawdopodobieństwo uzyskania 7 orłów w rzucie 30 monetami
wynosi 0,0019, a prawdopodobieństwa tego zdarzenia wyznaczone za po-
mocą rozkładu normalnego jest większe tylko o 0,0009.

KOBIECE KSZTAŁTY ROZKŁADU NORMALNEGO

Rozkład normalny ma jeszcze jedną bardzo ważną cechę. W punkcie odpo-


wiadającemu wielkości jednego odchylenia standardowego krzywa normal-
na przegina się w drugą stronę – z wypukłej zamienia się we wklęsłą (oczy-
wiście, jeśli spojrzymy na rozkład „do góry nogami”, to jest odwrotnie).
Oznacza to, że prawdopodobieństwo uzyskania wartości różniących się od
średniej o więcej niż o jedno odchylenie standardowe (zarówno in plus, jak
i in minus) zaczyna się zmniejszać coraz gwałtowniej. Nic dziwnego –
w środkowej części rozkładu obszar pomiędzy dwoma odchyleniami stan-
dardowymi obejmuje ponad 2/3 całej powierzchni pod krzywą normalną.
Nasz znajomy profesor psychologii twierdzi, że zasada ta dobrze opisuje
rozkład liczebności pasażerów zajmujących miejsca w wagonach pociągu.
Najwięcej osób wsiada do wagonu środkowego, natomiast w pierwszym
i w ostatnim wagonie na ogół jest znacznie mniej ludzi.
192 PRAWDOPODOBIEŃSTWO I ZMIENNA LOSOWA

ROZKŁAD NORMALNY: TEORETYCZNY I NAJLEPIEJ DOBRANY

Dlaczego poświęciliśmy tyle miejsca rozkładowi dwumianowemu, a zwłasz-


cza rozkładowi normalnemu? Po prostu oba rozkłady są bardzo ważne. Wie-
le procedur statystycznych, o których będziemy jeszcze pisać, wymaga nor-
malności rozkładu danych. Co ciekawe, okazuje się, że w rzeczywistości
bardzo wiele cech rozkłada się zgodnie z krzywą Gaussa.
Jako przykład wykorzystamy rzeczywiste dane uzyskane od 203 studentów
piszących jeden z egzaminów podczas studiów psychologicznych. W egza-
minie można było zdobyć 25 punktów. Średnio studenci uzyskali 14,68
punktów, a odchylenie standardowe dla tych danych wyniosło 3,08. Rozkład
liczebności wykreślony dla wyników z egzaminu przedstawiony jest na ry-
sunku 4.31.
Na rysunku 4.31, oprócz słupków oznaczających liczbę studentów, którzy
zdobyli odpowiednią liczbę punktów, narysowany jest także rozkład nor-
malny, o takiej samej średniej i takim samym odchyleniu standardowym.
W niektórych miejscach obydwa rozkłady niemal pokrywają się ze sobą.
W innych liczba studentów jest nieco większa, niż powinno, gdyby rozkład
punktów z egzaminu był rozkładem normalnym, a czasem liczba studentów
jest zbyt mała, niż wynikałoby to z rozkładu normalnego.

Rysunek 4.31. Rozkład li- 30


czebności wyników z egza- 28
minu dla grupy 203 studen- 26
tów [STATISTICA] 24
22
20
Liczba studentów

18
16
14
12
10
8
6
4
2
0
6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
Liczba punktów zdobytych podczas egzaminu

Rozkład normalny, który umieściliśmy na wykresie, to tzw. rozkład najlepiej


dobrany do danych empirycznych. Jest to po prostu rozkład, którego para-
metry, czyli średnia i odchylenie standardowe, są takie same, jak odpowiada-
jące im statystyki w rozkładzie empirycznym. Istnieją specjalne procedury
sprawdzania, w jakim stopniu „dobre” jest dopasowanie rozkładu normalne-
go do konkretnego zbioru danych. Procedury te przedstawimy w dalszej czę-
WYNIKI EKSPERYMENTU JAKO ZMIENNA LOSOWA 193

ści. W tym miejscu dodajmy tylko, że przedstawiony na rysunku 4.31 roz-


kład normalny pasuje do naszego rozkładu wyników z egzaminu, mniej wię-
cej, na trzy z plusem.

RODZINA ROZKŁADÓW NORMALNYCH

Określenie „rozkład normalny” nie dotyczy tylko jednego rozkładu, ale jest
nazwą wielopokoleniowej rodziny z tradycjami. Wspólną cechą wszystkich
członków tej rodziny od niepamiętnych czasów jest to, że o ich wyglądzie
decyduje wartość tylko dwóch parametrów: średniej i odchylenia standar-
dowego. Przykłady rozkładów normalnych o różnych parametrach przed-
stawione są na rysunku 4.32.

Rysunek 4.32. Rozkłady


normalne o różnej wartości
średniej i odchylenia standar-
dowego

SUPEREKSPRESEM CZY NA PIECHOTĘ? REFLEKSJA O ŻYCIU, W KONTEKŚCIE POSZUKIWANIA


POWIERZCHNI POD KRZYWĄ NORMALNĄ

Przez cały czas, pisząc o rozkładzie normalnym, konsekwentnie unikaliśmy


jednej informacji. Nie napisaliśmy mianowicie ani słowa o tym, skąd wiemy,
jakie są powierzchnie pól pod krzywą normalną. Pora uzupełnić tę lukę.
Zasadniczo istnieją dwie ogólne strategie znajdowania wielkości pól po-
wierzchni pod krzywą normalną – jedna za pomocą komputera, a druga za
pomocą tablic statystycznych.
Sposób komputerowy jest oczywiście łatwiejszy, ale wymaga:
(1) komputera,
(2) odpowiedniego programu statystycznego, takiego jak SPSS, STATISTICA
czy ewentualnie Excel,
(3) umiejętności obsługi:
(a) komputera,
(b) odpowiedniego programu statystycznego, takiego jak SPSS, STATI-
STICA czy ewentualnie Excel.
194 PRAWDOPODOBIEŃSTWO I ZMIENNA LOSOWA

Kiedy wyobraziliśmy sobie, jak obszerny musiałby być ten przewodnik po


statystyce, gdybyśmy chcieli zamieścić w nim szczegółowe instrukcje umoż-
liwiające wykonanie nawet bardzo prostych operacji statystycznych za po-
mocą tych programów, wówczas doszliśmy do wniosku, że byłoby to po-
zbawione sensu.
Półki księgarskie aż uginają się od podręczników do programów kompute-
rowych, a do legalnie zakupionych pakietów statystycznych dołączana jest
wielotomowa dokumentacja umożliwiająca rozwiązanie każdego problemu
statystycznego.
Druga strategia, tzw. na piechotę, wymaga więcej wysiłku, ale ma tę prze-
wagę nad strategią komputerową, że umożliwia śledzenie całego procesu
statystycznego jakby w zwolnionym tempie, klatka po klatce. Świat można
zwiedzać za pomocą superszybkiego pociągu lub przemierzając go na włas-
nych nogach.
Oba sposoby są poprawne, ale nigdy nie będziesz wiedział, jak pachną kwia-
ty, jeśli nawet nie zdołasz ich dostrzec. W niniejszym przewodniku proponu-
jemy ci tę drugą formę podróżowania, chociaż – bądź pewien – że ta pierw-
sza przyjdzie prędzej, niż się spodziewasz.

ROZKŁAD NORMALNY STANDARYZOWANY W TABLICACH STATYSTYCZNYCH

Dziś dość trudno jest nam w to uwierzyć, ale ludzkość radziła sobie ze
wszystkimi problemami codzienności nawet wtedy, gdy nie było na świecie
komputerów. Nie było to zresztą wcale tak dawno temu – pierwszy kompu-
* Na podstawie www.computer- ter dla indywidualnego użytkownika pojawił się na rynku w roku 1974*. Do
world.pl/historia tego czasu jednak także radzono sobie z obliczaniem prawdopodobieństwa
w rozkładzie normalnym.
Zanim opiszemy, jak to wykonać, najpierw musimy wprowadzić pojęcie
rozkładu normalnego standaryzowanego. Otóż jest to taki rozkład, które-
go średnia wynosi 0, a odchylenie standardowe równa się 1. W gruncie rze-
czy rozkład ten ma identyczny kształt, jak rozkład normalny przedstawiony
na rysunku 4.28.
Rozkład normalny standaryzowany ma takie same cechy, jak każdy inny
rozkład normalny. Jest symetryczny wokół średniej, mediany i modalnej,
które wszystkie są sobie równe i wynoszą 0. Najbardziej jednak użyteczną
cechą rozkładu standaryzowanego jest ta, że pozwala on na oszacowanie
prawdopodobieństw różnych wartości danych na podstawie tablic staty-
stycznych, które – jeśli cię to oczywiście interesuje – zamieściliśmy
w Aneksie, na końcu tego przewodnika (nie tylko my wpadliśmy na ten po-
mysł – tablice takie są obowiązkowe w każdym podręczniku do statystyki).
WYNIKI EKSPERYMENTU JAKO ZMIENNA LOSOWA 195

Tablica z rozkładem normalnym standaryzowanym jest oznaczona jako A


i składa się z trzech kolumn (por. Aneks, s. 635).
W kolumnie pierwszej znajdują się wartości zmiennej, dla których chcesz
znaleźć pola powierzchni. Są one jednak wyrażone za pomocą charaktery-
stycznych dla rozkładu standaryzowanego jednostek odchylenia standardo-
wego. Nazywają się one wynikami standaryzowanymi lub jednostkami
standaryzowanymi i najczęściej są oznaczane jako z.
Nie wchodząc teraz w detale, możesz przyjąć, że wyniki standaryzowane re-
prezentują dane empiryczne, czyli konkretne X-y, w rozkładzie standaryzo-
wanym.
Zgodnie z regułą trzech sigm jest bardzo mało prawdopodobne znalezienie
wartości mniejszej lub większej niż trzy odchylenia standardowe od średniej.
Dlatego też w tablicy A ograniczyliśmy wartości z do zakresu od –3 do +3.
W następnych dwóch kolumnach tej tablicy znajdują się pola powierzchni
pod rozkładem normalnym poniżej każdej danej wartości z (kolumna 2) oraz
powyżej jej wartości (kolumna 3).
Rzuć okiem na tablicę A. Czy rozumiesz wszystkie oznaczenia?
Spróbuj teraz znaleźć pola powierzchni opowiadające wartości z = 1,73
(wbrew pozorom, nie jest to przypadkowa liczba). W kolumnie drugiej znaj-
dziesz pole opowiadające prawdopodobieństwu uzyskaniu wartości poniżej
z = 1,73, a w trzeciej – powyżej z = 1,73. Wynoszą one odpowiednio:
p (z < 1,73) = 0,9582
oraz
p (z > 1,73) = 0,0418
Zwróć uwagę na sposób, w jaki zapisaliśmy wielkości tych prawdopodo-
bieństw. Wyrażenia po lewej stronie równania należy czytać: „prawdopodo-
bieństwo tego, że dowolna wartość z będzie mniejsza niż ... (lub będzie
większa niż ...), równa się ...”.
Czy wiesz, że wartość 0,0418 oznacza prawdopodobieństwo tego, że pod-
czas egzaminu na psychologii, którego wyniki ilustruje wykres 4.31, przy-
padkowy student uzyska więcej niż 20 punktów?
W zasadzie nie spodziewaliśmy się, że znasz odpowiedź na to pytanie, i dla-
tego ilustrujemy tę sytuację na rysunku 4.33.
W podpisie rysunku 4.33 zapisaliśmy skrótowo, o jaki rozkład normalny
nam chodzi: N (14,68; 3,08). Pierwsza liczba to średnia w tym rozkładzie,
a druga – odchylenie standardowe.
196 PRAWDOPODOBIEŃSTWO I ZMIENNA LOSOWA

Rysunek 4.33. Powierzchnie 0,40


pod krzywą normalną powierzchnia

Gęstość prawdopodobieństwa
0,35
N(14,68; 3,08) dla wartości pod krzywą normalną
dla X < 20
danej X = 20 0,30

0,25

0,20 p = 0,9579
powierzchnia
0,15 pod krzywą normalną
dla X > 20
0,10

0,05
p = 0,0421
0,00
Wyniki -2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 1,73 2,0
standaryzowane
Średnia w rozkładzie danych empirycznych: 14,68 X = 20

WYNIKI STANDARYZOWANE z

Każdy (naprawdę każdy) rozkład normalny o znanych parametrach da się


zamienić na rozkład normalny o średniej równej 0 i odchyleniu standardo-
wym równym 1. W tym celu wystarczy jednostki w rozkładzie wyjściowym
zamienić na tzw. wyniki standaryzowane, a średnią w rozkładzie wyjścio-
wym – na zero.
Zróbmy to. Średnią w rozkładzie wyjściowym, czyli 14,68, zmieńmy na 0.
Następnie wynikowi większemu od średniej o jedno odchylenie standardowe
przypiszmy wartość 1, czyli 14,68 (średnia) + 3,08 (odchylenie standardo-
we) = 17,76 zamieniamy na 1. Wynikowi mniejszemu od średniej o jedno
odchylenie standardowe przypisujemy wartość -1, czyli 14,68 – 3,08 = 11,6
zamieniamy na –1.
Prześledźmy dokładnie, co my tu na dobrą sprawę wyrabiamy. Dowiedzieli-
śmy się właśnie, że liczba 17,76 odpowiada takiemu wynikowi na skali po-
miarowej, który odchyla się od średniej dla tego rozkładu o jedno odchylenie
standardowe. Gdybyśmy chcieli znaleźć ogólną formułę, za pomocą której
moglibyśmy przedstawić w rozkładzie standaryzowanym wszystkie dane
empiryczne, musielibyśmy zbudować takie równanie, w którym wynik po
prawej i po lewej jego stronie byłby ten sam. Wyjdźmy od tego, co już wie-
my. Niech po lewej stronie równania będzie wartość odchylenia standardo-
wego w jednostkach rozkładu standaryzowanego, a po prawej – w jednost-
kach rozkładu empirycznego. W pierwszym kroku musielibyśmy stwierdzić,
że 1 = 17,76, co byłoby dość zaskakujące z każdego chyba punktu widzenia
w matematyce.
Jaką operację matematyczną należy więc wykonać, żeby wykorzystując tyl-
ko dwie liczby, czyli 17,76 i 1, doprowadzić do takiego równania, w którym
17,76 będzie równe 1? Najprościej byłoby tak: 1 = 17,76 – 17,76 + 1. Tylko
WYNIKI EKSPERYMENTU JAKO ZMIENNA LOSOWA 197

co miałoby to znaczyć? Spróbujmy więc skorzystać z operacji dzielenia


17,76
i wtedy 1 = . Trochę lepiej, ponieważ jednostki rozkładu standaryzo-
17,76
wanego mamy teraz po lewej stronie, a jednostki rozkładu empirycznego po
prawej, ale to z kolei by znaczyło, że wartość równa 1 w rozkładzie standa-
ryzowanym będzie odpowiadała dowolnej danej z rozkładu empirycznego,
20 5,56
którą weźmiemy pod uwagę. Równie dobrze 1 = , jak 1 = .
20 5,56
Trzeba by jakoś rozłożyć wartość 17,76 na prostsze elementy składowe.
Wiemy przecież, że powstała ona z dodania wartości odchylenia standardo-
wego do średniej, czyli 14,68 + 3,08 = 17,76. Nasze równanie można by
więc zapisać w taki sposób:
14,68 + 3,08
1=
14,68 + 3,08
lub w taki:
17,76 − 3,08
1=
17,76 − 3,08
albo w taki:
17,76 − 14,68
1=
17,76 − 14,68
Pomyślmy: wadą pierwszego równania jest to, że nie pojawia się w nim na-
sza wyjściowa wartość, czyli 17,76. W pozostałych dwóch jest. To dobrze.
Teraz jest kluczowy moment. Jedynka po lewej stronie równania jest wskaź-
nikiem wielkości odchylenia wyniku od średniej wyrażonym w jednostkach
odchylenia standardowego w rozkładzie standaryzowanym. Jeżeli więc
chcemy w analogicznych jednostkach wyrazić odchylenie od średniej w roz-
kładzie empirycznym, musimy je sprowadzić do tego samego mianownika,
czyli do odchylenia standardowego. Które z powyższych równań spełnia to
kryterium? W pierwszym równaniu mianownikiem jest 17,76, czyli wartość
danej empirycznej – odpada. Mianownikiem w drugim równaniu jest 14,68,
czyli wartość średniej – też odpada. W trzecim równaniu różnica między
wartością danej empirycznej a średnią arytmetyczną daje odchylenie stan-
dardowe – i o to nam chodziło.
Zapiszmy teraz nasz wzór w wersji podstawowej:
17,76 − 14,68
1=
3,08
198 PRAWDOPODOBIEŃSTWO I ZMIENNA LOSOWA

i sprawdźmy, czy będzie działał również w innych sytuacjach. Policzmy


wartość wyniku standaryzowanego dla danej, która w rozkładzie empirycz-
nym odchyla się od średniej o jedną jednostkę odchylenia standardowego,
ale po lewej stronie średniej, czyli dla 11,6. Podstawmy do wzoru:
11,6 − 14,68 − 3,08
= = −1
3,08 3,08
Działa.
Procedurę zamiany wyników w rozkładzie normalnym na wyniki w rozkła-
dzie standaryzowanym z można więc przedstawić za pomocą następującego
wzoru:
Xi − x
zi =
s
zi wynik standaryzowany dla i-tej wartości zmiennej X,
wartość i-tej danej dla zmiennej X (np. liczba punktów na egzaminie uzyskana przez które-
Xi
gokolwiek studenta),

x średnia w rozkładzie zmiennej X (np. średnia punktów na egzaminie),

s odchylenie standardowe w rozkładzie zmiennej X.

No to teraz już, korzystając z wzoru, policzmy wynik standaryzowany z dla


20 punktów w rozkładzie N (14,68; 3,08):
20 − 14,68 5,32
zi = = = 1,73
3,08 3,08

Teraz rozumiesz, dlaczego 1,73 w rozkładzie standaryzowanym odpowiada


20 punktom na egzaminie. Tak samo możemy postąpić z każdym wynikiem
w rozkładzie wyjściowym. Na przykład 6 punktom z rozkładu N (14,68;
3,08) odpowiada

6 − 14,68 − 8,68
zi = = = −2,82
3,08 3,08

w rozkładzie N (0; 1), a 16 punktom z rozkładu N (14,68; 3,08) odpowiada

16 − 14,68 1,32
zi = = = 0,43
3,08 3,08

w rozkładzie N (0; 1) itd. Zwróć uwagę na znak poprzedzający wynik stan-


daryzowany. Jeśli jest ujemny, to znaczy, że dana liczba punktów jest mniej-
sza od średniej, a dodatni oznacza, że jest to liczba większa od średniej.
WYNIKI EKSPERYMENTU JAKO ZMIENNA LOSOWA 199

Ponieważ wartości każdego rozkładu normalnego można zamienić na warto-


ści rozkładu normalnego standaryzowanego, a pola powierzchni dla tego
rozkładu można znaleźć w tablicach (u nas w tablicy A), można więc sobie
stosunkowo łatwo poradzić ze znalezieniem odpowiednich pól powierzchni
w każdym rozkładzie normalnym.
Teraz już, w pełni świadomi, możemy potwierdzić, że dwudziestu punktom
na egzaminie odpowiada wynik standaryzowany równy 1,73. Z kolei z tabli-
cy A możemy odczytać, że pole powierzchni dla wartości powyżej 1,73 wy-
nosi 0,0418, a pole powierzchni poniżej tej wartości wynosi 0,9582.

POLE POWIERZCHNI W ROZKŁADZIE NORMALNYM, PRAWDOPODOBIEŃSTWO I PROCENTY

Dotychczas zamiennie stosowaliśmy pojęcia „pole powierzchni” i „prawdo-


podobieństwo w rozkładzie normalnym”.
Ponieważ całe pole powierzchni w rozkładzie normalnym wynosi 1, więc
pole powierzchni dla wyników powyżej jakiejś wartości Xi równa się praw-
dopodobieństwu uzyskania wyników powyżej tej wartości. Często też wiel-
kości pola powierzchni (albo prawdopodobieństwa) zamienia się na procenty
– wielkość pola wystarczy pomnożyć przez 100 i dopisać znaczek „%”.
Dla wielu ludzi łatwiejsze jest wyrażenie prawdopodobieństwa za pomocą
procentu niż za pomocą liczb z przedziału od 0 do 1. Znajduje to także uza-
sadnienie w konwencjach językowych. Powiemy raczej: „jestem pewien na
90%” niż: „jestem pewien na 0,9”. Także w odniesieniu do pola powierzchni
łatwiej sobie wyobrazić, że tylko trochę ponad 4% studentów osiągnęło wy-
nik równy 20 punktów lub wyższy, niż że prawdopodobieństwo uzyskania
na egzaminie wyniku 20 punktów lub wyższego wyniosło 0,0418.
W odniesieniu do danych z egzaminu, w którym wzięło udział 203 studen-
tów, możemy dokładnie oszacować liczbę studentów, którzy uzyskali wynik
20 punktów lub wyższy. Mianowicie: 0,0418 × 203 = 8,49. Liczba 8,49 nie
oznacza oczywiście, że mamy do czynienia z ośmioma i niespełna połową
dziewiątego studenta. Znaczy, raczej, coś w rodzaju „8-9 studentów”. Jest to
spodziewana liczba osób obliczona na podstawie parametrów rozkładu nor-
malnego, który został dobrany jako najlepiej pasujący do danych empirycz-
nych.
Jak widać z histogramu na rysunku 4.17, przewidywanie to nieco odbiega od
rzeczywistości, ponieważ 20 i więcej punktów faktycznie zdobyło 11 stu-
dentów. Różnica między wynikiem przewidywanym a otrzymanym jest więc
dosyć duża.
Skąd się wzięła? Wyjaśniamy w następnym punkcie.
200 PRAWDOPODOBIEŃSTWO I ZMIENNA LOSOWA

ZAPAMIĘTAJ, CZŁOWIEKU! ROZKŁAD NORMALNY JEST ROZKŁADEM ZMIENNEJ LOSOWEJ CIĄGŁEJ

Do tej pory dosyć swobodnie posługiwaliśmy się takimi wyrażeniami, jak:


„wartości wyższe od ...” lub „wartości niższe od ...”, albo „wartości równe
lub większe ...” itd. Z tego sposobu wyrażania się wynikają nawet pewne
niedokładności w oszacowaniu na podstawie rozkładu normalnego liczby
studentów, którzy powinni zdobyć 20 punktów i więcej. Spróbujmy więc to
trochę uporządkować.
Rozkład normalny jest rozkładem ciągłym. Oznacza to, że dla każdych
dwóch wartości X można znaleźć wartość, która się pomiędzy nimi znajduje.
Odnosząc tę uwagę do naszego przykładu, możemy powiedzieć, że w roz-
kładzie standaryzowanym pomiędzy 1,72 a 1,73 znajduje się np. wartość
1,725. Z kolei pomiędzy 1,72 a 1,725 jest – powiedzmy – 1,7225. Można się
tak bawić w nieskończoność. Te drobne różnice przekładają się jednak na
różnice w wielkości pól powierzchni.
Na przykład powierzchnia powyżej z = 1,72 wynosi: 0,0427, a powyżej
z =1,725 wynosi 0,0422. Niby nic, a jednak im dokładniej wyrażony jest
pomiar, tym dokładniej obliczana jest wielkość pola powierzchni. W prakty-
ce dokładność do dwóch miejsc po przecinku jest absolutnie wystarczająca.
Sytuacja jest jednak inna wtedy, gdy jednostki pomiarowe mają nieco „rzad-
szą” skalę. W odniesieniu do wyników z egzaminu, których średnia wynosi
14,68, a odchylenie standardowe – 3,08, różnica jednego punktu odpowiada
1
wielkości = 0,32 odchylenia standardowego.
3,08

Rozkład wyników z egzaminu jest rozkładem skokowym (dyskretnym),


a rozkład normalny jest ciągły. Zamieniając rozkład dyskretny na ciągły,
musimy – w jakimś sensie – wypełnić brakujące wartości pomiędzy punk-
tami. Każdemu pomiarowi w rozkładzie dyskretnym odpowiada nie jedna
liczba, ale cały przedział w rozkładzie ciągłym. Jeżeli dopasowujemy roz-
kład normalny do danych, które zmieniają się co jedną jednostkę, to każdej
jednostce w rozkładzie ciągłym musi odpowiadać przedział w rozkładzie
dyskretnym. Tak właśnie postąpiliśmy wyznaczając prawdopodobieństwo
wypadnięcia 7 orłów w rzucie dziesięcioma monetami (zob. rys. 4.30).
Weźmy pod uwagę liczbę 20 punktów w rozkładzie dyskretnym. Chcąc wy-
razić tę wartość w rozkładzie ciągłym, musimy myśleć o niej nie tyle jako
o jednej liczbie, ile jako o przedziale wokół tej liczby. Przedział ten ma dłu-
gość jednej jednostki, czyli w tym przypadku 1, i jest tak zbudowany, aby
być bliżej 20 niż jakiejkolwiek innej liczby, czyli od 19,5 do 20,5. Tak więc
20 punktom w rozkładzie dyskretnym opowiada przedział 19,5 – 20,5
w rozkładzie ciągłym.
WYNIKI EKSPERYMENTU JAKO ZMIENNA LOSOWA 201

Jeżeli poszukujemy pola powierzchni opowiadającego 20 punktom i więcej,


to konsekwentnie powinniśmy uwzględnić cały przedział opowiadający tej
liczbie punktów. Oznacza to, że poszukujemy pola powyżej dolnej granicy
przedziału 19,5-20,5, czyli nie dla 20, ale dla 19,5 punktu. Wartość ta, wyra-
żona w jednostkach z, wynosi:
19,5 − 14,68
z= = 1,56
3,08
Korzystając z tablicy A, możesz stwierdzić, że pole powierzchni dla warto-
ści wyższych niż 1,56 wynosi 0,0594. Z tego obliczenia wynika, że powyżej
20 punktów można oczekiwać nie 4,18%, ale 5,94% studentów. A zatem
0,0594 × 203 = 12,06 osób. To przewidywanie niewiele odbiega już od rze-
czywistości, ponieważ 20 punktów i więcej faktycznie zdobyło 11 osób.
Dla sportu możemy teraz policzyć, jakie jest przewidywanie dotyczące licz-
by osób, które uzyskają wynik wyższy niż 20. Tym razem w miejsce X-a
podstawimy początek przedziału odpowiadającego 21 punktom, czyli 20,5.
20,5 − 14,68
z= = 1,89
3,08
W rozkładzie normalnym standaryzowanym powierzchnia dla wartości wyż-
szych niż 1,89 wynosi 0,0294. Spośród 203 studentów, więcej niż 20 punk-
tów powinno zatem zdobyć 0,0294 × 203 = 5,96 osób. Ten wynik także nie
odbiega zasadniczo od prawdy – więcej niż 20 punktów zdobyło w sumie
5 studentów.

JAK MYŚLISZ, ILU STUDENTÓW DOSTAŁO DOKŁADNIE 20 PUNKTÓW NA EGZAMINIE?

Obliczenia z ostatniego akapitu łatwo można wykorzystać do sprawdzenia,


ile osób zdobyło dokładnie 20 punktów. Ponieważ 20 rozumiemy jako prze-
dział 19,5–20,5 i wiemy, że powyżej 19,5 jest 5,94% wszystkich obserwacji,
natomiast powyżej 20,5 jest 2,94%, to różnica pomiędzy tymi wartościami
opowiada procentowi osób, które uzyskały dokładnie 20 punktów. Oblicze-
nie jest łatwe: 5,94% – 2,94% = 3%. Trzy procent z 203 studentów to 6,09.
I znowu jest OK, ponieważ 6 studentów zdobyło dokładnie 20 punktów.
Jeżeli tylko potrafimy zamienić wartości początku i końca przedziału na
wartości standaryzowane z, to za pomocą tablicy A i odejmowania możemy
znaleźć proporcję obserwacji dla dowolnego przedziału. Zróbmy to dla
przedziału 19-21 punktów. Dolna granica tego przedziału wynosi 18,5
(uwzględniamy także tych, którzy dostali 19 punktów), a górna 21,5 punk-
tów (uwzględniamy tych, którzy dostali 21 punktów). Wartości z dla obu
tych granic wynoszą:
202 PRAWDOPODOBIEŃSTWO I ZMIENNA LOSOWA

18,5 − 14,68
z= = 1,24
3,08
21,5 − 14,68
z= = 2,21
3,08
Obydwie te wartości zaznaczyliśmy na rysunku 4.34.

Rysunek 4.34. Rozkład nor- 0,40


malny standaryzowany z za- Gęstość prawdopodobieństwa 0,35 powierzchnia
znaczonymi jednostkami pod krzywą normalną
dla X < 18,5
standaryzowanymi z 1,24 0,30
i 2,21
0,25

0,20 p = 0,8925

0,15 powierzchnia
pod krzywą normalną
dla X > 21,5
0,10

0,05 p = 0,0135

0,00
Wyniki -2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,24 1,5 2,0 2,21
standaryzowane
Średnia w rozkładzie danych empirycznych: 14,68 X = 18,5 X = 21,5

Obliczenie pola powierzchni dla przedziału 1,24-2,21 nie jest szczególnie


kłopotliwe. Wystarczy tylko nie pomylić się w dodawaniu albo odejmowa-
niu. Całe pole powierzchni pod krzywą wynosi 1. Od tego pola musimy więc
odjąć wartości, które nas nie interesują, czyli pola powierzchni dla wartości
poniżej 1,24 i dla wartości powyżej 2,21.
Pole powierzchni pod krzywą dla wartości niższych niż 1,24 wynosi 0,8925,
a dla wartości wyższych niż 2,21 – 0,0135. Pole powierzchni dla wartości
pomiędzy 1,24 a 2,21 wynosi więc: 1 – 0,8925 – 0,0135 = 0,094.
Pole to można także obliczyć inaczej. Ponieważ pole powierzchni dla warto-
ści poniżej 2,21 wynosi 0,9864, a pole powierzchni dla wartości poniżej 1,24
wynosi 0,8925, więc powierzchnia między tymi wartościami wynosi 0,0939
(0,9864 – 0,8925 = 0,0939). Różnica 0,0001 między tym a poprzednim obli-
czeniem wynika z zaokrąglenia.
Pole przedziału między dowolnymi dwiema wartościami danych zawsze
można zamienić na procenty i sprawdzić, ile powinno znaleźć się w nim ob-
serwacji zgodnie z przewidywaniem na podstawie dopasowanego rozkładu
normalnego. Dla pola o wielkości 0,094 jest to 9,4%, czyli 0,094 × 203 =
= 19,08 obserwacji. Dodajmy, że w zbiorze wyników z egzaminu 23 studen-
tów uzyskało od 19 do 21 punktów. Tym razem więc faktyczna liczba osób
jest nieco większa, niż wynikałoby to z rozkładu normalnego.
WYNIKI EKSPERYMENTU JAKO ZMIENNA LOSOWA 203

A JEŚLI BYŁBYŚ WŁAŚCICIELEM HOTELU W WENECJI?

Wyobraź sobie, że jesteś właścicielem niewielkiego hotelu tuż obok placu


Świętego Marka w Wenecji. Idealne położenie, liczna, choć wymagająca
klientela i dość wysokie ceny.
Dbasz o swój hotel i chciałbyś wiedzieć, co twoi goście cenią sobie w nim
najwyżej, a co im się nie podoba. Szczególnie niepokoją cię maruderzy, któ-
rzy zawsze na coś narzekają. Ostatnio znowu pojawiło się kilku Brytyjczy-
ków z dopiętymi kołnierzykami, jakiś Austriak i hiszpańska rodzina z szóst-
ką rozkrzyczanych pętaków, a każdemu coś nie odpowiadało: temperatura
wody, sosy sałatkowe lub hałas. Wszystko jedno – wyjadą od Ciebie i będą
gadać głupstwa.
Postanawiasz więc, że dziesięciu procentom gości, którzy najgorzej oceniają
Twój hotel, będziesz dawał specjalny prezent – niewielki, ale dość gustowny
gadżet ulany z kolorowego szkła. Musisz jednak najpierw zrobić małe ba-
danko, żeby się zorientować co do opinii twoich klientów. Każdego z gości
prosisz więc o wypełnienie prostej ankiety, w której na 12 skalach 7-
-punktowych ocenia różne aspekty funkcjonowania hotelu. Najwyższa nota
to 84 punkty, najniższa – 12.
Po zebraniu 100 ankiet postanawiasz je przeanalizować. Obliczasz średnią,
która wynosi 53 punkty, i odchylenie standardowe, które wynosi 12 punk-
tów. Sprawdzasz także, czy można uznać, że rozkład odpowiedzi jest roz-
kładem normalnym (o tym, jak to zrobić, napiszemy w jednej z następnych
części). Ponieważ okazało się, że rozkład wyników jest normalny, spraw-
dzasz, jaki jest najwyższy wynik przyznawany przez 10% klientów, którzy
najgorzej oceniają twój hotel. Krótko mówiąc, chcesz wiedzieć na przy-
szłość, komu dobrze byłoby dać gadżet, po wypełnieniu przez niego ankiety,
a komu nie dawać. Ostatecznie ten kawałek szkła też kosztuje. Twój pro-
blem można zilustrować tak, jak na rysunku 4.35.

Rysunek 4.35. Skrajne 10% 0,40


powierzchni pod rozkładem
Gęstość prawdopodobieństwa

0,35
normalnym N(0; 1)
0,30 powierzchnia
pod krzywą normalną
0,25 dla X > ?

0,20
powierzchnia p = 0,9000
0,15 pod krzywą normalną
dla X < ?
0,10

0,05 p = 0,1000

0,00
Wyniki -2,0 -1,5 ? -1,0 -0,5 0,0 0,5 1,0 1,5 2,0
standaryzowane
X=? 14,68 - Średnia w rozkładzie danych empirycznych
204 PRAWDOPODOBIEŃSTWO I ZMIENNA LOSOWA

Twoim zadaniem jest ustalenie, poniżej jakiego wyniku znajduje się 10%
najmniej zadowolonych klientów twojego hotelu. Znowu trzeba skorzystać z
tablic – tym razem potrzebna jest tablica B, która jest odwrotnością tablicy
A. W lewej kolumnie podana jest tam wielkość pola powierzchni poniżej
wartości z, w środkowej wielkość powierzchni powyżej wartości z, a w pra-
wej odpowiadająca tym powierzchniom wielkość zmiennej standaryzowanej
z. Interesuje cię lewa kolumna. Znajdujesz wiersz odpowiadający po-
wierzchni pod krzywą normalną równą 0,1000 i w ostatniej kolumnie odczy-
tujesz odpowiadającą jej wartość z. Wynosi ona 1,28, ale dopisujesz minus,
ponieważ leży ona na lewo od średniej, czyli –1,28. Pozostaje teraz znaleźć
liczbę punktów odpowiadającą tej wartości w rozkładzie wyników z ankiety
hotelowej o średniej 53 i odchyleniu standardowym 12. Mówiąc dokładniej,
chodzi o wartość, która jest mniejsza od średniej o 1,28 odchylenia standar-
dowego, czyli o 1,28 (wynik standaryzowany) × 12 (odchylenie standardo-
we) = 15,36. Wynik ten oznacza, że 10% najmniej zadowolonych klientów
ocenia Twój hotel co najmniej o 15,36 punktu niżej niż średnia. Ponieważ
średnia równa się 53, więc najwyższa nota, jaką 10% malkontentów jest
skłonnych przypisać twojej usłudze hotelowej, to: 53 – 15,36 = 37,64 punk-
tu. Masz odpowiedź. Każdy gość, który daje nie więcej niż 37-38 punktów,
na otarcie łez powinien dostać coś gratis. Dobrze, że przynajmniej pozosta-
łym 90% gości nie trzeba nic dawać. A skoro im tak dobrze, to może by dla
nich podnieść cenę za nocleg? Byłoby na te kawałki szkła dla nudziarzy.

NO TO PODSUMUJMY

Jeżeli chcesz znaleźć wartość zmiennej X, dla której znasz pole powierzchni
leżącej na prawo lub na lewo od niej, to najpierw w tablicy B musisz znaleźć
wartość z, odpowiadającą znanej ci powierzchni. UWAGA: Jeśli wynik stan-
daryzowany leży poniżej średniej, dopisujesz do niego minus. Znając z,
przemnażasz go przez odchylenie standardowe dla rozkładu zmiennej X,
a otrzymany wynik dodajesz do średniej w tym rozkładzie. Jeśli z był ujem-
ny, to twoje dodawanie automatycznie zamienia się na odejmowanie od
średniej. Procedurę tę możemy zapisać skrótowo w postaci następującego
wzoru:
X i = x + zi × s
Xi poszukiwana wartość zmiennej X,

x średnia w rozkładzie zmiennej X,

wartość wyrażona w jednostkach standaryzowanych, odpowiadająca znanej powierzchni pod


zi
krzywą normalną,
s odchylenie standardowe w rozkładzie zmiennej X.
WYNIKI EKSPERYMENTU JAKO ZMIENNA LOSOWA 205

CZY PAN SŁAWEK MA WYSTARCZAJĄCE POWODY, ŻEBY CIESZYĆ SIĘ Z PODWYŻKI?

Możliwość wyrażenia wartości zmiennej za pomocą jednostek standaryzo-


wanych z ma sens tylko wtedy, gdy rozkład normalny można uznać za dosta-
tecznie dobre przybliżenie rozkładu empirycznego. Aby to zilustrować, sko-
rzystajmy z danych zebranych w Polskim Generalnym Sondażu Społecz-
nym.
Jedno z pytań w tym sondażu dotyczyło wysokości aktualnych zarobków
Polaków. Grupa respondentów pytana o to w roku 1999 oceniała swoje do-
chody średnio na 981 zł i 41 gr. Odchylenie standardowe dla tej zmiennej
wyniosło 649 zł i 34 gr. W roku 2002 średni dochód wynosił 1096 zł i 71gr,
* W obliczeniach uwzględnili- a odchylenie standardowe – 668 zł i 20 gr*. Oba rozkłady oceny własnych
śmy tylko wartości dochodu dochodów są normalne.
mniejsze niż 5000 zł.
Przypuśćmy, że w 1999 roku atletycznie zbudowany pan Sławek zarabiał,
jako ochroniarz w banku, 1234 złote, a trzy lata później – 1468 złotych. Czy
w 2002 roku pan Sławek zarabiał więcej dlatego, że kilka miesięcy temu
własną piersią ochronił panią Anielę – kasjerkę z trzeciego okienka, która
została zaatakowana przez tego pryszczatego draba z Ponurej, czy też zwyż-
ka w jego zarobkach jest rezultatem ciągłego wzrostu płac? Można to
sprawdzić, zamieniając zarobki pana Sławka na wielkości w rozkładzie
normalnym standaryzowanym z. Załatwiają to dwa obliczenia:
1234 − 981,41
z1999 = = 0,39
649,34
1468 − 1096,71
z2002 = = 0,55
668,20
Zarobki pana Sławka w 2002 roku są więc realnie wyższe w porównaniu
z rokiem 1999 – są one wyższe od średniej o większą część odchylenia stan-
dardowego.
Korzystając z tablicy A, możesz również sprawdzić, jak wysoko pan Sła-
womir wspiął się po „drabinie społecznej” w ciągu trzech lat (Sławek to on
był, jak zaczynał). Powierzchnia pod rozkładem normalnym dla wartości
z wyższych od 0,39 wynosi 0,3483, a dla z wyższych od 0,55 wynosi 0,2911.
W roku 2002 pan Sławomir był więc niewątpliwie osobą bogatszą niż w ro-
ku 1999.
III.
WNIOSKOWANIE
STATYSTYCZNE
PODSTAWY WNIOSKOWANIA
5. STATYSTYCZNEGO

5.1. ESTYMACJA, CZYLI OSZACOWANIE

CZY BRAŁEŚ UDZIAŁ W OSTATNICH WYBORACH PREZYDENCKICH?

W Polsce różne głosowania odbywają się dosyć często: raz na cztery lata
mamy wybory parlamentarne i lokalne, a raz na pięć lat wybieramy prezy-
denta. Co jakiś czas odbywają się także referenda, które, podobnie jak wybo-
ry, też wymagają wrzucania kartki do urny. A teraz zastanów się chwilę i po-
wiedz, czy pamiętasz swój udział w ostatnim powszechnym głosowaniu, np.
w wyborach parlamentarnych. Okazuje się, że nie wszyscy biorący w nich
udział dobrze to zapamiętali.
Pytanie o udział w wyborach jest jednym z wielu zadawanych w Polskim
* Cichomski, B., Jerzyński, T., Generalnym Sondażu Społecznym (PGSS), prowadzonym od 1992 roku*.
Zieliński, M. (2003). Polskie W ostatnim badaniu, z roku 2002, zadano pytania dotyczące udziału w ostat-
Generalne Sondaże Społeczne:
skumulowany komputerowy nich wyborach prezydenckich i parlamentarnych (ostatnich oczywiście w
zbiór danych 1992-2002. War- stosunku do momentu, w którym przeprowadzony był ten sondaż). Pytania
szawa: Instytut Studiów Spo-
łecznych, Uniwersytet War-
brzmiały następująco: „Czy brałeś udział w wyborach prezydenckich w roku
szawski. 2000?” oraz „Czy brałeś udział w wyborach parlamentarnych w roku
2001?”. Pytania te zostały zadane reprezentatywnej grupie 2473 dorosłych
Polaków. Spośród nich 1829 osób, czyli 73,9% ankietowanych, stwierdziło,
że wzięły udział w wyborach prezydenckich, a 1502 osoby (tj. 60,7% ankie-
towanych) przyznały się do udziału w wyborach parlamentarnych. Ponieważ
próba osób biorących udział w PGSS jest próbą reprezentatywną dla wszyst-
kich dorosłych Polaków, można więc uznać, że liczby te odzwierciedlają
rzeczywiste przekonanie Polaków pytanych w roku 2002 na temat ich udzia-
łu w wyborach w roku 2000 i 2001.

WIELKOŚĆ PRÓBY A DOKŁADNOŚĆ OSZACOWANIA

Próba badana w 2002 w PGSS jest dość duża, nawet jak na badania socjolo-
giczne, a z pewnością robi wrażenie na studencie psychologii. Gdybyś sam
chciał przeprowadzić podobne badanie, być może, udałoby Ci się zapytać
o udział w wyborach parlamentarnych pięćdziesiąt, może sto osób, ale nie
dwa i pół tysiąca. Mógłbyś się jednak obawiać, że wyniki tak małej grupy
nie będą reprezentatywne dla całej populacji. Nie ma problemu. Łatwo mo-
210 WNIOSKOWANIE STATYSTYCZNE

żemy sprawdzić, czy rozkład odpowiedzi w próbie liczącej np. 100 osób
znacznie się różni od rozkładu wyników w próbie liczącej 2473 osoby.
W tym celu spośród wszystkich odpowiedzi w PGSS, za pomocą programu
komputerowego, wylosowaliśmy podgrupę 100 osób, które mogą reprezen-
tować potencjalnych uczestników Twojego eksperymentu. Jedna z wyloso-
wanych przez nas osób nie pamiętała, czy brała udział w wyborach parla-
mentarnych w 2001 roku, 59 na 100 ankietowanych przyznało się do udziału
w tych wyborach, a 40 – że nie poszło na głosowanie. Porównując proporcje
wyników w całej grupie PGSS i w grupie 100-osobowej, możemy zauważyć,
że niewiele się one od siebie różnią. Różnica wynosi dokładnie 1,7 punktu
procentowego (60,7% – 59% = 1,7%).
Skoro proporcja tych, którzy przyznają się do udziału w wyborach w przy-
padkowej grupie 100 osób, jest niemal taka sama, jak w reprezentatywnej
dla całej populacji grupie liczącej 2473 osób, to – być może – nie trzeba ba-
dać ponad dwóch tysięcy osób, a wystarczy tylko 100. A może nie trzeba ba-
dać nawet 100 osób?
Spośród wszystkich wyników PGSS wylosowaliśmy kolejną grupę, tym ra-
zem 50 ankietowanych. W tej grupie do wzięcia udziału w wyborach parla-
mentarnych w roku 2001 przyznało się 64% osób. W porównaniu z całą pró-
bą PGSS, różnica jest już nieco większa i wynosi 3,3 punktu procentowego
(60,7% – 64% = –3,3%).
Zmniejszyliśmy jeszcze bardziej liczbę osób ankietowanych, do 30. W wy-
losowanej przez komputer (a niech mu będzie) grupie 30-osobowej do wzię-
cia udziału w wyborach przyznało się 43,3% ankietowanych. Tym razem
różnica okazała się już całkiem spora i wyniosła 17,4 punktu procentowego
(60,7% – 43,3% = 17,4%).
Podjęliśmy jednak ryzyko jeszcze większej pomyłki i wylosowaliśmy grupę
liczącą tylko 10 osób badanych. Ku naszemu zaskoczeniu, w tej grupie
wskaźnik tych, którzy przyznali się do wzięcia udziału w wyborach, był
równy 50%. W stosunku do proporcji w całej próbie PGSS różnica wyniosła
10,7% (60,7% – 50,0% = 10,7%), ale – co ciekawsze – była mniejsza niż w
grupie 30-osobowej.

„PRAWO MAŁYCH LICZB”

Istnieje pewna zależność pomiędzy wielkością próby a dokładnością osza-


cowania wartości jakiegoś wskaźnika statystycznego w zbiorowości, z której
została pobrana ta próba. Na przykład oszacowanie procentu osób przyzna-
jących się do udziału w wyborach parlamentarnych w grupie 2473 osób, na
podstawie wyniku uzyskanego w próbie 100-osobowej, jest dosyć dokładne.
PODSTAWY WNIOSKOWANIA STATYSTYCZNEGO 211

Różnica między tymi procentami obliczonymi dla grupy liczącej 100 osób
i 2473 osób wynosi tylko 1,7%. W porównaniu z próbą 50-osobową ta róż-
nica jest już nieco większa, ale i tak znacznie mniejsza niż w porównaniu
z wynikiem w próbie 30-osobowej. Nieco zaskakujące jest jednak to, że pro-
cent osób, które pamiętają swój udział w wyborach, obliczony w próbie
10-osobowej, mniej różni się od wyniku w całej grupie PGSS niż od wyniku
w grupie 30-osobowej. Postanowiliśmy się przyjrzeć temu dokładniej.
W jednej z poprzednich części przypomnieliśmy kilka eksperymentów prze-
prowadzonych przez Daniela Kahnemana i Amosa Tversky’ego oraz ich
współpracowników. Wnioskiem wynikającym z większości tych badań było
stwierdzenie, że ludzie często popełniają błędy, gdy rozwiązują zadania do-
tyczące rachunku prawdopodobieństwa lub zależności statystycznych. Jeden
* Zob. Tversky, A., Kahneman, z takich błędów Kahneman i Tversky nazwali „prawem małych liczb”*, na-
D. (1971). Belief in the law of wiązując do słynnego prawa wielkich liczb, o którym dowiesz się jeszcze w
small numbers. Psychological
Bulletin, 76, 105-110. tym rozdziale. Nawiasem mówiąc, prawo małych liczb wcale nie jest żad-
nym prawem, tylko wygodną nazwą pewnego typu błędu, jaki ludzie popeł-
niają. Błąd ten nie dotyczy liczb małych, np. 1, 2 lub 3, ale liczb występują-
cych w małej grupie. Otóż zgodnie z tym prawem ludzie spodziewają się, że
prawidłowości statystyczne dotyczące dużej grupy obserwacji powinny się
ujawnić również w małej próbie, oczywiście pod warunkiem, że mała próba
zostanie losowo dobrana z grupy dużej. Zilustrujemy to oryginalnym przy-
kładem z badań przeprowadzonych przez Tversky’ego i Kahnemana. Popro-
sili oni uczestników posiedzenia Grupy Psychologii Matematycznej o roz-
wiązanie następującego zadania:
Załóżmy, że średni iloraz inteligencji dzieci w ostatniej klasie szkoły pod-
stawowej w pewnym mieście wynosi 100. Do badań wylosowano grupę 50
dzieci. Iloraz pierwszego z badanych wyniósł 150. Jaki będzie średni iloraz
w całej 50-osobowej grupie dzieci?
Jaką usłyszeli odpowiedź? Oczywiście – 100. Jest ona jednak błędna. Nie
ma bowiem żadnej pewności, że zależność, która zachodzi w całej populacji,
w takim samym stopniu będzie widoczna w każdej grupie wylosowanej z tej
populacji. Oznacza to np., że średnia w grupie 50 dzieci wcale nie musi być
taka sama jak średnia w całej populacji. A nawet jeśli przyjmiemy, że tak
jest, to możemy odnieść to założenie tylko do ilorazów 49 dzieci, których
jeszcze nie zbadaliśmy. Jeżeli przyjmiemy, że iloraz w grupie 49 dzieci jest
taki sam jak w populacji, czyli wynosi 100, to zważywszy na wysoki ilo-
raz pierwszego zbadanego dziecka, średni iloraz inteligencji w grupie
50-osobowej musi być wyższy niż 100. Wynika to z obliczenia średniej wa-
żonej, w której do licznika wpiszemy sumę iloczynu 49 dzieci, co do których
zakładamy, że mają iloraz inteligencji równy 100, oraz jednego wyniku 150,
a do mianownika – liczbę wszystkich badanych dzieci, czyli 50:
212 WNIOSKOWANIE STATYSTYCZNE

49 × 100 + 1 × 150
xw = = 101
50
Tversky i Kahneman dali wiele podobnych zadań członkom Grupy Psycho-
logii Matematycznej i w większości przypadków odpowiedzi ekspertów,
niestety, również były błędne.

POWTARZAMY LOSOWANIE MAŁYCH PRÓB

Z badań Tversky’ego i Kahnemana wynika, że ludzie często ulegają złudze-


niu, myśląc, że prawidłowości dotyczące dużych grup zachodzą także w ma-
łych zbiorach obserwacji. Innym przykładem takiego sposobu myślenia jest
typowanie liczb w LOTTO. Ponieważ w tej grze każda zakreślana liczba ma
jednakową szansę wypadnięcia, większość graczy myśli, że w każdym loso-
waniu wynik powinien odzwierciedlać ten losowy charakter. W efekcie nie-
mal wszyscy skreślają liczby rozrzucone po całym kuponie, a tylko nieliczni
skreślają liczby, które znajdują się obok siebie.
Co z tych rozważań wynika dla naszego przykładu z udziałem Polaków
w wyborach? Przede wszystkim to, że liczebność wylosowanej grupy nie da-
je stuprocentowej gwarancji, iż układ proporcji tych, którzy głosowali,
i tych, którzy nie głosowali w ostatnich wyborach parlamentarnych, będzie
taki sam jak w całej próbie 2473 osób.
Jeżeli więc spośród wszystkich uczestników PGSS wylosujemy 10 osób, to
ich wynik „powie” nam coś o osobach, które znalazły się w tej próbie, a nie-
koniecznie o wynikach wszystkich ankietowanych. Łatwo to zrozumiesz,
gdy z całej próby PGSS wylosujesz nie jedną, ale np. 10 grup po 10 osób
badanych. Na rysunku 5.1 przedstawiliśmy wynik takiego losowania.
Rysunek 5.1. Rozkład
proporcji osób (w procen-
tach), które potwierdziły, że 3
wzięły udział w wyborach
parlamentarnych w roku
2001. Wyniki pochodzą z 10
prób 10-osobowych. Na osi
Liczba próbek

poziomej przedstawiony jest 2


procent głosujących w każdej
grupie, a na osi pionowej
liczba próbek, w których taki
procent osób przyznał się do
1
głosowania [STATISTICA]

0
30 40 50 60 70 80
Procent tych, którzy wzięli udział w wyborach, w próbach 10-osobowych
PODSTAWY WNIOSKOWANIA STATYSTYCZNEGO 213

Przyglądając się histogramowi przedstawionemu na rysunku 5.1, można zro-


zumieć, dlaczego „prawo małych liczb” jest złudzeniem. Na 10 próbek, jakie
wylosowaliśmy spośród wszystkich danych PGSS, tylko w 3 próbkach pro-
porcja osób przyznających się do wzięciu udziału w wyborach parlamentar-
nych w roku 2001 wyniosła 60%, czyli była podobna do proporcji w całej
próbie PGSS, tj. – przypomnijmy – 60,7%. Proporcje w pozostałych siedmiu
próbkach w większym lub mniejszym stopniu różniły się od proporcji dla ca-
łej grupy. W jednej różnica wynosiła nawet ponad 30 punktów procento-
wych, a w trzech ponad 20. To czysty przypadek, że w pierwszej wylosowa-
nej przez nas 10-osobowej próbce proporcja tych, którzy pamiętali swój
udział w wyborach, różniła się tylko o 10% od proporcji w całej grupie an-
kietowanych w PGSS.

ILE TO JEST „MAŁO”, CZYLI KIEDY MOŻNA ZAPOMNIEĆ O PRAWIE MAŁYCH LICZB?

Dysponując komputerem i odpowiednio dużym zbiorem danych, można się


zabawiać, losując dowolne liczby prób o dowolnej liczbie elementów. Ze
znanego Ci już zbioru wyników PGSS wylosowaliśmy również dziesięć
30-osobowych prób, proporcje zaś tych, którzy pamiętają, że głosowali
w wyborach w roku 2001, prezentujemy na rysunku 5.2.
Rysunek 5.2. Rozkład
proporcji osób (w procen-
5
tach), które wzięły udział
w wyborach parlamentarnych
w roku 2001. Wyniki dla 10
4
prób 30-osobowych
[STATISTICA]
Liczba próbek

0
45 50 55 60 65 70
Procent tych, którzy wzięli udział w wyborach, w próbach 30-osobowych

Rozkład próbek na rysunku 5.2, nie jest tak symetryczny, jak wykres pro-
porcji osób biorących udział w wyborach dla próbek 10-elementowych
przedstawiony na rysunku 5.1. Na podstawie rysunku 5.2 także jednak moż-
na stwierdzić, że prawo małych liczb jest złudzeniem. Nie można oczekiwać,
że prawidłowość charakterystyczna w całej grupie wyników PGSS objawi
się w każdej próbie wylosowanej z tej grupy. Pierwszy słupek po lewej stro-
nie na rysunku 5.2 oznacza jedną próbę 30-elementową, w której procent
214 WNIOSKOWANIE STATYSTYCZNE

osób przyznających się do udziału w wyborach wyniósł tylko 42,5%, a więc


jest znacznie niższy niż w całej próbie PGSS. Zauważ, że na 10 próbek, tyl-
ko proporcja w jednej z nich była bardzo podobna do proporcji w całej gru-
pie ankietowanych.
Na rysunku 5.3 przedstawiamy proporcje osób przyznających się do udziału
w wyborach w 10 próbach liczących po 50 osób, a na rysunku 5.4 – w 10
próbach po 100 ankietowanych.
Rysunek 5.3. Rozkład
proporcji osób (w procen-
5
tach), które wzięły udział
w wyborach parlamentarnych
w roku 2001. Wyniki dla 10
4
prób 50-osobowych
[STATISTICA]
Liczba próbek

0
50 55 60 65 70 75 80
Procent tych, którzy wzięli udział w wyborach, w próbach 50-osobowych

Rysunek 5.4. Rozkład


proporcji osób (w procen-
tach), które wzięły udział 3
w wyborach parlamentarnych
w roku 2001. Wyniki dla 10
prób 100-osobowych
[STATISTICA]
Liczba próbek

0
52 53 54 55 56 57 58 59 60 61 62 63 64 65
Procent tych, którzy wzięli udział w wyborach, w próbach 100-osobowych

Podsumowując przeprowadzone analizy rozkładów wyników na podstawie


40 wylosowanych próbek o różnej liczebności, warto zwrócić uwagę na trzy
charakterystyczne cechy przedstawione na rysunkach 5.1 – 5.4:
• po pierwsze, niezależnie od liczebności prób, na każdym wykresie moż-
na wskazać na takie próby, w których procent osób przyznających się do
PODSTAWY WNIOSKOWANIA STATYSTYCZNEGO 215

udziału w wyborach parlamentarnych znacznie się różni od odpowiada-


jącego mu procentu osób w całej grupie PGSS (choć trzeba również
przyznać, że w próbach 100-osobowych te różnice są mniejsze niż w
próbach mniej licznych),
• po drugie, bez względu na liczebność prób, na każdym wykresie zazna-
czone są zarówno próbki, których wynik jest wyższy, jak i takie, których
wynik jest niższy od wyniku dla całej grupy PGSS,
• po trzecie, bez względu na liczebność prób, mniej jest próbek, w których
proporcja osób przypominających sobie swój udział w wyborach znacz-
nie się różni od proporcji w całej grupie PGSS, niż tych, w których obie
te proporcje są do siebie podobne (oczywiście to spostrzeżenie ma sens
tylko wtedy, gdy zgodzimy się na jakąś koncepcję podobieństwa dwóch
proporcji).

PRAWO WIELKICH LICZB JAKUBA BERNOULLIEGO

„Prawo małych liczb” w istocie jest nazwą złudnej tendencji do poszukiwa-


nia w małych zbiorach danych zależności, które są właściwe dużym zbio-
rom. Statystycznym prawem przez duże „P” jest prawo wielkich liczb. Jest
ono jedną z podstawowych zasad rachunku prawdopodobieństwa i głosi, że:
Jeżeli z dowolnej populacji X wylosuje się wiele próbek o tej samej liczebno-
ści n-elementowej i dla każdej z tych próbek obliczy się średnią arytmetyczną, to
prawdopodobieństwo, że średnia arytmetyczna z tych średnich będzie taka sama jak
średnia w populacji X, zbliża się do 1 wraz ze wzrostem liczebności tych próbek.
Zanim przetłumaczymy to prawo na „zwykły język”, warto zapamiętać, że
po raz pierwszy zostało ono sformułowane przez, wspomnianego już przy
Jakub Bernoulli innej okazji, Jakuba Bernoulliego. W dowód uznania dla jego autora, na-
(1654-1705) zwano je prawem wielkich liczb Bernoulliego, choć tak naprawdę zostało
ono opublikowane dopiero w 1913 roku, czyli ponad 200 lat po jego śmierci.
Jakub Bernoulli zmarł w roku 1705.
W tej wersji, w której je podaliśmy, nosi ono również nazwę prawa Chin-
czyna, ale ponieważ niezależnie od wersji, zawsze kojarzone jest z nazwi-
skiem Bernoulliego, więc niech tak pozostanie również i w naszym
* Kendall, M. G., Auckland, W. przewodniku*.
R. (1986) Słownik terminów sta-
tystycznych. Warszawa: Pań- A teraz kilka słów wyjaśnienia. Populacją X w naszym przykładzie są odpo-
stwowe Wydawnictwo Ekono- wiedzi wszystkich uczestników PGSS na pytanie, czy wzięli udział w wybo-
miczne.
rach parlamentarnych w roku 2001. Liczebność n – to oczywiście liczebność
próbek, które wylosowaliśmy z tej populacji. Gdybyśmy przyjęli, że n = 30,
wówczas pierwsza część prawa Bernoulliego w zastosowaniu do omawiane-
go przykładu brzmiałaby tak:
216 WNIOSKOWANIE STATYSTYCZNE

Jeżeli z populacji odpowiedzi udzielonych przez wszystkich uczestników PGSS na


pytanie, czy wzięli udział w wyborach parlamentarnych w roku 2001, wylosuje się
10 próbek o tej samej liczebności 30-elementowej [...].
Następna część prawa dotyczy obliczenia średniej arytmetycznej. W naszym
przykładzie dla każdej próbki policzyliśmy, ile osób zapamiętało, że brało
udział w wyborach, w stosunku do wszystkich udzielających odpowiedzi na
to pytanie. Jeżeli np. na 30 osób ankietowanych 12 pamiętało ten fakt, to
12
powiemy, że , czyli 0,4, lub inaczej 40% (0,4 × 100% = 40%) badanych
30
pamiętało, że brało udział w wyborach. Zauważ, że iloraz równy 0,4, będący
wynikiem podzielenia liczby pamiętających przez liczbę wszystkich, może-
my również uznać za średnią arytmetyczną tego zbioru. Wystarczy, że od-
powiedź każdego, kto twierdził, że wziął udział w wyborach, zamienimy na
„1”, a każdej osobie, która nie wzięła udziału, nie pamięta lub odmówiła od-
powiedzi, przypiszemy „0”. Wówczas obliczając średnią, otrzymamy do-
kładnie taki sam wynik, jak obliczając proporcję odpowiedzi „tak” do
wszystkich odpowiedzi w grupie.
12 12 × 1 + 18 × 0
= = 0,4
30 30
Odtąd proporcje osób przyznających się do głosowania w każdej z analizo-
wanych prób będziemy również nazywać średnimi dla tych prób.
Zgodnie z prawem wielkich liczb, średnia z tych średnich zbliża się do śred-
niej w populacji tym bardziej, im większe są liczebności próbek wylosowa-
nych z całej populacji. Tak więc dla naszego przykładu druga część prawa
Bernoulliego brzmi:
[...] i dla każdej z tych próbek obliczy się średnią arytmetyczną (czyli proporcję
tych, którzy pamiętali swój udział w wyborach parlamentarnych w 2001 roku,
w stosunku do wszystkich osób w grupie), to prawdopodobieństwo, że średnia
arytmetyczna z tych średnich (proporcji) będzie taka sama jak średnia (proporcja)
w populacji X, zbliża się do 1 wraz ze wzrostem liczebności tych próbek.
Innymi słowy, im większa jest liczebność próbek (50, 100, 200 itd.), tym
większe prawdopodobieństwo, że średnia ze średnich obliczonych dla
wszystkich tych próbek będzie taka sama jak średnia w całej populacji, czyli
dla 2473 osób ankietowanych w PGSS.

CO TO ZNACZY, ŻE ŚREDNIA ZE ŚREDNICH ZBLIŻA SIĘ DO ŚREDNIEJ W POPULACJI?

Prawo wielkich liczb dotyczy średniej ze średnich obliczonych dla pewnej


liczby próbek. Zbiór takich średnich nazywa się rozkładem z próby i różni
się on od rozkładu w próbie i rozkładu w populacji. Rozkład w próbie to
PODSTAWY WNIOSKOWANIA STATYSTYCZNEGO 217

zbiór konkretnych wyników, np. odpowiedzi na jakieś pytanie, które zgro-


madziliśmy w wyniku badań. Średnia arytmetyczna rozkładu w próbie jest
jedną ze średnich w rozkładzie z próby. Z kolei rozkład w populacji to
zbiór wszystkich możliwych wyników pochodzących od osób tworzących
całą populację. Oczywiście na ogół nie znamy tych wyników. Nie znamy
również średniej w populacji. Na podstawie prawa wielkich liczb wiemy
o niej tylko tyle, że jest taka sama jak średnia w rozkładzie z próby.
W naszych dotychczasowych analizach sprawdzaliśmy, jakie są proporcje
Polaków, którzy pamiętali, że wzięli udział w wyborach parlamentarnych
w roku 2001, w 40 próbkach, 10-, 30-, 50- i 100-osobowych. Średnia aryt-
metyczna ze średnich w każdej z tych czterech grup jest następująca:
• dla 10 próbek 10-elementowych wynosi 0,56, czyli 56%,
• dla 10 próbek 30-elementowych wynosi 0,616, czyli 61,6%,
• dla 10 próbek 50-elementowych wynosi 0,646, czyli 64,6%,
• dla 10 próbek 100-elementowych wynosi 0,588, czyli 58,8%.
Porównując ze sobą te średnie czy procenty, można zauważyć, że nie cał-
kiem są one zgodne z prawem wielkich liczb. W całej populacji 60,7% an-
kietowanych przyznało się do głosowania. Średnia z proporcji dla próbek
10-elementowych różni się od średniej w populacji o 4,7 punktu procento-
wego, dla próbek 30-elementowych – o 0,9 punktu, dla próbek 50-elemento-
wych – o 3,9 punktu i dla próbek 100-elementowych – o 1,9 punktu. Gdyby
więc nie 10 próbek 30-elementowych, pozostałe trzy grupy potwierdzałyby
zasadę opisaną przez Bernoulliego – im większa liczebność próbek, tym
bardziej średnia ze średnich z tych próbek zbliża się do średniej w populacji.
• Po pierwsze, nie ma co się zanadto przejmować tym, że przybliżenie
wyników 2473 ankietowanych przez losowy podzbiór 300 osób (10 prób
po 30 osób) jest lepsze, niż można by się tego spodziewać. Wciąż jeste-
śmy tylko w obszarze wyników losowych. Oznacza to, że gdybyśmy
jeszcze raz wylosowali z populacji dziesięć 30-elementowych próbek,
wówczas prawdopodobnie średnia obliczona dla ustalonych w nich pro-
porcji byłaby nieco inna niż obecnie.
• Po drugie, prawo Bernoulliego określa raczej pewien dominujący kieru-
nek, a nie zależność, która musi wystąpić za każdym razem. Mniej wię-
cej to właśnie znaczy sformułowanie: „[...] prawdopodobieństwo, że
średnia ze średnich zbliża się do średniej w populacji, zbliża się do 1”.
Wraz ze wzrostem wielkości próby mamy większą szansę (czyli większe
jest prawdopodobieństwo), że średnia ze średnich będzie bliska średniej
w populacji. Zwiększanie liczebności próby zwiększa więc prawdopo-
dobieństwo „trafienia” w średnią w populacji, ale nigdy nie daje stupro-
centowej pewności. Wraz ze wzrostem wielkości próby, po prostu coraz
218 WNIOSKOWANIE STATYSTYCZNE

mniej prawdopodobne staje się pechowe znalezienie takiej próby, w któ-


rej średnia będzie istotnie się różnić od średniej w populacji. Jak zawsze
jednak, gdy chodzi o prawdopodobieństwo, nawet mało prawdopodobne
zdarzenie jest możliwe.

ESTYMACJA, CZYLI OSZACOWANIE

W przykładzie dotyczącym Polaków przyznających się do wzięcia udziału


w wyborach parlamentarnych porównaliśmy wyniki w małych próbkach
z wynikiem w całym zbiorze danych PGSS. Przykład ten potraktowaliśmy
jako porównanie tego, co wiemy o wyniku w próbie, z wynikiem w całej po-
pulacji. Osoby biorące udział w PGSS są próbą reprezentatywną dla wszyst-
kich dorosłych Polaków, ale przecież nie są całą populacją.
Nic nie stoi jednak na przeszkodzie, aby założyć, że interesuje nas wyłącznie
populacja osób, które wzięły udział w PGSS w roku 2002. Jeżeli tak zdefi-
niujemy populację i chcemy wiedzieć, ile osób z tej populacji przyznało się
do udziału w wyborach parlamentarnych w roku 2001, to jesteśmy w bardzo
wygodnej sytuacji, bo mamy dostęp do wszystkich wyników. Wiemy, że
proporcja tych, którzy przyznali się do udziału w wyborach, do tak zdefi-
niowanej populacji wynosi 0,607, czyli 60,7%.
W praktyce jednak bardzo rzadko mamy dostęp do danych na temat całej po-
pulacji. Jedyne, co możemy zrobić, to zaprosić do udziału w eksperymencie
tylko pewną grupę osób z tej populacji. I wówczas, jeżeli chcemy coś wie-
dzieć na temat populacji, opieramy się na wynikach osób biorących udział
w naszym badaniu. Takie oszacowywanie wiedzy na temat populacji na pod-
stawie próby nazywa się estymacją. Słowo „estymacja” pochodzi z łaciny
(aestimatio) i oznacza „ocenę” lub „oszacowanie”.

STATYSTYKI PRÓBY, PARAMETRY POPULACJI

Jak na podstawie próby oszacować procent Polaków, którzy przyznają się do


głosowania w wyborach do parlamentu w roku 2001? Najprostszym rozwią-
zaniem byłoby uznanie, że proporcja w całej populacji jest taka sama, jak
proporcja w wylosowanej próbie. Pomyślmy jednak – gdyby przyjąć, że
wszystkie wyniki PGSS obejmują całą populację, to którą z 40 wylosowa-
nych prób należy uznać za tę, na podstawie której moglibyśmy oszacować
proporcję głosujących w populacji uczestników badania PGSS?
Niezłe pytanie, choć z praktycznego punktu widzenia jest błędnie postawio-
ne. Otóż w praktyce na ogół dysponujemy tylko jedną próbą wylosowaną
z całej populacji, a nie np. czterdziestoma. Jeżeli więc w naszym ekspery-
mencie wzięło udział 10 osób, to na podstawie wyników tej grupy musimy
PODSTAWY WNIOSKOWANIA STATYSTYCZNEGO 219

oszacować to, co chcielibyśmy wiedzieć na temat całej populacji. Jeżeli zaś


wylosowaliśmy 50 osób, to przeprowadzimy oszacowanie, czyli estymację,
na podstawie wyników tych 50 osób. Do tej pory zabawialiśmy się w loso-
wanie wielu próbek tylko po to, by wyjaśnić prawo wielkich liczb Bernoul-
liego. W rzeczywistości niemal zawsze losuje się tylko jedną próbkę. Wiemy
tylko tyle, że im będzie liczniejsza, tym lepiej.
Gdybyśmy potraktowali jako jedną próbę wszystkie wyniki czterdziestu lo-
sowań z całej grupy danych PGSS, wówczas liczyłaby ona 1900 obserwacji
(10 × 10 + 10 × 30 + 10 × 50 + 10 × 100 = 1900). Taka próba byłaby już
niewiele mniejsza od całej populacji i możemy się spodziewać, że średnia
dla wszystkich tych osób nie powinna istotnie odbiegać od średniej dla całej
populacji. Tak jest w istocie. Po obliczeniu średniej dla próby 1900 osób
okazuje się, że wynosi ona 60,62%, czyli niemal tyle samo, co w całej popu-
lacji (60,7%).
Przyjrzyjmy się jednak Twojej sytuacji jako badacza. Wygląda ona mniej
więcej tak: zgromadziłeś wyniki dotyczące jakiejś próby i na ich podstawie
chcesz dowiedzieć się czegoś o całej populacji, z której ta próba pochodzi.
Dla próby możesz policzyć różne wskaźniki statystyczne. Wiesz, że analo-
giczne wskaźniki mógłbyś również policzyć dla całej populacji, ale nie masz
dostępu do wszystkich tych danych. Zróbmy więc pewne rozróżnienie.
Wskaźniki, które możesz obliczyć dla próby, nazwijmy statystykami, a od-
powiadające im wskaźniki dotyczące populacji nazwijmy parametrami po-
pulacji. Takie określenia, jak „średnia arytmetyczna”, „wariancja”, „media-
na”, „modalna” itd., mogą więc odnosić się zarówno do próby, jak i do po-
pulacji. Do tej pory, oznaczając wszystkie te statystyki opisowe, używaliśmy
następujących symboli (patrz tabela 5.1):

Tabela 5.1. Symbole stoso- Wskaźnik statystyczny Symbol


wane na oznaczenie statystyk
opisowych dotyczących zbio- Średnia arytmetyczna x
ru danych
Mediana lub kwartyl drugi xe lub Q2
Pierwszy i trzeci kwartyl Q1 i Q3
2
Wariancja s
Odchylenie standardowe s
Odchylenie przeciętne δ
Odchylenie ćwiartkowe Q
Rozpiętość R

Wszystkie te symbole oznaczały dotąd różne statystyki opisowe, dotyczące


opisywanego zbioru danych. Ponieważ jednak takim zbiorem danych może
być zarówno próba, jak i populacja, wobec tego w statystyce przyjęło się
220 WNIOSKOWANIE STATYSTYCZNE

używać innych symboli na oznaczenie statystyk dla próby, a innych na


oznaczenie parametrów populacji (zob. tab. 5.2)*.

Tabela 5.2. Symboliczne Określenie słowne Statystyka próby Parametr populacji


oznaczenie statystyk próby
i parametrów populacji Średnia x lub M µ

Mediana lub kwartyl drugi xe , Me lub Q2 µ0,5

Pierwszy i trzeci kwartyl Q1, Q3 P0,25, P0,75


2
σ
2
Wariancja s

* Więcej oznaczeń dla próby Odchylenie standardowe s σ


i populacji można znaleźć w: Odchylenie przeciętne δ δ
Góralski, A. (1987). Metody opi-
su i wnioskowania statystyczne- Odchylenie ćwiartkowe Q Q
go w psychologii i pedagogice.
Rozpiętość R R
Warszawa: PWN.

ESTYMATORY

Wróćmy do naszego pytania, jak na podstawie próby oszacować procent Po-


laków, którzy przyznają się do głosowania w wyborach do parlamentu w ro-
ku 2001, wówczas gdy mamy do czynienia tylko z próbą wylosowaną z po-
pulacji. Prawdę mówiąc, mamy niewielki wybór i pozostaje nam uznać, że
średnia obliczona dla tej próby jest najlepszym oszacowaniem średniej w ca-
łej populacji. Przyjrzyjmy się jednak nieco uważniej średniej w próbie pod
tym kątem.
Każdą statystykę, którą wykorzystujemy do oszacowania, czyli estymacji
parametru populacji, nazywamy estymatorem danego parametru. Czy śred-
nia obliczona dla próby może być estymatorem średniej w populacji? Wiele
wskazuje na to, że może być, ponieważ spełnia ona trzy cechy dobrego es-
tymatora.
• Po pierwsze, średnia obliczona dla próby jest estymatorem nieobciążo-
nym. Estymator nazywamy nieobciążonym wtedy, gdy jest wolny od
tzw. błędów systematycznych. Oznacza to, że jego wartość jest w ja-
kimś sensie wypadkową nadmiaru i niedomiaru, z jakim oszacowuje pa-
rametr w populacji. Jak pamiętasz, średnia arytmetyczna ma taką war-
tość, że suma odchyleń wszystkich danych leżących od niej na prawo
i na lewo równa się 0. W tym właśnie sensie powiemy, że średnia aryt-
metyczna, jako estymator nieobciążony, oszacowuje parametr populacji
z nadmiarem i z niedomiarem.
• Po drugie, średnia obliczona dla próby jest efektywnym estymatorem
średniej w populacji. Fakt, że jakiś estymator nie jest obciążony syste-
matycznym błędem, nie gwarantuje jeszcze bezbłędności oszacowania.
Drugim warunkiem, jaki stawia się estymatorowi, jest jego efektywność.
PODSTAWY WNIOSKOWANIA STATYSTYCZNEGO 221

Oznacza ona minimalizację błędu oszacowania. Mówiąc inaczej, esty-


mator powinien mieć jak najmniejszy rozrzut, czyli wariancję. Zdarza
się, że średnia i mediana obliczone dla próby mają taką samą wartość,
a jednak to średnia dla tej próby jest lepszym estymatorem średniej
w populacji niż mediana, dlatego że rozkład średnich z próby ma mniej-
* Greń, J. (1987). Statystyka ma- szą wariancję. Jak zauważa Jerzy Greń*, wykorzystanie mediany jako
tematyczna. Podręcznik progra- estymatora średniej w populacji oznaczałoby utratę efektywności o oko-
mowany. Warszawa: PWN.
ło 38%. Oznacza to, że dla tej samej wielkości próby rozrzut median
jest o 38% większy niż rozrzut średnich.
• Po trzecie, średnia obliczona dla próby jest estymatorem zgodnym. Es-
tymator nazywa się zgodnym wtedy, gdy wraz ze wzrostem wielkości
próby zwiększa się prawdopodobieństwo, że jego wartość zbliża się do
wartości oszacowywanego parametru. Definicja ta znaczy mniej więcej
to samo, co prawo wielkich liczb Bernoulliego. Można powiedzieć, że
estymator zgodny to taki, który podlega prawu wielkich liczb. Warunek
zgodności estymatora ma duże znaczenie praktyczne: jeżeli estymator
jest zgodny, to warto inwestować w pobieranie większych próbek, bo
wtedy zmniejsza się prawdopodobieństwo błędnego oszacowania para-
metru populacji.
Średnia arytmetyczna dla próby spełnia wszystkie trzy opisane wyżej wa-
runki dobrego estymatora. Wszystko to można matematycznie udowodnić,
ale odpowiednie dowody sobie darujemy. Jeśli masz ochotę, znajdziesz je
np. w cytowanym już podręczniku Jerzego Grenia.

KWANTYLE W PRÓBIE JAKO ESTYMATORY KWANTYLI W POPULACJI

Kwantyle to ogólna nazwa wszystkich miar pozycyjnych, takich jak me-


diana, kwartyle, decyle, centyle itd. Okazuje się, że wszystkie te wskaźniki
obliczone dla konkretnej próby są najlepszymi estymatorami dla odpowiada-
jących im wskaźników dotyczących populacji, to znaczy takimi, które są
nieobciążone, efektywne i zgodne. Podobnie jak w przypadku średniej, nie
będziemy przytaczać dowodów matematycznych, że tak właśnie jest, a za-
miast tego proponujemy dowód empiryczny.
Jednym z pytań, jakie zadano Polakom w Polskim Generalnym Sondażu
Społecznym, była prośba o to, by ocenili, ile średnio godzin w ciągu tygo-
dnia poświęcają na pracę. Na to pytanie odpowiedziało 1047 osób (odrzuci-
liśmy tych, którzy nie pracują, i tych, którzy odmówili udzielania odpowie-
dzi). Podobnie jak w przypadku pytania o udział w wyborach, także w od-
niesieniu do tego pytania wylosowaliśmy próbę 50 odpowiedzi z całego
zbioru danych PGSS. Przypuśćmy, że tych 50 obserwacji to wyniki grupy
osób badanych, które pochodzą z populacji liczącej 1047 osób pracujących.
W tabeli 5.3 zestawiliśmy wartości statystyk pozycyjnych dla tej próby i od-
222 WNIOSKOWANIE STATYSTYCZNE

powiadających im parametrów dla całej populacji PGSS, a ponadto dopisali-


śmy średnią arytmetyczną dla próby i populacji.
Tabela 5.3. Porównanie Parametry populacji
wartości statystyk z próby Określenie słowne Statystyki próby (N = 50)
(N = 1047)
i parametrów populacji dla
zmiennej: przeciętny czas Średnia x = 42,44 µ = 44,55
pracy w tygodniu na podsta-
wie danych PGSS Mediana xe = 40,5 µ0,5 = 42

Pierwszy kwartyl Q1 = 40 P25 = 40


Trzeci kwartyl Q3 = 47 P75 = 50
Dziesiąty centyl p10= 25 P10= 30
Dziewięćdziesiąty centyl p90= 62 P90= 60

Nie powinieneś się dziwić temu, że niemal wszystkie miary dla próby i dla
populacji nieco różnią się od siebie. Estymator, czyli konkretna liczba wyli-
czona dla próby, jest tylko przybliżeniem estymowanego parametru. Oczy-
wiście najczęściej nie wiemy, jaka jest rzeczywista wartość tego parametru.
Porównując jednak ze sobą statystyki i parametry z tabeli 5.3, dojdziemy do
wniosku, że nie popełnilibyśmy zbyt wielkiego błędu, zakładając, że np.
mediana w populacji wynosi 40,5, a nie 42, jak jest naprawdę.
Przy okazji warto podkreślić, że osoby biorące udział w sondażu trochę
chciały olśnić ankieterów i zawyżyły nieco swoją pracowitość. Fakt, że
pierwszy kwartyl wynosi 40 godzin, oznacza, że tylko 25% Polaków pracuje
mniej niż 8 godzin dziennie (zakładając, że tydzień pracy ma 5 dni). Co wię-
cej, okazuje się, że aż 50% Polaków pracuje od 8 do 10 godzin dziennie –
wartość trzeciego kwartyla wynosi 50 godzin, co po podzieleniu na 5 dni da-
je 10 godzin dziennie. Środkowe 50% wszystkich obserwacji, czyli liczba
osób badanych „pomiędzy” pierwszym i trzecim kwartylem, ocenia swój
czas pracy na 8 do 10 godzin dziennie.
Czyżbyśmy byli aż tak pracowici?

CZY WARIANCJA Z PRÓBY JEST DOBRYM ESTYMATOREM WARIANCJI Z POPULACJI?

Dziwne pytanie. Skoro średnia w próbie jest najlepszym estymatorem śred-


niej w populacji, a mediana w próbie jest najlepszym estymatorem mediany
w populacji, to dlaczego wariancja w próbie nie miałaby być najlepszym es-
tymatorem wariancji w populacji? Ponieważ jednak zadaliśmy takie pytanie,
więc możesz przypuszczać, że nie zrobiliśmy tego bez powodu i tkwi w tym
jakiś haczyk. Oczywiście masz rację.
Otóż wariancja obliczona dla próby wcale nie jest najlepszym estymatorem
wariancji w populacji, a to dlatego, że jest estymatorem obciążonym. Nie
PODSTAWY WNIOSKOWANIA STATYSTYCZNEGO 223

będziemy Cię męczyć odpowiednimi obliczeniami, które zajęłyby ze dwie


linijki symboli, ale pokrótce objaśnimy Ci, co z nich wynika.
Okazuje się, że wariancja z próby, wyliczona według znanego Ci wzoru:
n

∑(X i − x) 2
s2 = i =1

n
przeciętnie nie doszacowuje wariancji w populacji o wielkość równą:
σ2
n
s2 (czytaj: „s kwadrat”) wariancja w próbie,

σ2 (czytaj: „sigma kwadrat”) wariancja w populacji,

n liczba wszystkich obserwacji w próbie,


Xi wartość kolejnego, i-tego pomiaru,

x średnia arytmetyczna,
n


i =1
suma n wartości danych.

W celu wykazania, że wariancja w próbie rzeczywiście nie doszacowuje


wartości wariancji w populacji, wykorzystamy dane pochodzące z dziesięciu
50-osobowych prób Polaków przyznających się do głosowania w wyborach
parlamentarnych w roku 2001. Populacją, z której te dane pochodzą, jest
oczywiście cała grupa badanych za pomocą PGSS, czyli w sumie 2473 oso-
by. Dysponując kompletnym zestawem danych, bez trudu możemy obliczyć
wariancję dla całej populacji. Udział w wyborach pamiętały 1502 osoby,
a innych odpowiedzi („nie”, „nie pamiętam” lub odmowa) udzieliło w sumie
971 osób. Po zamianie danych na jedynki i zera, średnia w całej populacji
⎛ 1502 × 1 + 971 × 0 ⎞
wynosi więc 0,607 ⎜ = 0,607 ⎟ . Znając średnią, możemy
⎝ 2473 ⎠
policzyć wariancję w populacji:
1502 × (1 − 0,607) 2 + 971× (0 − 0,607) 2
σ2 = = 0,24
2473
Obliczając wariancję, zamiast wypisywać 1502 różnice (1 – 0,607)2 oraz 971
różnic (0 – 0,607)2, które trzeba dodać, po prostu użyliśmy mnożenia.
W taki sam sposób, jak obliczyliśmy wariancję dla całej populacji, oblicza-
my też wariancję dla 10 próbek 50-elementowych, zamieniając znowu od-
224 WNIOSKOWANIE STATYSTYCZNE

powiedzi „tak” na jedynki, a wszystkie pozostałe – na zera. Wyniki tych ob-


liczeń przedstawiamy w tabeli 5.4.
Tabela 5.4. Średnie ( x ), Liczba od- Liczba in-
2
s – σ2
2 2
wariancje (s ) w dziesięciu Nr próby powiedzi nych odpo- x s
50-elementowych próbkach „tak” wiedzi
wylosowanych z populacji
1 25 25 0,50 0,25 0,01
PGSS oraz różnice między
wariancjami w próbach 2 38 12 0,76 0,18 -0,0576
2
i w populacji (s – σ 2 ) dla 3 33 17 0,66 0,22 -0,0156
σ2 = 0,24
4 34 16 0,68 0,28 -0,0224

5 28 22 0,56 0,25 0,0064

6 33 17 0,66 0,22 -0,0156

7 32 18 0,64 0,23 -0,0096

8 33 17 0,66 0,22 -0,0156

9 35 15 0,70 0,21 -0,03

10 32 18 0,64 0,23 -0,0096

Mamy nadzieję, że wiesz, skąd się wzięły wszystkie liczby w tabeli


5.4.W ostatniej kolumnie po prawej stronie wpisaliśmy też wynik odejmo-
wania od wielkości wariancji w każdej próbie znanej nam wariancji w popu-
lacji wynoszącej σ2 = 0,24. Wartości różnic między wariancjami, a zwłasz-
cza ich znaki, potwierdzają prawdziwość przewidywanego niedoszacowania
wariancji w populacji poprzez obliczanie wariancji w próbie.
W 9 przypadkach na 10 próbek wariancje w próbie są niższe niż wariancja
w populacji. Średnia wartość niedoszacowania, czyli średnia arytmetyczna
ze wszystkich 10 różnic z ostatniej kolumny tabeli 5.4, wynosi 0,0159.
Przewidywana zaś wartość niedoszacowania, obliczona na podstawie wzoru,
wynosi:
σ 2 0,24
= = 0,0048
n 50
Przeciętnie niedoszacowanie wielkości wariancji w populacji w wylosowa-
nych dziesięciu próbach jest nieco wyższe od spodziewanego. Trzeba jednak
pamiętać o głównej zasadzie statystyki – opisuje ona jedynie to, co jest bar-
dziej lub mniej prawdopodobne.

NIEOBCIĄŻONY ESTYMATOR WARIANCJI

Wykazaliśmy, że wariancja w próbie, obliczana w zwykły sposób, jest ob-


ciążonym estymatorem wariancji w populacji. Nieobciążony estymator wa-
PODSTAWY WNIOSKOWANIA STATYSTYCZNEGO 225

riancji w populacji, oznaczany jako „s kwadrat z daszkiem” ( ŝ 2 ), oblicza się


w następujący sposób:
n

∑(X i − x) 2
sˆ 2 = i =1

n −1
Zwróć uwagę na to, że wzór na ŝ 2 różni się od wzoru na s2 tylko ze względu
na mianownik. Przed chwilą ustaliliśmy, że wariancja obliczana metodą tra-
dycyjną, czyli zgodnie ze wzorem, w którym w mianowniku znajduje się li-
czebność próby (n), na ogół jest niższa od wariancji dla populacji. Jeżeli
w mianowniku, zamiast n, wstawimy n – 1, to tak obliczona wariancja wzro-
śnie. Zawsze tak się dzieje, gdy utrzymując tę samą wartość licznika,
zmniejszamy wartości w mianowniku. Można się więc spodziewać, że ŝ 2
będzie się mniej różnić od σ2 niż s2. Łatwo to sprawdzić.
W tabeli 5.5. przedstawiamy wariancje z 10 próbek po 50 osób z PGSS obli-
czone według wzorów na s2 i ŝ 2 . Od każdej z tych wariancji odjęliśmy także
wartość wariancji w populacji σ 2 = 0,24.

Tabela 5.5. Wariancje:


Nr próby s2 s2 −σ 2 ŝ 2 sˆ 2 − σ 2
s i ŝ 2 obliczone dla dziesię-
2

ciu 50-elementowych próbek 1 0,25 0,01 0,26 0,0151


ze zbioru PGSS oraz różnice 2 0,18 –0,0576 0,19 –0,0539*
między nimi a wariancja
w populacji 3 0,22 –0,0156 0,23 –0,0110*
4 0,28 –0,0224 0,22 –0,0180*
5 0,25 0,0064 0,25 0,0114
6 0,22 –0,0156 0,23 –0,0110*
7 0,23 –0,0096 0,24 –0,0049*
8 0,22 –0,0156 0,23 –0,0110*
9 0,21 –0,03 0,21 –0,0257*
10 0,23 –0,0096 0,24 –0,0049*

W ostatniej kolumnie tabeli 5.5 oznaczyliśmy gwiazdką te różnice między


oszacowaniem za pomocą wariancji z daszkiem a wariancją w populacji,
które są mniejsze niż oszacowania za pomocą „zwykłej” wariancji. W 8 wy-
padkach na 10 oszacowanie z daszkiem jest dokładniejsze. Średni błąd osza-
cowania także nieco się zmniejszył i wynosi 0,0114.
Zauważyłeś jednak zapewne, że w obu przypadkach oszacowań różnice po-
między wariancją oszacowaną a wariancją rzeczywistą w populacji tak na-
prawdę są bardzo małe. Świadczy to o tym, że oba estymatory są efektywne
(to znaczy powodują mały błąd oszacowania). Poza tym oba estymatory są
226 WNIOSKOWANIE STATYSTYCZNE

zgodne, czyli im większa badana próba, tym statystycznie mniejsza różnica


między wartością oszacowaną a wartością rzeczywistą wariancji. W przy-
padku oszacowywania wariancji wielkość prób ma bardzo istotne znaczenie.
Jeżeli próba jest dostatecznie duża (w praktyce więcej niż 30 obserwacji), to
w zasadzie różnica pomiędzy obydwoma oszacowaniami (obciążonym i nie-
obciążonym) jest tak mała, że wszystko jedno, którego z nich się użyje. Zde-
cydowanie lepiej jest jednak używać estymatora z daszkiem dla prób mniej-
szych niż 30 obserwacji.
I na koniec – tylko dla ciekawskich – podajemy wzory, które pozwalają na
obliczenie wartości jednego typu estymatora, gdy zna się wartość drugiego:
n
sˆ 2 = × s2
n −1
n −1 2
s2 = × sˆ
n

ESTYMACJA PUNKTOWA

Podsumujmy to, co napisaliśmy dotąd w tym rozdziale.


• Estymator to pewna statystyka próby, na podstawie której możemy
oszacować wielkość nieznanego parametru w populacji.
• Estymator musi spełniać trzy warunki: musi być niebciążony, efektywny
i zgodny. Takim estymatorem dla średniej w populacji jest średnia
w próbie. Podobnie estymatorem dla mediany i innych miar położenia
w populacji jest mediana i miary położenia obliczone dla danych w ba-
danej próbie. Inaczej jest w przypadku wariancji: niebciążonym estyma-
torem wariancji w populacji jest tzw. wariancja „z daszkiem”, czyli wa-
riancja obliczona dla próby, w której wartość mianownika zostaje po-
mniejszona o jeden. Łatwo się domyślić, że estymatorem odchylenia
standardowego w populacji nie jest pierwiastek ze „zwykłej” wariancji,
ale z wariancji „z daszkiem”.
Ustalanie dokładnych wartości parametrów populacji na podstawie znanych
statystyk próby nie jest zadaniem łatwym. Dla każdej populacji można obli-
czyć wiele parametrów, a nie tylko te, o których piszemy w naszej książce.
Tym, w jaki sposób można znajdować wielkości różnych parametrów, znaj-
duje się dział statystyki zwany estymacją punktową. Określenie „estymacja
punktowa” bierze się stąd, że dla każdego parametru populacji znajdujemy
jeden punkt w zbiorze danych (czyli w próbie), który będzie najlepszym
oszacowaniem nieznanego parametru populacji.
PODSTAWY WNIOSKOWANIA STATYSTYCZNEGO 227

Nie będziemy przedstawiać poszczególnych, z reguły bardziej zaawansowa-


nych, metod znajdowania estymatorów. Jeżeli jesteś nimi zainteresowany, to
raz jeszcze odsyłamy Cię do cytowanego już podręcznika Jerzego Grenia.

ESTYMACJA PRZEDZIAŁOWA

Oszacowywanie parametrów populacji na podstawie znanych statystyk pró-


by z reguły jest niedokładne. Możemy wiedzieć, że estymator jest zgodny
i nieobciążony, a jednak nigdy nie możemy być pewni, czy jego wielkość
jest naprawdę taka sama jak wielkość oszacowywanego parametru. Na przy-
kład gdybyśmy wylosowali z próby PGSS nie 10, ale 100 próbek po 10 osób
i w każdej z nich policzyli proporcję tych, którzy przyznają się do wzięcia
udziału w wyborach, to rozrzut pomiędzy najmniejszą a największą z tych
proporcji mógłby się okazać dosyć duży. Aby się o tym przekonać, przepro-
wadziliśmy odpowiednie losowanie, którego wynik przedstawiony jest na
rysunku 5.5.

Rysunek 5.5. Rozkład 24


proporcji osób przyznających 22
się do głosowania w wybo-
rach parlamentarnych 2001 20
w 100 próbach po 10 osób, 18
wylosowanych z PGSS
16
[STATISTICA]
Liczba próbek

14
12
10
8
6
4
2
0
20 30 40 50 60 70 80 90 100
Procent tych, którzy wzięli udział w wyborach, w 100 próbach 10-osobowych

Rozrzut proporcji osób przyznających się do głosowania w 100 próbkach


jest rzeczywiście spory. W jednej z próbek proporcja głosujących wynosiła
zaledwie 20%, a w dwóch innych aż 100% osób przyznało się do wzięcia
udziału w głosowaniu. Badacz nie losuje jednak 100 próbek, lecz jedną.
Gdybyś więc wylosował tę próbę, w której zaledwie 20% osób przyznało się
do głosowania, wówczas sądziłbyś, że w całej populacji jest także około
20% osób przyznających się do udziału w wyborach. Postąpiłbyś dokładnie
tak samo, bez względu na to, którą z tych 100 próbek przedstawionych na
rysunku 5.5 wylosowałbyś do swoich badań.
228 WNIOSKOWANIE STATYSTYCZNE

Przy okazji warto zwrócić uwagę na to, że w rozkładzie z próby przedsta-


wionym na rysunku 5.5 więcej jest próbek, których średnie są bliższe śred-
niej w populacji, niż tych, których średnie się od niej różnią. Średnia ze
wszystkich tych stu średnich wynosi 59,9%, a przypomnijmy, że w całej po-
pulacji wynosi ona 60,7%. Różnica między średnią w rozkładzie z próby
a średnią w populacji wynosi zaledwie 0,8 punktu procentowego. Nie zmie-
nia to faktu, że chociaż niewielka jest szansa na pechowy dobór próbki, któ-
rej wartość estymatora będzie znacznie odbiegać od wartości szacowanego
parametru, to jednak nie jest to zupełnie niemożliwe.
Do pewnego stopnia możemy jednak uchronić się przed popełnieniem zbyt
dużego błędu w estymowaniu parametrów populacji na podstawie statystyk
próby. Pomysł polega na tym, żeby zamiast jednej wartości estymatora po-
dawać pewien ich zakres. Postępowanie takie nazywa się estymacją prze-
działową.
Korzystając z rozkładu proporcji osób przyznających się do głosowania
w 100 próbach 10-elementowych, mógłbyś powiedzieć, że z całą pewnością
proporcja osób pamiętających swój udział w tych wyborach znajduje się
w przedziale między 20% a 90%. Taki jest bowiem rozrzut w 100 próbkach
przedstawionych na wykresie 5.5.
Nawet gdybyś nie znał rozkładu proporcji w populacji – a przypomnijmy, że
w normalnej sytuacji badawczej właśnie dlatego estymujesz parametr, że nie
znasz jego wartości – zapewne uznałbyś, że oszacowanie parametru w prze-
dziale od 20% do 90% jest jak najbardziej poprawne. O ile jednak nie miał-
byś zastrzeżeń co do poprawności tego oszacowania, o tyle bez wątpienia
nie byłbyś zadowolony z jego dokładności. Stwierdzenie, że w wyborach
wzięło udział od 20% do 90% Polaków, zawiera w sobie mniej więcej tyle
informacji, co stwierdzenie, że oceny studentów na egzaminie z jakiegoś
przedmiotu wahały się w przedziale od 2 do 5.
Mógłbyś jednak również stwierdzić, że skoro wśród 100 próbek najczęściej
pojawiają się proporcje 60% i 70%, to być może średnia w populacji leży
w przedziale 55% a 75% (uwzględniasz tutaj dokładne granice przedzia-
łów, czyli granice pomiędzy przedziałem 50% a 60% i granice pomiędzy
przedziałem 70% a 80%). Z rozkładu na rysunku 5.5 wynika, że w 44 prób-
kach na 100 proporcje wahają się między 55% a 75%. Gdybyś więc uznał,
że średnia w populacji leży gdzieś w tym właśnie przedziale, miałbyś 44%
szans na to, że masz rację.

CENTRALNE TWIERDZENIE GRANICZNE

Przypomnijmy: prowadząc badania, najczęściej masz do czynienia tylko


z jedną próbką. Nie wiesz czy jest to próbka, w której średnia znajduje się
PODSTAWY WNIOSKOWANIA STATYSTYCZNEGO 229

blisko średniej w populacji, czy też jej średnia znacznie się różni od średniej
w populacji. Bez względu na to, jak szeroki przedział na prawo i na lewo od
średniej w próbie uznasz za wystarczające oszacowanie parametru populacji,
i tak nigdy nie będziesz miał pewności, czy jest to przedział o wystarczającej
długości, chyba że zadowolisz się stwierdzeniem, iż proporcja głosujących
waha się od 0% do 100%.
Możesz jednak się dowiedzieć, jakie jest prawdopodobieństwo, że we wska-
zanym przez Ciebie przedziale rzeczywiście znajdzie się średnia w popula-
cji. Do tego celu przyda się znajomość centralnego twierdzenia graniczne-
go. W najprostszej wersji brzmi ono następująco:
Rozkład średniej z próby n-elementowej pobranej z populacji o średniej µ i warian-
σ2
cji σ2 jest rozkładem normalnym o średniej µ i wariancji .
n
Co to jest „rozkład średniej z próby n-elementowej”? Jest to rozkład nie-
skończenie wielu średnich, obliczonych dla próbek o liczebności n. Takim
rozkładem, a właściwie jego częścią, jest wykres przedstawiony na rysun-
ku 5.5.
Na osi OX są tam zaznaczone procenty osób przyznających się do udziału w
głosowaniu (jak to już wcześniej wyjaśnialiśmy, odpowiadają one średnim,
po zamianie odpowiedzi „tak” na jedynki, a „nie” i innych na zera oraz po-
mnożeniu przez sto procent). Na osi OY zaznaczone są częstości, z jakimi
dane próbki pojawiają się w grupie 100 średnich.
Centralne twierdzenie graniczne należy do najważniejszych, czyli właśnie
centralnych twierdzeń stosowanych we wnioskowaniu statystycznym.
Określenie „graniczne” zwraca uwagę na to, że twierdzenie to dotyczy za-
leżności, która zachodzi na granicy, czyli – innymi słowy – na końcu
wszystkich możliwości, wtedy gdy próbek jest nieskończenie wiele. W takiej
sytuacji oczywiście rozkład średnich z nieskończenie wielu próbek jest roz-
kładem ciągłym, ale najważniejsze jest to, że jest to rozkład normalny. Po-
nadto średnia w tym rozkładzie jest taka sama jak średnia w populacji, a wa-
riancja jest wprost proporcjonalna do wariancji w populacji i odwrotnie pro-
porcjonalna do liczebności próbek.

CENTRALNE TWIERDZENIE GRANICZNE A ROZKŁAD NORMALNY

Pierwszym ważnym wnioskiem płynącym z centralnego twierdzenia gra-


nicznego jest ten, że rozkład średniej z próby jest rozkładem normalnym
nawet wtedy, gdy rozkład zmiennej, z którego pobierane są próby, nie jest
rozkładem normalnym.
230 WNIOSKOWANIE STATYSTYCZNE

Każdy z wykresów przedstawionych na rysunkach 5.6 – 5.9 prezentuje inny


rozkład średniej z próby. Są to znane Ci już rozkłady proporcji tych, którzy
pamiętają swój udział w głosowaniu w 2001 roku, w próbach 10-, 30-, 50-
i 100-osobowych.
Dla każdego z rozkładów średniej z próby obliczyliśmy średnią i zgodnie z
prawem wielkich liczb Bernoulliego okazało się, że im więcej było elemen-
tów w próbach, których rozkład analizowaliśmy, tym mniejsza była różnica
pomiędzy średnią z próby a średnią w całej populacji.
Wyjątek stanowiła średnia dla prób 30-elementowych, która przypadkiem
okazała się wyjątkowo dobrym przybliżeniem średniej w całej populacji.

Rysunek 5.6. Rozkład


proporcji osób przyznających
się do głosowania w 10 3
próbach 10-elementowych
[STATISTICA]
Liczba próbek

0
0,3 0,4 0,5 0,6 0,7 0,8
10 próbek po 10 osób

Rysunek 5.7. Rozkład


proporcji osób przyznających 5
się do głosowania w 10
próbach 30-elementowych
[STATISTICA] 4
Liczba próbek

0
0,45 0,50 0,55 0,60 0,65 0,70
10 próbek po 30 osób
PODSTAWY WNIOSKOWANIA STATYSTYCZNEGO 231

Rysunek 5.8. Rozkład


proporcji osób przyznających 5
się do głosowania w 10
próbach 50-elementowych
[STATISTICA] 4

Liczba próbek
3

0
0,50 0,55 0,60 0,65 0,70 0,75 0,80
10 próbek po 50 osób

Rysunek 5.9. Rozkład


proporcji osób przyznających
się do głosowania w 10 3
próbach 100-elementowych
[STATISTICA]
Liczba próbek

0
0,52 0,53 0,54 0,55 0,56 0,57 0,58 0,59 0,60 0,61 0,62 0,63 0,64 0,65
10 próbek po 100 osób

Na każdym wykresie (5.6 – 5.9) dorysowaliśmy także krzywą normalną naj-


lepiej dopasowaną do rozkładu średnich. Mimo że w każdym przypadku
słupki histogramów nie pokrywają się dokładnie z krzywą normalną, to jed-
nak nie jest to sprzeczne z centralnym twierdzeniem granicznym, ponieważ
zgodnie z nim, rozkład jest normalny dopiero wtedy, gdy utworzy się go dla
nieskończenie wielu próbek.
Oznacza to, że dopasowanie rozkładu średniej z próby do rozkładu normal-
nego będzie tym większe, im więcej próbek weźmiemy pod uwagę. Dobrze
ilustruje to wykres 5.10, który powstał ze 100 próbek 10-elementowych.
Zgodnie z centralnym twierdzeniem granicznym, rozkład średniej z próby
staje się coraz bardziej podobny do rozkładu normalnego wraz ze wzrostem
wielkości próby i liczby pobieranych próbek.
232 WNIOSKOWANIE STATYSTYCZNE

Dobrze widać tę zasadę, gdy się porówna dopasowanie histogramów na ry-


sunkach od 5.6 do 5.10. Im większa jest liczebność próbek, a także im wię-
cej jest próbek, które tworzą rozkład średniej z próby, tym lepsze dopasowa-
nie do rozkładu normalnego.

Rysunek 5.10. Rozkład 26

proporcji przyznających się 24


do głosowania w 100 próbach 22
po 10 osób wylosowanych
20
z PGSS [STATISTICA]
18

16
Liczba próbek

14

12

10

0
0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0
Średnia liczba głosujących po zamianie na 1 i 0

Na koniec warto przypomnieć, że dla nieskończenie wielu próbek rozkład


będzie ciągły, a to znaczy, że na osi OY nie oznaczymy już liczby próbek,
ale gęstość prawdopodobieństwa.

CENTRALNE TWIERDZENIE GRANICZNE A ŚREDNIA I ODCHYLENIE STANDARDOWE


W ROZKŁADZIE NORMALNYM

Każdy rozkład normalny ma dwa parametry – średnią i odchylenie standar-


dowe. Zgodnie z centralnym twierdzeniem granicznym, średnia w rozkładzie
nieskończenie wielu proporcji wyznaczonych dla grup 10-elementowych
wylosowanych z PGSS powinna być równa dokładnie tyle samo, co propor-
cja głosujących w całej próbie PGSS, i wynosić 60,7% lub – po zamianie na
zera i jedynki – 0,607.
Czy można również obliczyć wartość odchylenia standardowego w rozkła-
dzie normalnym nieskończenie wielu proporcji w grupach 10-elemento-
wych? Kiedy się zna wariancję w populacji, wówczas obliczenie tego
wskaźnika nie jest trudne. Zgodnie z centralnym twierdzeniem granicznym
wariancja w rozkładzie nieskończenie wielu średnich ze zbiorów 10-elemen-
towych wynosi:
σ 2 0,24
σ 2x = = = 0,024
n 10
PODSTAWY WNIOSKOWANIA STATYSTYCZNEGO 233

σ x2 wariancja w rozkładzie średnich z próby, zwana inaczej błędem standardowym średniej,

σ2 wariancja w populacji,
n liczebność próby.

Odchylenie standardowe jest pierwiastkiem z wariancji, czyli:


σ x = σ 2x = 0,024 = 0,155

Można także powiedzieć, że odchylenie standardowe w tym rozkładzie jest


równe odchyleniu standardowemu w populacji podzielonemu przez pierwia-
stek z liczebności próbek. Ponieważ wariancja w populacji wynosi 0,24, od-
chylenie standardowe w populacji równa się:

σ = σ 2 = 0,24 = 0,49
Stąd już tylko jeden krok do obliczenia odchylenia standardowego w rozkła-
dzie średniej z próby:

σ2 σ 0,49 0,49
σx = = = = = 0,155
n n 10 3,16
W ten sposób znamy już obydwa parametry rozkładu średnich z próby.
Średnia w tym rozkładzie wynosi µ = 0,607, a odchylenie standardowe
σ x = 0,155. Rozkład o tych parametrach przedstawiony jest na rysunku 5.11.

Rysunek. 5.11. Rozkład


2,8
normalny o średniej µ = 0,607
i odchyleniu standardowym 2,6
σ x = 0,155 [STATISTICA] 2,4
2,2
Gęstość prawdopodobieństwa

2,0
1,8
1,6
1,4
1,2
1,0
0,8
0,6
0,4
0,2
0,0
0,3 0,4 0,5 0,6 0,7 0,8 0,9

Zwróć uwagę na to, że oś OY na wykresie z rysunku 5.11 oznacza teraz gę-


stość prawdopodobieństwa, a nie liczbę próbek o danej średniej, dlatego że
rozkład normalny jest rozkładem ciągłym, a to znaczy, że dotyczy on nie-
skończenie wielu wartości.
234 WNIOSKOWANIE STATYSTYCZNE

ROZKŁAD ŚREDNICH Z PRÓBY I WŁAŚCIWOŚCI ROZKŁADU NORMALNEGO

Ważną cechą rozkładu normalnego jest to, że pozwala ustalić prawdopodo-


bieństwo dowolnego obszaru pod krzywą normalną. Opisaliśmy to dokład-
nie, omawiając właściwości tego rozkładu. Teraz krótko je przypomnimy.
• Powierzchnia pod całą krzywą normalną wynosi 1 i odpowiada prawdo-
podobieństwu tego, że dana zmienna przyjmie dowolną wartość z prze-
działu od minus nieskończoności do plus nieskończoności.
• Rozkład normalny jest symetryczny, a to znaczy, że prawdopodobień-
stwo uzyskania dowolnej wartości większej od średniej wynosi 0,5
i prawdopodobieństwo uzyskania dowolnej wartości mniejszej od śred-
niej też wynosi 0,5.
• Prawdopodobieństwo uzyskania wartości zmiennej z dowolnego prze-
działu jest takie samo jak pole powierzchni pod rozkładem normalnym,
ograniczone przez proste przechodzące przez końce tego przedziału
i prostopadłe do osi OX.
Wszystko to jest prawdą w odniesieniu do każdego rozkładu normalnego,
a więc także do rozkładu średnich z próby, takiego jak ten przedstawiony na
rysunku 5.11. Znajomość średniej i odchylenia standardowego w tym roz-
kładzie także pozwala na wyznaczenie przedziału zawierającego dowolną
proporcję możliwych do uzyskania średnich z próby.
Na początek zajmijmy się wyznaczeniem przedziału, który zawiera 95%
wszystkich takich średnich (o tym, dlaczego akurat tyle, dowiesz się nieba-
wem). Procedura ustalania granic takiego przedziału opiera się na własno-
ściach rozkładu normalnego standaryzowanego.
Sprawdź w tablicy B (w Aneksie), między jakimi dwoma wynikami standa-
ryzowanymi z znajduje się środkowe 95% wszystkich obserwacji, czyli jaka
wartość z odpowiada prawdopodobieństwu 0,95. Pamiętasz, jak to zrobić?
Przypomnijmy: jeżeli interesuje Cię środkowe 95% obserwacji, to znaczy, że
musisz znaleźć jeden punkt, poniżej którego znajduje się 2,5% obserwacji,
i drugi, powyżej którego będzie drugie 2,5% obserwacji. Wtedy w sumie
masz 5% na krańcach i 95% w środku rozkładu. W tablicy B, w kolumnie
⎛ 2,5% ⎞
z lewej strony, szukasz powierzchni 0,025 ⎜ = 0,025 ⎟ i odpowiadają-
⎝ 100 ⎠
cej jej wartości z = 1,96. Ponieważ rozkład normalny jest symetryczny
względem średniej, to znaczy, że wartość z, poniżej której znajduje się 2,5%
obserwacji równa się –1,96. Można więc powiedzieć, że środkowe 95% ob-
serwacji w każdym rozkładzie normalnym znajduje się w przedziale od
–1,96 odchylenia standardowego od średniej do +1,96 odchylenia standar-
dowego od średniej.
PODSTAWY WNIOSKOWANIA STATYSTYCZNEGO 235

Ponieważ średnia w analizowanym przez nas normalnym rozkładzie śred-


nich z nieskończenie wielu 10-elementowych próbek wynosi µ = 0,607,
a odchylenie standardowe σ x = 0,155, więc środkowe 95% wszystkich moż-
liwych do uzyskania średnich znajduje się w przedziale:
µ∈{0,607 – 1,96 × 0,155; 0,607 + 1,96 × 0,155}
czyli
µ∈{0,31; 0,90}
A zatem, jeślibyśmy wylosowali nieskończenie wiele próbek 10-elemento-
wych z populacji o średniej µ = 0,607 i odchyleniu standardowym σ x =
= 0,155, to 95% z tych próbek będzie miało średnią w przedziale {0,31;
0,90}.
Moglibyśmy też wielkość tego przedziału wyrazić w procentach i wtedy
powiedzielibyśmy, że w 95% wszystkich możliwych do wylosowania 10-
elementowych próbkach proporcja głosujących w wyborach w roku 2001
będzie wahać się od 31% do 90%.
Korzystając z właściwości rozkładu normalnego, można także łatwo obli-
czyć, w jakim przedziale znajduje się np. środkowe 99% wszystkich śred-
nich w 10-elementowych próbkach. Wystarczy tylko znaleźć odpowiednie
wartości z w tablicy B i wiemy, że środkowe 95% wszystkich średnich znaj-
duje się w przedziale:
µ∈{0,607 – 2,58 × 0,155; 0,607 + 2,58 × 0,155}
czyli
µ∈{0,22; 0,99}
Wyznaczanie granic przedziałów zawierających określony procent średnich
można zrealizować za pomocą jednego z trzech wzorów:
{
µ∈ x − zασ x ; x + zα σ x }
⎧ σ σ ⎫
µ∈ ⎨ x − zα ; x + zα ⎬
⎩ n n⎭

⎧⎪ σ2 σ 2 ⎫⎪
µ∈ ⎨ x − zα ; x + zα ⎬
⎪⎩ n n ⎪⎭

Przez zα oznaczyliśmy wynik standaryzowany z, który odpowiada określo-


nemu prawdopodobieństwu α równemu np. 0,95 (95%) lub 0,99 (99%). Po-
zostałe symbole powinieneś już znać.
236 WNIOSKOWANIE STATYSTYCZNE

W JAKIM ZAKRESIE MOŻESZ UFAĆ ŚREDNIEJ Z PRÓBY, GDY NIC NIE WIESZ NA TEMAT POPULACJI?

Wyznaczanie granic przedziałów zawierających określony procent średnich


w rozkładzie z próby, czyli estymacja przedziałowa, jest alternatywną meto-
dą szacowania średniej w populacji na podstawie wyników badań, w stosun-
ku do metody estymacji punktowej.
Upraszczając nieco, można powiedzieć, że estymacja punktowa sprowadza
się do stwierdzenia, iż np. średnia w populacji jest taka sama jak średnia
w badanej próbie, natomiast estymacja przedziałowa – że z określonym
prawdopodobieństwem ta średnia znajduje się w przedziale o znanych grani-
cach. Ponieważ wynik estymacji przedziałowej obejmuje również informa-
cję dotyczącą prawdopodobieństwa, z jakim średnia w populacji zawiera się
w wyznaczonym przedziale, a więc ustalając go, najpierw musisz odpowie-
dzieć na pytanie, jak duże dopuszczasz prawdopodobieństwo błędu. Najczę-
ściej przyjmuje się, że prawdopodobieństwo błędu w oszacowaniu granic
przedziału ufności nie powinno być wyższe niż 0,05 albo, mówiąc inaczej,
5%; czasami można zmniejszyć tę wartość do 0,01 albo 0,001.
Wróćmy do przykładów. Przypuśćmy, że z danych PGSS – o których nadal
myślimy jako o populacji – wylosowaliśmy grupę 10 osób, z których połowa
przyznaje się do udziału w wyborach w roku 2001, a połowa nie. Po zamia-
nie odpowiedzi „tak” na jedynki, a „nie” na zera, średnia w tej grupie wynie-
sie 0,5. I to jest wszystko, co – na podstawie wylosowanej próbki – wiesz o
skłonnościach Polaków do głosowania.
Załóżmy na moment, że nie znasz średniej dla całej grupy ankietowanych
w PGSS. Możesz jednak spróbować wnioskować na ten temat, korzystając
z centralnego twierdzenia granicznego. Wiesz, że gdybyś wylosował nie-
skończenie wiele próbek 10-elementowych, wtedy ich rozkład byłby rozkła-
dem normalnym o średniej takiej samej jak średnia w populacji i odchyleniu
standardowemu równemu odchyleniu standardowemu w populacji podzielo-
nemu przez pierwiastek z wielkości próby. Ponieważ nie znasz wartości ani
jednego, ani drugiego parametru, musisz sobie poradzić w inny sposób.
Najprościej byłoby się posłużyć metodą estymacji punktowej i stwierdzić, że
średnia w próbie jest taka sama jak średnia w populacji. Skądinąd wiesz
przecież, że średnia w próbie jest dobrym estymatorem średniej w populacji.
Masz już więc oszacowaną wartość pierwszego parametru rozkładu normal-
nego średnich z 10-elementowych próbek: µ = 0,5. Drugi parametr tego roz-
kładu to odchylenie standardowe, które można obliczyć według następujące-
go wzoru:
σ populacja
σx =
n
PODSTAWY WNIOSKOWANIA STATYSTYCZNEGO 237

Nie znasz jednak odchylenia standardowego w populacji, więc musisz je o-


szacować na podstawie próby. Nieobciążonym estymatorem wariancji w po-
pulacji jest wariancja z daszkiem, którą dla Twoich 10 pomiarów możesz
obliczyć następująco:
n

∑(X i − x) 2
5 × (1 − 0,5) 2 + 5 × (0 − 0,5) 2
sˆ =2 i =1
= = 0,28
n −1 10 − 1
Teraz możemy przystąpić do obliczenia wariancji w rozkładzie średnich
z nieskończenie wielu próbek 10-elementowych. Ponieważ nie znasz wa-
riancji w populacji, do wyznaczenia wariancji w rozkładzie z próby musisz
wykorzystać oszacowaną wariancję w populacji, czyli ŝ 2 :
sˆ 2 0,28
sˆx2 = = = 0,028
n 10
Pozostaje już tylko jedna operacja do oszacowania odchylenia standardowe-
go w rozkładzie średnich z nieskończenie wielu próbek:
sˆx = 0,028 = 0,17

Gdyby więc prawdziwe były dwa założenia:


• oszacowanie średniej w populacji na podstawie średniej w próbie jest
bezbłędne,
• oszacowanie wariancji w populacji na podstawie estymatora wariancji
z próby (czyli wariancji z daszkiem) jest bezbłędne,
wtedy rozkład nieskończenie wielu średnich z próbek 10-elementowych był-
by rozkładem normalnym o średniej 0,5 i odchyleniu standardowym 0,17.
Taki rozkład przedstawiony jest na rysunku 5.12. Powstał on na podstawie
centralnego twierdzenia granicznego oraz dwóch założeń dotyczących po-
prawności oszacowania. Nie wiedząc, czy te założenia są prawdziwe, czy też
nie, możesz brnąć dalej i wyznaczyć przedział, w którym znajduje się 95%
średnich ze wszystkich możliwych do wylosowania próbek 10-elemento-
wych. Przedział ten ustalisz, korzystając z wzoru:
{
µ∈ x − zα s x ; x + zα s x }
Po obliczeniach otrzymujesz następujący przedział:
µ∈{0,5 – 1,96 ×0,17; 0,5 + 1,96 ×0,17}
czyli
µ∈{0,16; 0,83}
238 WNIOSKOWANIE STATYSTYCZNE

Rysunek. 5.12. Rozkład


2,4
normalny o średniej µ = 0,5
i odchyleniu standardowym 2,2

σ x = 0,17 [STATISTICA] 2,0

1,8

Gęstość prawdopodobieństwa
1,6

1,4

1,2

1,0

0,8

0,6

0,4

0,2

0,0
0,2 0,3 0,4 0,5 0,6 0,7 0,8

Dolną i górną granicę tego przedziału możesz wyrazić w procentach i wtedy


będą one wynosić odpowiednio: 16% i 83% przyznających się do głosowa-
nia. Ponieważ centralne twierdzenie graniczne dotyczy nieskończenie wie-
lu średnich, więc wiesz, że 95% z tych nieskończenie wielu znajduje się
w przedziale {0,16; 0,83}. Wśród tych wszystkich średnich znajduje się też
prawdziwa, ale nieznana średnia w populacji.
Uznając, że w przedziale {0,16; 0,83} znajduje się 95% wszystkich średnich,
z takim samym prawdopodobieństwem możesz przyjąć, że zawiera także
prawdziwą średnią w populacji.
W ten sposób wyznaczyłeś przedział ufności dla średniej. Przedział ten ma
dolną i górną granicę, a także związane jest z nim prawdopodobieństwo,
z jakim zawiera on średnią w populacji.

OD CZEGO ZALEŻY WIELKOŚĆ PRZEDZIAŁU UFNOŚCI DLA ŚREDNIEJ?

Przeanalizujmy jeszcze raz zapis początku i końca przedziału ufności:


µ∈ x − zα s x ; x + zα s x { }
Zauważ, że przedział ufności składa się z dwóch dodanych do siebie prze-
działów – jednego leżącego na lewo od średniej arytmetycznej w próbie
i drugiego leżącego na prawo od tej średniej. Obydwa te przedziały mają
jednakową długość. Określa ją iloczyn odchylenia standardowego w rozkła-
dzie średnich z próby i wyniku standaryzowanego zα opowiadającego za do-
kładność oszacowania. Długość przedziału ufności jest zatem wprost pro-
porcjonalna do wartości obu tych parametrów.
PODSTAWY WNIOSKOWANIA STATYSTYCZNEGO 239

• Gdy zwiększa się wynik standaryzowany zα, wtedy zwiększa się po-
prawność oszacowania, ale niestety zwiększa się także długość przedzia-
łu ufności.
• Wielkość przedziału ufności zależy także od wielkości odchylenia stan-
dardowego w rozkładzie średnich. Ta wartość z kolei jest wprost propor-
cjonalna do wielkości odchylenia standardowego danej cechy w popula-
cji (lub wielkości oszacowania tego odchylenia na podstawie danych
w próbie) oraz odwrotnie proporcjonalna do wielkości próby. A zatem:
im większe odchylenie standardowe, tym dłuższy przedział ufności, ale
im większa próba, tym mniejsza długość tego przedziału. Gdybyś więc
wylosował więcej osób niż 10, to nawet gdyby średnia liczba głosują-
cych oraz wariancja były takie same, wówczas otrzymany przedział uf-
ności byłby krótszy. W tabeli 5.6 podajemy granice trzech takich prze-
działów: dla próby 30-elementowej, 50-elementowej i 100-elementowej,
zakładając, że liczba głosujących jest zawsze taka sama, czyli 50%.

Tabela 5.6. Przedziały ufno- Wielkość próby


ści wyznaczone na podsta- Statystyki i parametry
wie próbek 30-, 50- i 100- n = 30 n = 50 n = 100
elementowych Ile osób przyznało się do
15 25 50
głosowania
Średnia po zamianie na
jedynki i zera x = 0,5 x = 0,5 x = 0,5

Oszacowanie wariancji w
populacji na podstawie sˆ 2 = 0,26 sˆ 2 = 0,25 sˆ 2 = 0,25
próby

Odchylenie standardowe 0,26 0,25 0,26


sx = = 0,09 sx = = 0,07 sx = = 0,05
w rozkładzie średnich 30 50 100
Przedział ufności z
{0,5 ± 1,96 × 0,09} {0,5 ± 1,96 × 0,07} {0,5 ± 1,96 × 0,05}
prawdopodobieństwem
= {0,32; 0,68} = {0,36; 0,64} = {0,40; 0,60)
0,95

W tabeli 5.6 oszacowanie wariancji w populacji na podstawie wariancji w


próbie obliczyliśmy dokładnie tak samo, jak dla próby 10-elementowej. Jak
widzisz, niewiele różnią się one od siebie. Wariancja oszacowana na pod-
stawie próby 30-elementowej jest tylko o 0,01 mniejsza niż wariancja osza-
cowana na podstawie prób 50- i 100-elementowych. Jeśli jednak podzielimy
je przez różne liczebności, to odchylenia standardowe w rozkładzie średnich
będą już inne.
Jeśli uważnie przyjrzysz się przedziałom ufności, odkryjesz, że przedział
ustalony dla grupy 100-osobowej nie pokrywa średniej w całej populacji,
która – jak pamiętasz – wynosi 60,7%. Wpłynęły na to dwa czynniki.
240 WNIOSKOWANIE STATYSTYCZNE

Pierwszy wiąże się z przyjętym prawdopodobieństwem błędu. Otóż zwięk-


szając liczebność próby, warto się zastanowić nad zaostrzeniem kryterium
błędu. Przedział {0,40; 0,60} został ustalony dla z0,05 = 1,96. Gdybyśmy
chcieli mieć większą pewność, że średnia w populacji znajduje się w ustalo-
nym przedziale ufności, wówczas zmniejszając dopuszczalny błąd tylko
o 2%, czyli przyjmując z0,02 = 2,17, zobaczymy, że:
µ∈{0,5 – 2,17 ×0,05; 0,5 + 2,17 ×0,05}
czyli
µ∈{0,39; 0,61}
a to oznacza, że przedział ufności zawiera średnią w populacji. Drugi czyn-
nik wiąże się z wartością średniej w próbie.

W JAKI SPOSÓB WARTOŚĆ ŚREDNIEJ W PRÓBIE WPŁYWA NA POŁOŻENIE PRZEDZIAŁU UFNOŚCI?

Między wartością średniej w próbie a wyznaczonymi granicami przedziału


ufności zachodzi dosyć prosta zależność: im średnia jest większa, tym wyż-
sze są wartości dolnej i górnej granicy przedziału ufności. Oczywiście, losu-
jąc próby, nie my ustalamy, jaka jest ich średnia. Z prawa wielkich liczb
jednak wynika, że im większa jest próba, tym większa jest szansa na to, że
średnia w tej próbie będzie bliska średniej w populacji.
Opisaliśmy już wcześniej wyniki losowania 10 prób 100-osobowych z popu-
lacji PGSS i w żadnej z tych prób proporcja głosujących nie wynosiła 50%,
czyli tyle, ile wpisaliśmy do tabeli 5.6. Najmniejsza wartość, jaką otrzymali-
śmy, wyniosła 52%, czemu odpowiada średnia równa 0,52. Przedział ufności
wyznaczony dla tej średniej będzie więc o 0,02 przesunięty w prawo w sto-
sunku do przedziału ufności dla próby 100-elementowej o średniej 0,5 z ta-
beli 5.6. Nawet przy 5% kryterium błędu oznacza to, że:
µ∈{0,52 – 1,96 ×0,05; 0,52 + 1,96 ×0,05}
czyli
µ∈{0,42; 0,62}
Tak więc nawet wtedy, gdybyśmy pechowo wylosowali 100-osobową próbę,
w której tylko 52% osób przyznaje się do głosowania w wyborach parlamen-
tarnych 2001, przedział ufności wyznaczony na podstawie danych dla tej
próby zawierałby średnią w populacji.
Korzystając z centralnego twierdzenia granicznego, możemy zresztą obli-
czyć, jakie jest prawdopodobieństwo wylosowania ze wszystkich danych
PGSS 100-osobowej próby, w której tylko 52% osób przyzna się do udziału
w wyborach.
PODSTAWY WNIOSKOWANIA STATYSTYCZNEGO 241

Skoro średnia w całej populacji wynosi 0,607, a wariancja 0,49, to rozkład


wszystkich możliwych średnich dla 100-elementowych podgrup wylosowa-
nych z populacji o tych parametrach jest rozkładem normalnym o średniej
0,49
0,607 i odchyleniu standardowym = 0,07. Korzystając z możliwości
100
standaryzacji rozkładu normalnego, możemy obliczyć, jakiej wartości wyni-
ku standaryzowanego z odpowiada wartość 0,52 w tym rozkładzie:
X − µ 0,52 − 0,607
z= = = −1,24
σx 0,07

Jeżeli skorzystasz z tablicy A, to znajdziesz prawdopodobieństwo otrzyma-


nia średnich znajdujących się poniżej z = –1,24. Prawdopodobieństwo to
wynosi 0,1037. Oznacza to, że gdy wylosujemy 100-elementowe próbki
z całego zbioru 2743 wyników Polskiego Generalnego Sondażu Społeczne-
go, tylko w około 1/10 próbek (10,37%) do głosowania przyzna się 52%
uczestników i mniej. Jeżeli więc wylosowałbyś taką próbę, to rzeczywiście
trzeba byłoby przyznać, że „nie masz farta, chłopie”.

ESTYMACJA PRZEDZIAŁOWA: CZYLI O TYM, CO WIADOMO, I O TYM, CZEGO NIE WIADOMO

Niemal od początku tego rozdziału wyniki 2473 osób badanych za pomocą


PGSS traktowaliśmy jako populację, z której losowaliśmy próby o różnej li-
czebności. Było to nam potrzebne po to, by Ci wyjaśnić, jakie zależności za-
chodzą między próbą i populacją.
Wróćmy jednak na ziemię i spróbujmy oszacować średnią dla populacji Po-
laków, uznając, że wyniki zgromadzone w PGSS są przecież tylko próbą po-
braną z tej populacji, liczącą 2473 osoby badane. Średnia przyznających się
do głosowania w 2001 roku w tej próbie wynosi 0,607, a wariancja s2 równa
się 0,24.
Wcześniej opisaliśmy wzór pozwalający na zamianę obciążonego estymato-
ra wariancji na estymator nieobciążony. Nie ma jednak potrzeby z niego ko-
rzystać, ponieważ przy tak dużej próbie różnica między obydwoma estyma-
torami praktycznie zanika (estymator nieobciążony jest większy o około
0,001). Do dalszych obliczeń użyjemy więc średniej i wariancji w próbie do
wyznaczenia przedziału ufności dla średniej w populacji. Wykorzystamy do
tego następujący wzór:
⎧⎪ s2 s 2 ⎫⎪
µ∈ ⎨ x − zα ; x + zα ⎬
⎪⎩ n n ⎪⎭
242 WNIOSKOWANIE STATYSTYCZNE

Ponieważ cała próba PGSS liczy 2473 osoby, przedział ufności z prawdopo-
dobieństwem 0,95 dla średniej głosujących w roku 2001 w wyborach parla-
mentarnych jest następujący:
⎧⎪ 0,24 0,24 ⎫⎪
µ∈ ⎨0,607 − 1,96 × ; 0,607 + 1,96 × ⎬
⎪⎩ 2473 2473 ⎪⎭

co po obliczeniu daje:
µ∈{0,588; 0,626}
Przedział ten jest niewielki, ponieważ badana próbka jest bardzo duża. Wo-
bec tego możemy pokusić się o zwiększenie prawdopodobieństwa popraw-
ności oszacowania do 0,999. Końce przedziału ufności dla średniej wyzna-
czymy tak samo jak poprzednio, tylko w miejsce 1,96 trzeba wstawić war-
tość z = 3,29:
⎧⎪ 0,24 0,24 ⎪⎫
µ∈ ⎨0,607 − 3,29 × ; 0,607 + 3,29 × ⎬
⎪⎩ 2473 2473 ⎪⎭

czyli
µ∈{0,577; 0,637}
Z bardzo dużą pewnością (99,9%) przedział od 0,577 do 0,637 zawiera rze-
czywistą proporcję Polaków przyznających się do głosowania w wyborach
parlamentarnych w roku 2001. Możemy też granice tego przedziału wyrazić
w procentach i wtedy powiemy, że niemal na pewno od 57,7% do 63,7% Po-
laków pozytywnie odpowiedziałoby na pytanie o udział w wyborach. Błąd
naszego wnioskowania nie jest większy niż 0,001.
Na początku tego rozdziału wspomnieliśmy też o wyborach prezydenckich
w roku 2000. Przypomnijmy, że do głosowania w tych wyborach przyznało
się 1829 osób, czyli 73,9% ankietowanych w PGSS. Po zamianie odpowie-
dzi „tak” na jedynki, a wszystkich innych na zera, średnia w próbie PGSS
wynosi x = 0,739. Wariancję w tej próbie policzymy tak samo jak w odnie-
sieniu do pytania o wybory parlamentarne:
1829 × (1 − 0,739) 2 + 644 × (0 − 0,739) 2
s2 = = 0,14
2473
Ponownie obliczyliśmy wielkość obciążonego estymatora wariancji, a po-
nieważ próba jest duża, więc estymator obciążony i nieobciążony są niemal
identyczne. Teraz podstawimy oba estymatory (średniej i wariancji) do wzo-
ru i wyznaczymy granice przedziału ufności z prawdopodobieństwem 0,999
zawierającym średnią w populacji.
PODSTAWY WNIOSKOWANIA STATYSTYCZNEGO 243

⎧⎪ 0,14 0,14 ⎫⎪
µ∈ ⎨0,739 − 3,29 × ; 0,739 + 3,29 × ⎬
⎪⎩ 2473 2473 ⎪⎭

czyli
µ∈{0,719; 0,759}
Po zamianie granic przedziału na procenty możemy autorytatywnie stwier-
dzić, że proporcja Polaków przyznających się do głosowania w wyborach
prezydenckich waha się od 71,9% do 75,9%, z prawdopodobieństwem błędu
równym 0,001.

A JAK POLACY NAPRAWDĘ GŁOSOWALI W WYBORACH PREZYDENCKICH 2000


I PARLAMENTARNYCH 2001?

Na podstawie przeprowadzonych badań oraz obliczeń wiemy, że swój udział


w wyborach prezydenckich w 2000 roku pamięta od 71,9% do 75,9% Pola-
ków oraz w wyborach parlamentarnych w 2001 roku – od 57,7% do 63,7%
Polaków. Możemy być tego pewni z prawdopodobieństwem 0,999, czyli
praktycznie traktować te wyniki jako oszacowania bezbłędne.
Gdybyś jednak się zainteresował, jaka naprawdę była frekwencja w tych
wyborach, wówczas czekałaby Cię niespodzianka.
Zgodnie z danymi Państwowej Komisji Wyborczej, w wyborach prezydenc-
kich w roku 2000 wzięło udział 61,12% uprawnionych do głosowania,
a w wyborach parlamentarnych w roku 2001 – 46,29%.
A zatem oszacowania na podstawie danych PGSS znacząco różnią się od
rzeczywistej frekwencji. Czy to oznacza, że dane PGSS są zafałszowane lub
że popełniliśmy jakiś karygodny błąd w obliczeniach? Bynajmniej.
Znaczy to tylko tyle, że przynajmniej część respondentów nie przyznaje się
do tego, że nie wzięła udziału w wyborach. Na wyborach nie byli, a na pyta-
nie kwestionariusza zakreślili odpowiedź „tak”.
Dla psychologa jest ciekawe, dlaczego tak się dzieje. Być może, przyczyna
* Krosnick, J. A. (1999). Survey leży w treści pytania. Jak zauważa Jon Krosnik*, gdy pytania sondażu doty-
research. Annual Review of Psy- czą społecznie aprobowanych zachowań, wówczas ludzie mają tendencję do
chology, 50, 537-567.
tego, aby pokazywać się w lepszym świetle.
Z psychologicznego punktu widzenia interesujące byłoby sprawdzenie, czy
uczestnicy sondażu świadomie wprowadzają ankietera w błąd, czy też mamy
w tej sytuacji do czynienia z tzw. syndromem fałszywej pamięci – ludzie
przypominają sobie coś, czego nie było, ale nie mają poczucia, że się mylą.
244 WNIOSKOWANIE STATYSTYCZNE

JAK DUŻA MUSI BYĆ PRÓBA, ABY MOŻNA BYŁO ESTYMOWAĆ ŚREDNIĄ?

Przeprowadzając jakiekolwiek oszacowania parametrów populacji, zawsze


jesteśmy narażeni na błąd. Estymacja przedziałowa, w stosunku do punkto-
wej, pozwala jedynie zmniejszyć ryzyko błędu (choć dzieje się to kosztem
precyzji oszacowania).
Jednym ze sposobów zmniejszenia prawdopodobieństwa pomyłki jest
* Greń, J. (1982). Statystyka wyznaczenie dostatecznie dużej próby do badania. Jerzy Greń* proponuje
matematyczna. Modele i zada- pewną procedurę służącą do ustalenia optymalnej liczebności próby. Przyj-
nia. Warszawa: PWN.
mując określone prawdopodobieństwo tego, że przedział ufności będzie za-
wierał średnią oraz długość tego przedziału, obliczamy minimalną liczbę
elementów w próbie według następującego wzoru:
z α2 σ 2
n= ,
d2
n liczebność próby,
podniesiony do kwadratu wynik standaryzowany z dla określonego prawdopodobieństwa
zα2
błędu α,
d połowa długości przedziału, jaki chciałbyś otrzymać,
wariancja danej cechy w populacji; jeżeli nie znasz wariancji w populacji, możesz użyć jej
σ2
nieobciążonego estymatora.

Na przykład może Cię interesować średnia wartość ilorazu inteligencji


wśród studentów psychologii. Nie znasz wariancji w tej populacji, ale mo-
żesz przynajmniej założyć, że odchylenie standardowe inteligencji wśród
studentów jest mniej więcej takie samo jak w populacji wszystkich ludzi do-
rosłych i wynosi σ = 15. Wiemy to stąd, że istnieją polskie normy rozkładu
ilorazu inteligencji. A zatem gdybyś chciał znać średnią ilorazu inteligencji
z dokładnością do ±5 punktów i uznałbyś, że zadowala Cię przedział ufności
95%, wtedy musiałbyś zaprosić do udziału w badaniu:
1,96 × 15 2
** Przy estymowaniu wariancji n= = 17,64
w populacji na podstawie ma- 52
łych prób zamiast wartości zα
należy podstawić odpowiednią co, po zaokrągleniu, oznaczałoby konieczność zbadania 18 studentów.
wartość z rozkładu t Studenta
dla liczby stopni swobody rów- Nieco inaczej wyznacza się minimalną liczbę elementów w próbie wtedy,
nej liczbie osób w próbce, na gdy odchylenie standardowe w populacji nie jest znane. W takiej sytuacji
podstawie której oszacowuje się
wariancję, pomniejszonej o 1. jednak musisz wcześniej już dysponować pewną próbką, np. wyników bada-
Nie przejmuj się, że nie rozu- nia pilotażowego, aby na ich podstawie oszacować odchylenie standardowe.
miesz w tej chwili tego przypisu.
Możesz do niego wrócić wtedy,
Znając tę wartość, wystarczy wstawić do wzoru wartość nieobciążonego es-
gdy przeczytasz rozdział po- tymatora wariancji w próbie, czyli „s kwadrat z daszkiem”**, zamiast wa-
święcony rozkładowi t Studenta. riancji w populacji.
PODSTAWY WNIOSKOWANIA STATYSTYCZNEGO 245

5.2. LOGICZNE PODSTAWY TESTOWANIA HIPOTEZ STATYSTYCZNYCH

CZY PAMIĘTASZ DUŻO ZDARZEŃ Z DZIECIŃSTWA?

Rozpoczniemy tę część od opisu interesującego, a zarazem prostego ekspe-


rymentu, który przeprowadzili Piotr Winkielman, Norbert Schwarz i Robert
* Winkielman, P., Schwarz, N., Belli*. Poprosili oni grupę studentów z uniwersytetu w Michigan, aby przy-
Belli, R. F. (1998). The role of pomnieli sobie cztery jakiekolwiek wydarzenia z dzieciństwa. Potem zadali
ease of retrieval and attribution
in memory judgments: Judging im następujące pytanie: „Czy jest wiele zdarzeń z Twojego dzieciństwa
your memory as worse despite sprzed piątego roku życia, których nie pamiętasz?”. Na 21 osób, którym za-
recalling more events. Psycholo-
gical Science, 9, 124-126.
dano to pytanie, 4 badanych, czyli 19%, odpowiedziało, że tak. Pozostali al-
bo odpowiadali, że nie mają takich wspomnień, albo twierdzili, że nie są te-
go pewni.
To samo pytanie zadano innej grupie 28 studentów, ale najpierw poproszono
ich o to, aby wymienili dwanaście wspomnień ze swojego dzieciństwa. Spo-
śród tych studentów niespełna połowa (46%) stwierdziła, że rzeczywiście są
takie fragmenty wspomnień z wczesnego dzieciństwa, których nie mogą so-
bie przypomnieć.
Okazało się, że ci, którzy przypominali sobie więcej (dwanaście wspo-
mnień), byli przekonani, że pamiętają mniej niż ci, którzy mieli wymienić
mało wspomnień, czyli cztery. Jak wyjaśniają autorzy eksperymentu, trud-
ność związana z przypominaniem sobie dwunastu wydarzeń z dzieciństwa
jest tak duża, że u osób badanych narasta przekonanie, iż w gruncie rzeczy
bardzo niewiele pamiętają z tego okresu. Prześledźmy krok po kroku proce-
durę eksperymentalną zastosowaną w tym badaniu.

HIPOTEZY BADAWCZE I HIPOTEZY STATYSTYCZNE

Piotr Winkielman, Norbert Schwarz i Robert Belli przeprowadzili ekspery-


ment po to, aby odpowiedzieć na pytanie: „Czy trudności z przypominaniem
wpływają na przekonanie co do sprawności własnej pamięci?”.
Hipoteza badawcza, którą sformułowali, dosłownie brzmiała tak: „[...] mogą
oni [ludzie – P. F. i R. M.] oceniać swoją pamięć jako dobrą, kiedy doświad-
czają tego, że przypominanie sobie pewnych wydarzeń przychodzi im łatwo,
a jako złą wtedy, gdy doświadczają tego, że przypominanie sobie pewnych
zdarzeń przychodzi trudno” (s. 124). Hipoteza ta dotyczy związku między
zmiennymi: „doświadczenie łatwości przypominania”, „doświadczenie trud-
ności przypominania” i „ocena własnej pamięci”. Wszystkie zmienne zostały
zoperacjonalizowane. „Ocena własnej pamięci” to po prostu odpowiedź oso-
by badanej („tak” lub „nie”) na pytanie o to, czy jest wiele zdarzeń z dzie-
ciństwa, których nie pamięta. Z kolei doświadczenie łatwości i trudności
246 WNIOSKOWANIE STATYSTYCZNE

przypominania sobie zostało wzbudzone przez prośbę o wymienienie, od-


powiednio, czterech i dwunastu wspomnień z dzieciństwa. Jeżeli terminy
teoretyczne zastąpi się terminami empirycznymi, to hipoteza badawcza
w tym eksperymencie powinna być sformułowana w następujący sposób:
Liczba osób, które odpowiedzą twierdząco na pytanie dotyczące braku
wspomnień z dzieciństwa, będzie większa w grupie, w której poproszono
o wymienienie dwunastu wspomnień, niż w grupie, w której proszono o wy-
mienienie czterech wspomnień.
W statystyce hipotezę badawczą określa się z reguły jako hipotezę alterna-
tywną i oznacza symbolem H1 (jeśli w jednym badaniu będzie ich więcej, to
odpowiednio będą oznaczane H2, H3 itd.). Dla omawianego tu eksperymentu
hipotezę alternatywną można zapisać w sposób następujący:
H1: procent odpowiedzi „tak” w grupie „dwunastu wspomnień” jest większy
niż procent odpowiedzi „tak” w grupie „czterech wspomnień”,
lub jeszcze krócej:
H1: p12 〉 p4
p4 procent odpowiedzi „tak” w grupie osób przypominających sobie cztery wydarzenia,
p12 procent odpowiedzi „tak” w grupie osób przypominających sobie dwanaście wydarzeń.

Możliwe jest jednak także i to, że przewidywania autorów eksperymentu są


nieuzasadnione i nie ma żadnej zależności pomiędzy łatwością przypomina-
nia sobie wydarzeń z przeszłości a oceną sprawności własnej pamięci. Za-
leżność tego typu określana jest w statystyce jako hipoteza zerowa i ozna-
cza się ją H0. W naszym przykładzie brzmiałaby ona mniej więcej tak:
H0: procenty odpowiedzi „tak” w grupie „dwunastu wspomnień” i w grupie
„czterech wspomnień” nie różnią się od siebie,
lub:
H0: p12 = p4

HIPOTEZY JEDNOSTRONNE I DWUSTRONNE, CZYLI W LEWO I W PRAWO

Testowanie hipotez można porównać do procesu podejmowania decyzji


Z dwóch hipotez: zerowej i alternatywnej, trzeba wybrać tę, która jest bar-
dziej prawdopodobna. O tym, jakie jest kryterium podejmowania tej decyzji,
piszemy w dalszej części tego rozdziału. Tutaj chcemy Ci zwrócić uwagę na
sposób sformułowania hipotezy alternatywnej. Winkielman, Schwarz i Belli,
w opisanym eksperymencie dotyczącym oceny własnej pamięci na podsta-
wie wspomnień z dzieciństwa, sformułowali ją następująco:
PODSTAWY WNIOSKOWANIA STATYSTYCZNEGO 247

H1: procent odpowiedzi „tak” w grupie „dwunastu wspomnień” jest większy


niż procent odpowiedzi „tak” w grupie „czterech wspomnień”.
Gdyby tok rozumowania autorów eksperymentu był nieco inny, mogliby
wówczas postawić taką hipotezę:
H1: procent odpowiedzi „tak” w grupie „dwunastu wspomnień” jest mniej-
szy niż procent odpowiedzi „tak” w grupie „czterech wspomnień”.
Albo jeszcze inną:
H1: procent odpowiedzi „tak” w grupie „dwunastu wspomnień” jest inny niż
procent odpowiedzi „tak” w grupie „czterech wspomnień”.
Dwie pierwsze wersje hipotezy alternatywnej to hipotezy kierunkowe. Na-
zwa bierze się stąd, że użyte jest w nich sformułowanie „większy niż” albo
„mniejszy niż” wskazują na przewidywany przez badaczy kierunek różnic.
Kierunek ten można oznaczyć za pomocą znaków „<” lub „>”. Użyliśmy już
drugiego z tych znaków, zapisując hipotezę alternatywną w eksperymencie
Winkelmana i współpracowników w następujący sposób:
H1: p12 > p4
Drugą wersję hipotezy alternatywnej można zapisać, zmieniając znak „więk-
szości” na znak „mniejszości”:
H1: p12 < p4
W celu odróżnienia od siebie tych hipotez często używa się określeń hipote-
za prawostronna i hipoteza lewostronna. W przypadku omawianego eks-
perymentu, badanych, którzy wymieniali cztery wspomnienia z dzieciństwa,
można potraktować jako grupę kontrolną, ponieważ – zgodnie z przypusz-
czeniem autorów – wymienianie tylko czterech wspomnień nie powinno
mieć istotnego wpływu na ocenę własnej pamięci. Z kolei ci badani, którzy
wymieniali aż dwanaście wspomnień, to grupa eksperymentalna. Autorzy
eksperymentu doszli do wniosku, że próba przypomnienia sobie dwunastu
wspomnień z dzieciństwa powinna być sporym wyzwaniem dla osób bada-
nych. Będą one więc działały w szczególnych warunkach. Najczęściej hipo-
tezę alternatywną, która przewiduje, że wyniki grupy eksperymentalnej będą
wyższe niż wyniki grupy kontrolnej, nazywa się hipotezą prawostronną, a tę
hipotezę, która przewiduje, że wyniki grupy eksperymentalnej będą niższe
niż w grupie kontrolnej, nazywa się hipotezą lewostronną.
Korzystając ze znaków większości i mniejszości, hipotezy te można zapisać
w taki sposób:
H1(prawostronna): wynik w grupie eksperymentalnej > wynik w grupie kontrolnej,
H1(lewostronna): wynik w grupie eksperymentalnej < wynik w grupie kontrolnej.
248 WNIOSKOWANIE STATYSTYCZNE

Winkielman i jego współpracownicy testowali więc prawostronną hipotezę


alternatywną.
Hipoteza alternatywna, w której zamiast wskazówki dotyczącej kierunku
znajdują się takie określenia, jak „inny” lub „różny”, to tzw. hipoteza bez-
kierunkowa lub dwukierunkowa. Badacz, który formułuje taka hipotezę, nie
przesądza, czy z dwóch porównywanych grup danych wyższe będą wyniki
w grupie pierwszej, czy w drugiej. Przypuszcza tylko, że będą się one od
siebie różniły.
Dokładniej wrócimy jeszcze do tego zagadnienia w rozdziale poświęconym
testowaniu hipotez dotyczących średnich.
Podsumowując, chcemy podkreślić, że:
• Po pierwsze, w najprostszej sytuacji badawczej, czyli w takiej, w której
badacz manipuluje i kontroluje jedną dwuwartościową zmienną nieza-
leżną, może on postawić tylko jedną hipotezę alternatywną. Zgodnie
z nią spodziewa się, że kontrolowana przez niego zmienna ma wpływ na
zmienną zależną. Gdy nie umie przewidzieć, jaki jest to wpływ, wów-
czas stawia hipotezę bezkierunkową. Jeśli zaś ma podstawy do tego, aby
przypuszczać, jaka będzie relacja między wynikami w porównywanych
grupach, to stawia hipotezę kierunkową. Każdej hipotezie alternatywnej
towarzyszy jedna hipoteza zerowa. Zgodnie z nią żaden czynnik kontro-
lowany przez badacza nie ma wpływu na wyniki eksperymentu.
• Po drugie, sformułowanie hipotezy alternatywnej jest rezultatem pogłę-
bionej wiedzy badacza, a nie przypadku. Winkielman i jego współpra-
cownicy przewidywali, że osoby przypominające sobie więcej wspo-
mnień z dzieciństwa będą oceniały swoją pamięć jako gorszą, ponieważ
na tę ocenę negatywnie wpłynie poczucie trudności związane z wykona-
niem tego zadania. Doszli do takiego wniosku na podstawie teorii, zgod-
nie z którą w zadaniach wymagających przypominania sobie faktów z
przeszłości ludzie traktują swoje emocje (czyli tutaj poczucie trudności
* Por. Schwarz, N., Bless, H., przypominania) jako ważne źródło informacji*. Gdyby uznali, że na oce-
Strack, F., Klumpp, G., Ritte- nę własnej pamięci wpływa np. poczucie sukcesu związane z przypo-
nauer-Schatka, H. (1991). Ease
of retrieval as information: mnieniem sobie aż dwunastu wspomnień, wtedy zapewne postawiliby
Another look at the availability lewostronną hipotezę alternatywną. Gdyby zaś przyjęli, że trudności
heuristic. Journal of Personality
and Social Psychology, 61,
z przypominaniem, poczucie sukcesu lub inne przyczyny mogą wpłynąć
195-202. na poczucie pamiętania, wtedy postawiliby hipotezę bezkierunkową.

CZY JEŚLI ULICA JEST MOKRA, TO PADAŁ DESZCZ? O PRAWDZIWOŚCI HIPOTEZ STATYSTYCZNYCH

Czy fakt, że 46% osób z grupy tych, którzy mieli sobie przypomnieć dwana-
ście wydarzeń z dzieciństwa, uważa, iż jest wiele takich wydarzeń, których
PODSTAWY WNIOSKOWANIA STATYSTYCZNEGO 249

nie pamiętają, a w grupie osób przypominających sobie tylko cztery takie


zdarzenia brak zaufania do własnej pamięci wyraża 19% osób, oznacza, że
hipoteza postawiona przez badaczy jest prawdziwa, tzn. jej treść jest zgodna
z rzeczywistością?
Oczywiście, gdy mówimy o zgodności z rzeczywistością, nie chodzi nam
o to, czy wynik eksperymentu jest taki, jak opublikowali go autorzy, ale o to,
czy pozwala na sformułowanie ogólnej prawidłowości, np. takiej, że trudno-
ści z przypominaniem obniżają zaufanie do sprawności własnej pamięci.
Zanim odpowiemy na to pytanie, wyobraź sobie następującą sytuację.
Mieszkasz w suterenie i okno z Twojego pokoju wychodzi na ulicę w taki
sposób, że nie widać nieba. Kiedy rano chcesz się zorientować, jaka jest po-
goda, wyglądasz przez okno i myślisz mniej więcej tak: jeśli ulica przed
oknem jest sucha, to znaczy, że nie pada, a jeśli jest mokra, to znaczy, że
mógł padać albo pada deszcz.
Pierwsze stwierdzenie to odpowiednik hipotezy zerowej, a drugie – hipotezy
alternatywnej.
Zauważ jednak, że wynik Twojego wnioskowania to jedna rzecz, a to, jak
jest naprawdę, to zupełnie co innego. Może być bowiem tak, że ulica jest
mokra, ponieważ zepsuł się pobliski hydrant albo przejechała polewaczka.
Wówczas nie jest prawdą, że mokra ulica oznacza deszcz. Może być również
tak, że ktoś poprzedniego dnia postawił przed oknem wiatę i wokół jest su-
cho, ale to wcale nie musi znaczyć, że nie pada.
Podobnie jest w przypadku eksperymentu przeprowadzonego przez Win-
kielmana i współpracowników.
Uzyskana przez nich proporcja 46% do 19% może oznaczać, że rzeczywi-
ście trudność z przypominaniem sobie zdarzeń z dzieciństwa ma wpływ na
obniżenie przekonania o sprawności własnej pamięci, ale równie dobrze mo-
że oznaczać, że takiej zależności wcale nie ma.
Rozkład proporcji odpowiedzi udzielonych przez następne dwie grupy stu-
dentów (nawet z tego samego uniwersytetu) mógłby być przecież odwrotny,
a już z pewnością nie byłby taki sam, jak w przeprowadzonym badaniu.
Hipotezy statystyczne są tylko hipotezami (a nie tezami) – nie można po-
wiedzieć, czy naprawdę jest tak, jak głosi hipoteza alternatywna, czy tak, jak
głosi hipoteza zerowa.
Można jednak stwierdzić coś innego, co w praktyce jest zupełnie wystarcza-
jące – otóż można ustalić, która z tych hipotez jest bardziej prawdopodob-
na. Inaczej mówiąc: można stwierdzić, która z nich z większym prawdopo-
dobieństwem odzwierciedla rzeczywistą relację między analizowanymi
zmiennymi.
250 WNIOSKOWANIE STATYSTYCZNE

INDUKCJA I EKSPERYMENT PSYCHOLOGICZNY

Testowanie hipotez w statystyce można uznać za formę rozumowania in-


* Nie wszyscy się z tym zgadza- dukcyjnego*. Jest to taki typ wnioskowania, w którym na podstawie pewnej
ją, ale nie będziemy tu wnikać w liczby szczegółowych faktów (lub tylko jednego takiego faktu) chcemy zna-
spory statystyków. Przystępnie
zaprezentował je Klemens Sza- leźć ogólną regułę dotyczącą wszystkich obiektów pewnego typu. Taka de-
niawski w artykule Wnioskowa- finicja indukcji jest trochę uproszczona, ale na nasze potrzeby w zupełności
nie czy behaviour, opublikowa-
nym w zbiorze O nauce, rozu-
wystarczy**. W przypadku eksperymentu psychologicznego, na podstawie
mowaniu i wartościach (1994, analizy pewnej liczby przypadków, badacz wyciąga wniosek, że tak jak za-
Warszawa: PWN, s. 139-147). chowują się uczestnicy jego eksperymentu, tak też zachowaliby się inni lu-
** Samo zresztą zdefiniowanie dzie, gdyby tylko wzięli w nim udział. Oczywiście odrębną sprawą jest roz-
indukcji przysparza wiele kłopo- strzygnięcie, czy podczas eksperymentu ktokolwiek zachowuje się tak, jak
tów. Na przykład Mała encyklo- zachowałby się w sytuacji pozaeksperymentalnej.
pedia logiki (1988), pod. red.
Witolda Marciszewskiego,
w ogóle nie zawiera definicji
Specyfika eksperymentów psychologicznych polega na tym, że najczęściej...
indukcji jako takiej, lecz jedynie biorą w nich udział ludzie (niezależnie od tego, że całkiem sporo ekspery-
definicje kilku różnych jej mentów psychologicznych przeprowadzono również na zwierzętach). Otóż
typów.
w każdym momencie, również podczas eksperymentu, bardzo wiele czynni-
ków wpływa na zachowania się osób (lub zwierząt) testowanych. Badacz
nigdy nie wie z całą pewnością, w jakim zakresie zachowanie, które udało
mu się zaobserwować, jest wynikiem działania czynników, które kontrolo-
wał (czyli zmiennej niezależnej głównej), a w jakim innych czynników, któ-
rych działania nie przewidział (czyli zmiennych zakłócających). Nie wie
nawet tego, czy te inne niekontrolowane czynniki całkowicie nie zaciemniły
rzeczywistego obrazu zachowania się osób badanych.

KANON JEDYNEJ RÓŻNICY, CZYLI OSTATNIA DESKA RATUNKU

Większość eksperymentów w psychologii opartych jest na kanonie jedynej


różnicy Milla, o którym pisaliśmy w pierwszej części książki, poświęconej
metodom badań psychologicznych. Zgodnie z tą zasadą, jeżeli jakieś zjawi-
sko występuje w jednej sytuacji, a w drugiej nie, i sytuacje te różnią się tylko
ze względu na jedną cechę, to właśnie ta cecha jest przyczyną występowania
tego zjawiska.
Gdybyśmy zastosowali tę zasadę do eksperymentu Piotra Winkielmana i
współpracowników, wówczas musielibyśmy stwierdzić, że jeżeli ludzie
przypominający sobie cztery wydarzenia z dzieciństwa lepiej oceniają swoją
pamięć niż osoby przypominające sobie dwanaście wydarzeń, to znaczyłoby
to, że łatwość przypominania wpływa na ocenę własnej pamięci. Sytuacja
jednak jest nieco bardziej skomplikowana, ponieważ tak naprawdę nie
wszystkie osoby badane w grupie „czterech wspomnień” lepiej oceniły swo-
ją pamięć z dzieciństwa niż badani w grupie „dwunastu wspomnień”. Na
pewno w grupie przypominającej sobie dwanaście wspomnień znalazła się
PODSTAWY WNIOSKOWANIA STATYSTYCZNEGO 251

co najmniej jedna osoba, która oceniała swoją pamięć dzieciństwa jako lep-
szą niż przynajmniej jedna osoba z grupy „czterech wspomnień”. Wniosko-
wanie na podstawie wyników eksperymentu psychologicznego nie polega na
znajdowaniu stałych zależności typu: „każdy, kto ma kłopoty z przypomina-
niem sobie, będzie źle oceniał swoją pamięć”.
A teraz uważaj: wnioskowanie w psychologii to poszukiwanie pewnych ten-
dencji w zachowaniu się ludzi.
Stwierdzenie, że więcej ludzi z grupy „czterech wspomnień” lepiej ocenia
swoją pamięć niż z grupy „dwunastu wspomnień”, może prowadzić jedynie
do uogólnienia typu „jeżeli ktoś odczuwa trudności z przypominaniem sobie
pewnych wydarzeń, to jest bardziej prawdopodobne (a nie stuprocentowo
pewne), że będzie oceniał swoją pamięć jako gorszą niż ten, kto nie odczuwa
trudności z przypominaniem”.
Dobrze oddaje tę zasadę przykład z ekstrawertykiem. Zasadniczo lubi on
kontakty z innymi ludźmi, łatwo nawiązuje nowe znajomości oraz unika sy-
tuacji, w których czułby się samotny. Nawet jednak bardzo towarzyska oso-
ba może zamrozić kontakty ze znajomymi, choćby na czas sesji egzamina-
cyjnej (ciekawe, czy znasz kogoś takiego). Opis ekstrawertyka ujawnia więc
przede wszystkim najbardziej typową charakterystykę jego zachowania,
pewną jego względnie stałą skłonność lub tendencję, ale tak naprawdę ta
charakterystyka staje się dla nas wyrazista dopiero wtedy, gdy zostanie ze-
stawiona z typowym opisem zachowania się introwertyka.

HISTORYCZNE TESTOWANIE PROPORCJI LONDYŃCZYKÓW DO LONDYNEK

Najprościej można zdefiniować test statystyczny jako procedurę uogólniania


wyników przeprowadzonego eksperymentu. Dokładniej mówiąc, test polega
na sprawdzeniu, czy otrzymane wyniki nie są dziełem przypadku. Autorem
pierwszego takiego testu był John Arbuthnot, który w roku 1710 chciał
sprawdzić, czy to, że w Londynie rodzi się więcej mężczyzn niż kobiet, jest
przypadkowe, czy też odzwierciedla jakąś stałą tendencję*. Mówiąc współ-
czesnym językiem, możemy powiedzieć, że jego hipoteza zerowa brzmiała:
H0: W Londynie rodzi się tyle samo kobiet co mężczyzn.
Żeby sprawdzić, czy rzeczywiście tak jest, Arbuthnot przeanalizował dane
John Arbuthnot dotyczące płci dzieci, które urodziły się w Londynie w ciągu ostatnich 82
(1667-1735) lat. Okazało się, że we wszystkich przeanalizowanych przez niego latach
* Opis tego pierwszego testu sta- liczba chłopców była wyższa niż liczba dziewcząt.
tystycznego znaleźliśmy w
książce: Gigerenzer, G., Murray,
D. (1987). Cognition as intuitive
Arbuthnot przyjął na wstępie swojej analizy, że ponieważ są dwie płci, więc
statistics. Hillsdale: Erlbaum. prawdopodobieństwo, że w jednym roku będzie więcej chłopców niż dziew-
252 WNIOSKOWANIE STATYSTYCZNE

1
czynek (lub odwrotnie: dziewczynek niż chłopców), wynosi . Podobnie
2
jak w przypadku rzutu monetą – wypadnie orzeł albo reszka. Dalej Arbuth-
not rozumował w następujący sposób: ponieważ prawdopodobieństwo prze-
1
wagi noworodków jednej płci w ciągu jednego roku wynosi , więc szansa,
2
że będzie więcej noworodków tej samej płci w dwóch kolejnych latach, wy-
1 1
niesie × , czyli znowu tak jak w przypadku rzutu, ale tym razem dwoma
2 2
1
monetami – prawdopodobieństwo wypadnięcia dwóch orłów też wynosi .
4
Kontynuując ten kierunek myślenia, Arbuthnot doszedł do wniosku, że
prawdopodobieństwo tego, że w kolejnych 82 latach urodzi się więcej
1
chłopców niż dziewczynek, wynosi 82 . Czy wiesz, ile to jest? Zero, a po
2
przecinku 23 zera, a potem czwórka. Przyznasz, że to niewiele.

NA SCENĘ WKRACZA RODZINA PEARSONÓW

John Arbuthnot przeprowadził swoją analizę po to, by dowieść, że jest bar-


dzo mało prawdopodobne, by przez 82 lata z rzędu przypadkiem w jednym
mieście urodziło się więcej chłopców niż dziewczynek. Przypomnijmy, hi-
potezą zerową w jego „eksperymencie” było stwierdzenie, że nie ma żadne-
go powodu, by rodziło się więcej chłopców albo więcej dziewczynek. Arbu-
thnot wyliczył jednak, że jest pewne prawdopodobieństwo, że przypadkiem
przez 82 lata będzie się rodziło więcej chłopców niż dziewczynek, choć jest
ono niewielkie. Jest to więc prawdopodobieństwo uzyskania takiego wyniku
w eksperymencie, jaki się właśnie uzyskało (czyli 82 lata przewagi urodzin
chłopców nad dziewczynkami), przy założeniu, że prawdziwa jest hipoteza
zerowa. I to właśnie jest istotą testu statystycznego.

Karl Pearson
Test statystyczny możemy więc zdefiniować jako procedurę pozwalającą na
(1857-1936) obliczenie prawdopodobieństwa otrzymania danego wyniku w eksperymen-
cie przy założeniu, że prawdziwa jest hipoteza zerowa.
Kluczowe w tej definicji jest wzajemne odniesienie dwóch pojęć: „wyniku w
eksperymencie” i „prawdopodobieństwa uzyskania tego wyniku”. U Johna
Arbuthnota wynikiem badań była liczba kolejnych lat, w których urodziło
się więcej chłopców niż dziewczynek.
A co jest wynikiem w eksperymencie Winkielmana i współpracowników do-
tyczącym związku między trudnością przypominania a oceną własnej pa-
mięci? Otóż jest nim proporcja tych, którzy przyznawali się do trudności
PODSTAWY WNIOSKOWANIA STATYSTYCZNEGO 253

w przypominaniu sobie zdarzeń z dzieciństwa w grupie wymieniających


cztery wspomnienia i w grupie wymieniających dwanaście wspomnień. Pro-
porcje te wyniosły odpowiednio 19% i 46%. Prawdopodobieństwo przypad-
kowego uzyskania takich proporcji wynosi 0,046.
To, w jaki sposób obliczyć takie prawdopodobieństwo, zaproponował Karl
Pearson w roku 1900. Opisaną przez niego procedurę uważa się za pierwszy
współczesny test statystyczny. Rozwinięciem jego idei będziemy się zajmo-
wali jeszcze wielokrotnie w następnych rozdziałach tej książki.

Z JAKIM PRAWDOPODOBIEŃSTWEM MOŻNA ODRZUCIĆ HIPOTEZĘ ZEROWĄ?

Ustaliliśmy, że test statystyczny to procedura obliczania prawdopodobień-


stwa uzyskania takich wyników w eksperymencie, jakie otrzymaliśmy, za-
kładając, że hipoteza zerowa jest prawdziwa.
Zacznijmy od końca. Napisaliśmy, że w eksperymencie Winkielmana oraz
współpracowników prawdopodobieństwo, iż hipoteza zerowa jest prawdzi-
wa, wynosi 0,046. Co mamy z tym zrobić? Czy to znaczy, że hipoteza zero-
wa jest prawdziwa, czy też, że należy ją odrzucić i przyjąć, iż bardziej praw-
dopodobna jest hipoteza alternatywna? Innymi słowy, trzeba zdecydować,
czy bardziej „opłaca się” wierzyć w to, że hipoteza zerowa jest prawdziwa,
a uzyskany przez nas wynik jest dziełem przypadku, czy też lepiej uznać, że
jest inaczej, niż głosi hipoteza zerowa, a uzyskany przez nas wynik odzwier-
ciedla pewną rzeczywiście istniejącą zależność.
Nie możemy jednak podjąć takiej decyzji, dopóki nie ustalimy, z jakim
prawdopodobieństwem należy odrzucić hipotezę zerową.
Prawdopodobieństwo to, zwane poziomem odrzucania hipotezy zerowej,
należy określić, zanim przystąpi się do eksperymentu. W zdecydowanej
większości przypadków badań psychologicznych nie musimy się o to mar-
twić, gdyż tradycyjnie się przyjęło, że hipotezę zerową należy odrzucać wte-
dy, gdy prawdopodobieństwo, że hipoteza zerowa jest prawdziwa, jest
mniejsze niż 0,05.
Piotr Winkielman i jego współpracownicy uzyskali zatem taki wynik, który
pozwala na odrzucenie hipotezy zerowej. Osoby z grupy „czterech wspo-
mnień” i z grupy „dwunastu wspomnień” różnie oceniały swoją pamięć.

CZY SIR RONALD FISHER MIAŁ RACJĘ?

Jaką wiedzę posiadł badacz, który odrzucił hipotezę zerową? Pierwszy na to


pytanie odpowiedział angielski statystyk, sir Ronald Fisher. Zajmował się on
głównie zastosowaniem metod statystycznych w rolnictwie i przez 14 lat
254 WNIOSKOWANIE STATYSTYCZNE

pracował na polu doświadczalnym w Rothamsted, położonym 25 mil na pół-


noc od Londynu.
Otóż Fisher doszedł do wniosku, że test statystyczny dotyczy tylko hipotezy
zerowej, a jej odrzucenie pozwala badaczowi jedynie na stwierdzenie, jak
nie jest. Nie pozwala natomiast na stwierdzenie, jaka jest naprawdę relacja
między zmiennymi. Innymi słowy: procedura testowania hipotezy pozwala
jedynie na odrzucenie hipotezy zerowej, ale nie pozwala na przyjęcie hipote-
zy alternatywnej.
To właśnie Fisher zaproponował, aby hipotezę zerową odrzucać wtedy, gdy
prawdopodobieństwo obliczone dla wyników eksperymentu jest mniejsze
niż 0,05.
Sir Ronald Aylmer Fisher
(1890-1962) Mógł więc Arbuthnot twierdzić, że nierówna proporcja urodzin chłopców
i dziewcząt w Londynie nie jest dziełem przypadku, ale nie mógł twierdzić,
że jest wynikiem oddziaływania jakiegoś znanego mu czynnika.
Dlaczego więc Winkielman z kolegami, na podstawie wyników eksperymen-
tu, wyciągnęli wniosek, że trudności w przypominaniu mogą być wykorzy-
stane jako informacja o stanie własnej pamięci, skoro jedyne, co mogli
uczynić, to odrzucić hipotezę zerową? Żeby odpowiedzieć na to pytanie,
trzeba się odwołać do rezultatów pewnej historycznej debaty między trzema
wybitnymi statystykami: Ronaldem Fisherem, Egonem Pearsonem i Jerzym
Neymanem.

CO MOŻE WYNIKNĄĆ Z NIECHĘCI I PRZYJAŹNI MIĘDZY STATYSTYKAMI?

Ronald Fisher opisał logikę testowania hipotezy zerowej, a Karl Pearson


z powodzeniem wykorzystał te idee do skonstruowania pierwszego współ-
czesnego testu statystycznego. Ten przykład niemal wzorcowej współpracy
między uczonymi bynajmniej nie wyrastał na osobistych więzach przyjaźni.
Niestety, obydwaj panowie niezbyt się lubili. Zdaje się jednak, że to raczej
Ronald niechętnie odnosił się do większości współczesnych mu statystyków.
Ten brak sympatii przeniósł także na syna Karla Pearsona – Egona, również
wybitnego matematyka i statystyka. Ten jednak nie pozostał mu dłużny.
W 1925 roku Egon w gabinecie swojego ojca spotkał Jerzego Neymana, Po-
laka, stypendystę Fundacji Rockefellera, przebywającego wówczas na lon-
dyńskim University Collage. Obaj się zaprzyjaźnili i wspólnie przystąpili do
Egon Pearson ataku na twierdzenie Fishera, że testowana jest tylko hipoteza zerowa.
(1895-1980)
Jerzy Neyman i Egon Pearson, wychodząc z nieco innych założeń, o których
nie będziemy tu pisać, twierdzili, że w gruncie rzeczy testowanie hipotez nie
polega bynajmniej na wnioskowaniu, lecz jedynie na podejmowaniu decyzji,
PODSTAWY WNIOSKOWANIA STATYSTYCZNEGO 255

* Do dzisiaj jednak sceptycy która z dwóch wziętych pod uwagę hipotez jest bardziej prawdopodobna: ze-
zastanawiają się, czy takie połą- rowa czy alternatywna.
czenie w ogóle jest możliwe.
Piszą na ten temat m.in.: Po latach doszło jednak do zbliżenia tych stanowisk. Od Fishera wzięto ideę
Klemens Szaniawski (1994).
O nauce, rozumowaniu i warto- odrzucania hipotezy zerowej przy poziomie α = 0,05. Od Neymana i Pearso-
ściach. Warszawa: PWN oraz na zaś wzięto ideę porównywania prawdopodobieństw hipotezy zerowej
Gerd Gigerenzer i David Murray
(1987). Cognition as intuitive
i hipotezy alternatywnej, w wyniku którego jako poprawny przyjmuje się
statistics. Hillsdale: Erlbaum. wniosek, że jeżeli hipoteza zerowa została odrzucona, to jako prawdziwą
można przyjąć hipotezę alternatywną*.

ETAPY TESTOWANIA HIPOTEZ – PODSUMOWANIE

Wszystko to, co napisaliśmy do tej pory na temat testowania hipotez, można


podsumować następująco. Testowanie hipotez przebiega według następują-
cych etapów.
• Formułujemy parę wykluczających się hipotez. Ta, która nie stwierdza
żadnej zależności pomiędzy zmiennymi, nazywa się hipotezą zerową,
a ta, która sugeruje taką zależność – hipotezą alternatywną.
• Ustalamy, jaki jest kryterialny poziom odrzucania hipotezy zerowej.
Z reguły przyjmuje się poziom 0,05.
• Zakładamy, że hipoteza zerowa jest prawdziwa.
• Projektujemy i przeprowadzamy eksperyment, którego rezultatem jest
Jerzy Neyman
(1894-1981)
jakiś wynik.
• Oceniamy, jakie jest prawdopodobieństwo otrzymania w eksperymencie
tego wyniku przy założeniu, że prawdziwa jest hipoteza zerowa.
• Jeżeli to prawdopodobieństwo jest mniejsze niż ustalone kryterium, to
możemy odrzucić hipotezę zerową i przyjąć hipotezę alternatywną. Jeśli
zaś to prawdopodobieństwo jest większe niż przyjęte kryterium, to
wnioskujemy, iż nie ma podstaw do odrzucenia hipotezy zerowej.
• Treść hipotezy, którą przyjmujemy za prawdziwą, nie przesądza osta-
tecznie, jak jest w rzeczywistości. Wnioskowanie statystyczne ma cha-
rakter indukcyjny, tzn. wnioski nie są pewne, a możemy jedynie podać,
z jakim prawdopodobieństwem są one zgodne z faktyczną relacją po-
między badanymi zmiennymi.
256 WNIOSKOWANIE STATYSTYCZNE

5.3. BŁĘDY WNIOSKOWANIA STATYSTYCZNEGO

GRA POMIĘDZY PRAKTYKIEM, TEORETYKIEM I PRZYRODĄ

Klemens Szaniawski* porównuje testowanie hipotez do gry, w której biorą


udział trzej gracze: Praktyk, Teoretyk i Przyroda. Ten ostatni czasami nazy-
wany jest także Diabłem.
Wyobraź sobie, że zbliża się sesja egzaminacyjna. Jeden z egzaminów jest
bardzo trudny (może być ze statystyki, czemu nie?), a Tobie bardzo zależy
na tym, aby wypaść na nim jak najlepiej. Jesteś więc Praktykiem, który ma
określony cel: interesuje Cię jak najlepsza ocena na egzaminie. Chcesz tego
z jakiegoś powodu, ma to dla Ciebie szczególną wartość. Nie masz jednak
pewności, w jaki sposób należałoby się uczyć statystyki, by zdać egzamin.
Na jednym z wykładów dowiedziałeś się, że sukces na studiach jest uzależ-
niony od sposobu podejścia do uczenia się**. Są tacy, którzy wszystkiego
Klemens Szaniawski uczą się na pamięć, ale są i tacy, którzy starają się dobrze rozumieć to, czego
(1925-1993) się uczą. Są wreszcie i tacy, którzy stosują tzw. podejście strategiczne, czyli
* Szaniawski, K. (1994). O na- dopasowują sposób uczenia się do specyficznych wymagań egzaminacyj-
uce, rozumowaniu i wartościach. nych. „Stratedzy” uczą się ze zrozumieniem tylko wtedy, gdy uznają, że mo-
Warszawa: PWN. Artykuł, na
który się powołujemy, nosi tytuł
że to mieć pozytywny wpływ na końcową ocenę. Gdy jednak mają przeko-
Współczesne ujęcie procedur in- nanie, że do dobrego wyniku wystarczy nauczyć się na pamięć kilku defini-
dukcyjnych i został po raz pierw- cji, nie gardzą i tym sposobem zdobycia korzystnej oceny. Te trzy podejścia
szy opublikowany w roku 1965.
do uczenia się można w skrócie określić jako „uczenie się na pamięć”,
** Zob. Entwistle, N. J., Waters- „uczenie się ze zrozumieniem” i „uczenie się dla jak najlepszej oceny”.
ton, S. (1988). Approaches to
studying and levels of Wiedza na temat różnych strategii uczenia się jest domeną Teoretyka. On nie
processing in university stu-
dents. Bri-tish Journal of Educa-
zna Twojego problemu związanego ze zdawaniem egzaminu ze statystyki.
tional Psychology, 58, 258-265. Jego interesuje odpowiedź na pytanie, które podejścia do uczenia się gwa-
rantują sukces egzaminacyjny, a nie to, które podejście jest najkorzystniejsze
dla Ciebie w Twojej konkretnej sytuacji życiowej.
Teoretyk, który będzie poszukiwał odpowiedzi na swoje pytanie, może za-
projektować eksperyment i sprawdzić, jaki sposób uczenia się daje lepsze
efekty. Może np. zbadać, czy studenci, którzy strategicznie przygotowywali
się do różnych egzaminów, uzyskiwali lepsze wyniki od studentów, którzy
starali się zrozumieć cały materiał na egzamin. Teoretyk nie interesuje się
konsekwencjami Twojej decyzji. On chce wiedzieć, jaka zachodzi relacja
pomiędzy podejściem do uczenia się a wynikiem na egzaminie, niezależnie
od tego, czy dobrze, czy źle jest zdawać jakiekolwiek egzaminy.
Jako Praktyk zastanawiasz się jednak, który sposób uczenia się zastosować
w Twojej sytuacji, w odniesieniu do statystyki. Coraz bardziej przekonuje
Cię podejście strategiczne. Najbardziej pociąga Cię w nim sposób, w jaki
PODSTAWY WNIOSKOWANIA STATYSTYCZNEGO 257

traktujesz materiał, który jest trudno zrozumieć. Gdybyś zdecydował się na


naukę ze zrozumieniem, wtedy najtrudniejszym porcjom materiału musiał-
byś poświęcić najwięcej czasu. Ucząc się „strategicznie”, poświęcisz swój
czas przede wszystkim na zrozumienie tego, co jest łatwe. W ten sposób
gwarantujesz sobie wiele punktów na egzaminie. Trudniejszych fragmentów
nauczysz się na pamięć, licząc na to, że pomogą Ci w skojarzeniach i wybo-
rze właściwej odpowiedzi w teście. Metoda wkuwania statystyki na pamięć
wydała Ci się najmniej efektywna.
Przypuśćmy, że na podstawie wyników badań Teoretyk stwierdził, że stu-
denci, którzy stosowali podejście strategiczne, uzyskiwali wyższe oceny
z egzaminu średnio o 0,7 stopnia niż studenci „uczący się ze zrozumieniem”.
Na tej podstawie Teoretyk podejmie decyzję co do tego, czy faktycznie ist-
nieje związek między podejściem do uczenia się a wynikiem z egzaminu,
czy też nie. Nie wie, jak jest naprawdę. Dysponuje tylko wynikiem ekspe-
rymentu, który przeprowadził, i wiedzą na temat metodologii badań w psy-
chologii. Jego decyzja może być albo poprawna, albo błędna. Wszystkie
możliwe sytuacje zilustrowane są w tabeli 5.7.

Tabela 5.7. Decyzje Naprawdę najefektywniejszą metodą przygotowywania się do


Teoretyk twierdzi, że najefek-
Teoretyka-badacza egzaminów jest ...
tywniejszą metodą przygoto-
i ich konsekwencje
wywania się do egzaminów „uczenie się
jest ... podejście strategiczne
ze zrozumieniem”
(1) podejście strategiczne prawda fałsz
(2) „uczenie się ze zrozu-
fałsz prawda
mieniem”

To, jaką decyzję ostatecznie podejmie Teoretyk, zależy jeszcze od wielu


różnych okoliczności. Wynik eksperymentu skłania go raczej do podjęcia
decyzji (1). Nie ma jednak pewności, jak jest naprawdę. Może się przecież
mylić. Pewne jest tylko to, że konsekwencją decyzji teoretyka jest albo od-
krycie prawdy, albo – jeśli podejmie decyzję niezgodną z tym, jak jest na-
prawdę – nabycie fałszywej wiedzy na jakiś temat.
A co jest konsekwencją Twojej decyzji, jako Praktyka? Dla Ciebie najważ-
niejsze jest to, czy zdasz egzamin. Stoisz wobec tego przed dylematem, czy
kierując się sugestią Teoretyka, powinieneś strategicznie przygotowywać się
do egzaminu ze statystyki, czy też starać się w pełni zrozumieć cały mate-
riał. Jako Praktyk już teraz musisz podjąć decyzję, ale jej skutki będziesz
znał w przyszłości. Może się okazać się, że miałeś rację: wybrałeś podejście
strategiczne i zdałeś bardzo dobrze egzamin albo też zdecydowałeś się na
naukę ze zrozumieniem i też zdałeś egzamin bardzo dobrze. Może też być
i tak, że podjąłeś błędną decyzję: wybrałeś podejście strategiczne i nie zdałeś
egzaminu albo zdecydowałeś się na naukę ze zrozumieniem i też nie zdałeś
egzaminu. Te cztery sytuacje decyzyjne ilustruje tabela 5.8.
258 WNIOSKOWANIE STATYSTYCZNE

Tabela 5.8. Decyzje Praktyka Naprawdę najefektywniejszą metodą przygotowywa-


Jako Praktyk dochodzisz do wnio-
i ich konsekwencje nia się do egzaminu ze statystyki jest ...
sku, że najefektywniejszą metodą
przygotowywania się do egzaminu uczenie się ze zrozumie-
ze statystyki jest... podejście strategiczne
niem
(1) podejście strategiczne zdałeś nie zdałeś
(2) uczenie się ze zrozumieniem nie zdałeś zdałeś

Sytuacja zobrazowana w tabeli 5.7 to tzw. macierz wypłat, czyli zapis kon-
sekwencji (a więc właśnie wypłat) tego, co się stanie, gdy podejmiesz po-
prawną lub błędną decyzję. To, jaki sposób uczenia się wybierzesz – podob-
nie jak w przypadku Teoretyka – także zależy od wielu różnych okoliczności
(np. Twojej motywacji czy subiektywnego poczucia użyteczności wypłat).
Idąc za sugestią Teoretyka, skłaniasz się raczej do podjęcia decyzji (1). Nie
masz jednak pewności, jak jest naprawdę. Możesz się przecież pomylić.
Pewne jest tylko to, że konsekwencją Twojej decyzji jest albo zdanie egza-
minu, albo – jeśli podejmiesz decyzję niezgodną z tym, jak jest naprawdę –
oswojenie się z myślą o sesji poprawkowej.
Na koniec chcielibyśmy zwrócić Twoją uwagę na to, że za sformułowaniem
„jak jest naprawdę” kryje się trzeci gracz z wymienionych na początku tego
rozdziału, czyli Przyroda. Tak naprawdę to tylko on wie, jak jest naprawdę.
Nieraz pewnie śmieje się z wysiłków i nieporadności Teoretyka, a czasem
kpi sobie z celów i chęci Praktyka i właśnie dlatego bywa nazywany Dia-
błem. Nieraz jak „pies ogrodnika” zazdrośnie strzeże swoich tajemnic, ale
bywa i tak, że determinacja Teoretyka w poszukiwaniu prawdy i upór Prak-
tyka dążącego do zaspokojeniu swoich potrzeb zmuszają go do kapitulacji.

PRAWIDŁOWE I BŁĘDNE DECYZJE PRZY TESTOWANIU HIPOTEZY ZEROWEJ

Opisane dylematy Teoretyka odnoszą się do każdej sytuacji badawczej


w naukach indukcyjnych, również w psychologii. Badacz jest Teoretykiem,
który na podstawie wyników przeprowadzonego przez siebie eksperymentu
musi podjąć decyzję dotyczącą związku pomiędzy badanymi zmiennymi.
Jak napisaliśmy w części poświęconej logicznym podstawom testowania hi-
potez, decyzja badacza sprowadza się do oceny prawdopodobieństwa przy-
jęcia lub odrzucenia hipotezy zerowej. W przykładzie z podejściem do ucze-
nia się statystyki hipoteza zerowa będzie brzmieć następująco:
H0: Podejście strategiczne nie jest efektywniejszą metodą przygotowania się
do egzaminu ze statystyki niż uczenie się ze zrozumieniem.
Teoretyk ma dwie możliwości:
• może uznać, że zebrane dane empiryczne nie stanowią dostatecznej pod-
stawy do odrzucenia hipotezy zerowej,
PODSTAWY WNIOSKOWANIA STATYSTYCZNEGO 259

• może uznać, że zebrane dane empiryczne są dostateczną podstawą do


odrzucenia hipotezy zerowej.
Niezależnie od podjętej decyzji, paradoksalnie Teoretyk nigdy nie będzie
wiedział, czy istnieje związek, który bada. Za pomocą różnych metod staty-
stycznych, które przedstawiamy w dalszej części tej książki, może obliczyć
prawdopodobieństwo uzyskania takich wyników, jakie uzyskał, przy założe-
niu, że hipoteza zerowa jest prawdziwa. Nic to jednak mu nie powie o praw-
dopodobieństwie prawdziwości hipotezy zerowej.
Łatwo można zrozumieć, jakie prawdopodobieństwo Teoretyk poznaje, gdy
odwołamy się do przykładu z rzucaniem monetą. Przypuśćmy, że masz wąt-
pliwości, czy moneta, która trzymasz w dłoni, jest symetryczna, czy nie (je-
śli nie jest symetryczna, to znaczy, że jest fałszywa, ale to, co należy zrobić
w takiej sytuacji, jest problemem Praktyka, a nie Teoretyka). Możesz prze-
prowadzić prosty test: podrzuć monetę, powiedzmy, 10 razy i sprawdź, jak
często wypada orzeł i reszka. Załóżmy, że za każdym razem wypadł orzeł.
Prawdopodobieństwo tego, że tak się zdarzy przy rzucaniu symetryczną mo-
10
⎛1⎞
netą, wynosi ⎜ ⎟ = 0,001 . Liczba ta wcale jednak nie oznacza prawdopo-
⎝2⎠
dobieństwa tego, że moneta jest fałszywa. Oznacza ona, jakie jest prawdo-
podobieństwo uzyskania 10 orłów w 10 rzutach prawdziwą monetą. Na pod-
stawie tego wyniku nie możesz więc powiedzieć, jaka jest Twoja moneta.
Możesz jedynie stwierdzić, że gdyby była prawdziwa, wówczas bardzo mało
prawdopodobne byłoby otrzymanie orłów we wszystkich 10 rzutach.
Wypowiadanie się o prawdopodobieństwie hipotezy zerowej, co w praktyce
eksperymentaliści robią bez przerwy, jest więc jedynie wygodnym skrótem
myślowym. Niestety, mimo wielu sporów, jak na razie trudno jest o lepszą
metodę uzasadniania wniosków w naukach empirycznych. Bez przesady
można powiedzieć, że badacz-Teoretyk, w pewnym sensie, zawsze może
podjąć błędną decyzję – zarówno wtedy, gdy uzna, że hipoteza zerowa jest
tak mało prawdopodobna, iż należy ją odrzucić, jak i wtedy, gdy uzna, że nie
ma podstaw do jej odrzucenia. Pierwszy z tych błędów nosi nazwę błędu
I rodzaju albo błędu typu α. Drugi – to błąd II rodzaju, czyli typu β. Sy-
tuacje, w jakich można popełnić oba rodzaje błędów, przedstawione są
w tabeli 5.9.
Koniecznie musimy zwrócić uwagę na fakt, że choć można popełnić dwa
rodzaje błędu, to badacz narażony jest zawsze tylko na jeden z nich. Zgodnie
z powiedzeniem: „Ten, kto nic nie robi, nie popełnia błędów”, badacz jest
bez winy tylko wtedy, gdy nie podejmie żadnej decyzji. Nie po to jednak
planuje się badania empiryczne, aby unikać odpowiedzi na stawiane
w związku z nimi pytania.
260 WNIOSKOWANIE STATYSTYCZNE

Tabela 5.9. Prawidłowe Naprawdę ...


i błędne decyzje we Teoretyk twierdzi, że ...
wnioskowaniu statystycznym H0 jest prawdziwa H0 nie jest prawdziwa
Przyjęcie H0
Przyjęcie H0
H0 jest prawdziwa (decyzja błędna;
(decyzja prawidłowa)
błąd II rodzaju, tzw. β)
Odrzucenie H0
Odrzucenie H0
H0 nie jest prawdziwa (decyzja błędna;
(decyzja prawidłowa)
błąd I rodzaju, tzw. α)

Formalnie rzecz ujmując, odpowiedzią na pytanie jest decyzja na temat


prawdziwości hipotezy zerowej. W zależności od tego, jaką decyzję badacz
podejmie, niejako automatycznie skazuje sam siebie albo na popełnienie
błędu I rodzaju, gdy odrzuci hipotezę zerową, albo na popełnienie błędu II
rodzaju, gdy ją przyjmie (zob. tab. 5.10).

Tabela 5.10. Dwa rodzaje Decyzja badacza Błąd, jaki badacz może popełnić
błędów, jakie popełnia ba-
dacz, przyjmując lub odrzuca- Odrzucić H0 Błąd I rodzaju (α)
jąc hipotezę zerową Przyjąć H0 Błąd II rodzaju (β)

KONSEKWENCJE BŁĘDÓW TYPU α I β

Jak to w życiu bywa, konsekwencje błędów najczęściej są poważniejsze niż


decyzji prawidłowych, a w każdym razie mniej przyjemne. Pocieszeniem
niech będzie to, że ostatecznie Teoretyk nie wie, czy w ogóle popełnił jaki-
kolwiek błąd. Wie jednak, że jest narażony na popełnienie błędu, a jego kon-
sekwencje zależą od tego, czy przyjmie fałszywą hipotezę zerową, czy
odrzuci prawdziwą.
Błąd pierwszego rodzaju bywa także określany jako błąd radykała. W prak-
tyce badawczej popełnienie błędu tego rodzaju prowadzi do ogłaszania świa-
tu zależności, których w rzeczywistości nie ma. Mogłoby to być np. stwier-
dzenie, że strategiczne podejście do uczenia się statystki daje lepsze wyniki
na egzaminie niż uczenie się ze zrozumieniem, podczas gdy faktycznie nie
byłoby żadnego związku pomiędzy tymi podejściami a wynikiem egzaminu.
Waga konsekwencji błędu radykała w znacznym stopniu zależy od potrzeb
i celów Praktyka. Jeżeli bardzo Ci zależy na wyniku egzaminu ze statystyki,
to zapewne wybierając metodę uczenia się, weźmiesz pod uwagę koszty
związane z dokonaniem błędnego wyboru. Teoretyk może mieć rację, twier-
dząc, że uczenie się strategiczne jest bardziej skuteczne, ale – być może –
nie dla Ciebie. Podstawą tego typu podejścia do uczenia się jest umiejętność
rozróżniania tego, co istotne (i co naprawdę musisz zrozumieć), i tego, co
mniej ważne, co możesz ominąć, bo i tak jest mała szansa, że będzie na eg-
zaminie. Być może, statystyka jest takim przedmiotem, że masz obawy co
PODSTAWY WNIOSKOWANIA STATYSTYCZNEGO 261

do swoich umiejętności odróżniania rzeczy ważnych od nieważnych. W ta-


kiej sytuacji, nawet gdy prawdopodobieństwo popełnienia błędu I rodzaju
przez Teoretyka jest bardzo niewielkie, i tak możesz nie chcieć zastosować
się do jego sugestii, z powodu własnych preferencji lub obaw.
Błąd II rodzaju to klasyczny błąd zachowawczego konserwatysty. Konser-
watysta, jak wiadomo, ostrożnie podejmuje decyzje i woli raczej unikać ra-
dykalnych posunięć. Niewątpliwie decyzja przyznająca prymat prawdziwo-
ści hipotezie zerowej (podejście strategiczne do uczenia się statystyki nie da-
je lepszych wyników niż uczenie się ze zrozumieniem) niż hipotezie alterna-
tywnej (podejście strategiczne daje lepsze wyniki niż uczenie się ze zrozu-
mieniem) jest bezpieczniejsza, choćby z tego powodu, że niczego ostatecz-
nie nie przesądza. Pozornie zwalnia też z odpowiedzialności za zbyt rady-
kalne posunięcie. Konserwatysta jednak nie zawsze ma rację i może się zda-
rzyć tak, że nie odrzucając hipotezy zerowej, straci okazję do sformułowania
nowego prawa naukowego. Przez swoją ostrożność może też niepotrzebnie
powstrzymać Praktyka od realizacji jego celów.
Na koniec warto zwrócić uwagę na jeszcze jeden paradoks, związany tym
razem z praktyką publikowania wyników badań psychologicznych np.
w czasopismach naukowych. Niemal we wszystkich tego rodzaju publika-
cjach ich autorzy donoszą, że – w wyniku przeprowadzonych przez nich ba-
dań – należy odrzucić hipotezę zerową. Prawie nikt nie przyznaje się do ba-
dań potwierdzających prawdziwość hipotezy zerowej. To tak, jakby popeł-
nienie błędu II rodzaju było jakąś wstydliwą sprawą, w dobrym zaś tonie –
popełnianie błędu I rodzaju. Nawiasem mówiąc, coś w tym jest. Przyznanie
hipotezie zerowej prymatu nad alternatywną, w pewnym sensie, jest przy-
znaniem się do teoretycznej porażki. Nie po to przecież zabieramy się za ba-
dania, żeby po ich przeprowadzeniu stwierdzić, iż myśl, która nas pchnęła
do ich przeprowadzenia, była – mówiąc oględnie – niezbyt trafiona. Ponie-
waż jednak każde odrzucenie hipotezy zerowej wiąże się z pewnym praw-
dopodobieństwem popełnienia błędu I rodzaju, więc nawet wtedy, gdy to
prawdopodobieństwo jest bardzo małe, możemy mieć pewność, że wśród se-
tek tysięcy publikowanych rocznie artykułów z zakresu psychologii część
opisuje prawidłowości, które po prostu są nieprawdziwe. Problem w tym, że
bardzo trudno jest stwierdzić, które. Jeśli więc czytasz tzw. literaturę facho-
wą, bądź krytyczny i ostrożnie wyciągaj z niej daleko idące wnioski. Nieste-
ty, mogą Cię one zaprowadzić na manowce.

SKĄD SIĘ BIERZE PRAWDOPODOBIEŃSTWO POPEŁNIENIA BŁĘDU I ORAZ II RODZAJU?

Prawdopodobieństwo popełnienia obu rodzajów błędów jest bezpośrednio


związane z przyjętym przez Ronalda Fishera kryterium odrzucania hipotezy
zerowej, czyli poziomem istotności α. Jeżeli więc odrzucisz hipotezę zero-
262 WNIOSKOWANIE STATYSTYCZNE

wą na poziomie α = 0,05, to narażasz się na popełnienie błędu I rodzaju


z dokładnie takim samym prawdopodobieństwem. Nie oznacza to jednak
wcale, że prawdopodobieństwo, iż prawdziwa jest hipoteza alternatywna,
wynosi 0,95. Aby to sobie uświadomić, musimy przypomnieć kilka szczegó-
łów z tego, co wiemy na temat estymacji.
Opisując proces estymacji przedziałowej, wykorzystaliśmy m.in. dane z Pol-
skiego Generalnego Sondażu Społecznego dotyczące frekwencji w wybo-
rach prezydenckich w roku 2000. Dane z tego sondażu są reprezentatywną
próbką dla wszystkich dorosłych Polaków. Wykorzystamy je teraz jeszcze
raz, ale tym razem będziemy chcieli sprawdzić, czy frekwencja w wyborach
prezydenckich istotnie różniła się w dwóch polskich miastach, których na-
zwa zaczyna się na literę „W”, czyli w Warszawie i we Wrocławiu. Liczbę
osób, które przyznały się do udziału w głosowaniu w obu miastach, przed-
stawiamy w tabeli 5.11.

Tabela 5.11. Frekwencja Miasto


w wyborach prezydenckich Udział w wyborach
w roku 2000 w Warszawie Warszawa Wrocław
i we Wrocławiu na podstawie Głosowali 112 31
danych PGSS
Nie głosowali 29 13

Przypomnijmy od razu, że wyniki sondażu dotyczącego udziału w głosowa-


niu nie odzwierciedlają rzeczywistej frekwencji, ponieważ to pytanie należy
do dziedziny „politycznej poprawności”. Ankietowani mają tendencję do
przyznawania się do udziału w wyborach nawet wtedy, gdy nie głosowali,
ponieważ albo mylą im się wybory prezydenckie z parlamentarnymi, albo
chcą wypaść w lepszym świetle przed ankieterem. Bez względu jednak na
to, czy podane w sondażu frekwencje są rzeczywiste, czy zawyżone, może-
my się pokusić o sprawdzenie, czy mieszkańcy Warszawy i Wrocławia róż-
nią się między sobą ze względu na zaangażowanie polityczne.
Zgodnie z procedurą estymacji, musimy potraktować grupy respondentów
obu miast jako próbki pobrane z dwóch populacji. Jak pamiętasz, z każdej
populacji można pobrać nieskończenie wiele takich próbek, a rozkład śred-
nich z tych próbek jest rozkładem normalnym o średniej równej średniej
w populacji i odchyleniu standardowym równym odchyleniu standardowemu
w populacji podzielonemu przez pierwiastek z wielkości próby. (No, w każ-
dym razie pamiętasz to, pod warunkiem, że centralne twierdzenie granicz-
ne nie jest Ci obce.) Przeanalizujmy więc rozkłady średnich dla populacji
obu miast.
Ponieważ nie znamy średnich dla obu populacji, musimy je oszacować na
podstawie danych w posiadanych próbkach. W tym celu zamieniamy
wszystkie odpowiedzi „tak” na „jedynki”, a „nie” na „zera”. To, w jaki spo-
PODSTAWY WNIOSKOWANIA STATYSTYCZNEGO 263

sób obliczyć średnią po zamianie odpowiedzi ankietowanych na zera i je-


dynki, opisaliśmy już w rozdziale o estymacji.
Średnia dla próby z Warszawy wynosi:
112 × 1 + 29 × 0
x (Wa ) = = 0,79
112 + 29
a dla próby z Wrocławia:
31 × 1 + 13 × 0
x (Wr ) = = 0,70
31 + 13
Średnie dla obu miast są odzwierciedleniem proporcji głosujących: do udzia-
łu w wyborach przyznało się 79% osób badanych z Warszawy i 70% ankie-
towanych z Wrocławia. Czy jednak można uznać, że proporcja głosujących
w Warszawie jest znacząco wyższa niż we Wrocławiu? Jak pamiętasz, nie
zawsze średnie w próbkach są takie same, jak średnie w populacji.
Z centralnego twierdzenia granicznego wiadomo tylko, że rozkład średnich
z prób o tej samej liczebności pobieranych z dowolnej populacji będzie roz-
kładem normalnym o średniej równej średniej w populacji i wariancji równej
wariancji w populacji podzielonej przez wielkość próbki. Jeżeli nie znamy
ani średniej, ani wariancji w populacji, to możemy wykorzystać oszacowania
obu tych parametrów na podstawie danych w próbie.
Porównanie średnich w dwóch populacjach wymaga tego, aby zmienność
wyników w obu tych populacjach, czyli wariancja, była jednakowa. Dokład-
niej piszemy o tym w rozdziale poświęconym testowaniu hipotez dotyczą-
cych średnich. Tak się składa, że znamy wariancję danych dotyczących gło-
sowania w wyborach prezydenckich w roku 2000 dla całej grupy badanych
w PGSS – obliczyliśmy ją w rozdziale o estymacji. Wartość ta wynosi
s2 = 0,14. Ponieważ na razie zakładamy, że obie badane próby pochodzą z tej
samej populacji, możemy więc uznać, iż wariancja w nich jest taka sama
* Porównując średnie, w zasa- i wynosi tyle, ile wariancja w całym zbiorze danych PGSS*.
dzie powinniśmy najpierw
sprawdzić, czy wariancje w pró- W badaniu PGSS wzięło udział 44 mieszkańców Wrocławia, a zatem roz-
bie z Wrocławia i z Warszawy
są takie same, albo mówiąc do- kład wszystkich możliwych średnich obliczonych w próbach o tej wielkości
kładniej, czy można uznać je za będzie rozkładem normalnym o średniej x = 0,70 i odchyleniu standardo-
nieistotnie różniące się od siebie.
Sprawdziliśmy, możesz nam wym obliczonym w następujący sposób:
uwierzyć na słowo, że rzeczywi-
ście nie różnią się one istotnie od 0,14
siebie. sx = = 0,06
44
Z kolei rozkład średnich możliwych do uzyskania we wszystkich 141-ele-
mentowych próbkach wylosowanych z Warszawy (tylu było mieszkańców
264 WNIOSKOWANIE STATYSTYCZNE

tego miasta w PGSS) jest rozkładem normalnym o następujących parame-


trach: x = 0,79 i odchylenie standardowe:
0,14
sx = = 0,03
141
Obydwa te rozkłady przedstawione są na rysunku 5.13.
Rysunek 5.13. Rozkłady 7
Rozkład średnich
możliwych średnich proporcji dla Wrocławia
głosujących z nieskończenie (N = 44)
6
wielu próbek możliwych do
wylosowania spośród miesz- Funkcja gęstości praw-
kańców Warszawy i miesz- 5 dopodobieństwa
kańców Wrocławia y = normal (x; 0,7; 0,06)

[STATISTICA]
4
prawdopodobień-
3 stwo błędu I ro-
dzaju

0
0,58 0,60 0,62 0,64 0,66 0,68 0,70 0,72 0,74 0,76 0,78 0,80 0,82

14
Rozkład średnich dla
Warszawy
(N = 141) 12

Funkcja gęstości prawdo-


podobieństwa 10
y = normal (x; 0,79; 0,03)

prawdopodobień-
stwo błędu II rodzaju 6

0
0,74 0,76 0,78 0,80 0,82 0,84

Pytanie, jakie stoi przed badaczem, dotyczy jednak nie tego, czy średnia
w próbie z jednego miasta jest wyższa od średniej w drugim mieście (bo to
przecież widać!), ale tego, czy średnia wśród wszystkich mieszkańców War-
szawy jest wyższa niż średnia dla wszystkich mieszkańców Wrocławia.
A zatem hipoteza zerowa w tym eksperymencie brzmi:
PODSTAWY WNIOSKOWANIA STATYSTYCZNEGO 265

H0: Proporcja głosujących do wszystkich mieszkańców Warszawy jest taka


sama jak proporcja głosujących do wszystkich mieszkańców Wrocławia.
Hipotezie tej mogłaby towarzyszyć kierunkowa hipoteza alternatywna, np.:
H1: Proporcja głosujących do wszystkich mieszkańców Warszawy jest więk-
sza niż proporcja głosujących do wszystkich mieszkańców Wrocławia.
Z każdej populacji można pobrać wiele próbek, które – jak wiesz – z pewno-
ścią będą się różniły ze względu na średnią. Korzystając z własności rozkła-
du normalnego, możemy sprawdzić, jakie jest prawdopodobieństwo pobra-
nia z całej populacji mieszkańców Wrocławia próby, w której proporcja gło-
sujących do wszystkich w tej próbie będzie taka sama jak w próbie war-
szawskiej lub wyższa od niej (przypomnijmy, że rozkład normalny jest roz-
kładem ciągłym, a więc nie można znaleźć prawdopodobieństwa dla jednej
konkretnej danej, tylko dla niej i wyższej albo dla niej i niższej od niej).
Sprawdzenie tego jest dosyć proste.
Każdy rozkład normalny można zamienić na rozkład standaryzowany
o średniej 0 i odchyleniu standardowym 1, zgodnie z następującym wzorem:
Xi − x
z=
σ
Sprawdźmy więc, jakiej wartości standaryzowanej z w rozkładzie średnich
z próby dla Wrocławia odpowiada wynik uzyskany w próbie z Warszawy:
0,79 − 0,70
z= = 1,5
0,06
Zauważ, że w tym wzorze do mianownika wstawiliśmy odchylenie standar-
dowe w rozkładzie średnich z próby dla mieszkańców Wrocławia. Korzysta-
jąc z tablicy A zamieszczonej na końcu książki, możesz sprawdzić, jakie jest
prawdopodobieństwo otrzymania wartości równych i wyższych niż 1,5
w rozkładzie normalnym standaryzowanym. Otóż wynosi ono 0,07.
Oznacza to, że spośród wszystkich możliwych do wylosowania 44-elemen-
towych próbek spośród mieszkańców Wrocławia 7% próbek ma taką samą
średnią jak próbka warszawska lub jeszcze wyższą. Jeślibyś więc uznał, że
proporcja głosujących w Warszawie do wszystkich mieszkańców stolicy
faktycznie jest wyższa niż proporcja głosujących we Wrocławiu do wszyst-
kich jego mieszkańców, to wiele wskazuje na to, że miałbyś rację.
Musisz jednak pamiętać, że równie dobrze może nie być żadnej różnicy
między proporcjami w obu miastach – jest przecież 7% szansy na to, że i we
Wrocławiu wylosowałbyś 44-osobową grupę wyborców o co najmniej takiej
samej proporcji głosujących jak w Warszawie.
266 WNIOSKOWANIE STATYSTYCZNE

Jeżeli więc odrzuciłeś hipotezę zerową, zgodnie z którą proporcje głosują-


cych we Wrocławiu i w Warszawie są takie same, to naraziłeś się na popeł-
nienie błędu I rodzaju. Dla próbek pochodzących z sondażu PGSS prawdo-
podobieństwo tego, że rzeczywiście popełniłeś ten błąd, wynosi 0,07. Jeśli
więc zgadzasz się z kryterium zaproponowanym przez Fishera, to nie powi-
nieneś odrzucać hipotezy zerowej, bo prawdopodobieństwo popełnienia
przez Ciebie błędu I rodzaju w tej sytuacji jest wyższe niż 0,05.
Jeżeli jednak przyjmiesz hipotezę zerową, to narazisz się na popełnienie błę-
du II rodzaju. Błąd ten polega na uznaniu, że proporcja taka, jaka jest w pró-
bie z Warszawy, mogłaby być do uzyskania także we Wrocławiu, podczas
gdy w rzeczywistości ta pierwsza, czyli w Warszawie, okazała się wyższa
niż druga, czyli we Wrocławiu.
Zauważ, że akurat w tym przypadku prawdopodobieństwo popełnienia błędu
II rodzaju bezpośrednio wynika z własności rozkładu normalnego. Ponieważ
uznałeś, że średnia równa 0,79 równie dobrze może pochodzić z Wrocławia,
jak i z Warszawy, musisz sprawdzić, jak wiele możliwych średnich poniżej
0,79 pochodziłoby z Warszawy. Można to wywnioskować, korzystając z te-
go, że rozkład normalny jest symetryczny. Połowa wszystkich możliwych
średnich dla Warszawy znajduje się poniżej średniej ze średnich, czyli poni-
żej 0,79, a połowa powyżej. Prawdopodobieństwo tego, że średnie niższe niż
0,79 pojawią się w próbkach z Warszawy, wynosi więc 0,5. I to właśnie jest
prawdopodobieństwo popełnienia błędu II rodzaju w tej sytuacji. Prawdopo-
dobieństwa popełnienia obu typów błędów również zaznaczyliśmy na ry-
sunku 5.13.

WIELKOŚĆ BŁĘDU β PRZY USTALONEJ Z GÓRY WARTOŚCI α

W przeprowadzonej analizie obliczyliśmy prawdopodobieństwo popełnienia


błędu I i II rodzaju na podstawie częstości przyznawania się do głosowania
w wyborach prezydenckich w roku 2000, wśród mieszkańców Warszawy
i Wrocławia, ankietowanych w Polskim Generalnym Sondażu Społecznym.
Prawdopodobieństwa, jakie obliczyliśmy, nie uwzględniały z góry żadnej
wartości krytycznej α. Po prostu policzyliśmy, co by było, gdyby bez okre-
ślonego z góry kryterium α przyjąć, że populacje z Wrocławia i z Warszawy
różnią się od siebie. Okazało się, że wtedy prawdopodobieństwo popełnienia
błędu I rodzaju wyniosłoby 0,07. Policzyliśmy również prawdopodobień-
stwo popełnienia błędu II, sprawdzając, co by było wtedy, gdybyśmy bez
żadnego wcześniejszego kryterium uznali, że proporcje w obu miastach nie
różnią się od siebie. Ustaliliśmy, że wartość tego błędu wyniosłaby 0,5.
Nie tak jednak powinien postępować prawdziwy badacz. Zanim przystąpi on
do eksperymentu, powinien najpierw określić, jaki jest, jego zdaniem, do-
PODSTAWY WNIOSKOWANIA STATYSTYCZNEGO 267

puszczalny poziom prawdopodobieństwa popełnienia błędu I rodzaju. Za-


łóżmy, że poziom ten wynosi 0,05 – czyli jest taki, jaki postulował sir Ro-
nald Fisher. Przyjmując to kryterium, nie można oczywiście odrzucić hipo-
tezy zerowej, bo prawdopodobieństwo tego, że próba o takiej średniej, jak
średnia w Warszawie, będzie pochodzić z populacji mieszkańców Wrocła-
wia, wynosi 0,06, czyli jest większe od kryterium.
Jeżeli jednak nie odrzucisz hipotezy zerowej, to narażasz się na popełnienie
błędu II rodzaju. Prawdopodobieństwo popełnienia tego błędu można obli-
czyć, sprawdzając, jak wiele próbek pochodzących z Warszawy może mieć
średnie mniejsze od średniej odpowiadającej α = 0,05 w populacji wrocław-
skiej. Znowu skorzystamy, tym razem dwukrotnie, z właściwości standary-
zowanego rozkładu normalnego. Ponieważ wartości α = 0,05 odpowiada
wartość z = 1,64, możemy w następujący sposób obliczyć, powyżej jakiej
średniej znajduje się 5% najwyższych średnich możliwych do wylosowania
z populacji mieszkańców Wrocławia:
X = x + zα × σ , czyli: X = 0,7 + 1,64 × 0,06 = 0,8
Wartość 0,8 odpowiada proporcji, powyżej której znajduje się 5% wszyst-
kich możliwych średnich z próbek o liczebności 44, wylosowanych spośród
mieszkańców Wrocławia. Sprawdźmy więc, jakie jest prawdopodobieństwo
tego, że próbka pochodząca z Warszawy ma średnią niższą od tej wartości.
Ponownie skorzystamy z wartości rozkładu standaryzowanego, tym razem
jednak w odniesieniu do rozkładu średnich pochodzących z populacji war-
szawskiej. Najpierw obliczymy, jaka wartość standaryzowana z odpowiada
wartości 0,8 w tym rozkładzie:
X − x 0,8 − 0,79
z= = = 0,33
σ 0,03
Korzystając z tablicy A, możesz sprawdzić, że prawdopodobieństwo tego,
iż wartość w rozkładzie normalnym standaryzowanym będzie niższa od
z = 0,33, wynosi 0,63. Jeżeli więc badacz uznał, że kryterium odrzucania hi-
potezy zerowej wynosi 0,05, to nie odrzucając tej hipotezy, naraził się na
popełnienie błędu II rodzaju z prawdopodobieństwem 0,63.
Jeżeli spojrzysz na rysunek 5.13, to zorientujesz się, że im bardziej restryk-
cyjne jest kryterium odrzucania hipotezy zerowej, tym większe jest niebez-
pieczeństwo popełnienia błędu II rodzaju. Zaostrzanie kryterium odrzucania
hipotezy zerowej oznacza przesuwanie wartości zα w prawo, czemu towa-
rzyszy zmniejszanie się obszaru pod krzywą normalną powyżej tej wartości
dla rozkładu próbek pochodzących z Wrocławia, ale zwiększanie się obszaru
pod krzywą reprezentującą średnie dla mieszkańców Warszawy poniżej tej
wartości.
268 WNIOSKOWANIE STATYSTYCZNE

MOC TESTU

Jako badacz, z pewnością byłbyś najbardziej zadowolony wtedy, gdyby uda-


ło Ci się upiec dwie pieczenie na jednym ogniu, czyli zminimalizować ryzy-
ko popełniania błędów obydwu rodzajów. Jak to już wielokrotnie podkreśla-
liśmy, badacz popełnia tylko jeden z tych błędów. Może jednak tak zapla-
nować eksperyment, aby prawdopodobieństwa popełniania obu z nich były
jak najmniejsze.
Wydaje się rozsądne, aby ryzyko popełnienia obu rodzajów błędów było ta-
kie same. Jeżeli więc ustaliłeś, że kryterium popełnienia błędu I rodzaju α =
= 0,05, to dobrze by było, aby kryterium popełnienia błędu II rodzaju wynio-
sło tyle samo, czyli β = 0,05 (zob. rys. 5.14).
Rysunek 5.14. Rozkłady 7
średnich pochodzących
z próbek o tej samej liczeb- 6 Prawdopodobieństwo
ności (n = 30) wylosowanych błędu I rodzaju = 0,05
z populacji o takiej samej 5
wariancji σ = 0,14
2

[STATISTICA] 4

0
0,55 0,60 0,65 0,70 0,75 0,80 0,85

Prawdopodobieństwo
5
błędu II rodzaju = 0,05
4
Moc testu = 0,95
3

0
0,80 0,85 0,90 0,95 1,00 1,05 0,85

Dopełnieniem błędu II rodzaju jest moc testu, którą symbolicznie możemy


zapisać jako 1 – β. Określenie „moc” oznacza w tym przypadku prawdopo-
dobieństwo tego, że prawdziwa jest hipoteza alternatywna w sytuacji, gdy
odrzucimy hipotezę zerową. Jeżeli więc ustalimy, że interesuje nas prawdo-
podobieństwo popełnienia błędu II rodzaju wynoszące 0,05, to gdy odrzuci
się hipotezę zerową, moc testu będzie wynosić 0,95.
PODSTAWY WNIOSKOWANIA STATYSTYCZNEGO 269

Moc testu zależy od dwóch składowych: różnicy między średnimi i odchyle-


nia standardowego w rozkładzie średnich z próby.
Zauważ, że im większa jest różnica między średnimi, tym bardziej oddalone
są od siebie średnie w rozkładach z próby dla hipotezy zerowej i dla hipote-
zy alternatywnej. Natomiast im mniejsze jest odchylenie standardowe, tym
mniejsze powierzchnie odpowiadają prawdopodobieństwu popełnienia błę-
dów obu rodzajów.
Oba wykresy na rysunku 5.14 są identyczne. Są one jedynie przesunięte
w stosunku do siebie w taki sposób, aby oś przechodząca przez wartość, po-
wyżej której znajduje się 5% obserwacji na górnym wykresie, przechodziła
także przez punkt, poniżej którego znajduje się 5% wszystkich obserwacji na
dolnym wykresie. Tworząc te wykresy, wykorzystaliśmy dane dotyczące
głosowania w wyborach prezydenckich w roku 2000 w całej próbie PGSS.
Średnia dla tego zbioru (po zamianie odpowiedzi na zera i jedynki) wyniosła
0,739, a wariancja, z której już wcześniej korzystaliśmy, równała się 0,14.
Na rysunku 5.14 znajdują się dwa rozkłady możliwych do uzyskania śred-
nich z próbek liczących po 30 obserwacji. Odchylenie standardowe w każ-
dym z tych rozkładów wynosi:
0,14
sx = = 0,07
30

Średnia na górnym wykresie równa się 0,70 i jest taka sama jak średnia dla
próby, którą wylosowaliśmy z Wrocławia. Na tym wykresie zaznaczyliśmy
również wartość 0,80, powyżej której znajduje się 5% najwyższych średnich
ze wszystkich 30-elementowych próbek wylosowanych z populacji, w której
średnia głosujących jest taka sama jak we Wrocławiu.
Odchylenie standardowe na dolnym wykresie jest takie samo jak na górnym.
Dolny wykres został tak dopasowany do tego na górze, że 5% wszystkich
możliwych do uzyskania średnich w próbach 30-elementowych znajduje się
poniżej wartości 0,81. Średnia w dolnym rozkładzie wynosi 0,92.
Oznacza to, że aby moc testu wyniosła 0,95, przy pobieraniu dwóch 30-ele-
mentowych próbek z populacji PGSS i przy ustalonym kryterium odrzucania
hipotezy zerowej α = 0,05 różnica między średnimi musi być co najmniej ta-
ka, jak między średnimi na wykresie 5.14, a więc: 0,92 – 0,70 = 0,21. Ina-
czej mówiąc, jeżeli pobierzesz dwie 30-elementowe próby z populacji Pola-
ków przyznających się do głosowania w wyborach prezydenckich 2000, to
przy ustalonym α = 0,05, prawdopodobieństwo popełnienia błędu II rodzaju
też będzie wynosić 0,05 dopiero wtedy, gdy różnica pomiędzy proporcjami
głosujących w obu tych próbach wyniesie co najmniej 21%.
270 WNIOSKOWANIE STATYSTYCZNE

WIELKOŚĆ EFEKTU

Odrzucenie hipotezy zerowej wcale nie musi oznaczać, że udało Ci się udo-
wodnić to, co zamierzałeś, choć większość badaczy jest przekonana, że tak
właśnie jest. Jeżeli odrzucisz hipotezę zerową, to po prostu stwierdzisz, że
gdyby była prawdziwa, wówczas byłaby bardzo mała szansa (mniejsza niż
ustalona z góry wartość α) uzyskania przypadkowo takich danych, jakimi
akurat dysponujemy. Może jednak się okazać, że chociaż mamy podstawy
do odrzucenia hipotezy zerowej, to zależność, której istnienie postulujemy
w rzeczywistości, jest bardzo niewielka.
Jedną z metod pozwalającą na stwierdzenie, co tak naprawdę wykazał ba-
dacz, odrzucając hipotezę zerową, jest obliczenie tzw. wielkości efektu. Jest
ona różnie definiowana dla różnych sytuacjach badawczych i dlatego bę-
dziemy się do tego pojęcia jeszcze nieraz odwoływać w następnych rozdzia-
łach, przedstawiając poszczególne testy statystyczne. W tym miejscu poda-
my sposób obliczenia wielkości efektu wtedy, gdy porównujemy ze sobą
dwie średnie. Wartość tę, oznaczaną za pomocą litery d, można zdefiniować
jako różnicę pomiędzy średnimi, podzieloną przez odchylenie standardowe
danej cechy w populacji. Na przykład dla próbek osób mieszkających we
Wrocławiu i w Warszawie, które przyznały się do głosowania w wyborach
prezydenckich, wielkość efektu wynosi:
µ1 − µ 2 0,79 − 0,70
d= = = 0,24
σ 0,37
Wartości wstawione do powyższego wzoru to: średnia głosujących w próbie
z Warszawy, średnia głosujących w próbie z Wrocławia i odchylenie stan-
dardowe w całej populacji PGSS.
* Cohen, J. (1992). A power Sposób interpretacji wielkości efektu opisał m.in. Jacob Cohen*. Zauważył
primer. Psychological Bulletin, on, że wielkość efektu równa 0,5 to średnia dla wyników badań referowa-
112, 155-159.
nych w większości artykułów naukowych. Wielkość efektu ok. 0,2 oznacza,
że badacz, być może, odkrył jakąś zależność (oczywiście wtedy, gdy odrzu-
cił hipotezę zerową), ale w gruncie rzeczy jest ona niewielka, bez znaczenia.
Tak właśnie jest w przypadku porównania proporcji głosujących do wszyst-
kich mieszkańców w Warszawie i we Wrocławiu. Nawet jeślibyśmy złago-
dzili kryterium odrzucania hipotezy zerowej do α = 0,1, to ogłaszanie, że
mieszkańcy Warszawy istotnie częściej głosowali niż mieszkańcy Wrocła-
wia, w gruncie rzeczy byłoby stwierdzeniem bardzo niewielkiej zależności –
ostatecznie różnica w proporcji głosujących wynosi zaledwie 9 punktów
procentowych. Z dużym efektem mamy do czynienia wtedy, gdy jego war-
tość zbliża się do 0,8.
Wielkość efektu przy porównywaniu średnich zależy od różnicy między
średnimi w próbach, a także od wielkości odchylenia standardowego w po-
PODSTAWY WNIOSKOWANIA STATYSTYCZNEGO 271

pulacji. Dla danych dotyczących głosowania w wyborach odchylenie to wy-


niosło 0,37. Można policzyć, jak duża powinna być różnica między średni-
mi, aby wielkość efektu osiągnęła wartość co najmniej 0,5. Obliczymy to,
dokonując małego przekształcenia:

µ1 − µ 2 = d × σ

A ponieważ chcemy, by wielkość efektu d była równa 0,5, więc różnica po-
między średnimi powinna wynosić:

µ1 − µ 2 = 0,5 × 0,37 = 0,18

Wielkość różnicy między średnimi równa 0,18 odpowiada różnicy pomiędzy


proporcjami równej 18 punktom procentowym. Cohen zdecydowanie ma ra-
cję, pisząc, że przy wielkości efektu równej 0,5 przeciętny obserwator
uznałby, że różnica pomiędzy wynikami obu grup jest już wyraźna. Jeżeli
ustalimy, że procent głosujących we Wrocławiu rzeczywiście wynosi 70%,
to o średniej wielkości efektu mówilibyśmy dopiero wtedy, gdyby procent
głosujących w Warszawie wyniósł 88%.

WIELKOŚĆ EFEKTU, POZIOM α, MOC TESTU I LICZBA POMIARÓW W PRÓBIE

Dobrą praktyką badawczą jest rozpoczynanie planowania eksperymentu nie


tylko od ustalenia, jaka jest wielkość prawdopodobieństwa odrzucania hipo-
tezy zerowej, ale także od tego, jak duży efekt badacz uzna za zadowalający.
Wszystkie cztery pojęcia wymienione w tytule tego punktu są nierozerwal-
nie ze sobą związane. Na rysunku 5.15 pokazane są typowe związki między
ich wielkościami.
Wykresy 5.15 i 5.16 ilustrują zmiany wartości jednej zmiennej (na osi OY)
w zależności od wartości drugiej zmiennej (na osi OX), przy ustalonych na
jednym poziomie wartościach pozostałych dwóch wskaźników.
Z wykresu 5.15 wynika np., że wielkość efektu zmniejsza się wraz ze zwięk-
szaniem kryterium odrzucania hipotezy zerowej α. Na wykresie tym przed-
stawiliśmy sytuację, w której badana próba liczy 80 obserwacji (a więc gdy
porównuje się dwie grupy równoliczne, wtedy każda liczy po 40 obserwa-
cji), a moc testu wynosi 0,80, czyli prawdopodobieństwo popełnienia błę-
du II rodzaju wynosi 0,20.
Na wykresie 5.16 zaś przedstawiliśmy krzywą, która ilustruje spadek wiel-
kości efektu wraz ze wzrostem wielkości próby dla sytuacji, gdy przyjęto, że
α = 0,05, a moc testu – 0,8. Wykres ten ma dużą wartość praktyczną – otóż
można z niego odczytać, jak duża musi być badana próba, aby odrzucając
hipotezę zerową, osiągnąć zamierzoną wielkość efektu.
272 WNIOSKOWANIE STATYSTYCZNE

Gdybyś chciał, aby wielkość efektu wynosiła 0,5, wówczas dla poziomu α =
= 0,05 próba badana powinna liczyć około 100 osób badanych. Jeżeli po-
równujesz dwie próby, to w każdej z nich powinno się znaleźć co najmniej
po 50 obserwacji. Zauważ, że im większego efektu się spodziewasz, tym
mniej potrzeba obserwacji, aby wykazać jego istnienie.
Z drugiej jednak strony zwiększanie wielkości efektu, związane ze zmniej-
szaniem liczby obserwacji, łączy się z koniecznością zmniejszania poziomu
α, czyli z zaostrzaniem kryterium niezbędnego do odrzucenia hipotezy
zerowej.
Rysunek 5.15. Relacja
0,95
między poziomem α i wielko-
ścią efektu dla ustalonej na 0,9
jednym poziomie wartości
mocy testu (= 0,80) i stałej li- 0,85
czebności próby (n = 80)
0,8
[STATISTICA]
Wielkość efektu d

0,75

0,7

0,65

0,6

0,55

0,5
0 0,02 0,04 0,06 0,08 0,1 0,12 0,14 0,16 0,18 0,2

Alfa
Rysunek 5.16. Relacja
1,2
między wielkością efektu
i liczebnością próby dla usta-
lonych na jednym poziomie 1
wartości poziomu α = 0,05
oraz mocy testu (= 0,80)
0,8
[STATISTICA]
Wielkość efektu d

0,6

0,4

0,2

0
0 100 200 300 400 500 600 700

Liczebność próby

Nie wszyscy psychologowie, którzy prowadzą badania naukowe, uwzględ-


niają wielkość efektu i moc testu w planowanych eksperymentach. Ostatnio
jednak coraz częściej różnego rodzaju profesjonalne organizacje psycholo-
gów zalecają, aby koniecznie uwzględniać te wielkości w planowaniu i opi-
PODSTAWY WNIOSKOWANIA STATYSTYCZNEGO 273

sywaniu wyników eksperymentów. Podejście takie zaleca np. Amerykańskie


Towarzystwo Psychologiczne (APA) w ostatniej wersji Podręcznika publi-
* American Psychological Asso- kacji z 2001 roku*. Podręcznik ten zawiera liczne wskazówki dotyczące te-
ciation. (2001). Publication Ma- go, jak powinien wyglądać naukowy artykuł z psychologii.
nual of the American Psycholog-
ical Association (wydanie 5). Zgodnie z zaleceniami APA, planując badanie empiryczne, powinno się
Washington, DC: APA.
z góry przyjąć, jaka jest oczekiwana wielkość efektu. Cohen (1992) stwier-
dza, że najlepszym źródłem spodziewanej oceny efektu jest tradycja w danej
dziedzinie badań. Niezależnie jednak od niej, rozsądnie jest założyć, że
wielkość efektu będzie co najmniej na średnim poziomie, czyli równa 0,5.
Jeżeli przed badaniem ustalimy poziom dopuszczalnego prawdopodobień-
stwa popełnienia błędu I rodzaju oraz moc testu, to możemy obliczyć, ile
osób powinno wziąć udział w tym badaniu. Jeśli przyjmiemy, że prawdopo-
dobieństwa obu rodzajów błędów będą identyczne, np. 0,05, to moc testu
powinna wynosić 0,95. Oznaczałoby to jednak konieczność przeprowadze-
nia badania na dużej liczbie osób badanych. Cohen sugeruje, aby jako do-
puszczalną wartość mocy testu przyjąć 0,80.
Na końcu tego przewodnika, w Aneksie, zamieszczamy odpowiednią tablicę
D, która pozwoli Ci sprawdzić, jak zmienia się wielkość efektu wraz ze
wzrostem wielkości próby dla poziomów α = 0,05 i α = 0,01 oraz mocy testu
równej 0,80.
W tablicy D uwzględniliśmy kilka najczęściej stosowanych testów staty-
stycznych, a także to, czy są one jedno-, czy dwustronne. Z tablicy odczy-
tasz, że np. dla średniego efektu d = 0,5, poziomu α = 0,05 oraz mocy testu =
0,80, gdy test jest jednostronny (hipoteza alternatywna jest albo lewostronna,
albo prawostronna), niezbędna liczba pomiarów wynosi dokładnie 102 oso-
by badane.
Do mocy testu i wielkości efektu możesz również się odwołać po przepro-
wadzonym badaniu, aby sprawdzić, jaka jest rzeczywista wielkość stwier-
dzonej przez Ciebie zależności między zmiennymi. Jest to procedura spraw-
dzania wielkości efektu post hoc.
Ostatnio coraz częściej pakiety komputerowe służące do obliczeń staty-
stycznych zawierają moduły obliczeniowe pozwalające na określenie wiel-
kości efektu i mocy testu (najczęściej opcje te są dostępne za dodatkową
opłatą).
Jeżeli jednak jesteś zawziętym badaczem, to na pewno uda Ci się znaleźć
w Internecie proste programy służące do obliczania wielkości efektu i mocy
testu pisane przez statystyków, którzy równocześnie należą do grupy zwo-
lenników darmowego oprogramowania dostępnego dla jak największej rze-
szy użytkowników.
274 WNIOSKOWANIE STATYSTYCZNE

RYZYKO PRODUCENTA I KONSUMENTA, CZYLI RAZ JESZCZE O BŁĘDACH WNIOSKOWANIA


NA PRZYKŁADZIE PRODUKCJI WYKAŁACZEK

Błąd I rodzaju czasami nazywa się ryzykiem producenta, a błąd II rodzaju


* Por. Kendall, M. G., Buckland, ryzykiem konsumenta*. Określenia te są związane z kontrolą jakości w pro-
W. R. (1986). Słownik terminów dukcji.
statystycznych. Warszawa: PWE.
Wyobraź sobie urządzenie produkujące wykałaczki i system kontroli ich ja-
kości, który odrzuca całe partie wykałaczek wtedy, gdy średnia wartość ja-
kiegoś ich parametru, np. ostrości zakończenia, w wylosowanej próbie jest
wyższa od ustalonej wartości krytycznej. Jeżeli średnia w danej próbie jest
wyższa od wartości krytycznej i producent odrzuci całą partię, z której po-
chodzi próbka, to ponosi ryzyko wyrzucenia do kosza także całkiem nie-
złych wykałaczek.
Naturalnie system jakości wykałaczek jest nastawiony na testowanie hipote-
zy zerowej, która głosi, że „cała partia produktów spełnia ustalone wymaga-
nia”. Jeżeli nie są one spełnione w wylosowanej próbie, to producent odrzu-
ca tę hipotezę. Odrzucając ją, naraża się na popełnienie błędu I rodzaju i, być
może, stratę pieniędzy, ponieważ z pewnością nie wszystkie wykałaczki z tej
partii muszą być wadliwe.
Z odwrotną sytuacją mamy do czynienia wtedy, gdy w wylosowanej próbie
wykałaczek towar spełnia odpowiednie parametry kontroli jakościowej. Pro-
ducent nie odrzuca hipotezy zerowej i kieruje do sprzedaży całą partię, z któ-
rej pochodzi próba. Odtąd ryzyko zakupienia zbyt ostrych lub zbyt tępych
wykałaczek ponosi konsument. Podsumowując, chociaż producent popełnia
błąd II rodzaju, to na wynikające z niego konsekwencje narażony jest przy-
szły konsument. Dlatego właśnie prawdopodobieństwo popełnienia błędu
II rodzaju nazywa się ryzykiem konsumenta.

NA KONIEC O TYM, ŻE ZIEMIA JEST OKRĄGŁA Z PRAWDOPODOBIEŃSTWEM α<0,05

W większości prac psychologicznych wnioskowanie statystyczne najczęściej


sprowadza się do prostej decyzji: przyjąć albo odrzucić hipotezę zerową.
Rzadko badacze zajmują się ustalaniem lub obliczeniem wielkości efektu,
mocy testu czy prawdopodobieństwa popełniania błędu II rodzaju. To, czy
znajomość tych wartości jest im potrzebna, czy nie, od ponad 40 lat stanowi
przedmiot gorącej dyskusji między metodologami psychologii. Ramy naszej
książki nie pozwalają na to, aby przekazać argumentację obu stron. Warto
jednak zwrócić uwagę na stanowisko jednego z największych krytyków po-
dejścia polegającego tylko na praktyce przyjmowania lub odrzucania
hipotezy zerowej – nieżyjącego już statystyka, Jacoba Cohena. W 1994 roku
** Cohen, J. (1994). The earth is
round (p<.05). American Psy- opublikował on w czasopiśmie American Psychologist artykuł zatytułowany
chologist, 49, 997-1003. Ziemia jest okrągła (p<0,05)**. Jest on podsumowaniem krytyki podejścia
PODSTAWY WNIOSKOWANIA STATYSTYCZNEGO 275

polegającego na koncentrowaniu się jedynie na hipotezie zerowej. Główną


myśl tego artykułu można streścić w sformułowaniu: nie bądź niewolnikiem
liczby 0,05.
Cohen sugeruje, że zawsze warto się odwołać do wielkości efektu i mocy te-
stu oraz nie należy zaniedbywać bardziej jakościowych metod analizy da-
nych – np. takich, jak dokładna analiza wykresów, badanie przyczyn poja-
wiania się wartości istotnie odbiegających od średniej w próbie lub wyko-
rzystywanie zaawansowanych technik analizowania danych typu data mi-
ning, które coraz częściej są dostępne w pakietach statystycznych, np. STA-
TISTICA Data Miner.
Odwoływanie się do wielkości efektu ma szczególne znaczenie w badaniach
dotyczących psychologii społecznej, różnic indywidualnych czy w różnych
działach psychologii stosowanej. Jeżeli np. chcemy sprawdzić, czy specjal-
nie opracowany program nauczania pomoże dzieciom z trudnościami szkol-
nymi, to obliczenie wielkości efektu może się tu okazać bardzo pomocne.
Celem analiz takiego programu nauczania nie może być tylko stwierdzenie,
czy dzieci, które biorą w nim udział, różnią się od dzieci, które w nim nie
uczestniczą, lecz bardzo ważne jest także określenie, w jakim stopniu jest on
skuteczny. Wielkość efektu byłaby dobrym wskaźnikiem jego skuteczności.
Nie warto wprowadzać do szkół takiego programu nauczania, którego sku-
teczność jest niewielka.
Na przykład dzieci uczestniczące w programie uzyskują nieco lepsze oceny
niż dzieci, które nie biorą w nim udziału (hipoteza zerowa może być odrzu-
cona), ale ten wpływ sprowadza się tylko do poprawienia wyników szkol-
nych o jakiś ułamek oceny. Powtórzmy, nie należy mylić wielkości efektu
z odrzuceniem hipotezy zerowej. Wielkość efektu odnosi się do tego, jak du-
ży jest wpływ zmiennej niezależnej na zmienną zależną, a testowanie hipo-
tezy zerowej dotyczy tego, czy ten wpływ w ogóle istnieje.
TESTOWANIE HIPOTEZ
6. DOTYCZĄCYCH ŚREDNICH

6.1. CZY BADANA PRÓBA POCHODZI Z POPULACJI


O ZNANYCH PARAMETRACH?

CZY STUDENCI PSYCHOLOGII NALEŻĄ DO POPULACJI STUDENTÓW?

Najprostszą sytuacją, w której stosuje się test statystyczny, jest sprawdzenie,


czy badana próba pochodzi z populacji o znanych parametrach.
Wyobraź sobie, że po studiach zostałeś zatrudniony w rektoracie uczelni,
którą ukończyłeś (w tym przykładzie nie chodzi nam o stanowisko rektora –
raczej sekretarza). Jako pracownik wysokiego urzędu, masz dostęp do bazy
danych zawierającej oceny z egzaminów studentów z wszystkich kierunków
i lat. Jesteś jednak psychologiem, a przede wszystkim zapalonym badaczem
(do rektoratu trafiłeś trochę przypadkiem), i podczas wakacji nie tracisz cza-
su. A może by tak sprawdzić, czy w czasie ostatniej letniej sesji studenci
psychologii mieli lepsze oceny z egzaminów niż wszyscy pozostali. Jak na
tle wyników egzaminacyjnych wszystkich studentów wypadał twój rocznik?
A twoja grupa, na tle wszystkich studentów psychologii? Pytania można
mnożyć, a przy okazji przypomnieć sobie trochę statystykę.
Ponieważ parametrem populacji, do którego najczęściej porównuje się próby
badane, jest średnia arytmetyczna, w rozdziale tym przedstawimy dwa testy
pozwalające odpowiedzieć na pytanie: „Czy badana próba o średniej 130
pochodzi z populacji o znanej już wcześniej średniej µ?”.
Mówiąc nieco konkretniej, pytamy np.: czy studenci psychologii z twojej
uczelni, którzy podczas letniej sesji uzyskali średnią x , pochodzą z popula-
cji wszystkich studentów tej uczelni, o których wiesz, że podczas tej sesji
uzyskali średnią µ? Czy to pytanie nie wydaje ci się trochę dziwne? Po co
pytać, czy studenci psychologii należą do tej samej populacji, co wszyscy
studenci uczelni, skoro przecież wiesz, że należą? Oczywiście, jeśli weź-
miesz pod uwagę fakt, że są studentami tej samej uczelni, wtedy absolutnie
masz rację – to pytanie nie ma sensu. Zauważ jednak, że wcale nie chodzi tu
o to, czy jakaś grupa młodych ludzi studiuje, czy nie studiuje na twojej
uczelni. Chodzi raczej o odpowiedź na pytanie, czy jeśli ta grupa studiuje
278 WNIOSKOWANIE STATYSTYCZNE

psychologię, to jej średnia ocen jest taka sama jak średnia ocen dla wszyst-
kich studentów tej uczelni.
Jeśli średni wynik psychologów nie różniłby się zasadniczo od średniego
wyniku dla wszystkich studentów uczelni, to moglibyśmy powiedzieć, że ze
względu na średnią ocen z sesji letniej, studenci psychologii należą do tej
samej populacji co wszyscy inni. Gdyby jednak studenci psychologii zdecy-
dowanie lepiej (lub zdecydowanie gorzej) wypadli na tle wszystkich studen-
tów, wtedy moglibyśmy wnioskować, że – ze względu na badany parametr –
nie należą oni do tej samej populacji, co wszyscy pozostali. To tak, jakby na
tę sesję zostali jakoś szczególnie namaszczeni.

ZASTOSOWANIE TESTU z DLA JEDNEJ ŚREDNIEJ, CZYLI O KONSEKWENCJACH


OPUSZCZANIA WYKŁADÓW ZE STATYSTYKI

Na wyższych uczelniach coraz częściej egzaminy przeprowadza się w for-


mie testów. Podejście to ma mniej więcej tylu zwolenników, ilu przeciwni-
ków. W każdym razie my [tzn. P. F. i R. M.] od wielu lat ze statystyki robi-
my test i uważamy, że jest to najlepsza droga do wszechstronnego spraw-
dzenia wiedzy studentów z tego przedmiotu. W naszym komputerowym ar-
chiwum mamy już sporo wyników uzyskanych przez studentów psychologii
z wielu kolejnych roczników.
W przykładzie, którym się tutaj posłużymy, za populację uznaliśmy zbiór
wyników z egzaminu uzyskanych przez studentów psychologii jednego
z wcześniejszych roczników (nie ma obawy, pary z ust nie puścimy, z które-
go). Test składał się z 25 pytań i wzięło w nim udział 151 studentów. Te 151
osób traktujemy więc odtąd jako populację „osób piszących egzamin ze sta-
tystyki w roku akademickim X”. Dla takiej populacji możemy oczywiście
wyliczyć średnią i odchylenie standardowe. Znajomość tych parametrów po-
zwoli nam z kolei porównać je ze statystykami jakiejkolwiek próby, dobra-
nej z populacji wszystkich osób zdających egzamin.
Grupą wyników, którą będziemy chcieli porównać z rozkładem całej popu-
lacji, będą oceny egzaminacyjne tych osób, które w miarę regularnie chodzi-
ły na nasze wykłady. Problem jest dość stary, ale na uczelni wciąż żywy.
Studenci nieraz się zastanawiają, czy warto chodzić na taki czy inny wykład
– sami kiedyś chętnie rozważaliśmy te kwestie (no, w końcu nie było to aż
tak dawno temu). Teraz jednak, z belferskiego punktu widzenia, sprawy wi-
dzimy nieco inaczej. Odnosimy wrażenie, że nieregularne chodzenie na wy-
kłady powoduje, iż studenci jednak gorzej zdają egzaminy. W każdym razie
postanowiliśmy przeprowadzić analizę statystyczną pozwalającą ustalić, czy
średnia ocen studentów, którzy nie opuszczali naszych wykładów, różni się
istotnie od średniej dla całej zdefiniowanej przez nas populacji.
TESTOWANIE HIPOTEZ DOTYCZĄCYCH ŚREDNICH 279

Był taki czas, kiedy mieliśmy obowiązek sprawdzania obecności studentów


na wykładach (zdaje się, że niektórzy wykładowcy do dzisiaj widzą w tej
metodzie szansę na poprawienie swojego samopoczucia). Dla nas jednak
tamta informacja okazuje się teraz bardzo przydatna, choć z nieco innego
powodu. Jako kryterium regularnego chodzenia na wykłady przyjęliśmy
opuszczenie nie więcej niż dwóch z piętnastu zajęć. Tak zdefiniowaną próbę
studentów dość łatwo wyłoniliśmy na podstawie list obecności. Analizowa-
ny problem można ostatecznie podsumować jako poszukiwanie odpowiedzi
na pytanie: czy średnia z egzaminu studentów, którzy opuścili nie więcej niż
dwa wykłady, statystycznie istotnie różni się od średniej z tego egzaminu
uzyskanej przez wszystkich zdających studentów?
Podstawowym testem statystycznym pozwalającym na stwierdzenie, czy
próba pochodzi z populacji o znanych parametrach, jest test z dla jednej
średniej. Jak sama nazwa wskazuje, w teście tym wykorzystuje się własno-
ści znanego ci już rozkładu normalnego standaryzowanego z. Test stosuje się
wtedy, gdy znamy zarówno średnią, jak i odchylenie standardowe w popula-
cji, do której porównujemy badaną grupę. Zapamiętaj, że liczba elementów
w tej próbie nie powinna być mniejsza niż 30.

HIPOTEZY STATYSTYCZNE DLA TESTU z DLA JEDNEJ ŚREDNIEJ

Średni wynik testu dla 151 studentów zdających egzamin ze statystyki wy-
niósł µ = 15,61 punktów, a odchylenie standardowe σ = 3,34. Są to znane
parametry populacji.
Hipoteza alternatywna, jaką postawiliśmy przed badaniami, brzmiała:
H1: Średnia w badanej grupie jest wyższa niż średnia w populacji.
Zapisana za pomocą symboli, mogłaby wyglądać tak:

H1: x > µ
W tej sytuacji hipoteza zerowa powinna brzmieć:
H0: Nie ma różnicy pomiędzy średnią w próbie a średnią w populacji,
czyli:

H0: x = µ
Grupa osób, która opuściła nie więcej niż dwa wykłady w ciągu semestru, li-
czyła dokładnie 30 osób (i tak w sumie mieliśmy niezły wynik). Średnio
uzyskały one na egzaminie x = 16,77 , a odchylenie standardowe wynosiło
s = 3,95.
280 WNIOSKOWANIE STATYSTYCZNE

ROZKŁAD ŚREDNICH Z PRÓBY

Zgodnie z hipotezą alternatywną, chcemy ustalić, czy średnia z egzaminu


równa x = 16,77 , uzyskana przez 30 studentów pochodzących z populacji
151 zdających ten egzamin, jest znacząco wyższa od średniej dla tej popula-
cji równej µ = 15,61 ? Jak pamiętasz z rozdziału o estymacji, z każdej popu-
lacji można wylosować nieskończenie wiele próbek, których średnie będą
oscylować wokół średniej w populacji, ale tylko nieliczne będą takie same
jak ona. Testując hipotezy dotyczące porównania średniej w grupie ze śred-
nią w populacji, mamy na celu sprawdzenie:
• czy można uznać, że badana grupa jest jedną z tych wielu możliwych do
wylosowania i tylko przypadkiem jej średnia różni się od średniej w po-
pulacji,
• czy też różnica pomiędzy średnią w próbie a średnią w całej populacji
jest tak duża, że powinniśmy raczej przyjąć, iż przyczyną tej różnicy jest
zmienna, na podstawie której badana grupa została z populacji wyodręb-
niona.
Innymi słowy, interesuje nas, jakie jest prawdopodobieństwo, że x = 16,77
jest wynikiem zupełnie przypadkowego doboru studentów do próby. Lub
jeszcze inaczej: czy regularne chodzenie na wykłady tak dalece wpływa na
ocenę z egzaminu końcowego, że można je uznać za czynnik, który istotnie
rzutuje na tę ocenę? Żeby się tego dowiedzieć, musimy się odwołać do roz-
kładu średnich z nieskończenie wielu możliwych 30-elementowych prób, ja-
kie można by wylosować z naszej populacji.
Zgodnie z centralnym twierdzeniem granicznym, rozkład każdej statystyki
z próby jest rozkładem normalnym. Zastosowanie testu z dla jednej średniej
jest prostą konsekwencją tego twierdzenia.
W omawianym tu przykładzie sprawdzamy, czy można uznać, że średnia
wyników testu 30 osób, które nie opuszczały wykładów, różni się istotnie od
średniej wyników wszystkich studentów piszących ten egzamin.
Z centralnego twierdzenia granicznego wynika, że rozkład średnich z próbek
o takiej samej liczebności, wylosowanych z populacji, do której porównuje-
my wyniki badanej grupy, jest rozkładem normalnym. Średnia w tym roz-
kładzie jest taka sama jak średnia w populacji, a odchylenie standardowe
σ
wynosi σ x = , przy czym w liczniku mamy odchylenie standardowe
n
w populacji, a w mianowniku – pierwiastek z liczebności próby.
Ponieważ znamy parametry rozkładu wyników w całej populacji, łatwo więc
możemy obliczyć parametry rozkładu średnich z próbek o liczebności 30
TESTOWANIE HIPOTEZ DOTYCZĄCYCH ŚREDNICH 281

elementów. Średnia w tym rozkładzie wynosi µ = 15,61, a odchylenie stan-


3,34
dardowe σ x = = 0,61 . Rozkład o tych dwóch znanych już parametrach
30
przedstawiony jest na rysunku 6.1.

Rysunek 6.1. Rozkład śred-


nich z próby wyznaczony na
podstawie możliwych śred-
nich z nieskończenie wielu
30-elementowych próbek wy-
ników z egzaminu ze staty-
styki ( µ = 15,61 ; σ x = 0,61 )

14,39 15,00 15,61 16,22 16,83


-2s -1s 0 1s 2s

Korzystając z własności standaryzowanego rozkładu normalnego, możemy


teraz sprawdzić, jakie jest prawdopodobieństwo przypadkowego wylosowa-
nia z populacji wszystkich studentów zdających egzamin, grupy 30 studen-
tów o średniej równej 16,77 i większej.

TEST z I ROZKŁAD NORMALNY STANDARYZOWANY

Jak pamiętasz, każdy rozkład można wystandaryzować, to znaczy zamie-


nić wszystkie jego dane na tzw. wyniki standaryzowane z. Przypomnijmy,
że wynik standaryzowany to po prostu różnica między danym wynikiem
a średnią, wyrażona w jednostkach odchylenia standardowego, czyli
Xi − x
zi =
s
zi wynik standaryzowany i-tego wyniku badania,
Xi dowolny (i-ty) wynik badania,

x średnia arytmetyczna w próbie,

s odchylenie standardowe w tej próbie.

Zastosujemy teraz ten sam pomysł, ale w odniesieniu do znanych nam staty-
styk i parametrów. Obliczając wartość wyniku standaryzowanego de facto
obliczamy wartość testu z. Wzór na test z wygląda więc następująco:
x −µ
z=
σx
282 WNIOSKOWANIE STATYSTYCZNE

czyli po podstawieniu symbolu odchylenia standardowego w rozkładzie


średnich z próby przez iloraz odchylenia standardowego w populacji przez
pierwiastek z liczebności próby otrzymujemy:
x−µ
z=
σ
n
z wynik testu z,

x średnia arytmetyczna w próbie,

średnia arytmetyczna w populacji równa średniej arytmetycznej w rozkładzie średnich z pró-


µ
by,
σx odchylenie standardowe w rozkładzie z próby,

σ odchylenie standardowe w populacji,


n liczebność próby.

Podstawmy więc dane do wzoru na test z. Średnia w grupie wynosi 16,77,


a w całej populacji – 15,61. Ponieważ odchylenie standardowe w rozkładzie
średnich wynosi 0,61, test z obliczymy więc w następujący sposób:
16,77 − 15,61
z= = 1,90
0,61
Podstawą stosowania każdego testu statystycznego jest założenie, że hipote-
za zerowa jest prawdziwa, a wynik, jaki uzyskaliśmy, jest dziełem przypad-
ku. Czy z = 1,90 sugeruje, że średnia równa 16,77 nie różni się istotnie od
średniej w populacji? Czy gdybyśmy zupełnie losowo wybrali 30 studentów
z populacji wszystkich, którzy zdawali egzamin, to również moglibyśmy
oczekiwać takiej średniej? Być może tak, ale zasadnicze pytanie brzmi: z ja-
kim prawdopodobieństwem?

PRAWDOPODOBIEŃSTWO UZYSKANIA WARTOŚCI z W TEŚCIE DLA JEDNEJ ŚREDNIEJ

Testowanie hipotez statystycznych polega na sprawdzeniu, jakie jest praw-


dopodobieństwo otrzymania konkretnego wyniku (w naszym przykładzie
średniej w grupie studentów nieopuszczających wykładów) przy założeniu,
że hipoteza zerowa jest prawdziwa. Sprawdźmy więc, jakie jest prawdopo-
dobieństwo wylosowania 30 osób z populacji studentów piszących egzamin,
ale takiej grupy, której średnia z egzaminu jest większa niż 16,77. Wiemy
już, że odpowiadający tej średniej wynik testu z = 1,90. Ponieważ otrzymana
średnia jest większa niż średnia w populacji, najpierw sprawdzimy, jaka jest
powierzchnia powyżej tego z-eta.
TESTOWANIE HIPOTEZ DOTYCZĄCYCH ŚREDNICH 283

Otwórz Aneks z tablicą A i w lewej kolumnie zawierającej wyniki standary-


zowane z znajdź wartość 1,90. Następnie sprawdź, jaka odpowiada mu
powierzchnia powyżej tego wyniku. Powinno być 0,0287. Oznacza to, że
prawdopodobieństwo przypadkowego wylosowania 30-osobowej grupy stu-
dentów, którzy na egzaminie otrzymają wynik średni równy lub jeszcze
wyższy niż 16,77, wynosi p = 0,0287.

HIPOTEZA ALTERNATYWNA – JEDNOSTRONNA I DWUSTRONNA

Zgodnie z hipotezą alternatywną oczekiwaliśmy, że studenci, którzy su-


miennie chodzili na nasze wykłady, powinni mieć na egzaminie średnią
wyższą niż średnia dla wszystkich studentów. Nasze przypuszczenia oparli-
śmy na zdroworozsądkowej intuicji (i autopsji), że jeżeli student nie chodzi
na wykłady, to znaczy, że jest w kinie, w parku lub w kawiarni (to, gdzie
faktycznie jest, zależy od kilku okoliczności). Sformułowaliśmy więc tzw.
prawostronną hipotezę alternatywną, ponieważ sądziliśmy, że średnia w in-
teresującej nas grupie powinna być wyższa niż średnia w populacji, czyli
znajdować się po jej prawej stronie (stąd nazwa hipotezy). Oczywiście przed
badaniami nie byliśmy w stanie przewidzieć, jaką dokładnie będzie ona mia-
ła wartość. Prawostronną hipotezę alternatywną ilustruje rysunek 6.2.
Rysunek 6.2. Graficzna
reprezentacja prawostronnej
hipotezy alternatywnej
przedstawiona na rozkładzie
z próby

hipotetyczna
średnia w populacji średnia w próbie

µ x

Zaciemnione pole po prawej stronie rozkładu jest graficzną reprezentacją na-


stępujących zależności:
• Po pierwsze, formułując hipotezę, nie przesądziliśmy niczego na temat
dokładnej wartości średniej w próbie. Mogłaby być taka, jak na wykre-
sie, ale mogłaby też być od niej wyższa, czyli którakolwiek z zaciem-
nionego pola. Mogłaby także być od niej niższa, ale wiedzieliśmy, że im
bardziej byłaby ona podobna do średniej w populacji, tym mniej jedno-
znacznie potwierdzałaby nasze przewidywania. Wolelibyśmy więc, żeby
leżała dalej niż bliżej średniej w populacji.
• Po drugie, wyróżnione pole w standaryzowanym rozkładzie normalnym
jest wskaźnikiem prawdopodobieństwa danej wartości, np. średniej
w próbie, i – w tym wypadku – wszystkich od niej większych.
284 WNIOSKOWANIE STATYSTYCZNE

Decyzja, którą mieliśmy podjąć, polegała na wyborze jednej z dwóch moż-


liwości:
• średnia w próbie nie różni się istotnie od średniej w populacji (hipoteza
zerowa),
• średnia w próbie jest wyższa od średniej w populacji (hipoteza alterna-
tywna).
Byliśmy więc raczej skłonni, odrzucić hipotezę zerową. Jak to już wyliczyli-
śmy, prawdopodobieństwo wylosowania przypadkiem 30-osobowej grupy
studentów, których średnia wynosi 16,77 i więcej, jest równe 0,0287. Wyda-
je się, że to za mało, by uznać, iż 30 studentów, którzy opuścili nie więcej
niż dwa wykłady, przypadkiem uzyskało więcej punktów na egzaminie.
Załóżmy jednak na chwilę, chociaż niełatwo byłoby to nam uzasadnić teore-
tycznie, że hipoteza alternatywna brzmiałaby:
H1: Średnia w grupie 30 studentów, którzy opuścili nie więcej niż dwa wy-
kłady, jest niższa niż średnia w populacji.
Tak sformułowana hipoteza alternatywna byłaby hipotezą lewostronną, co
ilustruje rysunek 6.3.
Rysunek 6.3. Graficzna
reprezentacja lewostronnej
hipotezy alternatywnej,
przedstawiona na rozkładzie
z próby

hipotetyczna
średnia w próbie średnia w populacji

x µ

W sytuacji, w której średnia w próbie wyniosła 16,77, a średnia w całej po-


pulacji 15,61, nie ma wątpliwości, że przy lewostronnej hipotezie alterna-
tywnej nie byłoby podstaw do odrzucenia hipotezy zerowej. Zgodnie z hipo-
tezą alternatywną spodziewalibyśmy się, że średnia w próbie będzie niższa
od średniej w populacji. Taką hipotezę należałoby odrzucić bez żadnych dal-
szych obliczeń, bo zależność między obydwoma średnimi jest odwrotna do
przewidywanej. Podobnie, to znaczy też bez obliczania prawdopodobień-
stwa, moglibyśmy przyjąć hipotezę zerową, gdyby średnia w próbie była ta-
ka sama jak średnia w populacji.
Jest wreszcie jeszcze jedna możliwość, której – pewni swej wiedzy dotyczą-
cej związków między chodzeniem na wykłady a wynikami z egzaminów –
nie braliśmy pod uwagę. Mogliśmy bowiem nieco ostrożniej przyjąć, że
TESTOWANIE HIPOTEZ DOTYCZĄCYCH ŚREDNICH 285

w interesującej nas grupie studentów wyniki z egzaminu powinny po prostu


różnić się od średniej w populacji – i tyle. Zależność między niechodzeniem
na wykłady a oceną z egzaminu może też być znacznie bardziej skompliko-
wana, niż początkowo sądziliśmy. Uogólniając nieco, można powiedzieć, że
zawsze wtedy, gdy nie mamy wystarczających przesłanek do sformułowania
kierunkowej (jednostronnej) hipotezy badawczej, powinniśmy testować hi-
potezę dwukierunkową (dwustronną). Graficznie dwustronna hipoteza wy-
glądałaby mniej więcej tak, jak na rysunku 6.4.
Rysunek 6.4. Graficzna
reprezentacja dwustronnej
hipotezy alternatywnej,
przedstawiona na rozkładzie
z próby

hipotetyczne średnie w próbie

średnia w populacji

x µ x

To ma sens – powiesz – ale czy zatem nie lepiej po prostu zawsze testować
hipotezę dwustronną? Jest bezpieczniejsza, a przecież i tak zawsze jakiś wy-
nik uzyskamy. A poza tym nie zawsze trzeba byłoby przyznawać się do nie-
zbyt trafionej hipotezy alternatywnej. Wreszcie można byłoby po prostu naj-
pierw poczekać na wyniki badania i do końcowego raportu wpisać taką hipo-
tezę, która akurat została potwierdzona. Coś tu jednak nie gra!
W rozdziałach poświęconych logice testowania hipotez oraz konsekwencjom
błędów wynikających z decyzji badacza napisaliśmy, że wnioskowanie
w statystyce z reguły sprowadza się do tego, aby na podstawie danych od-
rzucić jedno z dwóch możliwych wyjaśnień badanego zjawiska: przypadek
lub zmienną niezależną. Badacz-Teoretyk tak planuje eksperyment, aby
mógł na podstawie uzyskanych wyników, wykluczając jedno z tych wyja-
śnień, przyjąć drugie.
To, co składa się na eksperyment, jest więc nieprzypadkowo podporządko-
wane podstawowej myśli, sformułowanej przez badacza w postaci hipotezy
alternatywnej. I z tego punktu widzenia nie jest wszystko jedno, jaka ona jest
i czy ma ona postać jedno-, czy dwustronną. Jest taka, jaka jest aktualna
wiedza badacza, skądkolwiek by ją zaczerpnął. I tu nie chodzi także o to, czy
hipoteza się potwierdzi, czy nie, ponieważ w gruncie rzeczy każdy wynik
eksperymentu jest pozytywny – albo umacnia badacza w dotychczasowej
wiedzy, albo sugeruje jego niewiedzę i potrzebę dalszych badań.
Najważniejsze w grze umysłu badacza-Teoretyka ze światem-Przyrodą jest
to, że obowiązują w niej pewne reguły i nie powinno się ich łamać. Jeśli
286 WNIOSKOWANIE STATYSTYCZNE

więc w twoim umyśle powstała jakaś myśl na temat świata i postanowiłeś


sprawdzić, czy jest prawdziwa, to kiedy będziesz już znał wynik badania,
który jej nie potwierdza, nie mów, że tak naprawdę miałeś na myśli coś in-
nego. Tego wymaga zwyczajna uczciwość wobec siebie i wobec swojego
partnera – Przyrody. Inaczej ta gra nie ma sensu.
Jest jeszcze druga – statystyczna – konsekwencja związana z jedno- lub
dwustronnym sformułowaniem hipotezy alternatywnej. Wiąże się ona z nie-
co innym prawdopodobieństwem przyjęcia lub odrzucenia hipotezy zerowej
w każdej z tych sytuacji.

JAKI JEST ZWIĄZEK MIĘDZY SFORMUŁOWANIEM HIPOTEZY ALTERNATYWNEJ


A PRAWDOPODOBIEŃSTWEM PRZYJĘCIA HIPOTEZY ZEROWEJ?

Do tej pory o hipotezie alternatywnej myśleliśmy przede wszystkim przez


pryzmat średniej dla interesującej nas grupy studentów, a nie jej prawdopo-
dobieństwa. Przyjrzyjmy się więc teraz uważniej drugiej stronie medalu.
Przypomnijmy, że w analizowanym przez nas przykładzie z badań, w któ-
rych uzyskaliśmy x = 16,77 , wyliczyliśmy wynik standaryzowany z = 1,90
i odczytaliśmy odpowiadające mu prawdopodobieństwo p = 0,0287. Czy to
znaczy, że mamy przyjąć, czy też odrzucić hipotezę zerową?
Zanim odpowiemy na to pytanie, musimy sobie jeszcze coś uświadomić.
Przede wszystkim do tej pory w ogóle nie zastanawialiśmy się nad tym, czy
prawdopodobieństwa podane w tablicy A odnoszą się do hipotezy jedno-,
czy dwustronnej. Otóż odpowiedź jest bardzo prosta: dotyczą one tylko hi-
potezy jednostronnej. Jeżeli więc w tablicy A odczytujesz, że powierzchnia
powyżej z = 1,90 wynosi 0,0287, to jest to prawdopodobieństwo uzyskania
przypadkiem wartości wyższych niż z = 1,90 pod warunkiem, że prawdziwa
jest hipoteza zerowa, ale tylko w sytuacji, w której testowałeś prawostron-
ną hipotezę alternatywną. Prawostronną, bo z jest wartością dodatnią, czyli
w rozkładzie normalnym standaryzowanym reprezentuje wynik, który jest
większy niż średnia dla wszystkich danych branych pod uwagę.
Prześledźmy kilka możliwych scenariuszy naszych badań.
Przyjęliśmy przed badaniami, że studenci, którzy nie opuszczają naszych
wykładów, uzyskają średnio lepsze wyniki na egzaminie niż wszyscy zdają-
cy. Tak więc z prawdopodobieństwem równym 0,0287 mogliśmy przyjąć
hipotezę zerową. To, jak ostatecznie postąpilibyśmy, zależałoby jeszcze od
przyjętego kryterium, czyli poziomu istotności, ale o tym za chwilę.
Przypuśćmy jednak, że nasi studenci uzyskali na egzaminie średnią niższą
niż wszyscy (oj, nie mielibyśmy się wówczas z czego cieszyć) i że odpowia-
TESTOWANIE HIPOTEZ DOTYCZĄCYCH ŚREDNICH 287

dająca jej wartość testu z wynosiłaby nie 1,90, ale –1,90. Czy umiałbyś poli-
czyć tę średnią? Musimy zacząć od przekształcenia znanego ci wzoru. Jeżeli:
x−µ
z=
σx

to
x = µ + zσ x

czyli
x = 15,61 + (−1,90) × 0,61 = 15,61 − 1,159 = 14,451
No i gotowe. Jeśliby więc studenci uzyskali średnią 14,451, to odpowiadają-
cy jej wynik testu z wyniósłby –1,90, co znaczyłoby, że moglibyśmy przyjąć
lewostronną hipotezę alternatywną z prawdopodobieństwem popełnienia
błędu I rodzaju równym 0,0287 (por. rys. 6.3).
Stało się jednak inaczej. Jeśli więc chcemy być konsekwentni, musimy
stwierdzić, że prawdopodobieństwo średniej 16,77 i niższych od niej wynosi
0,9713 (powierzchnia poniżej z = 1,90), co oczywiście skłoniłoby nas do
uznania, że nie ma podstaw do odrzucenia lewostronnej hipotezy zerowej
(zob. rys. 6.5).
Rysunek 6.5. Powierzchnia
pod krzywą normalną repre-
zentująca prawdopodobień-
stwo przyjęcia hipotezy zero-
wej (pole zaciemnione) wo-
bec błędnie sformułowanej
lewostronnej hipotezy alter- średnia
uzyskana
natywnej
w badaniach
średnia w populacji

µ x

Przy tej okazji rozważmy jeszcze jeden scenariusz. Przypuśćmy, że niezbyt


pewni wyników studentów na egzaminie, przed badaniami przyjęliśmy dwu-
stronną hipotezę alternatywną. Bylibyśmy wtedy równie zadowoleni, gdyby
średnia naszej próby była większa lub mniejsza od średniej w populacji.
Wtedy jednak zmieniłoby się prawdopodobieństwo odpowiadające uzyska-
nej średniej.
Dwustronna hipoteza alternatywna wskazuje nie na jedno, ale na dwa pola
powierzchni pod krzywą normalną, prawdopodobieństwo zaś odczytane
z tablic dotyczy tylko jednego z tych pól. Stąd też prawdopodobieństwo
średniej, której odpowiada z = 1,90, równa się sumie dwóch powierzchni,
288 WNIOSKOWANIE STATYSTYCZNE

powyżej z = 1,90 i poniżej z = –1,90, czyli 0,0287 + 0,0287 = 0,0574 (zob.


rys. 6.4).
Zauważ, że w zależności od tego, czy formułujesz hipotezę jedno-, czy dwu-
kierunkową, inne jest prawdopodobieństwo, że uzyskany przez ciebie wynik
badań jest losowy.
Wynik testu z równy 1,90 w przypadku hipotezy prawostronnej sugeruje, że
prawdopodobieństwo uzyskania przypadkiem wyniku odpowiadającego tej
wartości i wartościom wyższym wynosi 0,0287, ale w przypadku hipotezy
dwustronnej mamy do czynienia z prawdopodobieństwem tego, że wynik
jest albo wyższy od wartości odpowiadającej z = 1,90, albo niższy od warto-
ści odpowiadającej z = –1,90. Prawdopodobieństwo to wynosi 0,0574, czyli
jest dwa razy większe.
Na koniec dodajmy, że test statystyczny, który stosujemy do weryfikacji le-
wostronnej hipotezy alternatywnej, nazywa się testem lewostronnym, do
weryfikacji prawostronnej hipotezy alternatywnej – testem prawostron-
nym, a do weryfikacji dwustronnej hipotezy alternatywnej – testem dwu-
stronnym.
Teraz pozostała nam jeszcze tylko do omówienia sprawa kryterium odrzuce-
nia hipotezy zerowej, czyli poziomu istotności.

UKŁON W KIERUNKU PROFESORA FISHERA, CZYLI O POZIOMIE ISTOTNOŚCI RÓŻNIC

Przed badaniami podejmujemy dwie ważne decyzje. Jedna dotyczy sposobu


sformułowania hipotezy alternatywnej (o tym już sporo napisaliśmy), a dru-
ga – satysfakcjonującego nas kryterium odrzucenia hipotezy zerowej, czyli
poziomu istotności α.
Decyzja dotycząca kryterium odrzucenia hipotezy zerowej jest najważniej-
szym elementem każdej strategii badawczej. Od niej zależy status hipotezy
alternatywnej, kiedy poznamy już wynik badania.
Wspomniany przez nas wielokrotnie sir Ronald Fisher sugerował, żeby od-
rzucając hipotezę zerową, nie popełniać większego błędu niż pięcioprocen-
towy. Do dziś, tradycyjnie, jako podstawowe kryterium odrzucenia hipotezy
zerowej przyjmuje się poziom istotności α = 0,05.
Zanim odpowiemy na pytanie, jak wykorzystać ten wskaźnik w naszych ba-
daniach studentów, musimy raz jeszcze wrócić na moment do wcześniejszej
dyskusji dotyczącej hipotez jedno- i dwustronnych.
Wiemy, że każde prawdopodobieństwo można przedstawić w rozkładzie
normalnym standaryzowanym, jako powierzchnię o określonej wielkości.
W zależności jednak od tego, czy testujemy jedno-, czy dwustronną hipotezę
TESTOWANIE HIPOTEZ DOTYCZĄCYCH ŚREDNICH 289

alternatywną, powierzchnia ta będzie się znajdowała po jednej lub po drugiej


stronie rozkładu albo będzie symetrycznie rozłożona na dwie równe części
po obu jego stronach. W konsekwencji powierzchnia pod krzywą normalną,
dla hipotezy prawo- lub lewostronnej, będzie wynosiła 0,05, czyli α, ale dla
α
hipotezy dwustronnej powinna być rozbita na dwa obszar o wielkości
2
każdy, czyli po 0,025.
Podobnie jak wynik testu z jest wyrażony w jednostkach standaryzowanych
z, w tych samych jednostkach możemy wyrazić wartości krytyczne, czyli
takie, których przekroczenie skłoni nas do odrzucenia hipotezy zerowej.
Najwygodniej odczytać, jaka wartość wyniku standaryzowanego z odpowia-
da powierzchni równej 0,05, z tablicy B. Trzeba jednak pamiętać, że podob-
nie jak tablica A, również i ta tablica odnosi się do hipotezy jednostronnej.
Otwórz Aneks i sprawdź: dla powierzchni powyżej 0,05 wynik standaryzo-
wany z wynosi 1,64, a dla 0,025 – 1,96 (zob. rys. 6.6).

Rysunek 6.6. Wyniki standa-


ryzowane z oraz obszary od-
rzucenia hipotezy zerowej dla
dwóch rodzajów hipotez al-
ternatywnych przy założeniu,
że α = 0,05
obszar odrzucenia obszar odrzucenia
hipotezy zerowej hipotezy zerowej
dla lewostronnej dla prawostronnej
hipotezy hipotezy
alternatywnej alternatywnej

-1,96 -1,64 0 1,64 1,96

obszary odrzucenia hipotezy zerowej dla dwustronnej hipotezy alternatywnej

Na rysunku 6.6, oprócz odnalezionych w tablicy B wartości wyników stan-


daryzowanych, zaznaczyliśmy powierzchnie, które nazwaliśmy obszarami
odrzucenia hipotezy zerowej. Obszar odrzucenia hipotezy zerowej wska-
zuje na wszystkie wartości z większe (po prawej stronie rozkładu) lub mniej-
sze (po lewej stronie) niż kryterialny poziom istotności α.
Aby ostatecznie wyjaśnić znaczenia poszczególnych pól, najlepiej się odwo-
łać do uzyskanego w naszych badaniach wyniku testu z oraz różnych scena-
riuszy dotyczących formułowanych hipotez alternatywnych.

FINAL CUT, CZYLI OSTATECZNE ROZSTRZYGNIĘCIE

Najpierw nanieśmy na rysunek 6.6 wynik testu z = 1,90 (zob. rys. 6.7).
290 WNIOSKOWANIE STATYSTYCZNE

Rysunek 6.7. Wynik testu


z na tle obszarów odrzucenia
hipotezy zerowej

z = 1,90
obszar odrzucenia obszar odrzucenia
hipotezy zerowej hipotezy zerowej
dla lewostronnej dla prawostronnej
hipotezy hipotezy
alternatywnej alternatywnej

-1,96 -1,64 0 1,64 1,96

obszary odrzucenia hipotezy zerowej dla dwustronnej hipotezy alternatywnej

Teraz mamy już komplet. Przeanalizujmy raz jeszcze trzy scenariusze badań.
• Zacznijmy od rozpatrzenia sytuacji, w której przed badaniami przyjęli-
byśmy prawostronną hipotezę alternatywną, zgodnie z którą studenci,
którzy nie opuszczali naszych wykładów, osiągnęli wyższe wyniki na
egzaminie niż wszyscy podchodzący do tego egzaminu. Z wykresu na
rysunku 6.7 oraz z porównania wartości liczbowych testu z = 1,90 i wy-
niku standaryzowanego z dla α = 0,05 dla hipotezy prawostronnej
(z = 1,64) wynika, że wynik testu jest wyższy niż wynik standaryzowany
z dla przyjętego poziomu istotności α. Wobec tego można powiedzieć,
że wynik testu „wpada w obszar odrzucenia hipotezy zerowej”, a zatem
pozwala na przyjęcie hipotezy alternatywnej. Studenci, którzy regular-
niej uczęszczali na nasze wykłady, uzyskali na egzaminie statystycznie
istotnie wyższy wynik niż wszyscy studenci zdający ten egzamin. Zapis
tego wyniku statystycznego wygląda tak: z = 1,90; p<0,05.
• Przyglądając się rysunkowi 6.7, możesz teraz sam spróbować odpowie-
dzieć na pytanie, czy gdybyśmy przed badaniami przyjęli hipotezę dwu-
stronną, również zostałaby ona potwierdzona. Dla dwustronnej hipotezy
alternatywnej, kryterialny wynik standaryzowany z dla α = 0,05 wynosi
1,96. Jest więc nieco wyższy niż uzyskany w badaniach wynik testu
z = 1,90. Można powiedzieć zatem, że nie osiągnął on poziomu kryte-
rialnego lub też że „nie wpadł w obszar odrzucenia hipotezy zerowej”.
Oznacza to, że nadal znajduje się on w obszarze przyjęcia hipotezy ze-
rowej. Gdybyśmy więc przyjęli hipotezę dwustronną, po badaniu musie-
libyśmy przyznać, że niewiele wskazuje na to, aby studenci, którzy
opuszczają co najwyżej dwa wykłady ze statystyki, na egzaminie uzy-
skiwali średni wynik, który statystycznie istotnie różniłby się od śred-
niego wyniku uzyskanego przez wszystkich zdających ten egzamin. Po-
nieważ jednak wynik testu jest bardzo bliski wartości krytycznej, może-
my zinterpretować go jako „wyraźną, choć nieistotną statystycznie ten-
dencję”. Taki wynik może nas sprowokować do podjęcia dalszych ba-
dań. Chociaż średnia dla naszej grupy studentów nie różni się istotnie od
TESTOWANIE HIPOTEZ DOTYCZĄCYCH ŚREDNICH 291

średniej dla populacji, to wyraźnie sugeruje, że jest jakaś zależność mię-


dzy chodzeniem na wykład a wynikiem na egzaminie ze statystyki.
• Jest wreszcie i trzecia sytuacja. Postawiliśmy lewostronną hipotezę al-
ternatywną, sądząc, że średnia w interesującej nas grupie studentów bę-
dzie niższa niż średnia w populacji, lecz w wyniku badania okazało się,
że jest odwrotnie. To wyraźny wskaźnik niezbyt dobrze przemyślanej
hipotezy. Można powiedzieć, że do badanego problemu zastosowaliśmy
niewłaściwą teorię. Tak czy inaczej, w tej sytuacji zdecydowanie musi-
my odrzucić hipotezę alternatywną i przyjąć hipotezę zerową. Wynik te-
stu z = 1,90 znacznie wykracza poza obszar odrzucenia hipotezy zero-
wej, wyznaczony przez wynik standaryzowany z = –1,64 dla α = 0,05
przy założeniu alternatywnej hipotezy lewostronnej.
Podsumujmy analizę trzech scenariuszy naszych badań w postaci trzech
ogólnych zasad interpretacyjnych:
• Po pierwsze, jeżeli hipoteza alternatywna jest prawostronna, to odrzu-
camy hipotezę zerową wtedy, gdy prawdopodobieństwo uzyskania ta-
kich samych wartości jak wynik testu i wyższych jest mniejsze od przy-
jętego kryterium α.
• Po drugie, jeśli hipoteza zerowa jest lewostronna, to odrzucamy hipotezę
zerową wtedy, gdy prawdopodobieństwo uzyskania takich samych war-
tości jak wynik testu i niższych jest mniejsze od kryterium α.
• Po trzecie, hipoteza alternatywna może nie rozstrzygać, czy średnia
w próbie jest większa, czy mniejsza od średniej w populacji. Wtedy od-
rzucamy ją, gdy prawdopodobieństwo uzyskania takich samych wartości
α
jak wynik testu i niższych jest mniejsze od kryterium lub gdy praw-
2
dopodobieństwo uzyskania takich samych wartości jak wynik testu oraz
α
wyższych jest mniejsze od przyjętego kryterium .
2

NAJCZĘŚCIEJ WYKORZYSTYWANE WARTOŚCI KRYTYCZNE W TEŚCIE z

Wyniki standaryzowane z, do których się porównuje wyniki testu z, nazywa


się wartościami krytycznymi, ponieważ ich przekroczenie w lewą lub prawą
stronę (odpowiednio do „kierunku” testu) powoduje odrzucenie hipotezy
zerowej.
Tradycyjnie, oprócz poziomu istotności α = 0,05, hipotezy zerowe testuje się
również dla kilku innych poziomów, np. 0,02, 0,01 lub 0,001. Dla każdego
z nich w tablicy B również można znaleźć analogiczne wartości krytyczne.
292 WNIOSKOWANIE STATYSTYCZNE

Najczęściej wykorzystywane prawdopodobieństwa odrzucania hipotezy ze-


rowej α i związane z nimi wartości krytyczne zawiera tabela 6.1.

Tabela 6.1. Wartości krytycz- Poziom odrzucania Wartość testu z, przy której można odrzucić H0
ne dla testu z dla kilku przy-
H0 (α) Test dwustronny Test lewostronny Test prawostronny
kładowych poziomów α
z < -1,96
0,05 z < -1,64 z > 1,64
lub z > 1,96
z < -2,34
0,02 z < -2,05 z > 2,05
lub z > 2,34
z < -2,58
0,01 z < -2,34 z > 2,34
lub z > 2,58
z < -3,29
0,001 z < -3,09 z > 3,09
lub z > 3,29

REGUŁY ODRZUCANIA HIPOTEZY ZEROWEJ W TEŚCIE z

Przy podejmowaniu decyzji o odrzuceniu lub przyjęciu hipotezy zerowej


mamy dwie możliwości.
• Można sprawdzić, jakie jest prawdopodobieństwo przypadkowego uzy-
skania otrzymanego w badaniu wyniku testu z i wyników od niego niż-
szych lub wyższych. Jeżeli to prawdopodobieństwo jest mniejsze od
α
przyjętego α (dla testu jednostronnego) lub mniejsze od (dla testu
2
dwustronnego), to należy odrzucić H0.
• Można porównać wynik testu z z wartością krytyczną (korzystając choć-
by z tabeli 6.1) i odrzucić H0, gdy jest ona odpowiednio mniejsza lub
większa od odpowiedniej wartości krytycznej.
Oba sposoby są równorzędne. Obecnie jednak najczęściej nie ma potrzeby
szukać statystycznego poziomu istotności w tablicach, bo większość obli-
czeń wykonują za nas komputery, a one od razu podają wartości prawdopo-
dobieństwa dla wyników testu. Większość programów w dodatku wyróżnia
te prawdopodobieństwa w specjalny sposób (np. na czerwono), gdy są one
mniejsze od ustalonego poziomu α.

ZASTOSOWANIE TESTU z, GDY NIEZNANE JEST ODCHYLENIE STANDARDOWE W POPULACJI

Test z można stosować wtedy, gdy rozkład danej cechy w populacji jest roz-
kładem normalnym oraz znamy średnią i odchylenie standardowe tego roz-
kładu. Znajomość średniej w populacji jest oczywiście warunkiem niezbęd-
nym do testowania hipotez o jednej średniej. Pytanie, jakie stawiamy, brzmi
TESTOWANIE HIPOTEZ DOTYCZĄCYCH ŚREDNICH 293

przecież: „Czy próba, którą badamy, pochodzi ze znanej populacji?”. Musi-


my zatem coś wiedzieć na jej temat.
Czy musimy jednak znać drugi parametr populacji, tj. odchylenie standar-
dowe? Otóż niekoniecznie. Jeżeli próba jest dostatecznie duża, a więc liczy
co najmniej 30 elementów, to jako estymatora odchylenia standardowego
w populacji można wykorzystać odchylenie standardowe w próbie, zgodnie
ze wzorem:
n

∑(X i − x) 2
s= i =1

n
Jak zapewne pamiętasz, odchylenie standardowe w próbie jest estymatorem
obciążonym, co w praktyce oznacza, że jest ono nieco mniejsze od odchy-
lenia standardowego w populacji. Jeżeli jednak próba liczy 30 elementów
i więcej, to ta różnica jest tak niewielka, że spokojnie można ją zaniedbać
(opisaliśmy to dokładnie w rozdziale o estymacji).
Zamiast nieznanego odchylenia standardowego w populacji możemy więc
do wzoru na test z wstawić wartość estymatora odchylenia standardowego
w próbie, ale pod warunkiem, że próba, jaką pobraliśmy, jest dostatecznie
duża, czyli zawiera więcej niż 30 elementów. Wzór na test z wyglądałby
wtedy tak:
x−µ
z=
s
n
z wynik testu z,

x średnia arytmetyczna w próbie,

µ średnia arytmetyczna w populacji równa średniej arytmetycznej w rozkładzie z próby,


s odchylenie standardowe w próbie,
n liczebność w próbie.

Podstawiając do tego wzoru dane dotyczące 30 studentów regularnie cho-


dzących na wykłady ze statystyki, dowiedzielibyśmy się, że:
16,77 − 15,61 1,16
z= = = 1,61
3,95 0,72
30
Oznaczałoby to, że wynik tak obliczonego testu z jest nieco mniejszy od wy-
niku testu z = 1,90, który wyznaczyliśmy, znając prawdziwe odchylenie
294 WNIOSKOWANIE STATYSTYCZNE

standardowe w rozkładzie średnich z próby, czyli parametr. Różnica bierze


się oczywiście stąd, że odchylenie standardowe w próbie jest nieco większe
niż odchylenie standardowe w rozkładzie średnich z próby, co sprawia, że
wstawione do mianownika, zmniejsza wynik dzielenia. Gdybyśmy więc nie
znali tego parametru populacji, niezależnie od tego, jaką hipotezę testowali-
byśmy, musielibyśmy przyjąć, że prawdziwa jest hipoteza zerowa.
Wynik testu z = 1,61 jest mniejszy od wszystkich wymienionych w tabeli 6.1
prawostronnych i większy od wszystkich lewostronnych wartości krytycz-
nych, tzn. nie wpada w obszar odrzucenia hipotezy zerowej.
Nie sądzisz, że w kontekście tego wszystkiego wiedza, jaką uzyskujemy,
prowadząc eksperymenty w psychologii, jest – mówiąc dość oględnie – wie-
dzą niezbyt pewną? Rozumowanie na podstawie wyników eksperymentów
ma charakter indukcyjny i w większości przypadków taką też niezbyt pewną
wiedzę gromadzisz (lub zgromadziłeś) podczas całych swoich studiów psy-
chologicznych.
Skoro więc jest tak źle, to dlaczego jest tak dobrze? Okazuje się jednak, że
chociaż tak niewiele wiemy na pewno, to w praktyce ta niepewna wiedza
i tak okazuje się o niebo lepsza niż jej brak.

WILLIAM GOSSET I TESTY DLA MAŁYCH PRÓBEK PIWA

Jednym z warunków zastosowania testu z jest odpowiednia wielkość próbki.


Zgodnie z tym, co napisaliśmy, nie można zastosować tego testu, gdy po-
równywana z populacją próba liczy mniej niż 30 elementów.
Na szczęście problem, co należy zrobić w sytuacji, gdy mamy dostęp do
mniejszej próby, został rozwiązany przez angielskiego chemika i statystyka,
Williama Gosseta. Eksperymentalnie stwierdził on, że rozkład średnich
z małych próbek nie jest rozkładem normalnym, ale podobnym do niego
tzw. rozkładem t, znanym również jako rozkład Studenta.
Niektórzy twierdzą, że Gosset był zbyt nieśmiały, aby podpisywać swoje
prace własnym nazwiskiem, więc najczęściej pisał je pod pseudonimem
„Student”. W rzeczywistości jednak powodem ukrywania się za pseudoni-
mem było jego miejsce pracy. Po skończonych studiach zatrudnił się w bro-
William Gosset warze Arta Guinnessa w Irlandii (tym samym, w którym do dziś produkuje
(1876-1937)
się guinnessa) i jego zadaniem było opracowanie metody pozwalającej na
wyciąganie wniosków dotyczących różnic pomiędzy próbkami piwa. Ponie-
waż jednak nie mógł przeprowadzać eksperymentów na wielką skalę, musiał
opracować takie metody statystyczne, które pozwalałyby na badanie jakości
piwa na podstawie analizy składu niewielkich jego próbek. Wyników swoich
badań nie mógł również podpisywać własnym nazwiskiem, ponieważ zarząd
TESTOWANIE HIPOTEZ DOTYCZĄCYCH ŚREDNICH 295

* Por. Aron, A., Aron, E. N. browaru Guinnessa nigdy nie zgodziłby się na opublikowanie danych świad-
(1999). Statistics for psychology. czących o tym, że różne próbki ich piwa mają różną jakość lub – mówiąc
Upper Saddle River: Prentice
Hall. dokładniej – że ich browar produkuje piwo lepsze i gorsze*.

ROZKŁAD t STUDENTA

Po rozkładzie normalnym, rozkład t jest drugim co do ważności rozkładem


zmiennej losowej. Oba rozkłady są bardzo podobne do siebie: są ciągłe
i symetryczne po obu stronach średniej, a prawdopodobieństwa otrzymania
poszczególnych wartości odczytuje się, badając powierzchnię pod ich krzy-
wymi. Istnieje jednak również zasadnicza różnica pomiędzy nimi.
Rozkład normalny standaryzowany z jest zawsze taki sam – ma średnią
µ = 0 i odchylenie standardowe σ = 1. Co prawda w rozkładzie standaryzo-
wanym t średnia również wynosi 0, ale odchylenie standardowe jest zmienne
i zależy od tzw. liczby stopni swobody, oznaczanej symbolem df (skrót ten
pochodzi od angielskiego określenia degrees of freedom). Pojęcie to wyjaś-
nimy dokładniej poniżej, a na razie, nieco upraszczając, przyjmijmy, że licz-
ba stopni swobody równa jest liczbie elementów w próbie minus 1.
Wartość odchylenia standardowego w standaryzowanym rozkładzie t obli-
czyć można następująco:
df
σ (t ) =
df − 2

gdzie df jest liczbą stopni swobody, czyli po naszym uproszczeniu liczbą


elementów w grupie pomniejszoną o 1.
Na przykład dla próbki 30-elementowej σ(t) = 1,036, dla próbki 20-elemen-
towej σ(t) = 1,057, a dla próbki 7-elementowej σ(t) = 1,225.
Z kolei dla próbek większych od 30 odchylenie standardowe w rozkładzie
t coraz bardziej zbliża się do 1, czyli takiego, jakie jest w rozkładzie nor-
malnym. Na przykład już dla zbioru 100-elementowego σ(t) = 1,010, a dla
1000-elementowego σ(t) = 1,001.
Ponieważ w zależności od liczby stopni swobody zmienia się odchylenie
standardowe, również sam kształt rozkładu jest zmienny. Liczba stopni swo-
body jest więc dodatkowym parametrem rozkładu t.
W przypadku, gdy analizujemy wyniki tylko jednej próby, liczba stopni
swobody to właśnie wielkość df = n – 1, czyli pomniejszona o 1 liczebność
próbki. Na rysunku 6.8 na jednej osi przedstawione są przykłady dwóch wy-
kresów rozkładów standaryzowanych: normalnego i rozkładu t o takiej sa-
mej średniej.
296 WNIOSKOWANIE STATYSTYCZNE

Rysunek 6.8. Standaryzowa-


ne rozkłady: normalny i t Stu-
denta
Rozkład t Studenta

Rozkład normalny

-2σ -1σ µ=0 1σ 2σ

I jeszcze jedna ciekawostka lingwistyczna: wysmukłe rozkłady dla małych


prób nazywa się rozkładami leptokurtycznymi.

TEST t DLA JEDNEJ PRÓBY

Gdy badana próba liczy mniej niż 30 elementów i sprawdzamy, czy badana
próba pochodzi z populacji o znanej średniej i nieznanym odchyleniu stan-
dardowym, wówczas odpowiednikiem testu z dla jednej próby jest test
t dla jednej próby. Wzór na ten test jest, przynajmniej po prawej stronie
znaku równości, taki sam jak wzór na test z:
x−µ
t=
s
n
co po przekształceniu może też wyglądać tak:
x−µ
t= n
s
t wynik testu t Studenta,

x średnia arytmetyczna w próbie,

µ średnia arytmetyczna w populacji równa średniej arytmetycznej w rozkładzie z próby,


odchylenie standardowe w próbie, będące estymatorem nieznanego odchylenia standardowe-
s
go w populacji,
n liczebność próby.

We wzorze służącym do obliczenia testu t wykorzystaliśmy wartość obcią-


żonego estymatora wariancji w populacji na podstawie wariancji w próbie.
TESTOWANIE HIPOTEZ DOTYCZĄCYCH ŚREDNICH 297

Istnieje też wersja testu t, w którym wykorzystuje się nieobciążony estyma-


tor wariancji, czyli ŝ , ale wynik obu testów jest dokładnie taki sam.
Formalnie nie ma żadnej różnicy między testem z i t. W identyczny sposób
podejmujemy decyzję co do przyjęcia lub odrzucenia hipotezy zerowej, hi-
poteza alternatywna może być jedno- lub dwustronna i dokładnie tak samo
wyglądają również obszary krytyczne. Skoro jednak standaryzowane rozkła-
dy z i t różnią się kształtem i odchyleniem standardowym, musimy tę różnicę
uwzględnić, co czynimy, przyjmując dodatkowy parametr w rozkładzie t,
czyli liczbę stopni swobody. Ponieważ zaś liczba stopni swobody zależy od
wielkości próby, więc to, czy ostatecznie odrzucimy hipotezę zerową, czy
nie, też zależy m.in. od tego.

PRZYKŁAD ZASTOSOWANIA TESTU t DLA JEDNEJ PRÓBY

Przedstawiając wykorzystanie testu z, testowaliśmy hipotezę zerową, która


mniej więcej brzmiała tak: „Średnia z egzaminu w grupie studentów, którzy
rzadko opuszczali wykłady, jest taka sama jak średnia w populacji”. W zasa-
dzie nie ma przeszkód, aby do weryfikacji tej samej hipotezy zerowej użyć
testu t. Po podstawieniu znanych wartości: x = 16,77, µ = 15,61, s = 3,95
i n = 30 do wzoru otrzymujemy następujący wynik testu t:
16,77 − 15,61 1,16
t= = = 1,61
3,95 0,72
30
i ... z zaskoczeniem odkrywamy, że jest on identyczny z wynikiem testu
z dla tych samych danych. Okazuje się jednak, że rzecz nie tkwi w samym
wyniku testu, lecz w ocenie jego prawdopodobieństwa wynikającego
z kształtu rozkładu.

PRAWDOPODOBIEŃSTWO W ROZKŁADZIE z I t STUDENTA

Standaryzowany rozkład normalny z jest tylko jeden. Nie ma więc problemu


z ustaleniem za jego pomocą prawdopodobieństwa dowolnej wartości, po-
nieważ dają się one zapisać w niezbyt skomplikowanej tablicy statystycznej.
W naszej książce zamieściliśmy dwie takie tablice: A i B.
W przypadku rozkładu t Studenta sprawa jest trochę bardziej skomplikowa-
na. Nie ma jednego standaryzowanego rozkładu t. Za każdym razem jego
kształt zależy od liczby stopni swobody.
Ponieważ standaryzowanych rozkładów t może być bardzo dużo (tzn. tyle,
ile jest możliwych wartości parametru df – a więc właściwie nieskończenie
298 WNIOSKOWANIE STATYSTYCZNE

wiele), nie ma sensu konstruowania tablic z prawdopodobieństwami dla nich


wszystkich. Jedyne, co można zrobić, to dla różnych poziomów istotności i
różnych stopni swobody podać wartości krytyczne testu t, które z kolei
w zupełności wystarczą do oceny prawdziwości hipotezy zerowej. U nas,
w Aneksie, znajdziesz wartości krytyczne testu t w tablicy C.
Na przykład wartość krytyczna w rozkładzie t, dla testu jednostronnego,
df = 29 i α = 0,05 wynosi 1,699. Oznacza to, że w standaryzowanym rozkła-
dzie t o liczbie stopni swobody df = 29 prawdopodobieństwo uzyskania war-
tości równych lub większych od 1,699 wynosi 0,05.
W badaniu wyników egzaminu ze statystyki wynik testu t = 1,61 jest niższy
od wartości krytycznej t0,05. Wiesz już, co to znaczy. Jeżeli w teście t uzyska-
łeś wynik, który jest mniejszy od określonej wartości krytycznej, to znaczy,
że nie wpada on w obszar odrzucenia hipotezy zerowej, czyli hipoteza zero-
wa jest bardziej prawdopodobna niż hipoteza alternatywna.
Być może, pamiętasz, że analogiczna wartość krytyczna dla jednostronnego
testu z w tych samych warunkach wynosi 1,64. Jeśli się chwilę zastanowisz,
to porównując ze sobą te dwie wartości krytyczne: 1,699 dla testu t i 1,64 dla
testu z, dojdziesz do słusznego skądinąd wniosku, że w przypadku testu t do
odrzucenia hipotezy zerowej niezbędna jest większa różnica między średnią
w próbie a średnią w populacji niż w przypadku testu z.
Zależność ta pogłębia się coraz bardziej wraz ze zmniejszaniem się liczeb-
ności badanej próbki. Jeżeli badana grupa zawiera 20 elementów, to przy za-
chowaniu wszystkich pozostałych warunków, krytyczna wartość testu t wy-
nosi już 1,725, a dla 10 elementów 1,812.
Z podobną sytuacją mielibyśmy do czynienia, gdybyśmy przed badaniami
sformułowali hipotezę dwustronną. Krytyczna wartość dwustronnego testu
t dla df = 29 i α = 0,05 wynosi 2,045, czyli znowu jest większa od odpowia-
dającej jej wartości wyniku standaryzowanego z = 1,96 dla tych samych wa-
runków.
Relacja między liczebnością próby a wartością krytyczną testu t Studenta
dotyczy również liczebności większych niż 30. Im większa jest liczebność
próby, tym bardziej wartości krytyczne testu t zbliżają się do wartości kry-
tycznych testu z. Jeśli liczba obserwacji jest nieskończona, to dla obu testów
kryterium odrzucenia hipotezy zerowej jest takie samo.
Zasadniczo mamy mniejsze zaufanie do rzetelności wyniku testu ustalonego
dla mniejszej liczby danych niż dla większej. Można powiedzieć, że test t re-
spektuje tę intuicję i zaostrzając kryterium odrzucenia hipotezy zerowej,
przeciwdziała błędowi wnioskowania statystycznego α, lub – jak wolisz –
TESTOWANIE HIPOTEZ DOTYCZĄCYCH ŚREDNICH 299

błędowi radykała. Jak pamiętasz, radykał łatwiej może popełnić błąd polega-
jący na odrzucaniu hipotezy zerowej wtedy, gdy jest prawdziwa, niż na jej
przyjęciu, gdy jest fałszywa. W tym kontekście o teście t mówi się, że jest
bardziej konserwatywny.

DWA SPOSOBY WERYFIKACJI HIPOTEZY ZEROWEJ W TEŚCIE t

Podobnie jak w przypadku testu z, stosując test t, możemy na dwa sposoby


stwierdzić, czy można odrzucić hipotezę zerową.
• Możemy obliczyć prawdopodobieństwo uzyskania wartości t przy zało-
żeniu, że hipoteza zerowa jest prawdziwa, i sprawdzić, czy prawdopo-
dobieństwo to jest mniejsze niż przyjęty przez nas wcześniej poziom
α (zważywszy na brak odpowiednich tablic, takie zadanie może wyko-
nać za nas np. program STATISTICA)
• Możemy również wynik testu t porównać z odpowiednią wartością kry-
tyczną z tablicy C.

A TERAZ O TYM, CO TO JEST LICZBA STOPNI SWOBODY

Czas najwyższy, aby wyjaśnić, co to jest liczba stopni swobody. Pojęcie to


zostało wprowadzone do statystyki przez … sir Ronalda Fishera (trudno jest
przecenić zasługi Fishera dla współczesnej statystyki) i pierwotnie odnosiło
się do tzw. rozkładu χ2 (czytaj: „chi kwadrat”), o którym będziemy jeszcze
wiele mówić w części poświęconej testom nieparametrycznym.
Samo określenie „stopnie swobody” sugeruje, że chodzi o wartości, które
mogą się swobodnie zmieniać. Każda próba losowa ma tyle stopni swobody,
ile jest elementów w próbie, ponieważ zanim zostaną wylosowane, nieznana
jest wartość żadnego z tych elementów. Na przykład liczba stopni swobody
dla 10-elementowej próby o wartościach:
{2, 4, 6, 8, 10, 12, 14, 16, 18, 20}
wynosi 10, ponieważ przy następnym losowaniu 10-elementowej próby z tej
samej populacji ich wartości mogą być zupełnie inne – nie wiemy, jakie są,
dopóki ich nie wylosujemy.
Jeżeli jednak dla wylosowanej próby obliczymy średnią arytmetyczną (np. w
powyższym przykładzie wynosi ona 11), to wylosowanie następnej próby o
takiej samej średniej nie jest możliwe, jeśli każdy element tej próby będzie
mógł przyjąć dowolną wartość. Jeżeli bowiem znasz już średnią w próbie,
np. 10-elementowej, to tylko 9 z 10 elementów wylosowanych w kolejnej
300 WNIOSKOWANIE STATYSTYCZNE

próbie może przyjmować dowolne wartości, a dziesiąta wartość będzie cał-


kowicie zdeterminowana.
Przypuśćmy, że wylosowałeś 9 elementów o wartościach:
{1, 3, 5, 7, 9, 11, 13, 15, 17}
Żeby średnia tego zbioru mogła być równa 11, wartość dziesiąta nie może
już być dowolna, ale musi równać się 29. Dlatego właśnie, stosując test t dla
jednej średniej (a więc znanej wartości), musimy odwołać się do rozkładu
t o liczbie stopni swobody równej „liczebność próby minus 1”.
Gdybyśmy porównywali średnie w dwóch próbach o liczebnościach n1 i n2,
wtedy liczba stopni swobody wynosiłaby:
df = (n1 – 1) + (n2 – 1) = n1 + n2 – 2
ponieważ jedna wartość w każdej z tych próbek nie może się swobodnie
zmieniać, gdy znane są ich średnie i pozostałe wartości.
Pojęcie liczby stopni swobody wykorzystywane jest do wielu rodzajów te-
stów i najczęściej wiąże się ono z tym, w jaki sposób dzielimy dane. Jeżeli
np. podzielimy zbiór danych na 5 grup i do dalszych obliczeń wykorzystamy
tylko średnie, to liczba stopni swobody wyniesie 4. Wynika to stąd, że tylko
4 wartości średnie mogą się swobodnie zmieniać, jeżeli znana jest średnia
całkowita, czyli w tym przypadku średnia ze średnich.

KIEDY STOSOWAĆ TEST t DLA JEDNEJ PRÓBY, A KIEDY TEST z?

Obydwa testy dla jednej próby: z i t Studenta pozwalają odpowiedzieć na py-


tanie, czy dana próba pochodzi z populacji o znanych parametrach. Co różni
te dwa testy? W zasadzie niewiele. Obydwa stosuje się wtedy, gdy rozkład
badanej cechy w populacji jest rozkładem normalnym (będziemy jeszcze pi-
sać o tym, jak to sprawdzić).
Ponieważ testy stosuje się do porównania średniej w próbie do średniej
w populacji, w obu przypadkach musimy znać przynajmniej jeden parametr
populacji, tj. średnią. Jeżeli wariancja w populacji jest nieznana, to możemy
obliczyć wariancję w próbie i przyjąć, że jest ona oszacowaniem wariancji
w populacji.
Podstawową różnica między testami z i t jest wielkość próby: jeżeli próba
liczy więcej niż 30 elementów, to stosujemy test z, a jeżeli mniej – test t.
TESTOWANIE HIPOTEZ DOTYCZĄCYCH ŚREDNICH 301

6.2. CZY DWIE PRÓBY RÓŻNIĄ SIĘ MIĘDZY SOBĄ?

PORÓWNYWANIE DWÓCH POPULACJI

W poprzednim podrozdziale zajmowaliśmy się poszukiwaniem odpowiedzi


na pytanie, czy badana próba pochodzi z populacji o znanych parametrach.
W eksperymentach psychologicznych dość rzadko mamy jednak do czynie-
nia z sytuacją tego typu. Nawet jeśli znamy parametry rozkładu danej cechy
w populacji, to i tak częściej porównujemy grupę eksperymentalną z jakąś
grupą kontrolną niż z całą populacją.
Wiemy np., że rozkład inteligencji mierzonej testem WAIS w populacji ma
średnią równą 100 i odchylenie standardowe 15. Jeśli więc chciałbyś spraw-
dzić, czy studenci matematyki mają średnią wyższą od średniej dla całej po-
pulacji, to oczywiście możesz zbadać grupę studentów matematyki i porów-
nać ich wyniki ze znanymi parametrami dla populacji, stosując przy tym któ-
ryś z testów dla jednej średniej: test z lub test t. Równie dobrze mógłbyś jed-
nak porównać badaną grupę studentów z jakąś grupą kontrolną – np. z wyni-
kami co dziesiątej osoby zatrzymanej na ulicy (oczywiście pod warunkiem,
że osoby te się zgodzą, abyś przebadał ich inteligencję). W ten sposób, po-
równując dwie grupy ze sobą, tak naprawdę porównujesz dwie populacje:
studentów matematyki i przypadkowych przechodniów. Możesz również
zbadać ilorazy inteligencji, np. studentów psychologii i ekonomii, a następ-
nie porównać je ze sobą, aby stwierdzić, czy ze względu na inteligencję po-
chodzą oni z tej samej populacji, czy też z dwóch różnych.
Stawianie hipotez dotyczących średnich w dwóch populacjach jest chyba
najczęstszym przypadkiem w badaniach psychologicznych.

TYTUŁY DLA BEZSENSOWNYCH OBRAZKÓW

Statystyczną procedurę testowania hipotez dotyczących dwóch średnich opi-


* Bower, G. H., Karlin, M. B., szemy na przykładzie eksperymentu przeprowadzonego przez Gordona Bo-
Dueck, A. (1975). Comprehen- wera, Martina Karlina i Alvina Duecka*. Autorzy ci chcieli sprawdzić,
sion and memory for pictures.
Memory and Cognition, 3, w jakim stopniu nazwa pomaga w zapamiętywaniu bezsensownego obrazu.
216-220.
W ich eksperymencie wzięło udział 18 studentów. Każdy oglądał tę samą se-
rię prostych obrazków, głównie składających się z nic nieznaczących kresek.
Połowa badanych po prostu je oglądała, druga zaś połowa dodatkowo otrzy-
mała od eksperymentatora informację dotyczącą tytułu każdego z nich.
Zmienną niezależną w tym eksperymencie była więc obecność tytułu obraz-
ka lub brak tytułu, ale celem badania bynajmniej nie było stwierdzenie, czy
dziewięciu studentów (można ich nazwać grupą eksperymentalną), którzy
302 WNIOSKOWANIE STATYSTYCZNE

oglądali obrazki z tytułami, zapamięta je lepiej niż druga dziewiątka, ogląda-


jąca obrazki bez tytułów (czyli grupa kontrolna). Innymi słowy, celem eks-
perymentu nie było wnioskowanie o badanych grupach, ale o populacjach,
z których te grupy pochodzą. W tym przypadku chodziło o uzyskanie odpo-
wiedzi na pytanie: „Czy studenci (jako cała populacja, a nie tylko osoby ba-
dane) lepiej zapamiętują obrazki nazwane, czy nienazwane?”.
Jeżeli się zgodzimy, że pod względem zapamiętywania obrazków studenci
zasadniczo nie powinni różnić się od innych ludzi, to w tym badaniu chodzi-
ło o coś ważniejszego, a mianowicie o ustalenie pewnej ogólnej prawidło-
wości dotyczącej funkcjonowania ludzkiego umysłu. Oczywiście nie chodzi
jedynie o to, aby wykazać, że ludzie różnią się w zakresie zapamiętywania
bezsensownych obrazów.
Celem tego eksperymentu była weryfikacja tzw. hipotezy podwójnego ko-
dowania, czyli stanowiska, zgodnie z którym łatwiej jest wydobyć z pamięci
te informacje, które zostały „zapisane” za pomocą dwóch różnych kodów –
obrazowego i słownego.
Nawiasem mówiąc, nietrudno się domyślić, jaki był wynik tego badania.
Średnia liczba zapamiętanych obrazków (czyli zmienna zależna) w grupie
„z nazwami” wyniosła 19,6, a w grupie „bez nazw” – 14,2.

HIPOTEZY W EKSPERYMENCIE „NAZWY I ZAPAMIĘTYWANIE OBRAZKÓW”

Dokładnie tak jak w przypadku testów dla jednej średniej, tak i tutaj analiza
statystyczna będzie polegać na obliczeniu prawdopodobieństwa uzyskania
takich wyników, jakie otrzymali Bower, Karlin i Dueck, ale w sytuacji, w
której nazywanie nie miałoby żadnego wpływu na przypominanie, to znaczy
gdyby uzyskana różnica między średnimi była tylko dziełem przypadku. Tak
właśnie powinna brzmieć hipoteza zerowa dla tego eksperymentu:
H0: Nie ma różnic między średnimi dla obu populacji,
czyli
µz nazwami = µbez nazw
Obydwie średnie oznaczają wartości wskaźników rozpoznania obrazków
z nazwami i bez nazw dla całej populacji, czyli dla wszystkich takich studen-
tów, którzy potencjalnie mogli wziąć udział w tym eksperymencie. Wnios-
kowanie dotyczy więc jednej populacji osób, które zostały postawione
w dwóch różnych sytuacjach: albo podawano im nazwy rysunków, albo ich
nie podawano. Biorąc jednak pod uwagę tę zmienną, można również przy-
jąć, że jest ona czynnikiem tak dalece różnicującym zakres zapamiętywania
obrazków przez osoby należące do jednej populacji, iż naprawdę trzeba by
TESTOWANIE HIPOTEZ DOTYCZĄCYCH ŚREDNICH 303

raczej powiedzieć, że należą oni do dwóch różnych populacji: studentów


przypominających sobie rysunki z nazwami i studentów przypominających
sobie rysunki bez nazw. Takie przypuszczenie stanowiłoby podstawę do
sformułowania hipotezy alternatywnej, która mogłaby brzmieć np. tak:
H1: Nazwanie bezsensownego obrazka pomaga w jego zapamiętywaniu,
czyli
µbez nazwy < µnazwa
Bower i współpracownicy nie przeprowadzili swojego eksperymentu na
wszystkich studentach, lecz jedynie na osiemnastu osobach podzielonych na
dwie równe grupy. Po badaniach dysponowali więc tylko kilkoma liczbo-
wymi wskaźnikami zachowania się osób testowanych, ale – jak pamiętasz
– w części poświęconej estymacji ustaliliśmy, że jeden z tych wskaźników,
a mianowicie średnia arytmetyczna w próbie, jest najlepszym oszacowaniem
dla średniej w populacji. Do sprawdzenia hipotezy zerowej posłużymy się
więc tymi średnimi:
x1 = 14,2 dla grupy bez nazwy

x 2 = 19,6 dla grupy z nazwami

TEST t DLA DWÓCH ŚREDNICH (PRÓBY NIEZALEŻNE)

Do testowania hipotezy zerowej Bower, Karlin i Dueck posłużyli się jedną


z wersji testu t Studenta, która nosi nazwę testu t dla dwóch średnich.
x1 − x 2
t=
n1 s + n2 s22 ⎛ 1 1 ⎞
2
1
×⎜ + ⎟
n1 + n2 − 2 ⎜⎝ n1 n2 ⎟⎠

x1 średnia uzyskana w grupie badanej „bez nazwy”,

x2 średnia uzyskana w grupie badanej „z nazwami”,

n1 liczebność pierwszej grupy badanej,


n2 liczebność drugiej grupy badanej,

s12 wariancja w pierwszej grupie danych,

s22 wariancja w drugiej grupie danych.

Choć piętrowa postać wzoru na ten test może nieco odstraszać, to w gruncie
rzeczy powiela on tylko doskonale znany ci wzór na wynik standaryzowany
z czy też wzór na test z lub t dla jednej średniej.
304 WNIOSKOWANIE STATYSTYCZNE

Zwróć uwagę na to, że wszystkie te wzory łączy jedna idea: jest nią iloraz
różnicy między dwiema wartościami przez odchylenie standardowe. W licz-
niku najczęściej pojawiają się albo dwie średnie, albo jedna średnia i jakiś
konkretny wynik, a w mianowniku jest to albo odchylenie standardowe
w próbie, albo z próby, albo wreszcie – jak w przypadku tego wzoru na test
t – dwa odchylenia standardowe obliczone dla obu porównywanych grup.
Jeśli dodamy do tego, że odchylenie standardowe jest wskaźnikiem zmien-
ności wewnątrz każdej próby i jego wielkość jest wynikiem niekontrolowa-
nego wpływu zmiennych niezależnych zakłócających na zmienną zależną, to
się okaże, że wszystkie te wzory zawierają w sobie bardzo proste przesłanie:
jest nim ujęcie różnicy między dwiema wartościami, na którą miały wpływ
jakieś niekontrolowane czynniki.
Wróćmy do naszego nowego piętrowca. Jak widać, wzór na test t wymaga
podania w mianowniku wariancji w obu grupach. Byłoby lepiej, gdybyśmy
znali wariancję w całej populacji, ale skoro jej nie znamy, to możemy wyko-
rzystać wariancje w grupach jako estymatory wariancji w populacji. W zasa-
dzie nie ma znaczenia, czy wykorzystamy wartość zwykłej wariancji w pró-
bie, czyli bez daszka, czy wartość nieobciążonego estymatora wariancji, czy-
li wariancję z daszkiem.
W obu przypadkach wzory na test t nieco się różnią, ale wynik jest dokład-
nie taki sam. W praktyce najczęściej stosuje się obliczanie testu t, uwzględ-
niając wariancję „bez daszka”.
W eksperymencie Bowera i współpracowników wartości wariancji w obu
grupach wynosiły odpowiednio: w grupie „bez nazw” s12 = 6,77 , a w grupie
„z nazwami” s22 = 12,5 .
Po podstawieniu wszystkich danych do wzoru łatwo mogli obliczyć wartość
testu t Studenta:
14,2 − 19,6
t= = −3,48
9 × 6,77 + 9 × 12,5 ⎛ 1 1 ⎞
⎜ + ⎟
9+9−2 ⎝9 9⎠

INTERPRETACJA WYNIKU TESTU t DLA DWÓCH ŚREDNICH

Interpretacja wartości uzyskanej w teście t dla dwóch średnich jest dokładnie


taka sama jak dla jednej średniej. Najpierw należy odszukać w tablicy C
wartość krytyczną testu dla określonej liczby stopni swobody, która bezpo-
średnio wynika z liczebności porównywanych grup. W przypadku testu t dla
dwóch średnich wynosi ona
TESTOWANIE HIPOTEZ DOTYCZĄCYCH ŚREDNICH 305

df = (n1 – 1) + (n2 – 1) = n1 + n2 – 2
gdzie n1 to liczebność pierwszej grupy, czyli „bez nazwy”, a n2 oznacza li-
czebność drugiej grupy, czyli „z nazwą”.
Ponieważ w analizowanym przykładzie w obu grupach badano po 9 osób,
więc liczba stopni swobody wynosi:
df = 9 + 9 – 2 = 16
Hipoteza alternatywna jest jednostronna (średnia w grupie „bez nazwy” jest
mniejsza od średniej w grupie „z nazwą”), w więc w tablicy C należy odszu-
kać wartość krytyczną dla testu jednostronnego.
Jeżeli przyjmiemy, że α = 0,05, to dla df = 16 wartość krytyczna t0,05 wynosi
1,746. W tablicy C podane są tylko liczby dodatnie, a ponieważ testowana
hipoteza alternatywna jest lewostronna, więc przed odczytaną wartością kry-
tyczną musimy dostawić minus i dopiero teraz sprawdzić, czy zachowana
jest nierówność wynikająca z tej hipotezy:
–3,48<–1,79
Jak widać, wynik testu t jest mniejszy od wartości krytycznej t0,05. Oznacza
to, że z prawdopodobieństwem popełnienia błędu I rodzaju równym 0,05
możemy odrzucić hipotezę zerową i przyjąć hipotezę alternatywną.
Wynik badań potwierdził przypuszczenie badaczy, że nazywanie bezsen-
sownych obrazków pomaga w ich zapamiętywaniu. Wniosek ten dotyczy
jednak nie tylko obu grup badanych, lecz także całych populacji, z których te
grupy pochodzą.
Łatwo sprawdzić, że także na poziomie α = 0,01, a nawet dla α = 0,005, od-
rzucilibyśmy hipotezę zerową. Odrzucilibyśmy ją nawet wtedy, gdyby hipo-
teza alternatywna była dwustronna. Spójrz tabelę 6.2, w której przepisaliśmy
fragment tablicy C z Aneksu:

Tabela 6.2. Fragment tablicy Poziom istotności przy teście jednostronnym


C zawierającej wartości kry-
tyczne t dla df = 16 0,10 0,05 0,025 0,01 0,005 0,0005
df
Poziom istotności przy teście dwustronnym
0,20 0,10 0,05 0,02 0,01 0,001
16 1,337 1,746 2,120 2,583 2,921 4,015

Wynik testu jest większy tylko od wartości krytycznej t0,0005 dla hipotezy
jednostronnej na poziomie α = 0,0005. Dla porządku warto dodać, że do-
kładne prawdopodobieństwo uzyskania przypadkiem wartości t = –3,48
i mniejszych wynosi 0,001546. Można je łatwo obliczyć za pomocą progra-
mu STATISTICA.
306 WNIOSKOWANIE STATYSTYCZNE

JAK POPRAWNIE ZAPISAĆ WYNIK TESTU?

Możemy to zrobić na dwa sposoby:


Pierwszy wymaga odwołania się do tablicy statystycznej i wygląda tak:
t = –3,48(16); p<0,005
gdzie po wyniku testu, w nawiasie, wpisujemy liczbę stopni swobody, a na-
stępnie, po średniku – najmniejszy z możliwych poziom istotności α, na któ-
rym jeszcze możemy odrzucić hipotezę zerową.
Zwróć uwagę na to, że w naszym przykładzie hipotezę zerową możemy od-
rzucić już na poziomie 0,05, ale gdybyśmy zapisali wynik testu w taki spo-
sób: t = –3,48(16); p<0,05, byłoby to mniej więcej tak, jakbyśmy z trybuny
ogłosili światu: „odrzucamy hipotezę zerową, przekonani o słuszności tej
decyzji na 95%”. Wynik badań uprawnia nas do głoszenia światu prawdy
o badanych przez nas zjawiskach ze znacznie większym przekonaniem.
Trzymając się więc konwencji przemówień z trybuny, zapis „p<0,005”,
oznacza mniej więcej taki tekst: „odrzucamy hipotezę zerową, przekonani
o słuszności tej decyzji na 99,5%!”. Przyznasz, że to brzmi znacznie bardziej
przekonywająco, a przede wszystkim nadal jest zgodne z prawdą.
Drugi sposób zapisu uwzględnia precyzyjniej wyrażoną wartość prawdopo-
dobieństwa przypadkowego uzyskania wyniku t = –2,29 i mniejszych od
niego. Wygląda on wtedy tak:
t = –2,29(16); p<0,029
Różnica między tym zapisem a poprzednim sprowadza się do podania nie
kryterialnej, lecz zaokrąglonej do trzech miejsc po przecinku wartości praw-
dopodobieństwa odrzucenia hipotezy zerowej. Podobnie, jak w poprzednim
zapisie, po literce „p” pozostawiamy znak mniejszości.

PODOBIEŃSTWA I RÓŻNICE MIĘDZY TESTAMI t I z DLA DWÓCH ŚREDNICH

Podobnie jak w przypadku testowania hipotez dotyczących jednej średniej,


dla hipotez dotyczących dwóch średnich oprócz testu t istnieje także test z,
który stosuje się do większych prób.
Różnica pomiędzy testami z i t dla dwóch średnich jest dokładnie taka sama
jak różnica pomiędzy testami z i t dla jednej średniej.
Stosując obydwa testy, szacujemy średnie w populacji na podstawie średnich
w próbach. W przypadku testu z musimy jednak dodatkowo znać odchylenia
standardowe badanej cechy w obu populacjach. Zastosowanie testu z wyma-
ga więc obliczenia następującej statystyki:
TESTOWANIE HIPOTEZ DOTYCZĄCYCH ŚREDNICH 307

x1 − x 2
z=
σ12 σ 22
+
n1 n2

gdzie oprócz znanych już oznaczeń liczebności (ni) i średnich ( x i ) w po-


równywanych próbach, pojawiają się również wariancje w populacjach
( σ i2 ).
W przypadku testu t nie musimy znać odchylenia standardowego w obu po-
pulacjach, lecz wielkość tego odchylenia standardowego szacujemy na pod-
stawie badanych próbek. W tabeli 6.3 przedstawiamy zestawienie podob-
nych i różnych cech testów z oraz t.

Tabela 6.3. Porównanie te- Test t z


stów z i t
Założenia wspólne

• Pomiar cechy co najmniej na skali przedziałowej


• Rozkłady danych w obu grupach nie mogą się istotnie różnić od rozkładu normalnego
• Wariancje w obu grupach muszą być homogeniczne (nie mogą istotnie różnić się między so-
bą )

Założenia różne

Znajomość parametrów w po- Nieznana średnia i odchylenie Znana średnia i odchylenie


pulacji standardowe dla danej cechy standardowe dla danej cechy
w populacji w populacji. Gdy próba (lub
próby) są większe niż 30, jako
estymatora odchylenia stan-
dardowego w populacji można
użyć odchylenia standardo-
wego w próbie.

Liczba elementów w próbach Co najmniej 10 elementów Co najmniej 10 elementów


w każdej badanej grupie w każdej badanej grupie, gdy
znane jest odchylenie stan-
dardowe w populacji, z której
ta grupa pochodzi.
Co najmniej 30 elementów,
gdy odchylenie standardowe
w populacji oszacowywane
jest na podstawie próby.

Rozkład, do którego porów- Rozkład t Studenta, o średniej Rozkład normalny standary-


nywane są wyniki 0 i odchyleniu standardowym zowany z o średniej 0 i odchy-
zależnym od liczby stopni leniu standardowym 1
swobody

Moc testu Test mocniejszy niż z: mniej- Test słabszy niż t : większa
sza szansa na odrzucenie hi- szansa na odrzucenie hipote-
potezy zerowej zy zerowej
308 WNIOSKOWANIE STATYSTYCZNE

ZAŁOŻENIA TESTÓW t ORAZ z DLA DWÓCH ŚREDNICH

W tabeli 6.3 podsumowującej informacje na temat testu z i testu t wymienili-


śmy także założenia, jakie muszą spełniać te testy. Założenia te wymagają
pewnego komentarza.
Zasadniczo test t można stosować dopiero wtedy, gdy badane grupy liczą co
najmniej 10 elementów. Niektórzy badacze czasem łagodzą to kryterium.
Przykładem może być opisany eksperyment Bowera i współpracowników
dotyczący zapamiętywania bezsensownych obrazków. W tym przypadku
w każdej grupie badano tylko 9 osób. Wrócimy jeszcze później do tego pro-
blemu, ponieważ w statystyce dysponujemy wieloma testami również dla
bardzo małych prób, tzn. poniżej 10 danych.
Jednym z bardzo ważnych założeń obu testów jest homogeniczność (czyli
jednorodność) wariancji. W przypadku testów dla jednej średniej oznacza
to, że wariancja w badanej grupie nie różni się istotnie od wariancji w popu-
lacji. Z kolei w przypadku testów dla dwóch średnich będzie to oznaczać, że
wariancje w obu grupach (test t) lub w obu populacjach (test z) nie różnią się
istotnie od siebie. Warunek jednorodności wariancji można sprawdzić, uży-
wając specjalnego testu, znanego pod nazwą test F, który został opracowany
przez amerykańskiego statystyka, George’a Snedecora. Dokładnie opiszemy
go w następnym rozdziale. Kiedy będziemy go omawiać, przypomnimy
również o teście t Studenta i teście z. Tak czy inaczej, w sprawie homoge-
niczności wariancji obowiązuje ogólna zasada: jeżeli nie można utrzymać
założenia o jednorodności wariancji, to nie można stosować ani testu t, ani
testu z.
Trzecie, bardzo istotne założenie dotyczy rozkładu danych w badanych gru-
pach – nie może on zbytnio odbiegać od rozkładu normalnego. Również to
założenie można sprawdzić, stosując odpowiednie testy. Dwa z nich – test
χ2 (czytaj: „chi kwadrat”) i test Kołmogorowa-Smirnowa również omówi-
my nieco później. W praktyce często zaniedbuje się sprawdzanie założenia
o normalności rozkładu. Nie jest to grzech ciężki, ponieważ okazuje się, że
obydwa testy są stosunkowo „odporne” na odchylenia od normalności, ale
* Por. Ferguson, Takane (1997). pod warunkiem, że spełnione jest założenie o jednorodności wariancji*.

NAJWAŻNIEJSZA MAKSYMA BADACZA

Przypomnijmy wzór na obliczanie testu t dla dwóch niezależnych próbek:


x1 − x 2
t=
n s12 + n s22 ⎛ 1 1 ⎞
×⎜ + ⎟
n1 + n − 2 ⎝ n1 n2 ⎠
TESTOWANIE HIPOTEZ DOTYCZĄCYCH ŚREDNICH 309

Przyglądając się jego konstrukcji, zastanówmy się raz jeszcze, od czego tak
naprawdę zależy jego wynik. Najkrócej można odpowiedzieć na to pytanie
w taki sposób: od tego, co zapiszemy w liczniku i w mianowniku. Wynik te-
stu t jest więc tym większy, im większa jest różnica między średnimi w licz-
niku lub im mniejsza jest wartość w mianowniku. Wielkość tej ostatniej jest
wprost proporcjonalna do wariancji w obu porównywanych grupach. Innymi
słowy, wynik testu t jest tym mniejszy, im mniejsza jest różnica między
średnimi w liczniku lub im większa jest wartość w mianowniku.
A teraz zapytajmy inaczej: czy z punktu widzenia stawianych hipotez ba-
dawczych (alternatywnych) wolałbyś, żeby wynik testu t był większy, czy
mniejszy? Chwila na zastanowienie – oczywiście, że większy. Im jest więk-
szy, tym większą mam szansę na odrzucenie hipotezy zerowej i tym mniej-
szy popełniam błąd, podejmując tę decyzję. Dobrze. A zatem, żeby wynik
testu był większy, musisz zadbać o dwie sprawy.
Po pierwsze, planując eksperyment, jesteś szczególnie zainteresowany tym,
by wyniki w grupie eksperymentalnej i kontrolnej czy w jakichkolwiek po-
równywanych grupach danych jak najbardziej różniły się od siebie. Tę
zmienność wyników pomiędzy grupami określa się jako wariancję między-
grupową. Jeśli chcemy mieć wyższy wynik w teście, musimy maksymali-
zować tę wariancję. Pytasz, w jaki sposób. Niemal cały nasz przewodnik jest
właśnie o tym, ale damy ci dwie krótkie rady:
• stawiaj dobrze przemyślane hipotezy alternatywne,
• projektuj eksperymenty z wielką dbałością o szczegóły, starając się kon-
trolować wpływ wszystkich ważnych zmiennych niezależnych na
zmienną zależną.
I sukces gwarantowany!
Tyle o liczniku w naszym wzorze. Zajmijmy się teraz mianownikiem, w któ-
rym mamy zapisaną informację o zmienności wyników w obu grupach, czyli
po drugie..
Im wyższe są wariancje s12 i s22 , tym wyższa jest wartość wyrażenia pod
pierwiastkiem (dla danych n1 i n2) i ostatecznie tym niższy jest wynik testu t.
Skoro tak, to jesteśmy szczególnie zainteresowani tym, aby zmienność wy-
ników wewnątrz grup (czyli wariancja wewnątrzgrupowa) była jak naj-
mniejsza. Jest ona przecież efektem wpływu niekontrolowanych zmiennych
zakłócających na zmienną zależną. Nieprzypadkowo nazywa się ją również
wariancją błędu. Ale jak sobie z tą wariancją poradzić? Jest na to tylko je-
den sposób. Planując badania:
• postaraj się przewidzieć możliwie jak najwięcej zmiennych, które mogą
wpłynąć na zachowania się osób badanych,
310 WNIOSKOWANIE STATYSTYCZNE

• zaprojektuj bodźce i procedurę eksperymentalną w taki sposób, aby


uwzględnić w nich te wszystkie zmienne,
• przeprowadź badanie pilotażowe i sprawdź, jaki jest faktyczny wpływ
poszczególnych zmiennych niezależnych na zmienną zależną,
• popraw bodźce i procedurę oraz we właściwych badaniach kontroluj te
zmienne, których wpływ na zmienną zależną jest największy, zignoruj
zaś te, których wpływ jest niewielki.
I sukces… prawie gwarantowany!
Treść tego paragrafu można streścić w jednym zdaniu, które powinieneś do-
brze sobie zapamiętać. Brzmi ono: Minimalizuj wariancję wewnątrz grup
i maksymalizuj wariancje między grupami!

DANE ZALEŻNE, CZYLI O TYM, JAK ROZUMUJĄ PŁETWONURKOWIE

* Baddeley, A. (1998). Pamięć. Alan Baddeley opisuje w swojej książce o pamięci* eksperyment, w którym
Poradnik użytkownika. Warsza- wzięła udział grupa płetwonurków. Chodziło o ustalenie, czy człowiek, któ-
wa: Prószyński i S-ka.
ry nurkuje pod wodą, jest równie sprawny intelektualnie, jak na powierzchni.
Mówiąc dokładniej, Baddeley chciał sprawdzić, jaki jest wpływ tzw. narko-
zy azotowej, czyli pewnego stanu „upojenia”, który występuje przy oddy-
chaniu pod wysokim ciśnieniem, na funkcjonowanie intelektualne. Zadanie
osób badanych polegało na rozwiązywaniu prostego testu rozumowania.
Widząc na kartce parę liter, np. „A ... B” musieli oni oceniać prawdziwość
zdań typu: „A jest poprzedzane przez B” (w tym przypadku badani powinni
uznać, że jest to zdanie fałszywe). Okazało się, że badani popełniali znacznie
więcej błędów w tym teście wtedy, gdy rozwiązywali go, nurkując na głębo-
kości 30 metrów pod wodą, niż wtedy, gdy znajdowali się na powierzchni.
Sytuacja opisana przez Baddeleya może być przykładem eksperymentu,
w którym zbieramy tzw. dane zależne, czyli pochodzące z kilkukrotnego ba-
dania tych samych osób. Zmienna niezależna – rozwiązywanie testu pod
wodą lub na powierzchni – przyjmowała w eksperymencie Baddeleya dwie
wartości w tej samej grupie płetwonurków. Nazwa „dane zależne” lub „pró-
by zależne” bierze się stąd, że ponieważ pochodzą od tych samych osób ba-
danych, w każdym pomiarze zależą od siebie.

A JEŚLI PŁETWONUREK MYŚLI NA POWIERZCHNI?

Fakt, że gromadzone dane nie pochodzą z dwóch różnych grup, ale od tych
samych osób postawionych w różnych sytuacjach, jest tak ważnym elemen-
tem procedury badawczej, że nie można go pominąć również w analizie sta-
tystycznej. Największą zaletą tej procedury jest to, że na ogół prowadzi ona
TESTOWANIE HIPOTEZ DOTYCZĄCYCH ŚREDNICH 311

do znaczącego zmniejszenia się wariancji wewnątrz badanych grup. Wynik


każdego płetwonurka w eksperymencie Baddeleya można potraktować jako
różnicę pomiędzy liczbą błędów w teście rozumowania wykonywanym na
powierzchni a liczbą błędów w tym samym teście wykonywanym na głębo-
kości 30 metrów. Symbolicznie tę różnicę między dwoma pomiarami u jed-
nej osoby badanej można zapisać tak:
di = X1 – X2
di różnica między pomiarami dla i-tej osoby,
X1 pomiar pierwszy (np. na powierzchni),
X2 pomiar drugi (skoro pierwszy na powierzchni, to ten pod wodą).

Celem eksperymentu jest wykazanie różnicy między liczbą błędów w teście


wykonywanym na powierzchni i w teście rozwiązywanym pod wodą. Hipo-
teza zerowa będzie więc brzmiała:
H0: Nie ma żadnej różnicy w wykonywaniu testu na powierzchni i pod wodą.
Ponieważ różnicę dla jednej osoby oznaczyliśmy symbolem di, więc średnią
różnic oznaczymy za pomocą symbolu d . Hipotezę zerową można zapisać
w postaci równania:
H0: d = 0
Z kolei w hipotezie alternatywnej – przypuśćmy, że będzie ona dwustronna,
ponieważ nie wiadomo, czy narkoza azotowa pogarsza, czy może poprawia
funkcjonowanie intelektualne – napiszemy, że w wynikach testów zastoso-
wanych w obu sytuacjach zadaniowych są istotne różnice, co symbolicznie
możemy zapisać:
H1: d ≠ 0

TEST t DLA DANYCH ZALEŻNYCH

Do zweryfikowania hipotezy zerowej dla danych zależnych służy specjalna


wersja testu t, nazywana testem t dla danych zależnych:
d
t= × n −1
sd
średnia różnic między wynikami uzyskanymi przez osoby badane w dwóch sytuacjach (np.
d na powierzchni i pod wodą),
liczba elementów w próbie (w eksperymencie Baddeleya jest to liczba płetwonurków biorą-
n
cych udział w badaniu),
sd odchylenie standardowe rozkładu różnic pomiędzy pierwszym a drugim pomiarem.
312 WNIOSKOWANIE STATYSTYCZNE

Odchylenie standardowe różnic między parami pomiarów pochodzących od


tych samych osób badanych oblicza się według znanej ci formuły, choć nie
bierze się w niej pod uwagę wyników surowych (Xi) i ich średniej ( x ), tylko
różnice między dwoma pomiarami (np. wynikami testów rozumowania) dla
każdej osoby (di) i średnią tych różnic ( d ):
n

∑ (d i − d )2
sd = i =1

n
Niestety, nie mamy danych surowych z eksperymentu Baddeleya. Z pewno-
ścią nie miałby on jednak nic przeciwko temu, gdybyśmy je zmyślili –
oczywiście wyłącznie do celów dydaktycznych. Załóżmy więc, że zbadał on
10 płetwonurków i po badaniach uzyskaliby oni takie wyniki, jak zamiesz-
czone w tabeli 6.4.

Tabela 6.4. Fikcyjne wyniki Lp. Pomiar na powierzchni Pomiar w wodzie Różnica pomiarów d
uzyskane przez osoby badane
w eksperymencie Baddeleya 1 17 13 4
z płetwonurkami (dane w tabeli 2 11 12 –1
oznaczają liczby błędów po-
pełnionych przez każdego płe- 3 22 16 6
twonurka) 4 18 9 9
5 19 15 4
6 13 14 –1
7 14 10 4
8 16 8 8
9 19 13 6
10 14 16 –2

Średnia wartość różnicy pomiarów wynosi d = 3,7 , odchylenie standardowe


dla różnic sd = 3,86. Po podstawieniu tych danych do wzoru na wartość testu
t dla danych zależnych mamy:
3,7
t= × 10 − 1 = 3,03
3,66

PRAWDA O PŁETWONURKACH NA PODSTAWIE WYNIKU TESTU t DLA PRÓB ZALEŻNYCH

Wynik omówionego wariantu testu t interpretujemy tak samo jak w każdej


innej sytuacji, gdy hipoteza zerowa dotyczy średnich. Odczytując z tablicy
C wartości krytyczne, musimy pamiętać, czy stosujemy test dwustronny, czy
jednostronny i jaka jest liczba stopni swobody. W przypadku testu t dla prób
TESTOWANIE HIPOTEZ DOTYCZĄCYCH ŚREDNICH 313

zależnych liczba stopni swobody jest obliczana w taki sam sposób jak
w teście t dla jednej średniej, czyli df = n – 1.
Ponieważ w eksperymencie Baddeleya testowana hipoteza alternatywna była
dwustronna, musimy więc znaleźć wartość krytyczną dla testu dwustronne-
go, przy założeniu, że α = 0,05 oraz liczba stopni swobody df = 9. Wartość
krytyczna zapisana w tablicy C wynosi 2,262. Ponieważ
t = 3,03 > t0,05 = 2,262
możemy więc odrzucić hipotezę zerową i stwierdzić, że przebywanie pod
wodą znacząco obniża sprawność rozumowania u płetwonurków. Prawdo-
podobieństwo uzyskania wyniku t = 3,03 w teście dwustronnym dla rozkła-
du o dziewięciu stopniach swobody w rzeczywistości wynosi 0,014.

WIELKOŚĆ EFEKTU DLA TESTÓW, ZA POMOCĄ KTÓRYCH PORÓWNUJEMY ŚREDNIE

W rozdziale o błędach wnioskowania statystycznego wprowadziliśmy poję-


cie wielkości efektu jako liczbową miarę siły wpływu zmiennej niezależnej
na zmienną zależną. Przypomnijmy, że zgodnie z sugestią Jacoba Cohena
wynik 0,2 oznacza słaby wpływ zmiennej niezależnej na zmienną zależną,
0,5 – średni, a 0,8 – duży. Teraz możemy nieco dokładniej wyjaśnić, co to
znaczy, na podstawie testu t dla dwóch średnich. Ponieważ test polega na
porównywaniu dwóch średnich, więc wielkość efektu można opisać, po-
* Cohen, J. (1969). Statistical równując różnice między tymi średnimi. Cohen* zaproponował, aby nie ana-
power analysis for the beha- lizować różnicy między średnimi w wartościach bezwzględnych, ale różnicę
vioral sciences. New York:
Academic Press. wyrażoną w wielkości odchyleń standardowych.
0,032 d = 0,2
Rysunek 6.9. Rozkłady cech
w populacji dla różnych wiel- 0,028 Rozklad A (100, 15)

kości efektu d (0,2; 0,5 i 0,8) 0,024 Rozklad B (103, 15)

[STATISTICA] 0,020

0,016

0,012

0,008

0,004

0,000
80 85 90 95 100 105 110 115 120

0,032 d = 0,5

0,028 Rozklad A (100, 15) Rozklad B (107,5, 15)

0,024

0,020

0,016

0,012

0,008

0,004

0,000
80 85 90 95 100 105 110 115 120
314 WNIOSKOWANIE STATYSTYCZNE

0,032 d = 0,8
Rozklad B (112, 15)
0,028 Rozklad A (100, 15)

0,024

0,020

0,016

0,012

0,008

0,004

0,000
80 85 90 95 100 105 110 115 120

Na rysunku 6.9 przedstawione są trzy pary rozkładów normalnych, odpo-


wiadające trzem wielkościom efektu opisanym przez Cohena. Rozkłady
w każdej z tych par można potraktować jako rozkłady zmiennych w popula-
cji, jeden odpowiadający hipotezie zerowej, a drugi – hipotezie alternatyw-
nej. Nie są to rozkłady średnich, ale rozkłady normalne badanej cechy.
Jeżeli różnica między średnimi jest niewielka, to oba wykresy niemal nakła-
dają się na siebie. Dla wielkości efektu wynoszącej 0,2, tylko 14,7% łącznej
powierzchni pod obydwoma rozkładami się nie pokrywa. Innymi słowy, gdy
wielkość efektu wynosi 0,2, wówczas wartości powyżej średniej w populacji
B są większe od 57,9% możliwych do uzyskania wartości w populacji A.
Wielkość efektu równa się 0,5 wtedy, gdy obydwa rozkłady są od siebie od-
sunięte w takim stopniu, że 33% powierzchni obu rozkładów łącznie się nie
pokrywa. Oznacza to, że wartości powyżej średniej w rozkładzie B są wyż-
sze od 69,1% wszystkich wartości w rozkładzie A.
Efekt eksperymentalny jest duży, gdy prawie połowa obszaru dla obu popu-
lacji się nie pokrywa (dokładnie 47,4%) albo, mówiąc inaczej, wartości po-
wyżej średniej w rozkładzie B są wyższe od 78,8% wartości w rozkładzie A.
Średnia wielkość efektu (czyli wahająca się w granicach 0,5) odpowiada sy-
tuacji, w której ktoś nie „uzbrojony” w metody statystyczne jest w stanie
stwierdzić różnicę jedynie na podstawie porównania średnich. Jak pisze Co-
hen, z efektem o średniej wielkości mamy do czynienia np. wtedy, gdy po-
równamy rozkłady wzrostu dziewcząt 14- i 18-letnich. Nikt nie ma wątpli-
wości, że 18-latki są wyższe, choć oczywiście są również takie przypadki,
w których młodsza dziewczynka może być takiego samego wzrostu co star-
sza, a nawet nieco wyższa. Zgodnie z rozkładem na rysunku 6.9, takich
przypadków byłoby około 67%. Podobną wielkość efektu można też zaob-
serwować, analizując różnice np. między ilorazami inteligencji urzędników
* Akurat wszystkie wykresy na i robotników wykwalifikowanych*.
rysunku 6.9 ilustrują różne wiel-
kości efektu, właśnie na przy- Wielkość efektu równa 0,5 dla porównywania średnich jest typową war-
kładzie rozkładu ilorazu inteli- tością spotykaną w publikowanych badaniach eksperymentalnych w tych
gencji mierzonego testem WAIS
o średniej 100 i odchyleniu stan- dziedzinach, w których metodologia badawcza jest już dobrze ugruntowana.
dardowym 15. Dzięki niej w eksperymentach można łatwiej kontrolować i ograniczać
TESTOWANIE HIPOTEZ DOTYCZĄCYCH ŚREDNICH 315

wpływy zmiennych zakłócających. Uzyskanie niewielkiego nawet efektu,


* Wszystkie podane przykłady
czyli około 0,2, w nowych dziedzinach też może stanowić wartościową in-
w tej części pochodzą z pracy formację o wpływie zmiennej niezależnej na zmienną zależną. Na przykład z
Cohena (1969) i odnoszą się do wielkością efektu równą około 0,2 mamy do czynienia wtedy, gdy porównu-
populacji amerykańskiej z końca
lat 60. W Polsce różnice te mogą
jemy wzrost dziewcząt 15- i 16-letnich, albo wtedy, gdy porównujemy iloraz
być oczywiście inne. Postanowi- inteligencji werbalnej i niewerbalnej u tych samych osób. Z kolei duży efekt,
liśmy jednak je zacytować, abyś czyli około 0,8, najprawdopodobniej wystąpi wtedy, gdy porównamy np.
pomóc Ci zrozumieć istotę du-
żego, średniego albo małego wzrost dziewcząt 13- i 18-letnich, albo wtedy, gdy porównujemy ilorazy in-
efektu. teligencji osób z doktoratem z przeciętnymi ilorazami osób na pierwszych
latach studiów*.

WIELKOŚĆ EFEKTU W TESTACH DLA JEDNEJ ŚREDNIEJ

Bez względu na to, czy zastosowaliśmy test z, czy test t, wielkość efektu ob-
licza się, dzieląc różnicę między średnią w próbie i średnią w populacji przez
odchylenie standardowe danej cechy w populacji. Oczywiście, gdy nie zna-
my odchylenia standardowego w populacji, możemy użyć estymatora tego
odchylenia na podstawie danych z badanej próby (wszystko jedno, czy uży-
jemy wartości „z daszkiem”, czy „bez daszka” – różnica w wynikach jest
nieznaczna). Wielkość efektu obliczaną dla testów dla jednej średniej ozna-
cza się symbolem f, a wzór na jej obliczenie można zapisać następująco:

x−µ
f =
σ
Na przykład w odniesieniu do danych z badania, w którym staraliśmy się
uchwycić związek między chodzeniem na wykłady a wynikiem na egzami-
nie ze statystyki, wielkość efektu wynosi:
16,77 − 15,61
f = = 0,35
3,34
Przypomnijmy, że liczby w tym wzorze to:
• średnia liczba punktów zdobytych na egzaminie przez studentów, którzy
opuścili nie więcej niż dwa wykłady (16,77),
• średnia liczba punktów wśród całej populacji studentów (15,61),
• odchylenie standardowe w rozkładzie punktów w całej populacji (3,41).
Jeśli więc testowaliśmy hipotezę, że studenci, którzy opuścili co najwyżej
dwa wykłady, uzyskają więcej punktów na egzaminie niż wszyscy studenci
z danego roku, to ustaloną wielkość efektu można by określić jako raczej
słabą, w każdym razie poniżej średniej jego wielkości. Oznaczałoby to, że
316 WNIOSKOWANIE STATYSTYCZNE

regularne chodzenie na wykłady wprawdzie poprawia wynik na egzaminie,


ale w mniejszym stopniu, niż byśmy tego oczekiwali.
Można zresztą łatwo policzyć, jak dużo zyskali studenci chodzący na wy-
kład. Ponieważ ich wyniki są średnio wyższe o 0,35 odchylenia standardo-
wego, a odchylenie standardowe w rozkładzie punktów wynosi 3,34, więc
zysk z chodzenia na wykłady sprowadza się do mniej więcej jednego punk-
tu. Konkluzja ta była zresztą dosyć oczywista dla studentów, którym przeka-
zaliśmy wyniki naszego „eksperymentu” – uznali oni, że praktycznie różnica
jednego punktu nie ma żadnego znaczenia, ponieważ i tak nie wpłynie na
ocenę.

WIELKOŚĆ EFEKTU W TESTACH DLA DWÓCH ŚREDNICH (DANE NIEZALEŻNE)

Wielkość efektu w testach dla dwóch średnich obliczonych dla danych nie-
zależnych oznacza się literą d i oblicza podobnie jak wielkość efektu w te-
ście dla jednej średniej. Różnicę pomiędzy porównywanymi średnimi należy
podzielić przez odchylenie standardowe danej cechy w populacji. Gdy nie
znamy tego odchylenia, możemy:
• sprawdzić, czy odchylenia standardowe w obu grupach nie różnią się
istotnie od siebie (czyli że wartość testu F jest nieistotna, o czym jeszcze
później szczegółowo napiszemy), oraz obliczyć odchylenie standardowe
wspólne dla danych w obu grupach (rozwiązanie lepsze),
• obliczyć tzw. dostosowane odchylenie standardowe według następu-
σ12 + σ 22
jącego wzoru: σ′ = (rozwiązanie gorsze, ale nie aż tak złe).
2
Oczywiście wtedy, gdy nie znamy odchyleń standardowych w obu popula-
cjach, możemy wykorzystać ich oszacowania w obu badanych próbach.
Na przykład w opisanym wcześniej eksperymencie Gordona Bowera
i współpracowników (1975) okazało się, że osoby, którym przedstawia-
no bezsensowne obrazki z podpisami, zapamiętały ich średnio 19,6, a oso-
by z grupy kontrolnej, czyli oglądające obrazki bez podpisów, 14,2. Warian-
cja w grupie eksperymentalnej wyniosła: s12 = 12,5 , a w grupie kontrolnej
s22 = 6,77 . Dostosowane odchylenie standardowe, obliczone na podstawie
oszacowań odchyleń standardowych w populacji, wynosi:
12,5 + 6,77
s′ = = 3,1
2
Możemy teraz tę wartość wykorzystać do obliczenia wielkości efektu dla
danych z eksperymentu Bowera i współpracowników:
TESTOWANIE HIPOTEZ DOTYCZĄCYCH ŚREDNICH 317

x ( nazwy ) − x ( bez nazwy ) 19,6 − 14,2


d= = = 1,7
s′ 3,1
Gordon Bower i jego koledzy osiągnęli zatem wyjątkowo duży efekt ekspe-
rymentalny, czyli wykazali, że używanie nazw znacząco poprawia zapamię-
tywanie obrazków, które bez nazw są zupełnie bezsensowne. Wielkość efek-
tu d = 1,7 oznacza, że wyniki powyżej średniej w rozkładzie odpowiedzi
z nazwami są wyższe od 96% wszystkich wyników w rozkładzie bez nazw*.

WIELKOŚĆ EFEKTU W TESTACH DLA DWÓCH ŚREDNICH (DANE ZALEŻNE)

* Cohen (1969) pierwotnie zde- Obliczając wielkość efektu dla danych zależnych, średnią różnic między po-
finiował wielkość efektu, odwo-
łując się do parametrów popula- miarami, czyli d , dzieli się przez odchylenie standardowe w rozkładzie róż-
cji. Stąd też wielkość efektu d nic między średnimi. Odchylenie to liczy się tak, jak np. odchylenie standar-
czasami nazywa się d Cohena
(ang. Cohen’s d) w odróżnieniu
dowe w próbie, z tym że danymi, które podstawiamy do wzoru, są różnice
od innych definicji wielkości między średnimi w każdej parze. Jeśli nie jesteś pewien, jak to zrobić, prze-
efektu, których można wiele rzuć kilka stron wstecz i znajdź opis eksperymentu Alana Baddeleya z roz-
znaleźć w artykułach dotyczą-
cych statystyki (zob. np. Ros- wiązywaniem testu rozumowania logicznego przez płetwonurków na po-
now, R. L., Rosenthal, L., Ru- wierzchni i pod wodą.
bin, D. B. (2000). Contrasts and
correlations in effect size estima- Dla fikcyjnych danych do tego eksperymentu wartość odchylenia standar-
tions. Psychological Science, 11, dowego wyniosła 3,66, średnia liczba poprawnych odpowiedzi podczas roz-
446-453). Cohen dopuszczał
wykorzystywanie statystyk pró- wiązywania testu na powierzchni – 16,3, a pod wodą – 12,6. Wielkość efek-
by do obliczania wielkości efek- tu dla tych danych wynosi zatem:
tu, tak jak to czynimy w tej czę-
ści (Cohen 1969, s. 64) i propo-
d 3,7
nuje, aby na oznaczenie efektu f = = = 1,01
obliczonego w ten sposób uży- sd 3,66
wać symbolu ds. Często jednak
ta mała literka s jest pomijana.
Okazuje się, że również i w tym przypadku mamy do czynienia z dużym
wpływem zmiennej niezależnej (miejsca rozwiązywania testu) na zmienną
zależną (poziom rozwiązania tego testu). Wyniki powyżej średniej uzyskane
przez płetwonurków na powierzchni są wyższe od 84% wszystkich wyników
uzyskanych przez tych samych płetwonurków pod wodą. Chociaż nie mieli-
śmy dostępu do danych źródłowych, to wiele wskazuje na to, że nasz wynik
niewiele odbiega od oryginału.

WIELKOŚĆ EFEKTU, MOC TESTU I LICZBA OSÓB W BADANEJ PRÓBIE


PRZY STOSOWANIU TESTÓW DLA ŚREDNICH

Wielkość efektu i moc testu związane są z liczbą uczestników badania. Im


więcej osób bierze udział w eksperymencie, tym łatwiej jest odrzucić hipote-
** Cohen, J. (1992). A power
primer. Psychological Bulletin, zę zerową, ale też tym mniejsza jest wielkość efektu, jaki można zaobser-
112, 155-159. wować. Jacob Cohen** przedstawił prostą tablicę, która pozwala na wyzna-
318 WNIOSKOWANIE STATYSTYCZNE

czenie odpowiedniej liczby osób badanych dla różnej, zakładanej z góry,


wielkości efektu. W naszym podręczniku znajduje się modyfikacja tej tabli-
cy (jest to tablica D, zamieszczona w Aneksie).
Najpierw musisz ustalić, jakiej się spodziewasz wielkości efektu. Bezpiecz-
nie jest zakładać efekt średniej wielkości. Jeżeli założysz, że wpływ zmien-
nej niezależnej na zmienną zależną jest mały, to będziesz potrzebował więk-
szej liczby osób badanych, jeżeli natomiast zakładasz, że wpływ ten jest du-
ży (a więc d = 0,8), to do badania zaprosisz mniej uczestników.
Następnym krokiem jest przyjęcie poziomu istotności α. W tablicy D przyję-
liśmy, że we wszystkich sytuacjach α = 0,05. Gdyby zależało Ci na odrzuce-
niu hipotezy zerowej z jeszcze mniejszym prawdopodobieństwem popełnie-
nia błędu I rodzaju (np. α = 0,01), to oczywiście liczba osób badanych mu-
siałaby być większa niż wynika to z tablicy D.
Minimalna liczba osób badanych w eksperymencie zależy także od mocy te-
stu, czyli od „zdolności” testu do identyfikacji sytuacji zgodnej z hipotezą
alternatywną (por. rozdział 5.3). Wprawdzie tablica D została tak skonstru-
owana, że uwzględnia testy o mocy od 0,3 do 0,95, ale trudno uznać, że war-
to jest prowadzić badanie, w którym prawdopodobieństwo identyfikacji sy-
tuacji zgodnej z hipotezą alternatywną wynosi np. tylko 30%.
Zgodnie z sugestią Cohena, najbezpieczniej jest albo założyć, że prawdopo-
dobieństwo popełnienia błędu II rodzaju jest takie samo jak prawdopodo-
bieństwo popełnienia błędu I rodzaju (czyli dla α = 0,05 moc testu powinna
wynosić 1 – β (= 0,05) = 0,95), albo nieco łagodząc to kryterium, założyć, że
moc testu powinna wynosić nie mniej niż 0,8.
W praktyce posługiwanie się tablicą D jest bardzo proste. Jeżeli np. spo-
dziewasz się średniego efektu przy mocy testu równej 0,8, to liczbę osób ba-
danych odczytasz w tablicy na przecięciu kolumny odpowiadającej wartości
0,8 i wiersza odpowiadającego wartości 0,5. Jeśli zamierzasz stosować test
jednostronny, to minimalna liczba badanych wyniesie 102, w przypadku zaś
testu dwustronnego powinno ich być co najmniej 128. Jeżeli natomiast za-
kładasz, że wpływ zmiennej niezależnej na zmienną zależną jest duży (np.
d = 0,8), to weryfikując hipotezę jednostronną, wystarczy, że do ekspery-
mentu zaprosisz 42 osoby (lub 52, dla testu dwustronnego).
Planując eksperyment, możesz także skorzystać z opcji obliczania niezbęd-
nej liczby pomiarów w próbie, dostępnych w programie STATISTICA Ana-
liza Mocy Testów. Istnieje też wiele stron w Internecie, które w trybie on-
line udostępniają tzw. kalkulatory mocy (ang. power calculators).
TESTOWANIE HIPOTEZ DOTYCZĄCYCH ŚREDNICH 319

6.3. ANALIZA WARIANCJI, CZYLI BADANIE RÓŻNIC


MIĘDZY WIELOMA PRÓBAMI

LIST W SPRAWIE, W KTÓREJ JESTEŚ „NA NIE”

Czy jesteś za podwyżką cen biletów komunikacji miejskiej? Co myślisz


o prawie zezwalającym na naklejanie reklam na drzwiach mieszkań bez
zgody właściciela? A może poparłbyś pomysł wprowadzenia podatku dro-
gowego od posiadanego roweru?
Wyobraź sobie, że ktoś Cię zmusza do napisania listu, w którym będziesz
przekonywać do czegoś, z czym się nie zgadzasz. Czy sądzisz, że gdybyś
uległ i napisał taki list, to w jakimkolwiek stopniu zmieniłby się Twój stosu-
nek do sprawy, wobec której „byłeś przeciw”?
* Festinger, L. (1957). A theory Psycholog społeczny, Leon Festinger*, z pewnością stwierdziłby, że na
of cognitive dissonance. New zmianę twojej postawy mogłaby wpłynąć m.in. wysokość nagrody, którą do-
York: Harper and Row.
stałbyś za obronę przekonania, z którym się nie zgadzasz. Większy dyskom-
fort odczuwałbyś wtedy, gdybyś zgodził się bronić czegoś, z czym się nie
zgadzasz, i w dodatku gdybyś dostał za to mało atrakcyjną nagrodę albo
wręcz zupełnie nic. W takiej sytuacji, aby zredukować nieprzyjemne uczucie
„bycia wykorzystanym”, najprawdopodobniej zmodyfikowałbyś trochę swój
pogląd na sprawę, uznając, że ma ona także plusy. A gdybyś został zmuszo-
ny do obrony nieakceptowanych przez ciebie poglądów, np. pod wpływem
tzw. okoliczności życiowych? Wtedy zapewne nie miałbyś tak wysokiego
poczucia dyskomfortu – przecież nie miałbyś o co mieć do siebie pretensji,
skoro napisałeś list wbrew własnej woli. Wygląda na to, że wtedy mógłbyś
nadal „być przeciw” w takim samym stopniu, jak przed napisaniem listu. Co
jednak stałoby się z twoimi przekonaniami, gdyby nagroda za napisanie listu
pod przymusem była odpowiednio wysoka? Czy wtedy zmieniłbyś zdanie
z „wdzięczności” wobec tego, kto dał ci nieźle zarobić?
Niemal czterdzieści lat temu na wszystkie te pytania próbowali odpo-
** Linder, D. E., Cooper, J., wiedzieć Darwyn Linder, Joel Cooper i Edward Jones**. W przeprowadzo-
Jones, E. E. (1967). Decision nym przez nich eksperymencie wzięło udział 40 studentów. Zanim powie-
freedom as a determinant of the
role of incentive magnitude in dziano im, o co chodzi w badaniu, poproszono ich, aby na skali liczbowej
attitude change. Journal of zaznaczyli, w jakim stopniu zgadzają się z pomysłem wprowadzenia na
Personality and Social Psycho-
logy, 6, 245-254.
uczelni zakazu publicznego przemawiania.
Po złożeniu tych deklaracji poinformowano studentów, że ich następnym
zadaniem jest napisanie listu popierającego planowany zakaz. Połowa spo-
śród wszystkich osób badanych miała prawo wyboru i mogła zrezygnować z
napisania tego listu. Pozostałych 20 osób nie miało takiej możliwości. Każdą
dwudziestkę podzielono dalej na dwie 10-osobowe podgrupy (zob. tabela
320 WNIOSKOWANIE STATYSTYCZNE

6.5). W dwóch podgrupach powiedziano studentom, że za napisanie listu


otrzymają po 50 centów, a w dwóch pozostałych – że dostaną po 2,5 dolara
(realna wartość wypłaty w tamtym czasie była oczywiście znacznie większa
niż obecnie). Po napisaniu listu wszystkie osoby badane ponownie zaznacza-
ły na tej samej skali, co teraz myślą o zakazie prawa publicznego przema-
wiania na uczelni.

Tabela 6.5. Podział osób ba- Wysokość nagrody ( w $)


Prawo odmowy
danych na grupy ze względu
napisania listu 0,50 2,50
na poziomy zmiennych nie-
zależnych Nie 10 osób 10 osób
Tak 10 osób 10 osób

ZACZNIJMY OD HIPOTEZ I ...

W omawianym eksperymencie badacze manipulowali dwiema zmiennymi


niezależnymi: możliwością odmowy napisania listu oraz wysokością nagro-
dy. Obie te zmienne mają charakter nominalny i przyjmują po dwie wartości.
Część osób badanych miała prawo do odmowy napisania listu, a część nie
miała takiej możliwości oraz część dostawała po 50 centów za jego napisa-
nie, a druga część – po 2,5 dolara.
Zmienną zależną w tym badaniu była ocena pomysłu zakazu publicznego
przemawiania na uczelni, wyrażona dwukrotnie: przed napisaniem listu i po
jego napisaniu. Badaczy interesowała różnica między tymi dwiema ocenami.
Projektując eksperyment, Linder, Cooper i Jones nieprzypadkowo zaintere-
sowali się wymienionymi zmiennymi niezależnymi. Przypuszczali, że jeżeli
ktoś może się wycofać z podjęcia działania niezgodnego z własnym przeko-
* Sprawą poprawnego formuło-
wania hipotez w analizie wa-
naniem, ale nie skorzysta z tej szansy, to powinien w większym stopniu
riancji zajmiemy się jeszcze zmodyfikować swój stosunek do przedmiotu tego przekonania niż ktoś, kto
później, ponieważ odbiega ono nie miał możliwości wycofania się z tego działania. Posługując się notacją,
nieco od znanej ci już konwen-
cji. Na razie, dla naszego wywo- którą stosowaliśmy do tej pory, hipotezę tę można zapisać następująco*:
du, mnie ma to większego zna-
czenia. H1: x ( tak ) > x ( nie )
średnia różnica między postawą wobec nieaprobowanego zakazu po napisaniu listu i przed
x (tak )
jego napisaniem w grupie osób, którym dano możliwość odmowy jego napisania,
średnia różnica między postawą wobec nieaprobowanego zakazu po napisaniu listu i przed
x (nie )
jego napisaniem w grupie osób, którym nie dano możliwości odmowy jego napisania.

Druga hipoteza dotyczyła wysokości gratyfikacji finansowej za napisanie li-


stu. Badacze doszli do wniosku, że wyższa gratyfikacja powinna w mniej-
szym stopniu zmodyfikować postawę wobec zakazu wystąpień publicznych
po napisaniu listu, który ją popiera, niż gratyfikacja niższa. Jeśli za małe
TESTOWANIE HIPOTEZ DOTYCZĄCYCH ŚREDNICH 321

pieniądze ktoś broni pomysłów, których w gruncie rzeczy nie akceptuje, to


żeby utrzymać pozytywną samoocenę, powinien dostrzec w tych pomysłach
również parę plusów.
Symbolicznie hipoteza wygląda tak:
H2: x ($0,50 ) > x ($2,50 )
średnia różnica między postawą wobec nieaprobowanego zakazu po napisaniu listu i przed
x ($0,50)
jego napisaniem w grupie osób, którym za napisanie listu zapłacono 50 centów,
średnia różnica między postawą wobec nieaprobowanego zakazu po napisaniu listu i przed
x ($2,50)
jego napisaniem w grupie osób, którym za napisanie listu zapłacono 2,50 dolara.

Nie były to wszystkie przypuszczenia, jakie badaczom chodziły po głowie


przed badaniami, ale na razie poprzestańmy tylko na tych i przejdźmy do ...

... SKONSTRUOWANIA MODELU SYTUACJI EKSPERYMENTALNEJ

Nie mamy dostępu do danych poszczególnych osób badanych w tym ekspe-


rymencie, ale możemy skonstruować model tej sytuacji. Zmniejszyliśmy
liczbę osób badanych w każdej grupie z dziesięciu do trzech i przypisaliśmy
im takie dane, aby się łatwo dodawały. W końcu jest to podręcznik i wszyst-
ko powinno być w nim wyjaśnione możliwie jak najprościej.

Tabela 6.6. Hipotetyczne wy- Wysokość nagrody (w $)


Prawo odmowy
niki 12 osób badanych w eks-
napisania listu 0,50 2,50
perymencie z pisaniem listu
–1, –1, +2 –1, +1, +3
nie
x (nie; $0,50 ) = 0 x (nie; $2,50) = 1

–1, +2, +2 –1, 0, +1


tak
x (tak ; $0,50) = 1 x (tak ; $2,50) = 0

Liczby w tabeli 6.6 reprezentują różnice między postawami studentów po


napisaniu listu a postawami przed jego napisaniem.
Jeżeli po napisaniu listu jakaś osoba miała bardziej pozytywny stosunek do
sprawy zakazu publicznego przemawiania na uczelni niż przed jego napisa-
niem, to jej wynik jest wartością dodatnią.
Jeśli stosunek się nie zmienił, to wynikiem jest wartość 0.
Jeżeli zaś po napisaniu listu badany był mniej przekonany o konieczności
wprowadzenia tego zakazu, to jego wynik wpisany jest ze znakiem minus.
Na dole, w każdym polu tabeli 6.6, wpisaliśmy także średnią arytmetyczną
dla wszystkich wyników w danej grupie.
322 WNIOSKOWANIE STATYSTYCZNE

CO BY BYŁO, GDYBY WSZYSCY BADANI NALEŻELI DO JEDNEJ POPULACJI?

W analizowanym eksperymencie każda osoba badana należała tylko do jed-


nej grupy, zdefiniowanej za pomocą dwóch zmiennych niezależnych – pra-
wa odmowy i wysokości nagrody. Taki układ eksperymentu to jeden z naj-
bardziej typowych schematów badawczych wykorzystywanych w psycholo-
gii. Najważniejsze w nim jest losowe przyporządkowanie osób badanych do
różnych warunków eksperymentalnych. Zasada, zgodnie z którą uczestnicy
eksperymentu są przypadkowo przyporządkowywani do badanych grup,
nazywa się randomizacją II rodzaju.
Przypomnijmy przy okazji, że randomizacją I rodzaju nazywamy losowy
dobór z populacji wszystkich uczestników eksperymentu.
Autorem pojęcia randomizacji jest, znany ci już skądinąd, sir Ronald Fisher.
Jest on również pomysłodawcą takiego schematu eksperymentalnego, zgod-
nie z którym badane obiekty losowo przydziela się do kilku grup, natomiast
do analizy różnic między tymi grupami wykorzystuje się pomysł algorytmu
na obliczanie wariancji. Metodę tę Fisher nazwał więc krótko analizą wa-
riancji (co Amerykanie – którzy przepadają za skrótami – skrócili jeszcze
bardziej i nazwali: ANOVA od angielskiego ANalysis Of VAriance).
Analizę wariancji można potraktować jako uogólnienie testu t na sytuację,
w której porównujemy ze sobą więcej niż dwie grupy badane. Jest to więc
metoda służącą do badania różnic między wynikami uzyskiwanymi przez
osoby biorące udział w eksperymencie w takim samym sensie, w jakim róż-
nice te są przedmiotem analizy za pomocą testu t lub z. W przypadku obu
tych testów mamy jednak do czynienia ze zróżnicowaniem danych w obrę-
bie tylko dwóch prób (lub próby i populacji), a w analizie wariancji możemy
porównywać ze sobą znacznie więcej prób.
Najważniejszą sprawą w analizie wariancji jest porównywanie wielkości
rozrzutu w zbiorze danych (czyli właśnie wariancji), ze względu na czynni-
ki, o których sądzimy, że mogą mieć wpływ na ten rozrzut (czyli ze względu
na zmienne niezależne).
Analizę różnych wariancji, które występują w zbiorze danych przedstawio-
nych w tabeli 6.5, zacznijmy od prześledzenia tzw. wariancji całkowitej.
Jej obliczenie pozwoli nam się dowiedzieć, jaka jest zmienność wszystkich
danych wziętych razem, niezależnie od tego, do jakich grup należą. Wzór na
wariancję całkowitą s(c2 ) wygląda tak:
N

∑ (X i − x (c) ) 2
s(2c ) = i =1

N −1
TESTOWANIE HIPOTEZ DOTYCZĄCYCH ŚREDNICH 323

wariancja całkowita w zbiorze wszystkich danych wziętych razem (identyfikator (c) oznacza,
s(c2 )
że jest to właśnie wariancja całkowita),
wynik uzyskany przez i-tą osobę badaną, spośród wszystkich, które wzięły udział w ekspe-
Xi
rymencie,

x (c ) średnia całkowita, czyli średnia arytmetyczna obliczona dla wszystkich danych razem,

liczba wszystkich osób badanych w eksperymencie (w odniesieniu do liczebności całkowitej


N będziemy używać dużej litery N, rezerwując małe n na oznaczenie liczebności w każdej gru-
pie osobno),
N

∑(X
i =1
i − x (c) ) 2
suma kwadratów odchyleń poszczególnych wyników od średniej całkowitej, począwszy od
pierwszego (i = 1), aż do ostatniego (i = N).

Być może, zwróciłeś uwagę na to, że zastosowaliśmy wzór pozwalający na


obliczenie nieobciążonego estymatora wariancji, a zatem symbol warian-
* Jednym z nielicznych wyjąt- cji powinien być opatrzony gustownym daszkiem. Oczywiście, masz rację.
ków od tej reguły jest podręcz-
nik Jerzego Grenia (1987). Sta- Zgodnie jednak z ogólnie przyjętą przez statystyków konwencją, akurat
tystyka matematyczna. Podręcz- w analizie wariancji nie dorysowuje się żadnych „daszków”*.
nik programowany. Warszawa:
PWN. W eksperymencie z pisaniem listu wariancja dla wszystkich osób badanych
(a raczej dla wymyślonych przez nas 12 uczestników) wynosi:
( −1 − 0,5) 2 + (−1 − 0,5) 2 + (−2 − 0,5) 2 + (−1 − 0,5) 2 + (1 − 0,5) 2 +
s(2c ) =
12 − 1
+ (3 − 0,5) + (−1 − 0,5) + (2 − 0,5) 2 + (2 − 0,5) 2 + (−1 − 0,5) 2 +
2 2

12 − 1
+ (0 − 0,5) + (1 − 0,5)
2 2
25
= = 2,27
12 − 1 11
Obliczając wariancję całkowitą, przyjęliśmy, że wszyscy badani zostali
przypadkowo dobrani z jakiejś populacji do jednej grupy.
Wzór na tak obliczaną wariancję wygląda tak samo jak wzór na obliczanie
nieobciążonego estymatora wariancji na podstawie danych w próbie.
• Od wyniku każdej osoby badanej odjęliśmy średnią dla wszystkich wyni-
ków, czyli 0,5 (kto nie wierzy, niech sam sprawdzi).
• Następnie każdą różnicę podnieśliśmy do kwadratu i wszystkie dodaliśmy
do siebie.
• To, co nam wyszło, podzieliliśmy przez liczbę wszystkich osób badanych
pomniejszoną o jeden.
Obliczona przez nas wielkość to wariancja całkowita s(c2 ) . Jest ona miarą
zmienności dla wszystkich wyników razem, bez zastosowania jakiegokol-
wiek kryterium ich podziału na grupy.
324 WNIOSKOWANIE STATYSTYCZNE

A CO BY BYŁO, GDYBYŚMY UWZGLĘDNILI PODZIAŁ BADANYCH NA GRUPY?

Każdy zbiór danych można podzielić na podzbiory według różnych kryte-


riów. Dane dla wszystkich uczestników eksperymentu z pisaniem listu moż-
na podzielić np. tylko na dwie podgrupy: tych, którzy nie mieli prawa od-
mowy napisania listu (co w skrócie zapiszemy – „nie”), i tych, którzy mieli
takie prawo (czyli w skrócie „tak” – zob. tab. 6.7). Dzieląc w ten sposób
osoby badane, ignorujemy ich podział ze względu na wysokość nagrody.

Tabela 6.7. Hipotetyczne wy- –1, –1, 2, –1, 1, 3


niki 12 osób badanych po- nie
dzielone na dwie grupy ze x (nie ) = 0,5
względu na możliwość od- Prawo odmowy
mowy napisania listu napisania listu –1, 2, 2, –1, 0, 1
tak
x (tak ) = 0,5

Średnie arytmetyczne dla każdej z tych grup wynoszą odpowiednio:


3 3
x ( nie ) = = 0,5 oraz x ( tak ) = = 0,5 . Jak widać, obie są takie same i może to
6 6
oznaczać tylko jedno. To, czy osoby badane miały prawo do odmowy napi-
sania listu, czy też nie dano im takiej możliwości, w identyczny sposób
wpłynęło na ich wyniki (oczywiście, średnio rzecz biorąc).
Badani w obu grupach w takim samym stopniu zmienili swoją postawę na
bardziej pozytywną. Do tych dwóch średnich możemy podejść podobnie jak
do każdej danej w całym zbiorze i zapytać, czy różnią się one od średniej
całkowitej.
Innymi słowy, możemy dowiedzieć się czegoś o wariancji międzygrupo-
wej, czyli o zróżnicowaniu obu średnich w stosunku do średniej dla całości.
Aby obliczyć tę zmienność, posłużymy się kolejną mutacją znanego ci już
wzoru na wariancję. Tym razem będzie on wyglądał tak:
J

∑ (x
j =1
( odmowa ) j − x (c) ) 2
s(2odmowa ) =
J −1
2
s(odmowa ) wariancja międzygrupowa dla zmiennej „możliwość odmowy napisania listu”,

x ( odmowa ) j średnia arytmetyczna dla j-tej grupy osób badanych,

x (c ) średnia całkowita, czyli średnia arytmetyczna obliczona dla wszystkich danych razem,

J liczba porównywanych grup,


J

∑(x
j =1
( odmowa ) j − x (c) ) 2 suma kwadratów odchyleń kolejnych średnich dla porównywanych grup od średniej całkowi-
tej, począwszy od pierwszej (j = 1), aż do ostatniej (j = J).
TESTOWANIE HIPOTEZ DOTYCZĄCYCH ŚREDNICH 325

Po podstawieniu danych do wzoru możemy stwierdzić, że:


(0,5 − 0,5) 2 + (0,5 − 0,5) 2 0
s(2odmowa ) = = =0
2 −1 1
2
Oznaczyliśmy tę wariancję symbolem s(odmowa ) , ponieważ jest to miara

zmienności związana z czynnikiem (tj. kryterium podziału), który potrafimy


zidentyfikować. Jest nim możliwość (lub brak możliwości) odmowy napisa-
nia listu.
Przyjrzyjmy się teraz, co wynika z drugiego kryterium podziału osób bada-
nych na grupy, czyli wysokości nagrody za napisanie listu. Zestawienie da-
nych ilustruje tabela 6.8.

Tabela 6.8. Hipotetyczne wy- Wysokość nagrody ( w $)


niki 12 osób badanych podzie-
lone na dwie grupy ze wzglę- 0,50 2,50
du na wysokość nagrody za –1, –1, 2, –1, 2, 2 –1, 1, 3, –1, 0, 1
napisanie listu
x ($0,50) = 0,5 x ($2,50 ) = 0,5

I tym razem średnie dla obu grup są identyczne.


Nawet bez obliczeń wiesz już, że wariancja międzygrupowa dla zmiennej
„wysokość nagrody” jest równa 0. Jesteśmy pewni, że bez trudu mógłbyś te-
raz sam wyprowadzić wzór na tę wariancję. Czyż nie zapisałbyś go właśnie
w taki sposób?
K

∑ (x ( nagroda ) k − x (c ) ) 2
s(2nagroda) = k =1

K −1
2
s(nagroda ) wariancja międzygrupowa dla zmiennej „wysokość nagrody za napisanie listu”,

x ( nagroda) k średnia arytmetyczna dla k-tej grupy osób badanych,

x (c ) średnia całkowita, czyli średnia arytmetyczna obliczona dla wszystkich danych razem,

K liczba porównywanych grup,


K

∑(x
k =1
( nagroda ) jk − x (c ) ) 2
suma kwadratów odchyleń kolejnych średnich dla porównywanych grup od średniej całkowi-
tej, począwszy od pierwszej (k = 1), aż do ostatniej (k = K).

Po podstawieniu danych do wzoru możemy stwierdzić, że:


(0,5 − 0,5) 2 + (0,5 − 0,5) 2 0
s(2nagroda ) = = =0
2 −1 1
326 WNIOSKOWANIE STATYSTYCZNE

2
Wariancję tę określiliśmy jako s(nagroda ) , ponieważ jest ona miarą zmienności

po podzieleniu wyników na grupy według kryterium wielkości nagrody za


napisanie listu.

KTÓŻ Z NAS JEDNAK WIE, NA JAKIE KATEGORIE NAPRAWDĘ DZIELĄ SIĘ BADANI?

Chociaż pisaliśmy, że dzielimy wszystkie wyniki najpierw ze względu na


kryterium „odmowa”, a potem jeszcze raz ze względu na kryterium „nagro-
da”, to tak naprawdę w jednej i w drugiej sytuacji po prostu zignorowaliśmy
drugie kryterium podziału danych. Przecież nie jest tak, że dzielimy dane na
podgrupy po przeprowadzeniu badań, lecz sprawdzamy, jak one się różnią
od siebie ze względu na kryteria ustalone jeszcze przed badaniami.
Zastanówmy się jednak, co by się stało, gdybyśmy rzucając monetą, losowo
podzielili wszystkie dane na dwie grupy, np. tak jak w tabeli 6.9.

Tabela 6.9. Hipotetyczne Kryterium podziału (rzut monetą)


wyniki 12 osób badanych
podzielonych losowo A B
na dwie grupy –1, –1, –1, –1, 0, 2 2, 1, 1, 1, –1, 3

x ( A) = 0,33 x (B ) = 1,17

Jeżeli wypadł orzeł, to wpisywaliśmy tę liczbę do grupy A, a jeśli reszka –


do grupy B. Miarą zmienności wyników ze względu na kryterium podziału,
czyli „rzut monetą”, jest następująca wariancja:
(−0,33 − 0,5) 2 + (1,17 − 0,5) 2
s(2moneta ) = = 1,14
2 −1
2
Wartość oznaczona jako s(moneta ) została obliczona na podstawie podziału da-

nych, niezgodnie z zasadą randomizacji. Podzieliliśmy bowiem wyniki na


grupy już po ich otrzymaniu, podczas gdy u podstaw analizy wariancji leży
założenie o losowym przyporządkowywaniu badanych obiektów do grup
przed rozpoczęciem eksperymentu.
Gdyby można było dzielić wyniki na grupy już po ich uzyskaniu, wtedy któż
by nam zabronił podzielić je np. ze względu na znak danej, w taki sposób,
jak w tabeli 6.10.

Tabela 6.10. Hipotetyczne Kryterium podziału (znak danej)


wyniki 12 osób badanych
podzielonych tendencyjnie ujemny lub zero dodatni
na dwie grupy –1, –1, –1, –1, –1, 0 1, 1, 1, 2, 3

x (ujemny lub zero) = −0,83 x (dodatni ) = 1,67


TESTOWANIE HIPOTEZ DOTYCZĄCYCH ŚREDNICH 327

W jednej grupie znalazłyby się tylko wyniki ujemne i zero, a w drugiej –


tylko wyniki dodatnie. Wariancja danych podzielonych na dwie grupy ze
względu na ich znak wynosi:

(−0,83 − 0,5) 2 + (1,67 − 0,5) 2


s(2znak ) = = 3,14
2 −1
Podsumowując, przypomnijmy zastosowane przez nas kryteria podziału da-
nych na podgrupy. Najpierw obliczyliśmy zmienność wynikającą z podzia-
łów zaplanowanych w eksperymencie. Obie wariancje związane z możliwo-
ścią odmowy napisania listu s(odmowa
2 2
) i wielkością wypłaty s(nagroda ) okazały

się zerowe. Następnie sztucznie podzieliliśmy dane na dwie grupy, kierując


się wynikiem rzutu monetą, i wtedy wariancja związana z tym podziałem
wyniosła: s(2moneta ) = 1,14 . Na koniec, również w sposób niedozwolony, po-
dzieliliśmy dane ze względu na ich znak. Wskaźnik zmienności związany
z tym podziałem okazał się największy i wyniósł: s(2znak ) = 3,14 . Na koniec
przypomnijmy jeszcze, że wariancja obliczona dla całego zbioru danych
wynosi s(2c ) = 2,27 .

KILKA ZDAŃ O RÓŻNICACH INDYWIDUALNYCH

Od początku tego rozdziału obliczamy różne wariancje w zbiorze hipote-


tycznych danych z eksperymentu Lindera, Coopera i Jonesa. W tabeli 6.11
zestawiliśmy wszystkie nasze dotychczasowe obliczenia związane z różnymi
kryteriami podziału danych na grupy. Zwróć uwagę na to, że wielkości wa-
riancji całkiem nieźle odzwierciedlają wielkości różnic między średnimi
w porównywanych grupach. Im większa jest różnica między średnimi, tym
większa wariancja jej odpowiada.

Tabela 6.11. Zestawienie Średnia w grupie


Kryterium podziału
średnich i wariancji dla Wariancja
na grupy I II
czterech kryteriów podziału
danych na grupy Prawo odmowy na-
0,5 0,5 s (2odmowa ) = 0
pisania listu
Wysokość wypłaty
0,5 0,5 s (2nagroda ) = 0
za napisanie listu

Wynik rzutu monetą –0,33 1,17 s (2moneta ) = 1,14

Znak danej –0,83 1,67 s (2znak ) = 3,14

Jak widzisz, intuicja Fishera, by analizować różnice między średnimi, wyko-


rzystując do tego miarę zmienności (wariancję), była jak najbardziej uzasad-
328 WNIOSKOWANIE STATYSTYCZNE

niona. Czy znajomość wariancji wystarcza jednak do wnioskowania na te-


mat rzeczywistego wpływu zmiennej niezależnej na zmienną zależną?
W tej kwestii Fisher zaproponował następujące rozwiązanie:
Wariancja całkowita w zbiorze danych (czyli s(c2 ) ) to wskaźnik zróżnicowa-
nia wyników osób badanych ze względu na wszystkie możliwe źródła
zmienności niezależnej. Część z tych źródeł badacz kontroluje, a części –
nie. Wystarczy zatem porównać, czy wariancja związana z jakimś kontrolo-
wanym przez badacza czynnikiem jest istotnie większa niż wariancja zwią-
zana z czynnikami, których on nie kontroluje.
Jakich czynników nie kontrolowali badacze w eksperymencie z pisaniem li-
stu? Zapewne jest ich wiele.
Na przykład nie kontrolowali nastroju osób badanych, aktualnego stanu ich
kont i zainteresowań muzycznych (w każdym razie nic nam o tym nie wia-
domo). Zresztą nie wszystkie zmienne niekontrolowane musiały w ogóle
wpłynąć na zachowania się osób badanych podczas tego eksperymentu. Tak
czy inaczej, wśród wielu źródeł zmienności niewątpliwie były i takie, o któ-
rych wpływie badacze wcale nie wiedzieli, i takie, których wpływu na
zmienną zależną nie byli w stanie przewidzieć.
Kontrolowali natomiast wpływ dwóch zmiennych niezależnych na zmienną
zależną, co stało się podstawą ustalenia czterech grup osób badanych wyko-
nujących swoje zadania w różnych warunkach eksperymentalnych. Jedną
z nich była grupa tych uczestników, którzy nie mieli możliwości odmowy
napisania listu, a za jego napisanie dostawały 2,5 dolara.
Zróżnicowanie danych wewnątrz takiej grupy jest zmiennością, której bada-
cze nie kontrolowali. Nie byli wobec tego w stanie wyjaśnić, dlaczego od-
powiedzi osób badanych należących do tej samej grupy różniły się między
sobą. Dotyczy to zresztą przyczyn zmienności wewnątrz każdej z czterech
badanych grup. Badacz stwierdza, że wewnątrz zbioru danych wyniki nie są
identyczne, ale nie ma zielonego pojęcia, dlaczego tak właśnie jest.
W każdej sytuacji eksperymentalnej na zachowania osób badanych wpływa-
ją czynniki, których badacz nie kontroluje. Ta niekontrolowana zmienność
nazywa się wariancją wewnątrz grup i jest „uśrednionym” dla wszystkich
porównywanych grup wskaźnikiem zróżnicowania danych wewnątrz każdej
grupy, ustalonej ze względu na poziomy zmiennych niezależnych głównych.
Zmienność wewnątrz poszczególnych grup danych czasem nazywa się wa-
riancją resztową. Takie określenie sugeruje, że jest ona zmiennością po-
chodzącą ze wszystkich tych źródeł, które nie są kontrolowane w ekspery-
mencie. Jest resztą, która pozostanie, gdy od wszystkich możliwych zmien-
nych niezależnych wpływających na zachowania się osób badanych odej-
TESTOWANIE HIPOTEZ DOTYCZĄCYCH ŚREDNICH 329

miemy zmienne niezależne, które są kontrolowane przez badacza. Czytając


literaturę psychologiczną możesz się także natknąć na zwrot wariancja błę-
du, więc zapamiętaj, że on również oznacza wariancję wewnątrzgrupową.
Rzeczywiście, trudno jest znaleźć sensowną odpowiedź na pytanie, dlaczego
osoby, którym odmówiono możliwości zdecydowania, czy chcą napisać list,
oraz zapłacono 2,5 dolara za jego napisanie, w różnym stopniu zmieniły
swój stosunek do zakazu przemawiania na uniwersytecie. Zapewne, oprócz
wpływu warunków eksperymentalnych, każda z tych osób miała jeszcze ja-
kieś inne powody, które zmodyfikowały jej poziom zmiany nastawienia –
dla badacza najczęściej te powody są nieodgadnione.

JAK POLICZYĆ WARIANCJĘ WEWNĄTRZ GRUP?

Wariancja całkowita ( s(c2 ) ) jest wskaźnikiem odchylenia wszystkich danych


zgromadzonych podczas eksperymentu od ich średniej. Z kolei wariancja
wewnątrz grup („resztowa” lub „błędu”), oznaczona symbolem s(2w) , jest
uśrednionym wskaźnikiem odchylenia danych w poszczególnych grupach od
średnich dla tych grup. Wzór, który opisuje to obliczenie, wygląda tak:
L nl

∑ ∑(X il − xl )2
s 2
= l =1 i =1

N−L
( w)

2
s(w ) wariancja wewnątrz porównywanych grup,

liczba grup ustalonych w jednym eksperymencie (w naszym przykładzie L = 4, każdej zaś


L
grupie odpowiada jeden indeks l = 1, 2, 3 lub 4),
nl liczba osób badanych w l-tej grupie,
N liczba wszystkich uczestników eksperymentu,
konkretny wynik i-tej osoby należącej do l-tej grupy, czyli krótko mówiąc dana pochodząca
Xil
z jednej z grup,

xl średnia dla l-tej grupy,


nl

∑(X
i =1
il − xl )2
suma podniesionych do kwadratu odchyleń poszczególnych danych od średniej w l-tej gru-
pie, czyli po prostu licznik wzoru na wariancję w próbie,

L nl

∑ ∑(X
l =1 i =1
il − xl )2
suma wszystkich sum podniesionych do kwadratu odchyleń poszczególnych danych Xil od
średniej w l-tej grupie, czyli dodane do siebie liczniki wzorów na wariancję w próbie.

Korzystając z wzoru, możemy policzyć wariancję resztową w eksperymen-


cie z pisaniem listu, podstawiając oczywiście nasze hipotetyczne dane z ta-
beli 6.6.
330 WNIOSKOWANIE STATYSTYCZNE

s2 =
[(−1 − 0) ] [ ]
+ ( −1 − 0) 2 + (2 − 0) 2 + ( −1 − 1) 2 + (1 − 1) 2 + (3 − 1) 2 +
2

( w) 12 − 4
[ 2 2 2
] [
+ ( −1 − 1) + ( 2 − 1) + (2 − 1) + ( −1 − 0) 2 + (0 − 0) 2 + (1 − 0) 2 ] =
12 − 4
6+8+6+2
= = 2,75
8
Powyższy zapis jest dosyć długi, dlatego że wpisaliśmy do niego wszystkie
różnice między średnimi. Zauważ, że od każdego wyniku odejmowana jest
średnia grupy, do której ten wynik należał.
We wzorze pogrupowaliśmy kwadraty różnic dla każdej grupy za pomocą
nawiasów kwadratowych. To już czwarta wariancja, jaką policzyliśmy dla
naszych danych (nie licząc oczywiście tych, które liczyliśmy nielegalnie,
czyli z rzutem monetą i znakiem danej). Czas już uporządkować tę wiedzę.

PODZIAŁ WARIANCJI CAŁKOWITEJ NA SKŁADOWE

Obliczone przez nas różne wariancje odzwierciedlają różne rodzaje zmien-


nych niezależnych, które wpływały na zachowania osób badanych podczas
eksperymentu.
Najbardziej ogólną charakterystykę zmienności w zbiorze danych zawiera
w sobie wariancja całkowita. Mówi ona o tym, w jakim zakresie wszystkie
dane zgromadzone podczas badania różnią się między sobą. Nie zawiera
jednak w sobie żadnej informacji na temat tego, co jest jej źródłem. Można
nawet powiedzieć, że – w jakimś sensie – to właśnie ona wymaga wyjaśnie-
nia.
Wariancję całkowitą możemy podzielić na tę, której pochodzenie jesteśmy
w stanie określić, czyli wariancję kontrolowaną, i tę, której przyczyn nie
znamy, czyli wariancję niekontrolowaną (wewnątrzgrupową, resztową czy
błędu). Ten podział wariancji odpowiada rozróżnieniu zmiennych niezależ-
nych na istotne i zakłócające.
Z kolei wariancję kontrolowaną możemy podzielić na wariancje związane
z kryteriami podziału osób badanych na grupy, czyli zmiennymi niezależ-
nymi głównymi. W eksperymencie, w którym studenci pisali listy popierają-
ce coś, z czym się nie zgadzali, przydział uczestników do grup zależał od
dwóch kryteriów: możliwości odmowy uczestniczenia w eksperymencie
(czynnik: „odmowa”) i wysokości gratyfikacji za napisanie listu (czynnik:
„nagroda”).
Zależności między wariancjami w naszym eksperymencie można najprościej
ująć w taki sposób:
TESTOWANIE HIPOTEZ DOTYCZĄCYCH ŚREDNICH 331

Rysunek 6.9. Wariancja cał- s (2c ) = 2,27


kowita i jej składowe
(wariancja całkowita)

s (2odmowa ) = 0 s (2nagroda ) = 0 s (2w ) = 2,75

(wariancja kontrolowana I) (wariancja kontrolowana II) (wariancja niekontrolowana)

I na koniec dwie uwagi.


• Po pierwsze, wartości wariancji składowych się nie sumują (w sensie
arytmetycznym), tzn. ich suma nie jest równa wariancji całkowitej.
• Po drugie, wymienione trzy składowe wariancji całkowitej to jeszcze nie
wszystkie, które możemy oszacować w przypadku analiz wariancji dwu-
i więcej zmiennowych (ale o tym później).

CZY MUSISZ PAMIĘTAĆ WSZYSTKIE WZORY DO OBLICZENIA ANALIZY WARIANCJI?

Zanim przejdziemy do interpretacji obliczonych wariancji, jeszcze kilka


uwag na temat wzorów obliczeniowych, które składają się na analizę wa-
riancji. Przede wszystkim powiedzmy sobie jasno, że dzisiaj na ogół nikt nie
przeprowadza tych wszystkich rachunków „na piechotę”, ponieważ są kom-
putery, które zrobią to szybciej i dokładniej. Zapoznając cię ze szczegóło-
wymi wzorami, nie spodziewamy się, że będziesz się ich uczył na pamięć
lub praktycznie wykorzystywał, zapisując stosy kartek.
Chcemy jednak, abyś miał świadomość, co z twoimi danymi w ułamku se-
kundy zrobi komputer, czyli według jakich zasad przebiegają obliczenia. Je-
steśmy przekonani, że dopiero mając taką wiedzę, możesz włączyć maszynę
i poprawnie wybrać najlepsze z możliwych narzędzie analizy statystycznej.
O najważniejszych wzorach służących do obliczenia różnych rodzajów wa-
riancji możemy powiedzieć dwie rzeczy.
• Po pierwsze, wszystkie one są zbudowane na tej samej zasadzie. Wa-
riancja zawsze jest ilorazem dwóch składników: licznika, czyli jakiegoś
wariantu sumy podniesionych do kwadratu odchyleń od średniej
(w skrócie „sumy kwadratów” lub SS, od angielskiego wyrażenia Sum
of Squares), oraz mianownika, czyli liczby stopni swobody, która –
w zależności od rodzaju wariancji – przyjmuje różne wartości.
• Po drugie, analiza wariancji jest metodą rozkładania całkowitej wariancji
wyników na wariancje składowe, związane z różnymi źródłami zmien-
ności. Proces ten polega na oddzielnym rozkładaniu licznika i mianow-
332 WNIOSKOWANIE STATYSTYCZNE

nika ze wzoru na wariancję całkowitą. To, w jaki sposób należy to uczy-


nić, przedstawimy niebawem.

ROZKŁAD F SNEDECORA

Zgodnie z zaleceniem twórcy analizy wariancji, aby się dowiedzieć, czy


kontrolowane przez badacza różne źródła zmienności mają istotny wpływ na
wyniki osób badanych w eksperymencie, należy sprawdzić, czy wariancja
związana z tymi źródłami jest znacząco większa od wariancji związanej ze
zmiennymi, których nie kontroluje.
Najprostszą metodą porównania dwóch wartości liczbowych jest odjęcie
jednej od drugiej.
Fisher zaproponował jednak, aby o wielkości zróżnicowania między warian-
cjami wnosić na podstawie nie wyniku odejmowania, ale dzielenia wariancji
George Waddell Snedecor
(1882-1974)
kontrolowanej przez niekontrolowaną.
W 1931 roku wspomniany już w poprzednim rozdziale amerykański staty-
styk, George Waddell Snedecor, spotkał się z Ronaldem Fisherem na Iowa
State University, w którym pracował jako dyrektor Laboratorium Staty-
stycznego. Spotkanie okazało się bardzo owocne.
Zainspirowany pracami Fishera nad analizą wariancji, Snedecor obliczył –
najkrócej mówiąc – jakie są prawdopodobieństwa uzyskania różnych wiel-
kości stosunków pomiędzy dwiema wariancjami w dwóch próbach, przy za-
łożeniu, że próby te pochodzą z tej samej populacji, czyli powinny mieć taką
samą wariancję.
Snedecor przyjął, że stosunek dwóch wariancji jest zmienną losową, taką
samą jak np. wynik w teście z lub t, a zatem można opisać rozkład prawdo-
podobieństwa takiej zmiennej. Opracowany przez niego rozkład znany jest
jako rozkład F (lub F Snedecora), a jego nazwa to pierwsza litera nazwiska
twórcy analizy wariancji, któremu Snedecor w ten sposób oddał honor.
Rozkład F, podobnie jak rozkład t, ma parametr o nazwie „stopnie swobo-
dy”. Dokładniej opisaliśmy znaczenie tego parametru, przedstawiając testy t.
Ponieważ jednak rozkład F odnosi się do stosunku wariancji pochodzących
z dwóch różnych źródeł, uwzględnia się w nim dwie liczby stopni swobody.
Pierwsza to liczba stopni swobody związana z wariancją w liczniku, a druga
odnosi się do wariancji w mianowniku.
Na rysunku 6.10 przedstawiony jest rozkład F dla stosunku między warian-
cjami o dwóch wartościach stopni swobody: df1 = 10 dla pierwszego źródła
zmienności i df2 = 5 dla drugiego. Oczywiście, gdyby liczby stopni swobody
były inne, wówczas rozkład także wyglądałby nieco inaczej.
TESTOWANIE HIPOTEZ DOTYCZĄCYCH ŚREDNICH 333

Rysunek 6.10. Rozkład F dla Funkcja gęstości prawdopodobieństwa Dystrybuanta


df1 = 10 i df2 = 5 stopni swo- y = F(x; 10; 5) p = F(x; 10; 5)
body [STATISTICA] 1,500 1,0

0,8
1,125

0,6

0,750

0,4

0,375
0,2

0,000 0,0
0 1 2 3 4 0 1 2 3 4

O TEŚCIE F I RAZ JESZCZE O HIPOTEZACH W ANALIZIE WARIANCJI

Wnioskowanie w analizie wariancji polega na sprawdzeniu, jakie jest praw-


dopodobieństwo uzyskania otrzymanego stosunku dwóch wariancji, przy za-
łożeniu, że hipoteza zerowa jest prawdziwa. Zauważ, że hipoteza zerowa
w analizie wariancji dotyczy stosunku dwóch wariancji, a nie dwóch śred-
nich. Hipotezę zerową dotyczącą wariancji można postawić dla każdego
kontrolowanego źródła zmienności. W przykładzie z pisaniem listu hipotezy
zerowe powinny być zatem sformułowane w następujące sposoby:
s(2odmowa )
H0: ≤1
s(2w)

s(2nagroda )
H0: ≤1
s(2w)

Oznacza to, że wariancja wyników wywołana takimi zmiennymi, jak „od-


mowa napisania listu” oraz „wysokość nagrody za napisanie listu”, jest
przypadkowa. Innymi słowy, tak sformułowana hipoteza zerowa „mówi”, że
kontrolowana wariancja międzygrupowa (czyli licznik) jest taka sama lub
mniejsza niż niekontrolowana wariancja wewnątrzgrupowa (czyli mianow-
nik). Gdy licznik i mianownik są takie same, iloraz równa się 1, a gdy licz-
nik jest mniejszy od mianownika, wtedy iloraz także jest mniejszy od 1.
Stosunek wariancji międzygrupowej do wewnątrzgrupowej równy 1 ozna-
cza, że średnie w porównywanych grupach różnią się od średniej uzyskanej
334 WNIOSKOWANIE STATYSTYCZNE

przez wszystkie osoby biorące udział w eksperymencie mniej więcej w ta-


kim samym stopniu, jak wyniki w tych grupach od ich średnich. W takiej sy-
tuacji musimy przyznać, że zmienna związana z przynależnością uczestni-
ków eksperymentu do różnych grup nie ma większego wpływu na zachowa-
nie się osób badanych niż wszystkie inne zmienne, których wpływu w eks-
perymencie nie kontrolowaliśmy.
Do weryfikacji hipotezy zerowej w analizie wariancji stosujemy test prawo-
stronny. Aby można było odrzucić tę hipotezę, iloraz dwóch wariancji musi
być istotnie większy od 1, a nie tylko różny od 1, czyli większy lub mniej-
szy. Tak więc hipotezy alternatywne dla przykładu z pisaniem listu wygląda-
ją następująco:
s(2odmowa )
H1: >1
s(2w)

s(2nagroda )
H2: >1
s(2w)

Jeżeli stosunek wariancji jest większy od 1, to znaczy, że licznik (czyli


w tym wypadku wskaźnik zmienności związanej z różnicami między śred-
nimi porównywanych grup) musi być większy niż mianownik (czyli wskaź-
nik niekontrolowanej wariancji wewnątrz tych grup).
Uogólniając to, co napisaliśmy na temat hipotez w analizie wariancji, do-
chodzimy do ogólnego sformułowania wzoru na test F Snedecora:
s(2m )
F=
s(2w)
wariancja międzygrupowa (m), związana z którymkolwiek kontrolowanym źródłem
s(2m)
zmienności niezależnej,
wariancja wewnątrzgrupowa („w zbiorze”, „resztowa”, „błędu”) będąca wynikiem niekon-
s(2w)
trolowanej zmienności niezależnej.

WARTOŚCI KRYTERIALNE DLA WYNIKÓW TESTU F

Rozkład F Snedecora pozwala na oszacowanie prawdopodobieństwa uzy-


skania dowolnego stosunku dwóch wariancji, przy założeniu, że hipoteza ze-
rowa jest prawdziwa. Dokładnie tak jak w teście z lub t, odrzucamy hipotezę
zerową, gdy prawdopodobieństwo uzyskania danego stosunku F jest mniej-
sze od ustalonego kryterium α.
Jeżeli do obliczania analizy wariancji korzystasz z komputera, to program
poda ci prawdopodobieństwo uzyskania danej wartości F i wyższych albo
TESTOWANIE HIPOTEZ DOTYCZĄCYCH ŚREDNICH 335

poinformuje, czy jest ono mniejsze od ustalonego poziomu α. Jeżeli jednak


nie masz dostępu do komputera, zawsze możesz zweryfikować hipotezę ze-
rową, porównując wynik otrzymany w teście F z wartością kryterialną.
Procedura jest taka sama jak w przypadku stosowania jednostronnego testu t.
Wystarczy w tablicy statystycznej znaleźć odpowiednią wartość krytyczną
F i sprawdzić, czy uzyskany wynik testu F jest wyższy od tej wartości.
W naszym przewodniku wartości krytyczne dla testu F znajdziesz w Anek-
sie w tablicy E.
W eksperymencie z pisaniem listu liczba stopni swobody dla obu wariancji
międzygrupowych, związanych ze zmiennymi „odmowa” i „nagroda”, wy-
nosi po 1. Wynika to z ogólnego wzoru na liczbę stopni swobody, zgodnie
z którym df = x – 1, gdzie x w tym przypadku oznacza liczbę porównywa-
nych grup. Ponieważ zmienna „odmowa” dzieli badanych na dwie grupy,
więc df = 2 – 1 = 1. Podobnie jest z drugą zmienną. Nieco bardziej skompli-
kowane jest obliczenie liczby stopni swobody dla wariancji wewnątrzgru-
powej. Ponieważ wrócimy jeszcze później do tego zagadnienia, dość w tym
miejscu powiedzieć, że df dla wariancji wewnątrz grup wynosi 8.
Przyjmując, że weryfikujemy hipotezę zerową na poziomie α = 0,05, z tabli-
cy E odczytujemy, że krytyczna wartość F0,05(1, 8) wynosi 5,317. Oznacza
to, że do odrzucenia hipotezy zerowej na poziomie istotności α = 0,05 iloraz
wariancji międzygrupowej do wariancji wewnątrzgrupowej powinien wyno-
sić co najmniej 5,317.
No cóż, konstruując model sytuacji eksperymentalnej, mniej zadbaliśmy
o wynik analizy, a bardziej o to, żeby łatwiej było operować prostymi licz-
bami. Jak pamiętasz, wariancje związane z obiema – umówmy się – kontro-
lowanymi źródłami zmienności były minimalne, czyli równe 0. Zero podzie-
lone przez jakąkolwiek liczbę także równa się 0, co nieuchronnie prowadzi
0
do wniosku, że wynik naszego testu: F = = 0 . Nie da się ukryć, że jest
2,75
on znacznie mniejszy od kryterialnej wartości F0,05 = 5,317. Oznacza to, że
nie mamy podstaw do odrzucenia obu hipotez zerowych. Podobnie zresztą
było w eksperymencie Lindera i współpracowników. Na pocieszenie – wy-
niki przeprowadzonej przez nich analizy wariancji także nie dały podstaw do
odrzucenia obu hipotez zerowych.
Tak czy inaczej, zapisując wynik analizy wariancji, powinniśmy zadbać, aby
był kompletny, a kompletny zapis powinien wyglądać mniej więcej tak:
F(1, 8) = 0; p = 1,00 lub F(1, 8) = 0; p > 0,05 albo też F(1, 8) = 0; n.i. (tzn.
nieistotne). W nawiasie po F wpisujemy stopnie swobody dla obu wariancji
– najpierw dla licznika, potem dla mianownika.
336 WNIOSKOWANIE STATYSTYCZNE

JAKIE MUSZĄ BYĆ SPEŁNIONE WARUNKI, ŻEBY MOŻNA BYŁO WYKORZYSTAĆ ANALIZĘ WARIANCJI
W BADANIACH EMPIRYCZNYCH?

Zanim przejdziemy do omówienia kilku wariantów analizy wariancji, za-


trzymajmy się jeszcze chwilę nad warunkami, w jakich uprawnione jest jej
wykorzystanie w badaniach. Analiza wariancji, jak wiele metod statystycz-
nych, jest narzędziem bardzo użytecznym, ale ma pewne ograniczenia.
Sformułowano wiele szczegółowych założeń stosowania ANOVA. Są one
szczegółowo opisane w podręczniku Jerzego Brzezińskiego i Ryszarda Sta-
* Brzeziński, J., Stachowski, R. chowskiego*. Skoncentrujemy się tutaj tylko na kilku najważniejszych.
(1984). Zastosowanie analizy
wariancji w eksperymentalnych • Po pierwsze, wszystkie pomiary zmiennej zależnej muszą być przepro-
badaniach psychologicznych. wadzone co najmniej za pomocą skali przedziałowej. W innym przypad-
Warszawa: PWN.
ku nie mógłbyś w ogóle liczyć średnich i wariancji.
• Po drugie, rozkład wszystkich pomiarów jednej cechy (zmiennej zależ-
nej) we wszystkich branych pod uwagę grupach musi być rozkładem
normalnym. W praktyce oznacza to, że rozkład ten nie może różnić się
istotnie od rozkładu normalnego. Aby mieć pewność co do tego, przed
rozpoczęciem analizy wariancji powinieneś najpierw zastosować test
statystyczny, badający zgodność pomiędzy otrzymanymi wynikami
a teoretycznym rozkładem zmiennej losowej – w tym przypadku właśnie
z rozkładem normalnym. Dwa testy, które najczęściej są stosowane
w tym celu, to test χ2 zgodności (czytaj: „chi kwadrat zgodności”) i test
Kołmogorowa-Smirnowa. Szukaj informacji na ich temat w jednym
z następnych rozdziałów, poświęconemu nieparametrycznym metodom
analizy danych.
• Po trzecie, wariancje obliczone dla poszczególnych grup nie mogą istot-
nie różnić się od siebie. Innymi słowy, niezależnie od tego, jak duża jest
zmienność wewnątrz porównywanych grup, pod względem wariancji nie
mogą się one różnić między sobą. Nie, to nie jest pomyłka. Analiza wa-
riancji nie polega na porównywaniu niekontrolowanej zmienności w po-
szczególnych grupach, ale na porównywaniu wariancji związanych
z różnymi źródłami zmienności kontrolowanej. Podobnie jak w odnie-
sieniu do poprzedniego założenia o normalności rozkładu badanej cechy,
również i w tym przypadku mamy specjalne…

…TESTY JEDNORODNOŚCI WARIANCJI DLA KILKU GRUP DANYCH


W naszym dydaktycznym eksperymencie z pisaniem listu mamy cztery gru-
py danych. Wariancje wewnątrz tych grup ilustruje tabela 6.12. Jak widać,
nie są one identyczne, ale czy różnice między nimi są statystycznie istotne?
Statystycy opracowali wiele testów pozwalających na sprawdzenie, czy za-
łożenie o jednorodności wariancji jest spełnione. Najczęściej wykorzysty-
TESTOWANIE HIPOTEZ DOTYCZĄCYCH ŚREDNICH 337

wane są testy Levene’a, χ2 (chi kwadrat) Bartletta, F-maks Hartleya lub


C Cochrana. Ich skrótowym nazwom towarzyszą nazwiska twórców. Różnią
się one nieco od siebie, ale nie będziemy się zanadto zagłębiać w te detale.

Tabela 6.12. Hipotetyczne Prawo odmowy Wysokość nagrody (w $)


wyniki 12 osób badanych napisania listu
w eksperymencie z pisaniem 0,50 2,50
listu oraz wariancje w po-
szczególnych grupach –1, –1, 2 –1, 1, 3
nie 2 2
s (nie ; $0,50 ) =3 s ( nie ; $2,50 ) =4

–1, 2, 2 –1, 0, 1
tak
s 2 (tak ; $0,50) = 3 s 2 (tak ; $2,50 ) = 1

Za Jerzym Brzezińskim i Ryszardem Stachowskim (1984) dodajmy, że spo-


śród wszystkich tych testów najwięcej informacji uwzględnia test Bartletta.
Z kolei testów Cochrana i Hartleya używa się wtedy, gdy grupy w analizie
wariancji mają taką samą liczebność. Hipoteza zerowa, jaką stawiamy przed
zastosowaniem któregokolwiek z tych testów, brzmi: „wariancje we wszyst-
kich grupach są sobie równe”. Ponieważ założenie to musi być spełnione,
aby można było przeprowadzić analizę wariancji, tym razem więc nie jeste-
śmy zainteresowani odrzuceniem, ale raczej przyjęciem hipotezy zerowej.
To jeden z nielicznych przypadków analizy danych statystycznych, gdy mo-
żemy czuć się usatysfakcjonowani, jeśli wynik testu będzie statystycznie
nieistotny (a więc wtedy, gdy prawdopodobieństwo przyjęcia hipotezy ze-
rowej będzie większe niż 0,05). Nie będziemy tutaj podawać wzorów żadne-
go z tych testów. Są wystarczająco skomplikowane, żeby nie zaprzątać sobie
nimi głowy. Tabela 6.13 zawiera wyniki tych testów oraz ich poziomy istot-
ności, obliczone za pomocą programu komputerowego.

Tabela 6.13. Wyniki czterech F-maks C 2


χ Bartletta df p Test Levene’a p
testów jednorodności warian- Hartleya Cochrana
cji dla przykładowych danych
w eksperymencie z pisaniem 4,000 0,364 0,766 3 0,858 0,571 0,649
listu [STATISTICA]

Wyniki wszystkich testów powinny nas zadowolić. Prawdopodobieństwo


bowiem przyjęcia hipotezy zerowej, mówiącej o jednorodności wariancji,
jest bardzo wysokie. W przypadku testów Hartleya, Cochrana i Bartletta
przekracza 0,8, a w przypadku testu Levene’a – 0,6. Chociaż ostateczne re-
zultaty naszej analizy wariancji nie były szczególnie interesujące, to – przy-
najmniej z punktu widzenia założenia o jednorodności wariancji – możemy
być pewni, że doszliśmy do nich za pomocą techniki statystycznej, którą za-
stosowaliśmy w sposób uprawniony.
338 WNIOSKOWANIE STATYSTYCZNE

O PŁYTKACH CERAMICZNYCH, MAJTKACH I ADMIRAŁACH ORAZ


O JEDNOCZYNNIKOWEJ ANALIZIE WARIANCJI

* Dean, L. M., Willis, F. N., Larry Dean, Frank Willis i Jay Hewitt* chcieli się dowiedzieć, w jakim za-
Hewitt, J. (1975). Initial interac- kresie fizyczny dystans między komunikującymi się żołnierzami w wojsku
tion distance among individuals
equal and unequal in military odzwierciedla różnice rang między nimi. Przyjęto założenie, że fizyczna od-
rank. Journal of Personality and ległość między rozmawiającymi ze sobą ludźmi może być interpretowana
Social Psychology, 32, 294-299.
w kategoriach dystansu społecznego.
Badania polegały na rejestracji zachowań 562 marynarzy w kantynie woj-
skowej. Nie mieli oni pojęcia, że są obserwowani. Przez kilka tygodni
współpracownicy eksperymentatorów (również marynarze) zapisywali dane
o tym, kto z kim nawiązuje kontakt werbalny i w jakiej randze są te osoby.
Za interakcję uznawano każdą wymianę zdań.
Zmienną niezależną w tym eksperymencie była różnica stopni wojskowych
pomiędzy rozmawiającymi marynarzami. Przyjmowała ona wartości od 0
(dwie osoby o tej samej randze) do 8 i więcej. Z kolei zmienną zależną był
fizyczny dystans pomiędzy rozmawiającymi osobami.
Na uwagę zasługuje pomysłowy sposób jej pomiaru.
Brano pod uwagę tylko interakcje pomiędzy osobami stojącymi i dla każdej
pary marynarzy zapisywano, ile dzieli ich płytek ceramicznych leżących na
podłodze. Ponieważ płytki były identyczne w całej kantynie, można było
więc uznać, że pomiar zmiennej zależnej przeprowadzono na skali przedzia-
łowej (jak pamiętasz, skala ta zakłada równe jednostki).

ILE KAFELKÓW LEŻAŁO NA PODŁODZE POMIĘDZY KONWERSUJĄCYMI MARINES?

Autorzy przeprowadzili kilka różnych analiz statystycznych, ale my opisze-


my tylko tę, w której wykorzystali jednoczynnikową analizę wariancji.
Wzięli oni pod uwagę dane o dystansie społecznym, ale tylko w sytuacji,
gdy interakcja była inicjowana przez podwładnego w stosunku do przełożo-
nego. Średnie z tych badań zawiera tabela 6.14.
Tabela 6.14. Średnia odle- Liczba stopni wojskowych pomiędzy inicjatorem interakcji a jej odbiorcą
głość pomiędzy żołnierzami Zmienne
(mierzona liczbą płytek), 1 2 3 4 5 6-7 8+
w zależności od rangi odbior- Średnia odległość 3,54 3,88 4,38 3,82 3,97 3,96 4,59
cy, w eksperymencie Deana,
Willisa i Hewitta (1975) Liczba interakcji 55 36 21 28 16 26 27

Jak wynika z tabeli 6.14, średnia odległość między rozmawiającymi maryna-


rzami (mierzona liczbą kafelków w kantynie) jest nieco inna, w zależności
od różnic pomiędzy rangami marynarzy.
TESTOWANIE HIPOTEZ DOTYCZĄCYCH ŚREDNICH 339

TAJEMNICZE SUMY KWADRATÓW „MIĘDZY” I „WEWNĄTRZ”

Jednoczynnikowa analiza wariancji to metoda, która pozwala odpowiedzieć


na pytanie: czy istnieją istotne różnice między średnimi w kilku grupach wy-
łonionych za pomocą jednej zmiennej niezależnej głównej? Zmienna ta musi
być nominalna i przyjmować co najmniej trzy wartości. W takim planie eks-
perymentalnym testowanie statystyczne dotyczy istotności wpływu tej jednej
zmiennej (tj. czynnika – stąd nazwa „analiza jednoczynnikowa”) na zmienną
zależną, czyli zachowanie się osób badanych.
Przedmiotem zainteresowania badacza są różnice między średnimi dla po-
szczególnych grup a średnią dla wszystkich danych zgromadzonych podczas
eksperymentu.
Jak pamiętasz, badanie relacji między średnimi dla grup i średnią całkowitą
zmierza do określenia wielkości wariancji międzygrupowej. Każda warian-
cja jest stosunkiem licznika do mianownika. Najpierw zajmiemy się liczni-
kiem, czyli sumą kwadratów odchyleń średnich w poszczególnych grupach
od średniej całkowitej. Przypomnijmy, że sumę tę oznaczamy za pomocą
dwóch dużych liter S, czyli SS (od angielskiego Sum of Squares), oraz
wskaźnika określającego, o jaki rodzaj wariancji chodzi. Sumę kwadratów
dla wariancji międzygrupowej oznaczymy więc SS(między) lub krócej – SS(m).
Ponieważ w analizie wariancji grupy nie muszą być równoliczne, każdą więc
podnoszoną do kwadratu różnicę między średnimi należy przemnożyć przez
liczebność grupy, której dotyczy ta różnica. Można to zapisać za pomocą na-
stępującego wzoru:
J

SS ( m ) = ∑ ( x j − x ( c ) ) n j
2

j=1

SS(m) suma kwadratów do obliczenia wariacji międzygrupowej,

xj średnia dla dowolnej (j-tej) grupy wyróżnionej za pomocą zmiennej niezależnej głównej,

x (c) średnia całkowita (dla wszystkich danych),

J liczba porównywanych grup (j jest symbolem konkretnej grupy),


nj liczebności poszczególnych (j-tych) grup.

Każda wersja analizy wariancji ostatecznie prowadzi do porównania róż-


norodności (zmienności) danych wywołanej przez czynnik kontrolowany
w eksperymencie z niekontrolowaną wariancją wewnątrz badanych grup,
czyli wariancją błędu. Jej licznikiem jest suma kwadratów odchyleń każde-
go wyniku od średniej w grupie, do której ten wynik należy. Tak rozumianą
sumę kwadratów oznaczamy SS(wewnątrz) lub krócej SS(w), a wzór obliczeniowy
zapisujemy w następujący sposób:
340 WNIOSKOWANIE STATYSTYCZNE

J nj

SS ( w) = ∑ ∑ (X ij − x j )2
j =1 i =1

Xij wynik i-tej osoby w grupie j,

xj średnia dla dowolnej (j-tej) grupy wyróżnionej za pomocą zmiennej niezależnej głównej,

J liczba porównywanych grup (j jest symbolem konkretnej grupy),


liczebność j-tej grupy (w ramach każdej grupy kolejne osoby są oznaczone za pomocą
nj
indeksu i).

Wzór na sumę kwadratów odchyleń wewnątrz badanych grup sprowadza się


do tego, że należy obliczyć sumę kwadratów odchyleń oddzielnie wewnątrz
każdej badanej grupy, a następnie dodać te sumy do siebie.

LICZBY STOPNI SWOBODY W JEDNOCZYNNIKOWEJ ANALIZIE WARIANCJI

Licząc wariancję dla wszystkich danych razem, czyli wariancję całkowitą,


stosujemy znany wzór:
N

∑(X i − x (c) )2
s 2
= i =1

N −1
(c)

s(c2 ) wariancja całkowita,

Xi wynik dowolnej (i-tej) osoby badanej,

x (c ) średnia całkowita dla wszystkich danych,

N liczba wszystkich pomiarów w eksperymencie.

Wzór ten składa się z sumy kwadratów odchyleń poszczególnych wyników


od średniej całkowitej (w liczniku), podzielonej przez liczbę wszystkich po-
miarów minus jeden, czyli liczbę stopni swobody (w mianowniku). Tylko
we wzorze na wariancję całkowitą, czyli zmienność w całym zbiorze danych
niezależnie od jego wewnętrznych podziałów, suma stopni swobody pocho-
dzących z wszystkich (tzn. kontrolowanych i niekontrolowanych) źródeł
zmienności jest równa liczbie wszystkich badanych obiektów pomniejszonej
o jeden, a więc
df(c) = N – 1
W analizie jednoczynnikowej składowymi wariancji całkowitej są tylko dwa
źródła zmienności – wewnątrz grup i między nimi – a więc suma odpowia-
dających im liczb stopni swobody musi się równać N – 1, czyli:
df(c) = df(w) + df(m)= N – 1
TESTOWANIE HIPOTEZ DOTYCZĄCYCH ŚREDNICH 341

Liczba stopni swobody związana z wariancją między grupami równa jest


liczbie badanych grup minus jeden, co symbolicznie można zapisać jako:
df(m) = J – 1
gdzie J oznacza liczbę wszystkich porównywanych grup.
Z kolei liczba stopni swobody dla zmienności wewnątrz grup jest resztą, któ-
ra zostaje po odjęciu stopni swobody dla wariancji między grupami od licz-
by stopni swobody dla wariancji całkowitej:
df ( w) = df ( c ) − df ( m ) = ( N − 1) − ( J − 1) = N − J − 1 + 1 = N − J

Można powiedzieć jeszcze inaczej, że liczba stopni swobody związana z wa-


riancją wewnątrzgrupową jest równa różnicy pomiędzy liczbą wszystkich
osób badanych w eksperymencie a liczbą grup.

WARIANCJA MIĘDZY GRUPAMI I WEWNĄTRZ GRUP BADANYCH


W JEDNOCZYNNIKOWEJ ANALIZIE WARIANCJI

Zbierając informacje z dwóch poprzednich paragrafów, dochodzimy do


dwóch wzorów na wariancję międzygrupową i wewnątrzgrupową. Pierwszy
z nich pozwala na obliczenie wariancji między grupami:
J

SS ( m ) ∑ (x j − x (c) )2 n j
s(2m ) = = j=1

df ( m ) J −1

a drugi umożliwia policzenie wariancji wewnątrz badanych grup:


J nj

SS ( w) ∑ ∑ (X
j =1 i =1
ij − x j )2
s(2w) = =
df ( w) N−J

Mamy nadzieję, że symbolika tych piętrusów jest dla Ciebie już całkiem
czytelna. Jeśli masz jakieś wątpliwości, zatrzymaj się na chwilę i przejrzyj
raz jeszcze kilka ostatnich stron.

NO TO PODSUMUJMY, CZYLI WZORY JEDNOCZYNNIKOWEJ ANALIZY WARIANCJI W TABELCE

Jak już nieraz pisaliśmy, istota analizy wariancji polega na porównaniu ze


sobą wpływów różnych źródeł zmienności niezależnej na zmienną zależną.
W analizie jednoczynnikowej możemy porównać tylko wariancję między
grupami (czyli tę, która jest związana ze zmienną niezależną główną) z wa-
riancją wewnątrz grup (czyli z tą, która jest wynikiem niekontrolowanego
342 WNIOSKOWANIE STATYSTYCZNE

w badaniu wpływu zmiennych niezależnych zakłócających na zmienną za-


leżną). Do tego celu wykorzystujemy test F, będący ilorazem wariancji mię-
dzygrupowej do wariancji wewnątrzgrupowej.
W tabeli 6.15 zestawiliśmy wszystkie najważniejsze elementy struktury wy-
niku jednoczynnikowej analizy wariancji.
Tabela 6.15. Struktura wyniku jednoczynnikowej analizy wariancji

Suma kwadratów Stopnie swobody ⎛ SS ⎞


Źródło zmienności Wariancja ⎜⎜ s 2 = ⎟
df ⎟⎠
Test F
(SS) (df) ⎝
N

∑(X
N
Nieokreślone SS(c ) = ∑(X i =1
i − x (c ) ) 2
df(c) = N – 1
s (2c ) = i =1
i − x (c ) ) 2

N −1
J

∑ (x
J
s (2m )
∑ (x j − x (c ) ) 2 n j
Między grupami SS(m ) = j − x (c ) ) 2 n j df(m) = J – 1 F(m ) =
j =1 s(2m ) =
j =1 s (2w )
J −1
J nj

∑ ∑(X
J nj

∑ ∑(X
− x j )2
Wewnątrz grup SS(w ) = ij − x j )2 df(w) = N – J ij

j =1 i =1
j =1 i =1 s (2w ) =
N −J

Przypomnijmy, że hipoteza zerowa w analizie jednoczynnikowej brzmi:


s(2m )
H0: F = ≤1
s(2w)

a hipoteza alternatywna:
s(2m )
H1: F = >1
s(2w)

Korzystając z danych na temat społecznych zachowań marines (czyli na te-


mat liczby kafelków między każdą parą rozmawiających marynarzy), Dean,
Willis i Hewitt obliczyli, że sumy kwadratów dla zmienności między gru-
pami oraz wewnątrz grup wyniosły odpowiednio:
SS(m) = 24,83
SS(w) = 296,94
Jeśli chcesz, to sumę kwadratów odchyleń dla wariancji między grupami,
czyli SS(m), możesz obliczyć sam na podstawie danych z tabeli 6.14. Musisz
jeszcze tylko znać średnią całkowitą, która wyniosła 3,94 długości kafelka
dla wszystkich interakcji. Początek tego obliczenia wyglądałby następująco:
SS m = (3,54 − 3,94) 2 × 55 + (3,88 − 3,94) 2 × 36 + ...
TESTOWANIE HIPOTEZ DOTYCZĄCYCH ŚREDNICH 343

Obliczenie wartości sumy kwadratów wewnątrz badanych grup, czyli SS(w),


wymagałoby oczywiście znajomości dystansów w każdej z 209 interakcji.
Gdybyś miał dostęp do tych danych, z pewnością także bez trudu poradził-
byś sobie z obliczeniem – my podaliśmy Ci końcowy wynik od razu.
Ponieważ do analizy wariancji badacze włączyli 7 grup, liczących razem 209
pomiarów badanych żołnierzy, liczba stopni swobody dla zmienności mię-
dzy grupami wynosi df(m) = 7 – 1 = 6, a dla zmienności wewnątrz grup równa
się df(w) = 209 – 7 = 202. Po podstawieniu obliczonych sum kwadratów do
wzorów można stwierdzić, że wariancja międzygrupowa wynosi:
24,83
s(2m ) = = 4,14
6
a wewnątrzgrupowa:
296,94
s(2w ) = = 1,47
202
Stosunek zaś tych dwóch wskaźników zmienności równa się:
s(2m ) 4,14
F= 2
= = 2,90
s ( w) 1,47

Prawdopodobieństwo, że F = 2,90 w rozkładzie F Snedecora, dla 6 i 202


stopni swobody, odpowiednio dla wariancji międzygrupowej i wewnątrz-
grupowej, wynosi p = 0,0098. Oznacza to, że przyjąwszy jako kryterium po-
ziom α = 0,01, można odrzucić hipotezę zerową, iż średnie w poszczegól-
nych grupach są identyczne (0,0098<0,01). Odrzucenie hipotezy zerowej
prowadzi do przyjęcia hipotezy alternatywnej: wariancja między grupami
jest statystycznie istotnie większa od wariancji wewnątrz grup. Przypomnij-
my, że ta analiza dotyczyła tylko tych sytuacji, w których marynarz inicjują-
cy kontakt był niższy rangą od swojego rozmówcy. Na tym etapie można
więc stwierdzić, że marynarz niższy rangą, który rozpoczyna rozmowę z ma-
rynarzem wyższym rangą, w zależności od wielkości różnicy między ich
stopniami, ustawia się wobec niego w innej odległości. Stąd już tylko krok
do wniosku ogólniejszego: marynarze-podwładni w różny sposób odczuwają
dystans społeczny wobec przełożonych.

DWUCZYNNIKOWA ANALIZA WARIANCJI, CZYLI KTO JEST BARDZIEJ DOCIEKLIWY


W SKLEPIE OSIEDLOWYM, A KTO W SUPERMARKECIE?

Jedną z najatrakcyjniejszych cech analizy wariancji jest to, że pozwala ona


badać wpływ więcej niż jednej zmiennej niezależnej na zmienną zależną. Co
więcej, w wyniku zastosowania ANOVA można się dowiedzieć nie tylko,
344 WNIOSKOWANIE STATYSTYCZNE

które zmienne niezależne mają istotny wpływ na zmienną zależną, a które


nie, ale także, w jakim zakresie one razem modyfikują wartości zmiennej za-
leżnej. Ten ostatni efekt, zwany interakcją, jest możliwy do oszacowania
tylko w przypadku analiz dwu- i więcej czynnikowych. Zresztą metoda ana-
lizy wariancji ma tak wiele wariantów, że pozwala na badanie wpływu róż-
nych czynników w różnych układach eksperymentalnych. Dokładniej moż-
liwości te przedstawione są w książce Jerzego Brzezińskiego i Ryszarda
* Brzeziński, J., Stachowski, R. Stachowskiego*. Naszym celem nie jest szczegółowa ich prezentacja. Cho-
(1984). Zastosowanie analizy dzi nam raczej o to, abyś zrozumiał, na czym polega użyteczność tych metod
wariancji w eksperymentalnych
badaniach psychologicznych. dla weryfikowania hipotez badawczych. Ilustrując techniki obliczeniowe
Warszawa: PWN. dwuczynnikowej analizy wariancji, przywołajmy raz jeszcze dane z fikcyj-
nego eksperymentu dotyczącego liczby pytań zadawanych przez klientów
o różnym temperamencie w supermarkecie i sklepie osiedlowym, o którym
to eksperymencie pisaliśmy w części poświęconej miarom zmienności. Dla
wygody dane z tego badania zamieszczamy tutaj raz jeszcze w tabeli 6.16.

Tabela 6.16. Wyniki fikcyjne- Temperament


go eksperymentu, w którym Rodzaj sklepu x (rodzaj sklepu )
badano, ile pytań zadają ekstrawertycy introwertycy
sprzedawcy ekstrawertycy lub supermarket 5, 4, 3 1, 2, 3 3,0
introwertycy w supermarkecie
i w sklepie osiedlowym sklep osiedlowy 6, 5, 4 4, 3, 2 4,0

x (temperamen t ) 4,5 2,5 3,5

Analiza wariancji dla danych z tabeli 6.16 będzie polegać na wyizolowaniu


wpływu obydwu czynników: rodzaju sklepu i temperamentu klientów, na
liczbę zadawanych przez nich pytań. Istotną korzyścią z zastosowania anali-
zy wariancji w tej sytuacji jest również możliwość sprawdzenia, czy obydwa
te czynniki wchodzą w interakcję między sobą i w specyficzny sposób
wpływają na zachowania osób badanych.

STRUKTURA WYNIKU W DWUCZYNNIKOWEJ ANALIZIE WARIANCJI

Podobnie jak w jednoczynnikowej analizie wariancji, tak też w analizie


dwuczynnikowej wygodnie jest podawać wyniki w postaci tabeli. Oczywi-
ście zawiera ona więcej elementów, ponieważ w analizie dwuczynnikowej
jest więcej źródeł zmienności niż w jednoczynnikowej. Pewne składowe po-
zostają jednak takie same, choć ich obliczenie będzie wymagało zastosowa-
nia nieco bardziej rozbudowanych procedur.
W każdym wariancie analizy wariancji zawsze oblicza się co najmniej trzy
wskaźniki zmienności. Są to: wariancja całkowita, wariancja wewnątrz po-
równywanych grup oraz co najmniej jedna wariancja międzygrupowa. Dwa
pierwsze są niemal identyczne z metodą jednoczynnikową.
TESTOWANIE HIPOTEZ DOTYCZĄCYCH ŚREDNICH 345

Powtórzmy – wariancja całkowita jest ilorazem sumy podniesionych do


kwadratu odchyleń wszystkich po kolei wyników eksperymentu od średniej
całkowitej przez stopnie swobody, czyli przez N – 1.
Z kolei wariancja wewnątrz grup jest liczona w taki sposób, że od każdego
wyniku odjęta jest średnia w grupie, do której ten wynik należy, po czym
każda różnica jest podniesiona do kwadratu, wszystkie one zaś są zsumowa-
ne i podzielone przez liczbę stopni swobody.
Jeśli chodzi o obliczanie liczby stopni swobody dla wariancji wewnątrz,
w metodzie dwuczynnikowej mamy pewną modyfikację w stosunku do po-
przedniej metody, ponieważ nieco inaczej niż w analizie jednoczynnikowej
oblicza się liczbę porównywanych grup. Mówiąc najkrócej, liczba grup
w analizach dwu- i więcej czynnikowych jest iloczynem poziomów wszyst-
kich zmiennych niezależnych głównych. Jeśli więc mamy np. dwie zmienne
niezależne, a każda z nich przyjmuje po dwa poziomy, to razem otrzymuje-
my 2 × 2 = 4 badane grupy. Liczba stopni swobody dla wariancji wewnątrz
grup równa się zatem:
df(w) = N – (J × K)
N liczba wszystkich pomiarów w eksperymencie,
JiK liczby poziomów dwóch zmiennych niezależnych głównych.

Tyle, jeśli chodzi o wariancję całkowitą i wariancję wewnątrz grup.


Nowością w analizie dwuczynnikowej są obliczenia wariancji międzygru-
powych. Przede wszystkim trzeba pamiętać, że są dwie wariancje między-
grupowe związane z dwiema zmiennymi niezależnymi, a nie jedna. Są one
wyznaczane niezależnie od siebie i – upraszczając – można powiedzieć, że
ich obliczenie przebiega w taki sposób, jakbyśmy dwukrotnie liczyli warian-
cję międzygrupową za pomocą analizy jednoczynnikowej.
Innymi słowy, obliczając jedną wariancję międzygrupową, postępujemy
w taki sposób, jakby drugiej zmiennej wcale nie było.
Spójrz na tabelkę 6.16. Są tam dane pochodzące od 12 osób należących do
czterech grup, które różnią się od siebie ze względu na dwie cechy. Jeśli jed-
nak weźmiesz pod uwagę tylko jedną cechę, np. temperament, to o tym sa-
mym zbiorze danych możesz myśleć w kategoriach dwóch 6-osobowych,
a nie czterech 3-osobowych grup. Każda z tych 6-osobowych grup ma swoją
średnią (tzw. średnią brzegową) i pytanie o wariancję międzygrupową doty-
czy właśnie różnic między tymi dwiema średnimi.
Przerabialiśmy już ten temat na początku rozdziału, kiedy na przykładzie
eksperymentu z pisaniem listu przyglądaliśmy się różnym możliwym wa-
riantom podziału danych na grupy. Analogicznie możemy policzyć warian-
346 WNIOSKOWANIE STATYSTYCZNE

cję dla drugiej zmiennej niezależnej i podobnie jak w analizie jednoczynni-


kowej, liczba stopni swobody do obliczenia tej wariancji równa się liczbie
porównywanych grup (oczywiście tutaj tych połączonych) minus 1.
Najciekawszą cechą dwu- i więcej czynnikowych analiz wariancji jest ta, że
dają one możliwość stwierdzenia, w jakim stopniu wszystkie kontrolowane
zmienne niezależne wpływają razem na zmienną zależną.
Ten wynik, zwany interakcją, nie jest osiągalny za pomocą testów dla
dwóch średnich (np. t lub z) ani nawet za pomocą jednoczynnikowej analizy
wariancji.
Nieraz jest tak, że wpływ jednej lub drugiej zmiennej niezależnej głównej na
zmienną zależną jest nieistotny. Kiedy jednak weźmiemy pod uwagę fakt, że
obie te zmienne w tej samej chwili oddziaływały na zachowanie się osoby
badanej, i uwzględnimy to w analizie statystycznej, wówczas możemy do-
wiedzieć się bardzo interesujących rzeczy.
Może być np. tak, że na liczbę zadawanych pytań przez klientów nie wpływa
ani ich temperament, ani rodzaj sklepu, oczywiście, kiedy analizujemy te
zmienne oddzielnie. Jeśli jednak uwzględnimy ich wspólny wpływ na
zmienną zależną, może się okazać, że np. ekstrawertycy są szczególnie gada-
tliwi, ale tylko w sklepie osiedlowym, introwertycy zaś są najwyraźniej za-
hamowani w supermarkecie. Czy zależność tę odzwierciedlają zmyślone
przez nas liczby z tabeli 6.16? Zobaczymy to, kiedy dane podstawimy do
odpowiednich wzorów.
Formuła obliczania wariancji ujawniającej efekt interakcji jest trochę skom-
plikowana. Jeśli chcemy policzyć sumę kwadratów, to musimy od średniej w
każdej badanej grupie (w naszym przykładzie mamy cztery grupy) odjąć
średnie brzegowe (z wiersza i z kolumny dla tej grupy) oraz do tych różnic
dodać średnią całkowitą, całość zaś podnieść do kwadratu i wszystko razem
zsumować.
Być może, nie jest to najprostsze, ale zapewniamy Cię, że działa. Ponieważ
matematycznie rzecz biorąc, interakcja jest iloczynem wpływu dwóch
zmiennych niezależnych na zmienną zależną, liczba stopni swobody dla in-
terakcji jest iloczynem liczby stopni swobody dla obu branych pod uwagę
zmiennych niezależnych.
W tabeli 6.17 zestawiliśmy najważniejsze wzory obliczeniowe w dwuczyn-
nikowej analizie wariancji, oznaczając dużymi literami „A” i „B” dwie
zmienne niezależne główne.
Radzimy ci, żebyś teraz bardzo wolno przeczytał każdy opis i symbol w tej
tabeli, przypominając sobie, co on oznacza. Nie spiesz się, a zobaczysz, że to
jest po prostu oczywiste.
TESTOWANIE HIPOTEZ DOTYCZĄCYCH ŚREDNICH 347

Tabela 6.17. Struktura wyniku dwuczynnikowej analizy wariancji


Wariancja
Źródło Suma kwadratów Stopnie swobody ⎛ 2 SS ⎞
⎜⎜ s = ⎟ Test F
zmienności
df ⎟⎠
(SS) (df)

N

∑(X
Nieokreślone SS(c )
SS(c ) = i − x (c ) ) 2 df(c) = N – 1 s (2c ) = –
(cała) df(c )
i =1
A
s (2A)

Między SS( A )
SS( A ) = B ( x a − x (c ) )2 nab df(A) = A – 1 s (2A) = F( A) =
grupami (A) df( A) s (2w )
a =1
B
s (2B )

Między SS(B )
SS(B ) = A ( x b − x (c ) )2 nab df(B) = B – 1 s (2B ) = F(B ) =
grupami (B) df(B ) s (2w )
b =1
A B
s (2A×B )
∑ ∑ (x
Interakcja df(A×B) = (A – 1) × (B SS( A×B )
SS( A×B ) = ab − x a − x b + x (c ) ) 2 nab s (2A×B ) = F( A×B ) =
(A × B) – 1) df( A×B ) s (2w )
a =1 b =1
nab

∑∑∑ (X )
A B
2
SS (w ) = − x ab df(w) = N – (A × B) SS (w )
Wewnątrz grup abj s (2w ) = –
a =1 b =1 j =1 df(w )

N liczba wszystkich pomiarów w eksperymencie,

Xi wynik dowolnej (i-tej) osoby badanej w eksperymencie,

x (c) średnia całkowita dla wszystkich danych,

A liczba poziomów zmiennej niezależnej głównej A,

B liczba poziomów zmiennej niezależnej głównej B,

xa średnie dla grup wyznaczonych tylko przez poziomy zmiennej niezależnej A,

xb średnie dla grup wyznaczonych tylko przez poziomy zmiennej niezależnej B,

x ab średnie dla grup wyznaczonych przez poziomy zmiennych niezależnych A i B,

na liczebności grup wyznaczonych tylko przez poziomy zmiennej niezależnej A,

nb liczebności grup wyznaczonych tylko przez poziomy zmiennej niezależnej B,

nab liczebności grup wyznaczonych przez poziomy zmiennych niezależnych A i B,

wynik (j-tej) osoby badanej z grupy wyznaczonej przez poziomy zmiennych niezależnych
Xabj
A i B.

Po podstawieniu danych z tabeli 6.16 do wzorów z tabeli 6.17 otrzymujemy


wynik dwuczynnikowej ANOVA dla eksperymentu badającego związek
pomiędzy temperamentem i miejscem dokonywania zakupów a liczbą pytań
zadawanych sprzedawcom (zob. tab 6.18).
348 WNIOSKOWANIE STATYSTYCZNE

Tabela 6.18. Wynik dwuczynnikowej ANOVA dla eksperymentu badającego związek pomiędzy temperamentem i miejscem do-
konywania zakupów a liczbą pytań zadawanych sprzedawcom

Wariancja
Źródło Suma kwadratów Stopnie swobody ⎛ 2 SS ⎞
⎜⎜ s = ⎟ Test F
zmienności
df ⎟⎠
(SS) (df)

2 2 2
SS(c) = (5 – 3,5) + (4 – 3,5) + (3 – 3,5) + (1 –
2 2 2 2
Nieokreślone 3,5) + (2 – 3,5) + (3 – 3,5) + (6 – 3,5) + (5 – 23
2 2 2 2 df(c) = 12 – 1 = 11 s(2c ) = = 2,09 –
(cała) 3,5) + (4 – 3,5) + (4 – 3,5) + (3 – 3,5) + (2 – 11
2
3,5) = 23

Rodzaj sklepu 6 6
SS(A) = 2 × ((3 – 3,5) × 3 + (4 – 3,5) × 3) = 6
2 2
df(A) = 2 – 1 = 1 s(2A ) = =6 F( A ) = =6
(A) 1 1

Temperament 24 24
SS(A) = 2 × ((4,5 – 3,5) × 3 + (2,5 – 3,5) × 3) = 24
2 2
df(B) = 2 – 1 = 1 s(2B ) = = 24 F(B ) = = 24
(B) 1 1

SS(A×B) = (4,0 – 3,0 – 4,5 + 3,5) × 3 + (2,0 – 3,0 –


2
Interakcja df(A×B) = (2 – 1) × s (2A×B ) =
0
=0 F( A×B ) =
0
=0
2,5 + 3,5) × 3 + (5,0 – 4,0 – 4,5 + 3,5) × 3 + (3,0 –
2 2
(A × B) (2 – 1) = 1 1 1
4,0 – 2,5 + 3,5) × 3 = 0
2

2 2 2
SS(w) = (5,0 – 4,0) + (4,0 – 4,0) + (3,0 – 4,0) +
2 2 2
Wewnątrz (1,0 – 2,0) + (2,0 – 2,0) + (3,0 – 2,0) + (6,0 – df(w) = 12 – (2 × 2) 2 8
grup
2 2 2 2
5,0) + (5,0 – 5,0) + (4,0 – 5,0) + (4,0 – 3,0) +
s (w ) = =1 –
=8 8
2 2
(3,0 – 3,0) + (2,0 – 3,0) = 8

Zanim zinterpretujemy te wyniki, wróćmy jeszcze na moment do hipotez.

HIPOTEZY STATYSTYCZNE W DWUCZYNNIKOWEJ ANALIZIE WARIANCJI

Przypomnijmy, że hipotezy statystyczne w analizie wariancji dotyczą sto-


sunków dwóch wariancji: jednej związanej z działaniem czynnika ekspery-
mentalnego i drugiej, wynikającej z przypadkowej zmienności wewnątrz ba-
danych grup. Hipoteza zerowa, że średnie dla poziomów zmiennej niezależ-
nej A nie różnią się między sobą, wygląda następująco:
s(2A )
H0: F( A) = ≤1
s(2w)

Podobnie dla czynnika B:


s(2B )
H0: F( B ) = ≤1
s(2w)

oraz dla interakcji tych zmiennych:


s(2A×B )
H0: F( A×B ) = ≤1
s(2w)
TESTOWANIE HIPOTEZ DOTYCZĄCYCH ŚREDNICH 349

Oczywiście wszystkie trzy hipotezy alternatywne sugerują, że wariancja


między grupami będzie znacznie większa niż wariancja wewnątrz grup, czyli
że iloraz tych wariancji jest liczbą większą od 1.
Podobnie jak w przypadku analizy jednoczynnikowej, jeżeli prawdopodo-
bieństwo uzyskania danego wyniku F i wyższych od niego jest mniejsze od
ustalonego kryterium α, to można odrzucić hipotezę zerową o równości wa-
riancji. Przypuśćmy, że przed eksperymentem uznaliśmy, iż satysfakcjonuje
nas poziom α = 0,05.
W ostatniej kolumnie w tabeli 6.18 zapisaliśmy wyniki trzech testów F od-
powiadających trzem hipotezom. Nie warto nawet sprawdzać, czy potwier-
dziła się hipoteza alternatywna dotycząca interakcji. F(A×B) = 0 jednoznacznie
sugeruje, że ten efekt jest statystycznie nieistotny, czyli że na całkowitą
zmienność w zbiorze wyników nie wpłynęły razem obie zmienne niezależne
(prawdziwa jest hipoteza zerowa).
Co innego, jeśli chodzi o obie zmienne brane niezależnie od siebie. F(A), czy-
li wynik testu w odniesieniu do rodzaju sklepu, wynosi 6, a F(B), czyli wynik
testu w odniesieniu do temperamentu, wynosi 24.
Kryterialna wartość testu F0,05(1, 8) = 5,32. Ponieważ F(A)<F0,05(1, 8), nie
możemy więc uznać hipotezy alternatywnej za bardziej prawdopodobną niż
hipoteza zerowa, co prowadzi do wniosku, że rodzaj sklepu nie jest czynni-
kiem, który w statystycznie istotny sposób modyfikuje liczbę pytań zadawa-
nych sprzedawcom przez klientów.
Z kolei z porównania wyniku testu F dla drugiego czynnika stwierdzamy, że
F(B) > F0,05(1,8), czyli że temperament klientów jest zmienną, która różnicuje
ludzi ze względu na liczbę pytań zadawanych sprzedawcom.
Spoglądając w tabeli 6.16 na średnie brzegowe dla temperamentu, widzimy,
że wyższa jest ta, która charakteryzuje zachowanie ekstrawertyków. A zatem
to właśnie oni zadają znacznie więcej pytań sprzedawcom niż introwertycy.
I czynią to niezależnie od tego, czy znajdują się w sklepie osiedlowym, czy
w supermarkecie.
Kiedy wynik testu jest statystycznie istotny, tzn. pozwala na odrzucenie hi-
potezy zerowej, wówczas warto sprawdzić, czy nie można odrzucić tej hipo-
tezy z jeszcze większym prawdopodobieństwem. Jeśli zerkniesz do tablicy
E w Aneksie, przekonasz się, że F0,01(1, 8) = 11,26, czyli że również jest
mniejsze niż F(B) = 24.
Możemy zatem odrzucić hipotezę zerową z prawdopodobieństwem równym
0,01. Obliczając dwuczynnikową analizę wariancji za pomocą pakietu staty-
stycznego, dowiesz się, jakie dokładnie jest prawdopodobieństwo uzyska-
nych wyników testów F.
350 WNIOSKOWANIE STATYSTYCZNE

EFEKTY GŁÓWNE I EFEKTY PROSTE

Wieloczynnikowa analiza wariancji jest metodą polegającą na stopniowym


odsłanianiu kolejnych pokładów informacji o zgromadzonych danych. Do tej
pory zajmowaliśmy się tzw. efektami głównymi, czyli wpływem zmiennych
niezależnych głównych oddzielnie lub razem (interakcja) na zmienną zależ-
ną. W następstwie statystycznie istotnego efektu głównego dotyczącego jed-
nego z czynników eksperymentalnych możesz sprawdzić wszystkie różnice
między średnimi obliczonymi dla wszystkich poziomów tego czynnika. Są
to tzw. porównania post hoc, o których dalej piszemy szczegółowo. Oczywi-
ście mają one sens tylko wtedy, gdy zmienna niezależna przyjmuje więcej
niż dwa poziomy. Jeśli zmienna niezależna ma tylko dwie wartości, to obli-
czony efekt główny dla tej zmiennej ujawnia jej wpływ na zmienną zależną.
Gdy jednak zmienna niezależna przyjmuje np. trzy poziomy, wtedy na efekt
główny związany z tą zmienną składają się trzy różnice między średnimi dla
poszczególnych poziomów tej zmiennej: pierwszą i drugą, pierwsza i trzecią
oraz drugą i trzecią.
Czy również możemy bardziej szczegółowo zinterpretować statystycznie
istotny wynik testu F dotyczący interakcji? Chodzi o to, że potwierdzając
wspólny wpływ dwóch (lub więcej niż dwóch) zmiennych niezależnych
głównych na zmienną zależną, warto byłoby wiedzieć, która grupa (lub które
grupy) w największym stopniu wpłynęły na ten wynik. Do tego celu służą
analizy tzw. efektów prostych, które pozwalają na stwierdzenie, jaki wpływ
na zachowania osób badanych miało zróżnicowanie w zakresie jednej
zmiennej niezależnej, przy stałym poziomie pozostałych zmiennych.
W przykładzie z liczbą pytań zadawanych sprzedawcom mógłby to być
wpływ temperamentu, ale np. tylko w supermarkecie albo tylko w sklepie
osiedlowym. W ten sposób jedną dwuczynnikową analizę wariancji można
rozbić na kilka analiz jednoczynnikowych, których wyniki pozwolą nam zi-
dentyfikować źródła statystycznie istotnej interakcji między zmiennymi nie-
zależnymi.

CO TO ZNACZY, ŻE ZMIENNE NIEZALEŻNE DZIAŁAJĄ W INTERAKCJI NA ZMIENNĄ ZALEŻNĄ,


CZYLI JESZCZE RAZ O PISANIU LISTU SPRZECZNEGO
Z WŁASNYM PRZEKONANIEM

Interakcję zdefiniowaliśmy jako łączny wpływ dwóch lub więcej zmiennych


niezależnych na zmienną zależną. Wykorzystamy to pojęcie w odniesieniu
* Linder, D. E., Cooper, J.,
Jones, E. E. (1967). Decision
do opisanego na początku tego rozdziału eksperymentu, w którym osoby ba-
freedom as a determinant of the dane proszono o to, aby napisały list popierający zakaz publicznego prze-
role of incentive magnitude in mawiania na uczelni*. Rezultatem tego badania było stwierdzenie, że na
attitude change. Journal of Per-
sonality and Social Psychology, zmianę postawy po napisaniu takiego listu nie ma wpływu ani wielkość na-
6, 245-254. grody, ani prawo do odmowy jego napisania. Autorzy eksperymentu jednak
TESTOWANIE HIPOTEZ DOTYCZĄCYCH ŚREDNICH 351

nie zakończyli na tym analizy zgromadzonych danych. Zmienną zależną w


eksperymencie była różnica między postawami przed napisaniem listu i po
jego napisaniu. Średnie różnice we wszystkich czterech badanych grupach są
przedstawione na rysunku 6.11 (tym razem są to już rzeczywiste, a nie zmy-
ślone przez nas, wyniki tego eksperymentu).

Rysunek 6.11. Wyniki w eks- 1,4


perymencie Lindera i współ- 1,25 Napisanie listu
pracowników (1967) ilustrują- 1,2 z prawem do odmowy
bez prawa do odmowy
ce interakcyjny wpływ wielko-
ści nagrody i możliwości od- 1,0
mowy na zmianę postawy
[STATISTICA] 0,8
Zmiana postawy

0,63
0,6

0,4

0,2

0,0 -0,05 -0,07

-0,2
$0,50 $2,50
Nagroda

Na rysunku 6.11 zaznaczaliśmy wartości liczbowe zmiany postawy (mierzo-


ne na skali od –1 do +1) we wszystkich czterech grupach osób badanych.
Powinniśmy też napisać – co czynimy teraz – że średnia zmiana postawy dla
wszystkich osób badanych wyniosła x ( c ) = 0,44 . Porównując średnie przed-
stawione na rysunku 6.11, możesz łatwo się zorientować, na czym polega in-
terakcja dwóch zmiennych.
Po pierwsze, jeżeli podzielimy badanych ze względu na prawo do odmowy
napisania listu, to się okaże, że średnie w dwóch grupach, które powstaną
z tego podziału, niewiele się różnią od średniej całkowitej. Średnia zmiana
postawy wśród wszystkich osób, które miały prawo do odmowy, wynosi:
1,25 + (−0,07)
x ( tak ) = = 0,59
2
a średnia zmiana postawy wśród wszystkich, którzy nie mieli prawa do od-
mowy, wynosi:
(−0,05) + 0,63)
x ( nie ) = = 0,29
2
Po podstawieniu wszystkich danych do wzoru na F okazało się, że zmien-
ność związana z różnicą pomiędzy tymi dwoma średnimi a średnią całkowitą
352 WNIOSKOWANIE STATYSTYCZNE

jest mniejsza niż zmienność wewnątrz grup badanych. W sumie nic dziwne-
go, bo średnia w grupie z prawem do odmowy różni się od średniej całkowi-
tej jedynie o 0,15 (0,59 – 0,44 = 0,15), czyli tyle samo, ile średnia w grupie
bez prawa do odmowy od średniej całkowitej (0,44 – 0,29 = 0,15). Oblicza-
jąc różnice przestawiliśmy średnie w taki sposób, aby w obu rachunkach
uzyskać wynik dodatni.
Po drugie, średnie obliczone dla dwóch grup badanych powstałych w wyni-
ku połączenia wszystkich, którzy mieli małą nagrodę, i wszystkich, którzy
mieli dużą nagrodę, także niewiele się różnią od średniej całkowitej:
1,25 + (−0,05)
x ($0,50) = = 0,6
2
0,63 + (−0,07)
x ($2,50) = = 0,28
2
Wreszcie, po trzecie, od średniej całkowitej znacznie różnią się średnie
w dwóch grupach powstałych w wyniku specyficznej kombinacji zmiennych
niezależnych. Osoby badane, które miały prawo do odmowy i dostawały ma-
łą nagrodę, oraz osoby, które nie miały takiego prawa, ale dostawały dużą
nagrodę, bardzo wyraźnie zmieniały swoją postawę (skala była do +1):
1,25 + 0,63
x ( tak i $0,50 + nie i $2,50 ) = = 0,94
2
Z kolei osoby badane, które miały prawo odmowy, ale dostały dużą nagrodę,
albo nie miały tego prawa i dostały małą nagrodę, postawy nie zmieniły:
− 0,07 + (−0,05)
x tak i $2,50 + nie i $0,50 ) = = −0,06
2
Zwróć uwagę również na to, że obie średnie powstałe z takiego połączenia
znacznie bardziej różnią się od siebie (a każda z nich – od średniej całkowi-
tej) niż średnie w dwóch poprzednio analizowanych zestawieniach.
Okazuje się, że chociaż na zmianę postawy nie miało wpływu to, czy ktoś
dostawał dużą nagrodę, czy małą, ani to, czy ktoś mógł odmówić napisania
listu, czy też nie, to jednak wpływ na zmienną zależną miała specyficzna
kombinacja obu tych cech.
Zgodnie z przewidywaniami wynikającymi z teorii dysonansu poznawczego,
postawę powinni zmienić ci, którzy nie mogą przypisać przyczyny napisania
listu na temat sprzeczny z ich poglądem czynnikom niezależnym od nich
samych. Jeżeli ktoś mógł odmówić, ale tego nie zrobił, i po napisaniu listu
dostał w dodatku mało pieniędzy, to nic dziwnego, że dla ratowania dobrego
obrazu samego siebie musiał uznać, że jednak zgadza się z treścią listu.
TESTOWANIE HIPOTEZ DOTYCZĄCYCH ŚREDNICH 353

W przeciwnym razie dlaczego napisał ten list, skoro mógł odmówić, a i tak
nic wielkiego za to nie dostał. Podobnie ci, którzy nie mieli prawa odmowy,
ale dostali więcej pieniędzy, „musieli” zmienić postawę, bo inaczej trzeba by
było przyznać się przed samym sobą, że napisało się list po prostu dla pie-
niędzy, co zbyt jawnie mogłoby sugerować, że jest się osobnikiem szczegól-
nie pazernym na parę centów.
Linie na rysunku 6.11 krzyżują się, co jest wizualną wskazówką tego, że
mamy do czynienia z interakcją (o ile oczywiście odpowiednia wartość sta-
tystyki F jest istotna). Ujawnioną interakcję można opisać mniej więcej tak:
„Jeżeli osoba badana ma prawo do odmowy, to bardziej będzie skłonna do
zmiany postawy wtedy, gdy dostanie małą nagrodę, a mniej skłonna wtedy,
gdy nagroda będzie duża. Jeżeli jednak osoba badana nie ma prawa do od-
mowy, to będzie bardziej skłonna do zmiany postawy wtedy, gdy nagroda
będzie duża, a mniej skłonna wtedy, gdy nagroda będzie mała”.

GARŚĆ OGÓLNIKÓW NA TEMAT ANALIZY WARIANCJI DLA WIĘCEJ


NIŻ DWÓCH ZMIENNYCH NIEZALEŻNYCH

Gdy wzrasta liczba zmiennych niezależnych i poziomów każdej z nich, bar-


dzo się komplikują formuły obliczeniowe analizy wariancji. Na szczęście,
w dobie komputerów nie musisz sam wykonywać takich obliczeń, logika zaś
analizy wariancji zawsze jest taka sama.
• W każdym przypadku analizy wariancji jako hipotezę zerową przyjmu-
jemy założenie, że nie ma istotnych różnic pomiędzy wariancjami po-
chodzącymi z różnych kontrolowanych źródeł a wariancją wewnątrz ba-
danych grup. W przypadku analizy dwuczynnikowej założenie to musi-
my niejako rozbić na trzy części – zarówno żadna zmienna, jak i ich in-
terakcja nie wpływają na wartości zmiennej zależnej.
• Zawsze obliczamy sumy kwadratów dla każdego rodzaju zmienności
i dzielimy je przez liczbę stopni swobody dla tego rodzaju zmienności.
Do oceny wpływu każdego czynnika eksperymentalnego na zmienną za-
leżną obliczamy wartość testu F, będącą ilorazem wariancji, jaką po-
woduje ten czynnik, oraz wariancji spowodowanej czynnikami, które
w eksperymencie nie są kontrolowane. Zwróć uwagę na stojącą za tym,
ciągle tę samą intuicję Fishera. Jeżeli dany czynnik nie ma wpływu na
wynik, to zmienność spowodowana tym czynnikiem nie powinna istot-
nie się różnić od zmienności przypadkowej.
Ten sam pomysł dotyczy każdego rodzaju analizy wariancji, niezależnie od
tego, jak bardzo jest skomplikowana. Weźmy pod uwagę np. 7-czynnikową
analizę wariancji. Choć z całą pewnością nie będziemy wykonywać obliczeń
354 WNIOSKOWANIE STATYSTYCZNE

na kalkulatorze, to przecież jesteśmy w stanie zdefiniować wszystkie źródła


zmienności.
Najbardziej oczywiste źródło zmienności to wpływ każdego z czynników
oddzielnie, czyli każdej z siedmiu zmiennych niezależnych. Z reguły nie ob-
licza się już interakcji pomiędzy tymi czynnikami, ponieważ przy tej ilości
bardzo trudno jest je zinterpretować. Spróbujmy jednak określić przynaj-
mniej, jakie są możliwości.
Po pierwsze: każde dwa czynniki mogą współdziałać ze sobą i takich par
będzie 21. Dalej, każde trzy czynniki mogą być we wzajemnej interakcji
i takich trójek będzie już 35 itd., aż do interakcji siedmiu czynników. Ile to
razem daje źródeł zmienności? –127. No i jak tu liczyć sumy kwadratów,
stopnie swobody i wariancje dla wszystkich tych czynników bez pomocy
komputera?
I jeszcze jedna uwaga. Oprócz wielu zalet, stosowanie analiz wieloczynni-
kowych bywa często kłopotliwe ze względu na konieczność znalezienia du-
żej liczby osób, które mogłyby wziąć udział w eksperymencie.
Na przykład w dwuczynnikowym układzie 2 × 2 należy dokonać pomiaru
zmiennej zależnej w czterech grupach. Jeśli chcemy mieć w grupie po 20
osób, to w takiej sytuacji potrzebujemy do badań 80 osób. Dołożenie trzeciej
zmiennej o dwóch poziomach sprawia, że liczba grup badanych wzrasta do
ośmiu, czyli liczba osób badanych podwaja się do 160.
Jednym ze sposobów uniknięcia tej niedogodności jest kilkakrotne badanie
tych samych osób. Można np. zbadać cztery grupy (układ 2 × 2) w jakiejś
sytuacji A, a potem jeszcze raz te same grupy zbadać w sytuacji B. Ten ro-
dzaj eksperymentu nazywa się układem z powtarzanymi pomiarami i wśród
licznych wariantów analizy wariancji znajdziesz również takie, które możesz
zastosować w tej sytuacji. To jest tak samo, jak z testem t dla danych nieza-
leżnych i dla danych zależnych, czyli właśnie z powtarzanym pomiarem.

CZY KILKA CUKIERKÓW TO WYSOKI KOSZT ZACHOWAŃ EKONOMICZNYCH DZIECI?

Omówimy teraz dwa przykłady eksperymentów, w których zastosowano


3-czynnikowe analizy wariancji. Pierwszy z nich dotyczy kształtowania się
zachowań ekonomicznych u małych dzieci.
* Gregan-Paxton, J., Roedder Analiza wariancji zastosowana w tych badaniach, miała układ 2 × 2 × 2, co
John, D. (1995). Are young oznacza, że każda z trzech zmiennych niezależnych głównych przyjmowała
children adaptive decision mak-
ers? A study of age differences po dwa poziomy.
in information search behavior.
Journal of Consumer Research, Eksperyment został przeprowadzony przez Jennifer Gregan-Paxton i Deborę
21, 567-580. Roedder John*. Wzięło w nim udział sześćdziesięcioro troje dzieci. Podsta-
TESTOWANIE HIPOTEZ DOTYCZĄCYCH ŚREDNICH 355

wowym kryterium ich podziału na grupy był wiek: trzydzieścioro dzieci


miało 4 lub 5 lat, a trzydzieścioro troje – 6 lub 7. Tę zmienną niezależną na-
zwano „Wiek”, a dwa jej poziomy: „4-5” i „6-7”.
W psychologii rozwojowej, a zwłaszcza gdy badamy małe dzieci, ekspery-
menty często przypominają gry z nagrodami. Tak też było i w tym przypad-
ku. Każdemu dziecku pokazano dwa kartonowe domki. Domki miały po
cztery okna zakryte papierowymi zasłonkami. Za każdą zasłonką znajdowała
się nagroda. Dzieci mogły po kolei odkrywać zasłonki w obu domkach, aby
się dowiedzieć, jakie są tam nagrody. Miały tylko zdecydować, z którego
domku chcą otrzymać nagrody.
Część dzieci miała utrudnione zadanie. Na początku eksperymentu otrzyma-
ły trochę cukierków, ale za każdą odkrytą zasłonkę musiały tymi cukierkami
„płacić” eksperymentatorowi. Można powiedzieć, że koszt odkrywania za-
słonek przez te dzieci był wysoki, w odróżnieniu od pozostałych, które mo-
gły odkrywać zasłonki „za darmo”. Podział dzieci ze względu na koszt od-
krywania zasłonek to wynik obecności drugiej zmiennej niezależnej, nazwa-
nej „Koszt”. Zmienna ta przyjmuje dwie wartości: „wysoki” i „niski”.
Wszystkie dzieci brały udział w grze kilka razy. W połowie przypadków
mogły wybierać tylko między dwoma rodzajami nagród, ponieważ w pierw-
szym i drugim domku były po cztery identyczne nagrody (choć w każdym
domku inne). W drugiej połowie przypadków miały do wyboru dwa domki,
które w sumie zawierały osiem różnych nagród (w każdym były cztery róż-
ne). Rodzaj nagrody był więc trzecią zmienną niezależną, ale w odróżnieniu
od dwóch poprzednich – powtarzaną w obrębie tej samej grupy badanej. Na-
groda mogła być albo „niska” (to samo we wszystkich czterech oknach wy-
branego domku), albo „wysoka” (co innego w każdym oknie). Zwróć uwagę,
że zmienna „Nagroda” nie mogła być zmienną międzygrupową z powodów
etycznych, ponieważ część dzieci dostałaby lepsze nagrody, a druga część
musiałaby się zadowolić gorszymi.

WYNIKI EKSPERYMENTU „DZIECI I DOMKI”

Korzystając z nazw zmiennych niezależnych i ich poziomów, schemat, we-


dług którego przeprowadzono eksperyment, można określić jako: „Wiek”
(4-5 lub 6-7) × „Koszt” (wysoki lub niski) × „Nagroda” (wysoka lub niska).
Zmienną zależną w tym badaniu była liczba zasłonek odkrytych przez
dziecko. Średnie liczby odkrytych zasłonek w poszczególnych sytuacjach
ilustruje rysunek 6.12.
Z punktu widzenia teorii, którą weryfikowali autorzy eksperymentu, ważne
było to, aby interakcja wszystkich trzech czynników okazała się statystycz-
356 WNIOSKOWANIE STATYSTYCZNE

nie istotna. Jak wiesz, interakcję tę oblicza się, dzieląc wariancję dla takiej
interakcji przez wariancję wewnątrz badanych grup.
Rysunek 6.12. Wyniki w eks- 8
perymencie Gregan-Paxton i Wiek dzieci:
Roedder John (1995, s. 573) 4-5 lat
7 6-7 lat
[STATISTICA]

Liczba odkrytych zasłonek w oknach


6
6
5,33

5 4,87
4,53

4 3,75
3,59
3,33

3
2,31
2

1
wysoki koszt niski koszt wysoki koszt niski koszt
Niska nagroda Wysoka nagroda

Stosunek tych dwóch wariancji wyniósł F = 4,01. Z wariancją dla interakcji


związany był 1 stopień swobody, a z wariancją wewnątrzgrupową – 59 stop-
ni swobody. Wartość krytyczna F0,05(1,59) = 4,004. Ponieważ wynik testu
jest większy niż wartość kryterialna na poziomie α = 0,05, autorzy mieli
podstawę do odrzucenia hipotezy zerowej. Prawdopodobieństwo uzyskania
przypadkiem wartości F = 4,01 i wyższej jest mniejsze od 0,05.
Autorzy eksperymentu potwierdzili więc swoją hipotezę, że wraz z wiekiem
dzieci są bardziej świadome różnic w wartości otrzymywanych nagród oraz
potrafią odróżnić wysokie koszty zachowań ekonomicznych od niskich.

KRYMINAŁY NA KOLOROWYM PAPIERZE?

Drugi przykład zastosowania 3-czynnikowej analizy wariancji może Ci się


* Weller, L., Livingston, R. wydać trochę dziwny. Leonard Weller i Randy Livingston* postanowili
(1988). Effect of color of ques- sprawdzić, jaki wpływ na odpowiedzi w eksperymencie psychologicznym
tionnaire on emotional res-
ponses. Journal of General Psy- ma kolor papieru, na którym został wydrukowany kwestionariusz.
chology, 115, 433-441.
Grupie studentów socjologii na Uniwersytecie w Utah przedstawiono opis
brutalnego morderstwa.
Młoda kobieta została zabita nożem na schodach własnego domu. Nikt z są-
siadów jej nie pomógł. Nikt też nie wezwał policji, choć wiele osób widziało
przez okna swoich domów, co się dzieje. Po zapoznaniu się z opisem, stu-
denci odpowiadali na pytania dotyczące tego zdarzenia. W kwestionariuszu
znalazły się również pytania na temat emocjonalnej reakcji studentów, np.
TESTOWANIE HIPOTEZ DOTYCZĄCYCH ŚREDNICH 357

„Czy opis tego wydarzenia wzbudził w tobie emocje?”, „Czy odczuwałeś


gniew?”.
Uczestnicy eksperymentu zostali podzieleni na dwie grupy.
Studentom z pierwszej grupy przedstawiono informację, że morderca został
skazany przez ławę przysięgłych, a studentom z drugiej grupy, że morderca
został uniewinniony. Mamy więc pierwszą zmienną niezależną w tym ekspe-
rymencie, którą nazwano „Wyrok”. Była to zmienna nominalna o dwóch
wartościach: „winny” oraz „niewinny”.
Każda z tych grup została losowo podzielona na dalsze trzy podgrupy. Oso-
bom badanym w każdej z nich postawiono pytania dotyczące oceny opisa-
nych zdarzeń na papierze innego koloru: różowym, niebieskim lub białym.
Drugą zmienną niezależną w tym eksperymencie był więc „Kolor” – zmien-
na ta przyjmowała trzy wartości: „różowy”, „niebieski” i „biały”.
Trzecią zmienną, którą wzięto pod uwagę do analizy statystycznej, była płeć
osoby wypełniającej kwestionariusz. Bez naszej podpowiedzi chyba wiesz,
jakie wartości zwykle przyjmuje zmienna „Płeć”.
W sumie więc schemat badawczy można przedstawić jako: 2 (Wyrok) × 3
(Kolor) × 2 (Płeć).
Obliczono 3-czynnikową analizę wariancji i okazało się, że istotny wpływ na
zróżnicowanie odpowiedzi w kwestionariuszu miały dwie zmienne: „Wy-
rok” i „Kolor”. Osoby, które poinformowano, że napastnik został skazany,
stwierdzały, że były silniej pobudzone emocjonalnie (średnia suma punktów
w tej grupie wyniosła 47,76 na skali ocen od 8 do 56 punktów) niż osoby,
którym przedstawiono napastnika jako osobę niewinną (średnia ocena
41,28). Testu F dla zmiennej „Wyrok” wyniósł F(1,219) = 46,99; p<0,001.
Również kolor papieru, na którym wydrukowano kwestionariusz, miał istot-
ny wpływ na emocjonalne ustosunkowanie się osób badanych do opisanego
zabójstwa (F(2,218) = 3,76; p<0,05). Średnia liczba punktów dla kwestiona-
riuszy wydrukowanych na kartkach różowych wynosiła 43,19, a na kartkach
niebieskich – 45,85.
Stosunek emocjonalny osób odpowiadających na kartkach białych był mi-
nimalnie wyższy od „najchłodniejszych” kartek różowych (średnia liczba
punktów – 43,95).
Podsumujmy – badani, którzy odpowiadali na pytania wydrukowane na
kartkach koloru różowego, byli mniej przejęci opisywanym wydarzeniem
niż ci, którzy odpowiadali na te same pytania, ale wydrukowane na kartkach
koloru niebieskiego (zob. rys. 6.13).
358 WNIOSKOWANIE STATYSTYCZNE

Rysunek 6.13. Średni poziom 50


pobudzenia emocjonalnego
związany z zapoznaniem się 48
z opisem morderstwa w eks-
perymencie Wellera i Living- 45,85
stona (1988) w zależności od 46

Stosunek emocjonalny
koloru kwestionariusza
43,95
[STATISTICA] 44 43,19

42

40

38

36
różowy niebieski biały
Kolor papieru, na którym wydrukowano kwestionariusz

Płeć okazała się czynnikiem, który nie wpłynął istotnie na emocjonalne re-
akcje osób badanych (F(1, 219) = 1,69; p = 0,20). Nie wystąpiła też żadna
interakcja pomiędzy zmiennymi niezależnymi w tym eksperymencie.

OMNIBUSOWY TEST F

W eksperymencie Wellera i Livingstona okazało się, że na stosunek emocjo-


nalny do opisanego przypadku ma wpływ zarówno werdykt sądu, jak i kolor
papieru, na którym został wydrukowany kwestionariusz.
Z interpretacją pierwszego wyniku łatwo sobie poradzić. Skoro badani byli
bardziej poruszeni informacją, iż mężczyzna oskarżony o morderstwo okazał
się winny zarzucanego mu czynu, niż wiadomością, że został uniewinniony,
to znaczy, że przekonanie o winie powoduje większe zaangażowanie emo-
cjonalne niż informacja o uniewinnieniu. Zmienna „Wyrok” w tym badaniu
przyjmowała tylko dwie wartości: „winny”, której towarzyszyła wyższa
średnia na skali zaangażowania emocjonalnego, i „niewinny” – o niższej
średniej.
Sytuacja jest nieco bardziej skomplikowana wtedy, gdy jakaś zmienna nieza-
leżna dzieli osoby badane na więcej niż dwie grupy. Tak było w przypadku
koloru papieru, na którym wydrukowano kwestionariusze. Wiemy, że kolor
papieru miał wpływ na stosunek emocjonalny badanych do ocenianej sprawy
(wartość testu F jest istotna). Wiemy również, że osoby udzielające odpo-
wiedzi na kartkach różowych były najmniej zaangażowane. Tak naprawdę
* Furr, R. M., Rosenthal, R. jednak nie wiemy, która z widocznych na wykresie 6.13 różnic miała naj-
(2003). Repeated-Measures większy wpływ na wynik testu F. Z tego też powodu Mike Furr i Robert Ro-
Contrasts for “Multiple-Pattern”
Hypotheses. Psychological Met- senthal* zaliczają test F, wykorzystywany w analizie wariancji, do tzw.
hods, 8, 275-293. testów „omnibusowych”, czyli sprawdzających wszystko na raz. Gdyby
TESTOWANIE HIPOTEZ DOTYCZĄCYCH ŚREDNICH 359

Weller i Livingston wydrukowali swoje kwestionariusze na papierach o


dwudziestu trzech kolorach tęczy i wynik testu F także był statystycznie
istotny, wówczas dowiedzieliby się, że kolor papieru ma jakiś wpływ na za-
angażowanie emocjonalne badanych i tyle.
Istotny wynik w teście F pozwala na przyjęcie hipotezy alternatywnej, zgod-
nie z którą zmienność zależna (w tym przypadku reakcje emocjonalne) spo-
wodowana obecnością zmiennej niezależnej (kolory papieru) jest większa
niż zmienność wewnątrz badanych grup, na którą badacz nie miał żadnego
wpływu. I w zasadzie to wszystko, co wiemy po zastosowaniu testu F.
Jest jeszcze jedna bardzo ważna kwestia. Z wykresu na rys. 6.13 widać, że
średnie poziomy zaangażowania emocjonalnego osób odpowiadających na
R. Michael Furr
pytania kwestionariuszy wydrukowanych na różnokolorowych papierach
w zasadzie niewiele się od siebie różnią. Skoro jednak wartość testu F jest
istotna, to znaczy, że wpływ koloru papieru jest znacznie większy niż wpływ
innych, niekontrolowanych w tym badaniu, czynników. Mówiliśmy już na
ten temat przy okazji omawiania testu t Studenta.
Czym innym bowiem jest statystyczna istotność, a czym innym siła wpływu
zmiennej niezależnej na zmienną zależną, czyli wielkość efektu. Zmien-
na niezależna może istotnie wpływać na zmienną zależną, choć wpływ ten
może być stosunkowo niewielki. Wygląda na to, że tak może być w przy-
padku analizowanego eksperymentu. Wprawdzie kolor kwestionariusza ma
wpływ na pobudzenie emocjonalne, ale zmiany pobudzenia wywołane zasto-
sowaniem takiego, a nie innego koloru są w gruncie rzeczy niewielkie. Za-
nim jednak zajmiemy się tym, jak obliczyć siłę wpływu jakiejś zmiennej
niezależnej na zmienną zależną w analizie wariancji, najpierw spróbujemy
Robert Rosenthal
odpowiedzieć na pytanie, czy różowy kolor rzeczywiście powoduje mniejsze
zaangażowanie emocjonalne niż pozostałe dwa kolory.

NA CZYM POLEGA RÓŻNICA MIĘDZY HIPOTEZAMI A PRIORI I POST HOC?

Z analizą wariancji są związane dwie analizy, które nazywa się porówna-


niami a priori i porównaniami post hoc.
* Zob. Kopaliński, W. (1989). Zgodnie z definicją słownikową* wyrażenie a priori oznacza „przed do-
Słownik wyrazów obcych i zwro- świadczeniem”, a post hoc – „po czymś”. W analizie wariancji określenia te
tów obcojęzycznych. Warszawa:
PWN. odnoszą się do czasu, w którym badacz postawił hipotezy dotyczące wyni-
ków swojego eksperymentu.
Porównania a priori, zwane też porównaniami zaplanowanymi lub kon-
trastami, odnoszą się do szczegółowych hipotez, które postawiliśmy przed
badaniami. Z kolei porównania post hoc dotyczą związków, których istnie-
nia w zasadzie nie przewidywaliśmy przez badaniami, ale po przeprowadze-
360 WNIOSKOWANIE STATYSTYCZNE

niu analizy wariancji uznaliśmy, że warto im się przyjrzeć nieco dokładniej.


Być może, dzięki temu ujawnią się jakieś nowe, interesujące tendencje.
Różnice między obydwoma strategiami badawczymi wyjaśnimy na przykła-
dzie kwestionariuszy oceny morderstwa, wydrukowanych na różnokoloro-
wych kartkach.
Gdybyśmy na podstawie drobiazgowego przeglądu literatury fachowej, po
konsultacjach ze specjalistami, brainstormingach i seminariach, które prze-
prowadziliśmy jeszcze przed badaniami, doszli do wniosku, że różowe kwe-
stionariusze powinny wpłynąć uspokajająco na uczestników badania, a co za
tym idzie, ich oceny emocjonalne wyrażane na kwestionariuszach tego kolo-
ru powinny być niższe niż oceny na kwestionariuszach w innych kolorach,
np. białych i niebieskich, postawilibyśmy wtedy dwie hipotezy a priori, któ-
re można zapisać za pomocą symboli w następujący sposób:
H1: x ( R ) < x ( B )

H2: x ( R ) < x ( N )
średni poziom zaangażowania emocjonalnego osób, które odpowiadały na pytania kwestio-
x( R)
nariusza wydrukowanego na różowym papierze,
średni poziom zaangażowania emocjonalnego osób, które odpowiadały na pytania kwestio-
x( B)
nariusza wydrukowanego na białym papierze,
średni poziom zaangażowania emocjonalnego osób, które odpowiadały na pytania kwestio-
x(N )
nariusza wydrukowanego na niebieskim papierze.

Dokładnie takie same dwie hipotezy możemy sformułować już po przepro-


wadzeniu analizy wariancji, chociaż nie będą one miały takiego uzasadnie-
nia teoretycznego, jak hipotezy a priori. Będą one się nazywały hipotezami
post hoc.
A zatem zarówno hipotezy a priori, jak i post hoc dotyczą szczegółowych
relacji między średnimi w badanych grupach i choć mogą brzmieć tak samo,
to jednak czas, w którym zostały postawione, wpływa na to, w jaki sposób
się je weryfikuje oraz jakie są konsekwencje ich przyjęcia.
W przypadku hipotez a priori rozumowanie badacza jest następujące:
• Spodziewam się, że oceny na kwestionariuszach różowych będą niższe
niż oceny na kwestionariuszach wydrukowanych na popierze w innym
kolorze.
• Ponieważ zamierzam zweryfikować tę hipotezę, projektuję więc ekspe-
ryment, w którym jedną ze zmiennych jest kolor kwestionariusza.
Zmienna ta przyjmuje trzy wartości. Jedną z nich jest kolor różowy,
a pozostałe dwie (np. biały i niebieski) traktuję jako kontrolne.
TESTOWANIE HIPOTEZ DOTYCZĄCYCH ŚREDNICH 361

• Przeprowadzam eksperyment. Wartość testu F okazuje się istotna, co


oznacza, że kolor kwestionariusza faktycznie wpływa na zaangażowanie
emocjonalne badanych.
• Za pomocą analizy kontrastów sprawdzam, czy potwierdziło się moje
przypuszczenie dotyczące niższych ocen w kwestionariuszach wydru-
kowanych na różowym papierze, w porównaniu z dwoma pozostałymi.
• Okazuje się, że kolor różowy rzeczywiście powoduje niższe oceny emo-
cjonalne niż biały i niebieski. Hipoteza się potwierdziła i mam powody
do zadowolenia.
Wspomniani już statystycy, Mike Furr i Robert Rosenthal, zwracają uwagę
na to, że istotna statystycznie wartość testu F, którą przewiduje badacz wery-
fikujący hipotezę a priori, może się okazać dla niego zupełnie nieużyteczna,
jeśli liczba poziomów testowanej przez niego zmiennej niezależnej będzie
większa niż dwa. Hipoteza, jaką zamierzał zweryfikować, dotyczy relacji
między kolorem różowym a pozostałymi dwoma, natomiast istotny wynik
testu F potwierdza hipotezę bardziej ogólną. Wynik ten oznacza, że kolor
kwestionariusza ma wpływ na oceny emocjonalne, ale bynajmniej nie ozna-
cza, że kolor różowy działa bardziej uspokajająco niż biały czy niebieski. Co
więcej, nawet gdyby wartość testu F okazała się nieistotna, to i tak nie po-
winno to powstrzymać badacza od weryfikowania hipotez postawionych
przed eksperymentem. Różnice między wszystkimi średnimi (czyli zmien-
ność w zakresie czynnika „Kolor”) mogą być po prostu zbyt małe, aby wa-
riancja międzygrupowa okazała się istotnie większa od wariancji wewnątrz-
grupowej. Wynik ten jednak nie przesądza jeszcze, czy kolor różowy, skon-
trastowany z białym i niebieskim, nie zadziała bardziej uspokajająco niż te
dwa pozostałe.
Choć hipotezy post hoc również dotyczą relacji pomiędzy szczegółowymi
średnimi, to jednak czas, kiedy są formułowane, a także znaczenie w proce-
sie wnioskowania w analizie wariancji są zupełnie inne niż w przypadku hi-
potez a priori. Badacz weryfikujący hipotezy post hoc ma „w głowie” mniej
więcej coś takiego:
• Sądzę, że kolor papieru, na jakim wydrukowany jest kwestionariusz
oceny emocjonalnej zabójstwa, ma wpływ na odpowiedzi badanych.
• Ponieważ zamierzam zweryfikować tę hipotezę, więc projektuję eks-
peryment, w którym jedną ze zmiennych jest kolor kwestionariusza.
Zmienna ta przyjmuje trzy wartości: „różowy”, „biały” i „niebieski”.
Dobieram te kolory intuicyjnie, na podstawie wiedzy z psychologii.
• Przeprowadzam eksperyment. Wartość testu F okazuje się istotna, co
oznacza, że kolor kwestionariusza faktycznie wpływa na zaangażowanie
emocjonalne badanych.
362 WNIOSKOWANIE STATYSTYCZNE

• Hipoteza się potwierdziła i mam powody, by czuć się usatysfakcjono-


wany, ale...
• …spoglądam na wykres średnich i widzę, że oceny w grupach korzysta-
jących z kwestionariuszy różowych są niższe niż oceny w grupach,
w których rozdałem kwestionariusze niebieskie i białe. Myślę sobie: „to
ciekawe, czyżby odpowiedzi na kartkach w kolorze różowym istotnie się
różniły od odpowiedzi na kartkach w pozostałych dwóch kolorach?”.
• Przeprowadzam serię testów post hoc, aby stwierdzić, czy rzeczywiście
oceny na kartkach różowych są istotnie niższe od dwóch pozostałych.
Jest wiele podobieństw między sposobem myślenia badacza, który stawia
hipotezy a priori, i badacza weryfikującego hipotezy post hoc. Jednym
z nich jest to, że obaj mają prawo do odrobiny satysfakcji z przeprowadzenia
eksperymentu, w którym coś wyszło. Różnica między nimi polega jednak na
tym, że to, co cieszy jednego, nie musi satysfakcjonować drugiego.
• Kiedy więc formułujesz szczegółowe przewidywania dotyczące relacji
pomiędzy wynikami w poszczególnych badanych grupach, Twoja radość
będzie uzasadniona dopiero wtedy, gdy potwierdzą się hipotezy a priori.
I nie jest przesadnie dla Ciebie ważne to, czy analiza statystyczna ujawni
wpływ całego kontrolowanego przez Ciebie czynnika na zmienną zależ-
ną, czy nie ujawni. Twoje hipotezy dotyczyły wpływu szczegółowego,
a nie odpowiedzi na pytanie, czy taki wpływ w ogóle istnieje.
• Gdy stawiasz hipotezę ogólną, że wariancja wywołana istnieniem pew-
nego czynnika jest większa niż niekontrolowana wariancja wewnątrz
badanych grup, masz prawo do zadowolenia wtedy, gdy wartość testu F
jest istotna. Twoja hipoteza głosiła, że jakiś wpływ w ogóle istnieje, i tak
też wyszło. Możesz oczywiście sprawdzać różne hipotezy post hoc, ale
to, co z tego wyniknie, będzie jedynie dodatkiem do Twojej głównej te-
zy o tym, że czynnik, który kontrolowałeś, wpływa na zmienną zależną.

SPOSOBY WERYFIKACJI HIPOTEZ POST HOC, CZYLI DLACZEGO, PORÓWNUJĄC DWIE ŚREDNIE,
MUSIMY BRAĆ POD UWAGĘ TAKŻE WSZYSTKIE INNE

Zróbmy prosty eksperyment myślowy. W zielonej skrzyni znajdują się trzy


karteczki, na których ktoś napisał następujące liczby:
{43,19; 45,85; 43,95}
Sięgasz ręką do skrzyni i wyjmujesz dwie karteczki. Tak się złożyło, że wy-
jąłeś te, na których jest zapisana najmniejsza i największa liczba z tego zbio-
ru, czyli 43,19 i 45,85. Różnica między nimi to 2,66 (45,85 – 43,19 = 2,66).
TESTOWANIE HIPOTEZ DOTYCZĄCYCH ŚREDNICH 363

Obok skrzyni zielonej stoi nieco większa, czarna. Na jej dnie leży sześć kar-
teczek z następującymi liczbami:
{43,19; 45,85; 43,95; 49,22; 44,65; 41,56}
Znowu wyjmujesz dwie, a ponieważ masz dzisiaj farta, znowu wylosowałeś
te, na których zapisano najmniejszą i największą wartość, czyli 41,56
i 49,22. Różnica między nimi wynosi 7,66 (49,22 – 41,56 = 7,66) i – jak wi-
dać – jest większa niż poprzednia.
Chyba jesteś już trochę zmęczony, jeśli nie zauważyłeś, że liczby, które
znajdowały się w zielonej skrzyni, to zapisane jedna po drugiej średnie oce-
ny stosunku emocjonalnego wobec zabójstwa, wyrażone w odpowiedziach
na pytania kwestionariuszy wydrukowanych na papierze różowym, niebie-
skim i białym. Do czarnej skrzyni, oprócz liczb, które znajdowały się rów-
nież w zielonej, ktoś wrzucił jeszcze trzy karteczki z liczbami losowo wyge-
nerowanymi z przedziału 40-50. W tym właśnie przedziale znajdowały się
średnie ocen zabójstwa w eksperymencie Wellera i Livingstona.
Tak czy inaczej, mamy dwie sytuacje. W pierwszej losowaliśmy dwie spo-
śród trzech liczb i w rezultacie mogliśmy otrzymać jedną z trzech różnic,
między pierwszą i drugą, pierwszą i trzecią oraz drugą i trzecią liczbą.
W drugiej sytuacji także losowaliśmy dwie liczby, ale już spośród sześciu,
co oznacza, że mogliśmy otrzymać jedną spośród piętnastu różnic między
nimi. Zarówno w jednej, jak i w drugiej sytuacji mogliśmy wylosować takie
dwie liczby, że różnica między nimi wyniosłaby np. 2,66. Prawdopodobień-
stwo jednak przypadkowego wylosowania takich dwóch liczb w pierwszej
sytuacji jest znacznie większe niż w drugiej. Innymi słowy, w drugiej sytu-
acji prawdopodobieństwo przypadkowego uzyskania różnicy równej 2,66
jest mniejsze niż w pierwszej.
W pewnym sensie weryfikacja hipotez post hoc jest właśnie próbą odpowie-
dzi na pytanie, czy różnica między dwiema empirycznie ustalonymi średni-
mi jest przypadkowa, czy nie. Zauważ, że zawsze, gdy w parach porównu-
jesz ze sobą liczby „każda z każdą”, w jednej z tych par porównasz także
liczbę najmniejszą z największą. Różnica między skrajnymi liczbami wyję-
tymi z czarnej skrzyni, w której znalazły się przecież trzy zupełnie przypad-
kowe liczby, jest znacznie większa niż różnica między wartością minimalną
i maksymalną w zbiorze ocen emocjonalnych zabójstwa uzyskanych w eks-
perymencie.
Mogłoby to nam zasugerować, że skoro różnica między wylosowanymi licz-
bami jest większa, to prawdopodobieństwo odrzucenia hipotezy zerowej w
drugiej sytuacji także jest większe. Nic bardziej mylnego.
Wszystkie procedury służące do porównań post hoc uwzględniają nie tylko
to, jaka jest różnica pomiędzy konkretną parą średnich, lecz także to, z jak
364 WNIOSKOWANIE STATYSTYCZNE

dużego zbioru pochodzą dwie porównywane średnie. Im większy jest taki


zbiór (tzn. im większa jest liczba poziomów zmiennej niezależnej), tym
większa jest szansa, że różnica pomiędzy średnią największą i najmniejszą,
choć duża, może się okazać całkiem przypadkowa.
Różnica między testowaniem hipotez dotyczących średnich sformułowanych
przed przeprowadzeniem eksperymentu, czyli hipotez a priori, a testowa-
niem hipotez sformułowanych po przeprowadzeniu eksperymentu, czyli post
hoc, sprowadza się do innego sposobu obliczania błędu odrzucenia praw-
dziwej hipotezy zerowej, czyli błędu I rodzaju.
Porównując dwie średnie – o których wcześniej sądziłeś, że powinny się
istotnie różnić – odrzucisz hipotezę zerową wtedy, gdy prawdopodobieństwo
jej uzyskania przypadkiem będzie mniejsze niż 0,05. Mówimy wtedy, że
prawdopodobieństwo błędu przy porównaniu średnich powinno być mniej-
sze niż poziom α.
Amerykański statystyk, John Wilder Tukey, zwrócił uwagę na to, że inaczej
należy obliczać prawdopodobieństwo błędu I rodzaju, porównując dwie
średnie wtedy, gdy znamy wynik eksperymentu, a inaczej, gdy go nie zna-
my. Pierwszą procedurę Tukey nazwał oceną błędu po poznaniu wyniku
(experiment-wise error rate), drugą zaś określił jako ocenę błędu przed po-
znaniem wyniku, czyli przez porównanie (per-comparison error rate). Na
John Wilder Tukey początek zajmijmy się oceną błędu po poznaniu wyniku, korzystając z jed-
(1915-2000) nego z najpopularniejszych testów porównań post hoc, czyli testu Tukeya.

TEST UCZCIWIE ISTOTNEJ RÓŻNICY TUKEYA

Angielską nazwę testu Tukeya – Honestly Significant Difference Test,


* Michał Zagrodzki, który prze- w skrócie HSD – przetłumaczyliśmy jako „test uczciwie istotnej różnicy”*.
tłumaczył podręcznik do staty- Trochę inaczej liczy się go wtedy, gdy porównywane grupy są równoliczne,
styki Fergusona i Takane (1997),
przełożył tę nazwę jako „test a inaczej, gdy nie są równoliczne. Ponieważ najprawdopodobniej do jego
uczciwej istotnej różnicy”, ale obliczenia i tak posłużysz się komputerem, tutaj poprzestaniemy tylko na
naszym zdaniem, po polsku
brzmi to niezręcznie.
przedstawieniu głównej intuicji leżącej u podstaw tego testu. Najprościej
wyjaśnić ją na przykładzie jednoczynnikowej analizy wariancji dla grup
równolicznych.
** Treść tego pytania pochodzi z Wróćmy do pomysłu z kolorami kwestionariuszy. Przypuśćmy, że sam prze-
Polskiego Generalnego Sondażu prowadziłeś podobne badanie, ale wziąłeś pod uwagę nie trzy, jak w ekspe-
Społecznego (Cichomski, Je-
rzyński, Zieliński, 2003). Przy
rymencie Wellera i Livingstona, ale tylko jeden czynnik, czyli właśnie kolor
okazji warto napisać, że w roku papieru. W badaniu wykorzystałeś kartki w czterech kolorach: białym, ró-
2002 aż 72% Polaków uważało żowym, niebieskim i żółtym. Na każdym arkuszy napisałeś tylko jedno py-
się za raczej szczęśliwych, bar-
dzo szczęśliwych lub całkowicie tanie: „Jeśli bierzesz pod uwagę całe swoje życie, to w jakim stopniu czujesz
szczęśliwych. się szczęśliwy?”**.
TESTOWANIE HIPOTEZ DOTYCZĄCYCH ŚREDNICH 365

Zmienną zależną w tym badaniu byłaby więc ogólna satysfakcja z życia,


oceniana np. na skali od 1 do 7.
Załóżmy, że po obliczeniu testu F okazało się, że kolor papieru ma wpływ
na ocenę poczucia szczęścia. Chciałbyś więc sprawdzić, czy i w tym przy-
padku oceny na papierze koloru różowego istotnie różnią się od ocen na ar-
kuszach w innych kolorach. W tabeli 6.19 zamieściliśmy prawdopodobne
wyniki Twojej analizy wariancji.

Tabela 6.19. Wyniki jedno- Średni kwadrat,


czynnikowej analizy wariancji Źródło zmienności Suma kwadratów df czyli wariancja F Istotność
dla zmiennej „ogólne poczu- wewnątrzgrupowa
cie szczęścia” przy różnych
kolorach kwestionariuszy Między grupami 48,550 3 16,183 9,999 0,001

Wewnątrz grup 123,000 76 1,618

Ogółem 171,550 79

Przyjęliśmy, że przebadałeś 80 osób, po 20 w każdej grupie, a co najważ-


niejsze – poszczególnym osobom przypisaliśmy wyniki w taki sposób, aby
oceny szczęścia na papierze różowym rzeczywiście były wyższe niż na po-
zostałych trzech. Relacje między średnimi w poszczególnych grupach ilu-
struje wykres 6.14.
Rysunek 6.14. Wykres śred- 6,0
nich ocen poczucia szczęścia ± Odchylenie standardowe
w zależności od koloru arku- 5,5
± Błąd standardowy
5,15
sza papieru, na którym zosta- Średnia
ło wydrukowane pytanie te-
stowe (dane fikcyjne) 5,0
[STATISTICA]
Poczucie szczęścia

4,5

4,0
3,45 3,55
3,5 3,15

3,0

2,5

2,0
biały różowy niebieski żółty
Kolor arkusza papieru
* Wzór podajemy za Jerzym
Brzezińskim i Ryszardem Sta-
chowskim (1984, Zastosowanie Teraz już możemy napisać wzór na obliczenie testu Tukeya*. Przypomina
analizy wariancji w eksperymen-
talnych badaniach psycholo- on nieco wzór na test t Studenta, który – jak pamiętasz – także służy do po-
gicznych. Warszawa: PWN). równywania dwóch średnich.
366 WNIOSKOWANIE STATYSTYCZNE

xi − x j
Q=
s w2
n

xi i x j średnie w porównywanych grupach i i j,

s w2 wariancja wewnątrzgrupowa, czyli tzw. średni kwadrat z tabeli 6.19,

n liczba obserwacji w porównywanych grupach*.


* Przedstawiana tu wersja testu
Tukeya dotyczy tylko grup rów- Porównajmy więc średnie oceny szczęścia na kwestionariuszach wydruko-
nolicznych, a zatem za n wystar- wanych na różowym papierze z ocenami na kwestionariuszach w pozosta-
czy wstawić liczebność jednej łych trzech kolorach. Na przykład porównanie danych dla koloru różowego
z grup. Istnieje także wersja te-
stu Tukeya dla grup nierówno- i białego daje następujący wynik:
licznych, ale nie będziemy jej tu-
taj omawiać. 5,15 − 3,45
Q= = 6,07
1,618
20
Czy Q = 6,07 oznacza istotną różnicę pomiędzy porównywanymi średnimi?
Żeby odpowiedzieć na to pytanie, musimy rzucić okiem na tablicę, zawiera-
jącą wartości krytyczne statystyki Tukeya dla dwóch parametrów: liczby
grup oraz liczby stopni swobody dla wariancji wewnątrzgrupowej.
Tablica jest zbyt rozbudowana, więc nie zamieszczamy jej w naszym prze-
wodniku. Ponadto jesteśmy niemal pewni, że do obliczenia tego testu sko-
rzystasz raczej z programu komputerowego, który poda ci dokładną infor-
mację o istotności statystyki Tukeya, a nie z ołówka i papieru.
Dla porządku podajemy, że wartość krytyczna testu Tukeya dla dwóch pa-
rametrów: k (liczba grup) = 4 oraz df (liczba stopni swobody) = 76 (por. ta-
bela 6.19), zakładając, że α = 0,05, wynosi 3,74. Ponieważ wartość otrzyma-
na Q = 6,07 jest większa niż wartość krytyczna Q0,05 = 3,74, możemy więc
odrzucić hipotezę zerową.
Ocena poczucia szczęścia w odpowiedzi na pytanie zapisane na różowym
papierze jest inna niż ocena poczucia szczęścia w odpowiedzi na to samo py-
tanie, ale zapisane na papierze białym. I na koniec jeszcze jedna uwaga: war-
tości krytyczne dla testu Tukeya wyznaczone są w taki sposób, że im wyższa
jest wariancja wewnątrzgrupowa i im więcej jest badanych grup, tym trud-
niej odrzucić hipotezę zerową.
Test Tukeya jest standardowo dostępny w pakietach do obliczeń statystycz-
nych. Wystarczy tylko wybrać odpowiednią opcję i mamy wynik, który mo-
że wyglądać mniej więcej tak, jak w tabeli 6.20.
TESTOWANIE HIPOTEZ DOTYCZĄCYCH ŚREDNICH 367

Tabela 6.20. Wyniki porównań Różnica 95% przedział ufności


wielokrotnych za pomocą testu Błąd stan-
(I) KOLOR (J) KOLOR średnich Istotność dolna górna
Tukeya dla ocen poczucia dardowy
(I-J) granica granica
szczęścia dokonanych na
kwestionariuszach
Różowy -1,70(*) 0,402 0,000 -2,76 -0,64
w czterech kolorach
[STATISTICA]
Biały Niebieski -0,10 0,402 0,995 -1,16 0,96

Żółty 0,30 0,402 0,878 -0,76 1,36

Biały 1,70(*) 0,402 0,000 0,64 2,76

Różowy Niebieski 1,60(*) 0,402 0,001 0,54 2,66

Żółty 2,00(*) 0,402 0,000 0,94 3,06

Biały 0,10 0,402 0,995 -0,96 1,16

Niebieski Różowy -1,60(*) 0,402 0,001 -2,66 -0,54

Żółty 0,40 0,402 0,753 -0,66 1,46

Biały -0,30 0,402 0,878 -1,36 0,76

Żółty Różowy -2,00(*) 0,402 0,000 -3,06 -0,94

Niebieski -0,40 0,402 0,753 -1,46 0,66

* Różnica średnich jest istotna na poziomie 0,05.

Tabela 6.20 prezentuje wyniki porównania wszystkich możliwych par. Jak


widać, odpowiedzi na pytanie wydrukowane na różowym papierze różnią się
od odpowiedzi na to samo pytanie wydrukowane na papierach w innych ko-
lorach. Różnice te są statystycznie istotne na poziomie mniejszym niż 0,001.
W tabeli podany jest także błąd standardowy dla tych różnic.
Ponieważ test Tukeya służy do porównywania średnich post hoc, nie może-
my więc interpretować jego wyniku w taki sam sposób, w jaki porównywa-
libyśmy różnice ocen na różnych papierach, np. za pomocą testu t.
Porównując średnie za pomocą testu t, sprawdzamy, czy można odrzucić hi-
potezę zerową wobec przyjętej uprzednio hipotezy alternatywnej dwustron-
nej (średnie oceny są różne) lub jednostronnej (oceny na papierze różowym
są wyższe lub niższe niż na innym papierze).
Z kolei wynik testu Tukeya może stanowić dla nas dodatkową informację
o zależnościach, których nie przewidywaliśmy przed przeprowadzeniem ba-
dania. Gdybyśmy jednak przewidywali takie zależności, wtedy zamiast testu
Tukeya moglibyśmy przeprowadzić tzw. porównanie zaplanowane. Zajmie-
my się tym zagadnieniem, gdy tylko opiszemy inne procedury służące do
porównań post hoc.
368 WNIOSKOWANIE STATYSTYCZNE

KONSERWATYWNY TEST SHEFFÉGO

Drugim – oprócz statystyki Tukeya – testem, który równie często jest stoso-
wany do porównań post hoc, jest test Sheffégo. Jak łatwo się domyślić, jego
nazwa pochodzi od nazwiska autora, czyli Henry’ego Sheffégo – amerykań-
skiego statystyka niemieckiego pochodzenia.
Choć oba testy, Sheffégo i Tukeya, stosuje się do porównań post hoc, to jed-
nak są między nimi pewne różnice. Pierwsza polega na tym, że test Sheffégo
pozwala na porównywanie średnich w grupach o różnej liczebności, test Tu-
keya zaś jest przeznaczony do porównań grup równolicznych.
Po drugie, test Sheffégo jest bardziej konserwatywny, tzn. trudniej za jego
pomocą odrzucić hipotezę zerową o równości porównywanych średnich.
Gdy wynik testu F w analizie wariancji jest nieistotny, wówczas przy zasto-
sowaniu metody Tukeya jest większa szansa na to, że któraś z różnic między
średnimi okaże się istotna, niż wtedy, gdy stosuje się test Sheffégo*.
Henry Sheffé
(1907-1977) Trzecia różnica między tymi testami sprowadza się do odpowiedzi na pyta-
nie, co porównujemy. Test Tukeya służy do porównań średnich w parach,
* Por. Ferguson, Takane (1997). natomiast test Sheffégo może być także stosowany do porównania całych
pakietów średnich, czyli czegoś w rodzaju średnich ze średnich. Korzystając
z tego testu, możemy np. się dowiedzieć, czy istnieje statystycznie istotna
różnica między oceną poczucia szczęścia wyrażoną na kwestionariuszu
w kolorze różowym a „uśrednioną” oceną poczucia szczęścia wyrażoną na
wszystkich pozostałych kwestionariuszach wziętych razem. W praktyce
opcja ta jest rzadko wykorzystywana. Ponadto tego typu porównania powin-
ny być raczej wynikiem hipotez stawianych a priori, a nie post hoc.
Korzystając z testu Sheffégo, policzyliśmy różnice między średnimi ocen
poczucia szczęścia wyrażonymi na różnokolorowych kwestionariuszach
(zob. tab. 6.21).

Tabela 6.21. Prawdopodo- Biały Różowy Niebieski Żółty


Kolor
bieństwa dla testów post hoc (3,45) (5,15) (3,55) (3,15)
Sheffégo dla średnich ocen
poczucia szczęścia wyrażo- Biały (3,45) – 0,001060 0,995953 0,906045
nych na czterech różnokolo- Różowy (5,15) 0,001060 – 0,002339 0,000081
rowych kwestionariuszach
(w nawiasach są podane Niebieski (3,55) 0,995953 0,002339 – 0,803995
średnie ocen)
Żółty (3,15) 0,906045 0,000081 0,803995 –

2
s(m ) = 1,6184; df = 76

Jak można się łatwo zorientować, również wyniki testu Sheffégo potwier-
dzają hipotezy post hoc dotyczące różnic w ocenach poczucia szczęścia za-
TESTOWANIE HIPOTEZ DOTYCZĄCYCH ŚREDNICH 369

pisanych na kwestionariuszach w kolorze różowym w porównaniu z ocena-


mi na kwestionariuszach w pozostałych trzech kolorach.

TESTY NEUMANA-KEULSA I DUNCANA UWZGLĘDNIAJĄCE ROZSTĘP

W artykułach naukowych, w których korzystano z analizy wariancji, można


się natknąć na jeszcze inne metody służące do testowania hipotez post hoc.
Twoją uwagę chcemy zwrócić na dwa testy: Neumana-Keulsa, nazywany
również testem Studenta-Neumana-Keulsa (w skrócie SNK), i Duncana.
Oba testy skonstruowane są na podobnej zasadzie: do ich obliczania bierze
się pod uwagę liczbę wszystkich grup uwzględnionych w analizie wariancji,
inaczej niż w testach Tukeya i Sheffégo, w których informacja o liczbie grup
jest potrzebna tylko po to, by porównać otrzymany wynik testu z wartością
krytyczną.
Nie będziemy dokładnie omawiać wzorów na obliczanie testów SNK i Dun-
cana. Wystarczy wiedzieć, że w obu, porównując każde dwie średnie ze so-
bą, uwzględnia się także liczbę średnich leżących między nimi. Jeżeli mamy
cztery grupy obserwacji, jak w eksperymencie z kolorami kwestionariusza,
to zgodnie z procedurą różnica między największą i największą zostanie
„zważona” przez 2, czyli liczbę średnich, które znajdują się między nimi.
Uwzględnienie liczby średnich, które znajdują się między właśnie porów-
nywanymi średnimi, powoduje, że wartości krytyczne w obu tych testach
zmieniają się w zależności od tego czynnika. Im więcej jest średnich między
porównywaną parą, tym wyższa jest wartość krytyczna testu. W efekcie ła-
twiej jest uzyskać statystycznie istotny rezultat w testach uwzględniających
rozstęp, jak czasem nazywane są testy NSK i Duncana, niż w testach Tukeya
i Sheffégo.

I NA KONIEC DWA SŁOWA O MOCY TESTÓW POST HOC

Wszystkie omówione testy służące do weryfikacji hipotez post hoc stosuje-


my wtedy, gdy chcemy sprawdzić, czy oprócz działania czynnika głównego
nie ma jeszcze jakieś ciekawej, szczegółowej zależności między poziomami
zmiennej niezależnej głównej a zmienną zależną. Moc tych testów Ferguson
i Takane (1997) szeregują następująco. Najłatwiej jest wykazać, że istnieje
statystycznie istotna różnica między średnimi, za pomocą testu Duncana,
nieco trudniej zaś, stosując test Neumana-Keulsa. Następny w kolejności jest
test Tukeya, a najbardziej konserwatywny – test Sheffégo. Dla danych z na-
szego przykładowego eksperymentu z kolorem kwestionariusza poczucia
szczęścia nie ma znaczenia, który test zastosujemy. Wskazują one na to, że
średnie oceny w kwestionariuszach różowych są statystycznie istotnie wyż-
370 WNIOSKOWANIE STATYSTYCZNE

sze od ocen w pozostałych kwestionariuszach o innych kolorach. Wszystkie


cztery testy są dostępne w pakietach statystycznych.

PORÓWNANIE HIPOTEZ A PRIORI, CZYLI ANALIZA KONTRASTÓW

Porównanie sposobów weryfikacji hipotez a priori i hipotez post hoc jest


najlepszym przykładem ilustrującym, w jaki sposób statystycy dbają o me-
todologiczną czystość wnioskowania na podstawie opracowywanych przez
siebie metod analizy danych. Z jednej bowiem strony, bez względu na to,
czy zastosujesz procedurę porównań a priori, czy procedurę post hoc, weź-
miesz pod uwagę te same średnie. Z drugiej jednak wynik tego porównania
może okazać się całkiem inny, ponieważ w obu sytuacjach wykorzystuje się
odmienne formuły statystyczne. Dlaczego? Dlatego, że zasadniczo inna jest
wartość wyniku, który ma mocną podstawę teoretyczną (myślenie a priori),
a inna, gdy został osiągnięty jako rezultat rozważań post hoc, w rodzaju:
„zobaczmy, co my tu jeszcze mamy ciekawego?”.
Omówiliśmy eksperyment dotyczący ocen zbrodni opisanej na papierze
w różnych kolorach, a także naszą własną, trochę zmyśloną, modyfikację te-
go badania, czyli ocenę poczucia szczęścia na kwestionariuszach w kolorze
różowym, białym, niebieskim i żółtym. Przypuśćmy, że „z góry”, czyli przed
przeprowadzeniem badania, przewidywaliśmy, że ocena szczęścia na papie-
rze różowym będzie wyższa niż ocena szczęścia w kwestionariuszach wy-
drukowanych na papierach w pozostałych kolorach. Przewidywanie takie
zapisalibyśmy wówczas w postaci następującej hipotezy badawczej:
x(B) + x( N ) + x(Ż )
H1: x ( R ) >
3
gdzie wszystkie symbole oznaczają średnie oceny szczęścia wyrażone na
kwestionariuszach w kolorze:
x( R) różowym,

x( B) białym,

x(N ) niebieskim,

x(Ż ) żółtym.

Hipoteza ta nie odnosi się do żadnej pary średnich, ale do relacji pomiędzy
ocenami na kwestionariuszu różowym i na pozostałych trzech łącznie. Jest
tak, ponieważ mamy podstawy przypuszczać, że w obecności różowego ko-
loru ludzie wpadają w lepszy nastrój niż w towarzystwie innych kolorów.
Zgodnie zatem z hipotezą a priori oczekujemy, że oceny szczęścia na kwe-
TESTOWANIE HIPOTEZ DOTYCZĄCYCH ŚREDNICH 371

stionariuszach różowych będą wyższe niż na pozostałych, co wyraziliśmy


w postaci porównania zaplanowanego.
Procedura wykorzystywana do weryfikacji hipotez a priori nazywa się
* Procedura obliczania kontra- analizą kontrastów*. Wartość kontrastu jest oznaczana symbolem M (cza-
stów jest dokładnie opisana sami L) i stanowi ją suma iloczynów porównywanych średnich i ich wag.
m.in. w: Furr, R. M., Rosenthal,
R. (2003). Evaluating theories Cała sztuka w obliczaniu kontrastu polega właśnie na przypisaniu odpo-
efficiently: The nuts and bolts of wiednich wag do odpowiednich średnich. Bynajmniej nie jest to jakoś
contrast analysis. Understanding
Statistics, 2, 45-67. Zob. także
szczególnie skomplikowane. Wystarczy tylko pamiętać, że suma tych wag
Sosnowski, T. (2004). Analiza musi wynosić zero oraz że lepiej jest używać małych (niż dużych) liczb cał-
kontrastów: między eksploracją kowitych. Analiza kontrastów, podobnie jak każda analiza statystyczna,
a testowaniem hipotez. Przegląd
Psychologiczny, 47. sprowadza się do sprawdzenia, jakie jest prawdopodobieństwo uzyskania ta-
kich danych, jakie akurat uzyskaliśmy, przy założeniu, że prawdziwa jest hi-
poteza zerowa.
W odniesieniu do sformułowanego przez nas porównania zaplanowanego,
hipoteza zerowa głosi, że oceny na kwestionariuszu różowym są takie same,
jak średnia ocen na pozostałych trzech kwestionariuszach, czyli:
x(B) + x( N ) + x(Ż )
H0: x ( R ) =
3
Teraz wystarczy wykonać tylko dwa proste zabiegi i już mamy wagi dla
kontrastów. Najpierw pozbądźmy się ułamka (wystarczy pomnożyć obie
strony równania przez trzy):
3 × x( R) = x (B) + x( N ) + x(Ż )
Następnie przenieśmy wszystkie elementy równia na lewą stronę, tak żeby
wynikiem równania było 0:
3 × x ( R ) − 1× x ( B) − 1× x ( N ) − 1× x ( Ż ) = 0
W ostatnim równaniu dopisaliśmy jedynki, aby każda średnia poprzedzona
była swoim własnym współczynnikiem kontrastu. Jest to nieco inny zapis
hipotezy zerowej. Gdyby oceny na różowym papierze nie różniły się istotnie
od średniej ocen na papierach w pozostałych kolorach, wówczas wartość po
lewej stronie tego równania powinna wynosić zero. To właśnie ją nazywamy
kontrastem, a współczynniki stojące przed średnimi – współczynnikami kon-
trastu. Obliczmy więc kontrast M dla danych z wykresu 6.14:
M = 3 × 5,15 − 1 × 3,45 − 1 × 3,55 − 1 × 3,15 = 5,30
Czy M = 5,3 jest tak dalece różne od zera, że możemy odrzucić hipotezę ze-
rową, zgodnie z którą uzyskane w badaniu wyniki są tylko dziełem przypad-
ku? W tym celu skorzystamy ze znanego Ci testu t, który w przypadku ana-
lizy kontrastów oblicza się w sposób następujący:
372 WNIOSKOWANIE STATYSTYCZNE

M
t( M ) =
k
λ2i
s(2w ) × ∑
i =1 ni
t(M) test t dla analizy kontrastów,
M Obliczona wartość kontrastu,

s(2w) wariancja wewnątrz grup,


λi2 podniesione do kwadratu wskaźniki kontrastów przypisane kolejnym grupom,

ni liczebności w poszczególnych grupach,


k liczba grup.

Po podstawieniu do wzoru wszystkich wartości, wynik testu t dla kontrastu:


kolor różowy vs. wszystkie inne kolory, wynosi:
5,3
t( M ) = = 5,38
⎡3 (−1) 2 (−1) 2 (−1) 2 ⎤
2
1,618 × ⎢ + + +
⎣ 20 20 20 20 ⎥⎦

Tak jak w przypadku „zwykłego” testu t, wystarczy teraz porównać otrzy-


many wynik z wartością krytyczną. Rozkład t ma jeden parametr (liczbę
stopni swobody), który musimy uwzględnić, żeby odczytać w tablicy war-
tość krytyczną (zob. Aneks tablica C).
Liczba stopni swobody dla testu t stosowanego w analizie kontrastów jest
taka sama jak liczba stopni swobody związana z wariancją wewnątrzgrupo-
wą, czyli dla naszych danych df = 76. Wartość krytyczna t0,001 = 3,20, co
oznacza, że mamy wystarczające dobre podstawy, aby odrzucić hipotezę ze-
rową. Przewidywana przez nas relacja między średnimi, zapisana w postaci
hipotezy alternatywnej:
x(B) + x( N ) + x(Ż )
H1: x ( R ) >
3
została potwierdzona.
Analiza kontrastów może być stosowana w każdej sytuacji, w której relacje
między średnimi badacz przewiduje przed przeprowadzeniem eksperymentu.
W gruncie rzeczy to, co określiliśmy jako kontrast, jest po prostu relacją
między średnimi albo, inaczej mówiąc, przewidywaną przez badacza hierar-
chią wyników. Relacja ta zostaje wyrażona w postaci jednej liczby (kontra-
stu). Wartość kontrastu wskazuje na to, czy hipotetyczna relacja jest przy-
padkowa, czy też przeciwnie – zgadza się z przewidywaniem badacza.
TESTOWANIE HIPOTEZ DOTYCZĄCYCH ŚREDNICH 373

Chociaż praktycznie można zdefiniować dowolny kontrast, również taki,


którego wartość jest istotna zupełnie przypadkowo, to jednak metoda ta jest
całkowicie niewłaściwa jako sposób weryfikacji hipotez post hoc.
Definicja każdego kontrastu zawsze musi mieć jakieś uzasadnienie wynika-
jące z teorii, a to, jak zawsze, jest kwestią świadomości metodologicznej ba-
dacza, a także zwyczajnej uczciwości.

KILKA PROSTYCH PRZYKŁADÓW

Analizę kontrastów można zastosować zawsze wtedy, gdy relację między


średnimi da się wyrazić za pomocą współczynników kontrastu, ale tylko pod
warunkiem, że ich suma równa się zero.
Trzymajmy się jeszcze przez chwilę przykładu z różnokolorowymi kwestio-
nariuszami i poczuciem szczęścia. Przypuśćmy, że masz wystarczające prze-
słanki teoretyczne, by przewidywać, że najszczęśliwsze powinny być osoby
wypowiadające się na kwestionariuszach różowych, następne na „skali
szczęścia” będą osoby wypowiadające się na kwestionariuszach niebieskich,
a dalej, na białych i żółtych, mniej więcej tak samo.
Zależność tę możesz wyrazić w postaci następującego kontrastu (pamiętaj,
że jedynym ograniczeniem formalnym jest to, iż suma współczynników mu-
si równać się zero):
M = 5 × 5,15 − 3 × 3,45 − 1 × 3,55 − 1 × 3,15 = 8,50
Wynik testu t dla tego kontrastu wynosi: 4,98 i jest wyższy od wartości kry-
tycznej dla df = 76 i α = 0,001 równej t0,001 = 3,20.
Możemy przyjąć hipotezę alternatywną, że „zaprojektowany” przez nas kon-
trast istotnie różni się od zera, a więc przewidywana przez nas kolejność
średnich ocen znajduje odzwierciedlenie w zgromadzonych (a dokładniej:
zmyślonych) danych.
Najprostszym przykładem wykorzystania analizy kontrastów jest porówna-
nie dwóch średnich, tak samo jak w opisanych wcześniej testach post hoc.
Kontrast dla dwóch średnich można zapisać w sposób następujący:
M = 1× x ( R ) − 1× x ( N )
Zdefiniowany w ten sposób kontrast to porównanie ocen poczucia szczęścia
na kwestionariuszu różowym i białym. Wartość tego kontrastu wynosi:
M = 1 × 5,15 − 1 × 3,55 = 1,6
a wartość t dla tego kontrastu wynosi:
374 WNIOSKOWANIE STATYSTYCZNE

1,6
t( M ) = = 3,98
⎡ 12 (−1) 2 ⎤
1,618 × ⎢ +
⎣ 20 20 ⎥⎦

i ciągle jest wyższa od t0,001 = 3,20, co daje nam podstawy do stwierdzenia,


że tak jak przewidywaliśmy, oceny na kwestionariuszach różowych są wyż-
sze niż oceny na kwestionariuszach niebieskich.
Na koniec jeszcze uwaga techniczna dotycząca definiowania kontrastów
w komputerowych pakietach statystycznych. Otóż programy te z reguły
wymagają, by każda ze średnich miała swój współczynnik kontrastu. Jeżeli
więc chcesz porównać tylko dwie średnie, to wszystkim pozostałym musisz
przypisać wagi równe zero. W programach tych istnieje wiele udogodnień
pozwalających na definiowanie różnych relacji pomiędzy średnimi w postaci
kontrastu. Najbardziej typowe z tych gotowych zbiorów współczynników
kontrastu odnoszą się do tzw. analizy trendu.

ZASTOSOWANIE KONTRASTÓW W ANALIZIE LINIOWEGO TRENDU

Jednym z ciekawszych zastosowań analizy kontrastów jest analiza trendu.


Czasami przed badaniami można przewidywać nie tylko, która średnia bę-
dzie większa lub mniejsza od której, lecz także jaki będzie trend, czyli pe-
wien porządek wszystkich średnich. Trend, który najczęściej bierze się pod
uwagę, jest liniowy, to znaczy przewidywany zgodnie z nim układ średnich
odzwierciedla wprost proporcjonalny wzrost lub odwrotnie proporcjonalny
spadek ich wartości. Wykres trendu średnich może wyglądać np. tak, jak na
rysunku 6.15.
Rysunek 6.15. Rozkład po- 8
czucia szczęścia wśród
mieszkańców czterech pol- 7
skich miast odzwierciedlający
trend liniowy [STATISTICA] 6
Poczucie szczęścia

0
Gdańsk Lublin Poznań Warszawa
Miasta
TESTOWANIE HIPOTEZ DOTYCZĄCYCH ŚREDNICH 375

Jak widać z rysunku 6.15, z trendem liniowym mamy do czynienia wtedy,


gdy się spodziewamy, że każda następna z porównywanych średnich będzie
większa od poprzedniej.
Oczywiście, analiza trendu ma sens tylko wtedy, gdy wynika on z przesłanek
teoretycznych. Z pewnością nie chodzi tutaj o to, żeby przypisać współczyn-
niki kontrastów odzwierciedlające trend liniowy po przeprowadzeniu ekspe-
rymentu, choć niewątpliwie najłatwiej byłoby wtedy ustawić średnie od
najmniejszej do największej.
Na rysunku 6.15 umieściliśmy wyniki poczucia szczęścia mieszkańców czte-
rech polskich miast, mając niezachwiane przekonanie, że poczucie szczęścia
jest liniowo związane z pozycją w alfabecie pierwszej litery w nazwie mia-
sta. Jak widać na wykresie: im dalej w porządku alfabetycznym znajduje się
miasto, tym większe poczucie szczęścia jego mieszkańców.
Czy to możliwe, żeby istniała zależność między pierwszą literą w nazwie
miasta a poczuciem szczęścia jego mieszkańców? Postanowiliśmy spraw-
dzić, czy trend liniowy przedstawiony na rysunku 6.15 rzeczywiście istnieje.
Do tego celu wykorzystaliśmy odpowiedzi na pytanie o poczucie szczęścia
wśród respondentów Polskiego Generalnego Sondażu Społecznego w roku
2002. Respondenci udzielali swojej odpowiedzi na skali 4-punktowej: 1 –
bardzo szczęśliwy, 2 – raczej szczęśliwy, 3 – niezbyt szczęśliwy, 4 – nie-
szczęśliwy, co oznacza, że im niższa liczba, tym wyższe poczucie szczęścia.
W tabeli 6.22 zestawiliśmy średnie oceny zebrane wśród mieszkańców tych
czterech miast.

Tabela 6.22. Poczucie szczę- Odchylenie Błąd


Miasto N Średnia
ścia wśród mieszkańców standardowe standardowy
Gdańska, Lublina, Poznania
i Warszawy w badaniu PGSS Gdańsk 37 2,03 0,600 0,099
w roku 2002 Lublin 28 2,18 0,723 0,137
Poznań 35 2,06 0,482 0,081
Warszawa 135 2,02 0,604 0,052

No cóż, nasze przewidywania co do liniowej zależności raczej się nie po-


twierdzają, ale brniemy dalej i obliczamy wartość kontrastu dla średnich
z tabeli 6.22. Najpierw jednak powinniśmy zdefiniować współczynniki kon-
trastu. Muszą one spełniać dwa warunki: suma wszystkich musi się równać
zero, a ich wartości muszą odzwierciedlać relację liniową, czyli każda śred-
nia jest o tyle samo większa od poprzedniej. Ustalanie współczynników kon-
trastu dla różnych trendów wymaga tego, aby trochę „pokombinować”. W
tym przypadku proponujemy następujący zestaw współczynników:
{–3, –1, 1, 3}
376 WNIOSKOWANIE STATYSTYCZNE

Spełnia on obydwa warunki: każdy następny współczynnik jest większy od


poprzedniego, a ich suma równa się zero. Jeżeli potrzebowałbyś współczyn-
ników do oceny trendu liniowego dla większej liczby średnich, to jeśli liczba
średnich będzie parzysta, wystarczy, że dopiszesz współczynniki kolejno
mniejsze o 2 z lewej strony i większe o 2 z prawej. Jeżeli natomiast chcesz
ocenić liniowość trendu dla nieparzystej liczby średnich, to powinieneś wy-
korzystać wartość 0 jako współczynnik dla środkowej średniej. Na przykład
możesz ocenić trend liniowy dla trzech średnich, wykorzystując następujący
zestaw współczynników:
{–2, 0, 2}
On także spełnia oba warunki: ich suma daje zero i każdy następny jest
większy od poprzedniego. Dla pięciu średnich może to być taki zestaw:
{–4, –2, 0, 2, 4} itd.
Wartość kontrastu odpowiadająca przewidywanemu przez nas trendowi li-
niowemu: im dalej w alfabecie, tym większe poczucie szczęścia wśród
mieszkańców Gdańska Lublina, Poznania i Warszawy, wynosi:
M = −3 × 2,03 − 1 × 2,18 + 1 × 2,06 + 3 × 2,02 = −0,15
Kontrast niezbyt różni się od zera, a wynik testu t tylko potwierdza fałszy-
wość naszego przekonania (t = –0,37). Prawdopodobieństwo uzyskania
przypadkiem takiej wartości dla df = 235 – 4 = 231 wynosi p = 0,713, co
oczywiście nie pozwala na odrzucenie hipotezy zerowej.
Z niepojętych dla nas powodów musimy niestety przyjąć, że poczucie szczę-
ścia wśród mieszkańców Gdańska, Lublina, Poznania i Warszawy nie rośnie
liniowo wraz z miejscem jego nazwy w porządku alfabetycznym.

ANALIZA TRENDU JAKO TEST „DOBROCI” TEORII

Analiza kontrastów ma tę zaletę, że można ją wykorzystać do porównania


* Por. Furr, Rosenthal (2003). konkurencyjnych przewidywań wynikających z dwóch lub więcej teorii*.
Czy poczucie szczęścia jest liniowo związane z wielkością miejsca zamiesz-
kania respondenta? Zgodnie z jedną teorią, mieszkańcy małych miejscowo-
ści mają większe poczucie więzi lokalnych, wolniejsze tempo życia i z regu-
ły żyją bliżej „natury” niż mieszkańcy większych miast. Jeśli zgodzimy się
z tą argumentacją, to możemy przewidywać, że poczucie szczęścia maleje
wraz ze wzrostem wielkości miejsca zamieszkania. Taka relacja między
zmiennymi odzwierciedlałaby odwrotnie proporcjonalny trend liniowy.
Jednakże mieszkanie w małej miejscowości może się wiązać z mniejszymi
szansami edukacyjnymi, brakiem dostępu do dóbr kultury i mniejszymi za-
TESTOWANIE HIPOTEZ DOTYCZĄCYCH ŚREDNICH 377

robkami niż mieszkanie w dużym mieście. Nie jest więc wykluczone, że li-
niowa zależność między wielkością miejsca zamieszkania a poczuciem
szczęścia jest wprost proporcjonalna, czyli im większe miasto, tym wyższe
poczucie szczęścia mają jego mieszkańcy.
Stosując analizę kontrastów, możemy sprawdzić, która z tych argumentacji
jest bliższa prawdy.
Wykorzystamy raz jeszcze dane z Polskiego Generalnego Sondażu Społecz-
nego z próby z roku 2002. Wszyscy uczestnicy tego badania zostali zakwali-
fikowani do ośmiu kategorii ze względu na wielkość miejsca zamieszkania.
Nazwy tych kategorii, jak również średnie oceny poczucia szczęścia, przed-
stawione są w tabeli 6.23.

Tabela 6.23. Średnia ocena Współczynniki Współczynniki


Średnia ocena
poczucia szczęścia wyrażo- Miejsce kontrastu dla kontrastu dla
Kategorie poczucia
na przez mieszkańców wsi i zamieszkania trendu wprost trendu odwrotnie
szczęścia
miast o różnej liczebności proporcjonalnego proporcjonalnego
na podstawie sondażu
PGSS oraz dwa zbiory Wieś 2,09 –7 7
współczynników kontrastu do 10 tys. 2,19 –5 5
reprezentujące opozycyjne
teorie wyjaśniające 10-24 tys. 1,97 –3 3
25-49 tys. 1,94 –1 1
Miasto 50-99 tys. 2,03 1 –1
100-249 tys. 2,06 3 –3
250-499 tys. 2,06 5 –5
powyżej 500 tys. 2,05 7 –7

Do tabeli 6.23 dopisaliśmy też dwie kolumny ze zbiorami współczynników


kontrastu, odzwierciedlającymi dwa rodzaju trendu liniowego: rosnący i ma-
lejący. Obliczone kontrasty, czyli sumy iloczynów średnich i współczynni-
ków, testy t i poziomy istotności dla obu tych trendów są następujące:
• dla trendu rosnącego: M = –0,57; t = –1,20; p = 0,23,
• dla trendu malejącego: M = 0,57; t = 1,20; p = 0,23.
Jak się okazuje, obie wartości kontrastu różnią się tylko znakiem i co więcej
– obie są nieistotne statystycznie. Zdaje się, że zbyt mechanicznie podeszli-
śmy do ustalenia współczynników kontrastu dla poszczególnych grup.
Jeżeli w tej samej proporcji przypiszemy do średnich współczynniki w ko-
lejności rosnącej i malejącej, bezwzględna wartość kontrastu liniowego za-
wsze będzie taka sama. Jeśli więc przewidywania wynikające z drugiej teorii
są odwrotne, ale dokładnie w tej samej proporcji co przewidywania pierw-
378 WNIOSKOWANIE STATYSTYCZNE

szej teorii, to wystarczy obliczyć wielkość kontrastu tylko dla jednego tren-
du, np. rosnącego.
Nawiasem mówiąc, rzeczywista zależność między wielkością miejsca za-
mieszkania a poczuciem szczęścia po prostu nie jest liniowa (zob. rys. 6.16).
Rysunek 6.16. Poczucie 2,3
szczęścia wśród Polaków
w badaniu PGSS w roku
2002 w zależności od wielko- 2,2
ści miejsca zamieszkania (im
niższy wynik, tym wyższe po-
czucie szczęścia)
Poczucie szczęścia
2,1
[STATISTICA]

2,0

1,9

1,8
Wieś 10-24 tys. 50-99 tys. 250-499 tys.
do 10 tys. 25-49 tys. 100-249 tys. powyżej 500 tys.
Miejsce zamieszkania

Poczucie szczęścia wśród Polaków nie zmienia się więc liniowo wraz ze
wzrostem liczby współmieszkańców. Jeśli jednak przyjrzysz się uważniej
średnim na rysunku 6.16, to zauważysz, że można je połączyć w trzy grupy.
Patrząc od lewej, będą to oceny mieszkańców: a) wsi i miast do 10 tysięcy,
b) miast liczących od 10 do 100 tysięcy i c) miast powyżej 100 tysięcy.
Analiza wykresu ujawnia, że osoby badane z grupy środkowej dawały niższe
oceny na skali poczucia szczęścia (przypomnijmy, im niższa ocena, tym
bardziej ktoś jest szczęśliwy) niż mieszkańcy wsi i małych miasteczek oraz
wielkich miast.
Być może więc, oba czynniki mogące mieć wpływ na poczucie szczęścia:
poczucie wspólnoty oraz dostęp do dóbr kultury, najbardziej sprzyjają
mieszkańcom średnich miast. Na wsi poczucie szczęścia może być wyraźnie
niższe z powodu mniejszego dostępu do zdobyczy współczesnej cywilizacji,
a w wielkich miastach z powodu pośpiechu i anonimowości.

CO NIECO NA TEMAT TRENDÓW KWADRATOWYCH

Stosując analizę kontrastów, możemy badać trendy liniowe, ale także np.
kwadratowe. Na ogół przyjmują one jedną z dwóch form, w zależności od
tego, co przewidujemy. Jeśli się spodziewamy, że średnie w skrajnych gru-
pach będą niższe od średnich w grupach środkowych, to mamy do czynienia
z trendem w kształcie odwróconego „U”. Przykładem takiego rozkładu wy-
TESTOWANIE HIPOTEZ DOTYCZĄCYCH ŚREDNICH 379

ników jest prawo Yerkesa-Dodsona. Zgodnie z nim, w miarę wzrostu moty-


wacji wzrasta poprawność rozwiązywania jakiegoś zadania, ale gdy moty-
wacja staje się zbyt silna, wtedy poziom wykonania zadania zaczyna po-
nownie spadać (zob. rys. 6.17).
Rysunek 6.17. Trend kwadra- 14
towy w kształcie odwrócone-
go „U”, ilustrujący prawo 12
Yerkesa-Dodsona
[STATISTICA]
10

Poziom wykonania zadania


8

0
1 2 3 4 5 6 7 8
Nasilenie motywacji

Możemy również przewidywać, że wartości w grupach skrajnych będą naj-


wyższe, a wartości w grupach środkowych – najniższe. Taki wykres będzie
miał wówczas kształt litery U. Trochę przypomina go wykres 6.16, ilustrują-
cy średnie poczucie szczęścia wśród Polaków w badaniu PGSS w roku 2002
w zależności od wielkości miejsca zamieszkania. Na rysunku 6.18 nanieśli-
śmy dane z tego wykresu na kwadratowy trend U-kształtny.
Rysunek 6.18. Poczucie 2,3
szczęścia wśród Polaków w
badaniu PGSS w roku 2002
w zależności od wielkości 2,2
miejsca zamieszkania (linia
przerywana) i trend kwadra-
Poczucie szczęścia

towy w kształcie litery „U” (li- 2,1


nia ciągła) [STATISTICA]

2,0

1,9

1,8
Wieś 10-24 tys. 50-99 tys. 250-499 tys.
do 10 tys. 25-49 tys. 100-249 tys. powyżej 500 tys.
Miejsce zamieszkania

Tym razem nie obliczaliśmy wskaźników kontrastu „ręcznie”, ale zleciliśmy


to zadanie komputerowi. Większość programów statystycznych ma zapisane
380 WNIOSKOWANIE STATYSTYCZNE

zbiory współczynników kontrastu dla różnych sytuacji. Są to tzw. kontrasty


predefiniowane. Maszyna zaproponowała nam następujące rozwiązanie
współczynników odzwierciedlających trend kwadratowy:
{7,1,-3,-5,-5,-3,1,7}
Wartość kontrastu dla trendu kwadratowego wyniosła: M = 1,32. Po obli-
czeniu testu t okazało się, że jego wynik, równy 2,77, jest statystycznie
istotny na poziomie p<0,01. Możemy więc stwierdzić, że związek między
wielkością miejsca zamieszkania a poczuciem szczęścia odzwierciedla trend
kwadratowy.
Oznacza to, że najszczęśliwsi są mieszkańcy miast o średniej wielkości,
a mniej szczęśliwi są mieszkańcy wsi i małych miasteczek oraz dużych
aglomeracji.

CO POWINNIŚMY ZAPAMIĘTAĆ O ANALIZIE KONTRASTÓW?

• Po pierwsze – i najważniejsze – każdą analizę kontrastów musi poprze-


dzać przewidywanie wynikające z teorii. Inaczej nie będziesz w stanie
uzasadnić, dlaczego badasz właśnie ten kontrast, a nie inny. Niech
ostrzeżeniem dla ciebie będzie z góry skazana na niepowodzenie próba
naszej oceny kontrastu dla związku liniowego między poczuciem szczę-
ścia a pierwszą literą w nazwie miasta. Nie ma żadnego sensownego
uzasadnienia takiego trendu.
• Po drugie, wielokrotnie cytowani w tej części Furr i Rosenthal sugerują,
że stosując analizę kontrastów, nie trzeba koniecznie obliczać testu F w
analizie wariancji. Twoje hipotezy nie odnoszą się przecież do niezróż-
nicowanego wpływu jakiegoś czynnika na zmienną zależną, ale do spe-
cyficznego układu średnich w badanych grupach. W praktyce badacze
często podają jednak zarówno wartość testu F, jak i wyniki analizy kon-
trastów. No cóż, decyzja należy do ciebie.
• Po trzecie, trend liniowy i kwadratowy to nie jedyne rodzaje trendów,
jakie możemy badać. Jest ich znacznie więcej i z reguły zestawy współ-
czynników kontrastów są dostępne w pakietach statystycznych. Gdy
więc będziesz chciał badać jakieś bardziej skomplikowane zależności
niż te, które tu opisaliśmy, musisz zajrzeć do podręczników obsługi tych
programów.

WIELKOŚĆ EFEKTU W ANALIZIE WARIANCJI

Podobnie jak w przypadku testów dla jednej czy dwóch średnich, również
stosując analizę wariancji, możesz oszacować, w jakim stopniu zmienna nie-
TESTOWANIE HIPOTEZ DOTYCZĄCYCH ŚREDNICH 381

zależna główna wpływa na zmienną zależną, czyli obliczyć wielkość efektu.


* Cohen, J. (1969). Statistical Zgodnie z przyjętą przez Jacoba Cohena* konwencją, wielkość efektu ozna-
power anylysis for the behavior- cza się małą literą f. Gdy jego wartość oscyluje wokół 0,10, mamy do czy-
al sciences. New York: Academ-
ic Press. nienia z niewielkim wpływem zmiennej niezależnej na zmienną zależną.
Gdy wartość efektu wynosi około 0,25, wtedy wpływ ten jest średni, czyli
taki, jaki najczęściej jest obserwowany w eksperymentach.
Jeśli wielkość efektu jest bliska 0,40, to wpływ danego czynnika na zmienną
zależną można uznać za duży. Interpretacja liczbowych wskaźników wielko-
ści efektu jest nieco inna w analizie wariancji niż w testach porównujących
średnie.
Obliczając wielkość efektu w analizie wariancji, porównuje się odchylenie
standardowe związane z określonym czynnikiem z odchyleniem standardo-
wym w populacji, a nie średnie w badanych grupach, jak np. w teście t.
Obliczenie wielkości efektu w analizie wariancji jest skomplikowane w bar-
dziej złożonych układach eksperymentalnych. Wzory komplikują się wtedy,
gdy liczebności w badanych grupach są nierówne, gdy wariancje w tych
grupach różnią się od siebie albo gdy eksperyment został zaprojektowany
w układzie z powtarzanymi pomiarami.
W najprostszej sytuacji wielkość efektu można zdefiniować jako stosunek
odchylenia standardowego związanego z działaniem jakiegoś czynnika do
odchylenia standardowego danej cechy w populacji. Może to być więc np.
stosunek odchylenia standardowego dla średnich ocen poczucia szczęścia
w ośmiu różnych miejscach zamieszkania (σm) do odchylenia standardowego
w całej populacji (σ), czyli:
σm
f =
σ
Dla zmiennej „poczucie szczęścia” z Polskiego Generalnego Sondażu Spo-
łecznego wartości te wynoszą, odpowiednio, σm = 0,06 (odchylenie standar-
dowe dla zbioru 8 średnich w grupach w zależności od wielkości miejsca
zamieszkania), i σ = 0,6 (odchylenie standardowe obliczone dla wszystkich
ocen poczucia szczęścia). Wielkość efektu wynosi więc f = 0,1, co – zgodnie
z konwencją Cohena – oznacza, że miejsce zamieszkania ma niewielki
wpływ na poczucie szczęścia.
Obliczona wielkość efektu, czyli siła, z jaką miejsce zamieszkania wpływa
na poczucie szczęścia, jest przybliżona, ponieważ nie uwzględniliśmy tego,
że badane grupy nie są równoliczne. Korzystając ze specjalnego programu
komputerowego, policzyliśmy dokładną wielkość efektu i okazało się, że
f = 0,0836. Zasadniczo nie zmienia on naszej konkluzji co do niewielkie-
go wpływu miejsca zamieszkania na poczucie szczęścia.
382 WNIOSKOWANIE STATYSTYCZNE

O WIELKOŚCI EFEKTU RAZ JESZCZE

Co to właściwie znaczy, że otrzymany efekt f w analizie wariancji jest nie-


wielki? Jeśli zastanowić się nad tym nieco głębiej, to dojdziemy do wniosku,
że to dość intuicyjna kategoria opisowa. Niektórzy badacze wolą korzystać
z innych wskaźników miary wielkości wpływu czynnika eksperymentalne-
go. Jedną z nich jest tzw. stosunek korelacyjny η2 (czytaj „eta kwadrat”).
Oblicza się go, dzieląc sumę kwadratów związaną z jakimś czynnikiem eks-
perymentalnym przez całkowitą sumę kwadratów. Raz jeszcze posłużymy
się naszym przykładem. Tym razem w tabeli 6.24 znajdują się wyniki jedno-
czynnikowej analizy wariancji.

Tabela 6.24. Wyniki jedno- Źródło wariancji SS df MS F p


czynnikowej analizy wariancji
dla zmiennej „poczucie Wielkość miejsca zamieszkania 7,794 7 1,113 2,67 0,009284
szczęścia”, w zależności od
kategorii wielkości miejsca Wewnątrz grup 1005,232 2415 0,416
zamieszkania [STATISTICA]

W tabeli 6.24 mamy dwie sumy kwadratów (SS), jedną związaną z wielko-
ścią miejsca zamieszkania (SS(m)), drugą zaś – ze zmiennością wewnątrz
grup (SS(w)). Ponieważ nie ma innych źródeł zmienności, więc całkowita su-
ma kwadratów wynosi:
SS(c) = SS(m) + SS(w) = 7,794 + 1005,232 = 1013,026
a stosunek korelacyjny η2:
SS ( m ) 7,794
η2 = = = 0,0076
SS ( c ) 1013,26

Wielkość efektu, ustaloną za pomocą współczynnika η2, najwygodniej jest


podawać w procentach ( η2 × 100% ). Interpretuje się ją wtedy jako stosunek
wariancji wynikającej z obecności danej zmiennej do wariancji w całym
zbiorze wyników. Jak pamiętasz, wariancja jest miarą zmienności wyników.
Wariancja całkowita „mówi” o tym, w jakim stopniu różnią się od siebie
wszystkie analizowane dane.
W naszym przykładzie wariancja całkowita jest miarą zróżnicowania
wszystkich osób badanych ze względu na ocenę własnego szczęścia. To, że
nie wszyscy tak samo odpowiadali na pytania ankietera (np. nie wszyscy
twierdzili: „jestem bardzo szczęśliwy”), mogło mieć wiele powodów. Tylko
jeden z tych powodów, tj. wielkość miejsca zamieszkania, został uwzględ-
niony w analizie. Okazuje się jednak, że tylko w niespełna 1% (dokładnie
0,76%) wielkość miejsca zamieszkania wyjaśnia zmienność poczucia szczę-
ścia u Polaków. To niezbyt wiele.
TESTOWANIE HIPOTEZ DOTYCZĄCYCH ŚREDNICH 383

Współczynnik η2 można łatwo policzyć także dla wieloczynnikowej analizy


wariancji. Wystarczy po prostu podzielić sumę kwadratów związanych
z obecnością danego czynnika przez całkowitą sumę kwadratów.

CO ŁĄCZY ZE SOBĄ MOC TESTU, WIELKOŚĆ EFEKTU I LICZBĘ OBSERWACJI W GRUPACH?

O mocy testu pisaliśmy już, przedstawiając testy dla średnich. Przypomnij-


my, że moc testu oznacza prawdopodobieństwo tego, że prawdziwa jest hi-
poteza alternatywna. Poziom odrzucania hipotezy zerowej, czyli α, to war-
tość minimalnego prawdopodobieństwa tego, że odrzucimy hipotezę zerową,
mimo że jest prawdziwa. Moc testu zaś równa jest 1 – β, czyli jeden odjąć
prawdopodobieństwo popełnienia błędu odrzucenia hipotezy alternatywnej
wtedy, gdy jest ona prawdziwa.
Moc testu ściśle się wiąże ze spodziewaną wielością efektu oraz liczebnością
badanej próby. Jeśli chcesz wiedzieć, ile osób powinieneś przebadać w eks-
perymencie, w którym bierzesz pod uwagę np. dwie dwuwartościowe
zmienne niezależne (4 grupy, w układzie 2 × 2), musisz najpierw ustalić sa-
tysfakcjonującą cię wielkość efektu i moc testu, a następnie, np. korzystając
z wykresu 6.19, odczytać interesującą cię liczebność. Konstruując wykres,
założyliśmy, że poziom odrzucania hipotezy zerowej α = 0,05 oraz że spo-
dziewany wpływ zmiennych niezależnych na zmienną zależną jest średniej
wielkości (wielkość efektu f = 0,25).

Rysunek 6.19. Zależność 250


pomiędzy liczbą osób bada-
Liczba obserwacji we wszystkich grupach razem

225
nych w analizie wariancji
(2 x 2) a mocą testu F, 200
przy założeniu średniej wiel-
kości efektu (f = 0,25) oraz 175
α = 0,05 [STATISTICA]
150

125

100

75

50

25

0
0,3 0,4 0,5 0,6 0,7 0,8 0,9
Moc testu F

Z rysunku 6.19 wynika więc, że wraz ze wzrostem mocy testu wzrasta też
wielkość badanej próby. Jeżeli np. w badanych czterech grupach jest łącznie
80 osób, to po odrzuceniu hipotezy zerowej moc testu F będzie wynosić
384 WNIOSKOWANIE STATYSTYCZNE

0,41. Oznacza to, że zależność wyrażona w hipotezie alternatywnej rzeczy-


wiście istnieje z prawdopodobieństwem 0,41.
Jacob Cohen przygotował prostą tablicę pozwalającą na ustalenie niezbędnej
liczebności w badanych grupach przy założonej z góry mocy testu dla róż-
nych poziomów wielkości efektu. Na końcu podręcznika znajdziesz naszą
wersję tej tablicy Cohena – jest to tablica D. Można z niej odczytać, że jeśli
spodziewasz się dużego efektu (np. f = 0,4) i zakładasz, że moc testu będzie
wynosić 0,8, a poziom odrzucania hipotezy zerowej α = 0,05, to planując
eksperyment z czterema grupami, powinieneś zaprosić do badania 76 osób.
O związku pomiędzy wielkością efektu, mocą testu i liczbą badanych osób
pisaliśmy dokładniej w części poświęconej testowaniu hipotez dotyczących
dwóch średnich. Te same zależności odnoszą się do analizy wariancji: im
więcej jest osób badanych, tym łatwiej odrzucić hipotezę zerową, ale tym
mniejsza jest wielkość efektu. Dla analizowanych w tej części danych doty-
czących poczucia szczęścia w zależności od miejsca zamieszkania wielkość
efektu była niewielka (f = 0,1). Jednakże przy tak dużej liczbie osób bada-
nych (ponad 2000 obserwacji) moc testu wyniosła 0,90 (co obliczyliśmy za
pomocą specjalnego programu) i w zasadzie bez względu na to, jak duża by-
łaby wartość F w analizie wariancji, nie udałoby się dla tych danych osią-
gnąć istotnej zmiany w wielkości efektu. Z tablicy D wynika także i to, że
jeżeli w Twoim badaniu weźmie udział mało uczestników, to zakładając, że
uda Ci się odrzucić hipotezę zerową, wielkość efektu związanego z działa-
niem danego czynnika będzie stosunkowo duża. Psychologowie, którzy ko-
rzystają z analizy wariancji, najczęściej przyjmują, że w każdej grupie po-
winno być co najmniej po 20 osób badanych. Z tablicy D wynika, że spo-
dziewają się zatem uzyskać duży efekt eksperymentalny.

NA DESER: CO PORTUGALCZYCY WIEDZIELI O EURO, ZANIM WSTĄPILI DO UNII?

Część poświęconą analizie wariancji kończymy przykładem badań z pogra-


nicza psychologii i ekonomii, przeprowadzonych przez Frederica Marquesa
* Marques, F., Dehaene, S. i Stanislasa Dehaene’a*. Zainteresowało ich, w jaki sposób Portugalczycy
(2004). Developing Intuition for poradzili sobie z zamianą waluty lokalnej na euro. Jak wiesz, od roku 2002
Prices in Euros: Rescaling or
Relearning Prices? Journal of euro jest wspólną walutą obowiązującą w części krajów Unii Europejskiej.
Experimental Psychology: Ap- Wprowadzenie tak dużej zmiany do codziennego życia człowieka nie mogło
plied, 10, 148–155.
oczywiście umknąć uwagi psychologów. Nic więc dziwnego, że po roku
2002 pojawiło się w czasopismach psychologicznych wiele artykułów,
w których opisane zostały wyniki badań związanych z psychicznymi następ-
stwami wprowadzania euro.
Stanislas Dehaene i Frederico Marques postanowili sprawdzić m.in., jakie
strategie stosują Portugalczycy podczas wprowadzania euro do obiegu w ich
TESTOWANIE HIPOTEZ DOTYCZĄCYCH ŚREDNICH 385

kraju. Czy muszą uczyć się wszystkich cen na nowo, czy też potrafią podać
ceny w euro, przeliczając „w głowie” znane im wcześniej ceny w escudo
(dla przypomnienia: 1 euro = około 200 escudos). W celu sprawdzenia, która
ze strategii była częściej stosowana, autorzy badania poprosili 174 studen-
tów o podanie 40 cen różnych produktów wyrażonych w euro. Badanie po-
wtórzono czterokrotnie od listopada 2001 (tuż przed wejściem euro do obie-
gu) do lipca 2002 (czyli pół roku po wejściu euro do obiegu).
Autorzy opisują w swoim artykule wiele różnych analiz, ale my przedstawi-
my dokładniej tylko jedną z nich. Wyniki oszacowań cen w euro zostały po-
równane z oszacowaniami cen tych samych produktów w walucie portugal-
skiej. Ponieważ w badaniu wzięły udział dwie grupy studentów, mamy więc
do czynienia ze zmienną międzygrupową, która przyjmuje dwie wartości.
Drugą zmienną niezależną była częstość kupowania różnych produktów.
Spośród czterdziestu, których ceny podawali badani, połowę stanowiły pro-
dukty kupowane często (np. gazeta codzienna, jogurt), a połowę produkty
kupowane rzadko (np. składane krzesło, butelka szampana).
Zmienną zależną była dokładność oszacowania ceny dla każdego produktu,
mierzona za pomocą specjalnego wskaźnika, którego nie będziemy tutaj
szczegółowo omawiać. W każdym razie jego wartość była tym większa, im
bardziej badani różnili się między sobą co do szacowanej ceny danego pro-
duktu. W wyniku przeprowadzonej dwuczynnikowej analizy wariancji oka-
zało się, że istotny wpływ na dokładność oszacowania ceny ma waluta oraz
częstość kupowania produktu. Oceny były dokładniejsze wtedy, gdy poda-
wane były w escudos niż w euro, a także bez względu na walutę studenci
z mniejszym błędem podawali ceny produktów kupowanych często.
Wybraliśmy ten przykład na koniec, aby Ci pokazać, w jaki sposób można
zapisać wynik analizy wariancji z uwzględnieniem wielkości efektu. Otóż
Marques i Dehaene opisują swój wynik w następujący sposób:
Przeprowadzona została mieszana analiza wariancji (ANOVA) typu 2 x 2 ze zmien-
nymi: Waluta (zmienna międzygrupowa) i Częstość Kupowania (zmienna we-
wnątrzgrupowa). Okazało się, że istotny jest efekt główny zmiennej Waluta, do-
kładniejsze były oszacowania w escudo, F(1, 37) = 5,40, MSE = 0,019, p < 0,05,
f Cohena = 0,37, a także efekt główny Częstości Kupowania, F(1, 37) = 6,95,
MSE = 0,124, p < 0,05, f Cohena = 0,41; dokładniejsze były oszacowania cen dla
produktów częściej kupowanych. Interakcja pomiędzy zmiennymi Waluta i Czę-
* Marques, Dehaene, 2004, stość Kupowania nie była istotna*.
s. 151.
Jest to chyba najpełniejszy opis wyników analizy wariancji, jaki można so-
bie wyobrazić.
• Autorzy ustosunkowują się do tego, czy wszystkie możliwe efekty anali-
zy są statystycznie istotne, czy nie: istotne są dwa efekty główne, a nie-
istotna jest interakcja.
386 WNIOSKOWANIE STATYSTYCZNE

• Dokładnie opisane jest to, na czym polega wpływ obu istotnych czynni-
ków: „dokładniejsze były oszacowania w escudo” oraz „...dla produktów
częściej kupowanych”.
• Podane są stopnie swobody dla testów F, z czego można łatwo wy-
wnioskować, że każdy czynnik był dwuwartościowy (pierwsza wartość
w nawiasie po F wynosi 1), oraz to, że do analizy wykorzystano osza-
cowania cen 39 produktów (N – k, czyli liczba wszystkich danych minus
liczba grup); oceny jednego produktu nie zostały wykorzystane ze
względu na braki danych.
• Oprócz liczby stopni swobody podane są także wartości MSE, czyli tzw.
błędu oszacowania. Wartość ta pozwala na zastosowanie alternatywnego
podejścia do weryfikacji hipotez statystycznych, czyli analizy wielkości
przedziałów ufności (pisaliśmy trochę na ten temat w rozdziale poświę-
conym estymacji, przy okazji omawiania nieobciążonego estymatora
wariancji).
• Opis każdego z czynników obejmuje również wielkość efektu, obliczoną
za pomocą wskaźnika f Cohena.
Dzięki połączeniu informacji o istotności statystyki F oraz współczynnika
wielkości efektu f Cohena wiemy, że wpływ obu czynników, czyli znajomo-
ści waluty oraz częstości kupowania, na dokładność oszacowania jest duży
(f w obu przypadkach oscyluje wokół 0,4). Znając wartość f Cohena, może-
my wyrazić wielkość efektu również za pomocą stosunku korelacyjnego η2,
korzystając z następującej zależności:
f2
η2 =
1+ f 2
W przypadku wielkości wpływu czynnika „Waluta” wartość η2 wynosi:
0,37 2
η2 = = 0,12
1 + 0,37 2
a wielkość wpływu czynnika „Częstość Kupowania”:
0,412
η2 = = 0,14
1 + 0,412
Zamieniając wartości η2 na procenty, możemy wyciągnąć wniosek, że w ba-
danej grupie Portugalczyków rozrzut w dokładności oszacowania w 12% był
związany z rodzajem waluty, a w 14% – z tym, jak często uczestnicy bada-
nia kupowali różne produkty. Być może, wnioski te wydają się oczywiste,
niemniej jednak wynik ten ma dużą wartość społeczną. Wiemy, że Portugal-
TESTOWANIE HIPOTEZ DOTYCZĄCYCH ŚREDNICH 387

czycy nie stosowali w praktyce przelicznika z euro na eskudo, bo gdyby tak


było, nie miałoby znaczenia, w jakiej walucie podają cenę, lecz wystarczy-
łoby stare ceny przemnożyć przez kurs. Wiemy też, że nauczenie się cen
w nowej walucie wymaga czasu – należy więc być szczególnie ostrożnym,
zwłaszcza przy sięganiu do portfela, gdy chcemy kupić coś, co na co dzień
kupujemy rzadko.

6.4. STATYSTYKA NA PROGU XXI WIEKU

ZACZNIJMY OD POWTÓRKI ZE SKAL POMIAROWYCH

Mało jest tak gorących sporów w metodologii badań społecznych, jak ten,
który dotyczy rozumienia skal pomiarowych. Zasadniczo chodzi w nim o to,
w jaki sposób należy traktować dane gromadzone za pomocą skal liczbo-
wych w badaniach, w których uczestnicy, wskazując na liczby, mówią coś o
swoich przekonaniach, postawach czy preferencjach. Stopniowe skale ocen,
którymi posługują się osoby badane, wybierając jedną odpowiedź z kilku
uporządkowanych według jakiejś zasady, nazywa się skalami typu Likerta.
Nazwa pochodzi od amerykańskiego psychologa Rensisa Likerta, który
w swojej pracy doktorskiej obronionej w Columbia University w roku 1932
wykorzystał kwestionariusz, w którym badani wyrażali nasilenie swoich po-
staw za pomocą punktów na skali od 1 do 5.
Rensis Likert
(1903-1981) Przykładem zastosowania tego typu skali może być forma udzielania odpo-
wiedzi na pytania dotyczące zaufania do różnych instytucji życia publiczne-
go, zadawane Polakom cyklicznie w Polskim Generalnym Sondażu Społecz-
* Cichomski, B., Jerzyński, T., nym*. W jednej z wersji tego sondażu, z roku 2002, respondenci oceniali 17
Zieliński, M. (2003). Polskie instytucji życia publicznego, m.in. przedsiębiorstwa państwowe i prywatne,
Generalne Sondaże Społeczne:
skumulowany komputerowy rząd, sejm, senat, policję, wojsko, Kościół katolicki, telewizję.
zbiór danych 1992-2002.
Warszawa: Instytut Studiów Zadaniem osób ankietowanych była ocena każdej z wymienianych instytucji
Społecznych, Uniwersytet War- za pomocą jednego z następujących określeń:
szawski.
1. Zdecydowanie zasługuje na zaufanie.
2. Raczej zasługuje na zaufanie.
3. Ani zasługuje, ani nie zasługuje na zaufanie.
4. Raczej nie zasługuje na zaufanie.
5. Zdecydowanie nie zasługuje na zaufanie.
Określenia te niewątpliwie spełniają wymagania skali porządkowej, czyli
jednej z prostszych skal pomiarowych, którą przedstawiliśmy w pierwszej
części naszego przewodnika. Przypomnijmy, że ze skalą porządkową (ran-
388 WNIOSKOWANIE STATYSTYCZNE

gową) mamy do czynienia wtedy, gdy jej wartości są uporządkowane we-


dług jakieś czytelnej zasady, ale nieznana jest jednostka pomiarowa. Można
oczywiście zamienić odpowiedzi osób badanych na liczby, np. przypisując
„1” określeniu „zdecydowanie zasługuje na zaufanie”, „2” – „raczej zasługu-
je na zaufanie” itd. Nie ma jednak podstaw do twierdzenia, że różnica mię-
dzy oceną np. sejmu jako „raczej zasługującego na zaufanie” a oceną „zde-
cydowanie zasługuje na zaufanie” jest taka sama, jak różnica między okre-
śleniami: „zdecydowanie nie zasługuje na zaufanie” i „raczej nie zasługuje
na zaufanie”.
I chociaż po zamianie wszystkich odpowiedzi na liczby różnice między ko-
lejnymi określeniami wynosiłyby po jednym punkcie, to jednak z powodu
braku stałej jednostki „zaufania publicznego” nie byłyby one sobie równe:
1 ≠ 1. W tym przypadku odpowiedzi można byłoby co najwyżej porówny-
wać w kategoriach „większy”, „taki sam” lub „mniejszy”.
Tę szczególną własność skali porządkowej trafnie podsumował w roku 1956
Sidney Siegel, pisząc w swoim podręczniku, że „właściwości skali porząd-
kowej nie są izomorficzne do systemu liczbowego znanego jako arytmetyka”
* Siegel, S. (1956). Nonparame- (s. 26)*. Znaczy to tyle, że wyrażone za pomocą liczb wartości na skali po-
tric statistics for the behavioral rządkowej nie są liczbami w tym samym znaczeniu, co liczby, z którymi
sciences. New York: McGraw-
Hill. spotykałeś się od pierwszej klasy szkoły podstawowej. Najważniejszą jednak
konsekwencją tego ograniczenia jest to, że dla danych porządkowych nie
można obliczyć średniej arytmetycznej. A jeśli nie można obliczyć średniej,
to nie można też obliczyć wariancji. Jeśli zaś nie można obliczyć wariancji,
to nie można też obliczyć ani testu t, ani testów F w analizie wariancji.

KOMU NAJBARDZIEJ UFAJĄ POLACY?

Wróćmy do przykładu i porównajmy częstości odpowiedzi na trzy pytania


dotyczące zaufania do instytucji publicznych. Wybraliśmy sejm, prasę oraz
naukę i naukowców. Częstość wybierania każdej z odpowiedzi przedsta-
wiona jest w tabeli 6.25.

Tabela 6.25. Częstość od- Czy zasługuje na zaufanie?


powiedzi w pytaniach doty-
czących zaufania do trzech (1) (2) (3) (4) (5) (–)
instytucji publicznych Zdecydowanie Raczej Ani za- Raczej Zdecydowanie Nie
w sondażu PGSS 2002 zasługuje zasługuje sługuje, nie za- nie zasługuje wiem
ani nie sługuje
zasługuje
Sejm 22 206 369 344 201 109
Prasa 96 498 363 167 46 76
Nauka
303 666 142 33 8 96
i naukowcy
TESTOWANIE HIPOTEZ DOTYCZĄCYCH ŚREDNICH 389

Rozkład częstości odpowiedzi jest dość czytelny. Jak widać, na największe


zaufanie respondentów zasługują naukowcy – miło nam. Wiadomo jednak
skądinąd, że różnice w rozkładzie odpowiedzi w próbie nie muszą odzwier-
ciedlać różnic w całej populacji. Żeby to stwierdzić, należałoby przeprowa-
dzić jakąś procedurę wnioskowania statystycznego. Gdyby dane były zgro-
madzone na skali przedziałowej, a rozkład odpowiedzi na każde pytanie był
zbliżony do normalnego i wariancje nie różniłyby się istotnie od siebie, wte-
dy mógłbyś zastosować analizę wariancji w wersji z powtarzanymi pomia-
rami i wiedziałbyś. A tak wszystkiemu winna ta skala porządkowa.

CZY MOŻNA STOSOWAĆ TEST t LUB F DLA DANYCH PORZĄDKOWYCH?

Zastosowanie testu t lub F wymaga sprawdzenia, czy zebrane dane spełniają


ich założenia. Na przykład test t można stosować tylko wtedy, gdy rozkład
danej cechy w populacji jest rozkładem normalnym i gdy wariancje w po-
równywanych próbach nie różnią się istotnie od siebie. No i oczywiście po-
miar zmiennej zależnej jest dokonany, co najmniej na skali przedziałowej.
Jeżeli którekolwiek z tych założeń nie jest spełnione, to stosowanie testu
t jest nieuzasadnione. Podobnie jest w przypadku testu F w analizie warian-
cji. Najkrócej mówiąc, założenia, jakie muszą być spełnione, żeby zastoso-
wać test t lub F, dotyczą skali pomiarowej (musi być co najmniej przedzia-
łowa) i rozkładu (musi być normalny w populacji). Nawiasem mówiąc, są
one ściśle ze sobą związane – niespełnienie pierwszego założenia powoduje,
że nie można sprawdzić drugiego.
Zastanówmy się jednak raz jeszcze nad zasadnością założenia dotyczącego
skali pomiarowej i zapytajmy, być może, nieco prowokacyjnie: Czy można
jednak przeprowadzić analizę wariancji albo test t na danych zebranych za
pomocą umownych skal ocen, które w gruncie rzeczy mają charakter po-
rządkowy? Żeby nie było wątpliwości, mamy tutaj na myśli m.in. taką skalę,
jaka została wykorzystana w badaniach nad zaufaniem do różnego typu in-
stytucji w Polsce. Śledząc literaturę statystyczną, można dojść do wniosku,
że to pytanie wcale nie jest aż tak prowokacyjne, a odpowiedź na nie by-
najmniej nie jest jednoznaczna. Najpierw zajmiemy się argumentacją tych,
którzy twierdzą, że można stosować testy t i F dla danych zgromadzonych za
pomocą skal porządkowych, a potem argumentacją tych, którzy twierdzą, że
nie można.

„LICZBY NIE WIEDZĄ, SKĄD POCHODZĄ”

Podstawowym założeniem testów t i F jest normalny rozkład badanej cechy


w populacji. Chcąc zastosować któryś z tych testów do weryfikacji hipotezy
zerowej, należy zatem wcześniej zweryfikować hipotezę dotyczącą kształtu
390 WNIOSKOWANIE STATYSTYCZNE

rozkładu danej cechy w populacji. Statystycy opracowali odpowiednie na-


rzędzia służące do tego celu (szczegółowo zajmiemy się nimi w następnej
części). Testy te weryfikują hipotezy dotyczące kształtu rozkładu w popula-
cji na podstawie wyników w badanej próbie. Jeżeli jednak dane zostały ze-
brane za pomocą skali porządkowej, to nie możesz dla nich obliczyć średniej
i wariancji, a co za tym idzie, nie możesz sprawdzać ich zgodności z rozkła-
dem normalnym. Średnia i odchylenie standardowe, czyli pierwiastek z wa-
riancji, to przecież podstawowe parametry rozkładu normalnego. Niewiele
możesz więc powiedzieć o kształcie rozkładu danej cechy w populacji, skoro
na podstawie danych nie możesz nawet w przybliżeniu oszacować – czy, jak
Frederic M. Lord wolisz, estymować – z jakim rozkładem normalnym miałbyś porównywać
(1913-2000)
swoje wyniki.
W naukach społecznych znacznie częściej gromadzi się dane za pomocą skal
porządkowych, niż się to nam na ogół wydaje. Trudno podejrzewać, że po-
miary agresji, wsparcia społecznego czy poparcia dla polityki rządu na liker-
towskich skalach składających się z kilku kategorii odpowiedzi mają jaką-
kolwiek stałą jednostkę. A jednak praktyka w zakresie analizy takich danych
jest różna. Część badaczy po prostu nie przejmuje się tym, że pomiary prze-
prowadzili za pomocą skali porządkowej, uznając, że jeżeli mogą w jaki-
kolwiek sensowny sposób zamienić odpowiedzi osób badanych na liczby, to
dalej mogą już z tymi liczbami robić, co chcą, a więc także liczyć średnią
i wariancję, no i oczywiście stosować testy t lub F. Są to zwolennicy tzw.
* Lord, F. (1946). On the statis- podejścia parametrycznego, czyli ci, którzy – zdaniem Frederica Lorda* –
tical treatment of football num- wiedzą, że „liczby nie wiedzą, skąd pochodzą”.
bers. American Psychologist, 8,
750-751. Obóz zwolenników podejścia parametrycznego do analizy pomiarów na ska-
li porządkowej jest całkiem spory, ale równie duży jest obóz przeciwników
** Dokładny opis obu stanowisk tego podejścia**. Ich główny argument zawiera się w cytowanej tezie Sid-
znajdziesz m.in. w artykule Jarla neya Siegla: nie można wykonywać żadnych operacji arytmetycznych na
Kampena i Marca Swynge-
douwa (2000), The ordinal con- danych zgromadzonych za pomocą skal porządkowych, ponieważ nie można
troversy revisited. Quality and ich traktować tak, jak traktuje się liczby w matematyce. Zwolennicy tego
Quantity, 34, 87-102.
podejścia rezygnują w tej sytuacji ze stosowania parametrycznych testów
t lub F do weryfikowania swoich hipotez badawczych i korzystają z innych,
np. nieparametrycznych.

O NIEJAWNYCH ZWIĄZKACH MIĘDZY SKALĄ PORZĄDKOWĄ I PRZEDZIAŁOWĄ

W zasadzie pierwszą osobą, która zwróciła uwagę na fakt, że pomiary na


skali porządkowej (rangowej) można traktować jako pewną wersję pomiaru
*** Por. Kampen, Swyngedouw, na skali przedziałowej, był sam Karl Pearson***. Powołując się na jego au-
2000. torytet, wielu statystyków twierdzi, że pomiary na skali rangowej są tylko
rezultatem kategoryzacji jakiejś ukrytej zmiennej, która w gruncie rzeczy ma
charakter przedziałowy.
TESTOWANIE HIPOTEZ DOTYCZĄCYCH ŚREDNICH 391

Zaufanie do różnych instytucji życia publicznego może być przecież nieob-


serwowalną zmienną przedziałową (a więc mieć stałe jednostki), jednakże
forma pytania o zaufanie wymusza na osobach badanych, by wybrali jedną
z przedstawionych im odpowiedzi. Wymaga to od nich tylko przekształcenia
ukrytej zmiennej przedziałowej na zmienną porządkową.
Co więcej, wyniki wielu kwestionariuszy psychologicznych są wypadkową
odpowiedzi na różne pytania – zgodnie z zaproponowanym przez autorów
kluczem – i tym bardziej można je traktować jako kategoryzację ukrytej
zmiennej przedziałowej.
Argument o ukrytej zmiennej ma jednak pewną słabość, ponieważ nie moż-
na go ani potwierdzić, ani obalić. Jeżeli ukrytą zmienną mierzymy wyłącznie
za pomocą skali porządkowej, to na jakiej podstawie stwierdzamy, że jest
Stanley Smith Stevens przedziałowa?
(1906-1973)
Drugi argument na rzecz równego traktowania wyników na skali porządko-
wej i przedziałowej uderza w samą zasadę podziału na skale pomiarowe. Jak
pamiętasz, autorem klasyfikacji skal pomiarowych na: nominalną, porząd-
kową, przedziałową i stosunkową był Stanley Smith Stevens, profesor Har-
vardu, który po raz pierwszy przedstawił ją w artykule opublikowanym
* Stevens, S. S. (1946) On the w 1946* w prestiżowym amerykańskim czasopiśmie Science. Od tamtego
theory of scales of measurement. czasu podział zaproponowany przez Stevensa przyjmowany jest (prawie)
Science, 103, 677-680.
bezdyskusyjnie w naukach społecznych. Ma on jednak również przeciwni-
ków, którzy twierdzą, że podział ten jest niewłaściwy.
Dyskusja między obrońcami a krytykami klasyfikacji Stevensa ciągnie się
już ponad 50 lat i nie będziemy jej tutaj referowali. Koniecznie jednak mu-
simy wspomnieć o tym, że zaproponowany przez Stevensa podział skal po-
miarowych nie jest jedyny oraz że istnieją takie przypadki danych, co do
** Por. Velleman, P. F., Wilkin- których nie można jednoznacznie stwierdzić, za pomocą jakiej skali pomia-
son, P. F. (1993). Nominal, or- rowej z kanonu Stevensa zostały one zebrane**. Najważniejsze jest jednak
dinal, interval, and ratio typolo-
gies are misleading. The Ameri- to, że skali pomiarowej nie daje się oderwać od tego, co konkretne pomiary
can Statistician, 47, 65-72. właściwie oznaczają.

DWIE HISTORYJKI, KTÓRE DAJĄ WIELE DO MYŚLENIA

Paul Velleman i Leland Wilkinson opisali następującą historyjkę. Na przyję-


ciu zorganizowanym przez jedną z sekcji Amerykańskiego Towarzystwa
Statystycznego wszystkie osoby wchodzące do sali otrzymywały losy z nu-
merkami: pierwsza dostała los z numerem 1, następna z numerem 2 itd. Pod
koniec przyjęcia wylosowano nagrodę dla osoby, która miała los z numerem
126. Gdybyś był jednym z uczestników tego przyjęcia, zapewne w chwili
ogłoszenia wyników spojrzałbyś na swój numer, aby sprawdzić, czy przy-
padkiem nie wygrałeś. Załóżmy, że miałbyś numer 53, a więc inny niż
392 WNIOSKOWANIE STATYSTYCZNE

wygrywający. Porównując swój numer z wylosowanym, przeprowadziłbyś


operację na skali nominalnej – po prostu sprawdziłbyś, czy Twój los jest taki
sam jak wygrywający, czy inny. Wynik Twojego rzutu oka na swój numer
można by zinterpretować w terminach umysłowego procesu kategoryzacji:
„53 należy do kategorii przegranych”.
Ponieważ losy rozdawano po kolei, mógłbyś również pomyśleć, że nie wy-
grałeś, ponieważ przyszedłeś za wcześnie. Wtedy potraktowałbyś numery
losów jako pomiary na skali porządkowej. Mógłbyś też rozejrzeć się po sali
i spróbować policzyć, ile jest wszystkich osób na przyjęciu, aby sprawdzić,
ile rozdano losów. Wtedy numery potraktowałbyś jako miary zliczania
uczestników przyjęcia, co oznaczałoby użycie skali stosunkowej. Te trzy
Paul Velleman
możliwe sposoby podejścia do losów ujawniają, że typ skali pomiarowej nie
zależy od tego, jakie dane uzyskujemy w wyniku pomiaru, ale od tego, co
one znaczą w konkretnej sytuacji. Nie można więc stwierdzić, czy dokonali-
śmy pomiaru na skali nominalnej, porządkowej, przedziałowej czy stosun-
kowej, w oderwaniu od tego, jak w danej sytuacji brzmi pytanie badawcze.
Kolejny argument zwolenników stanowiska nierozróżniania pomiędzy skalą
porządkową i interwałową jest w gruncie rzeczy najprostszy. Chodzi o cyto-
* Lord, F. (1946). On the statis- wane już powiedzenie Lorda, iż „liczby nie wiedzą, skąd pochodzą”*.
tical treatment of football num-
bers. American Psychologist, 8, W swoim artykule Lord przytacza zmyśloną, ale pouczająca historię.
750-751.
Na pewnym amerykańskim uniwersytecie był profesor, który miał obsesję
na punkcie statystyki. Tak się złożyło, że poproszono go o przydzielenie
numerów na koszulki zawodników uniwersyteckiej drużyny futbolu amery-
kańskiego. Profesor traktował oczywiście te numery jako wartości skali no-
minalnej. Numery są przecież potrzebne tylko po to, by odróżniać poszcze-
gólnych zawodników od siebie, i nie ma podstaw, by twierdzić, że np. gra-
cze o niższych numerach są słabsi niż gracze o wyższych numerach. Mimo
losowego przydziału numerów poszczególnym graczom okazało się, że stu-
denci drugiego roku otrzymali wyższe numery niż studenci pierwszego roku.
Dało to okazję do żartów ze strony starszych studentów, którzy twierdzili, że
są lepsi od swoich młodszych kolegów.
O całej historii dowiedział się inny profesor statystyki i – mimo protestów
tego pierwszego, że nie wolno obliczać średnich na skalach nominalnych –
przeprowadził odpowiedni test statystyczny. W rezultacie stwierdził, że
Leland Wilkinson
przydział numerów w taki sposób, jaki został przeprowadzony przez bohate-
ra tej historii, jest tak mało prawdopodobny, iż należy uznać, że numery stu-
dentów pierwszego roku nieprzypadkowo są niższe od numerów studentów
drugiego roku. Ten drugi profesor utrzymywał, że interesują go tylko liczby
i nie zamierza wnikać w to, czy są to numery na koszulkach, czy cokolwiek
innego. Liczby to liczby i można na nich wykonywać wszystkie matema-
tyczne operacje.
TESTOWANIE HIPOTEZ DOTYCZĄCYCH ŚREDNICH 393

* Gaito, J. (1980). Measurement Morał z tej historyjki John Gaito* przedstawił w następujący sposób:
scales and statistics: Resurgence
of an old misconception. Psy- W literaturze poświęconej statystyce matematycznej nie da się znaleźć miejsca,
chological Bulletin, 87, 564-567. gdzie by napisano, że wymogiem zastosowania takiej, a nie innej procedury staty-
stycznej jest skala pomiarowa. Wymaganie to istnieje jedynie w wyobraźni pewnej
liczby psychologów i powstało w wyniku pomylenia teorii pomiaru z teorią staty-
styczną (s. 564).

NIE NALEŻY MYLIĆ SKALI POMIAROWEJ Z INTERPRETACJĄ DANYCH

Akceptując przedstawioną argumentację, możesz więc spokojnie obliczać


średnie i wariancje dla danych zebranych na skali porządkowej, czyli np. dla
danych zawartych w tabeli 6.24, dotyczących zaufania Polaków do różnych
instytucji publicznych. Mianowicie średnie wyniki są następujące: zaufanie
do sejmu – 3,43, zaufanie do prasy – 2,63 i zaufanie do naukowców – 1,94.
Im niższa średnia, tym wyższe zaufanie.
Konieczne jest jednak pewne ostrzeżenie – nie do końca bowiem wiadomo,
co te średnie znaczą, a tym bardziej, jakie zmienne psychologiczne kryją się
za różnicami między nimi, i dlatego należy je traktować ostrożnie.
Możemy np. nie ufać sejmowi, ponieważ kojarzy nam się ze skorumpowa-
nymi politykami, a ufać nauce i naukowcom, ponieważ pozytywnie kojarzą
nam się z odkryciami w dziedzinie farmakologii lub z wynalazcami kom-
puterów.
Co stanowi zatem wspólny mianownik do porównania zaufania, jakim da-
rzymy te dwie instytucje społeczne? W tym kontekście jeszcze trudniej wy-
jaśnić, co dokładnie znaczy, że średnie zaufanie np. do naukowców wynosi
1,94 – jest to po prostu średnia arytmetyczna z odpowiedzi osób badanych,
które dość arbitralnie zamieniliśmy na liczby. Czy jednak rzeczywiście jest
to wynik pomiaru na jakieś ukrytej skali zaufania?
W pewnym sensie rozprawiliśmy się z twierdzeniem, które w pierwszej
części naszego przewodnika sami podaliśmy jako obowiązujące, „do
wierzenia”.
Dopuszczając liczenie średniej arytmetycznej i wariancji dla pomiarów wy-
rażonych na różnych skalach liczbowych, bynajmniej nie twierdzimy, że ich
podział, zaproponowany przez Stevensa, należy odłożyć do lamusa.
Pamiętajmy, że rodzaj operacji matematycznych, które możemy przeprowa-
dzić na zbiorze danych, przede wszystkim zależy od tego, jak je interpre-
** Por. Velleman, Wilkinson, tujemy**. Jeżeli obliczasz średnie dla danych zebranych za pomocą skali po-
1993. rządkowej, to musisz mieć świadomość, że średnie te powstały po zamianie
odpowiedzi osób badanych na liczby i do pewnego stopnia mają umowny
charakter.
394 WNIOSKOWANIE STATYSTYCZNE

W sondażu PGSS odpowiedzi dotyczące zaufania do instytucji publicznych


kodowane są w taki sposób, że im większe zaufanie, tym niższa odpowiada
mu liczba. Równie dobrze moglibyśmy je kodować odwrotnie – co, nawia-
sem mówiąc, intuicyjnie byłoby nawet bardziej zrozumiałe: im wyższe za-
ufanie, tym wyższa liczba. W takiej sytuacji średnie zaufanie do instytucji
przedstawionych w tabeli 6.24 przedstawiałoby się następująco: sejm – 2,57,
prasa – 3,37, naukowcy – 4,06. I tak, i tak jest dobrze – trzeba tylko pamię-
tać, co znaczą te liczby. Zwróć uwagę na to, że gdyby oznaczały one np.
czasy reakcji, wtedy nie mógłbyś już tak odwrócić skali pomiarowej.
Do uwagi Johna Gaito na temat mylenia przez niektórych psychologów teo-
rii pomiaru z teorią statystyczną należałoby dodać drugą, dotyczącą mylenia
skal pomiarowych z interpretacją gromadzonych za ich pomocą danych.

WERYFIKACJA HIPOTEZ, BŁĘDY WNIOSKOWANIA STATYSTYCZNEGO I TESTY MONTE CARLO

Czy jeśli się przyjmie argumentację, że można obliczać średnie i wariancje


dla danych zebranych za pomocą skal porządkowych, to tym samym nie ma
przeszkód, aby dla tych danych obliczać testy t lub F? W zasadzie tak, ale
pod warunkiem, że spełniają one założenia dotyczące rozkładu. I tu niespo-
dzianka: okazuje się, że dane zebrane za pomocą skal porządkowych
* Micceri, T. (1989). The praktycznie nigdy nie mają rozkładu normalnego. Theodore Micceri* prze-
unicorn, the normal curve, analizował 440 różnych zbiorów danych z artykułów dotyczących psycholo-
and other impossible creatures.
Psychological Bulletin, gii społecznej i stwierdził, że w odniesieniu do żadnego z tych zbiorów nie
105, 156-166. można było przyjąć założenia o normalności rozkładu badanej cechy w po-
pulacji. A zatem nikt nie powinien stosować w tych badaniach testów t i F,
ponieważ oba wymagają, aby badane cechy miały rozkład normalny. Czy
można jeszcze jakoś obronić wyniki tych badań psychologicznych?
Spróbujmy. Skorzystamy w tym celu z metody o zagadkowej nazwie Monte
Carlo. Jak wiesz, Monte Carlo jest dzielnicą miasta-państwa Monako, która
słynie z rajdów samochodowych i niezliczonej liczby kasyn. W statystyce
nazwy tej dzielnicy używa się na określenie metody symulacji zdarzeń lo-
sowych. Jej autorami są dwaj matematycy: Amerykanin, John von Neumann
(naprawdę miał na imię János i pochodził z rodziny węgierskich Żydów),
** Bardzo polecamy książkę Jó- oraz Polak, Stanisław Ulam**.
zefa Kozieleckiego wydaną w
roku 1999 przez Wydawnictwo Obaj panowie spotkali się podczas II wojny światowej w Los Alamos
Akademickie Żak pt.: Banach, w USA, współpracując nad realizacją słynnego projektu Manhattan, pod kie-
geniusz ze Lwowa, w której
przedstawiona jest analiza psy- runkiem Jacoba Roberta Oppenheimera. Niektóre szczegóły tego projektu do
chologiczna fenomenu szkoły dzisiaj są tajne, ale jednym z jego wyników było opracowanie metod pozwa-
lwowsko-warszawskiej, której
Stanisław Ulam był jednym z
lających na symulację zjawisk losowych, znanych obecnie jako metody
najwybitniejszych przedstawi- Monte Carlo. Są one stosowane z dużym powodzeniem zarówno w fizyce,
cieli. jak i w statystyce. Metody Monte Carlo pozwalają na generowanie populacji
TESTOWANIE HIPOTEZ DOTYCZĄCYCH ŚREDNICH 395

liczb, losowanie z tej populacji dowolnej liczby próbek i testowanie, jak


w stosunku do tych próbek mają się wyniki jakiegoś testu statystycznego,
* Por. Brooks, G. P. (2003). Us- np. testu t*. Zanim, na konkretnym przykładzie, prześledzimy ten sposób
ing Monte Carlo methods to myślenia, przypomnijmy, co to jest błąd I i błąd II rodzaju.
teach statistics. The MC2G
computer program. Understand- Błąd I rodzaju polega na odrzuceniu hipotezy zerowej wtedy, gdy de facto
ing Statistics, 2, 137-150.
powinna być przyjęta. Na przykład w odniesieniu do wyników badań nad
zaufaniem Polaków do różnych instytucji publicznych można postawić hipo-
tezę zerową, że „Polacy w jednakowym stopniu ufają Sejmowi, prasie oraz
nauce i naukowcom”. Jeżeli na podstawie analizy danych zawartych w tabeli
6.24 stwierdzisz, że hipotezę tę należy jednak odrzucić, to narazisz się na
błąd I rodzaju, czyli tzw. błąd α.
Błąd II rodzaju (zwany błędem β) polega na przyjęciu hipotezy zerowej wte-
dy, gdy tak naprawdę należałoby ją odrzucić. Popełnisz więc błąd II rodzaju
wtedy, gdy na podstawie danych stwierdzisz, że Polacy nie różnią się ze
względu na poziom zaufania do sejmu, prasy i naukowców. Niezależnie od
tego, jaką decyzję podejmiesz, zawsze jesteś narażony na popełnienie albo
błędu I rodzaju, albo błędu II rodzaju.
Testowanie hipotez statystycznych polega na sprawdzeniu, jakie jest praw-
dopodobieństwo uzyskania takich danych, jak te, które właśnie uzyskałeś
w konkretnym eksperymencie, przy założeniu, że prawdziwa jest hipoteza
zerowa. Jeżeli prawdopodobieństwo to jest niższe od przyjętej na wstępie
John von Neumann badań wartości kryterialnej (najczęściej 0,05), to hipoteza zerowa zostaje od-
(1903-1957) rzucona.
W odniesieniu więc do wyników badań nad zaufaniem, hipotezę alternatyw-
ną przyjmujesz, stwierdzając, że jest bardzo małe prawdopodobieństwo uzy-
skania takiego rozkładu danych, jaki akurat otrzymałeś w wyniku tych ba-
dań, przy założeniu, że Polacy w takim samym stopniu ufają różnym insty-
tucjom życia publicznego. Przyjęcie poziomu odrzucania hipotezy zerowej
α = 0,05 w naszym przykładzie oznacza, że gdyby w badanej populacji (tj.
wśród wszystkich dorosłych Polaków) rzeczywiście nie było żadnych różnic
pod względem badanej cechy (tzn. wszyscy mieliby takie samo zaufanie do
różnych instytucji życia publicznego), to taki rozkład wyników, jaki otrzy-
małeś, mógłby się pojawić co najwyżej w 5% sytuacji, gdybyś swoje bada-
nie powtarzał nieskończenie wiele razy. To brzmi jak mantra z części po-
święconej logicznym podstawom wnioskowania statystycznego.
Wykorzystanie metod Monte Carlo i komputerów (w tym domowych PC-
tów, bo są już dostatecznie mocne) pozwala na sprawdzenie, czy rzeczywi-
ście „taki rozkład, jaki otrzymaliśmy, pojawiłby się co najwyżej w 5% ba-
Stanisław Ulam
dań”, gdybyśmy rzeczywiście wylosowali może nie nieskończenie wiele
(1909-1984) próbek, ale prawie nieskończenie wiele próbek.
396 WNIOSKOWANIE STATYSTYCZNE

STATYSTYCZNE ZABAWKI?

Do obliczeń wykorzystaliśmy jeden z dostępnych w Internecie darmowych


* Dokładniej program ten oraz programów Monte Carlo, którego autorem jest Gordon Brooks*. Załóżmy,
sposób jego wykorzystanie jest
przedstawiony w cytowanym że uczestnicy sondażu PGSS nie różnią się pod względem poziomu zaufania
artykule Brooksa (2003). do prasy, sejmu i naukowców. Jako punkt wyjścia przyjmijmy średni po-
ziom zaufania do naukowców, czyli 1,94 (odchylenie standardowe w tej
próbie wyniosło 0,95). Badanie przeprowadzono na próbie 1152 osób. Za-
łóżmy na razie, że dane dotyczące zaufania do naukowców nie odbiegają
istotnie od rozkładu normalnego. Korzystając z programu Monte Carlo, wy-
losowaliśmy 10 000 zestawów po 3 próbki (odpowiadające trzem porówny-
wanym instytucjom) o liczebności 1152 osób, przyjmując, że pochodzą one
z populacji o rozkładzie normalnym, o średniej 1,94 i odchyleniu standar-
dowym 0,95. Dla każdego z tych dziesięciu tysięcy zestawów program obli-
czył test F (analiza wariancji) i okazało się, że hipoteza zerowa została od-
rzucona dokładnie w 490 przypadkach, co stanowi 0,049% ze wszystkich
wygenerowanych przez komputer próbek. Oznacza to, że gdyby rzeczywi-
ście w całej populacji poziom zaufania do trzech instytucji był taki sam – np.
taki, jak poziom zaufania do naukowców – wówczas odrzucilibyśmy hipote-
zę zerową w mniej niż 5% przypadków, a więc przy takim samym poziomie,
jaki najczęściej zakładamy, stosując test F w analizie wariancji.
No to bawmy się dalej. Metody Monte Carlo można wykorzystać również
do tego, by sprawdzić, czy test statystyczny zachowuje odpowiedni poziom
prawdopodobieństwa popełnienia błędu I i II rodzaju. Błąd II rodzaju popeł-
niamy wtedy, gdy za prawdziwą uznamy nieprawdziwą hipotezę zerową.
Obliczmy prawdopodobieństwo popełnienia błędu II rodzaju dla naszych
danych. Średnie i odchylenia standardowe dla poziomu zaufania do prasy
wyniosły: x prasa = 2,62; σprasa = 0,96, i do Sejmu – x Sejm = 3,42; σSejm = 1,04.
Błąd II rodzaju popełnimy wtedy, gdy uznamy, że poziom zaufania do na-
ukowców, sejmu i prasy jest taki sam, podczas gdy w rzeczywistości będzie
różny. Do naszego programu Monte Carlo wpisaliśmy więc parametry
zmiennych z badania PGSS. Dla uproszczenia przyjęliśmy, że wszystkie
zbiory liczą tylko po 15 obserwacji. Parametry porównywanych przez nas
rozkładów są następujące:
• Zaufanie do nauki i naukowców: x nauka = 1,94; σnauka = 0,95; n = 15;
• Zaufanie do prasy: x prasa = 2,62; σprasa = 0,96; n = 15;

• Zaufanie do sejmu: x sejm = 3,42; σsejm = 1,04; n = 15.


Są to parametry trzech populacji, z których losujemy 10 000 trójek zbiorów
po 15 elementów. Wynik: stosując test F, odrzucilibyśmy hipotezę zerową w
9489 sytuacjach. Oznacza to także i to, że na 10 000 przypadków w 511 sy-
TESTOWANIE HIPOTEZ DOTYCZĄCYCH ŚREDNICH 397

tuacjach (10000 – 9489 = 511), czyli w 5,11% przypadków, przyjęlibyśmy,


że hipoteza zerowa jest prawdziwa, co byłoby właśnie błędem II rodzaju, bo
z hipotezy alternatywnej wynika, że średnie wskaźniki zaufania do trzech in-
stytucji są różne.

CZY TEST F JEST … ELASTYCZNY?

Stosując metody Monte Carlo, sprawdziliśmy, jak często popełnia się błąd
I lub II rodzaju, pobierając wiele razy próbki z populacji o znanych parame-
trach. Z naszego punktu widzenia najważniejsze jest jednak to, że metody
Monte Carlo pozwalają również na sprawdzenie, w jakim stopniu dany test
jest elastyczny (robust) wobec odstępstw danych od jego założeń, czyli jak
zmienia się jego wynik np. w zależności od większych lub mniejszych od-
chyleń danych od normalności. Przeanalizujemy to dokładniej dla testu
F w sytuacji, gdy nie są spełnione różne założenia analizy wariancji.
Założenie o normalności rozkładu analizowanej cechy w populacji jest pod-
stawą stosowania testu F. Sprawdziliśmy, jak zmieniłaby się wartość testu F,
gdyby zaufanie do instytucji publicznych nie było rozkładem normalnym.
Korzystając z programu Monte Carlo, pobraliśmy 10 000 zestawów po trzy
próbki, każda o liczebności 100 elementów. We wszystkich próbkach śred-
nia i odchylenie standardowe były takie same jak w grupie danych dotyczą-
cych zaufania do naukowców, czyli odpowiednio 1,94 i 0,95. W programie
ustawiliśmy jednak dwa ograniczenia. Po pierwsze, komputer miał pobierać
próbki z rozkładu, który nie jest normalny, i po drugie, w każdej z tych pró-
bek mogły się znaleźć tylko liczby całkowite z przedziału od 1 do 5. Inaczej
mówiąc, ustawiliśmy parametry programu w taki sposób, aby generował da-
ne analogiczne do danych z sondażu PGSS, z którego korzystaliśmy.
Okazało się, że hipoteza zerowa, zgodnie z którą próbki pochodzą z tej sa-
mej populacji, zostałaby odrzucona w 514 przypadkach na 10 000. Wiemy
jednak przecież, że w symulowanej sytuacji hipoteza zerowa jest prawdziwa,
ponieważ założyliśmy, że średnie we wszystkich trzech zbiorach są takie
same i wynoszą 1,94. Wynik programu Monte Carlo oznacza, że stosując
test F, popełnilibyśmy błąd I rodzaju, czyli odrzucilibyśmy prawdziwą hipo-
tezę zerową w 5,14% przypadków. Chyba nie masz wątpliwości, że wobec
tego warto zaryzykować i zastosować test F dla danych, które nie pochodzą
z rozkładu normalnego, ale np. skośnego. Różnica w wielkości błędu I ro-
dzaju w tej sytuacji, w porównaniu z sytuacją, gdyby rozkład był normalny,
wynosi zaledwie 0,0014 (0,0514 – 0,05 = 0,0014), czyli niespełna 3% więcej
⎛ 0,0014 ⎞
od wartości 0,05 ⎜ = 0,028 ⎟ . Większość osób zajmujących się symu-
⎝ 0,05 ⎠
lacjami Monte Carlo uważa, że można uznać dany test statystyczny za wy-
398 WNIOSKOWANIE STATYSTYCZNE

starczająco elastyczny wtedy, gdy rzeczywisty poziom odrzucania hipotezy


zerowej nie odbiega od przyjętego poziomu α o więcej niż 5%.
Symulacje, przeprowadzone przez nas do tej pory za pomocą metod Monte
Carlo, pozwalają na wyciągnięcie wniosku, że można stosować test F nawet
wtedy, gdy rozkład danej cechy nie jest normalny. Co jednak z drugim zało-
żeniem analizy wariancji, zgodnie z którym wariancje w porównywanych
grupach nie mogą istotnie różnić się od siebie? Sprawdźmy zatem, w jaki
sposób odbiegające od siebie wariancje w grupach wpłyną na wynik testu F.
Wystarczy, że do programu Monte Carlo tym razem wpiszemy polecenie,
aby wylosował 10 000 trójek próbek o takiej samej średniej – niech będzie
nadal 1,94 – ale o różnych wariancjach. Wcześniej założyliśmy, że wszyst-
kie trzy odchylenia standardowe wyniosły 0,95. Teraz przyjmiemy, że jest to
wartość odchylenia standardowego w pierwszym zbiorze danych. W drugim
zbiorze wartość ta będzie dwukrotnie wyższa, czyli 1,90, a w trzecim – trzy-
krotnie wyższa, czyli 2,85. Utrzymaliśmy również założenie, że dane nie po-
chodzą z rozkładu normalnego i mogą przyjmować wartości całkowite
z przedziału od 1 do 5. Chwilę później na ekranie komputera pojawił się
wynik. Dla 10 000 wygenerowanych trójek prób, po 100 danych w każdej,
aż w 4054 przypadkach odrzucilibyśmy hipotezę zerową, stosując test F. To
znaczy, że mając identyczne średnie, musielibyśmy uznać, że różnią się one
statystycznie od siebie. Uwaga: czerwone światło! Test F jest znacznie mniej
elastyczny na nierówne wariancje w grupach niż na odchylenia danych od
rozkładu normalnego.

MONTE CARLO – KONIEC GRY, PORA NA WNIOSKI

Metody Monte Carlo czasem nazywa się testerami testów. Przeprowadzili-


śmy test testu F i okazało się, że jest on całkiem odporny na odchylenia od
normalności, ale znacznie mniej odporny na niespełnione założenie o jed-
norodności wariancji w porównywanych grupach. Chociaż nasze zabawy
z programem Monte Carlo i testem F miały przede wszystkim charakter dy-
daktyczny, to jednak oba te wnioski są na ogół akceptowane przez statysty-
ków. Co więcej, oba w tym samym stopniu dotyczą także testu t. Związek
jednak między niejednorodnością wariancji a odpornością testu nie jest pro-
porcjonalny. Prawdopodobieństwo popełnienia błędu I rodzaju jest tym
większe, im mniej jednorodne są wariancje. Istotnym czynnikiem jest także
wielkość porównywanych prób. Niejednorodność wariancji w dużych pró-
* Por. Zimmerman, D. (2004). bach w mniejszym stopniu modyfikuje wynik testu niż w małych próbach*.
A note on preliminary tests of
equality of variances. British Wyniki zarówno analiz teoretycznych, jak i badań wykorzystujących metody
Journal of Mathematical and
Statistical Psychology, 57,
Monte Carlo pozwalają na ułożenie katalogu sytuacji, w których można sto-
173-181. sować testy parametryczne i w których nie można ich stosować. Taki kata-
log jest oczywiście pewnym uproszczeniem. Nie uwzględnia przypadków
TESTOWANIE HIPOTEZ DOTYCZĄCYCH ŚREDNICH 399

szczególnych, a także tego, co jest w gruncie rzeczy najważniejsze, czyli


tradycji analitycznej w danej dziedzinie. O tym, kiedy możesz stosować test
parametryczny, a kiedy nie, ostatecznie powinno zdecydować Twoje do-
świadczanie i pomoc tych, którzy mają go więcej niż Ty. Niemniej jednak
tych kilka wskazówek może się przydać.
• Testy t i F są dosyć elastyczne, w odniesieniu do założenia o normalno-
ści rozkładu badanej cechy w populacji. W praktyce, jeśli próbki są
większe niż 12 elementów, to na wynik testu nie ma wpływu to, czy
* Por. Good, P.I, Hardin, J.W. pochodzą z populacji o rozkładzie normalnym, czy nienormalnym*.
(2003). Common errors in statis-
tics (and how to avoid them). • Testy t i F są mało elastyczne wobec zróżnicowania wariancji w porów-
Hoboken: John Wiley and Sons
Inc.
nywanych próbach. Trudno jest jednak stwierdzić, jak duża musiałaby
być różnica między wariancjami, żeby nie można było stosować tych te-
stów. Najbezpieczniej jest zatem przyjąć zasadę, że nie należy ich sto-
sować wtedy, gdy po sprawdzeniu jednorodności wariancji (np. testem
Levene’a) nie można utrzymać hipotezy o ich jednorodności.
• Odporność testów t i F w dużym stopniu zależy od wielkości próbek. Im
większa jest różnica między liczebnościami porównywanych zbiorów,
tym większe jest ryzyko popełnienia błędu I lub II rodzaju. Nie ma jed-
nak żadnych wskazań co do wielkości „dozwolonych” lub „niedozwolo-
nych” różnic. W tej kwestii musisz zdać się raczej na intuicję.

GDY JEDNAK NIE MOŻNA STOSOWAĆ TESTÓW PARAMETRYCZNYCH...

Wymienione trzy zasady potraktuj nie tyle jako obowiązujące reguły, ile ra-
czej jako użyteczne wskazówki. Problemy związane ze stosowaniem testów
parametrycznych dla danych gromadzonych za pomocą skali rangowej,
a także wtedy, gdy nie jest spełnione założenie o normalności rozkładu ba-
danej cechy w populacji, wciąż są przedmiotem nierozstrzygniętej dyskusji.
Jedni, powołując się na wyniki badań prowadzonych za pomocą metod
Monte Carlo, uspokajają sumienie badacza, który zastosował test t lub F,
w odniesieniu do „wątpliwych” danych. Drudzy, powołując się na mniej
więcej podobną liczbę badań, dowodzą, że nie można stosować metod para-
metrycznych dla danych porządkowych i gdy niespełnione są założenia
** Por. Cliff, N. (1996). Ans- dotyczące rozkładu badanej cechy w populacji**.
wering ordinal questions with
ordinal data using ordinal statis- Końca sporu nie widać i w takim punkcie go zostawimy. W tej sytuacji ma-
tics. Multivariate Behavioral Re- my do wyboru:
search, 31, 331-350.
• albo stosować testy parametryczne i akceptując przytoczoną tutaj argu-
mentację, stłumić nieco wyrzuty sumienia,
• albo niczego nie tłumić i jeśli mamy wątpliwości, posłużyć się tradycyj-
nymi testami nieparametrycznymi,
400 WNIOSKOWANIE STATYSTYCZNE

• albo zastosować którąś z metod repróbkowania: bootstrapową lub per-


mutacyjną.
Na początek zajmiemy się tym ostatnim „albo” i przedstawimy metody, któ-
re w wątpliwych sytuacjach można stosować zamiast testów t lub F. I tylko
jeszcze jeden komentarz. Dla niektórych statystyków słowo „zamiast” użyte
w tym kontekście oznacza „wtedy, gdy nie można stosować testów
* Zob. np. Cliff, 1996. parametrycznych”*. Tej grupie testów poświęcimy cały następny rozdział
naszego przewodnika. Standardowo są one dostępne w komputerowych pa-
kietach statystycznych. Nazywa się je testami nieparametrycznymi, ponie-
waż można z nich korzystać wtedy, gdy nie są spełnione założenia testów
parametrycznych (np. o normalności rozkładu w populacji) lub nie są znane
parametry rozkładu badanej cechy.
Dla innych statystyków „zamiast” oznacza po prostu „inną metodę staty-
styczną”, dobraną w zależności od tego, która lepiej odpowiada zgroma-
** Por. Good, P. I, Hardin, J. W. dzonym przez ciebie danym i stawianym hipotezom badawczym**. Ponie-
(2003). Common errors in statis- waż oprócz testów parametrycznych i nieparametrycznych są jeszcze meto-
tics (and how to avoid them).
Hoboken: John Wiley and Sons dy, które ogólnie nazywa się metodami repróbkowania (ang. resampling),
Inc. najpierw więc pomówmy o nich.

STARE-NOWE METODY REPRÓBKOWANIA

Metody repróbkowania odwracają o 180 stopni wszystko to, co napisaliśmy


do tej pory o testowaniu hipotez. Zgodnie z klasyczną statystyką wnioski
z badań wyciągamy na podstawie porównania uzyskanych wyników w pró-
bie z jakimś rozkładem teoretycznym. Na przykład jeżeli chciałbyś wiedzieć,
czy wśród studentów psychologii przeważają kobiety, mógłbyś porównać
rozkład płci w określonej grupie ćwiczeniowej z rozkładem dwumianowym.
Załóżmy, że w pewnej grupie jest 15 kobiet i 5 mężczyzn. Hipoteza zerowa
brzmiałaby:
H0: Wśród studentów psychologii jest taka sama liczba kobiet i mężczyzn.
Hipoteza alternatywna zaś:
H1: Wśród studentów psychologii więcej jest kobiet niż mężczyzn.
Zgodnie z hipotezą zerową zakładasz, że prawdopodobieństwo dostania się
do grupy ćwiczeniowej kobiety lub mężczyzny jest takie samo, czyli wynosi
0,5. Z kolei prawdopodobieństwo proporcji 15 do 5 w rozkładzie dwumia-
nowym wynosi 0,02. Gdybyś przyjął, że odrzucasz hipotezę zerową, jeśli jej
prawdopodobieństwo jest niższe niż 0,05, wówczas mógłbyś uznać, że pro-
porcje kobiet i mężczyzn na psychologii nie są sobie równe.
TESTOWANIE HIPOTEZ DOTYCZĄCYCH ŚREDNICH 401

Równie dobrze mógłbyś jednak postąpić inaczej. Masz dziesięć karteczek


z literą „K” i dziesięć z literą „M”. Dysponujesz więc zbiorem różnych
obiektów w zgodnej z hipotezą zerową proporcji kobiet i mężczyzn w grupie
ćwiczeniowej. Ze zbioru karteczek losujesz „studentów”, którzy zapisali się
na ćwiczenia. Wyciągasz pierwszą karteczkę, zapisujesz literę „K” lub „M”,
po czym zwracasz tę karteczkę do całego zbioru. Mieszasz wszystkie kar-
teczki, wyciągasz następną, zapisujesz płeć, zwracasz, i tak 20 razy. W ten
sposób uzyskałeś próbę 20 obserwacji, która odpowiada 20 studentom, któ-
rzy zapisali się na ćwiczenia, przy założeniu, że liczba zapisujących się ko-
biet i mężczyzn jest taka sama. Dlatego właśnie po wylosowaniu każdej kar-
teczki musisz ją zwracać do puli, aby proporcja była ciągle taka sama.
My również zrobiliśmy to zadanie. W naszej wylosowanej „grupie ćwicze-
niowej” znalazło się 8 mężczyzn i 12 kobiet. Chociaż liczba kobiet i męż-
czyzn nie jest taka sama, nie ma wątpliwości, że jest to dzieło przypadku, bo
skład tej grupy powstał w wyniku losowania ze zbioru, w którym proporcja
kobiet i mężczyzn była zgodna z hipotezą zerową. Można jednak zrobić na-
stępny krok i wylosować kolejną dwudziestkę obserwacji z tego samego
zbioru karteczek. Znowu będzie jakaś proporcja kobiet do mężczyzn i znowu
będzie ona losowa. Tę samą procedurę można powtórzyć np. 1000 razy
i w ten sposób otrzymać 1000 grup ćwiczeniowych po 20 osób. Proporcje
kobiet i mężczyzn w tych wszystkich grupach będą nadal przypadkowe. Je-
ślibyś chciał dalej się bawić, to możesz zapisać te proporcje od najmniejszej
do największej, co mogłoby wyglądać mniej więcej tak:
0,2 0,25 0,25 0,25 … itd., aż do … 0,8 0,8 0,85.
Zapisaliśmy początek i koniec zbioru 1000 proporcji karteczek z literą „K”
lub inaczej, kobiet w grupie ćwiczeniowej do wszystkich uczestników zajęć.
Zapis 0,2 oznacza, że w grupie jest 20% kobiet i oczywiście 80% mężczyzn.
Ta proporcja jest najniższa i uzyskaliśmy ją tylko jeden raz na 1000 loso-
wań. Najwyższą proporcją jest 0,85 i też uzyskaliśmy ją tylko raz. Aż w 173
wylosowanych grupach 20 karteczek pojawiła się proporcja 0,5. Ta wystę-
powała najczęściej. Wszystkie proporcje są oczywiście przypadkowe.
W grupie ćwiczeniowej, od której zaczęliśmy ten opis, było 15 kobiet i 5
mężczyzn. W naszym zbiorze odpowiada to proporcji 0,75 (15 kobiet na 20
uczestników zajęć stanowi 75%, czyli 0,75). Bez trudu możemy sprawdzić,
ile jest proporcji równych i wyższych niż 0,75. Okazuje się, że na tysiąc lo-
sowań, taka lub wyższa proporcja pojawiła się 20 razy. Dzieląc 20 przez
1000, otrzymasz 0,02. Jest to wartość prawdopodobieństwa tego, że losując
płeć osoby do grupy ćwiczeniowej, otrzymasz liczbę co najmniej 15 kobiet.
Możesz więc spokojnie odrzucić hipotezę zerową i stwierdzić, że 15 kobiet
w dwudziestoosobowej grupie ćwiczeniowej nie jest dziełem przypadku.
402 WNIOSKOWANIE STATYSTYCZNE

* Jeśli chcesz, możesz sam zro- Jak się zapewne domyślasz, nie losowaliśmy „ręcznie” tysiąca próbek ze
bić to samo, ściągając program zbioru 20 karteczek. Wykorzystaliśmy do tego celu komputer i odpowiedni
ze strony www.resample.com
program*. Metody repróbkowania zostały wymyślone w latach 30. XX
** Piotr Durka (2003) podaje, że wieku i są jedną z wersji metod Monte Carlo**. Na dobre zadomowiły się
jedną z tych metod, tzw. testy one w statystyce dopiero w latach 90. ubiegłego stulecia, gdy moc oblicze-
permutacyjne, opracował już w
latach 30. nie kto inny, tylko niowa komputerów stała się wystarczająco duża, aby poradzić sobie z takimi
sam Ronald Fisher. zadaniami w rozsądnie krótkim czasie. Niewątpliwą zaletą tych metod jest
to, że można je stosować niezależnie od rozkładu danych w populacji. Wy-
starczy „w kółko” powtarzać losowanie ze znanego zbioru danych. Stąd wła-
śnie wzięła się nazwa „repróbkowanie”. Nie będziemy przedstawiać dyskusji
na temat skuteczności tych metod. W prosty sposób prezentuje je Piotr Dur-
ka w swojej książce Wstęp do współczesnej statystyki. My natomiast przed-
stawimy w skrócie dwie główne ich wersje, czyli metody bootstrapowe
i permutacyjne.

POMYSŁY BRADLEYA EFRONA NA METODY RZEMYKOWE

Słowa bootstrap albo bootstraping kojarzą się z baronem Münchhausenem,


który wyciągnął się z wody za włosy albo – w zależności od wersji legendy
– za rzemienie od swoich butów (oczywiście kojarzą się tylko tym, którym
się kojarzą). Choć bootstrap tłumaczy się na język polski jako „rzemyk”, to
po angielsku najczęściej jest ono używane w wyrażeniu pull oneself up by
one’s own bootsraps i oznacza wyciągnięcie się z bardzo trudnej sytuacji bez
pomocy kogoś innego, a co więcej – za pomocą prostych środków, jak doda-
je nasza ulubiona internetowa Wikipedia***.
W statystyce słowo bootstrap oznacza jedną z metod estymowania parame-
trów populacji i weryfikacji hipotez. W zasadzie nie jest ono tłumaczone na
Bradley Efron
język polski, choć czasami używa się określenia „metody sznurowadło-
we”****. Autorem tych metod jest Bradley Efron. Początkowo metody te
były stosowane do szacowania przedziałów ufności na podstawie danych w
próbie, później jednak Efron rozszerzył ich stosowanie na weryfikację
*** http://en.wikipedia.org/wiki/ hipotez*****.
Bootstrap
Przedstawimy przykład wykorzystania metod bootstrap w statystyce na
**** Por. np. Durka, P. J. przykładzie estymacji średniej w populacji na podstawie danych w próbie.
(2003). Wstęp do współczesnej
statystyki. Warszawa: Wydaw-
W tym celu wykorzystamy oceny zaufania do nauki i naukowców wśród
nictwo Adamantan. pierwszych 20 osób z sondażu PGSS. Zbiór tych odpowiedzi zakodowanych
w postaci liczb jest następujący: 2, 2, 1, 2, 1, 2, 2, 2, 2, 2, 2, 1, 2, 5, 2, 2, 2, 2,
***** Efron, B. (1988). Boot-
strap confidence intervals: good
2, 3 (im niższa wartość, tym wyższe zaufanie).
or bad? Psychological Bulletin,
104, 293-296.
Wpisaliśmy te liczby do programu i poprosiliśmy komputer (spróbowałby
nas nie posłuchać!) o wylosowanie z tego zbioru, ze zwracaniem, dziesięciu
tysięcy próbek dwudziestoelementowych. Losowanie ze zwracaniem jest
TESTOWANIE HIPOTEZ DOTYCZĄCYCH ŚREDNICH 403

najważniejszym elementem metod bootstrapowych, ponieważ dzięki niemu


każda liczba ma taką samą szansę znalezienia się w każdej z wylosowanych
próbek. Dla wszystkich 10 000 próbek komputer obliczył średnie arytme-
tyczne. Środkowe 95%, czyli 9500 średnich, znalazło się w przedziale od
1,75 do 1,85.
A teraz uważaj. Gdybyś zechciał oszacować, jakie jest średnie zaufanie do
nauki i naukowców na podstawie tylko 20 wyników, to korzystając z metody
bootsrapowej, stwierdziłbyś, że ponieważ 95% uzyskanych przez Ciebie
średnich leży w przedziale 1,75–1,85, więc najprawdopodobniej w tym
przedziale znajduje się także prawdziwa średnia w populacji. Zakładając, że
średnia znajdowałaby się w środku tego przedziału, pomyliłbyś się tylko
o 0,14 punktu (1,94 – 1,80 = 0,14) w stosunku do średniego poziomu zaufa-
nia do nauki i naukowców ustalonego w badaniu PGSS na podstawie próby
ponad 1000 respondentów. Gdybyś zamiast tego obliczył przedział ufności
dla średniej, korzystając ze standardowych metod, które przedstawiliśmy w
rozdziale o estymacji, wtedy z tym samym poziomem ufności (95%) ustalił-
byś przedział od 1,66 do 2,44. Wprawdzie pokrywa on średnią równą 1,94,
ale jest znacznie większy od przedziału znalezionego za pomocą metody
bootstrapowej. Nie ma metod idealnych, każda ma swoje „plusy dodatnie”
i „plusy ujemne”.
Bootstraping to dokonywanie rzeczy niemożliwych w najprostszy sposób.
Dokładnie to miał na myśli Bradley Efron, formułując założenia swoich me-
tod. Trzeba też przyznać, że założenia te nie są szczególnie skomplikowane.
Podstawowa wada metod bootstrapowych jest związana z ich podstawową
zaletą – przetwarzanie tylko jednego niewielkiego zbioru danych wymaga,
aby ten zbiór był reprezentatywny dla całej populacji. Im bardziej tenden-
cyjny jest dobór próby, tym większa możliwość pomyłki. Zasada ta potwier-
dza się w odniesieniu do wszystkich statystyk. Każda metoda bowiem daje
„na wyjściu” tylko tyle, ile do niej „włożymy”.

TESTY PERMUTACJNE, CZYLI NA ILE SPOSOBÓW MOŻNA UPORZĄDKOWAĆ ZBIÓR LICZB

Testy permutacyjne, podobnie jak metody bootstrapowe, nie wymagają tego,


by były spełnione założenia dotyczące rozkładu badanych cech w populacji.
W matematyce słowo „permutacja” oznacza porządkowanie elementów
zbioru w różnej kolejności. Jeżeli zbiór składa się np. z trzech elementów
{A, B, C}, to elementy te mogą być rozmieszczone na sześć sposobów:
ABC ACB BAC BCA CAB CBA
Reguła takiego przestawiania jest bardzo prosta. Jeżeli pierwsza będzie litera
A, to po niej można ustawić litery B i C w dwóch różnych kolejnościach –
albo pierwsze będzie B, albo C. Każda z trzech liter może być pierwsza,
404 WNIOSKOWANIE STATYSTYCZNE

a pozostałe dwie zawsze można ustawić na dwa sposoby, co daje 2 razy 3,


czyli 6 układów. Liczba możliwych ustawień, czyli permutacji, jest równa
silni obliczonej dla liczby elementów.
Dla trzech liter silnia, czyli 3! = 1 × 2 × 3 = 6. Im więcej jest elementów,
tym szybciej wzrasta liczba permutacji. Na przykład 5 obiektów można
ustawić na 120 sposobów, natomiast 10 – już na ponad 3,5 miliona. Nic
dziwnego, że do metod permutacyjnych nie ma co się zabierać bez kompute-
ra. Najpierw zobaczmy jednak na prostym przykładzie, na czym polega za-
stosowanie tych metod do weryfikacji hipotez. Weźmy pod uwagę odpowie-
dzi trzech pierwszych osób badanych z sondażu PGSS na pytania dotyczące
zaufania do prasy i do naukowców. Oto ich wyniki:
Tabela 6.25. Odpowiedzi Zaufanie do
trzech pierwszych osób Osoba
z sondażu PGSS na pytania prasy nauki i naukowców
dotyczące zaufania do prasy A 3 2
i do naukowców
B 2 2
C 5 2
Średnia 3,33 2,0

Trzy osoby z tabeli 6.25 bardziej ufają naukowcom niż prasie. Załóżmy jed-
nak, że w rzeczywistości osoby te mają takie samo zaufanie do obu instytu-
cji. W takiej sytuacji przedstawiony w tabeli 6.25 podział wyników na dwie
grupy należy uznać za przypadkowy.
Na ile sposobów można podzielić tych 6 liczb na dwie grupy? Podział zbioru
6-elementowego na dwa zbiory po 3 jest równoznaczny z wylosowaniem 3
liczb z 6 i wtedy ta wylosowana trójka stanowi jeden zbiór, a te niewyloso-
wane – drugi. Na przykład jeżeli wylosujemy liczby {2, 3, 2}, to drugi zbiór
będą stanowiły pozostałe, czyli {2, 5, 2}.
Wzór pozwalający na obliczenie liczby wszystkich k-elementowych pod-
zbiorów z n elementów jest taki:
⎛n⎞ n!
⎜⎜ ⎟⎟ =
⎝ k ⎠ k!(n − k )!
k wielkość podzbioru (u nas 3),
n liczba wszystkich elementów (u nas 6).

Po podstawieniu danych do wzoru otrzymujemy:


⎛ 6⎞ 6! 1 × 2 × 3 × 4 × 5 × 6 720 720
⎜⎜ ⎟⎟ = = = = = 20
⎝ 3 ⎠ 3!(6 − 3)! 1 × 2 × 3 × 3! 6 × 6 36
TESTOWANIE HIPOTEZ DOTYCZĄCYCH ŚREDNICH 405

Jeden z tych możliwych dwudziestu układów jest taki sam jak ten, który
uzyskaliśmy w eksperymencie. Dwadzieścia par zbiorów po trzy elementy
wyczerpuje wszystkie możliwe podziały zbioru 6-elementowego.
Podział, jaki uzyskaliśmy w badaniu, mógł albo zdarzyć się przypadkiem,
albo też zdarzył się dlatego, że badane osoby rzeczywiście miały większe
zaufanie do nauki niż do prasy. Różnica między średnią zaufania do prasy
i średnią zaufania do naukowców, wyrażona przez trzy osoby z sondażu
PGSS, wynosi 1,33 (3,33 – 2 = 1,33).
Podobnie można obliczyć różnice między pozostałymi dziewiętnastoma pa-
rami średnich. Ponieważ w naszym zestawie mamy dużo takich samych da-
nych (tj. dwójek), więc wraz z różnicą otrzymaną w badaniach mamy tylko
cztery możliwości. Aby odpowiedzieć na pytanie, czy różnicę między dwo-
ma średnimi równą 1,33 można potraktować jak dzieło przypadku, musimy
sprawdzić, jak często występuje taka różnica lub wyższa, kiedy losowo dzie-
limy 6 liczb na dwie grupy po 3.
Testy permutacyjne są odmianą metod repróbkowania, a zatem ich weryfi-
kacja odbywa się poprzez wielokrotne losowanie liczb zgodnie z przyjętymi
warunkami. Wpisaliśmy 6 liczb do komputera, zaprogramowaliśmy losowa-
nie 1000 podziałów na dwie grupy po 3 elementy w każdej oraz dla każdego
z tych podziałów wyliczyliśmy różnice między średnimi (zob. rys. 6.20).
Rysunek 6.20. Częstość po- 350
jawiania się różnic między 321
308
średnimi dla 1000 podziałów 300
liczb: 2, 2, 2, 2, 3, 5 na dwa
równoliczne zbiory
Liczba różnic między średnimi

250
[STATISTICA]
197
200
174

150

100

50

0 0 0
0
-2,0 -1,33 -0,67 0 0,67 1,33 2,0
Różnice między średnimi

Na wykresie 6.20 widać, że na 1000 powtórzonych podziałów 6 liczb na


dwa zbiory, taka średnia, jaką „zastaliśmy” w badanej grupie, pojawiła się
197 razy, czyli w 19,7% przypadków. Ponieważ prawdopodobieństwo uzy-
skania takiej średniej, jaką otrzymaliśmy po przypadkowym podziale, wyno-
si 0,197, więc póki co należałoby uznać, że różnica między średnimi wyno-
sząca 1,33 może być przypadkowa.
406 WNIOSKOWANIE STATYSTYCZNE

Stosowanie testów permutacyjnych nie jest możliwe bez komputera. Nawet


jednak komputer może się okazać bezużyteczny, gdybyśmy chcieli dzielić
nie 6, lecz np. 100 elementów na dwa podzbiory po 50. Problem jest tak
skomplikowany, że zapisanie tylko liczby sposobów podziału zajęłoby pół
linijki – jest to liczba 29-cyfrowa. Aby domowy pecet poradził sobie z tym
zadaniem, musiałby zacząć w chwili Wielkiego Wybuchu i pracować ponad
trzy miliardy razy (!) tyle lat, ile upłynęło od początku wszechświata do dzi-
siaj. Przynajmniej tak długo pracowałby komputer, na którym piszemy ten
tekst, i to zakładając, że wszechświat trwa około 20 miliardów lat, choć nie-
którzy twierdzą, że tylko 12. Rozumiesz chyba, że gdyby rację mieli ci dru-
dzy, wtedy nasz komputer musiałby pracować prawie dwa razy dłużej. On
by tego nie wytrzymał.

STATYSTYKA NA PROGU XXI WIEKU I TA Z POCZĄTKU UBIEGŁEGO STULECIA

Metody repróbkowania wykorzystywane są zamiast typowych testów para-


metrycznych wtedy, gdy nic nie wiadomo na temat rozkładu badanych cech
w populacji. Z powodzeniem mogą one zastąpić testy dla średnich lub anali-
zę wariancji. Oczywiście, jak każde podejście w nauce, metody repróbko-
wania mają tyluż zwolenników, ilu przeciwników. Niektórzy, np. Julian
* Simon, J. L. (1997). Resam- Simon*, uważają, że jest to kierunek na miarę statystyki XXI wieku. Nie
pling: The new statistics. Arling- można jednak oprzeć się wrażeniu, że tym metodom trochę brakuje subtel-
ton, VA: Resampling Stats, Inc.
ności – repróbkowanie przypomina podrzucanie tysiące razy monetą, po to
tylko, by się dowiedzieć, jak często wypada orzeł (coś w tym jednak musi
być, skoro podniecało to umysły tak wybitnych statystyków, jak np. Karl
Pearson). Podstawową zaletą tych metod jest możliwość wykorzystania ich
wtedy, gdy niewiele wiadomo na temat rozkładu badanych cech w populacji.
Można jednak również w takiej sytuacji wykorzystać bardziej tradycyjne
metody nieparametryczne, którym poświęcamy cały następny rozdział.
7. TESTY NIEPARAMETRYCZNE

7.1. CO TO SĄ TESTY NIEPARAMETRYCZNE I KIEDY SIĘ JE STOSUJE?

DLACZEGO TESTY NIEPARAMETRYCZNE NAZYWAJĄ SIĘ „NIEPARAMETRYCZNE”?

Pierwszy podręcznik w całości poświęcony zastosowaniu testów nieparame-


trycznych w naukach o zachowaniu (behavioral science) został napisany
* Siegel, S. (1956). Nonparame- przez Sidneya Siegela i wydany w roku 1956*. To właśnie jemu przypisuje
tric statistics for the behavioral się, aktualny do dzisiaj w podręcznikach i pakietach statystycznych, przy-
sciences. New York: McGraw-
Hill. dział testów do konkretnych skal pomiarowych**. I jeśli w kontekście dys-
kusji na temat założeń testów parametrycznych uznamy, że obecnie to przy-
** Góralski, A. (1987). Metody
opisu i wnioskowania statystycz-
porządkowanie nie jest już tak ściśle przestrzegane, jak życzyłby sobie tego
nego w psychologii i statystyce. Siegel, to i tak wciąż zdarzają się nam sytuacje badawcze, w których nie
Warszawa: PWN. można stosować testów t lub F.
Dane zbierane przez przedstawicieli nauk społecznych na ogół nie mają roz-
kładu normalnego, o czym przekonują analizy przeprowadzone m.in. przez
*** Micceri, T. (1989). The un- Theodore Micceriego***. Testy t i F są jeszcze mniej wiarygodne wtedy,
icorn, the normal curve, and oth- gdy wariancje w porównywanych grupach nie są sobie równe, albo wtedy,
er impossible creatures. Psycho-
logical Bulletin, 105, 156-166. gdy grupy mają różne liczebności. W takich sytuacjach możesz wykorzystać
albo testy repróbkowania, albo właśnie testy nieparametryczne.
Nazwa testy nieparametryczne dotyczy grupy metod statystycznych służą-
cych do testowania hipotez, które nie wymagają znajomości parametrów
rozkładu badanych cech w populacjach. Do tej pory zajmowaliśmy się te-
stami umożliwiającymi analizę różnic między dwoma lub więcej niż dwoma
zbiorami wyników, których rozkłady są zbliżone do rozkładu normalnego.
Te narzędzia statystyczne, zwane parametrycznymi, opracowano zgodnie
z założeniem, że jeżeli rozkłady wyników w próbach pobranych z populacji
nie różnią się zbytnio od rozkładu normalnego, to jest to wystarczająca prze-
słanka, aby przyjąć, że ich rozkłady w populacjach, z których one pochodzą,
także mają rozkład normalny. Określenie „testy nieparametryczne” oczywi-
ście nie znaczy, że można je stosować tylko wtedy, gdy nie są znane parame-
try rozkładu danej zmiennej. Są to po prostu takie testy, w których procedury
obliczeniowe nie uwzględniają tego typu informacji. Stąd, być może, lep-
szym określeniem byłaby nazwa testy niezależne od rozkładu.
408 WNIOSKOWANIE STATYSTYCZNE

CZY TEST STATYSTYCZNY MOŻE BYĆ PROSTSZY NIŻ DWUMIANOWY?

Sidney Siegel (1956), jako jedną z zalet testów nieparametrycznych, wymie-


nia tę, że są nieskomplikowane. Może nie dotyczy to wszystkich współcześ-
nie stosowanych testów nieparametrycznych, ale rzeczywiście wiele z nich
jest tak prostych w obliczaniu, iż niektórzy autorzy przypisują umiejętność
stosowania statystyk nieparametrycznych takim postaciom, jak król Nabu-
* Por. Coakley, C. W. (1996). chodonozor czy prorok Daniel*. Z reguły jednak w poszukiwaniu pierw-
Suggestions for your nonpara- szych zastosowań statystyki nie sięga się aż tak daleko.
metric statistics course. Journal
of Statistics Education, 4, 2. Za pierwszego autora testu statystycznego uważa się szkockiego fizyka i le-
karza, Johna Arbuthnota, o którym pisaliśmy w rozdziale poświęconym lo-
gicznym podstawom testowania hipotez statystycznych. Przypomnijmy, że
na początku XVIII w. Arbuthnot chciał udowodnić, że w Londynie rodzi się
więcej londyńczyków niż londynek. W swoim „dowodzie” Arbuthnot nie
zakładał żadnych cech rozkładu urodzeń w populacji, lecz jedynie przyjął,
że gdyby liczba urodzonych dzieci obu płci była taka sama, wtedy w poło-
wie analizowanych przez niego lat powinno urodzić się więcej chłopców,
a w połowie więcej dziewczynek.
Test zastosowany przez Arbuthnota nazywa się dwumianowym, ponieważ
w weryfikacji hipotezy zerowej korzysta się z rozkładu dwumianowego, któ-
** Por. Domański, C. (1986). ry należy do grupy statystyk liczących**. Pomysł jest bardzo prosty – wy-
Teoretyczne podstawy testów starczy policzyć, jak często występowało jakieś zjawisko, a następnie oce-
nieparametrycznych i ich zasto-
sowanie w naukach społeczno- nić, w jakim zakresie mogło to być przypadkowe. Taki test zastosowaliśmy
ekonomicznych. Łódź: Acta już w poprzednim rozdziale, obliczając, jakie jest prawdopodobieństwo, by
Universitas Lodziensis.
w dwudziestoosobowej grupie ćwiczeniowej na psychologii zupełnie przy-
padkiem znalazło się co najmniej 15 kobiet. Przeanalizujemy ten przykład
raz jeszcze, tym razem dokładnie opisując sposób obliczania prawdopodo-
bieństwa w rozkładzie dwumianowym.
Dla ułatwienia wyobraźmy sobie, że wszyscy studenci wchodzą na zajęcia
pojedynczo. Gdyby nie było żadnego związku między płcią a wyborem kie-
runku studiów, wówczas prawdopodobieństwo, że pierwsza wchodząca oso-
ba jest kobietą, wynosiłoby 0,5. Prawdopodobieństwo, że i druga osoba bę-
dzie kobietą, też będzie równe 0,5. Ponieważ oba zdarzenia uznajemy za
niezależne (H0: wybór kierunku studiów nie zależy od płci), zatem prawdo-
podobieństwo, że na zajęcia jako pierwsze wejdą dwie kobiety, wyniesie:
1 1 1
× =
2 2 4
Takie samo będzie prawdopodobieństwo tego, że na zajęciach pojawi się ko-
lejno dwóch mężczyzn. Prawdopodobieństwo natomiast, że po wejściu na
salę ćwiczeniową dwóch osób jedna będzie kobietą, a druga mężczyzną,
TESTY NIEPARAMETRYCZNE 409

1
wyniesie . Jeżeli pierwszą osobą będzie mężczyzna, to druga musi być ko-
2
bieta, a jeżeli pierwszą osobą będzie kobieta, to drugi musi być mężczyzna,
1
co daje 2 sytuacje na cztery możliwe, czyli .
2
Pisaliśmy już o tym w rozdziale 4.7, że dla dowolnej liczby powtarzanych
pomiarów, gdy cecha jest dwuwartościowa (np. płeć studentów), prawdopo-
dobieństwo wystąpienia dowolnej kombinacji tych dwóch cech można zna-
leźć z rozkładu dwumianowego, zwanego też rozkładem Bernoulliego. Od-
woływaliśmy się wtedy do dwumianu Newtona i trójkąta Pascala, a teraz
podamy wzór pozwalający bezpośrednio obliczyć to prawdopodobieństwo:
N!
p(k ) = × p k × q N −k
k!( N − k )!
p(k) prawdopodobieństwo, że jakaś cecha pojawi się k razy, np. to, że w grupie będzie 8 kobiet,
N liczebność całego zbioru, czyli w naszym przykładzie 10 osób na ćwiczeniach,
piq dopełniające się, czyli w sumie wynoszące 1, prawdopodobieństwa tego, że zdarzenie, jakie
nas interesuje, pojawi się raz. W naszym przykładzie jest to prawdopodobieństwo pojawienia
się na zajęciach pierwszego mężczyzny (p) i pierwszej kobiety (q). Uznaliśmy, że oba są ta-
1
kie same, a więc p = q = .
2

Możesz samemu sprawdzić, że wzór ten dobrze „działa”, obliczając, jakie


jest prawdopodobieństwo tego, że wśród dwóch pierwszych osób wchodzą-
cych na zajęcia np. obydwie będą kobietami. Zróbmy te obliczenia razem:
0 2− 0
2! ⎛1⎞ ⎛1⎞ 2 1 1
* Gdybyś przypadkiem zapo- p ( 2) = ×⎜ ⎟ ×⎜ ⎟ = ×1× = *
mniał, przypominamy, że 2!(2 − 2)! ⎝ 2 ⎠ ⎝ 2 ⎠ 2 ×1 4 4
0! = 1, a każda liczba podniesio-
na do potęgi 0 też daje 1. Do Wychodzi dokładnie tyle samo, ile po naszej zdroworozsądkowej analizie.
obliczeń warto skorzystać z kal-
kulatora lub Windows’owego Jeżeli chciałbyś sprawdzić, jakie jest prawdopodobieństwo tego, że wśród 20
Excela. osób jest 15 kobiet, to wystarczy, że podstawisz teraz 20 za N i 15 za k:
15 20 −15
20! ⎛1⎞ ⎛1⎞
p (15) = ×⎜ ⎟ ×⎜ ⎟ = 0,0148
15!( 20 − 15)! ⎝ 2 ⎠ ⎝2⎠
Okazuje się, że liczba 15 kobiet w 20-osobowej grupie jest przypadkiem
możliwa z prawdopodobieństwem zaledwie 0,0148. Gdybyś jednak chciał
odrzucić hipotezę zerową, że wśród studentów psychologii jest tyle samo
kobiet co mężczyzn, musiałbyś uwzględnić także i to, że w grupie 20-
osobowej może pojawić się więcej niż 15 kobiet. Powinieneś zatem policzyć
410 WNIOSKOWANIE STATYSTYCZNE

również, ile wynoszą prawdopodobieństwa tego, że w grupie znajdzie się 16,


17, 18, 19 i 20 kobiet. Jeśli chcesz, proszę bardzo:
p(15) = 0,014786, p(16) = 0,004621, p(17) = 0,001087
p(18) = 0,000181, p(19) = 0,000019, p(20) = 0,000001
Te wszystkie prawdopodobieństwa w sumie dają p = 0,0207. Oznacza to, że
w grupie 20-osobowej 15 i więcej studentek może się zdarzyć przypadkiem
z prawdopodobieństwem 0,02, po zaokrągleniu do dwóch miejsc po przecin-
ku. Jeżeli przyjąłeś poziom odrzucania hipotezy zerowej α = 0,05, to możesz
ją odrzucić i uznać, że znalezienie się 15 kobiet w grupie 20 studentów psy-
chologii raczej nie jest przypadkowe.

DWA SŁOWA O RÓŻNYCH TESTACH NIEPARAMETRYCZNYCH

Test dwumianowy jest jednym z najprostszych testów nieparametrycznych


i można go stosować w każdej sytuacji, w której dane mają postać zeroje-
dynkową. Wynikiem tego testu jest prawdopodobieństwo otrzymania takiej
proporcji zer i jedynek, jaką otrzymaliśmy, przy założeniu, że w rzeczywi-
stości rozkładają się one zupełnie przypadkowo. W gruncie rzeczy wszystkie
testy nieparametryczne są do siebie podobne. Nie wymagają tego, by dane
pochodziły z populacji o rozkładzie normalnym, ich wynikiem zaś jest
prawdopodobieństwo tego, że hipoteza zerowa jest prawdziwa.
Testy nieparametryczne można stosować dla znacznie szerszego spektrum
danych niż testy parametryczne, a każdy test parametryczny ma swój niepa-
rametryczny odpowiednik.
Oto lista testów nieparametrycznych z krótkim opisem, które przedstawimy
Ci szczegółowo w dalszej części tego rozdziału:
Test U Manna-Whitneya jest nieparametrycznym odpowiednikiem testu
t dla danych niezależnych. Stosuje się go wtedy, gdy porównujemy wyniki
uzyskane w dwóch grupach. Aby stwierdzić, w której grupie wyniki są wyż-
sze, wystarczy policzyć, jak często wyniki w jednej grupie są wyższe od
wyników w drugiej. Ponieważ test opiera się na porównywaniu „większy–
mniejszy”, można go więc stosować już dla danych porządkowych.
Test Wilcoxona jest nieparametrycznym odpowiednikiem testu t dla danych
zależnych. Wyniki badania muszą być zatem ułożone w pary (np. pomiar
postawy wobec produktu przed obejrzeniem reklamy i po jej obejrzeniu).
Upraszczając nieco, test polega na porównaniu, ile razy pierwszy wynik
w każdej parze jest większy od drugiego, a ile razy drugi jest większy od
pierwszego. Bierze się przy tym pod uwagę wielkości różnic między danymi
w każdej parze.
TESTY NIEPARAMETRYCZNE 411

Test znaków stosuje się w takiej samej sytuacji, jak test Wilcoxona, ale jego
obliczenie jest znacznie mniej skomplikowane. Po prostu w każdej parze
odejmuje się drugi wynik od pierwszego i zlicza, ile razy wystąpił „+”, a ile
razy „–”. Dane do tego testu także muszą być co najmniej porządkowe.
Test Kruskala-Wallisa odpowiada jednoczynnikowej analizie wariancji.
Wymaga, aby dane były wyrażone na skali rangowej. Jego obliczanie zasad-
niczo sprowadza się do tego, aby porangować wszystkie dane razem (nieza-
leżnie od tego, do jakich należą grup), a następnie sprawdzić, jaki jest stosu-
nek między sumami rang w poszczególnych grupach.
Test oparty na medianie to także nieparametryczny odpowiednik jedno-
czynnikowej analizy wariancji. Jego obliczenie polega na sprawdzeniu, ile
wyników w każdej z badanych grup znajduje się powyżej, a ile poniżej me-
diany, obliczonych dla wszystkich wyników razem.
Test Friedmana jest odpowiednikiem analizy wariancji z powtarzanymi po-
miarami w obrębie jednego czynnika. Polega na porównywaniu rang dla tej
samej osoby, badanej przy różnych poziomach zmiennej niezależnej.
Wymienione testy nieparametryczne należą do najpopularniejszych i są
również dostępne w pakietach statystycznych. Przedstawiona lista nie obej-
muje oczywiście wszystkich metod niezależnych od rozkładu, a z pewnością
na szczególną uwagę zasługuje grupa testów opartych na rozkładzie χ2 (czy-
taj: „chi kwadrat”).

2
TESTY OPARTE NA ROZKŁADZIE χ

Z matematycznego punktu widzenia rozkład χ2 jest to rozkład ciągły, zależ-


ny od rozkładu normalnego. Jeżeli weźmiemy jakąś grupę cech, które w po-
pulacji mają rozkład normalny, to suma ich kwadratów będzie właśnie roz-
kładem χ2. Choć to może trochę dziwne: dodawać do siebie różne zmienne,
ale wzór wyglądałby tak:
χ 2 = Z12 + Z 22 + Z 32 + ... + Z N2
Symbole Z1, Z2 itd. nie oznaczają konkretnych wyników, ale całe zmienne.
Jeżeli każda z tych zmiennych ma rozkład normalny, to za pomocą specjal-
nej funkcji można znajdować prawdopodobieństwa otrzymywania konkret-
nych wartości χ2. Dla nas jednak najważniejsze jest to, że testy nieparame-
tryczne oparte na rozkładzie χ2 wcale nie wymagają tego, by dane rozkładały
się zgodnie z krzywą Gaussa. To taka sprytna ucieczka od założenia o nor-
malności, którą opracował nie kto inny, jak Karl Pearson.
Rozkład χ2 pozwala na sprawdzenie, jak często zachodzą różne sytuacje. Jest
nawet trochę podobny do rozkładu normalnego, od którego pochodzi. Nie
412 WNIOSKOWANIE STATYSTYCZNE

„biegnie” jednak do nieskończoności w obie strony, lecz tylko w stronę war-


tości dodatnich. Wszystkie testy nieparametryczne, które odwołują się do te-
go rozkładu, są prawostronne. Oznacza to, że weryfikują one hipotezę, iż
uzyskany wynik testu jest większy od zera.
Oczywiście hipotezę zerową odrzucamy, gdy prawdopodobieństwo uzyska-
nia danego wyniku testu jest mniejsze od przyjętego wcześniej poziomu α.
Jeżeli nieznane jest prawdopodobieństwo konkretnego wyniku testu, to mo-
żemy sprawdzić, czy jego wartość jest większa, czy mniejsza od wartości
krytycznej, czyli dokładnie tak samo, jak w przypadku wszystkich omówio-
nych dotąd testów.
Tablicę z rozkładem χ2 znajdziesz również w Aneksie w naszym przewodni-
ku pod literą F. Rozkład χ2, podobnie jak rozkłady t lub F, także ma dodat-
kowy parametr, czyli liczbę stopni swobody. Jest ona związana z liczbą
zmiennych wykorzystanych do obliczania wartości testu χ2. Rozkłady χ2 dla
różnej liczby stopni swobody przedstawione są na rysunku 7.1.

Rysunek 7.1. Rozkłady χ


2 2 2
y = chi (x; 1) y = chi (x; 3)
o różnej liczbie stopni
swobody (df = 1, 3, 5 lub 10)
0,219 0,219
[STATISTICA]
liczebnośc względna

liczebność względna
0,175 0,175

0,131 0,131

0,087 0,087

0,044 0,044

0,000 0,000
0,00 6,25 12,50 18,75 25,00 0,00 6,25 12,50 18,75 25,00
skala chi kwadrat skala chi kwadrat
2 2
y = chi (x; 5) y = chi (x; 10)

0,219 0,219
liczebność względna

liczebnośc względna

0,175 0,175

0,131 0,131

0,087 0,087

0,044 0,044

0,000 0,000
0,00 6,25 12,50 18,75 25,00 0,00 6,25 12,50 18,75 25,00
skala chi kwadrat skala chi kwadrat

Nazwa rozkładu χ2, została wykorzystana także jako nazwa dwóch testów.
Test χ2 Pearsona (a kogóż by innego?) zwany jest także testem χ2 niezależ-
ności i w standardowej wersji służy do sprawdzania, czy dwie cechy są od
siebie niezależne. Obliczenie testu polega na porównaniu stwierdzonego
w badaniach rozkładu częstości zajścia jakichś zdarzeń z losowym rozkła-
TESTY NIEPARAMETRYCZNE 413

dem tych częstości. Test można stosować nawet wtedy, gdy dane są zgroma-
dzone na skali nominalnej.
Test χ 2 zgodności w zasadzie trudno uzna ć za test nieparametryczny.
Oprócz testu Kołmogorowa-Smirnowa, jest najczęściej używanym testem do
sprawdzania założenia o normalności rozkładu badanej cechy w populacji.

RAZ JESZCZE ECHO DYSKUSJI NA TEMAT MOCY TESTÓW

Większość z wymienionych testów nieparametrycznych sprowadza się do


porównywania rang wyników otrzymanych w różnych sytuacjach badaw-
czych. Ponieważ zawsze można zamienić dane uzyskane za pomocą skali
przedziałowej lub stosunkowej na rangi, praktycznie więc zakres stosowal-
ności testów nieparametrycznych jest nieograniczony.
Czy nie lepiej zapomnieć o całej tej dyskusji na temat stosowalności testów
parametrycznych i po prostu zawsze dobierać do danych najwłaściwszy test
nieparametryczny? Otóż nie.
Przede wszystkim testy parametryczne uznawane są za mocniejsze niż testy
nieparametryczne. Oznacza to, że w większym stopniu pozwalają one na
stwierdzenie wpływu zmiennej niezależnej na zmienną zależną, jeżeli wpływ
ten rzeczywiście istnieje, niż testy nieparametryczne. Jak zauważa Sidney
Siegel (1956), jeśli np. dla niewielkiego zbioru danych zastosujemy test nie-
parametryczny, to możemy mieć większą trudność z odrzuceniem hipotezy
zerowej niż wtedy, gdybyśmy zastosowali test parametryczny.

* Sawilowsky, S. S., Blair, R. C.


Z drugiej jednak strony badania mocy i elastyczności testów prowadzone za
(1992). A more realistic look at pomocą opisanych w poprzednim rozdziale metod Monte Carlo nie prowa-
the robustness and type II error dzą do jednoznacznych wniosków.
properties of the t test to depar-
tures from population normality.
Psychological Bulletin, 111,
Na przykład Shlomo Sawilowsky i Clifford Blair* twierdzą, że test t jest do
352-360. tego stopnia odporny na brak założenia o normalności rozkładu, że można
** Nanna, M. J., Sawilowsky,
z niego skorzystać we wszystkich tych sytuacjach, w których tradycyjnie
S. S. (1998). Analysis of Likert stosuje się testy nieparametryczne.
scale data in disability and med-
ical rehabilitation research. Psy- Ten sam jednak Sawilowsky, w innym artykule, napisanym wspólnie z Mi-
chological Methods, 3, 55-67.
chealem Nanną** sugerują, że dla większości danych dotyczących badań
*** Finch, H. (2005). Compari- z dziedziny medycyny i rehabilitacji, nieparametryczny test Wilcoxona jest
son of the performance on non-
parametric and parametric mocniejszy od testu t dla danych zależnych.
MANOVA test statistics when
assumptions are violated. Me- Z kolei Holmes Finch*** pisze, że nawet wtedy, gdy nie można utrzymać
thodology, 1, 27-38. założenia o normalności rozkładu, i tak test F jest mocniejszy i bardziej od-
porny na popełnienie błędu I rodzaju niż wszystkie testy nieparametryczne.
414 WNIOSKOWANIE STATYSTYCZNE

KIEDY TEST PARAMETRYCZNY, A KIEDY NIEPARAMETRYCZNY?

Jak widzisz, sprawa jest otwarta, ale ogólne zasady byłyby z grubsza takie:
• Jeżeli rozkład cechy tylko w niewielkim stopniu odbiega od rozkładu
normalnego, a wariancje i liczebności porównywanych grup są podobne,
to lepiej użyj testu parametrycznego. Jest większa szansa na odrzucenie
hipotezy zerowej i niepopełnienie błędu I rodzaju niż w przypadku testu
nieparametrycznego.
• Jeżeli rozkład badanej cechy nie jest normalny, ale wariancje są równe
i grupy o podobnej liczebności, to zastosuj test parametryczny. Ryzyko
popełnienia błędu I lub II rodzaju i tak nie jest większe niż w przypadku
testu nieparametrycznego, do odrzucenia zaś hipotezy zerowej potrzeba
z reguły mniejszej próbki, gdy test jest parametryczny, niż wtedy, gdy
jest nieparametryczny.
• Jeżeli wariancje w porównywanych grupach nie są równe lub grupy nie
są liczne bądź też uznasz, że trudno byłoby zinterpretować dane jako
pomiary na skali co najmniej przedziałowej, wtedy użyj testu nieparame-
trycznego. Jeżeli dobrze zaprojektowałeś eksperyment, a badana przez
Ciebie zależność rzeczywiście istnieje, to bądź spokojny – uda się to
udowodnić, bez względu na rodzaj testu.
• Jeżeli opisujesz wyniki analiz przeprowadzonych za pomocą testu para-
metrycznego, to podaj powody jego zastosowania. Możesz np. napisać,
że spełnione zostały wszystkie założenia testu albo też niektóre założe-
nia nie zostały spełnione, ale powołując się na wyniki innych badań
(choćby te, o których pisaliśmy, omawiając metody Monte Carlo), i tak
stosujesz test parametryczny. W każdym razie dobrze jest podać jakąś
argumentację uzasadniającą Twoją decyzję.
• Nie musisz się tłumaczyć z wyboru testu nieparametrycznego. Ponieważ
testy te są na ogół słabsze od parametrycznych, jeśli więc uda się odrzu-
cić hipotezę zerową za pomocą jednego z nich, to i tak udałoby się od-
rzucić hipotezę zerową za pomocą metody parametrycznej.
• Ważne jest to, abyś do analizy danych wybrał taki test, który jest najczę-
ściej stosowany w interesującej cię dziedzinie badań. W psychologii
często mamy do czynienia z tzw. małymi paradygmatami, czyli prowa-
dzeniem badań według uświęconego tradycją, niemal identycznego
schematu eksperymentalnego. Wiele eksperymentów, np. w psychologii
myślenia, zakłada pomiary na skali rangowej i ich nieparametryczną
analizę. Wykorzystywanie tych samych skal pomiarowych i testów sta-
tystycznych pozwala na bezpośrednie porównywanie wyników różnych
badań.
TESTY NIEPARAMETRYCZNE 415

CO KAŻDY BADACZ WIEDZIEĆ POWINIEN O TEŚCIE STATYSTYCZNYM?

Choć testy nieparametryczne nie są zależne od rozkładu zmiennej w popula-


cji, to jednak ich stosowanie w niczym nie przypomina „wolnoamerykanki”.
Z reguły są to testy specyficzne, dostosowane do określonych warunków.
Dobierając narzędzie statystyczne do analizy danych, powinieneś wiedzieć
o nim trzy rzeczy:
• kiedy wolno je stosować, czyli jakie cechy muszą mieć dane, żeby moż-
na było zastosować taki czy inny test,
• jak policzyć ten test (z wyjątkiem kilku najważniejszych, nie będziemy
cię męczyć szczegółami obliczeniowymi, chociaż i tak będziesz musiał
opanować przynajmniej sztukę „klikania”),
• jak zinterpretować wynik.
A teraz już do rzeczy.

7.2. CZY DWIE CECHY JAKOŚCIOWE SĄ ZALEŻNE OD SIEBIE?

PROLOG: „CZY SMAKUJĄ CI OBIADY W STOŁÓWCE AKADEMICKIEJ?”

Któregoś dnia przyszło nam do głowy, żeby sprawdzić, czy studenci lubią
obiady w stołówce akademickiej. Ustawiliśmy się przed drzwiami do mensy
i pytaliśmy się o to każdego, kto wychodził. Założyliśmy, że jeśli studenci
odpowiadaliby przypadkowo, to połowa z nich powinna stwierdzić, że lubi
obiady, a druga połowa, że ich nie lubi. Taka sama proporcja powinna by się
ujawnić także wtedy, gdyby studenci nie mieli wyrobionego zdania na te-
mat obiadów. Uzyskanie odpowiedzi na pytanie, czy studenci lubią obiady
w stołówce akademickiej, byłoby jednak zbyt banalne. Bez wątpienia wszy-
scy studenci lubią obiady akademickie! (☺).
Postanowiliśmy więc sprawdzić coś znacznie mniej banalnego, a mianowi-
cie, czy lubienie obiadów jest w jakikolwiek sposób związane z płcią. Dys-
kretnie zapisywaliśmy zatem, czy wychodząca ze stołówki osoba jest chłop-
cem, czy londynką (oops, to zdaje się, że z innego przykładu). Tak czy ina-
czej, gdyby lubienie obiadów nie było związane z płcią, wtedy w grupie mi-
łośników kuchni akademickiej połowę powinny stanowić studentki, a drugą
połowę studenci oraz podobnie w grupie wybrednych – proporcja osób obu
płci powinna być taka sama. Po przeprowadzeniu ankiety otrzymaliśmy na-
stępujący rozkład odpowiedzi „lubię”, „nie lubię” wśród respondentów i re-
spondentek naszej ankiety.
416 WNIOSKOWANIE STATYSTYCZNE

Tabela 7.1. Wyniki ankiety na Czy lubisz obiady w stołówce akademickiej?


temat lubienia obiadów w sto- Płeć Suma
łówce akademickiej „tak” „nie”
kobiety 36 12 48
mężczyźni 14 15 29
Suma 50 27 77

Z liczebności zestawionych w tabeli 7.1 widać, że przebadaliśmy 77 studen-


tów. Więcej było kobiet niż mężczyzn (48 kobiet i 29 mężczyzn) oraz okaza-
ło się, że więcej osób lubi obiady, niż ich nie lubi (50 lubi, a 27 nie lubi).
Czy oznacza to, że sposób odpowiadania na pytanie: „Czy lubisz obiady
w stołówce akademickiej?” jest w jakikolwiek sposób związany z płcią stu-
dentów? Żeby to sprawdzić, wykorzystamy test χ2 niezależności, ponieważ
stosuje się go właśnie wtedy, gdy wyniki osób badanych można poklasyfi-
kować na kilka kategorii, a każdej kategorii przypisać określoną liczebność.

2
O ZJEŹDZIE FANÓW CHAPLINA I NIEZALEŻNOŚCI TESTU χ NIEZALEŻNOŚCI

Zacznijmy od tego, że podział wszystkich uczestników badania na cztery


grupy w zależności od dwóch kryteriów jest najbardziej typową sytuacją,
w której się stosuje test χ2 niezależności. Sama nazwa „test niezależności”
wskazuje na to, że stosuje się go wtedy, gdy chcemy sprawdzić, czy nie ma
jakiejś zależności pomiędzy kryteriami kategoryzacji badanych obiektów do
różnych grup.
Abyś mógł łatwiej sobie uzmysłowić, co to znaczy, że dwie cechy, na pod-
stawie których dokonuje się klasyfikacji, są od siebie niezależne, wyobraź
sobie następującą sytuację. W 1986 roku do rodzinnego domu Charlesa
Chaplina w Londynie tradycyjnie zjechało na obiad 45 jego najbardziej za-
gorzałych fanów, 12 w czarnych melonikach i 33 – w białych. Jedna trzecia
z nich (a więc 15) miała na głowie meloniki w paski, a dwie trzecie (tj. 30)
– w kółka. Tego roku nie obowiązywały jeszcze żadne zasady dotyczące
związku pomiędzy kolorem kapelusza a wzorem, który na nim się znajduje.
Jak myślisz, ilu fanów przybyło na spotkanie w czarnym meloniku w paski,
a ilu w czarnym meloniku w kółka?
Jeżeli nie ma żadnego związku pomiędzy kolorem kapelusza i jego wzorem,
to proporcja wzorów wśród czarnych meloników powinna być taka sama,
jak w całej grupie. Oznacza to, że jedna trzecia czarnych kapeluszy powinna
być w paski i dwie trzecie w kółka, czyli 4 w paski i 8 w kółka. Podobnie
rozkład wzorów na melonikach białych powinien odzwierciedlać proporcję
1
w całej grupie. Powinno być więc × 33 = 11 białych kapeluszy w paski
3
TESTY NIEPARAMETRYCZNE 417

2
oraz × 33 = 22 białe kapelusze w kółka. Liczbę kapeluszy wszystkich
3
czterech typów podsumowuje tabela 7.2.
Tabela 7.2. Rozkład liczebno- Wzór na kapeluszach
ści osób w czarnych i białych Kolor kapeluszy Suma
melonikach w dwóch różnych paski kółka
wzorach podczas zjazdu w czarny 4 8 12
1986 roku, przy założeniu, że
kolor kapelusza i wzór nie są biały 11 22 33
ze sobą powiązane Suma 15 30 45

W tabeli 7.2 przedstawione są kombinacje wzorów i kolorów kapeluszy 45


osób w sytuacji, w której nie ma żadnego związku pomiędzy kolorem a wzo-
rem kapelusza. Proporcja czarnych i białych meloników jest taka sama w ca-
łej grupie i w obu podgrupach, czyli wśród kapeluszy w paski i w kółka. We
wszystkich tych sytuacjach na każde 4 kapelusze czarne wypada 11 białych.
Taka sama zasada jest zachowana w przypadku drugiego kryterium klasyfi-
kacji. Proporcje kapeluszy w kółka i w paski są takie same w całej grupie,
jak w podgrupach kapeluszy czarnych i białych (we wszystkich tych sytu-
acjach na każdy kapelusz w paski przypadają trzy kapelusze w kółka).
Z niezależnością klasyfikacji ze względu na dwie cechy mamy więc do czy-
nienia wtedy, gdy proporcje klasyfikacji związanej z jednym kryterium są
takie same dla całej grupy, jak dla podgrup z tej grupy, wyodrębnionych ze
względu na inne kryterium.

JEŚLI CZARNY MELONIK, TO TYLKO W KÓŁKA!

Na spotkaniu w 1986 roku fani (i fanki) słynnego aktora ustalili, że podczas


następnego zjazdu obowiązuje zasada: jeżeli ktoś chce nosić czarny melonik
– OK, ale musi być w kółka. Rok później na spotkaniu wszyscy fani znowu
pojawili się w komplecie i nie bez zdziwienia spostrzegli, że chociaż nikt nie
złamał zasady, czyli czarne meloniki rzeczywiście miały tylko kółka, to jed-
nak proporcje kapeluszy w kółka i paski, a także czarnych i białych, w całej
grupie były identyczne jak podczas poprzedniego mityngu. Rozkład liczeb-
ności rodzajów i kolorów kapeluszy podczas spotkania, które w 1987 roku
odbyło się pod hasłem: „Jeśli czarny melonik, to tylko w kółka!”, zawiera
tabela 7.3.

Tabela 7.3. Rozkład liczebno- Wzór na kapeluszach


ści osób w czarnych i białych Kolor kapeluszy Suma
melonikach w dwóch różnych paski kółka
wzorach podczas zjazdu czarny 0 12 12
w 1987 roku, przy zachowa-
niu zasady: „Jeśli czarny me- biały 15 18 33
lonik, to tylko w kółka” Suma 15 30 45
418 WNIOSKOWANIE STATYSTYCZNE

Rzeczywiście, z danych przedstawionych w tabeli 7.3 wynika, że proporcja


kapeluszy czarnych do białych była taka sama jak podczas poprzedniego
zjazdu, czyli 12:33. Proporcja kapeluszy w paski do kapeluszy w kółka też
była taka sama jak poprzednio – 15:30. Tym razem jednak liczby poszcze-
gólnych kombinacji kolorów i wzorów na kapeluszach nie spełniają już wa-
runku niezależności. W całej grupie na każde 4 czarne meloniki przypada 11
białych (33 i 12 podzieliśmy przez 3). Wśród zaś meloników w kółka, na
każde 4 czarne przypada 6 białych (18 i 12 także podzieliliśmy przez 3),
wśród kapeluszy w paski są tylko białe, a czarnych w paski – zgodnie
z przyjętą zasadą – w ogóle nie ma. Również proporcje kółek i pasków są
1
różne w całej grupie (na jeden kapelusz w paski przypada 1 kapelusza w
3
kółka) i w poszczególnych podgrupach (wśród białych, na 5 kapeluszy w pa-
ski jest 6 w kółka, a wśród czarnych są tylko kapelusze w kółka).

2
HIPOTEZA ZEROWA I ALTERNATYWNA W TEŚCIE χ NIEZALEŻNOŚCI

Wiemy, że podczas drugiego zjazdu wszystkie czarne kapelusze fanów Cha-


plina były – zgodnie z umową – w kółka. Spójrzmy jednak na tę sytuację
chłodnym okiem badacza. Wyobraź sobie, że wchodzisz do restauracji,
w której uczestnicy zjazdu jedzą uroczystą kolację. Szybko byś się zorien-
tował, że masz do czynienia z niecodziennym towarzystwem, ponieważ
wszyscy spożywają posiłek w czarno-białych, wzorzystych kapeluszach. Po-
nieważ jesteś bystry i też trochę dziwny, więc – być może – zechciałbyś
sprawdzić, czy jest jakiś związek między kolorem kapelusza a tym, czy jest
w kółka, czy w paski. Gdybyś jeszcze na dodatek znał statystykę, wówczas
mógłbyś nawet do tego celu wykorzystać test χ2 niezależności, czyli taki,
który można stosować w każdej sytuacji, w której badane obiekty dzielą się
na grupy w zależności od kombinacji różnych cech jakościowych.
Autorem testu χ2 jest Karl Pearson. Z matematycznego punktu widzenia test
polega na sprawdzeniu, jakie jest prawdopodobieństwo otrzymania takiego
rozkładu liczebności, jaki akurat otrzymaliśmy w badaniu (albo np. widzimy
podczas kolacji fanów Chaplina), zakładając, że obie te cechy są od siebie
niezależne. W ogólnej postaci hipoteza zerowa będzie więc głosić, że:
H0: Pomiędzy dwiema cechami, które zostały wykorzystane do kategoryzacji
badanych obiektów, nie zachodzi żaden związek.
Z kolei, zgodnie z hipotezą alternatywną:
H1: Pomiędzy dwiema cechami, które zostały wykorzystane do kategoryzacji
badanych obiektów, zachodzi jakaś stała relacja.
TESTY NIEPARAMETRYCZNE 419

Po zamianie słowa „cecha” na słowa: „kolory” i „wzory” kapeluszy, obie hi-


potezy będą brzmiały tak:
H0: Pomiędzy kolorem kapelusza a rodzajem wzoru nie zachodzi żaden
związek.
H1: Pomiędzy kolorem kapelusza a rodzajem zbioru zachodzi stały związek.

2
PANIE I PANOWIE, MELONIKI Z GŁÓW – LICZYMY χ

Przeanalizowaliśmy dwie tabele klasyfikujące fanów Chaplina ze względu


na kolor i wzór noszonych przez nich meloników. Podczas spotkania w 1986
roku obydwie te dwie cechy były od siebie niezależne. Ta sytuacja reprezen-
tuje hipotezę zerową. Podczas spotkania w następnym roku wzór na kapelu-
szu był już związany z jego kolorem. Wynikało to z przyjętej przez fanów
zasady, a dla nas ten nowy układ reprezentuje hipotezę alternatywną.
Zastosowanie testu χ2 niezależności w praktyce polega na porównaniu roz-
kładu częstości, jaki otrzymaliśmy w eksperymencie (czyli np. rozkład li-
czebności z roku 1987), z rozkładem częstości, jakiego oczekiwalibyśmy,
gdyby obie cechy, ze względu na które klasyfikujemy zmienne, były od sie-
bie niezależne (czyli tak, jak było podczas spotkania w 1986 roku). Podobnie
jak inne testy statystyczne, również test χ2 jest procedurą obliczeniową, któ-
ra doprowadza do wyliczenia jednej liczby – w tym wypadku jest nią war-
tość w rozkładzie χ2. Procedurę tę można zapisać w następujący sposób:
k
( foi − fei ) 2
χ2 = ∑
i =1 fei
k liczba kategorii, na które podzielono osoby badane,
liczebność oczekiwana (ang. frequency expected) w każdej kategorii, zgodnie z przewidy-
fei
waniami wynikającymi z hipotezy zerowej,
foi liczebność otrzymana (ang. frequency observed) w każdej z kategorii,
k


i =1
suma liczebności w zakresie wszystkich kategorii od i do k.

W odniesieniu do naszej melonikowej analizy – liczebnościami oczekiwa-


nymi są proporcje kolorów i wzorów kapeluszy podczas zjazdu w 1986 ro-
ku, ponieważ wtedy nie było żadnej zasady łączącej te dwie cechy ze sobą.
Liczebnościami otrzymanymi są z kolei proporcje kolorów i wzorów kapelu-
szy z 1987 roku. Wtedy, zgodnie z umową, miała już obowiązywać zasada
o związku między kolorem i wzorem czarnych kapeluszy. To właśnie te li-
czebności odpowiadają danym gromadzonym podczas badań empirycznych.
420 WNIOSKOWANIE STATYSTYCZNE

Możemy teraz podstawić do wzoru na test χ2 liczebności meloników pod-


czas pierwszego i drugiego spotkania. Oto wyniki testu:
(0 − 4) 2 (12 − 8) 2 (15 − 11) 2 (18 − 22) 2
χ2 = + + + = 8,18
4 8 11 22

2
I CO Z TEGO, ŻE χ = 8,18?

Wynikiem testu χ2 niezależności jest jedna liczba, która jest po prostu sumą
podniesionych do kwadratu różnic pomiędzy liczebnościami, jakie otrzyma-
liśmy w eksperymencie, a liczebnościami, jakie otrzymalibyśmy, gdyby obie
cechy klasyfikujące były od siebie niezależne. Liczbę tę interpretuje się po-
dobnie jak np. wynik testu t Studenta (oczywiście korzystając z innych tablic
statystycznych). Musimy sprawdzić, jakie jest prawdopodobieństwo otrzy-
mania takiej wartości χ2, jaką otrzymaliśmy (czyli w przykładzie z kapelu-
szami – 8,18), przy założeniu, że obie cechy klasyfikujące są od siebie nieza-
leżne. Prawdopodobieństwo to jednak zależy nie tylko od różnicy pomiędzy
wartościami otrzymanymi i wartościami oczekiwanymi, lecz także od tego,
jak wiele grup obserwacji powstało w wyniku klasyfikacji. Liczba grup jest
związana z parametrem rozkładu χ2, który – podobnie jak w przypadku testu
t – nosi nazwę liczby stopni swobody i oznaczany jest symbolem df (ang.
deegres of freedom). Wartość tego parametru oblicza się według wzoru:
df = (w – 1) × (k – 1)
w liczba poziomów jednej zmiennej niezależnej (np. liczba wierszy w tabeli klasyfikacji),
k liczba poziomów drugiej zmiennej niezależnej (np. liczba kolumn w tabeli klasyfikacji).

W przykładzie z melonikami liczba poziomów obu zmiennych niezależnych,


a zatem liczba kolumn i wierszy w tabeli, jest taka sama. Kapelusze zostały
pogrupowane w dwie klasy ze względu na kolor, co oznacza dwa wiersze
w tabeli, i w dwie klasy ze względu na wzór, co oznacza dwie kolumny
w tabeli klasyfikacji. Liczba stopni swobody wynosi więc:
df = (2 – 1) × (2 – 1) = 1
Prawdopodobieństwo uzyskania wartości χ2 = 8,18 dla df = 1 wynosi 0,004.
Skąd to wiemy? Od tego są kalkulatory prawdopodobieństwa (np. w Excelu
możesz to zrobić, korzystając z funkcji: ROZKŁAD.CHI(8,18;1), która daje
wynik 0,004235476). Prawdopodobieństwo to oznacza, że w 4 przypadkach
na 1000 (lub, jak wolisz, np. w 42 przypadkach na 10 000) moglibyśmy uzy-
skać taki rozkład kombinacji cech i kolorów, jaki otrzymaliśmy, ale wtedy,
gdyby kolory kapeluszy i umieszczone na nich wzory były zupełnie niepo-
wiązane ze sobą. Oczywiście przy tak małym prawdopodobieństwie może-
my odrzucić hipotezę zerową i potwierdzić tylko, że podczas spotkania
TESTY NIEPARAMETRYCZNE 421

w 1987 roku kolory i wzory meloników rzeczywiście były od siebie zależne


– fani zastosowali się do reguł gry.
Jeśli nie masz pod ręką kalkulatora prawdopodobieństwa, możesz skorzystać
z tablicy F w Aneksie, zawierającej wartości krytyczne χ2. W jej boczku
szukasz wiersza dla liczby stopni swobody df = 1, a następnie, przesuwając
wzrok wzdłuż tego wiersza w prawo, sprawdzasz, w których kolumnach
wartość krytyczna jest mniejsza niż otrzymany wynik testu. W naszym przy-
padku ostatnią kolumną, w której wartość krytyczna jest mniejsza niż wynik
testu, jest kolumna oznaczona poziomem 0,01 (χ20,01 = 6,64). W następnej
kolumnie χ20,001 = 10,83, czyli jest już większe od χ2 = 8,18. Oznacza to, że
z prawdopodobieństwem błędu mniejszym niż 0,01 możemy odrzucić hipo-
tezę zerową i przyjąć hipotezę o zależności obu cech wziętych pod uwagę.
Zazwyczaj ocena uzyskana na podstawie tablicy jest mniej dokładna niż
ocena za pomocą kalkulatora, ale ostatecznie wychodzi na to samo. Jeżeli
przed badaniem przyjęliśmy, że odrzucamy hipotezę zerową na poziomie
α = 0,05, to obie wartości prawdopodobieństwa (zarówno 0,004, jak i 0,01)
są mniejsze od wartości krytycznej, czyli mamy wystarczającą podstawę do
odrzucenia hipotezy zerowej.

ZACZNIJMY JESZCZE RAZ: „CZY SMAKUJĄ CI OBIADY W STOŁÓWCE AKADEMICKIEJ?”

Obliczając wartości statystyki χ2 w przykładzie z kapeluszami, porównywa-


liśmy ze sobą dwie tabele liczebności: tę, w której kolory i wzory meloni-
ków były od siebie niezależne, z tą, w której istniał związek pomiędzy kolo-
rami i wzorami kapeluszy. Wartości z pierwszej tabeli określiliśmy jako li-
czebności oczekiwane, a wartości z drugiej – jako otrzymane. W praktyce
zawsze mamy do czynienia tylko z jedną tabelą wyników. Jest to ta, która
zawiera dane z obserwacji lub eksperymentu, czyli tabela liczebności otrzy-
manych.
Ponieważ nabraliśmy już pewnego doświadczenia w stosowaniu testu χ2,
możemy teraz wrócić do wyników naszych badań nad lubieniem obiadów
w stołówce akademickiej przez studentów i studentki. Jak pamiętasz, nasze
obserwacje zebraliśmy w jednej tabelce 7.1, ale ponieważ nie jest ona zbyt
duża, powtórzymy ją jeszcze raz tutaj (zob. tab. 7.4).

Tabela 7.4. Wyniki ankiety na Czy lubisz obiady w stołówce akademickiej?


temat lubienia obiadów w sto- Płeć Suma
łówce akademickiej „tak” „nie”
kobiety 36 12 48
mężczyźni 14 15 29
Suma 50 27 77
422 WNIOSKOWANIE STATYSTYCZNE

Wszystkie obserwacje zostały podzielone na cztery grupy ze względu na


dwa dwuwartościowe kryteria. Ten układ eksperymentu określa się jako
2 × 2, o liczbie stopni swobody df = (2 – 1) × (2 – 1) = 1.
Zastosowanie testu χ2 niezależności wymaga porównania liczebności otrzy-
manych z liczebnościami oczekiwanymi. Jeżeli dobrze zrozumiałeś, o co
chodziło w przykładzie z melonikami, to bez trudu uda ci się również obli-
czyć, jakich liczebności można by oczekiwać, gdyby prawdziwa była hipo-
teza zerowa. Zasadniczo są dwa sposoby na obliczanie liczebności oczeki-
wanych: jeden jest łatwy, a drugi jeszcze łatwiejszy. Rozpocznijmy od spo-
sobu łatwego.

NA LICZEBNOŚCI OCZEKIWANE – SPOSÓB ŁATWY

Zgodnie z definicją liczebności oczekiwanych, proporcja obserwacji w każ-


dej podgrupie musi odpowiadać proporcji obserwacji dla wszystkich wyni-
ków. Z danych zawartych w tabeli 7.4 wynika, że proporcja kobiet w sto-
sunku do wszystkich osób badanych wynosi:
36 + 12 48
pK = = = 0,6234
77 77
proporcja zaś mężczyzn:
14 + 15 29
pM = = = 0,3766
77 77
Podobnie możemy obliczyć proporcję tych, co lubią obiady, w stosunku do
wszystkich zapytanych:
36 + 14 50
p LO = = = 0,6493
77 77
i tych, co obiadów nie lubią:
12 + 15 27
p NLO = = = 0,3506
77 77
Obliczając liczebności oczekiwane, zakładamy, że obie cechy są od siebie
niezależne. Z rachunku prawdopodobieństwa wiadomo, że jeżeli dwa zda-
rzenia są od siebie niezależne, to prawdopodobieństwo, że obydwa zajdą
równocześnie, jest iloczynem prawdopodobieństw zajścia każdego z nich
osobno. Na przykład prawdopodobieństwo, że na dwóch rzuconych kostkach
(zdarzenia niezależne) wypadną szóstki, wynosi
1 1 1
× =
6 6 36
TESTY NIEPARAMETRYCZNE 423

Podobnie jest w przypadku obliczania liczebności oczekiwanych przy zasto-


sowaniu testu χ2 niezależności.
Proporcja studentek w stosunku do całej grupy osób pytanych o to, czy lubią
obiady, wynosi 0,6234, a proporcja osób lubiących obiady w tej samej gru-
pie wynosi 0,6493.
Jeżeli uznamy, że obie te cechy są niezależne od siebie, czyli zgodnie z hipo-
tezą zerową, to proporcja amatorek obiadów akademickich w stosunku do
wszystkich respondentów powinna wynosić:
0,6234 × 0,6493 = 0,4048
Skoro grupa badanych liczyła 77 osób, to w tej grupie powinno się znaleźć:
0,4048 × 77 = 31,17
studentek, które odpowiedziały „tak” na pytanie „czy lubisz obiady?”. Po-
dobnie możemy obliczyć proporcje i liczebności oczekiwane dla pozostałych
trzech grup osób badanych. Wyniki tych obliczeń przedstawiamy w tabelach
7.5 i 7.6.

Tabela 7.5. Proporcje oczeki- Czy lubisz obiady w stołówce akademickiej?


wane oszacowane na podsta- Płeć Proporcja
wie wyników ankiety na temat „tak” „nie”
lubienia obiadów w stołówce
kobiety 0,6234 × 0,6493 = 0,4048 0,6234 × 0,3506 = 0,2186 0,6234
akademickiej
mężczyźni 0,3766 × 0,6493 = 0,2446 0,3766 × 0,3506 = 0,1320 0,3766

Suma 0,6493 0,3506 1,0000

Tabela 7.6. Liczebności ocze- Czy lubisz obiady w stołówce akademickiej?


kiwane oszacowane na pod- Płeć Liczebność
stawie wyników ankiety na te- „tak” „nie”
mat lubienia obiadów w sto-
łówce akademickiej kobiety 0,4048 × 77 = 31,17 0,2186 × 77 = 16,83 48
mężczyźni 0,2446 × 77 = 18,83 0,1320 × 77 = 10,17 29
Suma 50 27 77

Zwróć uwagę na to, że suma wszystkich oczekiwanych proporcji w tabeli


7.5 równa się 1, a suma wszystkich liczebności oczekiwanych (zarówno
brzegowych, jak i całkowita) w tabeli 7.6 wynosi tyle samo, ile liczebności
otrzymane.

NA LICZEBNOŚCI OCZEKIWANE – SPOSÓB JESZCZE ŁATWIEJSZY

Drugi sposób obliczania liczebności oczekiwanych jest jeszcze łatwiejszy.


Dotąd proporcje dla każdej cechy obliczaliśmy, dzieląc liczbę obiektów, któ-
424 WNIOSKOWANIE STATYSTYCZNE

re mają tę cechę, przez liczbę wszystkich obserwacji. Następnie mnożyliśmy


te proporcje przez siebie i przez wszystkie obserwacje, czyli np.
48 50
× × 77 = 31,17
77 77
Po skróceniu ten sam rachunek będzie wyglądał tak:
48 × 50
= 31,17
77
Wszystkie obliczenia znajdziesz w tabeli 7.7.

Tabela 7.7. Liczebności Czy lubisz obiady w stołówce akademickiej?


oczekiwane oszacowane na Płeć Liczebność
podstawie wyników ankiety „tak” „nie”
na temat lubienia obiadów
48 × 50 48 × 27
w stołówce akademickiej (drugi kobiety = 31,17 = 16,83 48
sposób) 77 77
29 × 50 29 × 27
mężczyźni = 18,83 = 10,17 29
77 77
Suma 50 27 77

Wartości oczekiwane są dokładnie takie same jak poprzednio. Można łatwo


się zorientować, że każdą z liczebności oczekiwanych otrzymujemy, mnożąc
sumę brzegową liczebności w wierszu, w którym znajduje się poszukiwana
wartość, przez liczebność brzegową w kolumnie, w której znajduje się po-
szukiwana wartość, i dzieląc to wszystko przez liczebność całkowitą.

POĆWICZMY DODAWANIE I ODEJMOWANIE

Znając już liczebności oczekiwane (wszystko jedno, jak do nich doszedłeś),


możemy teraz sprawdzić, czy stosunek do obiadów w stołówce studenckiej
jest związany z płcią. Pozostało nam jedynie obliczyć wartość statystyki χ2,
czyli:
(36 − 31,77) 2 (12 − 31,77) 2 (14 − 18,33) 2 (15 − 10,17) 2
χ2 = + + + = 5,67
31,77 31,77 18,33 10,17
Prawdopodobieństwo uzyskania przypadkiem wyniku χ2 = 5,67, czyli przy
założeniu, że obie cechy są od siebie niezależne, dla df = 1 wynosi p =
= 0,017.
Z prawdopodobieństwem błędu I rodzaju równym 0,017 można więc odrzu-
cić hipotezę zerową mówiącą o tym, że stosunek do obiadów w stołówce
akademickiej jest niezależny od płci.
TESTY NIEPARAMETRYCZNE 425

EPILOG: „CO TAK NAPRAWDĘ OZNACZA ODRZUCENIE HIPOTEZY ZEROWEJ


2
W TEŚCIE χ NIEZALEŻNOŚCI?”

Jak zawsze, odrzucenie hipotezy zerowej w teście statystycznym oznacza, że


jest bardzo mało prawdopodobne otrzymanie takich wyników, jakie się wła-
śnie otrzymało, przy założeniu, że hipoteza zerowa jest prawdziwa.
Jeżeli dwie cechy nie są od siebie niezależne, to znaczy, że są od siebie za-
leżne. Dość to oczywiste, ale mało wartościowe dopóty, dopóki nie będzie-
my w stanie ocenić, w jaki sposób obie analizowane cechy zależą do siebie
nawzajem.
Rodzaj oczekiwanej zależności powinna określać hipoteza badawcza, którą
stawiamy przed badaniem. Można jednak wywnioskować, jaki jest kierunek
zależności, na podstawie porównania wartości otrzymanych z wartościami
oczekiwanymi. W tym celu najlepiej odjąć wartości oczekiwane od wartości
otrzymanych.
Dla danych dotyczących preferencji obiadów w stołówce akademickiej po-
równanie to wygląda tak:

Tabela 7.8. Porównanie Czy lubisz obiady w stołówce akademickiej?


liczebności oczekiwanych Płeć Liczebność
z otrzymanymi w wyniku „tak” „nie”
przeprowadzenia ankiety
na temat lubienia obiadów kobiety 36 – 31,17 = 4,83 12 – 16,83 = -4,83 48
w stołówce akademickiej mężczyźni 14 – 18,83 = -4,83 15 – 10,17 = 4,83 29
Suma 50 27 77

Wartości w tabeli 7.8 to różnice pomiędzy liczebnościami otrzymanymi


i oczekiwanymi. Jak widać, różnice te układają się w pary tych samych liczb
o przeciwnych znakach. Wartości różnic ze znakiem dodatnim oznaczają, że
liczba otrzymanych obserwacji danego typu jest większa, niż powinna być,
gdyby obie cechy były od siebie niezależne, a wartości ze znakiem ujemnym
oznaczają, że liczba obserwacji jest mniejsza, niż powinna być, gdyby obie
cechy były od siebie niezależne.
W odniesieniu do obiadowego eksperymentu znaczyłoby to, że wśród osób
lubiących obiady jest więcej kobiet, niż powinno być, gdyby „lubienie” było
niezależne od płci, a mniej, niż powinno być, jest mężczyzn.
Zwróć jeszcze uwagę na fakt, że liczebności otrzymane w grupach „lubią”
i „nie lubią” jest mniej więcej taka sama wśród mężczyzn (14 – lubi, a 15 –
nie lubi). Z kolei 3-krotnie więcej kobiet lubi obiady, niż ich nie lubi. Mo-
żemy zatem stąd wyciągnąć wniosek, że kobiety raczej lubią obiady w stu-
denckiej stołówce, a mężczyźni w tej sprawie są wyraźnie spolaryzowani.
426 WNIOSKOWANIE STATYSTYCZNE

2
O POPRAWCE YATESA DO TESTU χ ZE WZGLĘDU NA MAŁE LICZEBNOŚCI

Test χ2 niezależności ma niewielkie wymagania. Analizuje liczebności ob-


serwacji podzielone na grupy ze względu na dwa kryteria. Ważne jest tylko
to, aby obserwacje były niezależne od siebie. W praktyce oznacza to, że nie
możemy dwukrotnie klasyfikować pomiarów pochodzących od jednego
obiektu (np. od jednej osoby badanej). Jest więc błędem stosowanie tego te-
stu wtedy, gdy np. chcemy się dowiedzieć, czy ci sami ludzie, którzy głoso-
wali na lewicę w ostatnich wyborach parlamentarnych, także mają zamiar
głosować na lewicę w kolejnych wyborach. W takiej sytuacji wyniki obser-
wacji byłyby od siebie zależne, w tym sensie, że o preferencje polityczne py-
talibyśmy te same osoby. Dla porządku jednak musimy dodać, że w takiej
sytuacji można wykorzystać pewną wersję testu χ2 niezależności, zwaną te-
Frank Yates stem McNemary. Nie będziemy szczegółowo przedstawiać go w naszym
(1902-1994)
przewodniku. Jest on dostępny w pakietach statystycznych. Jeżeli będziesz
dobrze rozumiał, o co chodzi w „zwykłym” teście χ2, to zorientowanie się,
o co chodzi w teście McNemary, nie powinno zająć więcej niż kilka minut.
Na drugie ograniczenie stosowania testu χ2 niezależności zwrócił uwagę
czujny krytyk dokonań Karla Pearsona – sir Ronald Fisher. Twierdził on, że
nie można stosować tego testu wtedy, gdy wartości oczekiwane dla której-
kolwiek z grup są mniejsze niż 10. Inni statystycy złagodzili później to kry-
terium do 5, a w gruncie rzeczy chodzi o to, jaką przyjąć minimalną liczeb-
ność, na podstawie której można jeszcze sensownie weryfikować hipotezę
zerową. Tak więc ostatecznie zgodzono się, że można stosować test χ2 nie-
zależności, gdy wartości oczekiwane są mniejsze niż 5, ale wtedy trzeba
wprowadzić drobną korektę do liczebności otrzymanych, zgodnie z po-
prawką Yatesa. Stosuje się ją do wszystkich liczebności w tabeli, gdy któ-
rakolwiek z liczebności oczekiwanych jest mniejsza od 5. Poprawka przy-
pomina trochę przepis kulinarny i brzmi następująco:
Jeżeli fe jest mniejsze od 5
i jeżeli fo > fe,
to odejmij 0,5 od fo
lub
jeżeli fo < fe,
to dodaj 0,5 do fo.
Krótko mówiąc, w zależności od tego, które liczebności są większe: otrzy-
mane czy oczekiwane, należy odpowiednio dodać lub odjąć 0,5 do liczebno-
ści otrzymanych. Zauważ, że poprawka wprowadzona przez Franka Yatesa
prowadzi do zmniejszenia różnicy między liczebnościami otrzymanymi
i oczekiwanymi, co zwiększa prawdopodobieństwo, że obie zmienne są od
TESTY NIEPARAMETRYCZNE 427

siebie niezależne, czyli że prawdziwa jest hipoteza zerowa. W ten sposób


twórcy testu zadbali o to, byś nie odrzucił hipotezy zerowej zbyt pochopnie.

2
O ZDROWYM ROZSĄDKU I WIELKOŚCI TABEL LICZEBNOŚCI DLA TESTU χ NIEZALEŻNOŚCI

Wartości krytyczne testu χ2 rosną wraz ze wzrostem liczby stopni swobody.


Z kolei liczba stopni swobody jest związana z liczbą kategorii, na które dzie-
lone są obserwacje, co oznacza, że im więcej jest kategorii, na które podzie-
lone są dane, tym trudniej odrzucić hipotezę zerową.
Jeżeli obie wzięte pod uwagę zmienne są dwukategorialne, to mamy do czy-
nienia z podziałem danych na cztery grupy, tak jak w przypadku badania
preferencji obiadów lub kolorów i wzorów na kapeluszach. Jeżeli jedna
zmienna przyjmuje np. 4 poziomy, a druga 3, to mamy 12 kategorii, do któ-
rych klasyfikujemy wszystkie obserwacje. Niezależnie od tego obliczanie te-
stu wygląda zawsze tak samo. Liczebności oczekiwane wyznaczamy, mno-
żąc przez siebie sumy brzegowe i dzieląc wynik przez liczbę wszystkich ob-
serwacji. Po obliczeniu liczebności oczekiwanych podstawiamy je do wzoru
wraz z liczebnościami otrzymanymi. Liczba stopni swobody to iloczyn licz-
by wierszy i liczby kolumn, pomniejszone o jeden. Na przykład dla podziału
4 × 3 liczba stopni swobody wynosi: df = (4 – 1) × (3 – 1) = 6.

2
PIEŚŃ O TEŚCIE Χ NIEZALEŻNOŚCI PRAWIE SKOŃCZONA, PROSIMY O OKLASKI

Na koniec kilka słów podsumowania o teście χ2 niezależności:


• Test χ2 jest prawostronny, podobnie, jak np. test F.
• Najmniejsza wartość χ2 = 0 i jest możliwa tylko wtedy, gdy wszystkie
liczebności otrzymane są takie same jak oczekiwane.
• Programy komputerowe służące do obliczeń statystycznych, oprócz wy-
niku testu, podają także prawdopodobieństwo jego uzyskania.
• Można też, korzystając z odpowiednich tablic statystycznych, porównać
otrzymaną wynik χ2 z wartością krytyczną dla danej liczby stopni swo-
body, w taki sam sposób, jak pisaliśmy o tym przy okazji meloników.
• Test χ2 nie ma odpowiednika wśród testów parametrycznych, ponieważ
stosuje się go dla liczebności kategorii nominalnych.
• I do znudzenia powtarzajmy: hipotezę zerową, mówiącą o niezależności
porównywanych cech, należy odrzucić, jeżeli otrzymana wartość będzie
większa niż wartość krytyczna z tabeli lub gdy program komputerowy
wyrzuci wartość prawdopodobieństwa mniejszą niż założona z góry
wartość krytyczna.
428 WNIOSKOWANIE STATYSTYCZNE

NA KONIEC COŚ DLA OCHŁODY: „COLA CZY PEPSI? A MOŻE ROYAL CROWN?”

Na koniec jeszcze jeden przykład eksperymentu, w którym do analizy da-


nych wykorzystano test χ2. Dotyczy on odwiecznej wojny pomiędzy dwoma
potentatami na rynku „odrdzewiaczy”: Coca-Colą i Pepsi-Colą. Dla czytel-
ników niezorientowanych przypomnijmy, że obie firmy produkują napoje
gazowane zawierające kofeinę. Ciekawe, kto potrafi je rozróżnić. I czy jest
jakiś związek pomiędzy zdolnością do odróżniania marki a ilością przecięt-
nie wypijanej coli?
* Thumin, F. (1962). Identifica- Takie pytanie już w 1962 roku postawił sobie Frederik Thumin* z uniwersy-
tion of cola beverages. Journal tetu w Waszyngtonie. W eksperymencie wykorzystał trzy rodzaje coli: coca-
of Applied Psychology, 46, 358-
360.
colę, pepsi-colę i royal crown. Każdy badany dostał po dwa kubki z inną co-
lą i jego zadaniem było odpowiedzieć na pytanie, która jest która. Z trzech
rodzajów napojów można ułożyć po trzy pary, a każdą parę osoba badana
porównywała czterokrotnie. Daje to w sumie 12 prób dla każdego badanego,
co oznacza, że najwyższy wynik na skali pomiarowej to 12, a najniższy – 0.
Drugą zmienną, z którą porównywano liczbę poprawnych rozpoznań, była
ilość coli spożywanej tygodniowo przez uczestników eksperymentu. Na
podstawie kwestionariusza, wszyscy badani zostali zakwalifikowani do jed-
nej z trzech grup jako spożywający dużo, średnio lub mało coli. Liczbę po-
prawnych rozpoznań, w zależności od ilości coli wypijanej tygodniowo, za-
wiera tabela 7.9.
Tabela 7.9. Liczba popraw- Liczba poprawnych rozpoznań
Spożycie coli w ciągu
nych rozpoznań różnych ga-
tygodnia 0–3 4–6 7 – 12
tunków coli w zależności od
wielkości ich konsumpcji duże 10 (8,5) 14 (12,0) 3 (6,5)
w ciągu tygodnia w ekspery-
mencie Thumina średnie 7 (8,2) 9 (11,5) 10 (6,3)
małe 8 (8,2) 12 (11,5) 6 (6,3)

W tabeli 7.9, w nawiasach, podane są wartości oczekiwane, które wyliczono


dokładnie w taki sam sposób, jak w przykładzie z obiadami. Żadna z liczeb-
ności oczekiwanych nie była mniejsza od 5, więc nie trzeba było stosować
poprawki Yatesa. Wynik testu χ2 to 5,49, a liczba stopni swobody:
(w – 1) × (k – 1) = (3 – 1) × (3 – 1) = 4
Dla df = 4, krytyczna wartość testu χ20,05, czyli dla α = 0,05, równa się 9,488
(żeby się upewnić, zerknij do tablicy F w Aneksie). Ponieważ χ2 < χ20,05,
Frederick Thumin nie mógł odrzucić hipotezy zerowej o niezależności obu
cech. Wniosek: ilość spożywanej coli nie ułatwia rozpoznawania jej marki.
Dodajmy, że inna analiza w tym eksperymencie pokazała, iż osoby badane
poprawnie rozpoznają coca-colę i pepsi, ale mają trudności z odróżnieniem
ich od royal crown. Jak się okazuje, nie trzeba mieć wielkich doświadczeń
w piciu coli, aby poradzić sobie z rozróżnieniem tych dwóch napojów.
TESTY NIEPARAMETRYCZNE 429

CZY STATYSTYKA BYŁABY MOŻLIWA BEZ KARLA PEARSONA?

Test χ2 to kolejne dziecko Karla Pearsona, jednego z najbardziej płodnych


guru w dziedzinie statystyki. Test ma wiele zastosowań. Z jednym z nich
mamy do czynienia np. w analizie równań strukturalnych. W najwięk-
szym skrócie, analiza taka polega na dopasowywaniu teoretycznego modelu
do danych empirycznych. Sama nazwa tej metody jest jednak wystarczająco
przerażająca, żeby nie zajmować się nią ani chwili dłużej, no, przynajmniej
nie na tym etapie rozwoju.
Jeśli zaś idzie o Karla Pearsona, to miał on dość kontrowersyjne poglądy na
naturę człowieka. Jak mawiał, został statystykiem przede wszystkim po to,
by udowodnić, że Francis Galton (o którego zasługach dla statystyki także
Karl Pearson z 87-letnim już pisaliśmy) ma rację, gdy twierdzi, że większość cech ludzkich jest dzie-
sir Francisem Galtonem
dziczona. Wiele prac statystycznych Pearsona dotyczyło zjawisk biologicz-
nych, ale redaktorzy czasopism z zakresu biologii nie za bardzo chcieli dru-
kować nadsyłane przez niego artykuły. Dlatego właśnie Galton z Pearsonem
założyli w 1901 roku własne czasopismo, „Biometrika”, aby mieć gdzie wy-
dawać swoje prace. Czasopismo to zresztą wychodzi do dzisiaj.

7.3. TESTY NIEPARAMETRYCZNE DLA DWÓCH PRÓB

7.3.1. TESTY DLA DANYCH NIEZALEŻNYCH

CO CIEKAWEGO WYMYŚLILI ANDRIEJ I WŁADIMIR?

W tej części przedstawimy dwa testy, które możesz wykorzystać w swoich


analizach wtedy, gdy niezależnie od siebie przebadałeś dwie grupy osób, ale
coś jest nie tak, albo z rozkładem zmiennej (np. nie jest normalny), albo ze
skalą pomiarową (np. nie mogłeś użyć innej, jak tylko porządkowej), albo
też wariancje w obu grupach istotnie różnią się od siebie.
Obydwa testy są najmocniejszymi, nieparametrycznymi odpowiednikami
testu t Studenta. Oba są jednak od niego słabsze. Jeśli dojdziesz do wniosku,
że mimo wszystko możesz zastosować test parametryczny, to zrób to.
Autorstwo pierwszego z nich przypisuje się dwom rosyjskim statystykom,
Andriejowi Kołmogorowi (temu od aksjomatów Kołmogorowa) oraz Wła-
Andriej Kołmogorow dimirowi Smirnowowi (ale nie temu od słynnej wódki „Smirnoff”). Od
(1903-1987) ich nazwisk test znany jest jako nieparametryczny test Kołmogorowa-
Smirnowa, lub w skrócie test K-S. Stosuje się go wtedy, gdy zmienna zależ-
430 WNIOSKOWANIE STATYSTYCZNE

na jest mierzona co najmniej na skali interwałowej i weryfikuje hipotezę, że


porównywane grupy pochodzą z populacji o takim samym rozkładzie. O ile
test t różnicuje dwie średnie, test Kołmogorowa-Smirnowa bada, w jakim
zakresie są podobne do siebie kształty rozkładów danych w dwóch grupach.
W odniesieniu do tego testu hipoteza zerowa głosi, że rozkłady w porówny-
wanych grupach są takie same, czyli że pochodzą z tej samej populacji. Hi-
poteza alternatywna oczywiście brzmi odwrotnie: rozkłady w obu grupach
pochodzą z różnych populacji.

O NASZYCH ŚCIŚLE TAJNYCH ZAINTERESOWANIACH ZASKROŃCAMI

Ten przykład będzie o zaskrońcach. Jeżeli natkniesz się w lesie na węża


z dwoma pomarańczowymi plamkami na łebku za skroniami, to znaczy, że
nie jest żmiją, czyli masz szansę wrócić normalnie do domu. Oczywiście pod
warunkiem, że nie jest jakimś innym jadowitym wężem z plamkami na łeb-
ku. No, ale na tym to my się już tak dobrze nie znamy.
Tak czy inaczej, zaskrońce są wężami, które między sobą różnią się długo-
ścią. Są krótkie, średnie i długie, nawet do pół metra. Zainteresowało nas,
czy środowisko, w którym żyją węże, wpływa na ich długość. Postanowili-
śmy to sprawdzić w dwóch lasach: jednym koło Warszawy i drugim koło
Lublina.
Władimir Smirnow
(1887-1974)
Obaj siedzieliśmy na czatach w okolicach podmokłych przez cały dzień i jak
tylko zobaczyliśmy zaskrońca, łapaliśmy go, kładliśmy na metrówkę i – że-
by nie plątał się nam już pod nogami – wkładaliśmy do specjalnego kosza,
który opróżniliśmy dopiero wieczorem. Pod Warszawą pomierzyliśmy ich
79, a pod Lublinem aż 101. Wszystkie były równie oślizgłe.
Do pomiaru zmiennej zależnej użyliśmy metrówki, a więc całkiem przyzwo-
itej skali stosunkowej. I co z tego, kiedy dla obu grup węży rozkłady zmien-
nej zależnej okazały się silnie skośne (zob. rys. 7.2).
Jak widać z wykresu 7.2, po lasach w okolicy Warszawy pętają się krótsze
zaskrońce niż w lasach podlubelskich. Czy jednak te widoczne gołym okiem
różnice w rozkładach są statystycznie istotne? Jakie jest prawdopodobień-
stwo, że zebrane przez nas pomiary są możliwe do uzyskania zupełnie przy-
padkiem, czyli że prawdziwa jest hipoteza zerowa?
Początkowo sądziliśmy, że do analizy danych zastosujemy test t, ale okazało
się, że rozkłady długości węży były raczej nienormalne. Niezależnie od tego
przyjęliśmy, że odrzucamy hipotezę zerową na poziomie α = 0,01. Chcieli-
śmy być po prostu pewni naszej hipotezy o wpływie środowiska na długość
badanych zwierząt. Do zweryfikowania hipotezy zerowej nie mogliśmy się
TESTY NIEPARAMETRYCZNE 431

posłużyć testem parametrycznym, więc zdecydowaliśmy się na test Kołmo-


gorowa-Smirnowa.
Rysunek 7.2. Rozkłady dłu-
gości zaskrońców zaobser- Zaskrońce w lesie pod:
25
Lublinem
wowanych przez nas w la- Warszawą
sach pod Warszawą i Lubli-
nem [STATISTICA] 20

Liczba obserwacji
15

10

0
3,5 7,5 11,5 15,5 19,5 23,5 27,5 31,5 35,5 39,5 43,5 47,5
Długości zaskrońców

JAK POLICZYĆ TEST KOŁMOGOROWA-SMIRNOWA?

Obliczenie testu K-S sprowadza się do wyznaczenia tzw. statystyki D (max) .


Aby tego dokonać, trzeba najpierw zebrane obserwacje pogrupować w sku-
mulowane szeregi rozdzielcze o takich samych przedziałach. Na podstawie
wyników naszych pomiarów sporządziliśmy więc tabelę 7.10.
Tabela 7.10. Rozkłady liczebności zaskrońców o różnych długościach żyjących w lasach pod Warszawą i Lublinem

Skumulowane
Granice Liczebności zaskrońców liczebności proporcje
przedziałów w lesie pod
Lp. D
(długości
zaskrońców) zaskrońców w lesie pod

Warszawą Lublinem Warszawą Lublinem Warszawą Lublinem


1 6–9 2 1 2 1 0,0253 0,0099 0,0154
2 10 – 13 10 2 12 3 0,1519 0,0297 0,1222
3 14 – 17 21 11 33 14 0,4177 0,1386 0,2791
4 18 – 21 13 8 46 22 0,5823 0,2178 0,3645
5 22 – 25 8 9 54 31 0,6835 0,3069 0,3766
6 26 – 29 8 7 62 38 0,7848 0,3762 0,4086
7 30 – 33 4 20 66 58 0,8354 0,5743 0,2611
8 34 – 37 6 24 72 82 0,9114 0,8119 0,0995
9 38 – 41 4 15 76 97 0,9620 0,9604 0,0016
10 42 – 45 3 4 79 101 1,0000 1,0000 0,0000

W tabeli 7.10, oprócz kolumn zawierających liczebności otrzymane, wpisali-


śmy również liczebności i proporcje skumulowane dla obu grup pomiarów.
432 WNIOSKOWANIE STATYSTYCZNE

Skumulowane proporcje liczy się w taki sposób, że liczebności skumulowa-


ne dzielimy przez liczbę wszystkich obserwacji w danej grupie.
Na przykład pod Warszawą w sumie złapaliśmy 79 zaskrońców, a wśród
nich 21 miało długość między 14 a 17 cm. Skumulowana liczebność dla tego
przedziału wynosi 33, czyli skumulowana proporcja będzie równa
33
= 0,4177 . W ten sam sposób zostały policzone wszystkie pozostałe pro-
79
porcje, przy czym w grupie lubelskich zaskrońców w mianowniku wstawia-
liśmy 101, a nie 79.
Znając już skumulowane proporcje, bez trudu możemy oszacować statystykę
D (max) . Jest to największa bezwzględna różnica pomiędzy skumulowanymi
proporcjami dla obu grup pomiarów. W przypadku naszych danych maksy-
malna różnica między proporcjami dotyczy przedziału 26 – 29 cm i wynosi:
D (max) = 0,7848 – 03762 = 0,4086

O JEDEN WZÓR ZA DALEKO...

Zanim zajmiemy się sprawą interpretacji wyniku testu K-S, zapiszmy proce-
durę ustalania różnic między proporcjami za pomocą jednego wzoru.
fc ( A) i fc ( B ) i
Di = −
n( A ) i n( B ) i

Di różnica między proporcjami w dwóch zbiorach danych dla i-tego przedziału klasowego; spo-
śród tych różnic wybierana jest różnica największa D (max) i ona jest traktowana jako wynik
testu K-S,
fc(A)i oraz fc(B)i liczebności skumulowane w kolejnych, i-tych przedziałach klasowych dla dwóch porówny-
wanych zbiorów danych A i B,
n(A) oraz n(B) liczba pomiarów w grupie A i B.

NO TO JAK JEST Z TYMI WĘŻAMI, CZYLI INTERPRETACJA WYNIKÓW TESTU

Tym razem do interpretacji wyniku testu nie skorzystamy z gotowej tablicy


statystycznej z wartościami krytycznymi, tylko będziemy musieli sami je
sobie wyliczyć.
Konieczność oszacowania wartości kryterialnych jest związana z tym, że dla
tego samego poziomu istotności różnią się one w zależności od liczby po-
miarów w jednej i drugiej grupie. Ogólna postać procedury służącej do usta-
lenia tych wartości wygląda następująco:
TESTY NIEPARAMETRYCZNE 433

n1 + n2
D α ,n n = λ α
n1 × n2
1 2

D α ,n1 ,n2 krytyczna wartość testu Kołmogorowa-Smirnowa dla danego poziomu istotności α oraz li-
czebności n1 i n2, odpowiadających obu porównywanym zbiorom danych,
λα (czytaj: „lambda alfa”) stała wartość rozkładu Kołmogorowa dla danego poziomu α; wartość
λ w zależności od przyjętego poziomu wynosi: 1,36 dla α = 0,05, 1,63 dla α = 0,01 i 1,95 dla
α = 0,001.

Przed badaniami ustaliliśmy, że hipotezę zerową odrzucimy tylko wtedy,


gdy prawdopodobieństwo błędu związane z jej przyjęciem, czyli poziom α,
będzie równe lub mniejsze niż 0,01. Oznacza to, że stała wartość rozkładu
Kołmogorowa, którą powinniśmy wstawić do wzoru, równa się λ0,01 = 1,63.
Liczebności obu porównywanych grup zaskrońców w okolicach Warszawy
i Lublina wynosiły, odpowiednio, n1 = 79 i n2 = 101. No to mamy wszystkie
dane potrzebne do wyliczenia wartości krytycznej D 0, 01; 79;101 .

79 + 101
D 0, 01; 79;101 = 1,63 = 0,2428
79 × 101
Ostatnim krokiem analizy statystycznej jest zinterpretowanie wyniku testu
K-S poprzez porównanie go z obliczoną wartością krytyczną. Ponieważ
maksymalna różnica pomiędzy skumulowanymi proporcjami D (max) wynosi
0,4086 i jest ona większa od wartości krytycznej D 0, 01;79;101 = 0,2428 , może-
my spokojnie odrzucić hipotezę zerową i przyjąć, że prawdziwa jest hipoteza
alternatywna. Krótko mówiąc, wszystko wskazywałoby na to, że podwar-
szawskie zaskrońce to mikrusy w porównaniu z podlubelskimi, gdyby nie to,
że... całe to badanie wymyśliliśmy.
Nie mieliśmy pod ręką żadnych ciekawych wyników eksperymentów, które
analizowano by za pomocą testu Kołmogorowa-Smirnowa, i poniosła nas
fantazja. Jak później doczytaliśmy, w rzeczywistości samce zaskrońców ma-
ją między 70 a 100 cm, a samice między 85 a 130. W obu naszych zmyślo-
nych rozkładach są zaskrońce wyraźnie mniejsze od typowych, co tylko
świadczy o naszej ignorancji w tym temacie. Mamy przynajmniej nadzieję,
że udało nam się osiągnąć cel dydaktyczny, czyli z grubsza wiesz, o co cho-
dzi z testem K-S. Ma on jeszcze jedno zastosowanie, ale o tym później.

PODRÓŻE W WYOBRAŹNI I ZABAWY LICZBAMI, NA MARGINESIE TESTU MANNA-WHITNEYA

Marek jest niepełnosprawny. Wiele czasu spędza w domu. Ma wielu znajo-


mych i przyjaciół, którzy chętnie go odwiedzają, a kiedy „jadą w świat”, wy-
syłają do niego kartki pocztowe. Zbiera je od lat. Lubi się nimi bawić w po-
434 WNIOSKOWANIE STATYSTYCZNE

dróżowanie. Wrzuca je do plastikowego worka, a potem wyjmuje kilka, roz-


kłada na stole i wyobraża sobie, jak przebiegałaby taka podróż. Wszystkie
kartki Marka są ponumerowane w kolejności, w jakiej do niego przychodzi-
ły. Czasem bardziej nawet interesują go te numery niż miejsca, z których
pochodzą kartki.
Któregoś dnia z worka liczącego już dobrze ponad 5000 kartek wyjął 40 i lo-
sowo podzielił je na dwie podróże, każdą po 20 kartek. Numery na kartkach
nie układały się po kolei: 375, 2053, 174, 4419, 2789, 966 itd. To zrozumia-
łe. Podobnie było w drugim ciągu. Przyglądając się jednak uważniej tym
numerom, dostrzegł, że w jednym ciągu jest jakby więcej kartek z niższymi
liczbami, a w drugim z wyższymi.
Ciekawe – pomyślał – czy może być tak, że chociaż losowo wybierałem
kartki z worka, to jednak one same ułożyły się zgodnie z chronologią zbiera-
nia. Jak to sprawdzić?
Najpierw zaczął dodawać do siebie liczby w jednym i w drugim ciągu. Kie-
dy przeliczył drugi raz, okazało się, że wyniki są inne niż za pierwszym ra-
zem. Gdzieś popełnił błąd, policzył więc jeszcze raz – znowu inaczej. Coś
nie tak. I wtedy wpadł na pomysł podobny do tego, który zainspirował twór-
ców testu Manna-Whitneya, czyli urodzonego w Wiedniu amerykańskiego
statystyka, Henry’ego Bertholda Manna (1905-2000), i jego doktoranta na
uniwersytecie stanowym w Ohio, Donalda Ransoma Whitneya. Zamiast do-
dawać do siebie liczby z dwóch podróży, lepiej jest przypisać każdej z tych
liczb kolejną wartość w porządku od najmniejszej do największej. Trzeba
jednak zrobić to w taki sposób, żeby kolejna ranga była przypisana tej licz-
bie, która jest większa od poprzedniej, ale niezależnie od tego, do którego
ciągu ona należy. To ważne. Jeżeli kartki rozłożyły się zupełnie losowo i ob-
serwacja Marka, że w jednym ciągu liczby są większe, a w drugim mniejsze,
nie jest trafna, to suma tak porangowanych liczb w obu ciągach powinna być
podobna, tak jak np. w tabeli 7.11.

Tabela 7.11. Przykładowe Liczby na kartkach Złożone rangi liczb na kartkach


numery zapisane na kartkach Lp.
w obu podróżach i ich wspólne Podróż I Podróż II Podróż I Podróż II
rangi 1 18 7 3 1
2 53 61 5 6
3 12 25 2 4
Suma złożonych rang: 10 11

Marek porangował liczby na kartkach, a następnie policzył sumy rang.


W pierwszym ciągu wyszło 442, a w drugim 378. Chociaż łatwiej było do-
dawać do siebie rangi niż liczby z kartek, a sumy rang okazały się nieco in-
ne, to jednak nadal nie było wiadomo, czy różnica między nimi jest istotna,
TESTY NIEPARAMETRYCZNE 435

czy nie. Teraz pozostało już tylko podstawić te dane do testu Manna-
Whitneya. Oczywiście Marek nie znał tego testu, ale właśnie wtedy narodzi-
ła się w nim druga życiowa pasja – statystyka. Wkrótce już wiedział, do ja-
kich wzorów ma podstawić swoje dane:
n1 ( n1 + 1)
U 1 = n1 × n2 + − R1
2
i
n2 (n2 + 1)
U 2 = n1 × n2 + − R2
2
n1 liczebność pierwszej grupy,
n2 liczebność drugiej grupy,
R1 suma rang w pierwszej grupie,
R2 suma rang w drugiej grupie.

Obie te wartości obliczone dla sum rang w dwóch losowych grupach


20-elementowych wyniosły:
20 × (20 + 1)
U 1 = 20 × 20 + − 442 = 168
2
i
20 × (20 + 1)
U 2 = 20 × 20 + − 378 = 232
2
Wynikiem tego testu jest statystyka U. Jest to mniejsza z dwóch wartości ob-
liczonych zgodnie z powyższymi formułami. W przypadku danych Marka
wynikiem testu jest więc U = 168.

JAK ZINTERPRETOWAĆ WYNIK TESTU MANNA-WHITNEYA?

Podobnie jak w przypadku testu t Studenta dla prób niezależnych odrzucamy


hipotezę zerową wtedy, gdy prawdopodobieństwo uzyskanego wyniku testu
i wszystkich wyższych od niego jest mniejsze od przyjętego poziomu istot-
α
ności α dla testu jednostronnego i mniejsze od dla testu dwustronnego.
2
W przypadku analizy prowadzonej przez Marka prawdopodobieństwo uzy-
skania wartości U = 168 i wyższych dla grup o liczebnościach 20 i 20 wyno-
si p = 0,39. No cóż, jest ono zbyt wysokie, aby odrzucić hipotezę zerową.
Chociaż obserwacja Marka nie była zupełnie bezpodstawna – między su-
mami rang rzeczywiście były różnice – to jednak okazały się one statystycz-
436 WNIOSKOWANIE STATYSTYCZNE

nie nieistotne. Właściwie nie ma w tym nic dziwnego, przecież w końcu obie
20-elementowe podróże powstały zupełnie przypadkowo.

TEST MANNA-WHITNEYA, TESTY t I WYNIKI STANDARYZOWANE z

Test Manna-Whitneya jest nieparametrycznym odpowiednikiem testu t dla


danych niezależnych. Zgodnie z wynikami badań przeprowadzonymi za po-
mocą metod Monte Carlo, w niektórych przypadkach ten test jest nawet
mocniejszy od testu t. Gdy badana cecha nie ma rozkładu normalnego, mo-
żesz spokojnie stosować test Manna-Whithneya, ponieważ szansa na przyję-
cie hipotezy alternatywnej – o ile jest prawdziwa – i tak nie jest mniejsza niż
szansa na odrzucenie hipotezy zerowej za pomocą testu t.
Chociaż test Manna-Whitneya nie zakłada znajomości parametrów rozkładu
porównywanych cech w populacjach, to jednak jego wynik, czyli statystykę
U, można wyrazić za pomocą wyników standaryzowanych z, pod warunkiem
jednak, że w każdej z badanych grup jest co najmniej 10 elementów i obie
sumy rang U1 i U2 nie są mniejsze niż 4. Nie wchodzimy zbytnio w szczegó-
ły tej zamiany, gdyż program do obliczeń statystycznych zrobi to za Ciebie.
Jako przykład podamy, że statystyce U = 168 odpowiada z = 0,86. Przerabia-
liśmy już, w jaki sposób zinterpretować wynik testu z = 0,86. Podobnie jak
wynik testu Manna-Whitneya, wyraźnie wskazuje on na brak podstaw do od-
rzucenia hipotezy zerowej.

„JEŻELI ANNY NIE MA W GRANADZIE, TO TERESA JEST W TOLEDO”

Kończąc omawianie testu Manna-Whitneya, przyjrzyjmy się eksperymen-


* Garcia-Madruga, J. A., towi zaprojektowanemu przez Juana Garcia-Madrugę i współpracowników*.
Moreno, S., Carriedo, N., Oprócz Philipa Johnsona-Lairda, pozostali autorzy tego artykułu są Hiszpa-
Gutierrez, F., Johnson-Laird, Ph.
N. (2001). Are conjunctive infe- nami, co tłumaczy orientalne imiona i nazwy miast w zadaniach rozwiązy-
rences easier than disjunctive in- wanych przez osoby badane. Zastosowali oni ten test do sprawdzenia, czy ła-
ferences. A comparison of rules
and models. The Quarterly Jo-
twiej jest samemu wyciągać logicznie poprawne wnioski, czy też oceniać
urnal of Experimental Psycho- wnioski, które wyciągnął ktoś inny. W badaniach wzięło udział 91 studen-
logy, 53(A), 613-632. tów podzielonych na dwie grupy. Najpierw wszyscy mieli się zapoznać z se-
W swoim badaniu autorzy ci
testowali także inne hipotezy, rią wnioskowań typu:
ale my przedstawiamy tylko tę
analizę, w której wykorzystany
Anny nie ma w Granadzie lub Pabla nie ma w Barcelonie.
został test Manna-Whitneya. Jeżeli Anny nie ma w Granadzie, to Teresa jest w Toledo.
Jeżeli Pabla nie ma w Barcelonie, to Teresa jest w Toledo.
Później jedna grupa (53 studentów) miała ocenić, czy przedstawiony im
wniosek (np. „Teresa jest w Toledo”) jest poprawny, a druga (39 studentów)
sama musiała go wyciągnąć. W pierwszej grupie zmienną zależną była licz-
ba poprawnych ocen, a w drugiej – liczba poprawnie wyciągniętych wnio-
TESTY NIEPARAMETRYCZNE 437

sków. W eksperymencie przedstawiono osobom badanym kilka wnioskowań


tego typu o różnym stopniu trudności. Zgodnie z przewidywaniami, uczest-
nicy eksperymentu częściej dokonywali poprawnych ocen wniosków, niż
sami je wyciągali.
Sprawdzono to za pomocą testu Manna-Whitneya. Liczby poprawnych od-
powiedzi każdej z osób badanych w jednej i w drugiej grupie zostały wspól-
nie porangowane. Wynik testu Manna-Whitneya autorzy podali w postaci
przeliczonej na wynik standaryzowany z, a jego wartość wyniosła z = 1,86.
Ponieważ ich hipoteza alternatywna była kierunkowa – „więcej będzie po-
prawnych odpowiedzi w grupie oceniającej wnioski niż w grupie wyciągają-
cej wnioski” – zatem wynik testu został porównany z wartością krytyczną
z dla testu jednostronnego na poziomie α = 0,05, czyli z0,05 = 1,64. Ponieważ
zamieniony na z wynik testu Manna-Whitneya jest wyższy od wartości kry-
tycznej, uznano więc, że można odrzucić hipotezę zerową. Ocenianie, czy
dany wniosek wynika logicznie z przesłanek, jest łatwiejsze niż wyciąganie
takiego wniosku samemu.

7.3.2. TESTY DLA DANYCH ZALEŻNYCH

POWAŻNE PROBLEMY DECYZYJNE SPRZEDAWCÓW KOMPUTERÓW

Od kilku miesięcy Paweł i Darek prowadzą niewielką firmę handlującą


sprzętem komputerowym. Interesuje ich zwłaszcza rynek akcesoriów (my-
szy, podkładki, klawiatury, głośniki itp.). Któregoś dnia Darek namierzył
w Internecie dwa całkiem nowe typy tzw. ergonomicznych klawiatur kom-
puterowych, które od tradycyjnych różnią się dość zasadniczo, zarówno
kształtem, jak i wielkością oraz położeniem klawiszy. Parametry techniczne
obu klawiatur są bardzo podobne, a cena tak wysoka, że firmy nie stać jesz-
cze na sprowadzenie obydwu rodzajów. Szczęśliwym trafem, Aśka, dziew-
czyna Pawła, studiuje psychologię i poszukuje tematu do pracy empirycznej.
Od razu zgodziła się pomóc chłopakom w przetestowaniu sprzętu i podjęciu
decyzji, którą klawiaturę warto sprowadzić jako pierwszą. Trzeba było tylko
zaprojektować prosty eksperyment.
Aśka przyjęła, że:
• „lepsza” jest ta klawiatura, za pomocą której w określonej jednostce cza-
su użytkownik przepisze więcej tekstu, a zarazem popełni mniej błędów;
• operacyjnym wskaźnikiem „dobroci” klawiatury będzie liczba bezbłęd-
nie przepisanych słów tego samego tekstu w ciągu 15 minut;
438 WNIOSKOWANIE STATYSTYCZNE

• kryterium odrzucenia hipotezy zerowej o braku różnic między klawiatu-


rami jest α = 0,05.
Po tych wstępnych ustaleniach zwróciła się do 10 swoich znajomych, którzy
mieli jakie takie pojęcie o pisaniu na komputerze, z prośbą o przepisanie
fragmentu tego samego tekstu. Z każdą osobą spotykała się dwukrotnie w
ciągu tygodnia.
W czasie pierwszej sesji zadaniem osoby badanej było przepisywanie przez
15 minut wskazanego jej testu za pomocą jednej, a w czasie drugiej sesji –
za pomocą drugiej klawiatury. W instrukcji zwróciła osobom testowanym
uwagę na to, aby starały się przepisywać tekst jak najszybciej, a jednocze-
śnie aby dbały o dokładność wykonywanej pracy.

CZY FRANK WILCOXON POMOŻE KOMPUTEROWCOM?

Do weryfikacji hipotezy zerowej, zgodnie z którą klawiatury nie różnią się


między sobą, Aśka zastosowała nieparametryczny test dla danych zależnych
opracowany przez Franka Wilcoxona. Podobnie jak w przypadku testu Man-
na-Whitneya, również i tym razem wyniki osób badanych należy zapisać
w postaci rang.
W tabeli 7.12 zapisaliśmy zarówno dane z badania Aśki, jak i kolejne ele-
menty procedury obliczeniowej testu Wilcoxona.

Tabela 7.12. Wyniki eks- Liczba poprawnie przepisa- Rangi |A – B|


perymentu z klawiaturami Nr osoby ba- nych słów Rangi ze znakiem
A–B |A – B|
danej |A – B| rzadziej wy-
Klawiatura A Klawiatura B stępującym

1 32 19 13 13 8
2 41 23 18 18 9
3 18 12 6 6 4
4 19 19 0 0 –
5 26 23 3 3 3
6 15 16 –1 1 1 1
7 29 21 8 8 6
8 43 33 10 10 7
9 17 19 –2 2 2 2
10 19 12 7 7 5
Frank Wilcoxon 3
Suma 259 197
(1892-1965)

W pierwszej kolumnie w tabeli 7.12 znajdują się liczby oznaczające kolejne


osoby badane, a w następnych dwóch oznaczonych literami „A” i „B” poda-
TESTY NIEPARAMETRYCZNE 439

na jest liczba bezbłędnie przepisanych przez nie słów, odpowiednio za po-


mocą klawiatury A i klawiatury B.
Test Wilcoxona opiera się na założeniu, że jeżeli nie ma różnic między da-
nymi w jednej i w drugiej próbie, to suma różnic między nimi powinna być
równa zero. Można to też powiedzieć inaczej: jeżeli hipoteza zerowa jest
prawdziwa, to w kolumnie oznaczonej „A – B” powinno być tyle samo róż-
nic ze znakiem dodatnim, co ze znakiem ujemnym, czyli podczas badania
„dobroci” klawiatur połowa osób testowanych szybciej pisałaby za pomocą
klawiatury A, a druga połowa – za pomocą klawiatury B.
Test Wilcoxona czasami nazywa się testem znaków i rang różnic. Nazwa ta
zawiera kluczowe elementy procedury obliczeniowej testu. Rzecz w tym, że
najpierw trzeba policzyć różnice między wynikami uzyskanymi przez te sa-
me osoby w jednej i w drugiej sytuacji (kolumna: A – B). Następnie należy
zamienić wszystkie uzyskane w ten sposób różnice na wartości bezwzględne
(kolumna: |A – B|) i porangować je (kolumna: Rangi |A – B|). Rangując róż-
nice, nie bierze się pod uwagę wyników tych osób badanych, które w obu
sytuacjach pomiarowych uzyskały takie same wyniki (w tabeli 7.12 chodzi o
osobę oznaczoną numerem 4).
W teście Wilcoxona bierze się pod uwagę także znak różnicy pomiędzy
obydwoma wynikami uzyskanymi przez osoby badane. W eksperymencie
z klawiaturami 7 osób na 10 napisało więcej słów poprawnie za pomocą
klawiatury A niż B, tak więc różnica pomiędzy pomiarami dla tych osób ma
znak dodatni. Jedna osoba napisała tyle samo słów na obu klawiaturach,
a dwie napisały więcej poprawnych słów na klawiaturze B niż na klawiatu-
rze A, dlatego wynik różnicy: A – B dla tych osób ma znak ujemny.
Wynikiem testu Wilcoxona, oznaczanym literą T, jest suma rang odpowiada-
jących tym różnicom, którym towarzyszy znak rzadziej występujący w ko-
lumnie: A – B. Do ostatniej kolumny w tabeli 7.12 przepisaliśmy więc tylko
dwie rangi: 1 i 2, związane, odpowiednio, z szóstą i dziewiątą osobą, ponie-
waż tylko one wolniej pisały za pomocą klawiatury A niż B. Większość
uczestników badania znacznie lepiej radziła sobie na klawiaturze A niż B.
Wynikiem analizy danych z badania Aśki jest T = 3.

O PRZYDATNOŚCI STATYSTYKI W ŻYCIU, CZYLI JAK ZINTERPRETOWAĆ WYNIK TESTU WILCOXONA

Wynik testu Wilcoxona ma taką właściwość, że im mniejsza jest jego war-


tość, tym większa szansa na odrzucenie hipotezy zerowej. To logiczne, jeśli
bowiem wszystkie osoby badane uzyskały wyższe wyniki podczas pierw-
szego pomiaru niż podczas drugiego, to nie będzie rang ze znakiem rzadziej
występującym (bo wszystkie będą miały taki sam), czyli T będzie się równa-
440 WNIOSKOWANIE STATYSTYCZNE

ło 0. I odwrotnie, jeśli T = 0, to bez wątpienia zachowanie się osób badanych


w jednej i w drugiej sytuacji różni się od siebie.
Podstawą do interpretacji wyniku testu Wilcoxona jest specjalnie do tego ce-
lu opracowana tablica. Zawiera ona krytyczne wartości testu na trzech po-
ziomach istotności α, tj. 0,05, 0,02 i 0,01, oraz dla różnej liczby niezerowych
różnic między porównywanymi parami danych.
W Aneksie znajduje się ona pod literą G. Tablica ta jest podzielona na dwie
części, odpowiadające dwom sposobom testowania hipotez: jednostronnemu
i dwustronnemu. W jej główce znajdują się wspomniane trzy poziomy istot-
ności, a w boczku liczba par danych, których różnica jest różna od 0. Zwróć
uwagę na wartości krytyczne. Dla obu testów (jedno- i dwustronnego) im
słabsze jest kryterium odrzucenia hipotezy zerowej, tym są one wyższe. Tyl-
ko w niewielu tablicach statystycznych spotkasz się z taką relacją między
poziomami istotności a wartościami krytycznymi testu.
Usiłując zinterpretować wynik testu Wilcoxona, Aśka też przez moment po-
czuła się niepewnie. W jej badaniach wystąpiło 9 par niezerowych różnic
między miarami zmiennej zależnej. Ponieważ hipoteza badawcza nie okre-
ślała kierunku przewidywanych różnic między wynikami, sprawdziła więc
istotności za pomocą testu dwustronnego, przyjmując, że α = 0,05.
W miejscu przecięcia się wiersza wskazującego na 9 par i kolumny ozna-
czonej przyjętym poziomem α, w tablicy G odczytała, że wartość krytyczna
testu T0,05 = 6. Ponieważ wynik testu Wilcoxona T = 3 jest mniejszy od war-
tości krytycznej T0,05, Aśka miała wystarczającą podstawę do odrzucenia hi-
potezy zerowej: testowane klawiatury różnią się ze względu na łatwość ob-
sługi. Liczba bezbłędnie przepisanych słów za pomocą klawiatury A (śred-
nio 25,9) była większa niż liczba słów przepisanych poprawnie za pomocą
klawiatury B (średnio 19,7). Różnica ta jest istotna statystycznie na pozio-
mie α = 0,05.
Paweł i Darek sprowadzili 6 klawiatur typu A. Następnego dnia poszły dwie,
a do końca tygodnia – wszystkie. Aśka zaliczyła pracę empiryczną na stu-
diach i doszła do słusznego skądinąd wniosku, że znajomość statystyki może
być bardzo przydatna w życiu. I wszyscy żyli długo i szczęśliwie.

JAK MA SIĘ WYNIK W TEŚCIE WILCOXONA DO WYNIKU STANDARYZOWANEGO z?

W przykładzie badań z klawiaturami mieliśmy do czynienia z bardzo małą


liczebnością badanej próby. Już przy tak małej próbie wynik testu Wilcoxo-
na można jednak wyrazić za pomocą wartości standaryzowanych z. George
Ferguson i Yoshio Takane podają, że taki zabieg można przeprowadzić na-
wet wtedy, gdy przedmiotem analizy jest 5 par niezerowych różnic. W prak-
TESTY NIEPARAMETRYCZNE 441

tyce bezpieczniej jest jednak stosować kryterium 10 par. Przekształcenie


wyniku T na wartość standaryzowaną z przebiega zgodnie z nieco zakręco-
nym wzorem:
n(n + 1) - 4T
z (T ) =
2
n(n + 1)(2n + 1)
3
z(T) wynik testu Wilcoxona wyrażony w wartościach rozkładu normalnego standaryzowanego,
n liczba par danych, których różnica jest różna od zera,
T wynik testu Wilcoxona, czyli suma rang różnic ze znakiem rzadziej występującym.

W badaniu z klawiaturami T = 3, a n = 9 i dlatego:


9 × (9 + 1) − 4 × 3
z (T ) = = 2,31
2
× 9 × (9 + 1) × (2 × 9 + 1)
3
Przekształcony wynik testu Wilcoxona można interpretować w taki sam spo-
sób, jak interpretuje się wynik testu z. Wartość krytyczna z0,05 dla testu dwu-
stronnego równa się 1,96 i jest mniejsza niż z(T), co potwierdza tylko wcześ-
niejszą interpretację.

TEST WILCOXONA A TEST t DLA DANYCH ZALEŻNYCH

Test Wilcoxona jest nieparametrycznym zamiennikiem testu t Studenta dla


danych zależnych w sytuacji, gdy nie jest spełnione założenie o normalności
rozkładu zmiennej zależnej lub pomiar został przeprowadzony na skali po-
rządkowej. Test Wilcoxona wymaga, aby dane zostały zapisane w parach
i by można było porangować różnice między wynikami w parach. Podobnie
* Por. Blair, R. C., Higgins, J. J. jak w przypadku testu Manna-Whitneya, test Wilcoxona jest uważany za
(1985). Comparison of the pow- mocny odpowiednik testu t. W praktyce oznacza to, że dla większości roz-
er of the paired samples t test to
that of Wilcoxon’s signed ranks kładów, nawet całkiem różnych od normalnego, test t i test Wilcoxona pro-
test under various population wadzą do takich samych wyników*. Jeżeli więc masz jakieś zasadnicze wąt-
shapes. Psychological Bulletin,
97, 119-128.
pliwości, czy można stosować test t, lepiej użyj testu Wilcoxona, a nic nie
stracisz na wynikach.

TEST WILCOXONA Z AUTOMATYCZNĄ SKRZYNIĄ BIEGÓW, CZYLI O TEŚCIE ZNAKÓW

Test znaków stosuje się w podobnych sytuacjach, jak test Wilcoxona. Jest on
po prostu jeszcze łatwiejszy w obsłudze. Sposób jego obliczania przedstawi-
liśmy już w zasadzie, omawiając test dwumianowy na początku części po-
święconej testom nieparametrycznym. Procedura obliczania testu znaków,
442 WNIOSKOWANIE STATYSTYCZNE

tak samo jak testu dwumianowego, polega na porównaniu, ile razy wartości
jednego zbioru są większe od wartości drugiego zbioru. Bez wątpienia, jest
to najprostszy test statystyczny. Mimo to – a może właśnie dlatego – jest on
całkiem często wykorzystywany.
* Higgins, N. C., Cocks, P. Norman Higgins i Patricia Cocks* przeprowadzili badania dotyczące wpły-
(1999). The effects of animation wu animowanych książek wydawanych na CD-ROM-ach na uczenie się no-
cues on vocabulary develop-
ment. Reading Psychology, 20, wych słów przez dzieci. Chcieli się dowiedzieć, czy udział w ich ekspery-
1-10. mencie spowoduje, że dzieci będą znały więcej nowych słów niż przed eks-
perymentem.
Najpierw sprawdzali, jaki jest zakres rozumienia przez dzieci sześciu wy-
branych słów. Następnie poprosili je o to, aby wraz z nimi przeczytały ksią-
żeczkę zapisaną na płycie CD. Słowa, których znajomość wcześniej spraw-
dzali, ilustrowane były w książeczce za pomocą animacji. Po czterech
dniach raz jeszcze zapytali dzieci, w jaki sposób rozumieją te słowa. Okaza-
ło się, że 14 dzieci spośród 15 podało poprawne definicje większej liczby
słów niż za pierwszym razem.
Wykonując test znaków, podobnie jak w przypadku każdego testu dla da-
nych zależnych, najpierw trzeba odjąć wartości jednego pomiaru od drugie-
go w każdej parze. Kolejnym, a zarazem ostatnim krokiem jest policzenie,
ile razy wynik odejmowania ma znak dodatni, a ile razy znak ujemny. Wy-
nikiem testu jest liczba par ze znakiem, który wystąpił częściej. W ekspery-
mencie z animowanymi książkami na CD-ROM-ach wynikiem testu znaków
jest liczba 14, ponieważ tyle dzieci poprawnie definiowało więcej słów po
badaniu niż przed badaniem na wszystkich 15, które wzięły w nim udział.

O ANIMOWANYCH KSIĄŻECZKACH DLA DZIECI I INTERPRETACJI WYNIKU TESTU ZNAKÓW

Aby zinterpretować wynik testu znaków, musimy się odwołać do znanego ci


rozkładu dwumianowego. Określa on prawdopodobieństwo tego, że badana
cecha przyjmie jedną z dwóch wartości w skończonej liczbie prób.
W przypadku eksperymentu z animowanymi książkami wynikiem testu zna-
ków jest liczba tych znaków, których jest więcej, czyli 14. Gdyby czytanie
książeczek na CD-ROM-ach nie miało wpływu na zakres rozumienia słów
przez dzieci, wtedy moglibyśmy się spodziewać, że mniej więcej połowa
z nich po czterech dniach będzie znała definicje większej liczby słów, a po-
łowa – mniejszej liczby słów niż przed badaniem. Możliwe jest także i to, że
część dzieci poprawnie zdefiniowałaby dokładnie tyle samo słów.
W teście znaków, podobnie jak w teście Wilcoxona, bierzemy pod uwagę
tylko te pary wyników, które różnią się od siebie. Hipoteza zerowa brzmi
więc następująco:
TESTY NIEPARAMETRYCZNE 443

H0: Proporcja par wyników, w których pierwszy pomiar jest wyższy niż dru-
gi, jest taka sama jak proporcja par wyników, dla których zachodzi za-
leżność odwrotna.
Im bardziej są zachwiane proporcje znaków dodatnich i ujemnych, tym
większe jest prawdopodobieństwo, że różnice pomiędzy danymi w pierw-
szym i w drugim pomiarze nie są dziełem przypadku.
Analizując wyniki testu znaków, zakładamy, że prawdopodobieństwo tego,
iż jeden z pomiarów w parze przypadkiem będzie większy od drugiego, wy-
nosi 0,5. Prawdopodobieństwo w teście znaków można obliczyć, korzystając
ze wzoru na prawdopodobieństwo w rozkładzie dwumianowym, który poda-
liśmy we wprowadzeniu do tego rozdziału. Przypomnijmy:
N!
p(k ) = × p k × q N −k
k!( N − k )!
p(k) prawdopodobieństwo, że jakaś cecha pojawi się k razy,
N liczebność całego zbioru,
dopełniające się, czyli w sumie wynoszące 1, prawdopodobieństwa tego, że zdarzenie, jakie
piq
nas interesuje, pojawi się jeden raz.

Po podstawieniu danych (k = 14; N = 15; p = q = 0,5) do wzoru, prawdopo-


dobieństwo odrzucenia hipotezy zerowej wynosi:
15!
p (14) = × 0,514 × 0,515−14 = { czary mary} = 0,0005
14!(15 − 14)!

Prawdopodobieństwo rozkładu dwumianowego można także obliczać za


pomocą popularnego arkusza kalkulacyjnego Excel. W programie zastoso-
wano intuicyjne nazewnictwo zaproponowane przez Jakuba Bernoulliego.
Liczba porównywanych par to „liczba niezależnych prób”, a liczba par ze
znakiem, który występuje częściej, to „liczba sukcesów w próbach”.
Z kolei „prawdopodobieństwo sukcesu w pojedynczej próbie” to prawdopo-
dobieństwo tego, że wynik w jednym pomiarze będzie wyższy niż w drugim,
przy założeniu, że hipoteza zerowa jest prawdziwa, czyli przypadkiem.
W teście znaków prawdopodobieństwo to zawsze równa się 0,5.
Obliczone przez nas prawdopodobieństwo uzyskania 14 i więcej znaków
dodatnich w 15 próbach wyniosło dokładnie p = 0,000458, a po zaokrągle-
niu 0,0005.
Oznacza to, że badacze analizujący wpływ animowanych książek na uczenie
się nowych słów przez dzieci bez cienia wątpliwości mogli odrzucić hipote-
zę zerową, z prawdopodobieństwem błędu znacznie niższym niż α = 0,05.
444 WNIOSKOWANIE STATYSTYCZNE

ZAMIANA WYNIKÓW TESTU ZNAKÓW NA WYNIKI STANDARYZOWANE z

Jeśli nie możesz obliczyć prawdopodobieństwa wyniku testu znaków, bo np.


nie chce ci się wstawać z kanapy i włączać komputera, to możesz ten wynik
zamienić na wartość standaryzowaną z za pomocą następującej formułki:
D −1
z=
n
z wynik standaryzowany,

D wartość bezwzględna różnicy między liczbą znaków dodatnich i ujemnych,

n liczba badanych osób, czyli liczba par.

W eksperymencie Higginsa i Cocks wartość D wynosi 13, ponieważ 14


(plusów) i 1 (minus) równa się 13, natomiast wynik standaryzowany z wy-
nosi:
13 − 1
z= = 3,098
15
Wartość tę interpretuje się dokładnie tak samo jak wynik testu z. Jak pamię-
tasz, krytyczna wartość testu z0,05 = 1,96, czyli jest znacznie mniejsza niż
wynik testu znaków przekształcony na z. Hipoteza zerowa jest bardzo mało
prawdopodobna.
A tak nawiasem mówiąc, czy wiesz, jakie jest prawdopodobieństwo uzyska-
nia wartości 3,098 i wyższych w rozkładzie z? Wynosi ono mniej niż 0,0013.
Przybliżenie rozkładu dwumianowego za pomocą rozkładu z staje się coraz
dokładniejsze wraz ze wzrostem wielkości próby i – jak piszą Ferguson i
Takane (1997) – staje się zadowalające już przy n = 9.

KIEDY WARTO POMYŚLEĆ O TEŚCIE ZNAKÓW?

Test znaków jest uproszczoną wersją testu znaków i rang różnic Wilcoxona.
W przypadku testu Wilcoxona braliśmy pod uwagę dwie cechy par danych –
liczbę różnic ze znakiem dodatnim i ujemnym oraz sumę rang różnic ze zna-
kiem rzadziej występującym.
W teście znaków bierzemy pod uwagę mniej informacji – tylko liczbę różnic
– a zaniedbujemy ich wielkość. Test znaków jest więc stosowany zamiast te-
stu Wilcoxona zwłaszcza wtedy, gdy wyniki uzyskane przez osoby badane
mają bardzo mały zakres zmienności. W takiej sytuacji rangowanie ich róż-
nic niewiele wnosi istotnych informacji co do charakteru analizowanego
zbioru danych.
TESTY NIEPARAMETRYCZNE 445

7.4. TESTY NIEPARAMETRYCZNE DLA WIĘCEJ NIŻ DWÓCH PRÓBEK

KILKA UWAG O BARDZO UŻYTECZNYCH TESTACH NIEPARAMETRYCZNYCH

O przedstawionych dotychczas testach nieparametrycznych można powie-


dzieć, że są odpowiednikami którejś z wersji testu t Studenta – dla danych
zależnych lub niezależnych. Wśród testów parametrycznych jednak, oprócz
testu t lub z, za pomocą których możesz różnicować wyniki dwóch grup
osób badanych, jest przecież jeszcze np. analiza wariancji, pozwalająca na
badanie różnic między więcej niż dwiema grupami wyników. Wśród testów
nieparametrycznych także znajdziesz kilka bardzo użytecznych narzędzi sta-
tystycznych, które nadają się do analiz tego rodzaju sytuacji eksperymental-
nych. Można o nich powiedzieć, że w pewnym sensie są nieparametryczny-
mi zamiennikami jednoczynnikowej analizy wariancji.
Z pierwszych dwóch – testu opartego na medianie i testu Kruskala-Wallisa –
skorzystasz wtedy, gdy będziesz chciał porównać więcej niż dwa zbiory wy-
ników pochodzących od różnych osób badanych. Testy te służą więc do po-
równań międzygrupowych dla danych niezależnych. Jeżeli natomiast kilka-
krotnie będziesz badał tę samą grupę osób, to użyteczny może się okazać test
Friedmana. Jest to test służący do porównań wewnątrzgrupowych dla da-
nych zależnych. Wszystkie wymienione testy są nieparametryczne, to zna-
czy są użyteczne wtedy, gdy z jakiegokolwiek powodu nie możesz przyjąć
założenia o normalności rozkładu zmiennej zależnej w populacji.

O NIEPOKOJACH NAJWAŻNIEJSZEGO SZEFA WIELKIEJ FIRMY I TEŚCIE OPARTYM NA MEDIANIE

Do wszystkosłyszących uszu Najważniejszego Szefa Wielkiej Firmy zaczęły


docierać niepokojące plotki. Oto w jednym z czterech działów zarządzanej
przez niego korporacji pojawiła się spora grupa osób, które wyraźnie ujaw-
niały przywódcze zdolności. „Ważne jest mieć grono zaufanych zarządców
majątku, ale nie jest dobrze, jeśli siedzą w kupie w jednym dziale” – pomy-
ślał nieco kolokwialnie Najważniejszy Szef, wychowywany za młodu przez
kuzynkę swojej babki, której ulubionym powiedzeniem na każdą oko-
* To potoczne stwierdzenie w liczność było: „gdzie kucharek sześć, tam nie ma co jeść”*. Porzekadło to
psychologii społecznej nosi na- wyjątkowo dobrze pasowało mu do aktualnej sytuacji w Wielkiej Firmie
zwę zasady „rozproszonej od-
powiedzialności”. i sprowokowało do podjęcia odpowiednich środków zaradczych. Przede
wszystkim chciał się upewnić, czy docierające do niego wieści są prawdzi-
we. W krótkich i niezbyt wyszukanych słowach przedstawił sytuację swoje-
mu Pierwszemu Psychologowi. Nieraz już korzystał z jego rad. Bardzo go
szanował, zwłaszcza za małomówność, w obliczu której jego wypowiedzi
zdecydowanie zyskiwały na sile.
446 WNIOSKOWANIE STATYSTYCZNE

Pierwszy Psycholog, z wrodzoną sobie intuicją, w lot pojął intencje swego


pryncypała i niezwłocznie przystąpił do pracy nad metodą badawczą, która
pozwoliłaby na weryfikację plotek docierających do Najważniejszego Szefa.
Zaczął od przyjęcia założenia, że jedną z najważniejszych cech przywód-
czych jest dominacja, czyli – nie owijając w bawełnę – zdolność do narzuca-
nia innym swojej woli i apodyktyczność. W psychologii dominację traktuje
się jako cechę osobowości, której nasilenie można mierzyć za pomocą kwe-
stionariusza osobowości, np. opracowanego przez amerykańskiego psycho-
loga, Raymonda Cattella. Kwestionariusz zawiera listę pytań, a udzielane na
nie odpowiedzi są przekodowane na wyniki w 10-punktowej skali.
Pod pozorem badań okresowych w Wielkiej Firmie, Pierwszy Psycholog do-
łączył do materiałów testowych kwestionariusz Cattella. Badania zostały
przeprowadzone indywidualnie w grupie 44 urzędników, po 11 z każdego
działu. Interesujące Najważniejszego Szefa dane, dotyczące kumulacji osób
o podwyższonych cechach przywódczych w jednym z działów korporacji,
Pierwszy Psycholog złożył w formie tabeli, wyglądającej mniej więcej tak,
jak tabela 7.13.

Tabela 7.13. Wyniki 44 Dział w Wielkiej Firmie


urzędników Wielkiej Firmy Lp.
w zakresie dominacji (im wyż- A B C D
sza wartość liczbowa wskaź- 1 6 6 5 8
nika dominacji, tym większa
tendencja do podporządko- 2 7 4 6 7
wywania sobie innych)
3 4 6 3 7

4 5 6 5 6

5 7 4 7 5

6 3 6 6 9

7 4 3 5 8

8 5 9 7 3

9 5 8 8 6

10 5 4 6 5

11 4 7 4 8

Pozostawiając na boku nierozstrzygniętą dotąd dyskusję dotyczącą tego,


w jakiej mierze takie cechy osobowości, jak np. dominacja, są stałe, Pierw-
szy Psycholog jasno postawił pytanie badawcze: Czy któryś z czterech dzia-
łów przyciąga znacząco więcej osób o podwyższonej wartości wskaźnika
dominacji? Do analizy danych, która miała go doprowadzić do uzyskania
odpowiedzi na to pytanie, postanowił wykorzystać test oparty na medianie.
TESTY NIEPARAMETRYCZNE 447

Test oparty na medianie służy do weryfikowania hipotezy zerowej na temat


pochodzenia więcej niż dwóch niezależnych grup wyników z tej samej po-
pulacji. Jest on nieparametrycznym odpowiednikiem jednoczynnikowej ana-
lizy wariancji. Wystarczy, aby dane zostały zgromadzone za pomocą skali
rangowej.
Test oparty na medianie stosuje się zwłaszcza wtedy, gdy w zbiorze danych
występują wartości wyraźnie odbiegające od pozostałych lub gdy rozkład
wyników jest skośny. Jego logika bezpośrednio nawiązuje do definicji me-
diany.
Jeżeli rozkład wyników jest przypadkowy i wszystkie pochodzą z tej samej
populacji, to w każdej z badanych grup powinno być mniej więcej tyle samo
wyników leżących poniżej i powyżej mediany obliczonej dla wszystkich da-
nych razem.

OBLICZENIA PIERWSZEGO PSYCHOLOGA W WIELKIEJ FIRMIE

Pierwszy Psycholog zaczął od policzenia mediany dla wyników skali domi-


nacji w teście Cattella we wszystkich czterech działach razem i ustalił, że
xe = 6 (sprawdź, jeśli nie wierzysz, ale zapamiętaj sobie raz na zawsze, że
Pierwszy Psycholog dlatego właśnie jest Pierwszym Psychologiem w Wiel-
kiej Firmie, że nie myli się w obliczeniach).
Następną czynnością, której wymaga test oparty na medianie, było policze-
nie, ilu urzędników w każdym z działów Wielkiej Firmy uzyskało wynik
poniżej, a ilu powyżej mediany, obliczonej dla wszystkich pracowników ra-
zem. Wynik swoich rachunków Pierwszy Psycholog zapisał w tabeli 7.14
(oczywiście w jego notatkach miała ona inny numer).

Tabela 7.14. Liczba urzędni- Dział w Wielkiej Firmie


ków w Wielkiej Firmie, Liczba obserwacji (fo) Suma
którzy w skali dominacji uzy- A B C D
skali wyniki powyżej powyżej mediany lub
i poniżej mediany 3 7 6 8 24
równa medianie
poniżej mediany 8 4 5 3 20
Suma 11 11 11 11 44

2
NAWET W TEŚCIE OPARTYM NA MEDIANIE NIE UCIEKNIESZ OD χ

Tabela 7.14 jako żywo przypomina tabele używane do obliczania testu χ2.
W jej kratkach zapisane są liczebności cząstkowe i sumy brzegowe: wypisz,
wymaluj, matryca 2 × 4. I rzeczywiście, do jej analizy wykorzystuje się zna-
ny ci już test χ2.
448 WNIOSKOWANIE STATYSTYCZNE

Jak pamiętasz, polega on na obliczeniu różnic pomiędzy liczebnościami


otrzymanymi a liczebnościami oczekiwanymi.
Liczebności otrzymane Pierwszy Psycholog już miał zapisane w tabeli 7.14.
Pozostało mu więc ustalenie liczebności oczekiwanych dokładnie według
tych samych zasad, jakie obowiązują w tej sprawie podczas obliczania wy-
niku testu χ2 niezależności. Do każdego wewnętrznego pola w tabeli należy
wpisać iloczyn sum brzegowych z kolumny i wiersza, które się na nim krzy-
żują, podzielony przez liczbę wszystkich obserwacji. Zestawienie liczebno-
ści oczekiwanych ilustruje tabela 7.15.
Tabela 7.15. Oczekiwana
Dział w Wielkiej Firmie
liczba urzędników w Wielkiej Liczebność
Firmie, którzy w skali domi- Suma
oczekiwana (fe)
nacji powinni uzyskać wyniki A B C D
powyżej i poniżej mediany, 24 × 11 24 × 11 24 × 11 24 × 11
powyżej mediany lub
gdyby prawdziwa była hipo- =6 =6 =6 =6 24
równa medianie 44 44 44 44
teza zerowa
20 × 11 20 × 11 20 × 11 20 × 11
poniżej mediany =5 =5 =5 =5 20
44 44 44 44
Suma 11 11 11 11 44

Rozkład liczebności oczekiwanych w tabeli 7.15 nie powinien Cię zasko-


czyć. Skoro w każdej grupie jest jedenaście osób, to zakładając prawdziwość
hipotezy zerowej, dokładnie połowa powinna być powyżej, a połowa poniżej
mediany. Ponieważ liczba urzędników w każdym dziale jest nieparzysta i do
pierwszej grupy zaliczaliśmy także wartości równe medianie, więc właśnie
w tej grupie jest o 1 element więcej.
Dalsze obliczanie polega na podstawieniu liczebności otrzymanych (z tabeli
7.14) i oczekiwanych (z tabeli 7.15) do wzoru na wartość statystyki χ2:
n
( foi − fei ) 2
χ2 = ∑ , gdzie n oznacza liczbę porównywanych grup
i =1 fei
Zadanie to Pierwszy Psycholog wykonał z zadziwiającą szybkością i precy-
zją oraz stwierdził, że χ2 = 3,77. Nieco podekscytowany złapał tablice staty-
styczne i otworzył na stronie z wartościami krytycznymi testu χ2 (gdyby
miał pod ręką naszą książkę, z pewnością otworzyłby Aneks z tablicą F).
Szybko przypomniał sobie wzór na stopnie swobody:
df = (w – 1) × (k – 1)
w liczba wierszy,
k liczba kolumn w tabeli z danymi.

Ponieważ tabela 7.14 ma 4 kolumny i 2 wiersze, więc


df = (4 – 1) × (2 – 1) = 3.
TESTY NIEPARAMETRYCZNE 449

Pierwszy Psycholog położył kciuk na wierszu oznaczonym 3, w kolumnie


liczby stopni swobody, i przesunął w prawą stronę. Kiedy dotarł do kolumny
z główką: 0,05, stwierdził, że krytyczna wartość testu χ20,05 = 7,815. Ode-
tchnął z ulgą. W Wielkiej Firmie nie dzieje się nic niedobrego, a przede
wszystkim Najważniejszy Szef nieco się uspokoi. Wynik testu jest mniejszy
od wartości kryterialnej. Nie ma więc podstaw do odrzucenia hipotezy
zerowej. We wszystkich czterech działach poziom „dominacji” jest taki sam.
W tym momencie jednak coś go tknęło. Do tej pory przeczucia Najważniej-
szego Szefa na ogół się potwierdzały. Czyżby tym razem zawiodła go intu-
icja? Sprawa jest poważna, a Pierwszy Psycholog wiedział, że w takich sytu-
acjach najmniejszy nawet błąd z jego strony może pociągnąć za sobą całą
lawinę kłopotów. W chwilach niepokoju Najważniejszy Szef nie tylko nie
przebierał w słowach.
Pierwszy Psycholog postanowił więc sprawdzić swoje obliczenia za pomocą
innego narzędzia statystycznego. Jego wybór padł na test opracowany przez
dwóch amerykańskich statystyków, Williama Henry’ego Kruskala z Uni-
wersytetu w Chicago i Wilsona Allena Wallisa, jednocześnie ekonomistę.
William Henry Kruskal Test znany jest pod nazwą „rangowa analiza wariancji” lub po prostu jako
(1919-2005) test Kruskala-Wallisa.

A MOŻE TAK TESTEM KRUSKALA-WALLISA?

Test Kruskala-Wallisa to nieco bardziej skomplikowany, a zarazem mocniej-


szy niż test oparty na medianie, nieparametryczny odpowiednik analizy wa-
riancji. Służy on do badania różnic między więcej niż dwiema niezależnymi
grupami pomiarów wyrażonych za pomocą skali porządkowej.
Chcąc nie chcąc, Pierwszy Psycholog zaczął więc od porangowania wszyst-
kich pomiarów dominacji, podobnie jak się to czyni przy okazji testu złożo-
nych rang, czyli tak, jakby pochodziły z jednej grupy. Wyniki dość żmudnej
procedury rangowania zawarł w kolejnej tabeli 7.16.
Wynikiem testu Kruskala-Wallisa jest statystyka H, obliczana zgodnie z na-
stępującą formułą:
Wilson Allen Wallis 2
12 k
Rj
(1912-1998)
H= ×∑ − 3 × ( N +1)
N × ( N + 1) j =1 n j
N liczba wszystkich badanych osób,
k liczba porównywanych grup osób badanych,
Rj suma rang w j-tej grupie,
nj liczebność w j-tej grupie.
450 WNIOSKOWANIE STATYSTYCZNE

Tabela 7.16. Pomiary domi- Działy w Wielkiej Firmie


nacji i ich rangi dla urzędni-
ków Wielkiej Firmy Lp. A B C D
Wyniki Rangi Wyniki Rangi Wyniki Rangi Wyniki Rangi
1 6 25,5 6 25,5 5 16 8 40
2 7 34 4 8 6 25,5 7 34
3 4 8 6 25,5 3 2,5 7 34
4 5 16 6 25,5 5 16 6 25,5
5 7 34 4 8 7 34 5 16
6 3 2,5 6 25,5 6 25,5 9 43,5
7 4 8 3 2,5 5 16 8 40
8 5 16 9 43,5 7 34 3 2,5
9 5 16 8 40 8 40 6 25,5
10 5 16 4 8 6 25,5 5 16
11 4 8 7 34 4 8 8 40
Suma 184 246 243 317

Sumy rang dla wyników w działach A, B, C i D wynoszą odpowiednio: 184,


246, 243 oraz 317. Po podstawieniu ich do wzoru Pierwszy Psycholog
stwierdził, że:
12 ⎡184 2 246 2 2432 317 2 ⎤
H= ×⎢ + + + − 3 × (44 + 1) = 4,8953
45 × 44 ⎣ 11 11 11 11 ⎥⎦

Wartość H ma rozkład taki sam, jak χ2 dla liczby stopni swobody df = k – 1,


gdzie k to liczba badanych grup. Tym razem nie musiał już sprawdzać war-
tości krytycznej χ20,05 dla df = 3, ponieważ pamiętał z poprzedniej analizy, że
wynosi ona 7,815.
Wynik testu Kruskala-Wallisa jest mniejszy niż wartość krytyczna. Nie ma
Milton Friedman więc podstaw do odrzucenia hipotezy zerowej. Teraz Pierwszy Psycholog
1912-2006 nie miał już żadnych wątpliwości.

CZY TEST FRIEDMANA POZWOLI NAM SIĘ CZEGOŚ DOWIEDZIEĆ O POTRZEBACH LINOSKOCZKÓW?

W roku 1976 nagrodę Nobla z ekonomii otrzymał Amerykanin Milton


Friedman. Być może, znasz jedno z jego słynnych powiedzeń: „Nie ma cze-
goś takiego, jak darmowy lunch”.
W 1937 roku 25-letni Friedman opracował test statystyczny, który jest wy-
korzystywany do dzisiaj. Znany jest jako „test rang Friedmana” lub
„ANOVA Friedmana”. Ta druga nazwa ma sugerować, że test jest niepara-
metrycznym odpowiednikiem analizy wariancji, ale oczywiście oblicza się
go zupełnie inaczej.
TESTY NIEPARAMETRYCZNE 451

Test Friedmana stosuje się wtedy, gdy zgromadzono więcej niż dwa pomiary
zmiennej zależnej w tej samej grupie osób badanych. Jest to więc, ściśle
mówiąc, odpowiednik jednoczynnikowej analizy wariancji z powtarzanymi
pomiarami.
* Siegel, S. (1956). Nonparame- Do prezentacji sposobu obliczania testu Friedmana wykorzystamy przykład
tric statistics for the behavioral
sciences. New York: McGraw opisany w podręczniku Sidneya Siegla*. Nadamy mu jednak konkretną
Hill. treść, aby nie był zbyt nudny. Nie możemy przecież dopuścić do tego, żebyś
się nudził na zajęciach ze statystyki. Zafundujmy więc sobie trochę ekscytu-
jących wrażeń.
** Zuckerman, M. (1994). Be- Marvin Zuckerman** skonstruował kwestionariusz mierzący nasilenie po-
havioral expressions and bioso- trzeby poszukiwania wrażeń.
cial bases of sensation seeking.
New York: Cambridge Universi- Poszukiwanie doznań – pisze Zuckerman – to cecha zdefiniowana przez poszukiwa-
ty Presss – za: Strelau, J. (2000).
Temperament. W: J. Strelau
nie zróżnicowanych, nowych, złożonych i intensywnych wrażeń i doświadczeń oraz
(red.), Psychologia. Podręcznik gotowość do podejmowania ryzyka […] w celu dostarczenia sobie tego typu do-
akademicki (t. I, s. 683-720). świadczeń (s. 27).
Gdańsk: GWP.
Poszukiwanie wrażeń jest wypadkową czterech wymiarów: poszukiwania
grozy i przygód, poszukiwania przeżyć, rozhamowania i podatności na nudę.
Nazwy tych wymiarów w zasadzie tłumaczą się same, może z wyjątkiem
rozhamowania, które oznacza tendencję do specyficznego stylu życia, wyra-
żającego się np. nieplanowanymi podróżami lub sięganiem po narkotyki.
Skala poszukiwania wrażeń (określana w skrócie jako SSS, od angielskiej
nazwy Sensation Seeking Scale) składa się z czterdziestu pytań, z których po
dziesięć przypada na każdą z podskal.
Na każde pytanie badany ma do wyboru jedną z dwóch odpowiedzi. Suma
diagnostycznych odpowiedzi w ramach każdego wymiaru waha się od 0 do
10 punktów. Im więcej punktów, tym silniejsza tendencja do poszukiwania
wrażeń.
Skalą poszukiwania wrażeń przebadano trzech linoskoczków z cyrku „Are-
na” (zob. tab. 7.17).

Tabela 7.17. Wyniki trzech Imię Poszukiwanie Poszukiwanie Podatność


Rozhamowanie
linoskoczków w czterech linoskoczka grozy i przygód przeżyć na nudę
wymiarach skali poszukiwa-
nia wrażeń Marvina Zu- Sergiusz 9 4 1 7
ckermana Eustachy 6 5 2 8
„Balon”* 9 1 2 6

* „Balon” to pseudonim artystyczny linoskoczka o nieznanym nam imieniu.

Pierwszą czynnością, jakiej wymaga obliczenie testu Friedmana, jest zamia-


na wyników w poszczególnych skalach na rangi dla każdej osoby oddzielnie,
czyli w każdym wierszu tabeli (zob. tab. 7.18).
452 WNIOSKOWANIE STATYSTYCZNE

Tabela 7.18. Wyniki trzech Imię Poszukiwanie Poszukiwanie Podatność


Rozhamowanie
linoskoczków w czterech linoskoczka grozy i przygód przeżyć na nudę
wymiarach skali poszukiwa-
nia wrażeń, zamienione na Sergiusz 4 2 1 3
rangi dla każdej osoby od- Eustachy 3 2 1 4
dzielnie
„Balon”* 4 1 2 3
Suma rang 11 5 4 10

Oczywiście, gdyby dwie lub więcej wartości w tym samym wierszu były
identyczne, należałoby użyć tak zwanych rang wiązanych.
Zgodnie z hipotezą zerową możemy się spodziewać, że pomiary w poszcze-
gólnych skalach układają się losowo. Gdyby tak było, wówczas sumy rang
dla poszczególnych kolumn powinny być identyczne. Jeżeli jednak któryś
z wymiarów tendencji do poszukiwania wrażeń np. był bardziej dominujący
niż inne, to sumy rang w poszczególnych kolumnach powinny być różne.
Weryfikacja hipotezy zerowej w teście Friedmana polega na obliczeniu
„specjalnej” wersji statystyki χ2 według następującego wzoru:
⎡ 12 k

χ 2r = ⎢ ∑ R 2j ⎥ − 3 N (k + 1)
⎣ Nk (k + 1) j =1 ⎦
χ 2r wynik testu Friedmana,

N liczba osób badanych (w naszym przykładzie = 3),


k liczba pomiarów każdej osoby badanej (w naszym przykładzie = 4),
Rj suma rang w j-tej kolumnie.

Po podstawieniu danych do wzoru mamy:

χ r2 =
12
3 × 4 × (4 + 1)
[ ]
× 112 + 52 + 4 2 + 10 2 − 3 × 3 × (4 + 1) = 7,4

Teraz wystarczy sprawdzić, czy wynik χ 2r = 7,4 pozwala na odrzucenie hi-


potezy zerowej. Hipotezę zerową, jak zawsze, odrzuca się wtedy, gdy praw-
dopodobieństwo otrzymania takiej wartości, jaką akurat otrzymaliśmy w ba-
daniu, jest mniejsze od założonego z góry prawdopodobieństwa odrzucania
hipotezy zerowej, czyli np. α = 0,05. Jeżeli w badaniu wzięło udział mniej
niż 10 osób (tak jak w naszym przykładzie), to prawdopodobieństwo otrzy-
mania danej wartości χ 2r odczytuje się na specjalnych tablicach, które opra-
cował Milton Friedman. Dla χ 2r = 7,4 przy N = 3 i k = 4, prawdopodobień-
stwo to wynosi p = 0,033. Możemy zatem odrzucić hipotezę zerową, zgod-
nie z którą, jak zawsze, należałoby uznać, że nie ma związku między bada-
nymi cechami. Odrzucenie hipotezy zerowej oznacza więc, że linoskoczków
charakteryzuje tendencja do poszukiwania wrażeń, choć nie jest ona równo
TESTY NIEPARAMETRYCZNE 453

nasilona we wszystkich badanych aspektach. Z danych zawartych w tabeli


7.17 wynika, że linoskoczkowie lubią grozę i przygodę oraz są nieodporni na
nudę, ale nie są np. szczególnie rozhamowani.
Nie zamieszczamy w aneksie tablicy z wartościami krytycznymi testu Fried-
mana dla małych prób, ponieważ sądzimy, że raczej nie będziesz korzystał
z tego testu dla liczby osób badanych mniejszej niż 10. Natomiast dla więk-
* Por. Domański, C., Pruska, K. szej liczby badanych niż 10 statystykę Friedmana można interpretować w
(2000). Nieklasyczne metody sta- odniesieniu do wartości krytycznych rozkładu χ2 dla df = k – 1 (df to liczba
tystyczne. Warszawa: PWE.
stopni swobody, a k – liczba pomiarów)*. Odpowiednią tablicę znajdziesz
w Aneksie pod literą F.

O TERAPII ŚWIATŁEM NA DŁUGIE ZIMOWE WIECZORY


Na koniec jeszcze jeden przykład zastosowania testu Friedmana. Pochodzi
on z badań klinicznych i dotyczy wykorzystania tzw. terapii światłem u osób
cierpiących na sezonowe zaburzenia afektywne (seasonal affective disor-
der). Zaburzenie to wiąże się z pogorszeniem samopoczucia w okresie je-
** Postolache, T. T., Hardin, T. sienno-zimowym, czyli wtedy, gdy jest mniej światła słonecznego. W ba-
A., Myers, F. S., Turner, E. H., daniu przeprowadzonym przez Teodora Postolache i współpracowników**
Yi, L. Y., Barnett, R. L., Mat-
thews, J. R., Rosenthal, N. E. wzięło udział 15 pacjentów, u których zdiagnozowano sezonowe zaburzenia
(1998). Greater improvement in afektywne. Uczestnicy badania trzykrotnie wypełniali specjalną wersję skali
summer than with light treat-
ment in winter in patients with
depresji: pierwszy raz w zimie, drugi raz też zimą, ale po dwóch tygodniach
seasonal affective disorder. terapii światłem (naświetlanie z siłą 10 000 luksów dwa razy dziennie, po 45
American Journal of Psychiatry, minut) i trzeci raz latem tego samego roku. Zmienną zależną w tym badaniu
155, 1614-1616.
był trzykrotny pomiar depresji. Do analizy wyników wykorzystano test
Friedmana, którego wartość wyniosła χ 2r = 26,3 . Ponieważ pomiarów doko-
nywano w trzech sytuacjach, więc wynik ten należy porównać z wartością
krytyczną rozkładu χ2 dla df = 2. Wartość ta na poziomie α = 0,05 wynosi
5,991, a więc na tym poziomie można było odrzucić hipotezę zerową, że po-
ziom depresji nie zależy od sytuacji, w której badani wypełniali skalę depre-
sji. Można ją zresztą odrzucić także przy poziomie α = 0,001, ponieważ wte-
dy wartość krytyczna rozkładu χ2 dla df = 2 wynosi 13,816.
W dalszej części analizy danych autorzy badań wykorzystali test Wilcoxona,
aby sprawdzić, które pary pomiarów różnią się między sobą. Badani pacjen-
ci odczuwali najwyższy poziom depresji zimą – mediana w teście wyniosła
30. Poziom depresji mierzonej po dwóch tygodniach terapii światłem znacz-
nie się obniżył (mediana wyniosła 7). Obydwie te wartości jednak były i tak
istotnie wyższe od mediany dla pomiarów przeprowadzonych latem – tym
razem wartość ta wyniosła 2. Cokolwiek znaczą te liczby, warto pamiętać,
że gorsze samopoczucie i obniżenie nastroju zimą może być nawet u zdro-
wych ludzi związane z mniejszą ilością światła. Ciekawe, czy ma to jakiś
związek z nastrojem podczas sesji zimowej?
454 WNIOSKOWANIE STATYSTYCZNE

7.5. PORÓWNANIE OTRZYMANYCH WYNIKÓW


Z ROZKŁADEM TEORETYCZNYM

ROZKŁAD EMPIRYCZNY I ROZKŁAD TEORETYCZNY

W części poświęconej różnym typom rozkładów pisaliśmy o ważnym roz-


różnieniu między teoretycznymi rozkładami zmiennych losowych a rozkła-
dami empirycznymi. Teoretyczny rozkład zmiennej można uzyskać tylko
w warunkach idealnych, w praktyce zaś niekoniecznie musi być tak, jak
przewiduje teoria.
Znany Ci już Karl Pearson 10 000 razy podrzucił tę samą monetę i 5005 razy
wypadł mu orzeł. Jeżeli moneta jest w porządku, to teoretycznie rzecz bio-
rąc, prawdopodobieństwo wyrzucenia orła wynosi dokładanie 0,5, a nie oko-
ło 0,5, np. 0,5005, jak w eksperymencie Pearsona. Niby to samo, a jednak
nie to samo.
Gdybyśmy zamienili orły na jedynki, a reszki na zera, wtedy uzyskalibyśmy
empiryczny rozkład zmiennej, który moglibyśmy opisać jako układ par:
{(1, 0,5005); (0, 0,4995)}
Jego teoretyczny odpowiednik wyglądałby oczywiście tak:
{(1, 0,5); (0, 0,5)}
Czy różnica między tymi rozkładami oznacza, że moneta użyta przez Pear-
sona miała jakiś defekt? Trudno powiedzieć, ale wygląda na to, że raczej by-
ła to normalna moneta, a nawet dość symetryczna, ponieważ na 10 000 rzu-
tów różnica między liczbą orłów i reszek wyniosła tylko 10.
Możemy więc uznać, że tak naprawdę prawdopodobieństwo wypadnięcia or-
łów i reszek na monecie jest takie samo, a niewielkie odchylenie w badaniu
Pearsona jest dziełem przypadku, który możemy zignorować.

HIPOTEZY O TYPIE ROZKŁADU – ROZKŁAD NAJLEPIEJ DOBRANY

Wykorzystanie testów parametrycznych dotyczących średnich (czyli testów


z i testów t) wymaga, by rozkład zebranych danych nie odbiegał zanadto od
rozkładu normalnego.
Jak pamiętasz, wiele jest teoretycznych rozkładów normalnych. Aby zatem
rozstrzygnąć, czy otrzymane wyniki rozkładają się zgodnie z jednym z nich,
trzeba najpierw określić, o który konkretnie rozkład chodzi.
Pierwszym krokiem, jaki należy uczynić, jest odnalezienie takiego rozkładu
normalnego, który najbardziej „pasuje” do otrzymanych danych. Technicz-
TESTY NIEPARAMETRYCZNE 455

nie zabieg ten się określa jako poszukiwanie krzywej normalnej najlepiej
dobranej do krzywej empirycznej.
Rysunek 7.1 pokazuje dwie takie krzywe: jedna przedstawia rzeczywisty
rozkład wyników, druga zaś – jaki ten rozkład powinien być, gdyby badana
zmienna miała rzeczywiście rozkład normalny.

Rysunek 7.1. Krzywa 7


empiryczna i krzywa najlepiej Krzywa empiryczna
dobrana [STATISTICA] Krzywa najlepiej dobrana
6

5
Liczba obserwacji

0
13 14 15 16 17 18 19 20 21 22
Punkty na egzaminie

ZAŁOŻENIE O ROZKŁADZIE W BADANEJ PRÓBIE

W rozdziale 6. omówiliśmy test z dla jednej średniej. Przypomnijmy, że sto-


sujemy ten test wtedy, gdy chcemy sprawdzić, czy badana grupa pochodzi
z populacji o znanych parametrach. Wyniki tego testu wykorzystaliśmy do
utworzenia krzywej najlepiej dobranej na rysunku 7.1.
Omawiając test z, analizowaliśmy wyniki egzaminu grupy studentów, którzy
opuścili nie więcej niż dwa wykłady. Jednym z warunków zastosowania te-
stu z jest założenie, że rozkład danych w badanej próbie nie odbiega zbytnio
od rozkładu normalnego. W praktyce oznacza to, że rozkład empiryczny
w danej grupie danych i dopasowany do niego rozkład normalny niewiele
różnią się od siebie.
Założenie normalności rozkładu danych leży także u podstaw innych testów
parametrycznych niż test z dla jednej średniej.
Przeanalizujmy więc sposób w jaki możemy sprawdzić czy założenie to rze-
czywiście jest spełnione. Do tego celu wykorzystamy wyniki pomiarów an-
tropometrycznych kilkuset kobiet i mężczyzn, którzy regularnie uczęszczają
do klubu fitness.
456 WNIOSKOWANIE STATYSTYCZNE

LICZEBNOŚCI OTRZYMANE I OCZEKIWANE

Trzeba przyznać, że Greta Heinz, Louis Peterson, Roger Johnson i Karter


* Heinz, G., Peterson, L. J., Kerk* nieźle się napracowali, wykonując 21 pomiarów antropometrycznych,
Johnson, R. W., Kerk, C. J. 247 mężczyzn i 260 kobiet, którzy regularnie uczęszczali do klubu fitness.
(2003). Exploring relationships
in body dimensions. Journal of Wszystkim badanym zmierzono obwody łokci, nadgarstków, kolan, klatki
Statistics Education, 11. piersiowej i różnych mięśni, a także rozstawy bioder i ramion. Nas szczegól-
nie zainteresował ten ostatni pomiar. Postanowiliśmy więc sprawdzić, czy
możemy przyjąć założenie, że rozstaw ramion w populacji mężczyzn i ko-
biet rozkłada się zgodnie z krzywą normalną.
W celu stwierdzenia, czy rozkład empiryczny i dopasowany do niego roz-
kład normalny różnią się od siebie, musimy porównać ze sobą dwa zbiory li-
czebności, tzw. otrzymane i oczekiwane. Liczebności otrzymane odnoszą
się do częstości występowania różnych wartości otrzymanych w ekspery-
mencie, a liczebności oczekiwane to takie, jakie powinniśmy otrzymać,
gdyby analizowany zbiór danych miał rozkład normalny. Zajmijmy się na
początek grupą mężczyzn.
Wyniki każdego eksperymentu można przedstawić w tabeli. Jeżeli danych
jest bardzo dużo, to trzeba to zrobić za pomocą szeregu rozdzielczego. Sze-
reg taki, dla zmiennej „rozstęp ramion” u mężczyzn ćwiczących w klubie
fitness, zapisaliśmy w tabeli 7.1.

Tabela 7.1. Szereg rozdziel- Górne granice przedziałów Liczba osób


czy dla wartości rozstawu ra-
≤ 35 1
mion 247 mężczyzn aktywnie
ćwiczących w klubie fitness ≤ 36 2

≤ 37 4

≤ 38 11

≤ 39 19

≤ 40 25

≤ 41 46

≤ 42 52

≤ 43 37

≤ 44 31

≤ 45 12

≤ 46 5

≤ 47 1

≤ 48 1

Suma 247

W lewej kolumnie tabeli 7.1 zapisaliśmy tylko górne granice przedziałów


klasowych, grupujących pomiary rozstawu ramion badanych mężczyzn.
TESTY NIEPARAMETRYCZNE 457

Rozstaw ramion mierzy się w centymetrach za pomocą tzw. antropometru,


czyli czegoś, co przypomina dużą suwmiarkę.
W prawej kolumnie tabeli znajdują się liczebności otrzymane, czyli często-
ści, z jakimi określone wartości zmiennej zależnej pojawiają się w grupie
wszystkich pomiarów.
W celu stwierdzenia, czy otrzymany rozkład wyników w próbie jest normal-
ny, trzeba go porównać z rozkładem liczebności oczekiwanych. Są to takie
wartości, których moglibyśmy oczekiwać, gdyby rozkład wyników napraw-
dę był normalny. Sposób wyznaczania tych liczebności nie jest bardzo
skomplikowany. Dla przykładu przedstawimy, w jaki sposób wyliczyć li-
czebność oczekiwaną dla dwóch najniższych wartości w zbiorze pomiarów
antropometrycznych rozstawu ramion.

LICZEBNOŚĆ OCZEKIWANA DLA NAJMNIEJSZEGO ROZSTAWU RAMION U MĘŻCZYZN

Każdy rozkład normalny jest jednoznacznie określony przez średnią


i odchylenie standardowe. Jak łatwo się domyślić, rozkład normalny, który
dopasowujemy do zbioru danych, musi mieć oba te parametry o tej samej
wartości, co analizowany zbiór.
Dla wyników z tabeli 7.1 średnia wynosi 41,24 cm, a odchylenie standardo-
we 2,09. Najniższy wynik, czyli rozstaw ramion mniejszy lub równy 35 cm,
miała tylko jedna osoba. Obliczając liczebność oczekiwaną dla tej wielkości,
rozciągniemy ten przedział na wszystkie możliwe pomiary niższe od 35 cm.
Korzystając z własności rozkładu normalnego, możemy sprawdzić, jaki pro-
cent osób z grupy 247-osobowej powinien mieć rozstaw ramion równy co
najwyżej 35 cm.
Musimy zacząć od ustalenia, o ile odchyleń standardowych wynik równy 35
cm jest odsunięty od średniej równej 41,24. Krótko mówiąc, musimy poli-
czyć wynik standaryzowany z. Obliczymy to w sposób następujący:

35 − 41,24
z35 = = −2,99
2,09

Teraz wiemy, że 35 cm jest odsunięte od średniej dla całej próby o 2,99 od-
chylenia standardowego. Spójrz, jeżeli odchylenie standardowe równa się
2,09, to 35 leży w odległości równej 2,99 × 2,09 od 41,24. A ponieważ wy-
nik standaryzowany z poprzedza znak minus (–2,99), jest więc oczywiste, że
wartość 35 leży po lewej stronie od średniej.
458 WNIOSKOWANIE STATYSTYCZNE

Możemy sprawdzić, jaki procent obserwacji w rozkładzie normalnym jest


mniejszy od z = –2,99. W tym celu skorzystamy z tablicy A lub B umiesz-
czonych w Aneksie. Szczegółowo procedurę tę opisaliśmy, omawiając wła-
sności rozkładu normalnego standaryzowanego.
W tabeli A znajdziesz prawdopodobieństwo uzyskania wyników niższych
niż z = –2,99. Wynosi ono 0,0014, co po zamianie na procenty oznacza,
że liczba obserwacji niższych od naszego z-ta powinna wynosić 0,14%
(0,0014 × 100% = 0,14%). Ponieważ grupa wyników, które analizujemy, li-
czy 247 obserwacji, więc mężczyzn, którzy powinni mieć rozstaw ramion
równy 35 cm i mniej, powinno być 0,14% × 247 = 0,35. Ta wartość to właś-
nie poszukiwana przez nas liczebność oczekiwana i jak widać, jest ona nieco
mniejsza niż rzeczywista wartość uzyskana w badanej grupie.

SKUMULOWANE LICZEBNOŚCI OCZEKIWANE

W podobny sposób, w jaki obliczona została liczebność oczekiwana dla


pierwszego przedziału danych, można obliczyć liczebność oczekiwaną dla
każdego następnego przedziału. Za każdym razem najprościej jest posłużyć
się tzw. skumulowaną liczebnością oczekiwaną, czyli liczbą obserwacji, któ-
re powinny się znaleźć w danym przedziale i wszystkich znajdujących się
niżej od niego. W gruncie rzeczy liczebność, którą obliczyliśmy dla pierw-
szego przedziału, to także liczebność skumulowana.
Wartość 0,35 oznacza, że w przedziale 35 cm i poniżej powinno się znaleźć
0,35 obserwacji oczekiwanych. Ponieważ jednak jest to pierwszy przedział,
więc „poniżej” oznacza tu po prostu wszystkie wartości niższe niż 35 cm.
Obliczanie liczebności skumulowanej dla każdego następnego przedziału
sprowadza się więc do obliczenia liczby obserwacji, które powinny się zna-
leźć w tym właśnie przedziale i wszystkich przedziałach poniżej.
Skumulowana liczebność oczekiwana dla 36 centymetrów wynosi 1,48. Ob-
liczyliśmy tę wartość, najpierw zamieniając wartość 36 na jednostki standa-
ryzowane z:

36 − 41,24
z14 = = −2,51
2,09

a następnie sprawdzając w tablicy A, ile procent wszystkich obserwacji


w rozkładzie normalnym standaryzowanym powinno być mniejsze od –2,51.
Ponieważ wartość ta wynosi 0,6%, więc po przemnożeniu jej przez 247, czy-
li liczbę wszystkich obserwacji, otrzymujemy 1,48.
TESTY NIEPARAMETRYCZNE 459

LICZEBNOŚCI OCZEKIWANE DLA CAŁEGO ZBIORU DANYCH

Znając skumulowane liczebności oczekiwane, można łatwo obliczyć liczeb-


ności oczekiwane oddzielnie dla każdego przedziału danych. Zakładając, że
rozkład pomiarów rozstawu ramion jest rozkładem normalnym, 35 i mniej
centymetrów powinno mieć 0,35 osoby, czyli trochę mniej niż jeden regu-
larnie ćwiczący mężczyzna. Z kolei wiemy też, że 36 cm i mniej powinno
charakteryzować 1,48 osoby. Tak więc w przedziale 36 punktów (czyli do-
kładnie: 36 i mniej, ale nie mniej niż 35) powinno się znaleźć 1,13 obserwa-
cji (1,48 – 0,35 = 1,13).
Postępując w taki sam sposób, obliczyliśmy liczebności oczekiwane dla
wszystkich danych. Szereg rozdzielczy pomiarów rozstawu ramion u bada-
nych mężczyzn z odpowiadającymi im wynikami standaryzowanymi z oraz
procentami i liczebnościami skumulowanymi przedstawiamy w tabeli 7.2.
Tabela 7.2. Rozstaw ramion w grupie mężczyzn ćwiczących w klubie fitness z odpowiadającymi im wynikami standaryzowanymi
z oraz procentami i liczebnościami skumulowanymi

Granica Procent Różnica


Granica Liczebność
przedziału obserwacji Oczekiwana pomiędzy
przedziału Liczebność oczekiwana
w jednostkach w danym liczebność liczebnością
(nie więcej otrzymana dla danego
standaryzowanych przedziale skumulowana. otrzymaną
punktów niż ...) przedziału
z i poniżej a oczekiwaną

35 –2,99 1 0,0014 0,35 0,35 0,65

36 –2,51 2 0,0061 1,48 1,13 0,87

37 –2,03 4 0,0212 5,27 3,79 0,21

38 –1,55 11 0,0605 14,95 9,68 1,32

39 –1,07 19 0,1419 35,05 20,10 –1,10

40 –0,59 25 0,2765 68,29 33,24 –8,24

41 –0,11 46 0,4543 112,21 43,92 2,08

42 0,36 52 0,6419 158,56 46,35 5,65

43 0,84 37 0,8001 197,63 39,08 –2,08

44 1,32 31 0,9067 223,95 26,32 4,68

45 1,80 12 0,9640 238,11 14,16 –2,16

46 2,28 5 0,9886 244,19 6,08 –1,08

47 2,76 1 0,9971 246,28 2,09 –1,09

48 3,23 1 0,9994 246,85 0,57 0,43

Nieskończoność 0 100 247 0,15 –0,15

Suma 247 247,01


460 WNIOSKOWANIE STATYSTYCZNE

W tabeli 7.2, oprócz przedziałów zawierających rozstawy ramion badanych


mężczyzn, dodaliśmy jeszcze jeden przedział i nazwaliśmy go „nieskończo-
ność”. Zawiera on wszystkie wartości wyższe niż najwyższa wartość stwier-
dzona w analizowanym zbiorze wyników. Przedział ten jest konieczny, po-
nieważ rozkład normalny, do którego porównywany jest analizowany zbiór,
jest rozkładem przybierającym wartości od minus nieskończoności do plus
nieskończoności.
Musimy więc obliczyć liczebności oczekiwane nie tylko dla wartości niż-
szych niż najniższa punktacja w zbiorze, ale także dla wartości wyższych od
najwyższej punktacji. Jeśli już pominiemy to, że jest to konieczne ze staty-
stycznego punktu widzenia, to w przypadku wyników pomiaru rozstawu ra-
mion obliczenie takie jest całkowicie zasadne. Wynika to stąd, że badaliśmy
tylko pewną próbkę, a więc równie dobrze w całej populacji mogliby się
znaleźć panowie, których rozstaw ramion byłby większy niż 48 cm.
Jak widać, w tabeli 7.2, gdyby rozkład wyników empirycznych był rozkła-
dem normalnym, wówczas takich obserwacji powinno być 0,15.

2
TEST χ ZGODNOŚCI

Obliczanie testu χ2 zgodności polega na sprawdzeniu, czy liczebności otrzy-


mane i oczekiwane nie różnią się zbytnio od siebie. W tym celu dla każdego
przedziału oblicza się wartość statystyki χ2, dokładnie według takiego same-
go wzoru, jaki stosujemy do obliczenia testu χ2 niezależności, czyli
k
( foi − fei ) 2
χ2 = ∑
i =1 fei

k liczba przedziałów klasowych, na które podzielono osoby badane,


foi liczebność otrzymana (ang. frequency observed) w każdym przedziale,
liczebność oczekiwana (ang. frequency expected) w każdym przedziale, zgodna z przewidy-
fei
waniami wynikającymi z własności rozkładu normalnego.

Z powodu pewnych ograniczeń statystycznych, ważne jest to, aby wartości


liczebności oczekiwanych nie były mniejsze niż 5. Jeśli ten warunek nie jest
spełniony, to łączy się sąsiadujące ze sobą przedziały w jeden.
W naszym przykładzie w pierwszych i ostatnich dwóch przedziałach liczeb-
ności oczekiwane są mniejsze niż 5, wobec czego należy je ze sobą połączyć
w przedziały zbiorcze, dołączając liczebności z przedziałów sąsiednich, np.
w taki sposób, jak to pokazuje tabela 7.3.
TESTY NIEPARAMETRYCZNE 461

Tabela 7.3. Szereg klasowy po Granica przedziału Liczebność Różnica pomiędzy


Liczebność otrzyma-
przegrupowaniu, zawierający (nie więcej punktów oczekiwana dla liczebnością otrzy-
na
liczebności większe od niż ...) danego przedziału maną a oczekiwaną
5 w każdym z przedziałów
37 7 5,27 1,73

38 11 9,68 1,32

39 19 20,10 –1,10

40 25 33,24 –8,24

41 46 43,92 2,08

42 52 46,35 5,65

43 37 39,08 –2,08

44 31 26,32 4,68

45 12 14,16 –2,16

Nieskończoność 7 8,89 –1,89

Kolejne kroki obliczania testu χ2 zgodności najłatwiej jest przedstawić w ta-


beli. Odpowiednie liczby, powstałe w wyniku przeprowadzenia działań,
przedstawiamy w tabeli 7.4.

Tabela 7.4. Kolejne kroki Granica Liczebność Liczebność


2 (fo − fe) 2
obliczania testu χ zgodności
2
przedziału (nie otrzymana oczekiwana fo – fe (fo – fe)
więcej niż ...) (fo) (fe) fe

37 7 5,27 1,73 2,99 0,5675

38 11 9,68 1,32 1,73 0,1789

39 19 20,10 –1,10 1,21 0,0600

40 25 33,24 –8,24 67,91 2,0430

41 46 43,92 2,08 4,34 0,0989

42 52 46,35 5,65 31,94 0,6891

43 37 39,08 –2,08 4,31 0,1102

44 31 26,32 4,68 21,94 0,8337

45 12 14,16 –2,16 4,65 0,3287

Nieskończoność 7 8,74 –1,89 3,58 0,4029

Suma 247 247,01 –0,01 5,3128

Koniec końców, wartość testu χ2 dla zbioru pomiarów rozstawu ramion wy-
nosi 5,3128.
462 WNIOSKOWANIE STATYSTYCZNE

2
INTERPRETACJA WYNIKU W TEŚCIE χ ZGODNOŚCI

Jak pamiętasz, do interpretacji wyniku testu χ2 potrzebna jest informacja


o liczbie stopni swobody. W przypadku testu zgodności liczba stopni swo-
body równa się liczbie przedziałów klasowych, na jaką ostatecznie podzieli
się wyniki, minus liczba parametrów rozkładu, do którego porównujemy da-
ne, i jeszcze minus 1. Skoro rozkład normalny ma dwa parametry (średnia
i odchylenie standardowe), to liczba stopni swobody df = k – 2 – 1, gdzie
k jest liczbą przedziałów. Ponieważ w naszym przykładzie, z 15 przedziałów
po przegrupowaniu zostało ich 10, tak więc df = 10 – 2 – 1 = 7. Prawdopo-
dobieństwo uzyskania takiej wartości χ2, jaką otrzymaliśmy, czyli χ2 = 5,31,
i wartości wyższych dla df = 7 wynosi: p = 0,38. Jak zinterpretować ten
wskaźnik?
• Po pierwsze, wyraża on stopień dopasowania danych empirycznych
do jakiegoś rozkładu teoretycznego. Im wyższa jest wartość prawdopo-
dobieństwa, tym lepiej rozkład teoretyczny dopasowany jest do zbioru
danych.
• Po drugie, test χ2 zgodności pozwala na weryfikację hipotezy zerowej,
że dana grupa wyników pochodzi z jakiegoś rozkładu teoretycznego.
Wtedy wystarczy tylko, żeby prawdopodobieństwo dla otrzymanej war-
tości χ2 było wyższe niż przyjęte kryterium α. Najczęściej kryterium to
wynosi 0,05. Wartość krytyczna χ2 dla df = 7 na poziomie α = 0,05 wy-
nosi 14,07 (zob. w tablicy F w Aneksie do tej książki). Porównując obli-
czone χ2 równe 5,31 z wartością kryterialną, nie mamy podstaw do od-
rzucenia hipotezy zerowej, że rozkład wyników jest normalny.
Warto zwrócić uwagę na to, że stosując test χ2 zgodności, badacz najczęściej
jest zainteresowany nie tym, aby odrzucić hipotezę zerową, ale przeciwnie,
aby jej nie odrzucać. Tak właśnie jest w analizowanym przez nas przypadku.
Ponieważ założyliśmy, że rozkład wyników w badanej grupie bywalców
klubów fitness nie różni się istotnie od rozkładu normalnego, a więc brak
podstaw do odrzucenia hipotezy zerowej oznacza, iż różnica pomiędzy em-
pirycznym rozkładem danych a rozkładem normalnym jest tak mała, że
można stosować test z dla jednej średniej.

CZY MĘŻCZYŹNI RZECZYWIŚCIE SĄ SZERSI W BARACH OD KOBIET?

Na podstawie wyników testu χ2 zgodności mogliśmy stwierdzić, że rozstaw


ramion u mężczyzn, przynajmniej wśród tych, którzy aktywnie uprawiają
sport w klubach fitness, jest rozkładem normalnym. W podobny sposób (tym
razem jednak już nie na piechotę, ale za pomocą komputera) ustalaliśmy, że
również w grupie kobiet, które regularnie ćwiczą, rozkład ramion jest roz-
TESTY NIEPARAMETRYCZNE 463

kładem normalnym. Wynik testu χ2 dla tych danych równał się 5,90. Pro-
gram, z którego korzystaliśmy, początkowo podzielił cały zbiór na 11 kate-
gorii, ale po połączeniu przedziałów, w których wartości oczekiwane były
niższe niż 5, zostało ich 8. Wartość krytyczna testu χ2 dla df = 8 – 2 – 1 = 5,
wynosi 11,07, a więc jest wyższa niż otrzymana, co wskazuje na brak istot-
nych różnic między rozkładem empirycznym i normalnym.
Średni rozstaw ramion u kobiet to około 36,5 cm, a odchylenie standardowe
wynosi 1,78. Jeżeli chcesz, możesz samemu sprawdzić, czy kobiety są rze-
czywiście węższe w ramionach niż mężczyźni. Ponieważ rozkłady obu grup
osób badanych są normalne, możesz zastosować test t dla dwóch średnich
(lub test z – liczebności bowiem w badanych próbach są tak duże, że nie bę-
dzie większej różnicy w wyniku).

2
TEST χ ZGODNOŚCI DLA INNYCH ROZKŁADÓW TEORETYCZNYCH NIŻ ROZKŁAD NORMALNY

Procedurę obliczania testu χ2 zgodności można uogólnić. Choć najczęściej


interesuje nas to, czy rozkład danych otrzymany z badań przypomina rozkład
normalny, to przecież możemy sprawdzać jego zgodność z dowolnym roz-
kładem teoretycznym: np. z rozkładem t Studenta, F Snedecora, lub też
z samym rozkładem χ2. Jedyny problem stanowi ustalenie liczebności ocze-
kiwanych dla analizowanego typu rozkładu. W praktyce robią to za nas
komputery. Czasami znajdowanie tych liczebności nie musi być szczególnie
trudne. Może np. być tak, jak w sytuacji, której dotyczy następujący przy-
kład z życia polityków.
Do analizy wzięliśmy wyniki wyborów prezydenckich w Polsce w 2000 ro-
ku. Tabela 7.5 przedstawia liczbę osób głosujących na poszczególnych kan-
dydatów w tych wyborach.
Trudno sprawdzać zgodność tych danych z jakimkolwiek teoretycznym roz-
kładem zmiennej losowej. Skala pomiarowa jest tu nominalna. Można jed-
nak sprawdzić, czy liczebności rozkładają się równomiernie, a więc czy są
mniej więcej takie same w odniesieniu do poszczególnych kandydatów.
Czasami nawet używa się określenia „sprawdzanie zgodności z rozkładem
równomiernym”. Hipoteza zerowa brzmi:
H0: Otrzymany rozkład nie różni się istotnie od rozkładu równomiernego.
Oznacza to, że liczba głosów oddanych na każdego kandydata jest taka sa-
ma, czyli że wyborcy głosowali losowo. W analizowanych wyborach oddano
w sumie 17 598 919 ważnych głosów. Ponieważ kandydatów było 12, więc
17 598 919
każdy z nich powinien otrzymać po ≈ 1 466 576 głosów.
12
464 WNIOSKOWANIE STATYSTYCZNE

Tabela 7.5. Wyniki wyborów Ważne głosy


prezydenckich w Polsce Kandydat na prezydenta
w 2000 roku Liczba Procent

Aleksander Kwaśniewski 9 485 224 53,90

Andrzej Olechowski 3 044 141 17,30

Marian Krzaklewski 2 739 621 15,57

Jarosław Kalinowski 1 047 949 5,95

Andrzej Lepper 537 570 3,05

Janusz Korwin-Mikke 252 499 1,43

Lech Wałęsa 178 590 1,01

Jan Łopuszański 139 682 0,79

Dariusz Grabowski 89 002 0,51

Piotr Ikonowicz 38 672 0,22

Tadeusz Wilecki 28 805 0,16

Bogdan Pawłowski 17 164 0,10

Suma 17 598 919 99,99

Niespełna półtora miliona głosów przypadających na każdego kandydata to


liczebność oczekiwana, przy założeniu, że hipoteza zerowa jest prawdziwa.
Mając takie dane, możemy obliczyć testu χ2 według znanego Ci wzoru.
k
( foi − fei ) 2
χ2 = ∑
i =1 fei
Do wzoru, pod foi, podstawiamy kolejno liczby głosów otrzymane przez
każdego kandydata, a pod fei – 1 466 576, czyli liczebność oczekiwaną.
Wszystkie te wartości przedstawione są na rysunku 7.2. Po obliczeniu oka-
zuje się, że χ2 = 12 789 600. Teraz ustalmy liczbę stopni swobody. Ponieważ
rozkład równomierny nie ma parametrów, więc df = k – 1 = = 12 – 1 = 11,
gdzie k oznacza liczbę kandydatów biorących udział w wyborach. Wynik te-
stu χ2 = 12 789 600 sugeruje, że hipoteza zerowa, zgodnie z którą Polacy
głosowali przypadkowo, nie może być przyjęta – jej prawdopodobieństwo
jest mniejsze niż 0,0000001, czyli jedna dziesięciomilionowa.
Rozkład politycznych preferencji Polaków nie może być określony jako
równomierny, co oznacza, że w wyborach w roku 2000 prezydent nie został
wybrany w sposób przypadkowy. Ze statystycznego punktu widzenia to
stwierdzenie jest bardzo wiarygodne.
TESTY NIEPARAMETRYCZNE 465

Rys. 7.2. Rozkład liczebności 10 mln


otrzymanych i oczekiwanych 9 mln Liczebności:
w wyborach prezydenckich otrzymane
w 2000 roku [STATISTICA] 8 mln
oczekiwane
7 mln

6 mln

5 mln

Liczba głosów
4 mln

3 mln

2 mln

1 mln

Lepper

Wałęsa

Wilecki
Łopuszański

Ikonowicz

Pawłowski
Olechowski

Kalinowski

Grabowski
Kwaśniewski

Krzaklewski

Korwin-Mikke
Kandydaci na prezydenta

TEST KOŁMOGOROWA-SMIRNOWA, CZYLI ILE WAŻĄ NOWORODKI Z BRISBANE

Znany Ci już skądinąd test Kołmogorowa-Smirnowa jest także użytecznym


narzędziem statystycznym służącym do sprawdzenia, czy rozkład danych
w próbie jest zgodny z rozkładem teoretycznym. Czasami tę wersję testu na-
zywa się testem λ (lambda) Kołmogorowa (od nazwiska pierwszego z auto-
rów) lub w skrócie „K-S”.
Podobnie jak test χ2, test K-S polega na porównaniu otrzymanego rozkładu
danych z jakimś teoretycznym rozkładem oczekiwanym. Jego procedura ob-
liczeniowa w zasadzie niewiele różni się od testu Kołmogorowa-Smirnowa
dla dwóch próbek, który wykorzystaliśmy do porównania rozkładów długo-
ści zaskrońców w lasach pod Lublinem i pod Warszawą w punkcie 7.3.1.
Wtedy porównywaliśmy rozkłady pochodzące z dwóch próbek, natomiast te-
raz wykorzystamy tę samą procedurę, by porównać rozkład empiryczny
Noworodek z Brisbane z rozkładem teoretycznym, a raczej rozkład empiryczny z różnymi rozkła-
dami teoretycznymi.
* Dunn, P. K. (1999). A simple W tym celu wykorzystamy dane opisane przez Petera Dunna* w czasopiś-
dataset for demonstrating com- mie poświęconym edukacji statystycznej, Journal of Statistic Education. Po-
mon distributions. Journal of
Statistics Education, 7, 3. chodzą one z jednej z australijskich gazet, w której doniesiono o rekordowej
liczbie dzieci urodzonych w jednym ze szpitali w Brisbane, 18 grudnia 1997
roku. Ponieważ dane te są dostępne w Internecie na stronach Journal of Sta-
tistic Education, z pozwoleniem na korzystanie w celach edukacyjnych, więc
niniejszym to uczynimy. Dane 44 dzieci, które urodziły się w ciągu tej samej
doby, przedstawione są w tabeli 7.6.
466 WNIOSKOWANIE STATYSTYCZNE

Tabela 7.6. Dane dotyczące Waga


Lp. Waga (w gramach) Lp.
wagi 44 dzieci urodzonych (w gramach)
w szpitalu Mater Mohter’s
w Brisbane, 18 grudnia 1997 1. 3837 23. 3480

2. 3334 24. 3116

3. 3554 25. 3428

4. 3838 26. 3783

5. 3625 27. 3345

6. 2208 28. 3034

7. 1745 29. 2184

8. 2846 30. 3300

9. 3166 31. 2383

10. 3520 32. 3428

11. 3380 33. 4162

12. 3294 34. 3630

13. 2576 35. 3406

14. 3208 36. 3402

15. 3521 37. 3500

16. 3746 38. 3736

17. 3523 39. 3370

18. 2902 40. 2121

19. 2635 41. 3150

20. 3920 42. 3866

21. 3690 43. 3542

22. 3430 44. 3278

Sprawdźmy, czy rozkład wagi dzieci jest rozkładem normalnym. Najpierw


musimy znaleźć rozkład normalny, który jest rozkładem najlepiej dobranym
do naszych danych. Ponieważ nie znamy parametrów tego rozkładu, więc
możemy je tylko estymować na podstawie danych w posiadanej próbie.
Średnia w próbie wyniosła 3175,95, a odchylenie standardowe wyniosło
528,03. Porównajmy więc dane z tabeli 7.6 z rozkładem normalnym o tych
parametrach.
Kolejny krok to ułożenie szeregu rozdzielczego dla zaobserwowanych da-
nych. Przyjęliśmy podział szeregu na 13 kategorii (zob. tab. 7.7).
TESTY NIEPARAMETRYCZNE 467

Tabla 7.7. Dane dotyczące Liczebność Skumulowana


ciężaru ciała dzieci z tabeli Lp. Granice przedziałów
otrzymana liczebność otrzymana
7.6. w postaci szeregu roz-
dzielczego
1. 1600,00-1800,00 1 1

2 1800,00-2000,00 0 1

3. 2000,00-2200,00 2 3

4. 2200,00-2400,00 2 5

5. 2400,00-2600,00 1 6

6. 2600,00-2800,00 1 7

7. 2800,00-3000,00 2 9

8. 3000,00-3200,00 4 13

9. 3200,00-3400,00 8 21

10. 3400,00-3600,00 12 33

11. 3600,00-3800,00 6 39

12. 3800,00-4000,00 4 43

13. 4000,00-4200,00 1 44

44

Kolejny krok to oszacowanie dla każdego przedziału liczebności oczekiwa-


nych na podstawie parametrów rozkładu normalnego. Ponieważ obliczanie
testu K-S wymaga porównywania otrzymanego i oczekiwanego szeregu
skumulowanego, więc do tabeli 7.8 dopisujemy również kolumnę zawierają-
cą oczekiwane liczebności skumulowane.
W tabeli 7.8 dopisaliśmy również dwie kolumny, w których znajdują się
proporcje skumulowanych liczebności otrzymanych i oczekiwanych. Po-
wstały one przez podzielenie skumulowanych liczebności otrzymanych
przez liczbę wszystkich obserwacji, czyli przez 44, oraz skumulowanych li-
czebności oczekiwanych przez ich sumę, czyli przez 42,23732. W ostatniej
kolumnie znajdują się różnice między proporcjami skumulowanych liczeb-
ności otrzymanych i oczekiwanych. Największa z nich, równa –0,16584, jest
traktowana jako wynik testu Kołmogorowa-Smirnowa. Wyniki testu podaje
się w postaci wartości bezwzględnej i oznacza symbolem D (max) . Tak więc:
468 WNIOSKOWANIE STATYSTYCZNE

D (max) = │0,295455 – 0,461291│ = 0,16584


Tabela 7.8. Otrzymane Liczebności Proporcje skumulowa-
i oczekiwane wartości w Granice skumulowane nych liczebności
szeregu skumulowanym dla Lp. Różnica
przedziałów
danych z tabeli 7.7
otrzymane oczekiwane otrzymane oczekiwane

1. 1600,00-1800,00 1 0,11411 0,022727 0,002702 0,020026

2. 1800,00-2000,00 1 0,34482 0,022727 0,008164 0,014563

3. 2000,00-2200,00 3 0,91483 0,068182 0,021659 0,046523

4. 2200,00-2400,00 5 2,13698 0,113636 0,050595 0,063042

5. 2400,00-2600,00 6 4,41092 0,136364 0,104432 0,031932

6. 2600,00-2800,00 7 8,08257 0,159091 0,191361 –0,03227

7. 2800,00-3000,00 9 13,22742 0,204545 0,313169 –0,10862

8. 3000,00-3200,00 13 19,48371 0,295455 0,461291 –0,16584

9. 3200,00-3400,00 21 26,08604 0,477273 0,617606 –0,14033

10. 3400,00-3600,00 33 32,13268 0,750000 0,760765 –0,01077

11. 3600,00-3800,00 39 36,93848 0,886364 0,874546 0,011818

12. 3800,00-4000,00 43 40,25322 0,977273 0,953025 0,024248

13. 4000,00-4200,00 44 42,23732 1,000000 1,000000 0,000000

Maksymalną różnicę między proporcjami otrzymanych i oczekiwanych li-


czebności skumulowanych interpretuje się tak samo, jak w przypadku wyko-
rzystania tego testu dla dwóch próbek. Należy porównać otrzymaną różnicę
z wartością krytyczną, którą obliczamy według wzoru:
λ
D α,N =
N
N liczebność próby,
λ stała w rozkładzie λ Kołmogorowa.

W zależności od poziomu α, λ przyjmuje różne wartości:


λ = 1,36 dla α = 0,05
λ = 1,63 dla α = 0,01
TESTY NIEPARAMETRYCZNE 469

λ = 1,95 dla α = 0,001


Jeśli będziemy weryfikować hipotezę zerową, że rozkład wagi dzieci uro-
dzonych w Brisbane jest normalny z prawdopodobieństwem popełnienia
błędu I rodzaju równym 0,05, to wartość krytyczna testu K-S wyniesie:
1,36
D 0, 05, 44 = = 0,68
44
Hipotezę zerową w teście K-S odrzuca się wtedy, gdy otrzymana wartość
D (max) jest wyższa od wartości krytycznej. Ponieważ D (max) jest niższa od
D 0, 05, 44 , więc nie możemy odrzucić hipotezy zerowej. Rozkład wagi dzieci
urodzonych w szpitalu Mater Mohter’s w Brisbane 18 grudnia 1997 jest
normalny.

2
KIEDY STOSUJE SIĘ TEST KOŁMOGOROWA-SMIRNOWA, A KIEDY TEST χ ZGODNOŚCI?

Obydwa testy, Kołmogorowa-Smirnowa i χ2, służą do weryfikowania hipo-


tezy, że rozkład w badanej próbie pochodzi z populacji o znanym rozkładzie
teoretycznym. To, który test wybrać, zależy od dwóch okoliczności:
• Po pierwsze, gdy rozkład, do którego porównujemy dane, jest rozkładem
skokowym (dyskretnym), wtedy stosujemy test χ2 zgodności, natomiast
gdy jest ciągły, lepiej jest stosować test Kołmogorowa-Smirnowa.
• Po drugie, gdy próba jest mała, wtedy lepiej jest skorzystać z testu Koł-
mogorowa-Smirnowa, i po trzecie…

SĄ JESZCZE INNE TESTY ZGODNOŚCI

Testy Kołmogorowa-Smirnowa i χ2 zgodności, choć najpopularniejsze, to


przecież nie są jedynymi, jakie się wykorzystuje do porównywania uzyska-
nych danych z przewidywaniami wynikającymi z rozkładów teoretycznych.
Krótko omówimy jeszcze dwa inne.
Pierwszy z nich nazywa się testem Lillieforsa i w związku z nim musimy
przyznać się do pewnej nieścisłości. Otóż test Kołmogorowa-Smirnowa
* Por. Hiller, F. S., Lieberman, stosuje się tylko wtedy, gdy znane są parametry rozkładu teoretycznego*.
G. J. (1990). Introduction to Gdy wiemy, że jakaś cecha ma w populacji rozkład normalny, oraz znamy
stochastic models in operations
research. New York: McGraw- jej średnią i odchylenie standardowe, a chcemy sprawdzić, czy wylosowana
Hill. przez nas próba pochodzi z tej populacji, wówczas stosujemy test K-S. Jeśli
nie znamy tych parametrów, a przecież tak było w przykładzie z wagą nowo-
rodków, wtedy właściwszy jest test Lillieforsa. Różnica między tymi testami
sprowadza się do innych wartości krytycznych. Mianowicie, stosując test
470 WNIOSKOWANIE STATYSTYCZNE

Lillieforsa do danych dotyczących wagi noworodków, na poziomie α = 0,01


musimy jednak odrzucić hipotezę zerową. Nie możemy przyjąć założenia
o normalności rozkładu zmiennej w populacji.
Drugi test zgodności, który w pewnym sensie jest nawet ważniejszy niż test
Lillieforsa, to statystyka W Shapiro-Wilka, znana również jako test nor-
* Shapiro, S. S., Wilk, M. B. malności Shapiro-Wilka*. Jak sama nazwa wskazuje, służy on tylko do we-
(1965). An analysis of variance
test for normality (complete ryfikowania założenia o normalności rozkładu badanej cechy w populacji.
samples). Biometrika, 52, 591- Jest on uważany za najlepszy test do sprawdzania, czy próba pochodzi z roz-
611. Por. Domański, C., Pruska
K. (2000). Nieklasyczne metody
kładu normalnego, zwłaszcza o liczebności mniejszej niż 50 obserwacji**.
statystyczne. Warszawa: PWE.
Podobnie jak w przypadku zastosowania testu Lillieforsa, również wynik te-
** Rahman, M. M., Govindara- stu W Shapiro-Wilka wskazuje na konieczność odrzucenia hipotezy zerowej,
julu, Z. (1997). A modification czyli w tym przypadku założenia o normalności rozkładu wagi noworodków
of the test of Shapiro and Wilk
for normality. Journal of Ap- z Brisbane w populacji. Oto jak ważne jest dobranie odpowiedniego testu do
plied Statistics, 24, 219-235. weryfikacji hipotezy o normalności rozkładu.
8. ANALIZA KORELACJI I REGRESJI

8.1. POJĘCIE KORELACJI I WSPÓŁCZYNNIK r PEARSONA

BESTSELLER NA TEMAT STATYSTYKI

Autorem najlepiej sprzedającej się na świecie książki ze słowem „statysty-


ka” w tytule jest nieżyjący już Darell Huff (1913-2001). Książka ukazała się
w roku 1954 pod tytułem How to lie with statistics, czyli Jak kłamać za
* Zob. Steele, M. J. (2005). Dar- pomocą statystyki*. Huff bynajmniej nie był statystykiem, lecz socjologiem
rell Huff and fifty years of how i dziennikarzem. Na krótko przed napisaniem tej książki pożegnał się z po-
to lie with statistics. Statistical
Science, 20, 205-209. sadą wydawcy czasopisma Better Home and Gardens (Lepsze domy i ogro-
dy) i zajął się wyłącznie pisarstwem. Tylko w Stanach Zjednoczonych sprze-
dano ponad pół miliona egzemplarzy książki o kłamaniu za pomocą staty-
styki. Przetłumaczono ją także na kilkanaście języków – w tym na język
chiński – co zapewniło jej sukces na skalę globalną.
W Jak kłamać za pomocą statystyki Huff skoncentrował się m.in. na opisie
takich sytuacji, w których sposób prezentowania danych statystycznych
prowadzi ich czytelnika do błędnych wniosków. Jedną z takich manipulacji
jest przedstawianie wyników badań korelacyjnych w sposób, który sugeruje
związki przyczynowo-skutkowe między branymi pod uwagę zmiennymi.
Na czym polegają badania korelacyjne, napisaliśmy krótko w rozdziale do-
tyczącym projektowania eksperymentów. Przypomnijmy, że celem takich
badań jest poszukiwanie związków w zakresie współzmienności między
dwoma lub większą liczbą zmiennych ilościowych. U podstaw badania kore-
lacyjnego leżą pytania w rodzaju: „Czy wraz ze wzrostem wartości jednej
zmiennej (np. wysokości dziecka) rosną (lub maleją) wartości innej zmien-
nej (np. wagi jego ciała)?”. Niezależnie jednak od tego, czy odpowiedź na
tak sformułowane pytanie jest pozytywna, czy negatywna, wynik badania
korelacyjnego nie może być interpretowany w terminach przyczynowo-
skutkowych. Nie może być tak traktowany nawet wtedy, gdy dotyczy
związków między takimi zmiennymi, jak palenie papierosów i zachorowal-
ność na raka płuc, wysokość zarobków i poziom życia lub liczba przylatują-
cych bocianów i narodzonych dzieci. Dlaczego? Spróbujmy odpowiedzieć
na to pytanie, powołując się na przykład pastorów ze stanu Massachusetts w
USA.
472 WNIOSKOWANIE STATYSTYCZNE

O ZAROBKACH PASTORÓW W STANIE MASSACHUSETTS I CENACH RUMU W HAWANIE

Huff zauważył, że zarobki prezbiteriańskich pastorów w stanie Massachu-


setts rosną z roku na rok, wprost proporcjonalnie do cen rumu w Hawanie.
To jest fakt. Czy jednak w związku z tym jakikolwiek sens ma ustalanie, co
jest przyczyną czego?
Czy jest np. tak, że wraz ze zwiększającymi się zarobkami pastorzy kupują
coraz więcej rumu, co – zgodnie z prawem popytu i podaży – sprawia, że je-
go cena się zwiększa? Ale dlaczego akurat w Hawanie? A może zależność
jest odwrotna – to zarobki pastorów są ustalane na podstawie cen rumu
w Hawanie (tak jak u nas płaca minimalna zależy m.in. od średniego wzro-
stu cen)? Wszystko to trochę bez sensu, choć z takim sposobem ujmowania
związku korelacyjnego nieraz się spotkacie, np. w reklamie lub negocjując
cenę kupowanego samochodu.

CZY SSAKI ŚNIĄ?

* Allison, T., Cicchetti, D. Truett Allison i Domenico Cicchetti zainteresowali się długością snu u róż-
(1976) Sleep in mammals: eco- nych gatunków ssaków*. Ponieważ przeprowadzone przez nich badania do-
logical and constitutional corre-
lates. Science, 194, 732-734. tyczyły różnych typów snów, zacznijmy od kilku wyjaśnień wprowadzają-
cych w tę tematykę.
Badacze rozróżniają dwa rodzaje snu: wolnofalowy i paradoksalny, określa-
ny inaczej jako faza REM (od angielskiego Rapid Eye Movement, czyli od
szybkich ruchów gałek ocznych, występujących w tej fazie). Sen paradok-
salny występuje 5-6 razy w ciągu nocy. Jeśli w czasie fazy REM zostaniesz
obudzony, doświadczysz zaskakującego doznania „wyrwania” Cię z bardziej
lub mniej przyjemnego marzenia sennego, czyli tego, co najczęściej nazy-
wamy śnieniem. Oba typy snów (wolnofalowy i paradoksalny) charakteryzu-
ją się różnym przebiegiem fal mózgowych oraz różnymi procesami neu-
** Por. Matysiak, J. (2000). robiochemicznymi**.
Psychologia fizjologiczna. W:
J. Strelau (red.), Psychologia. Wśród badaczy podejmujących problematykę snu u zwierząt istnieje spór
Podręcznika akademicki (t. I, dotyczący natury śnienia w fazie REM. Jeżeli sen paradoksalny kojarzy się
s. 95-129). Gdańsk: GWP.
z marzeniami sennymi u ludzi, to istnienie takiej fazy u zwierząt mogłoby
świadczyć o tym, że i zwierzęta także śnią podczas snu. Ale co miałoby to
znaczyć? – pytają inni. Czy możemy odpowiedzieć na pytanie, o czym śnią
np. gronostaje czy mrówkojady lub w jaki sposób reprezentują świat w ma-
rzeniach sennych leniwce? Do tej pory najlepiej zbadano sen u kotów, u któ-
rych zaobserwowano podobny przebieg fal mózgowych do tego zidentyfi-
kowanego u ludzi podczas snu paradoksalnego. Naukowcy próbują także
odpowiedzieć na pytanie, czy inne ssaki także śnią, oraz usiłują zdiagnozo-
wać czynniki, od których zależy długość snu w ciągu doby oraz długość snu
paradoksalnego.
ANALIZA KORELACJI I REGRESJI 473

* Siegel J. M. (1999). The evo- Okazuje się np., że czas snu paradoksalnego w największym stopniu zależy
lution of REM sleep. W: od tego, czy zwierzę rodzi się jako jednostka gotowa do samodzielnego ży-
R. Lydic, H.A. Baghdoyan
(red.), Handbook of behavioral cia (wtedy śni raczej krótko), czy też potrzebuje opieki rodzicielskiej po
state control (s. 87-100). Boca urodzeniu (i wtedy śni znacznie dłużej)*.
Raton: CRC Press.

DŁUGOŚĆ SNU A WAGA CIAŁA I DŁUGOŚĆ ŻYCIA

Istnieje również odwrotnie proporcjonalny związek między czasem snu


w ciągu doby a wielkością zwierzęcia. Z danych opublikowanych przez Tru-
etta Allisona i Domenica Cicchettiego wynika, że najdłużej śpi pewien ame-
rykański gatunek nietoperza, zwany nockiem, który waży zaledwie 100 g
i na sen poświęca aż 19,9 godziny w ciągu doby. Najbardziej aktywnym ssa-
kiem jest sarna, która śpi zaledwie 2,6 godziny w ciągu doby, a waży od 15
do 25 kg.
Nie w każdym jednak przypadku prawdą jest to, że im zwierzę jest cięższe,
tym krócej śpi. Na przykład ponad 6-tonowy słoń afrykański śpi dłużej niż
sarna, bo ok. 3,3 godziny w ciągu doby. Najmniejsze zaś zwierzę zbadane
przez Allisona i Cicchettiego, ważąca zaledwie 5 gramów jedna z odmian
ryjówki, śpi 9,1 godziny w ciągu doby.
Badacze zastanawiają się także nad inną parą zmiennych: czasem snu i dłu-
gością życia. Jak sądzisz: czy zwierzęta żyjące dłużej śpią dłużej, czy krócej
w ciągu doby? Wiesz już, że najkrócej śpi sarna, a najdłużej nietoperz nocek.
Przeciętna długość życia sarny to 17 lat, a nocka – 24 lata.
Wygląda więc na to, że zwierzęta żyjące dłużej śpią dłużej, a tym, które żyją
krótko, szkoda czasu na spanie.
Najkrócej jednak żyjący ssak, uwzględniony w badaniach Allisona i Ci-
cchettiego, to amerykańska ryjówka domowa – żyje około 2 lat, ale śpi śred-
nio 12,8 godziny na dobę. Najdłużej natomiast spośród badanych przez nich
ssaków żyje człowiek, dożywający często osiemdziesiątki, a czasem nawet
100 lat, który – jak dobrze wiemy – średnio śpi 8 godzin na dobę.
Wszystko więc zależy od tego, w jaki sposób będziemy porównywać dłu-
gość życia i długość snu. Jeżeli porównamy ssaka śpiącego najkrócej (sarna)
ze ssakiem śpiącym najdłużej (nocek), to się okaże, że im dłużej zwierzę śpi,
tym dłużej żyje (albo: im krócej śpi, tym krócej żyje).
Jeżeli jednak rozpoczniemy porównywanie, wychodząc od długości życia,
i porównamy ssaka, który żyje najkrócej (ryjówka – 2 lata), z tym, który żyje
najdłużej (człowiek – 100 lat), to się okaże, że im dłużej żyje, tym krócej śpi
(albo odwrotnie: im krócej żyje, tym dłużej śpi). Rezultaty obu tych porów-
nań przedstawiamy w tabeli 8.1.
474 WNIOSKOWANIE STATYSTYCZNE

Tabela 8.1. Najdłuższe i naj- Gatunek ssaka Czas snu (godz. na dobę) Maks. długość życia
krótsze czasy snów i maksy-
malne długości życia wśród Sarna 2,6 17
ssaków opisanych przez Nocek 19,9 24
Truetta Allisona i Domenica
Cicchettiego (1976) Człowiek 8 100
Ryjówka 12,8 2

Tabelę 8.1 podzieliliśmy na dwie części, ponieważ chcieliśmy podkreślić, że


w zależności od tego, które wartości minimalne i maksymalne weźmiemy
pod uwagę, dochodzimy do innych wniosków dotyczących związku między
czasem snu a długością życia.
Gdy jako punkt wyjścia weźmiemy czas snu (sarny i nocka), wówczas
stwierdzimy, że jest on wprost proporcjonalny do długości życia, biorąc zaś
pod uwagę długość życia (człowieka i ryjówki) – dojdziemy do wniosku, że
jest on odwrotnie proporcjonalny do długości snu.
Takie przedstawienie wyników ma jednak wyłącznie charakter dydaktyczny.
Aby móc ocenić, jaki rzeczywiście jest związek między długością życia
a długością snu, powinniśmy uwzględnić znacznie więcej danych.
Allison i Cicchetti przedstawili w swoim artykule różne dane dotyczące aż
62 gatunków ssaków. Nie dla wszystkich zarejestrowano czasy snu, ale ze-
stawienie danych na temat snu ponad 50 gatunków i tak wydaje się imponu-
jące. Wiele z nich wykorzystamy w dalszej części naszego przewodnika.
Na początek jednak musimy dokładnie zrozumieć, czym jest współczynnik
korelacji, jak się go oblicza i – co najważniejsze – co oznacza. Rozpocznie-
my więc od możliwie najprostszej definicji i najprostszego wzoru.

WSPÓŁCZYNNIK KORELACJI LINIOWEJ r PEARSONA DLA DANYCH STANDARYZOWANYCH

Określenie korelacja oznacza związek między dwoma cechami, a wyrażenie


współczynnik korelacji – liczbową miarę siły tego związku.
Z kolei powiedzenie, że mamy do czynienia ze współczynnikiem korelacji
„liniowej”, sugeruje – upraszczając nieco – że związek między badanymi
zmiennymi można graficznie przedstawić, w układzie współrzędnych OX
i OY, za pomocą linii prostej.
Statystycy opracowali wiele różnych współczynników korelacji, ale wszyst-
kie mają podobne właściwości:
• obliczanie współczynnika korelacji zawsze wymaga, by dane były
przedstawione w postaci par,
ANALIZA KORELACJI I REGRESJI 475

• jeżeli nie ma żadnego związku między branymi pod uwagę zmiennymi,


czyli wtedy, gdy badane cechy są niezależne, to wartość współczynnika
korelacji wynosi zero,

• jeżeli wraz ze wzrostem wartości jednej zmiennej wzrasta też wartość


drugiej, to współczynnik korelacji jest liczbą dodatnią (związek między
zmiennymi jest wprost proporcjonalny),

• jeżeli wraz ze wzrostem wartości jednej zmiennej maleje wartość dru-


giej, to współczynnik korelacji jest ujemny (związek między zmiennymi
jest odwrotnie proporcjonalny),

• wartość współczynnika korelacji nigdy nie jest mniejsza niż –1 i nie


większa niż +1,

• siła związku między analizowanymi cechami wyrażona jest w postaci


wartości bezwzględnej współczynnika korelacji.
Najpopularniejszym współczynnikiem korelacji jest r Pearsona, znany rów-
nież pod tajemniczą nazwą „korelacji według momentu iloczynowego”.
Współczynnik ten można obliczać na wiele sposobów, ale wszystkie one
prowadzą do tego samego rozwiązania.
Najprostszy wzór, za pomocą którego możesz obliczyć współczynnik kore-
lacji r Pearsona między dwiema zmiennymi (X i Y), jest następujący:
N

∑z Xi zY
i

rXY = i =1

N
rXY współczynnik korelacji,

zX wynik standaryzowany danego pomiaru (i) zmiennej X, czyli różnica między tym pomiarem
i
a średnią dla zmiennej X, wyrażona w jednostkach odchylenia standardowego dla tej
zmiennej,

zY wynik standaryzowany danego pomiaru (i) zmiennej Y, czyli różnica między tym pomiarem
i
a średnią dla zmiennej Y, wyrażona w jednostkach odchylenia standardowego dla tej
zmiennej,
N liczba par pomiarów,
N suma – w tym przypadku – iloczynów par wyników standaryzowanych, począwszy od

i =1
pierwszego (i = 1) do ostatniego, równego liczbie wszystkich pomiarów, czyli N.

Wartość współczynnika korelacji jest średnią arytmetyczną sumy iloczynów


wyników standaryzowanych dla poszczególnych pomiarów zmiennej X i Y.
476 WNIOSKOWANIE STATYSTYCZNE

CZY SSAKI, KTÓRE DŁUGO ŻYJĄ, DŁUGO ŚPIĄ?

Korzystając z danych w tabeli 8.1, możemy obliczyć wartość współczynnika


korelacji między długością snu a długością życia. Średnie i odchylenia stan-
dardowe dla tych zmiennych znajdują się w tabeli 8.2
Tabela 8.2. Średnie i odchyle- Zmienne Średnia Odchylenie standardowe
nia standardowe dla danych
zawartych w tabeli 8.1 czas snu 10,82 6,36
długość życia 35,75 37,94

Korzystając ze średnich i odchyleń standardowych, możemy przekształcić


dane dotyczące długości snu i długości życia u sarny, nocka, człowieka i ry-
jówki na wyniki standaryzowane z (zob. tab. 8.3).

Tabela 8.3. Maksymalna Czas snu Maks. długość życia


długość życia i czas snu dla Gatunek
czterech gatunków ssaków, w godz. na wynik wynik
w latach
wyrażone w postaci wyników dobę standaryzowany z standaryzowany z
standaryzowanych z
2,6 − 10 ,82 17 − 35,75
sarna 2,6 = −1,29 17 = −0,49
6 ,36 37,94

19,9 − 10,82 24 − 35,75


nocek 19,9 = 1,43 24 = −0,31
6,36 37,94

8 − 10,82 100 − 35,75


człowiek 8 = −0,44 100 = 1,69
6,36 37,94

12,8 − 10,82 2 − 35,75


ryjówka 12,8 = 0,31 2 = −0,89
6,36 37,94

Przypomnijmy, że standaryzacja surowych danych do wyników z pozwala


na ich porównywanie pomimo różnych jednostek pomiarowych, np. godzin
(dla snu) i lat (dla długości życia). Ponieważ standaryzacja prowadzi do wy-
rażenia pomiarów różnych zmiennych w porównywalnych jednostkach (czy-
li w wartościach odchylenia standardowego), łatwiej więc się zorientować,
jaki jest kierunek zależności między nimi.
Z zestawienia znajdującego się w tabeli 8.3 wynika, że sarna śpi znacznie
krócej niż przeciętnie, a długość jej życia jest mniejsza niż średni czas życia
ssaków; z kolei nocek śpi znacznie dłużej niż przeciętnie, choć także żyje
trochę krócej niż przeciętny ssak. Człowiek śpi tylko trochę krócej, niż wy-
nosi średnia dla czterech ssaków, za to wyraźnie dłużej żyje, natomiast ry-
jówka śpi odrobinę powyżej średniej, żyje zaś trochę krócej, niż wynosi
średnia.
Jeżeli pomnożymy obie wartości standaryzowane dla każdego ze ssaków z
tabeli 8.3, to otrzymamy następujące wartości:
ANALIZA KORELACJI I REGRESJI 477

Wyniki dla: sarny = –1,29 × –0,49 = 0,63,


nocka = 1,43 × –0,31 = –0,44,
człowieka = –0,44 × 1,69 = –0,74,
ryjówki = 0,31 × –0,89 = –0,28.
Każdy z obliczonych iloczynów wyników standaryzowanych z zawiera
w sobie informację na temat wkładu, jaki wnosi każdy badany obiekt do
ostatecznej wielkości korelacji między obydwoma zmiennymi. Gdyby suma
iloczynów dodatnich i ujemnych była taka sama (oczywiście co do wartości
bezwzględnych), wówczas dodając wszystkie iloczyny do siebie, otrzymali-
byśmy zero. Oznaczałoby to, że chociaż w odniesieniu do niektórych obiek-
tów istnieje zależność wprost proporcjonalna, a dla innych odwrotnie pro-
porcjonalna, to jednak żadna z tych tendencji nie przeważa w całym zbiorze
danych. A jak jest dla czterech pomiarów z tabeli 8.1?
N

∑z xi zy i
0,63 + (−0,44) + (−0,74) + (−0,28) − 0,83
rXY = i =1
= = = −0,21
N 4 4
Wartość rXY = –0,21 oznacza, że jeżeli wartość jednej zmiennej jest wyższa
od średniej o jedno odchylenie standardowe, to wartość drugiej jest przecięt-
nie niższa od średniej o 0,21 odchylenia standardowego. Nie wchodząc na
razie w dalsze szczegóły, możemy powiedzieć, że związek między długością
snu a długością życia jest odwrotnie proporcjonalny, czyli im dłużej żyje
ssak, tym krócej śpi, co na tym poziomie analizy jest równoważne stwier-
dzeniu, że im dłużej ssak śpi, tym krócej żyje.

O ZWIĄZKACH MIĘDZY KORELACJĄ I PROSTOLINIOWOŚCIĄ REGRESJI

Zajmijmy się teraz dokładniej pojęciem liniowości korelacji. Do tego celu


przydadzą się nam jeszcze prostsze niż dotąd dane liczbowe. Rozpocznijmy
od dwóch par liczb, które reprezentują pomiary zmiennej X i zmiennej Y.
W tabeli 8.4 wpisaliśmy również średnie i odchylenia standardowe dla tych
zmiennych oraz wyniki standaryzowane z, odpowiadające tym pomiarom.

Tabela. 8.4. Pomiary, śred- Wyniki standaryzowane z


Pomiary zmiennej
nie i odchylenia standardowe Pomiary dla pomiarów zmiennej
zmiennej X i Y
X Y X Y
1 1 3 –1 –1
2 5 11 1 1
Średnia 3 7 0 0
Odchylenie 2 4
standardowe
478 WNIOSKOWANIE STATYSTYCZNE

Nie powinno Cię dziwić, że wyniki standaryzowane z to tylko jedynki (do-


datnie lub ujemne). Zawsze tak jest, gdy bierzemy pod uwagę tylko dwie pa-
ry liczb.
* Oczywiście wtedy, gdy liczy- Średnia arytmetyczna dla dwóch liczb musi znajdować się w połowie odle-
my je jako odchylenie standar- głości między jedną liczbą a drugą, ta zaś połowa odległości to właśnie jed-
dowe dla populacji.
no odchylenie standardowe*.
Jeżeli obliczone wyniki standaryzowane wstawimy do wzoru na współczyn-
nik korelacji, to otrzymamy 1. Najlepiej, jeśli sam to sprawdzisz.
Z matematyki wiadomo, że w układzie współrzędnych przez każde dwa
punkty można przeprowadzić tylko jedną prostą. Wykres takiej prostej po-
prowadzonej przez punkty (X = 1, Y = 3) i (X = 5, Y = 11) przedstawiony jest
na rysunku 8.1.
Rysunek 8.1. Prosta prze- 12
chodząca przez punkty
(X = 1, Y = 3) i (X = 5, Y = 11)
na wykresie rozrzutu 10
[STATISTICA]

8
Zmienna Y

2
1 2 3 4 5
Zmienna X

Prosta na rysunku 8.1 ma taką właściwość, że leżą na niej obydwa punkty


odpowiadające parom pomiarów zmiennych X i Y.
W statystyce wykres takich punktów nazywa się wykresem rozrzutu.
Do zbioru dwóch punktów dopiszmy jeszcze kilka innych, ale w taki sposób,
aby i one znalazły się na jednej prostej. Mogą to być np. punkty (2, 5), (4, 9),
(8,17). W ten sposób mamy już pięć par punktów i wszystkie leżą na jednej
prostej.
Podobnie jak poprzednio, obliczmy dla nich średnie i odchylenia standardo-
we, a następnie wyniki standaryzowane (zob. tab. 8.5)
ANALIZA KORELACJI I REGRESJI 479

Tabela. 8.5. Pomiary, śred- Wyniki standaryzowane z


Pomiary zmiennej
nie i odchylenia standardowe dla pomiarów zmiennej
zmiennej X i Y Pomiary
X Y X Y

1 1 3 –1,22 –1,22

2 2 5 –0,82 –0,82

3 4 9 0 0

4 5 11 0,41 0,41

5 8 17 1,63 1,63

Średnia 4 9 0 0

Odchylenie
2,45 4,90
standardowe

Jeżeli teraz obliczymy współczynnik korelacji, to się okaże, że znowu wyno-


si on 1.
N

∑z xi zy i

rXY = i =1
=
N
(−1,22) × ( −1,22) + ( −0,82) × (−0,82) + 0 × 0 + 0,41 × 0,41 + 1,63 × 1,63
= =
5
4,99
= = 0,998
5
No, prawie 1, ale tylko dlatego, że najpierw odchylenia standardowe, a póź-
niej wszystkie wyniki standaryzowane zaokrągliliśmy do dwóch miejsc po
przecinku. Gdyby nie te zaokrąglenia, wyszłoby dokładnie 1 – możesz nam
wierzyć.
Jeżeli w układzie współrzędnych naniesiemy punkty odpowiadające wyni-
kom standaryzowanym zX i zY, to również te punkty będą leżały na linii pro-
stej (por. rysunek 8.2).
No to zabawmy się i zróbmy teraz mały „myk”: odwróćmy kolejność pomia-
rów i odpowiadających im wyników standaryzowanych dla zmiennej Y. Na-
sza tabelka z danymi będzie teraz wyglądała następująco (zob. tab. 8.6).
480 WNIOSKOWANIE STATYSTYCZNE

Rysunek 8.2. Wykres rozrzu- 2,0


tu i prosta przechodząca
przez wyniki standaryzowane 1,5
zX i zY dla korelacji równej 1
[STATISTICA] 1,0

0,5

Zmienna Y
0,0

-0,5

-1,0

-1,5
-1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,0
Zmienna X

Tabela. 8.6. Pomiary, Wyniki standaryzowane z


Pomiary zmiennej
średnie i odchylenia stan- Pomiary dla pomiarów zmiennej
dardowe zmiennej X i Y po
wykonaniu małego „myku” X Y X Y
z pomiarami zmiennej Y 1 1 3 –1,22 1,63
2 2 5 –0,82 0,41
3 4 9 0 0
4 5 11 0,41 –0,82
5 8 17 1,63 –1,22
Średnia 4 9 0 0
Odchylenie
2,45 4,90
standardowe

Jeśli teraz obliczymy współczynnik korelacji, to się okaże, że jego wartość


jest zupełnie inna:
N

∑z
i =1
xi zy i

rXY = =
N
(−1,22) × 1,63 + (−0,82) × 0,41 + 0 × 0 + 0,41× (−0,82) + 1,63 × (−1,22)
= =
5
− 4,65
= = −0,93
5
Przede wszystkim współczynnik korelacji jest ujemny, a poza tym jego war-
tość bezwzględna jest mniejsza od 1. Jeżeli zrobimy wykres rozrzutu wyni-
ków standaryzowanych odpowiadających pomiarom zmiennych X i Y „po
ANALIZA KORELACJI I REGRESJI 481

myku”, to się okaże, że w żaden sposób nie da się poprowadzić linii prostej
przechodzącej przez wszystkie pięć punktów (zob. rys. 8.3). Co najwyżej
można narysować linię prostą, która znajdzie się możliwie jak najbliżej
wszystkich punktów.
Pewne jest tylko jedno, że taka linia będzie przechodzić przez punkt odpo-
wiadający średniej arytmetycznej dla rozkładów standaryzowanych zmien-
nej X i zmiennej Y, czyli przez punkt (0, 0).
Oczywiście istnieje matematyczna metoda służąca do znajdowania takich
prostych, jak ta na rysunku 8.3. O metodzie tej napiszemy dokładniej w czę-
ści poświęconej analizie regresji, ale teraz wprowadzimy pojęcie linii regre-
sji, czyli prostej, która znajduje się najbliżej wszystkich punktów na wykre-
sie rozrzutu.
Rysunek 8.3. Wykres rozrzu- 2,0
tu wyników standaryzowa-
nych dla pomiarów „po myku” 1,5
(r = –0,93) [STATISTICA]
1,0

0,5
Zmienna Y

0,0

-0,5

-1,0

-1,5
-1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,0
Zmienna X

A JEŚLI DANE ODCHYLAJĄ SIĘ OD LINII REGRESJI

Biorąc pod uwagę wszystko to, co dotąd powiedzieliśmy, korelację możemy


zdefiniować jako liczbową miarę odchylenia par wyników od linii regresji.
Jeżeli korelacja wynosi 1, to wszystkie pary pomiarów leżą na linii regresji,
bez względu na to, czy sporządzimy wykres rozrzutu dla danych surowych,
czy dla wartości standaryzowanych z. W tej drugiej sytuacji linia regresji
zawsze będzie przechodzić przez punkt (0,0) i – gdy korelacja wynosi 1 –
będzie nachylona do osi OX pod kątem 45° (spójrz raz jeszcze na rys. 8.2).
Jeżeli wartość korelacji wynosi –1, to wszystkie punkty także będą leżały na
linii regresji, dla wartości zaś standaryzowanych z linia ta będzie przechodzi-
ła przez punkt (0,0). Teraz tylko linia regresji będzie nachylona do osi OX
pod innym kątem: 180° – 45° = 135° (zob. rys. 8.4).
482 WNIOSKOWANIE STATYSTYCZNE

Rysunek 8.4. Wykres rozrzu- 2,0


tu i prosta przechodząca
przez wyniki standaryzowane 1,5
zX i zY dla korelacji równej –1
[STATISTICA] 1,0

0,5

Zmienna Y
0,0

-0,5

-1,0

-1,5

-2,0
-2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,0
Zmienna X

W obu sytuacjach, czyli na rysunkach 8.2 i 8.4, gdy korelacja wynosi 1 albo
–1, można bezbłędnie przewidywać wartości jednej zmiennej na podstawie
wartości drugiej zmiennej. Wynika to wprost ze wzoru na wartość współ-
czynnika korelacji, który po pewnych przekształceniach opisuje następującą
zależność:
z x = rXY × z y

Jeżeli korelacja wynosi 1, to dla każdej wartości zmiennej X, wartość zmien-


nej Y różni się od średniej o dokładnie taką samą odległość wyrażoną w jed-
nostkach odchylenia standardowego. Zależność ta jest spełniona dla wszyst-
kich danych z naszego pierwszego przykładu (por. tab. 8.4). Na przykład je-
żeli X = 8 i Y = 17, to po ich zamianie na wartości standaryzowane z okazuje
się, że oba te pomiary różnią się od swoich średnich dokładnie o 1,63 odchy-
lenia standardowego.
Jeżeli współczynnik korelacji wynosi –1, to również można dokładnie prze-
widywać wartości jednej zmiennej na podstawie wartości drugiej – z tą tylko
różnicą, że jeśli zmienna X jest większa o pewną wartość odchyleń standar-
dowych od średniej, to zmienna Y jest mniejsza o tę samą wartość odchyle-
nia standardowego od swojej średniej. Gdybyśmy nie wiedzieli, jakie pomia-
ry zmiennej Y odpowiadają pomiarom zmiennej X, równym: 1, 2, 4, 5, 8, ale
wiedzielibyśmy, że korelacja między tymi zmiennymi wynosi –1, to bardzo
łatwo możemy wyliczyć wartości zmiennej Y.
• Pierwszym krokiem jest przedstawienie wartości zmiennej X za pomocą
wyników standaryzowanych z, dla µ x = 4 , σ x = 2,45 (zob. kolumna zx
w tab. 8.6).
• Drugi krok polega na przedstawieniu wartości zmiennej Y za pomocą
wyników standaryzowanych z i wymaga tylko odwrócenia znaków znaj-
ANALIZA KORELACJI I REGRESJI 483

dujących się przed z-tami z poprzedniej kolumny (zob. kolumna zy


w tab. 8.6).
• Jeżeli przyjmiemy, że średnia i odchylenie standardowe w zbiorze po-
miarów zmiennej Y wynoszą, odpowiednio, µ y = 9 , σ y = 4,9 , to wyko-
nanie trzeciego kroku wymaga tylko podstawienia danych do przekształ-
conego wzoru na wynik standaryzowany z, czyli Yi = µ y + z y σ y (zob.
kolumna Y w tab. 8.6).
Co prawda wyniki w ostatniej kolumnie znowu nie są dokładnie takie, jak
w tabeli 8.4, ale to tylko błąd wynikający z przybliżenia. Tak czy inaczej, dla
wyliczonych wartości zmiennej Y, wszystkie pary wyników (X,Y) układają
się dokładnie na linii regresji (zob. rys. 8.5).

Tabela. 8.6. Kolejne kroki X zx zy Y


wyznaczenia nieznanych
wartości pomiarów zmiennej 1 –1,22 1,22 14,97
Y na podstawie znanych 2 –0,82 0,82 13,02
wartości pomiarów zmiennej
X oraz znanej wartości 4 0 0 9
współczynnika korelacji,
równej –1 5 0,41 –0,41 6,99
8 1,63 –1,63 1,01

Rysunek 8.5. Linia regresji 16


dla zmiennej X i dobranych
do niej wartości zmiennej Y, 14
przy założeniu, że rXY = –1
[STATISTICA] 12

10
Zmienna Y

0
0 1 2 3 4 5 6 7 8 9
Zmienna X

KORELACJA, WARTOŚCI PRZEWIDYWANE

Wiesz już, co to znaczy, że korelacja wynosi 1 lub –1. Wiesz także, że gdy
wartość współczynnika jest mniejsza niż 1 lub większa od –1, wtedy linia
regresji nie przechodzi przez wszystkie pary pomiarów (X,Y), choć zawsze
przechodzi przez punkt reprezentujący średnią w obu tych zbiorach. Jeśli
484 WNIOSKOWANIE STATYSTYCZNE

zamiast danych surowych korzystasz z wyników standaryzowanych, to linia


regresji zawsze przechodzi przez punkt (0,0).
Wróćmy jednak do przykładu z długością snu u ssaków i zastanówmy się,
jakie znaczenie ma dla nas informacja, że korelacja pomiędzy długością ży-
cia ssaków a czasem snu wynosi rXY = –0,21.
Technicznie rzecz biorąc, oznacza to, że jeśli wartość jednej zmiennej jest
większa od swojej średniej o 1 odchylenie standardowe, to wartość drugiej
zmiennej jest przeciętnie mniejsza od swojej średniej o –0,21 odchylenia
standardowego.
Możemy jednak wykorzystać tę zależność do przewidywania wartości jednej
zmiennej na podstawie wartości drugiej. Możemy np. przewidywać, ile cza-
su powinny spać różne ssaki, biorąc pod uwagę maksymalny czas ich życia
(zob. tab. 8.7).

Tabela 8.7. Faktyczny Maksymalna


Czas snu
i przewidywany czas snu długość życia
czterech wybranych ssaków Gatunek
na podstawie informacji faktyczny
przewidywany*
dotyczącej ich długości życia lata zx (godz. na zy = -0,21 × zx
(godz. na dobę)
oraz wielkości korelacji dobę)
między tymi zmiennymi 10,82 + 0,1038 ×
–0,21 × –0,4942 =
(rXY = –0,21) sarna 17 –0,4942 2,6
= 0,1038 × 6,36 = 11,4802

–0,21 × –0,3097 = 10,82 + 0,065 ×


nocek 24 –0,3097 19,9
= 0,065 × 6,36 = 11,2334

–0,21 × 1,6936 = 10,82 + (–0,3557) ×


człowiek 100 1,6936 8
= –0,3557 × 6,36 = 8,5577

–0,21 × –0,8896 = 10,82 + 0,1868 ×


ryjówka 2 –0,8896 12,8
= 0,1868 × 6,36 = 12,008
Średnia 35,75 0 10,82
Odchylenie
standardo- 37,94 1 6,36
we

* Czas przewidywany jest obliczony wg wzoru: Y = x y + z y σ y .

Ponieważ tym razem wyjątkowo zależało nam na precyzji obliczeń, wszyst-


kie wartości standaryzowane z wpisaliśmy z dokładnością do czterech
miejsc po przecinku. Obliczenia zawarte w ostatniej kolumnie w tabeli 8.7 to
długości czasów snów, jakie przewidywalibyśmy na podstawie równania
zy = rXY × zx. Z zestawienia faktycznych i przewidywanych czasów wynika,
że człowiek i ryjówka śpią mniej więcej tyle, ile powinni, natomiast sarna
mogłaby spać znacznie dłużej, niż faktycznie śpi, nocek zaś faktycznie śpi
zdecydowanie zbyt długo. Relację pomiędzy rzeczywistymi i przewidywa-
nymi wartościami czasu snu przedstawiamy na rysunku 8.6.
ANALIZA KORELACJI I REGRESJI 485

Rysunek 8.6. Rzeczywiste 22


i przewidywane wartości nocek
20
czasów snu dla czterech
ssaków [STATISTICA] 18

Czas snu (godziny na dobę)


16

14 ryjówka
12

10
człowiek
8

4 sarna
2

0
-20 0 20 40 60 80 100 120
Maksymalna długość życia (lata)

PROCENT WARIANCJI WYJAŚNIONEJ ZA POMOCĄ WSPÓŁCZYNNIKA DETERMINACJI

Na rysunku 8.6. wyraźnie widać, że przewidywane długości czasów snu


układają się dokładnie na linii prostej, natomiast nie da się przeprowadzić
jednej linii przez wszystkie punkty odpowiadające rzeczywistym czasom snu
czterech ssaków. Gdybyśmy policzyli wariancje dla zbioru wartości rzeczy-
wistych i zbioru wartości przewidywanych, wtedy okazałoby się, że dla war-
tości faktycznych wynosi ona:
(2,6 − 10,82) 2 + (19,9 − 10,82) 2 + (8 − 10,82) 2 + (12,8 − 10,82) 2
σ 2y = = 40,4719
4
a dla wartości przewidywanych:
(11,4802 − 10,82) 2 + (11,2334 − 10,82) 2 +
σ 2y = '
4
+ (8,5577 − 10,82) + (12,008 − 10,82) 2
2
= 1,784
4

Wariancja, oznaczona jako σ2y , jest miarą zmienności w zbiorze pomiarów


zmiennej Y, czyli w zbiorze czasów snu (na razie ciągle tylko dla czterech
ssaków). Korzystając z równania zy = r × zx, ustaliliśmy, jakie byłyby czasy
snu dla czterech ssaków, gdybyśmy przewidywali je tylko na podstawie
maksymalnej długości życia. Wariancja oznaczona jako σ2y jest miarą '

zmienności w zbiorze wartości przewidywanych. Można powiedzieć, że jest


to miara zmienności w zbiorze czasów snu, za którą „odpowiedzialne” są
wartości w zbiorze czasów życia. Jeżeli podzielimy przez siebie wariancje
obliczone dla wartości przewidywanych i rzeczywistych, to otrzymamy
486 WNIOSKOWANIE STATYSTYCZNE

pewną umowną miarę tego, w jakim zakresie można przewidywać wariancję


w zbiorze czasów snu na podstawie wariancji w zbiorze czasów życia. Wy-
nik tego dzielenia jest następujący:
σ2y ' 1,784
= = 0,044
σ 2
y 40,4719

Iloraz równy 0,044 możemy interpretować jako proporcję wariancji


w zmiennej Y (faktyczny czas snu), wyjaśnioną przez wariancję w zmiennej
Y’ (czas snu przewidywany na podstawie maksymalnej długości życia).
Wskaźnik ten nazywa się współczynnikiem determinacji. Jego nazwa su-
geruje, że jest to wartość określająca, w jakim stopniu zmienność w jednym
zbiorze danych wpływa na (determinuje) zmienność w drugim zbiorze.
Współczynnik determinacji oznacza się symbolem r2. Zachodzi bowiem cie-
kawa zależność między ilorazem wariancji przewidywanej do rzeczywistej
(tak, jak to właśnie przed chwilą policzyliśmy) a podniesionym do kwadratu
współczynnikiem korelacji, dla branych pod uwagę zmiennych. Spójrz na
poniższe równanie:

σ 2y '

= 0,044 = 0,2098 ≈ 0,21


σ 2
y

Oznacza to, że 0,212 = 0,044.


Gdybyśmy przed 0,21 wstawili znak „minus”, wówczas otrzymalibyśmy
–0,21, czyli dokładnie tyle, ile wynosi korelacja między czasem snu a mak-
symalną długością życia. Współczynnik determinacji można więc bez trudu
policzyć, podnosząc do kwadratu współczynnik korelacji. Bez względu na
to, czy korelacja jest dodatnia, czy ujemna, współczynnik determinacji za-
wsze przyjmuje wartości dodatnie.
Współczynnik determinacji najczęściej interpretuje się jako procent
* Por. Brzeziński, J. (1996). Me- wariancji jednej zmiennej wyjaśnionej przez drugą zmienną*. Współczynnik
todologia badań psychologicz-
nych. Warszawa: PWN.
r2 = 0,044 oznacza, że tylko 4,4% (0,044 × 100% = 4,4%) wariancji zmien-
nej „czas snu” jest wyjaśniona przez wariancję zmiennej „maksymalna dłu-
gość życia”. O ile dość trudno jest intuicyjnie wyjaśnić, co dokładnie ozna-
cza wartość współczynnika korelacji, np. rXY = –0,21, o tyle znacznie łatwiej
jest zrozumieć, co oznacza wartość współczynnika determinacji. Jeśli po-
wiemy, że długość życia tylko w niespełna 5% tłumaczy ilość czasu poświę-
caną przez ssaki na sen, to musisz przyznać, że związek między tymi zmien-
nymi nie jest porażający.
Poważna to sprawa, a więc także poważny wzór na r2 w rozbudowanej for-
mie wygląda tak:
ANALIZA KORELACJI I REGRESJI 487

∑ (Y '
− Y )2 N

∑ (Y
i

σ 2 i =1
i
'
− Y )2
r2 = y'
= N = i =1

σ 2 N N
y
∑ (Y − Y )
i =1
i
2
∑ (Y − Y )
i =1
i
2

N
Po skróceniu tego piętrusa przez N, czyli liczbę par pomiarów, otrzymujemy
stosunek dwóch sum kwadratów odchyleń od średniej. Suma w liczniku to
miara tego, o ile odchylają się wartości przewidywane od średniej w zbiorze
Y (czyli faktycznej średniej czasu snu), a suma w mianowniku to miara tego,
o ile od tej samej średniej odchylają się faktycznie otrzymane wartości.
Jeżeli popatrzysz jeszcze raz na rysunek 8.6, to szybko dojdziesz do wnio-
sku, że współczynnik determinacji r2 jest wskaźnikiem odchylenia otrzyma-
nych pomiarów od linii regresji, czyli linii przechodzącej przez pomiary
przewidywane. Można więc powiedzieć, że współczynnik determinacji jest
miarą liniowości związku pomiędzy zmiennymi, a współczynnik korelacji –
pierwiastkiem kwadratowym z tej miary, dodatkowo opatrzonym znakiem
dodatnim lub ujemnym, w zależności od kierunku tego związku.

W TAKIM RAZIE, OD CZEGO TAK NAPRAWDĘ ZALEŻY DŁUGOŚĆ SNU U SSAKÓW?

Obliczonej wartości korelacji między długością snu a maksymalną długością


życia (rXY = –0,21), niestety, nie możemy traktować jako miary rzeczywiste-
go związku między tymi dwiema zmiennymi. Nie możemy, ponieważ obli-
czyliśmy tę wartość tylko dla czterech ssaków: sarny, nocka, człowieka i ry-
jówki. Allison i Cicchetti w swoim artykule podali dane dotyczące znacznie
większej liczby zwierząt. Jeżeli uwzględni się wszystkie 62 przypadki i obli-
czy współczynnik korelacji, to się okaże, że jest ona znacznie większy niż
–0,21, wynosi bowiem rXY = –0,41. Wykres rozrzutu pomiarów przedstawio-
ny jest na rysunku 8.7.
Na rysunku 8.7 nie zamieściliśmy nazw wszystkich ssaków, bo rysunek stał-
by się nieczytelny. Wśród 62 punktów są również te, które reprezentują po-
miary czterech znanych nam ssaków – najłatwiej jest znaleźć punkt odpo-
wiadający człowiekowi.
Wartość r = –0,41 oznacza, że zależność między analizowanymi zmiennymi
jest odwrotnie proporcjonalna, czyli im dłużej żyje dany ssak, tym krócej
śpi. Ponieważ wartość bezwzględna współczynnika korelacji jest mniejsza
od 1, przewidywanie więc wartości jednej zmiennej na podstawie drugiej
obarczone jest jakimś błędem. Miarą tego błędu jest różnica między 1 (gdy-
by przewidywanie było idealne) a wartością r2, czyli miarą związku pomię-
488 WNIOSKOWANIE STATYSTYCZNE

dzy jedną zmienną a drugą, jaki zachodzi dla otrzymanych przez nas danych.
Dla r = –0,41, r2 = 0,168, a 1 – r2 = 0,832. Na podstawie tych rachunków
możemy powiedzieć, że czas snu w badanej grupie ssaków w 16,8% zależy
od maksymalnej długości ich życia, a w 83,2% od innych czynników, o któ-
rych nic (na razie) nie wiemy.
Rysunek 8.7. Wykres rozrzu- 22
tu zmiennych „długość snu” 20
i „maksymalna długość życia”

Całkowty czas sny (godziny na dobę)


[STATISTICA] 18

16

14

12

10

0
-10 10 30 50 70 90 110
Maksymalna długość życia (lata)

Obliczanie współczynników korelacji często jest wstępem do dalszych ana-


liz (np. do analizy regresji, o której piszemy w następnym rozdziale). Na po-
czątkowym etapie eksploracji jakiegoś zjawiska warto policzyć współczyn-
niki korelacji między wszystkimi zmiennymi, jakimi dysponujemy.
Wynik takiej analizy z reguły ma postać tzw. macierzy korelacji.
* Można łatwo obliczyć, ile jest Allison i Cicchetti skorelowali ze sobą pomiary 62 ssaków w zakresie 10
współczynników korelacji dla zmiennych i uzyskali informacje o wartościach 45 współczynników korela-
N zmiennych, w następujący
sposób: N(N – 1)/2.
cji* (zob. tab. 8.8). Komputerowe programy do obliczeń statystycznych ra-
dzą sobie z takim zadaniem w ułamku sekundy (lub w kilka sekund, przy
dużych zbiorach). Wyniki z reguły podawane są w postaci tabeli.
W tabeli 8.8 wpisane są korelacje między wszystkimi możliwymi parami
zmiennych, czyli każdej z każdą, włącznie z samą sobą (te zawsze przyjmują
wartość równą 1 i w tabeli znajdują się na przekątnej). Przekątna dzieli tabe-
lę na dwie symetryczne połowy. Dlatego też korelacja między każdą parą
zmiennych wpisana jest w niej dwukrotnie, raz powyżej przekątnej i raz po-
niżej.
Na przykład korelację między całkowitym czasem snu (5) a maksymalną
długością życia (6), równą –0,41, odnajdziesz zarówno na przecięciu kolum-
ny 5 i wiersza 6, jak i kolumny 6 i wiersza 5.
Żeby nie powielać danych, czasem usuwa się jedną połowę tabeli i powstaje
wtedy tzw. macierz trójkątna.
ANALIZA KORELACJI I REGRESJI 489

Tabela 8.8. Wartości współ-

czeństwa (1–min., 5 – maks.)


10. Współczynnik niebezpie-
8. Zagrożenie drapieżnikiem
czynników korelacji dla 10

9. Dostępność podczas snu


zmiennych opisanych przez

5. Całkowity czas snu


Allisona i Cicchettiego

(1 – min.,5 – maks.)
3. Sen wolnofalowy
2. Masa mózgu (g)

7. Czas ciąży (dni)


1. Masa ciała (kg)
[STATISTICA]

6. Maks. długość

(1-min., 5 maks.)
(godz./doba)

(godz./doba)

(godz./doba)
4. Sen REM

życia (lata)
1. Masa ciała (kg) 1,00 0,93 –0,38 –0,11 –0,31 0,30 0,65 0,06 0,34 0,13

2. Masa mózgu (g) 0,93 1,00 –0,37 –0,11 –0,36 0,51 0,75 0,03 0,37 0,15

3. Sen wolnofalowy (godz./doba) –0,38 –0,37 1,00 0,51 0,96 –0,38 –0,59 –0,32 –0,54 –0,48

4. Sen REM (godz./doba) –0,11 –0,11 0,51 1,00 0,73 –0,30 –0,45 –0,45 –0,54 –0,58

5. Całkowity czas snu (godz./doba) –0,31 –0,36 0,96 0,73 1,00 –0,41 –0,63 –0,40 –0,64 –0,59

6. Maks. długość życia (lata) 0,30 0,51 –0,38 –0,30 –0,41 1,00 0,61 –0,10 0,36 0,06

7. Czas ciąży (dni) 0,65 0,75 –0,59 –0,45 –0,63 0,61 1,00 0,20 0,64 0,38

8. Zagrożenie drapieżnikiem
0,06 0,03 –0,32 –0,45 –0,40 –0,10 0,20 1,00 0,62 0,92
(1 – min., 5 – maks.)

9. Dostępność podczas snu


0,34 0,37 –0,54 –0,54 –0,64 0,36 0,64 0,62 1,00 0,79
(1 – min., 5 – maks.)

10. Współczynnik niebezpieczeństwa


0,13 0,15 –0,48 –0,58 –0,59 0,06 0,38 0,92 0,79 1,00
(1 – min., 5 – maks.)

Przyjrzyjmy się uważniej danym w tabeli 8.8. Zmienna całkowitego czasu


snu (5) najwyżej koreluje ze zmiennymi długości snu wolnofalowego (3)
i długością snu REM (4). Oznacza to, że im dłużej śpi przeciętny ssak, tym
dłuższe ma fazy snu bez marzeń sennych i tym dłuższe ma fazy snu z ma-
rzeniami sennymi. W zasadzie zależność ta jest oczywista. Zwróć jednak
uwagę na to, że długość śnienia nie koreluje tylko z długością snu w ogóle.
W jakimś stopniu skorelowana jest ona z każdą zmienną. Żeby ustalić, które
z tych korelacji są ważniejsze i dlaczego, musimy najpierw odpowiedzieć na
pytanie, kiedy w ogóle możemy obliczać współczynnik korelacji r Pearsona
i co to znaczy, że jest on istotny lub nieistotny.

KIEDY MOŻNA OBLICZAĆ WSPÓŁCZYNNIK KORELACJI r PEARSONA?

Większość psychologów oblicza współczynnik korelacji r Pearsona niemal


zawsze, gdy tylko przyjdzie im na to ochota. Twierdzą, że wystarczy tylko,
aby dane były zgromadzone za pomocą skali przedziałowej, a i to ograni-
czenie często ignorują, obliczając współczynnik r także wtedy, gdy dane są
wynikiem pomiaru na skali porządkowej. Pisaliśmy już trochę na temat dys-
kusji dotyczącej podobieństw i różnic między pomiarami na skali przedzia-
łowej i porządkowej. Jeżeli jednak masz wątpliwości co do przedstawionej
tam argumentacji, to dla danych porządkowych zastosuj inne miary siły
związku niż r Pearsona. O takich wskaźnikach napiszemy dalej.
490 WNIOSKOWANIE STATYSTYCZNE

KORELACJA W PRÓBIE I W POPULACJI

Zacznijmy od podstawowego rozróżnienia. Musimy pamiętać, że czym in-


nym jest obliczanie współczynnika korelacji dla konkretnego zbioru danych,
a czym innym wnioskowanie na temat charakteru związku pomiędzy
* Na tę różnice zawsze bardzo cechami w populacji*.
zwracał uwagę m.in. Jacob Co-
hen (1969, Statistical power Przypomnimy więc najpierw zakresy pojęć: „próba” i „populacja”. Najkró-
analysis for the behavioral cej mówiąc, próba jest losowym podzbiorem populacji. W części, w której
sciences. New York: Academic
Press.) pisaliśmy o teście t, podkreślaliśmy, że stosuje się go nie po to, aby stwier-
dzić, czy średnie w dwóch próbach różnią się między sobą (to przecież może
stwierdzić każde dziecko w wieku szkolnym, które umie posługiwać się
liczbami i wie, co to znaczy „większy” lub „mniejszy”), ale po to, by spraw-
dzić, czy można przyjąć, że średnie w populacjach, z których te próby po-
chodzą, różnią się od siebie. Czym innym jest więc porównywanie średnich
arytmetycznych w dwóch próbach, a czym innym wyciąganie wniosków na
temat różnicy pomiędzy badaną cechą w dwóch populacjach.
Podobnie jest w przypadku obliczania współczynnika korelacji. Współczyn-
nik ten może być traktowany albo jako statystyka opisowa, czyli liczba od-
zwierciedlająca pewną tendencję w zbiorze danych (analogicznie jak śred-
nia, wariancja lub mediana w tym zbiorze), albo jako estymator parametru
populacji (czyli liczba wskazująca na wartość średniej, wariancji lub media-
ny w populacji).
Obliczanie współczynnika korelacji wymaga, aby dane były przedstawione
w postaci zbioru par liczb. Nie ma żadnych przeciwwskazań, aby ten zbiór
par potraktować jako próbę wylosowaną z populacji takiego zbioru par. Na
przykład zbiór wyników egzaminów z dwóch przedmiotów w losowo wy-
branej grupie studentów pewnej uczelni możemy traktować jako próbę po-
chodzącą z całej populacji wyników egzaminów z tych dwóch przedmiotów
na wszystkich uczelniach na całym świecie. Oczywiście, odrębnym zagad-
nieniem jest sprawa reprezentatywności tej próby, ale to już inna historia.
W części poświęconej statystykom opisowym dla jednej próby wprowadzili-
** Niewątpliwie jednym z wy- śmy zasadę, że statystyki oznaczamy literami alfabetu łacińskiego, a parame-
jątków jest pod tym względem
Jerzy Greń, który konsekwentnie try – literami alfabetu greckiego. Ta sama zasada dotyczy także współczyn-
rozróżnia oznaczenia greckie nika korelacji, choć nie jest ona konsekwentnie przestrzegana przez statysty-
i łacińskie (zob. Greń, J. (1987). ków**. Jeśli jednak trzymać się tej reguły, to powinniśmy stosować literę r
Statystyka matematyczna. Pod-
ręcznik programowany. War- na oznaczenie współczynnika korelacji w próbie oraz grecką literę ρ (czytaj:
szawa: PWN). „ro”), gdy będziemy traktowali go jako miarę korelacji w populacji.

TEST ISTOTNOŚCI WSPÓŁCZYNNIKA KORELACJI, CZYLI RAZ JESZCZE O POMYSŁACH STUDENTA

Jeżeli zbiór par wyników potraktujemy jako próbę wylosowaną z populacji


par takich wyników, to obliczając współczynnik korelacji dla tej próby, mo-
ANALIZA KORELACJI I REGRESJI 491

żemy oszacować, w jakim stopniu odzwierciedla on rzeczywistą korelację


analizowanych cech w populacji. Inaczej mówiąc, możemy sprawdzić, czy
otrzymana przez nas wartość współczynnika korelacji w próbie istotnie różni
się od zera. Żeby to policzyć, trzeba zastosować znany Ci już test t, tym ra-
zem w wersji z współczynnikiem korelacji r Pearsona:
r
t= N −2
1− r2
Wzór łączy wartości współczynnika korelacji z rozkładem t Studenta o N – 2
stopniach swobody. N oznacza liczbę par pomiarów. Chcąc stosować test t,
najpierw powinniśmy sformułować hipotezę zerową i hipotezę alternatywną.
Hipoteza zerowa to, jak zawsze, stwierdzenie, że nie ma związku między
badanymi zmiennymi, czyli:
H0: ρ = 0
Jeżeli nie ma związku, to współczynnik korelacji w populacji ρ jest równy
zero. Jeżeli natomiast taki związek istnieje, to współczynnik korelacji w po-
pulacji powinien różnić się od zera albo in minus, i wtedy hipoteza alterna-
tywna będzie wyglądać tak:
H1: ρ < 0
albo in plus i wtedy hipoteza alternatywna wygląda tak:
H1: ρ > 0
Wystarczy więc obliczyć wartość testu t i sprawdzić, czy jest ona większa
(jeśli korelacja jest dodatnia), czy mniejsza (jeśli korelacja jest ujemna) od
odpowiedniej wartości krytycznej, odczytanej z tablicy statystycznej (zob. w
Aneksie tablica C). Oczywiście hipotezę zerową można odrzucić wtedy, gdy
prawdopodobieństwo otrzymanego wyniku testu t będzie mniejsze od zało-
żonego poziomu odrzucania hipotezy zerowej, który z reguły wynosi α =
= 0,05.
Dla przykładu sprawdźmy istotność kilku współczynników korelacji zawar-
tych w tabeli 8.8. Wynik testu t dla współczynnika korelacji między całko-
witym czasem snu i maksymalną długością życia ssaka wynosi:
− 0,41
t= 54 − 2 = −3,24
1 − (−0,41) 2

Prawdopodobieństwo uzyskania takiej wartości w rozkładzie t, przy założe-


niu, że hipoteza zerowa jest prawdziwa (czyli ρ = 0), wynosi 0,0021 i jest
niższe od α = 0,05. Należy więc odrzucić hipotezę zerową i przyjąć hipotezę
alternatywną, w brzmieniu: „ρ<0”.
492 WNIOSKOWANIE STATYSTYCZNE

Bardzo podobny wynik otrzymamy w odniesieniu do korelacji między cał-


kowitym czasem snu a masą ciała ssaka:
− 0,31
t= 58 − 2 = −2,44
1 − (−0,31) 2

Wartość krytyczna przy df = 56 wynosi –2,0032. Otrzymana wartość jest


niższa od wartości krytycznej. Należy odrzucić hipotezę zerową (ρ = 0)
i przyjąć hipotezę alternatywną, że ρ < 0.
Jeśli jednak weźmiemy pod uwagę korelację między maksymalną długością
życia a współczynnikiem niebezpieczeństwa, okazuje się, że:
− 0,06
t= 58 − 2 = −0,4498
1 − (−0,06) 2

Wartość krytyczna przy df = 56 wynosi –2,0032. Otrzymana wartość jest


wyższa od wartości krytycznej, a więc nie ma podstaw do odrzucenia hipo-
tezy zerowej i należy przyjąć, że ρ = 0.
Dodajmy, że wszystkie korelacje ze zmienną czasu snu są istotnie różne od
zera. Można więc pogratulować badaczom – do analizy wybrali te zmienne,
które rzeczywiście mają związek z całkowitym czasem snu ssaków. Nie-
istotna jest natomiast korelacja między długością życia a stopniem, w jakim
ssak jest narażony na niebezpieczeństwo. W tym wypadku należy przyjąć, że
obie te cechy są od siebie niezależne. Ten brak zależności dobrze ilustruje
rysunek 8.8.
Rysunek 8.8. Wykres rozrzu- 5,5
tu dla zmiennych „maksymal-
Współczynnik narażenia na niebezpieczeństwo

na długość życia” i współ-


czynnik narażenia na niebez- 4,5
pieczeństwo” [STATISTICA]

3,5

2,5

1,5

0,5
-10 10 30 50 70 90 110
Maksymalna długość życia (lata)

Na rysunku 8.8 widać, jak daleko odbiegają od linii regresji poszczególne


punkty, reprezentujące różne gatunki ssaków. Ponadto linia regresji dość
płasko leży na wykresie: to także widomy znak braku korelacji.
ANALIZA KORELACJI I REGRESJI 493

Weryfikacja istotności współczynnika korelacji wymaga zatem zastosowania


testu t. Podobnie jak w przypadku weryfikacji hipotez dotyczących średnich,
może to być test jednostronny lub dwustronny. Wszystko zależy od tego,
w jaki sposób została sformułowana hipoteza alternatywna.
Jeżeli przewidujemy, że między dwiema zmiennymi zachodzi jakichś zwią-
zek, ale nie wiemy, czy jest on wprost, czy odwrotnie proporcjonalny, to hi-
poteza alternatywna brzmi ρ ≠ 0 i należy zastosować test dwustronny.
Jeżeli jednak przed obliczeniem korelacji spodziewamy się, że związek mię-
dzy zmiennymi ma określony kierunek, czyli postawiliśmy jedną z dwóch
hipotez alternatywnych: ρ < 0 lub ρ > 0, to do weryfikacji istotności współ-
czynnika korelacji należy zastosować test t jednostronny.
Ponieważ do weryfikacji hipotezy o istotności współczynnika korelacji sto-
sujemy test t Studenta, dane muszą więc spełniać takie same założenia, jak
w sytuacji stosowania tego testu dla średnich. Muszą więc pochodzić z po-
pulacji o rozkładzie normalnym oraz wariancje w obu pomiarach nie mogą
się istotnie różnić od siebie. Zanim więc obliczysz test t dla współczynnika
korelacji, warto sprawdzić, czy można przyjąć, że rozkłady w obu próbach
są normalne, oraz czy wariancje nie różnią się istotnie od siebie.
Warto jednak również wiedzieć, że wyniki badań prowadzonych za pomocą
metod Monte Carlo wskazują, iż test t dla współczynnika korelacji jest dosyć
odporny, zwłaszcza gdy próby liczą powyżej 50 obserwacji. W takiej sytu-
acji istotność korelacji można badać nawet wtedy, gdy nie są spełnione
* Por. Raju, N. S., Pappas, S., założenia dotyczące normalności rozkładów i jednorodności wariancji*.
Williams, C. P. (1989). An em-
pirical Monte Carlo test of the W odniesieniu do trzech obliczonych wyżej wartości testu t, założenia są
accuracy of the correlation, co- spełnione tylko w pierwszym przypadku. Zarówno rozkłady mas ciał ssa-
variance, and regression slope
models for assessing validity ków, jak i wartości zmiennej „współczynnik niebezpieczeństwa” nie mają
generalization. Journal of Ap- rozkładów normalnych. Poprawność naszych obliczeń chroni jednak więk-
plied Psychology, 74, 901-911.
sza niż 50 liczebność prób. Oczywiście nie byłoby żadnym błędem, gdybyś
– wiedząc o „nienormalności” rozkładów zmiennych – zastosował inny, nie-
parametryczny współczynnik korelacji. Powrócimy jeszcze do tego tematu
w następnej części tego rozdziału.
O tym, czy otrzymany współczynnik korelacji jest istotny, czy nie, decydu-
jemy na podstawie wielkości statystyki t. Wielkość ta zależy jednak nie tyl-
ko od wartości współczynnika korelacji, ale również od liczebności badanej
próby. Zależność jest następująca: wynik testu t jest tym większy, im więk-
sza jest bezwzględna wartość współczynnika korelacji oraz im większa jest
liczebność zbioru par pomiarów, czyli N.
Korzystając z komputera, obliczyliśmy, w jaki sposób zmienia się istotność
współczynnika korelacji, jeśli zwiększamy wartości r i N. Na przykład dla
494 WNIOSKOWANIE STATYSTYCZNE

korelacji r = 0,2, wynik testu t jest statystycznie istotny (przy założeniu, że


α = 0,05), jeśli próba liczy 69 lub więcej par pomiarów.
Nie daj się jednak zwariować! Chociaż dla 69-elementowej próby korelacja
r = 0,2 okaże się istotna, to przecież wyjaśnia ona zaledwie 4% (r2 = 0,22 =
= 0,04 × 100% = 4%) zmienności.
Z drugiej strony zbadanie zbyt małej liczby osób może sprawić, że nawet
dosyć dużą korelację możemy uznać za nieistotną. Na przykład korelacja
równa 0,5 jest istotna dopiero dla próby liczącej co najmniej 12 osób.
Podsumujmy – współczynnik korelacji r Pearsona można obliczać niemal
dla każdych danych, ale czasem należy być ostrożnym przy wyciąganiu
wniosków dotyczących charakteru związku pomiędzy badanymi cechami
w populacji.

UWAŻAJ, JAK INTERPRETUJESZ WSPÓŁCZYNNIK KORELACJI r PEARSONA

Wykorzystywanie współczynnika korelacji jako miary siły związku między


dwiema zmiennymi w pewnych sytuacjach może prowadzić do bardzo po-
ważnych błędów interpretacyjnych. Nietrudno wskazać na – co najmniej –
trzy rodzaje takich sytuacji, w których wyniki analizy korelacyjnej mogą
wyprowadzić nas na manowce. Kluczem do ich identyfikacji jest uważne
zbadanie wykresu rozrzutu.

OBSERWACJE NIETYPOWE

Wartość współczynnika korelacji zależy od tego, w jakim stopniu poszcze-


gólne pomiary zmiennych X i Y różnią się od swoich średnich (porównaj
wzór). Z tego wynika, że korelacja jest szczególnie „uwrażliwiona” na ob-
serwacje nietypowe, czyli takie pary (X, Y), które znacznie bardziej różnią
się od swoich średnich niż pozostałe. Zilustrujemy tę zależność, raz jeszcze
odwołując się do danych dotyczących czasów snu u ssaków.
Weźmy np. pod uwagę ciężar ciała słonia afrykańskiego. Jest on o tyle więk-
szy od ciężarów wszystkich pozostałych ssaków, że konstruując wykres roz-
rzutu, tylko ze względu na słonia, musielibyśmy znacznie zwiększyć liczbę
jednostek na jednej z jego osi i wykres stałby się nieczytelny. Można także
przypuszczać, że ponieważ dane dotyczące słonia tak bardzo odbiegają od
średniej dla ssaków, mają również znaczący wpływ na wielkość współczyn-
nika korelacji.
Nie tylko jednak słoń afrykański zaciemnia obraz zależności między czasem
snu a wagą zwierzęcia. Na drugim krańcu skali masy ciała znajduje się naj-
lżejsze zwierzę zbadane przez Allisona i Cicchettiego, czyli ważąca zaled-
ANALIZA KORELACJI I REGRESJI 495

wie 5 gramów ryjówka. W ten sposób skala ciężaru ciała ssaków rozciąga
się od 5 gramów do 6654 kg. Średnia waga wszystkich ssaków wyniosła
198,79 kg, średnia zaś długość snu – 10,53 godziny. Korelacja między tymi
dwoma zmiennymi równa się: r = –0,31 i istotnie różni się od zera na po-
ziomie p<0,05. Na rysunkach 8.9 i 8.10 przedstawiamy histogramy dla
zmiennych, odpowiednio, „ciężar ciała” i „całkowity czas snu”.

Rysunek 8.9. Histogramy 65


60
zmiennych „ciężar ciała” 60
(na podstawie danych wyko-
55
rzystanych przez Allisona
i Cicchettiego) [STATISTICA] 50
45
Liczba obserwacji

40
35
30
25
20
15
10
5
0 1 0 0 0 1 0
0
0-1 1-2 2-3 3-4 4-5 5-6 6-7 >7
Ciężar ciała (w tonach)

Rysunek 8.10. Histogramy


12
zmiennej „całkowity czas snu” 11 11
(na podstawie danych wyko- 11
rzystanych przez Allisona 10
10
i Cicchettiego) [STATISTICA]
9
8
8
Liczba obserwacji

7
6
5 5
5
4
3 3
3
2
2
1
0 0
0
<2 2-4 4-6 6-8 8-10 10-12 12-14 14-16 16-18 18-20 >20
Całkowity czas snu (godziny na dobę)

Na wykresie 8.10 wyraźnie widać, że całkowite czasy snu rozkładają się


mniej więcej równomiernie w badanej próbie ssaków, natomiast na wykresie
8.9 można łatwo zidentyfikować tylko dwa ssaki, które są znacznie cięższe
od wszystkich pozostałych. Tym cięższym jest znany nam już słoń afrykań-
ski, a drugim – słoń indyjski, który waży 2547 kg.
496 WNIOSKOWANIE STATYSTYCZNE

Zróbmy małą próbę i usuńmy te dwie obserwacje z całego zbioru danych.


Spowoduje to, że średnia dla zmiennej „masa ciała” spadnie do 52,06 kg,
a całkowity czas snu zmieni się tylko nieznacznie, do 10,53 godziny na do-
bę. Po usunięciu danych dotyczących obu słoni korelacja między masą ciała
a całkowitym czasem snu wyniesie wówczas r = –0,42 i będzie istotna staty-
stycznie na poziomie p<0,001.
Podziękowanie dwóm słoniom za udział w eksperymencie sprawiło, że kore-
lacja wzrosła o 0,1 w wartościach bezwzględnych. Ta różnica jest jeszcze
wyraźniejsza, gdy porównamy współczynniki determinacji w obu przypad-
kach. Dla danych ze słoniami r2 = 0,09, a dla danych bez słoni r2 = 0,17.
W pierwszej sytuacji twierdzilibyśmy zatem, że tylko 9% wariancji zmien-
nej „całkowity czas snu” wiąże się ze zmienną „masa ciała”, w drugiej zaś
procent wariancji wyjaśnionej wzrósłby prawie dwukrotnie.
Nie ma, niestety dobrej, metody na ustalenie z góry, jak duże odstępstwo
pomiaru od średniej jest nietypowe. W przypadku pomiarów ciężaru ciała,
przedstawionych na rysunku 8.9, sytuacja jest stosunkowo prosta: wyraźnie
widać, że dwa pomiary zdecydowanie odstają od pozostałych. W praktyce
jednak takie oczywiste sytuacje zdarzają się rzadko.
Czasem odrzuca się pomiary, które różnią się od średniej o 1,5 lub 2 odchy-
lenia standardowe. Można także obliczyć współczynnik korelacji dla środ-
kowych, np. 90%, obserwacji. Wartość piątego centyla dla rozkładu mas cia-
ła ssaków wynosi 0,023 kg (poniżej której znajduje się tylko mroczek wielki
i kilka myszy), wartość zaś dziewięćdziesiątego piątego centyla wynosi 521
kg (i powyżej niego są już tylko słonie). Jeżeli zatem do obliczenia korelacji
uwzględnimy tylko środkowe 90% obserwacji, to średnia masa ciała wynie-
sie 43,5 kg, średni czas snu – 10,64, a korelacja między tymi zmiennymi
okaże się niemal identyczna jak ta, którą obliczyliśmy, wykluczywszy tylko
wagi słoni, tzn. r = –0,42.
Przeanalizujmy jeszcze inny przykład, tym razem związku między masą cia-
ła ssaków a czasem snu paradoksalnego (REM). Jeżeli obliczymy korelację
dla danych uwzględniających wagę słoni, to r = –0,11 (p = 0,45), a dla da-
nych bez słoni r = –0,28 (p = 0,054). W obu przypadkach korelacje są nie-
istotne statystyczne. W drugiej jednak sytuacji wartość testu t (dla df = 47)
wynosi –1,97, i jeśli zastosowalibyśmy test jednostronny, to okazałoby się,
że możemy odrzucić hipotezę zerową na poziomie p = 0,027 i uznać, że ist-
nieje odwrotnie proporcjonalny związek pomiędzy czasem fazy REM a wa-
gą ssaków.
Nie mielibyśmy jednak wątpliwości co do braku zależności między masą
ciała a czasem snu paradoksalnego, czyli śnienia, gdybyśmy do obliczania
korelacji uwzględnili tylko środkowe 90% pomiarów (ze względu na zmien-
ną „masa ciała”). Stosując tę metodę odrzucania nietypowych pomiarów,
ANALIZA KORELACJI I REGRESJI 497

otrzymamy r = –0,23. Wartość testu t (dla df = 44) = –1,56, a prawdopodo-


bieństwo uzyskania takiego wyniku, przy założeniu, że korelacja w populacji
równa się 0, wynosi: p = 0,1265 (dla testu dwustronnego) i p = 0,063 (dla te-
stu jednostronnego). No i teraz okazuje się, że cień zależności pomiędzy ma-
są ciała a czasem snu REM zniknął bezpowrotnie.
Huff miał jednak chyba trochę racji, że statystyka daje duże pole do nad-
użyć, ale być naukowcem to także być po prostu uczciwym człowiekiem.
Powinieneś więc bardzo uważać, kiedy posługujesz się współczynnikiem ko-
relacji, a szczególnie wtedy, kiedy podejmujesz decyzję o wyłączeniu pew-
nych obserwacji z analiz.
Akurat dla zmiennych „masa ciała” i „czas snu paradoksalnego”, być może,
lepiej byłoby w ogóle nie obliczać współczynnika korelacji r Pearsona, po-
nieważ próba nie została dobrana losowo z populacji oraz rozkład zmiennej
„masa ciała” istotnie się różni od rozkładu normalnego (d Kołmogorowa-
-Smirnowa wynosi 0,4125, p<0,01).

BŁĘDNE POŁĄCZENIE DWÓCH LUB WIĘCEJ GRUP W JEDEN ZBIÓR

Analizowanie wykresu rozrzutu, zanim przystąpi się do obliczania współ-


czynnika korelacji, jest dobrą praktyką badawczą. Jeżeli zaniedba się tego
kroku, to można się narazić:
• albo na wyciąganie wniosków, które nie mają potwierdzenia w danych
(ponieważ na wartość współczynnika korelacji mają wpływ np. pomiary
odstające),
• albo na przeoczenie istnienia zależności, która w pewnym sensie jest
„zamaskowana” przez globalny charakter współczynnika korelacji.
Używając tego ostatniego sformułowania, chcemy zwrócić Twoją uwagę na
błąd, na który może narazić badacza przeoczenie faktu, że zbiór danych, dla
których oblicza on wartość korelacji, w rzeczywistości składa się z dwóch
lub więcej podzbiorów. Wyjaśnimy to na przykładzie badań z zakresu psy-
chologii ewolucjonistycznej.
Zwolennicy tego podejścia twierdzą, że kobiety i mężczyźni różnią się ze
względu na „techniki” stosowane w celu utrzymywania przy sobie życio-
* Shackelford, T. K., Goetz, A., wych partnerów. Todd Shackelford, Aaron Goetz i David Buss* opracowali
T., Buss, D. M. (2005). Mate re- nawet kwestionariusz „zatrzymywania partnera” (Mate Retention Inventory).
tention in marriage: Further evi-
dence of the reliability of the
W jednym ze swoich badań poprosili o wypełnienie tego kwestionariusza
Mate Retention Inventory. Per- 107 par małżeńskich o stażu krótszym niż rok. Każde z małżonków wypeł-
sonality and Individual Diffe- niało kwestionariusz dwukrotnie: raz oceniając, jak często sam stosuje różne
rences, 39, 415–425.
strategie utrzymania przy sobie partnera lub partnerki, i drugi raz, oceniając,
jak często te same strategie stosuje współmałżonek.
498 WNIOSKOWANIE STATYSTYCZNE

Kwestionariusz składał się ze 104 pozycji, które odnosiły się do 19 strategii


zatrzymywania. Jedną z nich jest monopolizowanie czasu partnera lub part-
nerki. Strategia ta przejawia się w wytwarzaniu pewnego nacisku na partne-
ra, aby ten (lub ta) jak najczęściej pozostawał w domu lub aby można było
mu towarzyszyć podczas spotkań z innymi ludźmi. Inna strategia przejawia
się w takich czynnościach, jak podkreślanie własnej zależności od partnera
lub wzbudzanie w nim poczucia winy.
W rezultacie badań okazało się, że w odniesieniu do niemal wszystkich stra-
tegii wystąpiła pozytywna korelacja między ocenami obojga małżonków. Je-
żeli jedno z nich twierdziło, że często stosuje daną strategię, to w przeważa-
jącej większości przypadków współmałżonek też był tego zdania. Można by-
łoby poprzestać na tym wyniku, twierdząc, że małżonkowie są zgodni co do
tego, które strategie są przez nich wykorzystywane częściej, a które rzadziej.
Taki jednak wniosek, chociaż formalnie poprawny, byłby tylko częściowo
zgodny z prawdą.
Niezwykle pouczające okazało się rozbicie zbiorów danych na dwa podzbio-
ry: korelacji dla strategii stosowanych przez mężczyzn i korelacji dla strate-
gii stosowanych przez kobiety. Zamiast więc obliczać korelacje dla wszyst-
kich 214 osób badanych, autorzy obliczyli oddzielnie korelacje dla 107 męż-
czyzn (oceny własnych strategii i oceny kobiet na temat tego, jak często te
strategie są wykorzystywane przez mężów) oraz 107 kobiet (oceny ich wła-
snych strategii i oceny mężczyzn dotyczące częstości stosowania tych strate-
gii przez żony). Rozbicie zbioru osób badanych na dwie grupy pozwoliło
m.in. na zidentyfikowanie tych strategii, w odniesieniu do których występuje
różnica w ocenie między kobietami a mężczyznami.
Na przykład korelacja między oceną częstości stosowania strategii monopo-
lizowania czasu przez mężczyzn w grupie mężczyzn (czyli mężczyźni sami
o sobie) i w grupie kobiet (czyli kobiety o mężczyznach) wyniosła 0,58. Ko-
relacja zaś obliczona dla ocen częstości stosowania tej samej strategii przez
kobiety (czyli korelacja między ocenami kobiet na swój własny temat oraz
mężczyzn na temat kobiet) wyniosła tylko 0,20.
Co prawda, oba współczynniki korelacji są istotne statystycznie, ale znaczna
różnica między nimi świadczy o tym, że małżonkowie są znacznie bardziej
zgodni co do tego, że to raczej mężczyźni stosują strategię monopolizowania
czasu swoich partnerek niż kobiety.
Analiza wykresu rozrzutu dla poszczególnych strategii natychmiast ujawni-
łaby tę tendencję. Nie mamy danych surowych z eksperymentu Shackelforda
i współpracowników, ale możemy sobie wyobrazić, jak by wyglądał taki
wykres dla zgodności ocen w zakresie częstości stosowania strategii mono-
polizowania czasu przez kobiety i mężczyzn (zob. rys. 8.11).
ANALIZA KORELACJI I REGRESJI 499

Rysunek 8.11. Hipotetyczny 104


wykres rozrzutu wyników
w eksperymencie Shackel- 102
forda i współpracowników Mężczyźni (r = 0,04)
w odniesieniu do stosowania 100
strategii monopolizowania
czasu przez kobiety i męż-
98

Zmienna Y
czyzn [STATISTICA]

96

94

92
-0,20)
Kobiety (r = 0,20)

90
90 92 94 96 98 100 102 104 106
Zmienna X

Na podstawie takiego wykresu bez trudu można wyciągnąć wniosek, że choć


istnieje pewna zależność między zmiennymi dla całej grupy danych, to jed-
nak relacja między zmiennymi inaczej kształtuje się w grupie kobiet, a ina-
czej w grupie mężczyzn. Dlatego też lepiej jest potraktować obie te grupy
oddzielnie i obliczyć nie jeden, ale dwa współczynniki korelacji.

NIELINIOWA ZALEŻNOŚĆ MIĘDZY ZMIENNYMI

Można powiedzieć, że współczynnik korelacji r Pearsona jest nie tyle miarą


siły związku między dwiema zmiennymi, ile miarą liniowości – lub raczej
* Statystycy na ogół używają prostoliniowości* – tego związku. Jeżeli wartość współczynnika korelacji
słowa „liniowość” w znaczeniu jest statystycznie nieistotna, to jeszcze wcale nie musi oznaczać, że nie ma
„prostoliniowość”. Jeżeli zatem
ktoś stwierdza, że np. regresja
związku pomiędzy porównywanymi zmiennymi. Może to być po prostu
jest nieliniowa, to oznacza to związek nie prostoliniowy, lecz krzywoliniowy.
tylko tyle, że nie jest prosto-,
lecz krzywoliniowa. Przykładem nieliniowej zależności między dwiema zmiennymi jest prawo
Yerkesa-Dodsona, zgodnie z którym poziom wykonania zadania zależy od
motywacji i trudności zadania. Bynajmniej nie jest to zależność prostolinio-
wa. W odniesieniu do zadań o średnim stopniu trudności, poziom ich wyko-
nania rośnie wraz z motywacją do ich wykonywania, ale tylko do pewnego
stopnia. Zbyt silna motywacja może zacząć przeszkadzać i w rezultacie po-
ziom wykonania zadania zaczyna spadać. Z pewnością dobrze znasz to zja-
wisko z własnego doświadczenia: jeśli zbytnio Ci zależy na zrobieniu czegoś
bardzo dobrze, to – paradoksalnie – przestaje Ci to wychodzić.
Inny przykład nieliniowej, tzn. nie prostoliniowej, regresji dotyczy podziału
ludzi na „skowronki” i „sowy”. Być może, słyszałeś o tym. Skowronki to ci,
którzy wstają wcześnie i najlepiej funkcjonują w godzinach przedpołudnio-
wych. Wtedy też, z reguły, mają lepszy nastrój. Z kolei sowy lubią długo
spać, a szczyt ich aktywności przypada na popołudnie i wieczór. Podział ten
500 WNIOSKOWANIE STATYSTYCZNE

jest zgodny nie tylko z potocznymi obserwacjami, ale również z wynikami


* Kerkhof, G. A. (1998). The badań psychologicznych*.
24-hour variation of mood differ
between morning – and evening- Prawdopodobnie jest wiele przyczyn wpływających na różny przebieg ryt-
type individuals. Perception and mów dobowej aktywności u ludzi. Jedną z nich jest miesiąc, w którym ktoś
Motor Skills, 84, 264-266.
się urodził. Vincenzo Natale, Ana Adan i Jayanti Chotai** sprawdzili, jaki
** Natale, V. Adan, A., Chotai, jest związek między miesiącem urodzin a przebiegiem rytmów dobowych.
J. (2002). Further results on the
association between morning- Autorzy Ci opracowali kwestionariusz preferencji poranno-wieczornych
ness-eveningness preference and (Morningness-Eveningness Questionnaire, MEQ) i poprosili o jego wypeł-
the season of birth in human nienie 3709 studentów z Włoch i z Hiszpanii. W kwestionariuszu można by-
adults. Neuropsychobiology, 46,
209-214. ło uzyskać od 16 do 86 punktów. Osoby uzyskujące wynik powyżej 59
punktów były klasyfikowane jako typy poranne, a osoby z wynikami poniżej
41 – jako typy wieczorne. Ci, którzy uzyskali wynik pomiędzy tymi dwoma
wartościami, należą do typu mieszanego. Związek między wynikami kwe-
stionariusza a miesiącem urodzenia osób badanych przedstawiony jest na ry-
sunku 8.12.
Rysunek 8.12. Relacja po- 52
między miesiącem urodzenia
a typem rytmu dobowego 51
(na podstawie: Natale, Adane
50
i Chatoi, 2002) [STATISTICA]
Preferencja poranno-wieczorna

49

48

47

46

45 Profile:
mężczyzn
44
kobiet
43
I II III IV V VI VII VIII IX X XI XII
Miesiące urodzenia

Jak można się zorientować z przebiegu krzywych na wykresie 8.12, istnieje


wyraźny związek między czasem urodzenia a przebiegiem rytmu dobowego.
Z pewnością nie jest to jednak związek liniowy. Okazuje się, że osoby, które
urodziły się między kwietniem a wrześniem, najczęściej są typami wieczor-
nymi, a ci, którzy urodzili się w porze jesienno-zimowej, są typami poran-
nymi. Być może, przebieg aktywności dobowej związany jest z ilością świa-
tła, z którą ma kontakt dziecko od razu po urodzeniu.
Jeżeli urodziłeś się wiosną lub latem, gdy dzień jest dłuższy, jesteś wystar-
czająco doświetlony i masz ochotę posiedzieć dłużej wieczorem, ale jeżeli
urodziłeś się w czasie, gdy wieczory były długie i ciemne, to chętniej wsta-
niesz wcześniej, żeby złapać jak najwięcej światła w ciągu całego, krótkiego
przecież, dnia.
ANALIZA KORELACJI I REGRESJI 501

Gdybyś obliczył współczynnik korelacji dla takich danych, jak te uzyskane


przez badaczy rytmów dobowych, to najprawdopodobniej jego wartość wy-
nosiłaby zero. Linia prosta, najlepiej dobrana do wszystkich tych pomiarów,
byłaby równoległa do osi OX, co jest zawsze sygnałem zerowej korelacji.
Mógłbyś wyciągnąć wniosek, że ponieważ korelacja wynosi zero, nie ma
więc żadnej zależności pomiędzy czasem urodzenia a „porannością” lub
„wieczornością”. Byłby to oczywiście wniosek błędny. Zerowa korelacja nie
oznacza braku zależności, ale tylko tyle, że zależność ta nie jest liniowa.
Metody regresji nieliniowej, najogólniej mówiąc, polegają na poszukiwaniu
równań, za pomocą których można opisać zebrane wyniki. Dane dotyczące
przebiegu rytmu dobowego najlepiej opisuje funkcja kosinusoidalna. W naj-
prostszej możliwej wersji jest to po prostu wykres równania Y = cos(X), np.
taki, jak na naszym rysunku 8.13.
Rysunek 8.13. Przebieg 1,2
funkcji Y = cos(X) 1,0
[STATISTICA]
0,8
0,6
0,4
0,2
Cosinus X

0,0
-0,2
-0,4
-0,6
-0,8
-1,0
-1,2
0 2 4 6 8 10 12 14
Zmienna X

Zauważ, że krzywa prezentująca związek pomiędzy miesiącem urodzenia


a tendencją do bycia „skowronkiem” lub „sową” z rysunku 8.12 przypomina
nieco fragment krzywej kosinusoidalnej. W rzeczywistości relacja między
przebiegiem rytmu dobowego a miesiącem urodzenia jest bardziej złożona,
ale można ją przybliżyć właśnie za pomocą krzywej kosinusoidalnej.

TROCHĘ ZABAWY W PRZEKSZTAŁCENIA WZORU NA WSPÓŁCZYNNIK KORELACJI r PEARSONA

Obliczając współczynnik korelacji r Pearsona, skorzystaliśmy z następujące-


go wzoru:
N

∑z Xi zY
i

rXY = i =1

N
502 WNIOSKOWANIE STATYSTYCZNE

N liczba par wyników,


z Xi wynik standaryzowany z dla i-tej pary pomiarów zmiennej X,
z Yi wynik standaryzowany z dla i-tej pary pomiarów zmiennej Y.

Jeżeli zamienimy we wzorze wyniki standaryzowane z, na ilorazy:


Xi − µX Y − µY
zX = i zY = i
i
σX σY i

Xi i Xi i-te pomiary zmiennych X i Y,


µX i µY średnie dla zmiennych X i Y w populacji,
σX i σY odchylenia standardowe dla zmiennych X i Y w populacji,

oraz dokonamy prostych przekształceń matematycznych, to otrzymamy na-


stępujący wzór:
N

∑(X i − µ X )(Yi − µY )
rXY = i =1

Nσ X σ Y
We wzorze tym użyliśmy symboli greckich po prawej stronie – jest to więc
wartość współczynnika korelacji dla populacji i w zasadzie po lewej stronie
równania powinien znajdować się symbol ρ (czytaj: „ro”).
Gdybyśmy obliczali korelację dla próby, byłyby one wtedy estymatorem pa-
rametru populacji, a wzór wyglądałby tak:
N

∑(X i − X X )(Yi − Y Y )
rXY = i =1

Ns X sY

X X i YY średnie dla zmiennych X i Y w próbie

sX i sY odchylenia standardowe dla zmiennych X i Y w próbie

Różnica polega po prostu na tym, że zamieniliśmy greckie symbole µ oraz σ,


oznaczające parametry populacji, na symbole alfabetu łacińskiego, oznacza-
jące estymatory tych parametrów.
Możemy jeszcze trochę się pobawić i po przekształceniu mianownika
otrzymamy coś takiego:
N

∑(X i − X X )(Yi − Y Y )
rXY = i =1
N N

∑ ( X i − X ) 2 ∑ (Yi − Y ) 2
i =1 i =1
ANALIZA KORELACJI I REGRESJI 503

Dwa ostatnie wzory są równorzędne.


Odchylenia standardowe z mianownika w pierwszym wzorze wyraziliśmy
w postaci pierwiastka z wariancji, która z kolei jest sumą kwadratów odchy-
leń od średniej podzieloną przez liczbę obserwacji (dlatego znika N w mia-
nowniku). Ten ostatni wzór ma tę zaletę, że możesz go wykorzystać do obli-
czenia współczynnika korelacji wtedy, gdy nie masz dostępu do komputera.
Kolejne kolumny w tabeli 8.9 zilustrują porządek obliczeń współczynnika
korelacji dla znanych Ci już danych dotyczących czasów snu i maksymalnej
długości życia czterech ssaków.

Tabela 8.9. Kolejne kroki obli- ( Xi − X ) ×


Długość Czas
czania współczynnika korela- Gatunek (Xi − X ) ( X i − X )2 (Yi − Y ) (Yi − Y )2
życia snu × (Yi − Y )
cji r Pearsona
sarna 17 2,6 –18,75 351,56 –8,23 67,65 154,22
nocek 24 19,9 –11,75 138,06 9,08 82,36 –106,63
człowiek 100 8 64,25 4128,06 –2,83 7,98 –181,51
ryjówka 2 12,8 –33,75 1139,06 1,98 3,90 –66,66

Średnia X = 35,75 Y = 10,82

Śuma 5756,75 161,89 –200,58

Po podstawieniu odpowiednich sum z tabeli 8.9 do wzoru na współczynnik


korelacji otrzymujemy:
N

∑(X i − X X )(Yi − Y Y )
− 200,58
rXY = i =1
= = −0,21
N N
5756,75 × 161,98
∑(Xi =1
i − X) 2
∑ (Y − Y )
i =1
i
2

Wynik jest dokładnie taki sam jak wtedy, gdy obliczaliśmy korelację po za-
mienieniu wartości obu zmiennych na wyniki standaryzowane z.

KORELACJA, LINIOWOŚĆ, KOWARIANCJA, A NA DODATEK WARIANCJA SUM I RÓŻNIC

Jeżeli z mianownika wzoru na współczynnik korelacji r Pearsona:


N

∑(X i − µ X )(Yi − µY )
rXY = i =1

Nσ X σ Y
usuniemy odchylenia standardowe dla zmiennych X i Y, to otrzymamy wzór
na współczynnik kowariancji, który oznaczymy symbolem σXY :
504 WNIOSKOWANIE STATYSTYCZNE

∑(X i − µ X )(Yi − µY )
σ XY = i =1

N
Dokładniejsza analiza tego, co „zawiera” wzór na kowariancję, pomaga
w zrozumieniu związku między korelacją a liniowością. Najpierw zwróć
uwagę na to, że kowariancja wzrasta wtedy, gdy dla każdej pary (X, Y) po-
miary odchylają się od średniej w tym samym kierunku: jeżeli wartość X jest
większa od średniej µX, to i wartość Y jest większa od średniej µY. Kowarian-
cja wzrasta również wtedy, gdy wartościom zmiennej X mniejszym od śred-
niej µX odpowiadają wartości zmiennej Y mniejsze od wartości µY. Mamy
wtedy w liczniku iloczyn dwóch liczb ujemnych, co daje wartość dodatnią,
czyli zwiększa kowariancję.
Jeżeli związek między zmiennymi jest wprost proporcjonalny, to kowarian-
cja jest dodatnia, a jeżeli jest odwrotnie proporcjonalny, to kowariancja jest
ujemna. Nic w tym dziwnego, ponieważ między kowariancją a korelacją
występuje prosta zależność: kowariancja to nic innego, jak iloczyn korelacji
i odchyleń standardowych dla zmiennych X i Y:
σ XY = rXY σ X σY
No to, konsekwentnie, korelacja jest równa kowariancji podzielonej przez
iloczyn odchyleń standardowych:
σ XY
rXY =
σ X σY
Kowariancja i korelacja mają zawsze taki sam znak, ponieważ odchylenie
standardowe zawsze jest wartością dodatnią.

KORELACJE RZECZYWISTE I POZORNE A ZWIĄZKI PRZYCZYNOWO-SKUTKOWE

Rozdział na temat korelacji rozpoczęliśmy od przykładu pozornej korelacji


między zarobkami prezbiteriańskich pastorów w stanie Massachusetts a ceną
rumu w Hawanie. Terminem „pozorna korelacja” posługiwał się już sam
* Pearson, K. (1897). Mathemat- Karl Pearson w roku 1897*, najogólniej rzecz biorąc, na oznaczenie rzeczy-
ical contributions to the theory wiście stwierdzonego związku między dwoma zmiennymi, ale związku, któ-
of evolution: On a form of spu-
rious correlation which may rego nijak nie da się sensownie wyjaśnić. Rzecz w tym, że analiza korela-
arise when indices are used in cyjna, podobnie jak każda inna analiza statystyczna w naukach indukcyj-
the measurement of organs. Pro-
ceedings of the Royal Society of
nych, powinna być wynikiem rzetelnych studiów teoretycznych, uzasadnia-
London, 60, 489-498. jących spodziewane zależności między zmiennymi.
Nie może bowiem być tak, że analizę korelacyjną stosujemy tylko dlatego, iż
w głowie mamy pustkę i postanowiliśmy wypełnić ją czymś sensownym.
ANALIZA KORELACJI I REGRESJI 505

Niestety, praktyka pod tytułem: „Policzmy korelacje wszystkich zmiennych


zależnych ze wszystkimi, a potem zobaczymy, co jeszcze możemy zrobić z
tą masą danych, żeby wyglądało naukowo”, jest dość powszechnie stosowa-
na w wielu środowiskach badawczych. Między innymi z tego właśnie powo-
du statystycy jednym głosem przestrzegają swoich studentów przed trakto-
waniem korelacji jako miar związków przyczynowo-skutkowych.
Zauważ jednak, że jeśli badacz przewiduje, iż np. czas snu zależy od tego,
w jakim stopniu zwierzę jest narażone na niebezpieczeństwo, to otrzymana
ujemna wartość współczynnika korelacji r = –0,59 (w cytowanych bada-
Karl Pearson
niach Allisona i Cicchettiego) świadczy nie tylko o tym, że związek między
(1857-1936) tymi zmiennymi jest odwrotnie proporcjonalny, lecz także o tym, że czas snu
rzeczywiście zależy od poziomu narażenia na niebezpieczeństwo. Interpreta-
cja przyczynowo-skutkowa jest w takiej sytuacji jak najbardziej teoretycznie
uzasadniona. Zwierzęta żyjące w zagrażającym im środowisku śpią krócej.
Oczywiście, kierunek tej interpretacji nie zależy w tym przypadku od wyko-
rzystanej metody obliczeniowej, lecz wynika z przewidywań teoretycznych.
Podobnie gdybyś się dowiedział, że istnieje pozytywna korelacja między
liczbą ciężarówek na drodze a liczbą wypadków, wówczas zapewne byś się
spodziewał, że to ciężarówki są przyczyną wypadków, a nie wypadki przy-
czyną pojawiania się na drodze większej liczby ciężarówek.
* Haig, B. D. (2003). What is Brian Haig* zaproponował, aby związki korelacyjne podzielić na przypad-
a spurious correlation? Under- kowe i rzeczywiste. Wśród korelacji przypadkowych należy odróżnić kore-
standing Statistics, 2, 125-132.
lacje bezsensowne od pozornych.
Podręczniki do statystyki pełne są opisów bezsensownych korelacji. Przy-
kład z pensjami pastorów z Massachusetts i ceną rumu w Hawanie dobrze
ilustruje bezsensowną korelację, w odniesieniu do której nikt raczej by się
nie dopatrywał związków przyczynowo-skutkowych między zmiennymi.
Przykładem przypadkowej korelacji pozornej mógłby być związek pomiędzy
nastrojem i porą dnia. Byłby on pozorny wówczas, gdyby przypadkiem
w badaniu wzięły udział tylko osoby urodzone np. jesienią i zimą. Rzeczy-
wiście, najprawdopodobniej okazałoby się, że ich nastrój obniża się w miarę
upływu dnia. Nieuwzględnienie w doborze próbki czasu urodzenia osób
badanych prowadziłoby do odkrycia pozornego związku, który nie byłby
prawdziwy w odniesieniu do wszystkich ludzi.
Bardzo często takie pozorne, choć przypadkowe korelacje uzyskuje się
w wyniku analiz dużych prób danych. Jak pamiętasz, istotność korelacji we-
ryfikuje się za pomocą testu t Studenta, a wynik tego testu w znacznym
stopniu zależy od wielkości próby. Oznacza to, że dobranie bardzo dużej
próbki niejako gwarantuje, że korelacja będzie statystycznie istotna. Najczę-
ściej jednak jest to korelacja pozorna.
506 WNIOSKOWANIE STATYSTYCZNE

Oprócz korelacji przypadkowych, Haig wyróżnia także korelacje rzeczywi-


ste, które opisują faktycznie istniejące związki przyczynowo-skutkowe mię-
dzy badanymi zmiennymi. Zdarza się jednak, że i te związki miewają po-
dwójne dno. Mamy tu na myśli przypadki, w których korelacja między
dwiema zmiennymi jest wysoka, choć tak naprawdę obie te zmienne są sko-
relowane z jakąś trzecią zmienną. Na przykład korelacja między rozmiarem
butów dzieci szkolnych i klasą, do której dziecko chodzi, najprawdopodob-
niej jest bardzo wysoka. Obie jednak zmienne korelują ze sobą tylko dlatego,
że łączy je zmienna „wiek”. Dzieci noszą większe buty nie dlatego, że cho-
dzą do starszych klas, ale dlatego, że są po prostu starsze, starsze zaś dzieci
chodzą do starszych klas – i kółko się zamyka.

CZY W KRAJACH, W KTÓRYCH JEST WIĘCEJ BOCIANÓW, RODZI SIĘ WIĘCEJ DZIECI?

Sprawa związku między liczbą bocianów i liczbą dzieci wcale nie jest taka
oczywista, jak mogłoby się niejednemu sceptykowi wydawać.
Robert Matthews stwierdził, że korelacja między liczbą dzieci a liczbą bo-
* Por. Matthews, R. (2000).
cianów w krajach europejskich wynosi r = 0,62. Po podniesieniu jej do kwa-
Storks deliver babies dratu, wartość współczynnika determinacji wynosi r2 = 0,384, co oznacza, że
(p = 0,008). Teaching Statistics, 38,4% wariancji dla zmiennej „liczba dzieci w krajach Europy” jest związa-
22, 36-38.
ne z tym, ile bocianów jest w danym kraju (zob. tab. 8.10)*. I co Ty na to?

Tabela 8.10. Dane wykorzy- Liczba urodzeń


Powierzchnia Bociany
stane do obliczenia przez Kraj Ludność (mln) (w tysiącach
(tys. km kw.) (liczba par)
Roberta Matthewsa korelacji w ciągu roku)
między liczbą bocianów
Albania 28,75 100 3,2 83
a liczbą dzieci w krajach
Europy Austria 83,86 300 7,6 87
Belgia 30,52 1 9,9 118
Bułgaria 111,00 5000 9,0 117
Dania 43,10 9 5,1 59
Francja 544,00 140 56 774
Niemcy 357,00 3300 78 901
Grecja 132,00 2500 10 106
Holandia 41,90 4 15 188
Węgry 93,00 5000 11 124
Włochy 301,28 5 57 551
Polska 312,68 30000 38 610
Portugalia 92,39 1500 10 120
Rumunia 237,50 5000 23 367
Hiszpania 504,75 8000 39 439
Szwajcaria 41,29 150 6,7 82
Turcja 779,45 25000 56 1576
ANALIZA KORELACJI I REGRESJI 507

Dane w tabeli 8.10 pochodzą z roku 1990 i chociaż w Polsce nie rodziło się
wtedy najwięcej dzieci w porównaniu z innymi krajami europejskimi, to
* Zgodnie z wynikami spisu bo- jednak bez wątpienia najwięcej bocianów przylatywało do nas!*
cianów, podanymi na stronie
www.bociany.pl, w Polsce w ro- Aby obliczyć korelację między liczbą bocianów w poszczególnych krajach
ku 2005 mieszka około 50 000 a liczbą dzieci, które rodzą się w ciągu roku, należy podstawić odpowiednie
par bocianów.
pary pomiarów do wzoru na współczynnik korelacji r Pearsona.

RAZ JESZCZE O MACIERZY KORELACJI

Dzięki zastosowaniu komputera łatwo możemy obliczyć nie tylko korelację


między liczbą bocianów i liczbą rodzących się dzieci, ale także korelację dla
każdej możliwej pary zmiennych z tabeli 8.10 (zob. tab. 8.11).

Tabela 8.11. Macierz korela- Liczba


Zmienne Powierzchnia Liczba bocianów Liczba urodzeń
cji dla danych z tabeli 8.10 mieszkańców

Powierzchnia 1 0,579 0,812 0,923

Liczba bocianów 0,579 1 0,354 0,620

Liczba
0,812 0,354 1 0,851
mieszkańców

Liczba urodzeń 0,923 0,620 0,851 1

W tabeli 8.11 znajduje się 16 współczynników korelacji dla wszystkich moż-


liwych par czterech zmiennych, choć tylko 6 współczynników, które znajdu-
ją się powyżej „jedynkowej” przekątnej, nadaje się do interpretacji.
Ze wszystkich korelacji obliczonych dla zmiennej „liczba bocianów”, naj-
wyższa jest korelacja ze zmienną „liczba urodzeń”. Zauważ, że liczba bocia-
nów jest także pozytywnie skorelowana z powierzchnią kraju, a także z licz-
bą mieszkańców.
Najwyższa wartość współczynnika korelacji w tabeli 8.11 wynosi r = 0,923
i dotyczy związku między zmiennymi: „Liczba urodzeń” i „Powierzchnia”.
Również bardzo wysokie są korelacje między liczbą urodzeń a liczbą miesz-
kańców (r = 0,851) oraz między liczbą mieszkańców a powierzchnią
(r = 0,812). Okazuje się więc, że zarówno liczba bocianów, jak i liczba uro-
dzeń w krajach Europy z tabeli 8.10 są pozytywnie skorelowane z dwoma
innymi zmiennymi – powierzchnią kraju i liczbą ludności. Związek między
liczbą rodzących się dzieci a liczbą mieszkańców wydaje się najbardziej
oczywisty. Z reguły jest też tak, że w krajach o większej powierzchni miesz-
ka więcej ludzi – a zatem związek między trzema zmiennymi: liczbą uro-
dzeń, powierzchnią i liczbą ludności nie budzi wątpliwości.
508 WNIOSKOWANIE STATYSTYCZNE

Jak zatem wyjaśnić korelację między liczbą bocianów i liczbą urodzeń?


Niewykluczone, że chodzi tu o następujący ciąg zależności: (1) liczba bocia-
nów koreluje z powierzchnią kraju (r = 0,579), (2) powierzchnia jest skore-
lowana z liczbą ludzi mieszkających w tym kraju (r = 0,812), (3) liczba
mieszkańców zaś ściśle się wiąże z liczbą urodzeń (r = 0,851).
Być może, nasze wywody z poprzedniego akapitu nie do końca Cię przeko-
nały. Nie to jednak było naszym celem. Chodziło nam raczej o wykazanie,
że korelacja między liczbą dzieci rodzących się w danym kraju a liczebno-
ścią populacji bocianów w tym kraju jest (lub może być) pozorna, ponieważ
obie te zmienne są skorelowane z innymi zmiennymi – powierzchnią kraju
i liczbą ludności. Przyjrzyjmy się tym zależnościom z innego jeszcze punktu
widzenia.

KORELACJE CZĄSTKOWE I SEMI-CZĄSTKOWE

Wykorzystując dane opublikowane przez Roberta Matthewsa, policzyliśmy


korelacje między wszystkimi możliwymi parami utworzonymi z czterech
zmiennych: „powierzchnia”, „liczba bocianów”, „liczba mieszkańców”
i „liczba urodzeń”. Jak się okazało, wszystkie te zmienne są ze sobą związa-
ne. Mamy jednak wątpliwości co do tego, skąd się biorą te powiązania. Nasz
sceptycyzm dotyczy przede wszystkim korelacji między liczbą urodzeń
a liczbą bocianów. Podejrzewamy, że obie te zmienne są związane z po-
wierzchnią kraju. Do większego kraju przyleci więcej bocianów niż do
mniejszego i na większej powierzchni kraju rodzi się więcej dzieci niż na
mniejszej. Aby ocenić, jaki rzeczywiście jest związek między liczbą dzieci
a liczbą bocianów w Europie, wyeliminujmy związek między tymi dwoma
zmiennymi a trzecią zmienną, czyli powierzchnią kraju. Można to zrobić,
obliczając korelację cząstkową. Wzór ogólny jest następujący:
rXY − rXZ rYZ
rXY .Z =
(1 − rXZ2 )(1 − rYZ2 )
Nie obawiaj się, nie będziemy Cię męczyć wyprowadzeniem tego wzoru
z bardziej podstawowych. Zwróć jednak uwagę na to, co dzieje się w liczni-
ku. Znajdziesz tam korelację między zmiennymi X i Y, pomniejszoną o ilo-
czyn korelacji między zmiennymi X i Z oraz Y i Z. W ten sposób obliczamy
korelację między zmiennymi X i Y po usunięciu wpływu trzeciej zmiennej
Z na zmienną X i na zmienną Y. Podstawmy więc następujące wartości:
rXY – korelacja między liczbą bocianów a liczbą urodzeń: 0,62
rXZ – korelacja między liczbą bocianów a powierzchnią kraju: 0,579
rYZ – korelacja między liczbą urodzeń a powierzchnią kraju: 0,923
ANALIZA KORELACJI I REGRESJI 509

rXY − rXZ rYZ 0,62 − 0,579 × 0,923


rXY .Z = = = 0,28
(1 − r )(1 − r )
2
XZ
2
YZ (1 − 0,579 2 )(1 − 0,9232 )
Teraz się okazuje, że związek między liczbą rodzących się dzieci a liczbą
bocianów nie jest już taki oczywisty. Wystarczyło tylko wyłączyć ich
związki z powierzchnią kraju. Jeżeli wyrazimy wielkość współczynnika ko-
relacji za pomocą współczynnika determinacji, to się okaże, że tylko w 7,8%
wariancja zmiennej „liczba dzieci” związana jest z wariancją zmiennej
„liczba bocianów”. A zatem coraz mocniej stoimy na krawędzi epokowego
odkrycia, zadającego kłam tezie, jakoby bociany przynosiły dzieci. I nie jest
to jeszcze nasze ostatnie słowo. Zanim zadamy ostateczny cios temu przeko-
naniu, musimy – dla porządku – napisać, czym różni się korelacja cząstkowa
od korelacji semi-cząstkowej.
Współczynnik korelacji semi-cząstkowej oblicza się zgodnie z następują-
cym wzorem:
rXY − rXZ rYZ
rX (Y .Z ) =
(1 − rYZ2 )

Jak widzisz, różnica między tymi dwoma rodzajami korelacji dotyczy tylko
tego, co znajduje się w mianowniku. Korelację semi-cząstkową między
zmiennymi X i Y należy traktować jako korelację między tymi zmiennymi,
pomniejszoną o siłę związku zmiennej Y (lub X) z trzecią zmienną Z.
Gdy obliczasz współczynnik zarówno korelacji cząstkowej, jak i semi-
cząstkowej między zmiennymi X i Y, odrzucasz wpływ trzeciej zmiennej Z.
Różnica między tymi współczynnikami polega na tym, że gdy obliczasz ko-
relację cząstkową, wówczas odrzucasz związek zmiennej Z ze zmienną
Y oraz związek zmiennej Z ze zmienną X. Wtedy zaś, gdy obliczasz korela-
cję semi-cząstkową, odrzucasz tylko jeden związek zmiennej Y (lub X) ze
zmienną Z.
Porównajmy wielkość obu tych korelacji dla danych z naszego przykładu
z bocianami. Wartość współczynnika korelacji semi-cząstkowej, czyli
współczynnika korelacji między zmienną X („liczba bocianów”) a zmienną
Y („liczba urodzeń”), pomniejszonego o związek zmiennej Z („powierzchnia
kraju”) ze zmienną Y („liczba urodzeń”), obliczymy następująco:
rXY − rXZ rYZ 0,62 − 0,579 × 0,923
rX (Y .Z ) = = = 0,22
(1 − r ) 2
YZ (1 − 0,9232 )
Współczynnik korelacji semi-cząstkowej jest zawsze mniejszy od współ-
czynnika korelacji cząstkowej, choć często obie wartości są do siebie po-
dobne.
510 WNIOSKOWANIE STATYSTYCZNE

Tak czy inaczej, teraz tylko w niespełna 5% wariancji zmiennej „liczba


dzieci” związana jest z wariancją zmiennej „liczba bocianów” (0,222 =
= 0,0484 × 100% = 4,84%). Jeżeli jeszcze wierzysz w te bajki o bocianach,
które przynoszą dzieci, to znaczy, że chyba czegoś nie rozumiesz.

KRÓTKIE PODSUMOWANIE

Kiedy obliczasz „zwykły” współczynnik korelacji r Pearsona między


zmiennymi X i Y, badasz, w jakim stopniu wariancja jednej zmiennej (np.
liczba bocianów) jest związana z wariancją drugiej zmiennej (np. liczbą uro-
dzeń), i – co najważniejsze – nie zakładasz, że te zmienne mogą być związa-
ne z jakąś trzecią zmienną.
Gdy obliczasz korelację cząstkową, także interesuje Cię to, w jakim stopniu
wariancja jednej zmiennej jest związana z wariancją drugiej. Przeczuwając
jednak, że istnieje jeszcze jakaś zmienna, która z tamtymi jest skorelowana,
odrzucasz wariancję obu tych zmiennych z tą trzecią. W tym sensie korela-
cja cząstkowa jest więc miarą współzmienności zmiennych X i Y „oczysz-
czoną” z wpływu zmiennej Z na każdą z tych zmiennych.
Oczywiście obliczanie takiej korelacji ma sens tylko wtedy, gdy możemy zi-
dentyfikować trzecie źródło zmienności, co do którego mamy uzasadnione
przypuszczenie, że może ono istotnie wpływać na obie badane zmienne. Ina-
czej mówiąc, korelację cząstkową można obliczać tylko wtedy, gdy dyspo-
nujemy pomiarami wartości trzech zmiennych zależnych dla tych samych
obiektów.
Obliczając wreszcie korelację semi-cząstkową, „oczyszczamy” korelację
między dwoma zmiennymi X i Y z wpływu zmiennej Z na jedną ze zmien-
nych: X lub Y. Najczęściej bierzemy wówczas pod uwagę tę korelacje mię-
dzy zmiennymi X i Z lub Y i Z, która jest większa.

LICZBA BOCIANÓW I LICZBA DZIECI – ROZWIĄZANIE ZAGADKI

Jeżeli zbiór par wyników potraktujemy jako pewną próbę wylosowaną z ca-
łej populacji możliwych par, to – dokładnie tak samo, jak w przypadku śred-
niej arytmetycznej – możemy oszacować, w jakim stopniu współczynnik ten
odzwierciedla rzeczywistą korelację dwóch cech w całej populacji. Inaczej
mówiąc, możemy sprawdzić, czy otrzymana przez nas wartość korelacji
istotnie różni się od zera. W tym celu – jak już pisaliśmy – stosuje się test
t Studenta dla współczynnika korelacji:
r
t= N −2
1− r 2
ANALIZA KORELACJI I REGRESJI 511

Podstawmy do tego wzoru wartość korelacji r Pearsona między liczbą dzieci


i liczbą bocianów, a otrzymamy następujący wynik:
r 0,62
t= N −2 = 17 − 2 = 3,06
1− r 2
1 − 0,62 2
W tablicy C, w Aneksie, możesz znaleźć wartość krytyczną testu t dla 15
stopni swobody (raczej należy szukać wartości krytycznej dla testu dwu-
stronnego, ponieważ nie zakładaliśmy żadnego kierunku relacji pomiędzy
liczbą dzieci i liczbą bocianów). Okazuje się, że śmiało możemy odrzucić
hipotezę zerową nie tylko na poziomie α = 0,05, ale także na poziomie α =
= 0,01 – wartość krytyczna t dla tego poziomu wynosi bowiem 2,95.
Fakt, że odrzuciliśmy hipotezę zerową, oznacza, że korelacja między liczbą
bocianów i liczbą dzieci, równa 0,62, nie jest przypadkowa. Czyżby bociany
i dzieci miały jednak ze sobą coś wspólnego? Nie damy się łatwo zwieść.
Przecież jest to korelacja pozorna. Dobrze wiemy, że obie badane zmienne
są skorelowane z powierzchnią kraju, a współczynnik korelacji cząstkowej
wynosi 0,28, a nie 0,62. Sprawdźmy więc, czy tę wartość można uznać za
istotną. Ponieważ jednak jest to korelacja cząstkowa, do wzoru na test t na-
leży więc wprowadzić drobną poprawkę:
r 0,28
t= N −3 = 17 − 3 = 0,07
1− r 2
1 − 0,28 2
Prawdopodobieństwo otrzymania wartości t = 0,07 w rozkładzie o 14 stop-
niach swobody wynosi p = 0,276, co jest oczywiście wynikiem dużo wyż-
szym od poziomu α = 0,05. A zatem wszyscy ci, którzy utrzymują, że to bo-
ciany przynoszą dzieci, niestety, nie mają racji.

NIEKOŃCZĄCA SIĘ HISTORIA O KORELACJI I PRZYCZYNOWOŚCI


W BADANIACH PSYCHOLOGICZNYCH

Umysł człowieka jest tak skonstruowany, że ma naturalną tendencję do łą-


czenia współwystępujących ze sobą zjawisk w pary: „przyczyna–skutek”.
Robi to nawet wtedy, gdy faktycznie takiego związku nie ma.
Jednym z pierwszych psychologów, który prowadził eksperymenty potwier-
dzające tę tezę, był Albert Michotte, profesor Uniwersytetu w Louvain
* Michotte, A. (1946). The Per- w Belgii*. Osoby biorące udział w jego eksperymentach, widząc połączone
ception of Causality. New York: ze sobą prostokąty, które poruszały się w jakąś stronę, najczęściej twierdziły,
Basic Books. Por. Gigerenzer,
G., Murray, D. J. (1987). Cogni- że jeden z nich „popycha” drugi, „ciągnie” go lub też przed nim „ucieka”.
tion as intuitive statistics.
Hillsdale: Erlbaum. Osobą, o której nie można nie wspomnieć w kontekście badań nad myśle-
niem przyczynowym, jest Harold Kelly. Twierdził on, że doszukując się
512 WNIOSKOWANIE STATYSTYCZNE

przyczyn różnych zjawisk, człowiek zupełnie spontanicznie posługuje się...


analizą wariancji. Oczywiście Kelly’emu nie chodziło o to, że korzystając
z analizy wariancji, przeprowadzamy w głowie skomplikowane obliczenia
matematyczne, podobne do tych, które prezentowaliśmy w rozdziale szó-
stym. Jego zdaniem, człowiek postępuje jak „naiwny psycholog”: sprawdza,
jakie sytuacje towarzyszą danemu zachowaniu (Kelly nazywał to spójnością
zachowania), w jakich sytuacjach pojawia się dane zachowanie oraz jak czę-
sto w ogóle występuje*.
Zgodnie z rozumowaniem Kelly’ego, ktoś może dojść do wniosku, że przy-
czyną tego, iż ludzie chodzą do pracy, są np. jeżdżące po ulicach miasta au-
Albert Michotte tobusy. Po pierwsze, wiele osób przed przyjściem do pracy znajduje się
(1881-1965) w autobusie miejskim (spójność). Po drugie, wiele osób jeździ autobusem
* Lewicka, M., Wojciszke, B. tylko do pracy i z powrotem (ta sama sytuacja) i wreszcie po trzecie, współ-
(2000) Wiedza jednostki i sądy występowanie pary: praca–autobus dla wielu osób jest stosunkowo częste
o świecie społecznym.
W: J. Strelau (red.), Psycholo- (powszechność).
gia. Podręcznik akademicki
(t. III, Gdańsk: GWP). Na szczęście, będąc „naiwnym psychologiem”, człowiek jest także „naiw-
nym eksperymentatorem”. Nawet gdyby uwierzył, że po zlikwidowaniu ko-
munikacji miejskiej nie trzeba będzie już pracować, szybko zweryfikuje
swój pogląd i dojdzie do – słusznego skądinąd – wniosku, że między pracą
a tym, czy po miastach jeżdżą autobusy, czy też nie jeżdżą, nie ma koniecz-
nego związku przyczynowo-skutkowego.
Jest wiele powodów, które przesądzają o tym, jakie zjawiska łączymy w pa-
ry i dostrzegamy między nimi związki korelacyjne. Jedną z przyczyn jest
podobieństwo między tymi zjawiskami. Jeżeli poznałeś kilku naukowców
i stwierdziłeś, że wszyscy są roztargnieni, to możesz dojść do wniosku, że
roztargnienie i bycie naukowcem to cechy, które chodzą ze sobą w parze.
Nie zawsze jednak o dostrzeganiu korelacji decyduje podobieństwo. Edward
** Smith, E. E., Shafir, E., Smith, Eldar Shafir i Daniel Osherson** poprosili uczestników eksperymen-
Osherson, D. (1993). Similarity, tu o to, by ocenili prawdopodobieństwo tego, że hipopotamy mają skórę,
plausibility, and judgments of
probability. Cognition, 49, która jest wodoodporna w większym stopniu niż powszechnie stosowane
67-96. materiały syntetyczne. Posługując się skalą od 0 (to jest niemożliwe) do
1 (na pewno tak jest), badani średnio ocenili stopień prawdopodobieństwa na
0,79. Wartość 0,79 można zinterpretować jako subiektywny wskaźnik siły
związku między skórą hipopotama a nieprzepuszczalnością wody. Najbar-
dziej interesujące w tym eksperymencie jest jednak to, że niewielka modyfi-
kacja instrukcji podanej osobom badanym istotnie wpłynęła na jego wynik.
Gdy zadanie dla osób badanych sformułowano w następujący sposób: „Wie-
dząc, że domowe koty mają skórę, która w znacznie mniejszym stopniu
przepuszcza wodę niż większość znanych włókien syntetycznych, oceń
prawdopodobieństwo, że taką skórę mają także hipopotamy”, średnia ocena
prawdopodobieństwa wyniosła 0,93. Okazuje się więc, że ocena skóry hipo-
ANALIZA KORELACJI I REGRESJI 513

potama jako wodoodpornej jest tym bardziej prawdopodobna, im bardziej


różnorodne są informacje, na podstawie których ten wniosek wyciągamy.
W tym wypadku zmiana oceny wodoodporności skóry hipopotama wynikała
z zasugerowanego przez badaczy punktu odniesienia dla tej oceny.

ILUZJA KONTROLI

Wielu ludzi ma silną potrzebę wpływania na otaczający ich świat. Okazuje


się jednak, że często ulegają złudzeniu: myślą, że wpływają na jakieś zjawi-
sko, podczas gdy tak naprawdę dzieje się ono niezależnie od ich wysiłku.
Być może, ty także znasz kilka osób grających w LOTTO, które stosują
przemyślne strategie skreślania liczb, np. wybierają daty urodzin swoich
najbliższych lub wybierają karteczki z numerkami z kapelusza ciotki, której
się w życiu powiodło. Jedną z ciekawszych strategii jest skreślanie zawsze
tego samego „specjalnego” zestawu liczb, z głębokim przekonaniem, że sko-
ro dotąd nie został on wylosowany, to jego szanse rosną z godziny na godzi-
nę. Wszystko to dzieje się dlatego, że ludzie mają tak głęboką potrzebę kon-
troli nad różnymi zjawiskami (a w przypadku LOTTO również całkiem sporą
potrzebę bogactwa), że zupełnie ignorują fakt, iż w istocie są one całkowicie
losowe. Być może, nie wszyscy stosują magiczne zabiegi zupełnie poważ-
nie, ale przekonanie, że na pewno nie zaszkodzą, a może nawet pomogą, to-
warzyszy im jako wyraz naiwnej wiary w jakąś szczególną moc, której ist-
nienie wyraźnie w sobie przeczuwają.
Psycholog może wytłumaczyć takie zachowania, wskazując na tendencję do
wywierania osobistego wpływu na zjawiska w otaczającym nas świecie.
Okazuje się, że nawet jeśli wydarzenie jest całkowicie losowe, to mamy
* Lewicka, M. (1993) Aktor czy
obserwator. Psychologiczne me-
większe poczucie wpływu na nie wtedy, gdy w jakiś sposób zwiążemy je
chanizmy odchyleń od racjonal- z naszym zachowaniem. Ellen Langer przeprowadziła eksperyment, w któ-
ności w myśleniu potocznym. rym osoby badane oceniały swój wpływ na wynik rzutu kostką. Uczestnicy
Warszawa–Olsztyn: Polskie
Towarzystwo Psychologiczne – eksperymentu w większym stopniu byli przekonani o tym, że taki wpływ
Pracownia Wydawnicza. istnieje, wtedy, gdy rzucali kostką sami, niż wtedy, gdy rzucał ktoś inny*.

8.2. KORELACJE DLA DANYCH PORZĄDKOWYCH

NIEPARAMETRYCZNI KOLEDZY r PEARSONA

Współczynnik korelacji r Pearsona możesz stosować dla danych, zgroma-


dzonych za pomocą skali przedziałowej (interwałowej) lub stosunkowej (ilo-
razowej). Możesz go także używać do obliczania korelacji dla danych po-
514 WNIOSKOWANIE STATYSTYCZNE

* Por. rozdział 6.4. rządkowych, ale wtedy możesz wystawić się na krytykę, ponieważ nie wszy-
scy badacze są przekonani, że takie zabiegi są dopuszczalne*.
Jeśli jednak chcesz interpretować współczynnik korelacji r Pearsona jako es-
tymator parametru w populacji, to, po pierwsze, rozkład obu zmiennych mu-
si być normalny, a po drugie, wariancje nie mogą się istotnie od siebie róż-
nić. Zgodnie z cytowanymi wcześniej wynikami badań prowadzonych za
pomocą metod Monte Carlo, można trochę naciągnąć zwłaszcza to drugie
założenie, gdy badana próba liczy więcej niż 50 elementów.
Ze zignorowaniem pierwszego jest pewien kłopot, jako że już samo stwier-
dzenie normalności lub odstępstwa od normalności rozkładu wymaga, aby
dane były wyrażone za pomocą skali o stałej jednostce, czyli przedziałowej
lub stosunkowej.
W jaki więc sposób można oszacować korelację między dwoma zmiennymi
wtedy, gdy:
• do ich pomiaru w badaniach posłużyliśmy się skalami porządkowymi,
• mamy uzasadnione wątpliwości co do tego, czy otrzymane wartości
można potraktować jako pomiary na skali interwałowej, lub
• liczebność zbiorów danych jest mała, np. obejmuje tylko 10 pomiarów?
Ponieważ w praktyce badawczej dosyć często mamy do czynienia z takimi
danymi, statystycy opracowali odpowiednie metody służące do szacowania
siły związku między zmiennymi tego typu. Jednym z najczęściej stosowa-
nych współczynników w takiej sytuacji jest współczynnik korelacji rango-
wej R Spearmana. Współczynnik znany jest także pod nazwą ρ (czytaj: „ro”)
Spearmana, ale w naszym przewodniku grecką literę ρ zarezerwowaliśmy na
oznaczenie korelacji dla populacji.
Oprócz współczynnika R, opracowanego przez Charlesa Edwarda Spearma-
na, drugim statystykiem, który zaproponował alternatywne metody badania
korelacji dla danych porządkowych, był Maurice George Kendall. Opowie-
my Ci więc także o współczynniku τ (czytaj: „tau”) Kendalla i jego specjal-
nej wersji, wykorzystywanej do oceny zgodności ocen, czyli o współczynni-
ku zgodności W, też Kendalla.

CZY MORŚWINY SPONTANICZNIE TAŃCZĄ NA OGONIE?

Zanim się zajmiemy rangowymi (porządkowymi) współczynnikami korela-


cji, przypomnijmy, że rangi są to po prostu kolejne liczby całkowite przypi-
sywane wartościom zmiennej (por. rozdział 2). Najprostszym sposobem po-
miaru jakiejś cechy za pomocą skali rangowej jest poproszenie osób bada-
nych, aby przydzielali różnym zachowaniom, obiektom lub zjawiskom licz-
ANALIZA KORELACJI I REGRESJI 515

by od 1 do N, w zależności od tego, w jakim stopniu dostrzegą w nich tę ce-


chę. Rangę 1 przypisuje się obiektowi, który ma daną cechę w niewielkim
stopniu, a rangę N – obiektowi mającemu tę cechę w największym stopniu
(albo odwrotnie, w zależności od umowy).
* Pryor, K. W., Haag, R., Karen Pryor, Richard Haag i Joseph O’Reilly* analizowali mechanizm ucze-
O’Reilly, J. (1969). The creative nia się podejmowania spontanicznej aktywności przez morświna imieniem
porpoise: Training for novel be-
havior. Journal of the Experi- Hou. Zanim jednak badacze mogli ocenić, czy morświn, oceniany przez tre-
mental Analysis of Behavior, 12, nera jako „osobnik nieśmiały i bez inicjatywy”, uczy się nowych zachowań,
655-661. A tak przy okazji, czy
wiesz, że około tysiąca morświ-
musieli mieć pewność, że zachowania, które będą obserwować, rzeczywiście
nów zamieszkuje także Bałtyk? są nowe. W tym celu grupie 12 trenerów zwierząt morskich pokazali rysunki
Mają one około 2 m długości i przedstawiające 16 różnych zachowań morświnów (takich jak np. obrót nad
są trochę mniejsze od delfinów
(więcej na ten temat na stronie powierzchnią wody) i poprosili o uszeregowanie ich w zależności od tego,
internetowej www.univ.gda.pl. jak często są one spontanicznie podejmowane przez morświny. Porządko-
Należy ona do Stacji Morskiej wanie obrazków przez trenerów w tym eksperymencie to właśnie przykład
Instytutu Oceanografii Uniwer-
sytetu Gdańskiego, znajdującej pomiaru na skali rangowej.
się na Helu).
Po zebraniu danych od wszystkich trenerów, dla każdego zachowania przed-
stawionego na rysunku badacze policzyli średnią arytmetyczną z przypisa-
nych mu rang. Następnie ustawili obrazki w kolejności ze względu na wiel-
kość średnich, od najmniejszej do największej, i w ten sposób dowiedzieli
się, które zachowania morświnów mogą uznać za bardziej, a które za mniej
spontaniczne. Choć nie wiemy, jak naprawdę zostały uporządkowane za-
chowania morświnów, to jednak możemy się domyślić, że ich zestawienie
mogło wyglądać mniej więcej tak, jak w tabeli 8.12.

Tabela 8.12. Spontaniczne Średnia z liczby rang przypi-


Zachowanie morświna Ranga końcowa
zachowania morświnów sanych przez 12 trenerów
Spacer na ogonie 4,7 5
Salto do tyłu 2,3 3
Ślizg na powierzchni 1,0 1
… … …

Po uporządkowaniu zachowań morświnów ze względu na kryterium sponta-


niczności, badacze postanowili jeszcze sprawdzić, czy istnieje związek mię-
dzy spontanicznością lub też nowością zachowania a stopniem jego skom-
plikowania. Poprosili więc grupę studentów, by ocenili przedstawione na ob-
razkach zachowania ze względu na ich trudność i złożoność. W ten sposób
badacze weszli w posiadanie dwóch zbiorów danych rangowych dotyczą-
cych tego samego zbioru obiektów. Jeden zbiór charakteryzował zachowania
morświnów ze względu na ich spontaniczność, drugi – ze względu na ich
złożoność. Teraz wystarczyło już tylko policzyć korelację między tymi
zmiennymi za pomocą jednego ze współczynników korelacji rangowej.
516 WNIOSKOWANIE STATYSTYCZNE

Przy okazji dodajmy, że dwa korelowane ciągi rang mogą się odnosić za-
równo do tego samego zbioru obiektów (czyli tak jak w przypadku zacho-
wań morświnów), jak i do tych samych osób badanych. Może to być np.
dwukrotna ocena trudności zadań testowych, przez tę samą grupę studentów,
przed rozwiązaniem testu i po jego rozwiązaniu.

2
CZY WPADŁBYŚ NA TO, ŻE d JEST MIARĄ INWERSJI?

Każde uporządkowanie, bez względu na to, czy dokonane przez jedną, czy
przez dwie grupy osób badanych, ostatecznie sprowadza się do ustawienia
w odpowiedniej kolejności zbioru liczb całkowitych. Na przykład uporząd-
kowanie 10 porcelanowych filiżanek ze względu na ich pojemność polega na
przypisaniu im liczb od 1 do 10 i ustawieniu w kolejności od najmniejszej do
największej. Jeżeli uporządkujemy jeden zbiór obiektów dwukrotnie, to mo-
żemy porównać kolejność obu uporządkowań.
Pięć zabawek znajdujących się w pokoju dziecinnym ułożyliśmy według
wielkości. Wzięliśmy pod uwagę: traktor, globus, samolot, pudełko z puzz-
lami i balon. Po uporządkowaniu otrzymamy następujący porządek zabawek
i odpowiadających im rang: samolot – 1, traktor – 2, globus – 3, puzzle – 4,
balon – 5. Następnie poprosiliśmy dziecko o uporządkowanie ich ze względu
na atrakcyjność. Teraz kolejność wyglądała inaczej: puzzle – 1, globus – 2,
balon – 3, traktor – 4, samolot – 5 (zob. tab. 8.13).

Tabela 8.13. Porządki Kryteria Samolot Traktor Globus Puzzle Balon


rangowe pięciu zabawek
ze względu na dwa kryteria Wielkość 1 2 3 4 5
Atrakcyjność 5 4 2 1 3

Zawsze, gdy mamy do czynienia z dwoma porządkami tych samych obiek-


tów, jeden z nich można ułożyć rosnąco. W tabeli 8.13 rosnące uporządko-
wanie dotyczy wielkości zabawek. Gdy zestawimy obok siebie oba porządki
zabawek, widzimy, że drugie – ze względu na atrakcyjność – jest inne niż
pierwsze. Mówimy, że wykazuje ono pewien stopień inwersji. Z największą
inwersją mamy do czynienia wtedy, gdy uporządkowania są odwrotne,
a więc np. uporządkowaniu {1, 2, 3, 4, 5} odpowiada {5, 4, 3, 2, 1}.
Istnieje wiele matematycznych miar inwersji. Najczęściej stosowana jest
suma kwadratów różnic między rangami w parach, odpowiadających temu
samemu obiektowi lub tej samej osobie, która dwukrotnie dokonywała oce-
ny. Symbolicznie miarę inwersji zapisalibyśmy następująco:
N

∑d
i =1
2
ANALIZA KORELACJI I REGRESJI 517

d2 podniesiona do kwadratu różnica między rangami w parach,


N całkowita liczba par,

RXi , RYi rangi dla zmiennych X i Y w i-tej parze.

Podstawiając dane na temat zabawek do wzoru, otrzymujemy:

∑d 2
= (1 − 5) 2 +(2 − 4) 2 + (3 − 2) 2 + (4 − 1) 2 + (5 − 3) 2 = 34

Bardzo łatwo wykazać (i właśnie dlatego nie będziemy tego tutaj robić), że
jeśli obydwa uporządkowania są takie same, to wskaźnik inwersji ∑ d 2
wynosi 0. Można także wykazać (choć to nieco trudniejsze), że dla każdej
liczby par istnieje najwyższa wartość ∑ d 2 wtedy, gdy obydwa uporząd-
kowania są względem siebie odwrotne.

2
W JAKI SPOSÓB CHARLES SPEARMAN WYKORZYSTAŁ d DO OBLICZANIA KORELACJI?

Ze względu na swoje własności, miara inwersji ∑d 2


jest wygodną skła-
dową współczynnika korelacji dla danych rangowych. Sama nie może pełnić
funkcji współczynnika korelacji, dlatego że nie spełnia pewnych warunków.
Gdy relacja między zbiorami danych jest idealnie wprost proporcjonalna,
wtedy wartość korelacji musi wynosić 1, gdy zaś jest odwrotnie proporcjo-
nalna, wtedy wartość ta musi wynosić –1. Jeżeli nie ma związku między
zmiennymi, wartość współczynnika korelacji wynosi 0.
Współczynnik korelacji rangowej zaproponowany przez Charlesa Edwar-
Charles Edward Spearman
da Spearmana spełnia te trzy warunki, a oblicza się go za pomocą następują-
(1863-1945) cego wzoru:
N
6∑ d i2
R = 1− i =1

N × ( N 2 − 1)
R współczynnik korelacji rangowej Spearmana,
N miara inwersji, czyli w tym przypadku suma podniesionych do kwadratu różnic między ko-
∑d
i =1
i
2
lejnymi parami rang,

N liczba par rang,


6 wartość stała, czyli 6 to 6.

Gdyby porządek zabawek według wielkości i atrakcyjności był taki sam,


wtedy różnica między każdą parą rang wynosiłaby 0, co znalazłoby wyraz
w wartości współczynnika korelacji R Spearmana, równej 1:
518 WNIOSKOWANIE STATYSTYCZNE

6×0
R = 1− =1
5 × (5 2 − 1)
Taki wynik otrzymasz zawsze, niezależnie od tego, ile jest par rang, ponie-
waż zerowa wartość miary inwersji w liczniku sprawia, że cały iloraz jest
równy 0, a 1 – 0 = 1. A co by się stało z współczynnikiem korelacji rango-
wej Spearmana, gdyby obydwa uporządkowania były odwrotne względem
siebie (zob tab. 8.14)?
Tabela 8.14. Odwrotnie pro- Rangi 2
porcjonalne uporządkowanie d d
dwóch zbiorów rang Zbiór A Zbiór B
1 5 –4 16
2 4 –2 4
3 3 0 0
4 2 2 4
5 1 4 16

∑d 2
= 40

Dla danych przedstawionych w tabeli 8.14 współczynnik inwersji ∑d 2

wynosi 40, a zatem po podstawieniu go do wzoru na współczynnik korelacji


R Spearmana otrzymujemy:
6 × 40 240
R =1− =1− = 1 − 2 = −1
5 × (5 − 1)
2
120
Powinniśmy jeszcze dodać, że dla przypadkowego uporządkowania wartość
* Dowód na to jest jednak nieco R rzeczywiście wynosi 0*. Nie pozostaje nam już nic innego, jak obliczyć
bardziej skomplikowany, więc wartość współczynnika korelacji R Spearmana dla dwóch uporządkowań
pięciu zabawek. Miara inwersji dla tych uporządkowań wynosi ∑ d 2 = 34 ,
zainteresowanych odsyłamy do
podręcznika George’a Fergu-
sona i Yoshio Takane (1997,
Analiza statystyczna w psycho- a współczynnik korelacji:
logii i pedagogice. Warszawa:
PWN). 6 × 34 204
R =1− =1− = 1 − 1,7 = −0,7
5 × (5 − 1)
2
120
Ujemna wartość współczynnika korelacji oznacza, że relacja między wielko-
ścią zabawek a ich atrakcyjnością jest odwrotnie proporcjonalna. Pomimo
jednak wysokiej wartości bezwzględnej współczynnika, nie należy się zbyt-
nio spieszyć z uogólnianiem wniosku o silnym związku między tymi zmien-
nymi, ponieważ:
• po pierwsze, wybraliśmy tylko 5 zabawek,
• po drugie, o uporządkowanie ich ze względu na atrakcyjność poprosili-
śmy tylko jedno dziecko, czyli – krótko mówiąc – mamy za mało da-
nych do wyciągnięcia ogólnych wniosków.
ANALIZA KORELACJI I REGRESJI 519

WSPÓŁCZYNNIK KORELACJI R SPEARMANA I RANGI WIĄZANE

Omawiając własności skali rangowej (zob. rozdział 4), zwróciliśmy uwagę


na przypadek tzw. rang wiązanych. Przypomnijmy, że z rangami wiązanymi
mamy do czynienia wtedy, gdy ze względu na jakąś cechę nie jesteśmy
w stanie rozróżnić dwóch (lub więcej niż dwóch) z porządkowanych obiek-
tów. Drugie z naszych „eksperymentalnych dzieci”, które porządkowało
atrakcyjność zabawek, miało wyraźną trudność ze zdecydowaniem, co jest
bardziej atrakcyjne: traktor czy samolot. Nie wiedząc, któremu przypisać
rangę 4, a któremu rangę 5, krakowskim targiem, obu przypisaliśmy po 4,5.
Obecność rang wiązanych w zbiorze danych nie wpływa na technikę obli-
czania korelacji rangowej Spearmana, ale nieco wypacza jego znaczenie.
Został on bowiem tak zaprojektowany, że porównuje dwa uporządkowania
liczb całkowitych z uporządkowaniem przypadkowym. Podstawienie do
wzoru liczb niecałkowitych (a więc np. 4,5) to podstawianie do niego innych
wartości niż te, dla których został opracowany. W takim przypadku należy
ostrożniej interpretować wartość współczynnika Spearmana lub – jeśli rang
wiązanych jest więcej – zastosować inny współczynnik, o czym będzie jesz-
cze mowa dalej.

ISTOTNOŚĆ WSPÓŁCZYNNIKA R SPEARMANA

Współczynnik korelacji Spearmana jest obliczany dla rang i dlatego, spraw-


dzając jego istotność, nie można się odwołać do rozkładu normalnego lub
rozkładu t. Można jednak, podobnie jak w przypadku wszystkich metod nie-
parametrycznych, odwołać się do praw rachunku prawdopodobieństwa.
Załóżmy, że poprosiliśmy dziecko o uporządkowanie tylko trzech zabawek
(samolotu, globusa i balonu) ze względu na ich atrakcyjność. Jeżeli byłyby
to te same zabawki, o których już pisaliśmy, to ich uporządkowanie według
wielkości byłoby następujące: samolot (1), globus (2), balon (3). Liczby
w nawiasach to kolejne rangi.
Z kombinatoryki wiadomo, że trzy obiekty można uporządkować na 6 spo-
sobów*. Niezależnie od tego, w jaki sposób dziecko ułoży zabawki ze
Maurice George Kendall względu na ich atrakcyjność, może je uporządkować tylko na jeden z sześciu
(1907-1983) możliwych sposobów. Prawdopodobieństwo uzyskania każdego takiego
* Można to obliczyć, odwołując 1
się do pojęcia silni N!, która uporządkowania wynosi , czyli 0,17, a dla każdego z nich można obliczyć
równa się iloczynowi kolejnych 6
rang wziętych pod uwagę
obiektów, czyli od 1 do N. miarę inwersji ∑d 2
oraz współczynnik R Spearmana.
W naszym przykładzie bierzemy
pod uwagę 3 obiekty, więc: Biorąc pod uwagę różne ilości porządkowanych obiektów, Maurice George
3! = 1 × 2 × 3 = 6.
Kendall przeanalizował zależności zachodzące między odpowiadającymi im
520 WNIOSKOWANIE STATYSTYCZNE

rozkładami prawdopodobieństw miar inwersji i współczynników korelacji.


Stwierdził, że im większa jest:
• miara inwersji ∑d 2
,

• bezwzględna wartość współczynnika korelacji Spearmana,


• wielkość próby, czyli liczba uporządkowań,
tym mniejsze jest prawdopodobieństwo uzyskania konkretnego uporządko-
wania przypadkiem.
W tablicach statystycznych najczęściej podaje się różne wartości R, dla któ-
rych prawdopodobieństwo ich uzyskania przypadkiem wynosi 0,05 lub 0,01.
W Aneksie do naszego przewodnika znajdziesz tablicę H, która zawiera
istotne statystycznie współczynniki korelacji Spearmana.
Sprawdźmy, czy korelacja między wielkością i atrakcyjnością zabawek jest
statystycznie istotna. Z tablicy H odczytasz, że dla próby 5-elementowej
najmniejsza statystycznie istotna, na poziomie α = 0,05, korelacja R wynosi
0,9. Bezwzględna wartość z otrzymanego R = –0,7 jest mniejsza niż wartość
graniczna, co oznacza, że prawdopodobieństwo przypadkowego uporządko-
wania zabawek w taki sposób, w jaki zostały one uporządkowane przez
dziecko, jest na pewno większe niż α = 0,05. Na tej podstawie wyciągamy
wniosek, że korelacja między wielkością a atrakcyjnością zabawek, wyno-
sząca R = –0,7, nie jest istotna statystycznie.
Jeżeli próby są bardzo małe (a tak było w eksperymencie z zabawkami), to
żeby współczynnik korelacji R można było uznać za istotny, powinien mieć
co najmniej wartość równą 0,9.
Jeżeli liczebność korelowanych pomiarów jest większa (czyli już od N = 10),
można przybliżyć rozkład współczynników korelacji R Spearmana z próby
za pomocą rozkładu t. Podobnie jak w przypadku współczynnika r Pearsona,
taki rozkład t ma df = N – 2 stopni swobody (N – wielkość próbki) i w do-
kładnie taki sam sposób wnioskuje się o prawdopodobieństwie uzyskania
danej wartości R na podstawie prawdopodobieństwa wyniku testu t. Wzór
służący do oceny istotności współczynnika korelacji R Spearmana za pomo-
cą testu t wygląda następująco:

N −2
t=R
1 − R2
Na początku tego rozdziału opisaliśmy wyniki rangowania 16 zachowań
morświnów, ze względu na ich nowość oraz skomplikowanie. Korelacja
rangowa między tymi dwoma uporządkowaniami wyniosła R = 0,54. Korzy-
ANALIZA KORELACJI I REGRESJI 521

stając z możliwości przekształcenia wartości R na wynik w rozkładzie t, mo-


żesz sprawdzić, czy ta korelacja jest statystycznie istotna:
16 − 2
t = 0,54 = 2,4
1 − 0,542
Dla df = N – 2, czyli przy 14 stopniach swobody, prawdopodobieństwo
przypadkowego uzyskania wyniku t = 2,4 wynosi 0,015. Oznacza to, że uzy-
skanie wartości R = 0,54 dla 16 par uporządkowań także nie jest przypadko-
we. Interpretując ten wynik, badacze musieli stwierdzić, że istnieje wyraźny
związek między nowością a skomplikowaniem zachowania się morświna.
Ponieważ dla N >10 współczynnik korelacji R Spearmana można interpre-
tować podobnie jak współczynnik r Pearsona, warto więc sprawdzić, jaki
procent wariancji jednej zmiennej jest związany z wariancją drugiej zmien-
nej. Skoro R = 0,54, to możemy powiedzieć, że zmienność zachowań mor-
świnów ze względu na ich nowość jest w 29% (0,542 = 0,29) związana ze
zmiennością tych zachowań ze względu na poziom ich skomplikowania.

NAJBARDZIEJ LIBERALNY WSPÓŁCZYNNIK KORELACJI τ KENDALLA I JEGO ISTOTNOŚĆ

Ze względu na sposób interpretacji, współczynnik korelacji rangowej Spear-


mana jest bardzo podobny do współczynnika Pearsona.
Według zupełnie innej zasady oblicza się inny nieparametryczny współczyn-
* Siegel, S. (1956). Nonparame- nik korelacji, znany jako τ Kendalla (symbol τ to litera alfabetu greckiego,
tric statistics for the behavioral
sciences. New York:
którą czyta się: „tau”). Sposób obliczania tego współczynnika pokażemy na
McGraw-Hill. prostym przykładzie, który – w nieco spersonalizowanej wersji – zaczerpnę-
liśmy z podręcznika Sidneya Siegela*.
Przypuśćmy, że dwóch wykładowców ocenia eseje napisane przez trzech
studentów (zob. tab. 8.15).

Tabela 8.15. Oceny z esejów Studenci


Klemens Fryderyk Bartłomiej
wystawione przez dwóch Wykładowcy
wykładowców
Prof. Edmund 3 4 2
Prof. Zenon 3 5 4

Obliczanie współczynnika Kendalla polega na porównywaniu zgodności


ocen u obu wykładowców. Najpierw należy ustawić pary obserwacji w taki
sposób, aby kolejność ocen ze względu na jedną zmienną była rosnąca. Dane
z tabeli 8.15 musimy przestawić np. według porządku ocen wystawionych
przez prof. Edmunda. Ten krok jest więc dokładnie taki sam jak przy obli-
czaniu wartości współczynnika R Spearmana.
522 WNIOSKOWANIE STATYSTYCZNE

Tabela 8.16. Oceny esejów Studenci


Bartłomiej Klemens Fryderyk
ustawione w kolejności ro- Wykładowcy
snącej dla prof. Edmunda
Prof. Edmund 2 3 4
Prof. Zenon 4 3 5

Obliczanie współczynnika Kendalla polega na ustaleniu, ile par pomiarów


zmiennej nieuporządkowanej (czyli w naszym przykładzie ocen prof. Zeno-
na) odzwierciedla porządek rosnący (najpierw mniejsza, a potem większa),
a ile malejący (najpierw większa, a potem mniejsza). Parom, które są upo-
rządkowane rosnąco, przypisujemy wartość „+1”, a parom, które są upo-
rządkowane malejąco, „–1”.
Pierwszą oceną prof. Zenona, w szeregu zamieszczonym w tabeli 8.16, jest
ocena pracy Bartłomieja, czyli 4. Na moment będzie on stanowiła punkt od-
niesienia dla wszystkich pozostałych ocen wystawionych przez prof. Zeno-
na. Ponieważ następna w kolejności jest ocena eseju Klemensa (3), która jest
niższa od 4, więc parze {4, 3} przypisujemy „–1”. Pracę trzeciego studenta,
Fryderyka, prof. Zenon ocenił na 5, która to ocena jest z kolei wyższa od
oceny Bartłomieja, a więc parze {4, 5} przypisujemy „+1”.
Kolejny krok to przeprowadzenie takich samych porównań ocen, przyjmując
jako punkt odniesienia ocenę pracy drugiego w kolejności studenta, czyli
Klemensa. Jego esej prof. Zenon ocenił na 3 i porównując ten wynik z oceną
ostatniego ze studentów, Fryderyka, stwierdzamy, że para {3, 5} odzwier-
ciedla porządek rosnący, więc przypisujemy jej znowu „+1”.
Zauważ, że to już wszystkie możliwe porównania dla trzech pomiarów.
Współczynnik korelacji Kendalla oblicza się według następującego wzoru:
S
τ=
1
N ( N − 1)
2
N liczebność uporządkowanych par,
S miara inwersji obu uporządkowań, równa sumie wartości „+1” i „-1”, jakie otrzymaliśmy
w wyniku przeprowadzonych porównań. W naszym przykładzie S = –1 + 1 + 1 = 1.

Gdy uporządkowanie rang w parach jest całkowicie losowe, wtedy S = 0.


W naszym przykładzie S = 1, co możemy podstawić do wzoru na współ-
czynnik τ i stwierdzimy, że:
S 1 1
τ= = = = 0,33
1 1 3
N ( N − 1) × 3× 2
2 2
ANALIZA KORELACJI I REGRESJI 523

Współczynnik τ Kendalla ma niewielkie ograniczenia. „Nie dba” więc ani


o rozkład, ani nawet o liczbę rang wiązanych. Jedynym ograniczeniem jest
to, żeby dane reprezentowały pomiary przeprowadzone na skali porządko-
wej, choć nie ma żadnych przeszkód, by odzwierciedlały pomiary na skali
przedziałowej lub stosunkowej, ponieważ wszystkie one umożliwiają po-
równywanie wielkości.
Jeżeli przypadkiem się okaże, że w zbiorze danych jest wiele takich samych
pomiarów w odniesieniu do jednej zmiennej, czyli wiele rang wiązanych, to
do obliczenia współczynnika korelacji τ Kendalla należy zastosować pewną
* Zob. Ferguson, G. A., Takane, nieco bardziej skomplikowaną jego wersję*.
Y. (1997). Analiza statystyczna
w psychologii i pedagogice. Gdybyśmy jednak mieli Ci coś doradzić, raczej skłanialibyśmy Cię do zre-
Warszawa: PWN. zygnowania z pomysłów obliczania współczynnika korelacji τ „na piecho-
tę”. Przyznasz, że są one trochę „zakręcone”. Dla trzech par pomiarów mu-
sieliśmy przeprowadzić trzy porównania, dla czterech byłoby ich już siedem,
przy pięciu liczba porównań wzrosłaby o następne cztery itd. Dla dziesięciu
par musiałbyś wykonać 45 porównań. Ponieważ nietrudno o pomyłkę, lepiej
więc skorzystać z pomocy komputera.
Współczynnik korelacji Kendalla, podobnie jak r Pearsona lub R Spearmana,
także można ocenić ze względu na istotność. Jeżeli liczba wartości miary
inwersji S jest większa niż 10 (czyli dla co najmniej 5 par pomiarów), to
można interpretować wartość korelacji τ za pomocą rozkładu normalnego
standaryzowanego z:
S −1
z=
N ( N − 1)(2 N + 5) / 18
Podobnie jak w każdym innym przypadku, jeżeli prawdopodobieństwo uzy-
skania obliczonej wartości z jest mniejsze niż 0,05, to również prawdopodo-
bieństwo przypadkowego uzyskania danej wartości τ jest mniejsze niż 0,05,
czyli możemy przyjąć, że współczynnik korelacji jest istotny statystycznie.

NA CO IDZIEMY DO KINA?

Maurice Kendall jest także autorem bardzo przydatnego współczynnika


zgodności, znanego pod nazwą W. Współczynnik W jest użyteczny wtedy,
gdy interesuje nas współzależność więcej niż dwóch uporządkowań.
Na przykład można go zastosować wtedy, gdy w gronie czwórki przyjaciół
nie możemy się zdecydować, na jaki film wybrać się do kina. Wystarczy,
żeby każdy porangował np. 5 filmów od najbardziej do najmniej atrakcyjne-
go dla siebie (zob. tab. 8.17).
524 WNIOSKOWANIE STATYSTYCZNE

Tabela 8.17. Rangi przypi- Przyjaciele Suma rang


Ada Baśka Czesiek Darek
sane pięciu filmom przez Filmy dla filmu
czterech przyjaciół
Absolwent 1 1 4 3 9
Buntownik z wyboru 3 2 5 4 14
Caravaggio 2 4 1 2 10
Dzień szakala 4 3 2 5 14
E.T. 5 5 3 1 14

Gdyby wszyscy przyjaciele mieli takie same preferencje, wówczas każdemu


filmowi przypisaliby identyczne rangi. Na przykład gdyby Absolwent był
najbardziej atrakcyjny dla wszystkich, wtedy wszyscy daliby mu rangę 1,
a całkowita suma rang wyniosłaby 4.
Łatwo się zorientować, że dla N-sędziów, minimalna suma rang równa się
N i wskazuje na film najbardziej preferowany przez wszystkich. Następny
z kolei film powinien w sumie otrzymać 2N punktów, ponieważ N-sędziów
dałoby mu taką samą rangę 2, następny 3N punktów itd. Oznacza to, że dla
5 filmów, ocenianych przez 4 idealnie zgodnych ze sobą przyjaciół, sumy
rang wyniosłyby: 4, 8, 12, 16 i 20, a suma tych rang byłaby równa 60 (4 +
+ 8 + 12 + 16 + 20 = 60).
Z kolei gdyby przyjaciele w niewielkim stopniu zgadzali się ze sobą, wtedy
każdy film powinien dostać inną rangę od każdego oceniającego, a sumy
rang dla poszczególnych filmów powinny być podobne.

OBLICZANIE I INTERPRETACJA WSPÓŁCZYNNIKA ZGODNOŚCI W KENDALLA

Policzmy jeszcze raz. Czterech przyjaciół rangowało pięć filmów. Każda


osoba miała do dyspozycji pięć rang, od 1 do 5, co oznacza, że w sumie
przyznawała wszystkim filmom 15 punktów (1 + 2 + 3 + 4 + 5 = 15). Dla
czterech osób daje to razem 4 × 15 = 60 punktów przypisanych wszystkim
filmom przez wszystkich sędziów. Gdyby suma rang została losowo podzie-
60
lona na 5 filmów, wtedy każdy film powinien dostać = 12 punktów. By-
5
łaby to tzw. średnia suma rang przypadająca na jeden film.
Obliczanie współczynnika zgodności W Kendalla wymaga policzenia dwóch
tzw. statystyk S (oznaczenie jest takie samo, jak w przypadku współczynnika
τ Kendalla), otrzymanej i maksymalnej. Statystyka S otrzymana jest sumą
kwadratów odchyleń sumy rang przyznanych każdemu obiektów od średniej
sumy rang przypadającej na ten obiekt:
k
S = ∑ ( Ri − R ) 2
i =1
ANALIZA KORELACJI I REGRESJI 525

k liczba rangowanych obiektów,


Ri suma rang przyznanych i-temu obiektowi,

R średnia suma rang przypadająca na jeden obiekt.

Stosując wzór na S do danych dotyczących filmów, stwierdzamy, że:


S = (9 − 12) 2 + (14 − 12) 2 + (10 − 12) 2 + (14 − 12) 2 + (14 − 12) 2 = 25
Statystyka Smax to największa możliwa wartość S dla N sędziów porządkują-
cych k obiektów. Biorąc pod uwagę dotychczasowe obliczenia, można usta-
lić jej wartość w taki sposób:
S max = (4 − 12) 2 + (8 − 12) 2 + (12 − 12) 2 + (16 − 12) 2 + (20 − 12) 2 = 160
lub – jak proponuje Kendall – w taki sposób:
N 2 (k 3 − k ) 4 2 (53 − 5)
S max = = = 160
12 12
Współczynnik zgodności W Kendalla jest stosunkiem uzyskanej wartości
S do Smax i w odniesieniu do filmów wynosi:
S 25
W= = = 0,156
S max 160

ISTOTNOŚĆ WSPÓŁCZYNNIKA ZGODNOŚCI W KENDALLA

Współczynnik zgodności Kendalla pozwala na sprawdzenie, czy osoby oce-


niające jakieś obiekty są zgodne co do ich kolejności. Im wyższa jest war-
tość tego współczynnika, tym większa zgodność między sędziami. Jak zaw-
sze, hipotezę zerową należy sformułować w taki sposób, aby reprezentowała
brak zależności między analizowanymi zmiennymi. W odniesieniu do
współczynnika zgodności W oznacza to, że sędziowie nie są zgodni w swo-
ich ocenach. O istotności współczynnika zgodności W decydujemy na pod-
stawie wyniku testu χ2. Zależność między wynikiem testu χ2 a współczynni-
kiem zgodności W jest następująca:
χ 2 = N (k − 1) × W
N liczba sędziów,
k liczba porządkowanych obiektów.

Ponieważ w naszym przykładzie z uporządkowywaniem atrakcyjności fil-


mów wartość W wyniosła 0,156, a więc χ2 wynosi:
χ 2 = N (k − 1) × W = 4 × (5 − 1) × 0,156 = 2,496
526 WNIOSKOWANIE STATYSTYCZNE

Aby sprawdzić, czy wartość ta jest istotna, trzeba ją porównać z wartością


krytyczną testu χ2 dla k–1 stopni swobody (zob. w Aneksie tablicę F).
Ponieważ przyjaciele oceniali 5 filmów, więc df = 4. Krytyczna wartość te-
stu χ2, dla α = 0,05 i df = 4, wynosi 9,49. Otrzymana wartość χ2 = 2,496 jest
mniejsza od wartości krytycznej, co oznacza, że nie możemy odrzucić hipo-
tezy zerowej o braku związku pomiędzy ocenami filmów przez nasze cztery
hipotetyczne osoby badane. Niestety, wszystko wskazuje na to, że czekają
ich jeszcze kolejne negocjacje, zanim wspólnie wybiorą się do kina.
Współczynnik zgodności W Kendalla nie jest jedyną miarą wykorzystywaną
do sprawdzania, czy jakaś grupa ludzi jest zgodna w swoich ocenach. O in-
nych statystykach wykorzystywanych w tego typu sytuacjach piszą m.in.
* Por. Brzeziński, J., Maruszew- Jerzy Brzeziński i Tomasz Maruszewski*.
ski, T. (1978). Metoda sędziów
kompetentnych i jej zastosowa- My podamy jeszcze na koniec inny przykład wykorzystania współczynnika
nie w badaniach pedagogicz-
nych. Kwartalnik Pedagogiczny, zgodności Kendalla z badań nad różnicami w zakresie zachowania się kobiet
1, 61-74. i mężczyzn.
** White, J., Roufail, M. (1989).
Gender and influence strategies Jacquelyn White i Mary Roufail** zajęły się problemem różnic między stra-
of first choice and last resort. tegiami wpływu społecznego, wykorzystywanymi przez kobiety i mężczyzn.
Psychology of Women Quarter- Celem badania było m.in. sprawdzenie, w jakim stopniu mężczyźni i kobiety
ly, 13, 175-189.
są zgodni w ocenie różnych strategii wpływu społecznego.
W jednej z wersji przeprowadzonego przez White i Roufail eksperymentu
wzięły udział 192 kobiety i 55 mężczyzn. Ich zadaniem było ocena 43 róż-
nych strategii wpływania na innych ludzi na skali od 1 (zawsze stosuję) do
5 (nigdy nie stosuję). Wśród strategii były m.in. takie, jak: logiczna argu-
mentacja, wykorzystanie dominującej pozycji, groźby, perswazja.
Wartość współczynnika zgodności W Kendalla dla mężczyzn wyniosła
W = 272, a dla kobiet W = 346. Obie były statystycznie istotne (wyniki testu
χ2 istotne na poziomie p<0,001). Oznacza to, że zarówno mężczyźni, jak
i kobiety są zgodni co do tego, jakie strategie są przez nich najczęściej sto-
sowane w stosunkach z innymi ludźmi.
Autorki eksperymentu obliczyły także korelację rangową R Spearmana mię-
dzy uporządkowaniem strategii przez kobiety i mężczyzn (wartościami wy-
korzystanymi w analizie były średnie z rang dla każdej strategii). Co cieka-
we, okazało się, że korelacja jest bardzo wysoka (R = 0,88; p<0,001), czyli
że kobiety i mężczyźni równie często stosują te same strategie wpływu spo-
łecznego.
ANALIZA KORELACJI I REGRESJI 527

8.3. ANALIZA REGRESJI

O FRANCISZKU GALTONIE I REGRESJI GENIUSZU

Termin „regresja” po raz pierwszy pojawił się w pracach sir Francisa Galto-
na na oznaczenie pewnych zależności w opracowywanej przez niego teorii
* Luszniewicz, A., Słaby, T. dziedziczenia zdolności, czyli – jak mawiał – geniuszu*. Galton zaobserwo-
(2003). Statystyka z pakietem wał m.in., że w następnym pokoleniu geniusz dzieci osób wybitnych jest
komputerowym Statistica PL.
Teoria i zastosowania. Warsza- niższy od geniuszu ich rodziców, czyli cofa się (ang. regress) do średniej
wa: C. H. Beck. w danym pokoleniu**.
** Nęcka, E. (2000). Inteligen-
cja. W: J. Strelau (red.), Psycho-
Galton był kuzynem Karola Darwina i starał się powiązać wyniki badań nad
logia. Podręcznik akademicki inteligencją z teoriami ewolucji. Był bardzo aktywnym człowiekiem – ukoń-
(t. I, s. 721-760). Gdańsk: GWP. czył studia medyczne, udał się z misją badawczą do Afryki, a nawet wyna-
lazł okulary do czytania pod wodą.
Miał także obsesję na punkcie liczenia dosłownie wszystkiego. Zliczał więc
np. ruchy pędzla artysty malującego jego portret, tylko po to, by stwierdzić,
że namalowanie go wymaga około 20 000 ruchów pędzla. Nosił też przy so-
bie specjalny zeszyt, w którym zaznaczał, czy spotykane na ulicach angiel-
skich kobiety są „ładne”, „średnio ładne”, czy „brzydkie”. Niestety, rękopisy
się nie zachowały.
Choć Galton posługiwał się pojęciem regresji na oznaczenie pewnej tenden-
cji w dziedziczeniu zdolności, to jednak obecnie termin ten najczęściej się
Portret sir Francisa Galtona stosuje w odniesieniu do statystycznej metody oszacowywania siły zależno-
(1822-1911) ści między zmiennymi.
Omawiając współczynnik korelacji r Pearsona, posługiwaliśmy się wyraże-
niem „linia regresji”. Przypomnijmy, że jest to linia prosta, która leży najbli-
żej wszystkich punktów odpowiadających parom pomiarów zmiennych
(X,Y). Ponadto, jak pamiętasz, korelacja jest wskaźnikiem odchylenia par
pomiarów od linii regresji. Jeżeli współczynnik korelacji równa się +1 lub
–1, to znaczy, że wszystkie punkty leżą na linii regresji. To mniej więcej
wszystko, co powinieneś wiedzieć na temat korelacji, zanim zaczniesz czy-
tać rozdział poświęcony regresji.
Przypomnijmy jeszcze wykres rozrzutu czasów snu i maksymalnej długości
życia czterech ssaków, opracowany na podstawie wyników badań
*** Allison, T., Cicchetti, D. przeprowadzonych przez Truetta Allisona i Domenica Cicchettiego***.
(1976). Sleep in mammals: Eco-
logical and constitutional corre- Korelacja między zmiennymi przedstawionymi na wykresie 8.14 wyniosła
lates. Science, 194, 732-734. r = –0,21. Przecinająca wykres prosta to właśnie linia regresji, która prze-
biega najbliżej wszystkich znajdujących się na nim punktów. Analiza regre-
sji to – najkrócej mówiąc – metoda pozwalająca na znalezienie równania tej
prostej. Można ją stosować nie tylko wtedy, gdy mamy do czynienia z dwo-
528 WNIOSKOWANIE STATYSTYCZNE

ma zmiennymi, ale także wtedy, gdy zmiennych jest znacznie więcej. Opis
analizy regresji rozpoczniemy jednak od prostszej sytuacji, tzn. takiej, w któ-
rej dysponujemy pomiarami tylko dwóch zmiennych.

Rysunek 8.14. Maksymalna 22


długość życia i czas snu czte- nocek
20
rech ssaków z badania Alli-
sona i Cicchettiego 18
[STATISTICA]

Czas snu (godziny na dobę)


16

14 ryjówka
12

10
człowiek
8

4 sarna
2

0
-20 0 20 40 60 80 100 120
Maksymalna długość życia (lata)

RÓWNANIE LINII REGRESJI DLA DANYCH STANDARYZOWANYCH

Wiele jest wzorów, za pomocą których możemy policzyć współczynnik ko-


relacji r Pearsona. W rozdziale 8.1 przedstawiliśmy dwa takie równorzędne
sposoby.
Pierwszy polega na zamianie pomiarów na wyniki standaryzowane i obli-
czeniu korelacji według następującego wzoru:
N

∑z Xi zY i

rXY = i =1

N
Drugi sposób pozwala na obliczanie współczynnika z danych surowych:
N

∑(X i − X X )(Yi − Y Y )
rXY = i =1
N N

∑ ( X i − X ) 2 ∑ (Yi − Y ) 2
i =1 i =1

Omawiając zależności między wynikami standaryzowanymi z i wartością


współczynnika korelacji, doszliśmy również do następującego równania:
z X = rXY zY
ANALIZA KORELACJI I REGRESJI 529

Byliśmy wtedy trochę nieprecyzyjni, ponieważ w istocie jest to wzór pozwa-


lający na znalezienie przewidywanych wartości zmiennej Y na podstawie
znajomości wartości zmiennej X oraz wartości współczynnika korelacji.
Zróbmy drobny makijaż w powyższym równaniu i zamiast r wpiszmy grec-
ką literkę β, pamiętając, że β = r. Nasze równanie będzie wówczas prezen-
tować się tak:
z X = β zY
I to właśnie jest równanie linii regresji dla danych standaryzowanych.
Stosując to równanie do danych dotyczących czasów snu i maksymalnej
długości życia, otrzymamy następujący zapis:
zczas snu = –0,21 × zmaksymalna długość życia
Zamiast X i Y wpisaliśmy nazwy zmiennych, aby łatwiej było pamiętać, co
z czym porównujemy. O tym, dlaczego zamieniliśmy r na β, dowiesz się już
niebawem.
Przypominamy, że jeśli β = r jest różne od +1 lub –1, to znaczy, że nie
wszystkie pary pomiarów układają się wzdłuż linii regresji (na rysunku 8.14
praktycznie żadna para pomiarów nie znalazła się na tej linii).
Jeżeli zamiast danych otrzymanych w badaniu wykorzystamy do tworzenia
wykresu rozrzutu wyniki standaryzowane, to otrzymamy niemal identyczny
obraz zależności pomiędzy maksymalną długością życia i czasem snu (por.
rysunek 8.15). Jedyna różnica między rysunkami 8.14 i 8.15 kryje się w jed-
nostkach skali OX i OY.
Poza tym, jak łatwo zauważyć na wykresie 8.15, linia regresji przechodzi
przez punkt (0, 0), natomiast kąt nachylenia linii regresji do osi OX jest do-
kładnie taki sam na obu wykresach.
Rysunek 8.15. Zależność 1,5 nocek
pomiędzy wynikami standa-
ryzowanymi maksymalnej
1,0
długości życia i czasu snu
Czas snu (wyniki standaryzowane)

dla czterech ssaków


[STATISTICA] 0,5 ryjówka

0,0

człowiek
-0,5

-1,0
sarna

-1,5
-1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,0
Maksymalna długość życia (wyniki standaryzowane)
530 WNIOSKOWANIE STATYSTYCZNE

POWTÓRKA Z MATEMATYKI: O RÓWNANIU PROSTEJ W UKŁADZIE WSPÓŁRZĘDNYCH

Każdą prostą w układzie współrzędnych (X,Y) można opisać za pomocą


równania Y = AX + B. Zmienna A decyduje o tym, jaki jest kąt nachylenia
prostej do osi OX, a zmienna B o tym, na jakiej wysokości nad osią OX
przebiega ta prosta. Innymi słowy, wartość B decyduje o tym, jak prosta jest
przesunięta w stosunku do osi OY. Przykłady takich prostych przedstawia-
my na rysunku 8.16.
Rysunek 8.16. Przykładowe 22
położenie linii prostych w nocek
20
równaniu Y = -0,21 X + B
w układzie współrzędnych 18
Y = -021X + 2
(X, Y) dla B = {-2, -1, 0, 1, 2}
Czas snu (godziny na dobę)

16 Y = -021X + 1
[STATISTICA] Y = -021X + 0
14 ryjówka Y = -021X + (-1)
12 Y = -021X + (-2)

10
człowiek
8

4 sarna
2

0
-20 0 20 40 60 80 100 120
Maksymalna długość życia (lata)

Na rysunku 8.16 przedstawiliśmy pięć równoległych prostych. Wszystkie


one są opisane za pomocą równania Y = –0,21 X + B, gdzie B przyjmuje
wartości {–2, –1, 0, 1, 2}. Zauważ, że wtedy, gdy B = 0, wykres prostej jest
dokładnie taki sam, jak wykres linii regresji dla danych dotyczących zależ-
ności między maksymalną długością życia a czasem snu czterech ssaków.
Nic dziwnego: jest to przecież to samo równanie prostej, jakie utworzyliśmy
na podstawie znanej wartości współczynnika korelacji między tymi zmien-
nymi.
Jeżeli to samo równanie regresji przedstawiamy dla danych standaryzowa-
nych, to linia regresji będzie przechodziła przez punkt (0,0), samo zaś rów-
nanie przyjmie postać Y = AX.
Znajomość równania regresji daje nam możliwość przewidywania wartości
jednej zmiennej na podstawie drugiej. W swoich danych Truett Allison
i Domenic Cicchetti m.in. uwzględnili maksymalną długość życia żyrafy,
wynoszącą 28 lat. Niestety, nie udało im się ustalić, jak długo żyrafy śpią.
Wiedząc jednak, że korelacja pomiędzy maksymalnym czasem życia a dłu-
gością snu dla wszystkich badanych przez nich ssaków wynosi r = –0,41
(por. tabela 8.8 w rozdziale 8.1), możemy utworzyć następujące równanie
regresji:
zczas snu = –0,41 × zmaksymalna długość życia
ANALIZA KORELACJI I REGRESJI 531

i obliczyć, jaki jest przewidywany czas snu żyrafy. Do tego jednak potrze-
bować będziemy także wartości średnich i odchyleń standardowych dla obu
tych zmiennych w całej badanej próbie 54 ssaków (zob. tab. 8.18).

Tabela 8.18. Średnia i odchy- Zmienne Maksymalna długość życia Całkowity czas snu
lenie standardowe dla zmien- Statystyki
nych: „maksymalna długość
życia” i „całkowity czas snu” Średnia 19,85 10,41
Odchylenie standardowe 18,81 4,7

Zacznijmy od zamiany maksymalnej długości życia żyrafy na wynik standa-


ryzowany:
X − x 28 − 19,85
zX = = = 0,43
sX 18,81
Jeżeli podstawimy tę wartość do równania regresji to otrzymamy:
zczas snu żyrafy = –0,41 × zmaksymalna długość życia żyrafy = –0,41 × 0,43 = –0,18
Teraz już wystarczy skorzystać ze średniej i odchylenia standardowego dla
zmiennej „całkowity czas snu” i otrzymujemy przewidywaną długość snu
żyrafy, wyrażoną w liczbie godzin na dobę:
Y = y + z X × sY = 10,41 + (–0,18) × 4,7 = 9,56

* Campbell, S. S., Tobler, I. Czy to możliwe, żeby żyrafy sypiały po 10 godzin na dobę? Z artykułu
(1984). Animal sleep: a review Campbella i Toblera dowiedzieliśmy się, że przeciętnie żyrafy śpią tylko
of sleep duration across phylo-
geny. Neuroscience and Biobe- niespełna 2 godziny na dobę (dokładnie – 1,9 godz.)*. Nasze przewidywanie
havioral Review, 8, 269-300. okazało się więc bardzo niedokładne.

RÓWNANIE REGRESJI JAKO MODEL ZALEŻNOŚCI MIĘDZY ZMIENNYMI

Nasza porażka w przewidywaniu czasu snu żyrafy na podstawie maksymal-


nej długości jej życia może świadczyć tylko o tym, że równanie regresji by-
najmniej nie jest doskonałym narzędziem oceny zależności między tymi
dwiema zmiennymi. Jest ono jedynie modelem, a więc pewnym przybliże-
niem tej relacji.
Przeanalizujmy jeszcze raz wykres rozrzutu dla zmiennych „maksymalny
czas życia” i „długość snu” dla wszystkich ssaków opisanych przez Allisona
i Cicchettiego (zob. wykres 8. 17).
Zaznaczona na wykresie linia regresji jest dla wielu ssaków dość odległym
przybliżeniem zachodzącej u nich zależności między długością snu i mak-
symalną długością życia. Do wyznaczenia tej linii zostały wykorzystane da-
ne 54 ssaków, dla których Allison i Cicchetti dysponowali pomiarami warto-
532 WNIOSKOWANIE STATYSTYCZNE

ści obu zmiennych. W tworzeniu linii regresji nie zostały jednak wykorzy-
stane dane dotyczące żyrafy, ponieważ autorzy nie wiedzieli, jak długo żyra-
fy śpią. Ponieważ nam udało się znaleźć brakującą daną, więc na rysunku
8.17 dostawiliśmy także punkt odpowiadający długości czasu snu i maksy-
malnej długości życia żyrafy. Dobrze teraz widać, jak bardzo rzeczywiste
dane na temat żyrafy odchylają się od przewidywania na podstawie linii re-
gresji. Wielkość tego odchylenia możemy zresztą łatwo obliczyć, odejmując
od wartości rzeczywistej wartość przewidywaną, czyli:
1,9 – 9,56 = –7,66
Rysunek 8.17. Wykres roz- 22
rzutu zmiennych „długość 20
snu” i „maksymalna długość
Całkowty czas sny (godziny na dobę)

życia” [STATISTICA] 18
mroczek wielki
16

14

12

10

2
żyrafa
0
-10 10 30 50 70 90 110
Maksymalna długość życia (lata)

Linia regresji – co wiesz już z rozdziału o korelacji – jest linią, na której


znajdują się przewidywane wartości zmiennej Y. Zauważ, że poszczególne
pomiary rzeczywiste w różnym stopniu odchylają się od tej linii i pod tym
względem żyrafa nie wypada jeszcze najgorzej. Najbardziej od linii regresji
odchylają się pomiary dla mroczka wielkiego, przedstawiciela nietoperzy.
Jego wynik też zaznaczyliśmy strzałką na rysunku 8.17. Mroczek żyje co
najwyżej 19 lat, ale przeciętnie sypia po 19,7 godziny na dobę, podczas gdy
z równania regresji wynika, że powinien spać tylko 10,5 godziny. Jego rze-
czywisty czas snu jest więc aż o 9,2 godziny dłuższy niż przewidywany.
(Nawiasem mówiąc, równie słabe przewidywania dotyczą innego nietope-
rzego śpiocha, czyli nocka, który śpi jeszcze dłużej, bo 19,9 godziny).
W wielu przypadkach przewidywanie na podstawie regresji jest bardzo bli-
skie rzeczywistym pomiarom. Ssakiem, którego przewidywania niemal po-
krywają się ze stanem faktycznym, jest pawian. Ssak ten śpi 9,8 godziny na
dobę, a zgodnie z równaniem regresji powinien spać 9,68 godziny na dobę.
Różnica wynosi zaledwie 0,12 godziny, czyli około 7 minut.
Równanie regresji należy traktować jako uproszczone przedstawienie relacji
między zmiennymi, czyli po prostu model. Z reguły jedną z analizowanych
ANALIZA KORELACJI I REGRESJI 533

w tym modelu zmiennych nazywa się umownie zmienną zależną (lub


zmienną wyjaśnianą), a drugą nazywa się predyktorem, czyli zmienną, na
podstawie której przewiduje się wartości zmiennej zależnej.
W badaniach nad długością snu i życia zmienną zależną jest czas snu, a pre-
dyktorem maksymalna długość życia. Zmienna zależna to ta, która w rów-
naniu regresji znajduje się po lewej stronie, a predyktor to ta zmienna, która
razem z parametrem β znajduje się po prawej stronie tego równania.
Każdy wynik zmiennej zależnej można przedstawić jako sumę dwóch skła-
dowych: wartości przewidywanej na podstawie równania regresji oraz wiel-
kości odchylenia tego przewidywania od wartości rzeczywistej. To odchyle-
nie nazywa się resztą.
Zależność między zmienną wyjaśnianą (Y) a wartością przewidywaną i resz-
tą można przedstawić tak:
Y = wartość przewidywana + reszta.
Wartość przewidywaną znamy na podstawie predyktora, czyli zmiennej X,
zwanej czasami także zmienną objaśniającą.
Omawiając współczynnik korelacji r Pearsona, oznaczaliśmy wartości prze-
widywane jako Y’. Jeżeli reszty zapiszemy symbolicznie za pomocą greckiej
litery epsilon (ε), to dowolną (i-tą) wartość zmiennej Y możemy zapisać na-
stępująco:
Yi = Yi ' + εi
Wzór ten jest symbolicznym zapisem tego, co wiemy na podstawie równania
regresji: wartości zmiennej Y zależą od wartości zmiennej X (bo przecież Y’
przewidujemy właśnie na podstawie X) i od wielkości reszty, czyli wszyst-
kich innych czynników, które nie są kontrolowane w badaniu.
Ujmując te zależności w odniesieniu do czasu snu i maksymalnej długości
życia, moglibyśmy stwierdzić, że czas snu tylko w pewnym stopniu zależy
od maksymalnej długości życia (i w tym sensie im dłuższe życie, tym krót-
szy sen), zależy on bowiem jeszcze od wielu innych czynników, których
wpływu po prostu nie uwzględniliśmy w badaniu.
Podstawowa wartość analizy regresji polega jednak na tym, że po pierwsze,
jesteśmy w stanie ocenić wielkość wpływu zmiennej objaśniającej (predyk-
tora) na zmienną wyjaśnianą (zależną), a po drugie, możemy sprawdzić, czy
ten uproszczony model relacji między zmiennymi lepiej opisuje zależność,
jaką udało nam się ustalić w badaniu, niż odwołanie się do przypadku.
Spójrz jeszcze raz na symboliczny zapis równania regresji:
Yi = Yi ' + εi
534 WNIOSKOWANIE STATYSTYCZNE

Można uznać, że równanie to jest wartościowe albo, mówiąc inaczej, przy-


datne dla badacza wtedy, gdy większy wpływ na wartości zmiennej Y mają
wartości przewidywane, czyli Y’, niż przypadkowe reszty. To zaś możemy
sprawdzić, korzystając z ... analizy wariancji.

DLACZEGO CIĄGLE TRZEBA SIĘ ODWOŁYWAĆ DO POJĘCIA WARIANCJI?

Słowo „wariancja” jest chyba jednym z terminów technicznych najczęściej


pojawiających się w naszym przewodniku. Przypomnijmy, że wariancja
oznacza miarę zmienności w zbiorze danych i oblicza się ją według następu-
* Wzór, który właśnie przypo- jącego wzoru*:
minamy, pozwala na obliczenie
n

∑(X
tzw. wariancji z próby, czyli es-
tymatora wariancji w populacji. i − x) 2
s = 2 i =1

n −1
s odchylenie standardowe,
n liczba wszystkich obserwacji w zbiorze,
Xi wartość kolejnego, i-tego pomiaru,

x średnia arytmetyczna,
n

∑i =1
suma n wartości danych.

Wiele już pisaliśmy na temat wariancji, ale w tym miejscu chcemy przypo-
mnieć Ci dwa fakty.
• Po pierwsze, obliczanie wariancji ma sens tylko wtedy, kiedy możemy ją
porównać do innej wariancji. „Samotna” wariancja jest wskaźnikiem
o niewielkiej zawartości informacyjnej, ale w zestawach – to już zupeł-
nie inna historia.
• Po drugie, na wielkość wariancji największy wpływ mają te pomiary,
które najbardziej odchylają się od średniej arytmetycznej. Własność ta
wynika ze wzoru na wariancję. Ponieważ do kwadratu podnosimy różni-
ce między poszczególnymi pomiarami a średnią, więc kwadraty dużych
różnic są wartościami nieproporcjonalnie większymi niż kwadraty ma-
łych różnic.
Wariancja ma jeszcze jedną bardzo ważną cechę: otóż postępując umiejęt-
nie, można ją rozbić na wariancje składowe. Właśnie na tej idei zbudowana
jest cała analiza wariancji. W największym skrócie, metoda ta polega na
ustaleniu, jakie są wartości wariancji związane z działaniem każdego
z czynników eksperymentalnych i na porównaniu ich z wariancją niekontro-
lowaną. Dokładnie tak samo możemy postąpić w przypadku analizy regresji.
ANALIZA KORELACJI I REGRESJI 535

Jeżeli każdy wynik zmiennej Y zależy od zmiennej X (od tego zależy war-
tość przewidywana Y’) oraz niekontrolowanej wielkości reszty ε, to można
sprawdzić, które z tych źródeł w większym stopniu związane jest z całkowi-
tą wariancją zmiennej Y. W postaci symbolicznej wyglądałoby to tak:
2
scała = sregresja
2
+ sreszta
2

Powyższy zapis oznacza, że cała wariancja w zbiorze Y jest sumą wariancji


związanej z równaniem regresji, czyli wariancji w zbiorze wartości przewi-
dywanych i wariancji resztowej.
Sprawdźmy, czy zasada dodawania wariancji jest rzeczywiście zachowana
w przypadku przewidywania na podstawie regresji (zob. tab. 8.19).
Tabela 8.19. Wyniki testu Uczeń Ocena z matematyki Ocena z fizyki
z matematyki i z fizyki pięciu
dość zdolnych uczniów Ela Krawcowa 2 3
Fredek Bandura 3 4
Zygi Freud 4 5
De Bono 4 6
Jurek Krzak 3 4

Na podstawie danych zawartych w tabeli 8.19, najpierw sprawdźmy, jaka


jest korelacja między ocenami z matematyki i z fizyki w grupie dość zdol-
nych uczniów. Skorzystamy ze wzoru na korelację dla danych surowych:
N

∑(X i − X X )(Yi − Y Y )
rXY = i =1

Ns X sY
Po obliczeniu okazało się, że korelacja Pearsona r = 0,94, co sugeruje, że
istnieje bardzo duży związek między ocenami z fizyki i z matematyki. Skoro
znamy współczynnik korelacji, to wiemy także, jak wyglądają równania re-
gresji dla zmiennych wyrażonych w postaci wartości standaryzowanych:
zmatematyka = 0,94 × zfizyka
zfizyka = 0,94 × zmatematyka
Przyjrzyjmy się uważniej drugiemu z tych równań. Korzystając z niego, mo-
żemy bez trudu przewidzieć oceny z fizyki na podstawie wyników z mate-
matyki. Aby obliczyć te wartości, postąpimy dokładnie tak samo, jak wtedy,
gdy obliczaliśmy przewidywaną długość czasu snu dla żyrafy. Pomijając ko-
lejne kroki obliczeniowe, od razu podajemy wynik (zob. tab. 8.20).
W ostatnim wierszu tabeli 8.20 dopisaliśmy też wariancje z próby dla każ-
dego zbioru zmiennych. Podstawiając je do równania, możemy stwierdzić,
536 WNIOSKOWANIE STATYSTYCZNE

że wariancja dla ocen otrzymanych równa jest sumie wariancji ocen przewi-
dywanych i reszt, czyli:
2
scała = sregresja
2
+ sreszta
2
= 1,157 + 0,143 = 1,30

Tabela 8.20. Otrzymane i Oceny z fizyki Reszta


przewidywane oceny z fizyki Uczeń (przewidywane
pięciu dość zdolnych uczniów otrzymane przewidywane – otrzymane)
Ela Krawcowa 3,00 2,857 0,143
Fredek Bandura 4,00 4,143 –0,143
Zygi Freud 5,00 5,429 –0,429
De Bono 6,00 5,429 0,571
Jurek Krzak 4,00 4,143 –0,143
średnia 4,40 4,400 0,000
wariancja 1,30 1,157 0,143

Zasada rozbijania wariancji na elementy składowe, jaką poznaliśmy przy


okazji analizy wariancji, ma więc także zastosowanie w przypadku analizy
regresji. Dokładnie w taki sam sposób można też interpretować otrzymane
wyniki. Wariancja wartości przewidywanych jest miarą zmienności związa-
ną z wpływem czynnika, na podstawie którego ją obliczyliśmy. W przykła-
dzie z dość zdolnymi uczniami s2 = 1,157 jest wskaźnikiem tego, w jakim
stopniu oceny z fizyki zależą od ocen z matematyki, natomiast wariancja
w zbiorze reszt jest miarą tego, jaki wpływ na zmienną zależną mają czynni-
ki, których nie uwzględniliśmy w równaniu regresji.

ANALIZA WARIANCJI DLA REGRESJI: OCENA DOPASOWANIA MODELU REGRESJI


DO DANYCH EMPIRYCZNYCH

W poprzednim punkcie próbowaliśmy pokazać podobieństwa między anali-


zą regresji i analizą wariancji.
• W przypadku jednej i drugiej metody mamy do czynienia z ustaleniem,
w jakim stopniu czynniki kontrolowane w badaniu mają wpływ na
zmienność w zbiorze pomiarów zmiennej zależnej.
• W analizie wariancji źródła zmienności mają charakter nominalny (na
tej zasadzie osoby badane są przydzielane do różnych grup), w przypad-
ku zaś analizy regresji czynnik wpływający na zmienną zależną na ogół
ma charakter ilościowy (choć niekoniecznie, o czym jeszcze dalej).
• Wynikiem analizy wariancji jest wartość testu F, który liczymy po to, by
stwierdzić, czy na zmienność zależną w większym stopniu wpływa
ANALIZA KORELACJI I REGRESJI 537

czynnik eksperymentalny, czy też niekontrolowany zbiór czynników za-


kłócających (co w przypadku analizy wariancji określa się jako warian-
cję błędu lub wariancję wewnątrzgrupową). Podobnie, stosując analizę
regresji, możemy stwierdzić, czy na zmienną zależną (wyjaśnianą) więk-
szy wpływ ma zmienna niezależna (predyktor) uwzględniona w równa-
niu regresji, czy też niekontrolowana zmienność w zbiorze reszt.
Typowy wynik analizy wariancji przedstawia się w postaci tabeli zawierają-
cej nazwy źródeł zmienności, sumy kwadratów odchyleń od średnich dla da-
nego źródła, liczby stopni swobody związanej z tym źródłem oraz wartości
testu F, czyli ilorazu wariancji między grupami i wariancji wewnątrz grup
(zob. tab. 8.21).

Tabela 8.21. Wyniki jedno- Suma Średni


czynnikowej analizy wariancji Źródło zmienności df F Istotność
kwadratów kwadrat
dla zmiennej „ogólne poczu-
cie szczęścia” (zmienną nie-
zależną jest kolor kwestiona- Między grupami 48,550 3 16,183 9,999 0,001
riuszy) [STATISTICA]
Wewnątrz grup 123,000 76 1,618

Ogółem 171,550 79

Wyniki zapisane w tabeli 8.21 pochodzą z przytaczanego wcześniej badania


dotyczącego wpływu koloru kwestionariusza na subiektywne poczucie
szczęścia. Jeśli nie pamiętasz, to przypomnijmy, że w tym eksperymencie
osoby badane zostały podzielone na cztery grupy i każdy z uczestników oce-
niał na skali od 1 do 7 poczucie ogólnego zadowolenia z życia.
Zmienną niezależną był kolor kwestionariusza (biały, różowy, niebieski lub
żółty), na którym wydrukowano pytanie. Na podstawie wyników z tabeli
8.21 można wyciągnąć wniosek, że kolor w większym stopniu zróżnicował
odpowiedzi osób badanych (czego wyrazem jest zmienność między grupa-
mi) niż czynniki niekontrolowane (czego wyrazem jest zmienność wewnątrz
grup badanych).
Niemal dokładnie taką samą tabelkę można utworzyć dla wyników analizy
regresji. Zamiast źródła zmienności „między grupami” należy wpisać słowo
„regresja”, które będzie oznaczało wpływ zmiennej niezależnej na zmienną
zależną, opisany przez równanie regresji. Zmienności zaś „wewnątrz grup”
badanych odpowiada wariancja związana z odchyleniami od przewidywań
na podstawie regresji, czyli „reszta”.
Spróbujmy więc przygotować tabelkę zawierającą wynik analizy wariancji
dla regresji łączącej oceny z matematyki i fizyki dość zdolnych uczniów
z tabeli 8.19. Obliczając sumy kwadratów odchyleń dla regresji, wystarczy
odjąć od każdej wartości przewidywanej średnią dla tych wartości (zob. tab.
538 WNIOSKOWANIE STATYSTYCZNE

8.20), a następnie każdą różnicę podnieść do kwadratu i wszystkie je do sie-


bie dodać:
SS regresja = (2,86 − 4,4) 2 + (4,14 − 4,4) 2 + (5,43 − 4,4) 2 +
+ (5,43 − 4,4) 2 + (4,14 − 4,4) 2 = 4,63
W podobny sposób obliczymy sumę kwadratów dla reszt:
SS reszta = (0,14 − 0) 2 + (−0,14 − 0) 2 + (−0,42 − 0) 2 +
+ (0,57 − 0) 2 + (−0,14 − 0) 2 = 0,57
Do zakończenia obliczeń brakuje nam jeszcze tylko wartości liczby stopni
swobody związanych z obydwoma źródłami zmienności. Przypomnijmy, że
określenie „liczba stopni swobody” oznacza liczbę wyników, które mogą się
swobodnie zmieniać. Dla całego zbioru danych liczba stopni swobody wy-
nosi N – 1. Z kolei dla czynnika związanego z wpływem predyktora, czyli
dla regresji dfregresja = 1, a dla reszt – dfreszta = N – 1 – 1 = N – 2.
No to mamy już chyba wszystko, co potrzebne do przedstawienia regresji za
pomocą wyniku analizy wariancji (zob. tab. 8.22).

Tabela 8.22. Wyniki analizy Suma Średni


wariancji dla regresji Źródło zmienności df F Istotność
kwadratów kwadrat
zfizyka = 0,94 × zmatematyka
[STATISTICA]
Regresja 4,63 1 4,63 24,37 0,0159

Reszta 0,57 3 0,19

Ogółem 5,2 4

Wynik analizy z tabeli 8.22 interpretujemy dokładnie tak samo, jak wynik
każdej analizy wariancji. Ponieważ prawdopodobieństwo uzyskania przy-
padkiem stosunku wariancji F(1, 3) = 24,37 wynosi 0,0159, możemy więc
odrzucić hipotezę zerową, co najmniej na poziomie α = 0,05.
A jaka było hipoteza zerowa? Mamy nadzieję, że się domyśliłeś. W naj-
prostszej wersji można ją sformułować tak:
2
sregresja
2
=1
sreszta
a hipotezę alternatywną w taki sposób:
2
sregresja
2
>1
sreszta
ANALIZA KORELACJI I REGRESJI 539

Oznacza to po prostu, że przewidujemy, iż wariancja w zbiorze wartości


przewidywanych na podstawie predyktora jest większa niż wariancja wyni-
kająca z tego wszystkiego, czego nie kontrolowaliśmy w badaniu.
Odrzucenie hipotezy zerowej dotyczącej stosunku wariancji w zbiorze war-
tości przewidywanych i w zbiorze reszt jest najważniejszym etapem analizy
regresji. Dzięki temu wiemy, czy predyktor wprowadzony do równania re-
gresji ma większy wpływ na zmienną zależną niż czynniki, których nie zi-
dentyfikowaliśmy w badaniu. Z tego punktu widzenia zawsze należy spraw-
dzać istotność regresji za pomocą analizy wariancji. Jeżeli się okaże, że nie
można odrzucić hipotezy zerowej, czyli że wariancja wynikająca z regresji
nie jest większa niż wariancja resztowa, to pozostaje nam już tylko uznać, że
niestety, równanie regresji nie jest poprawnym modelem zależności między
zmiennymi.

CZY DŁUGOŚĆ ŻYCIA WPŁYWA NA DŁUGOŚĆ SNU?

Powróćmy raz jeszcze do wyników badań Truetta Allisona i Domenica Cic-


chettiego, którzy analizowali zależność między czasem snu a długością życia
54 ssaków i stwierdzili, że korelacja między tymi zmiennymi wynosi r =
= –0,41 (wykres rozrzutu ilustrujący tę zależność znajduje się na rysunku
8.17). Równanie regresji, będące modelem związku między długością życia
a czasem snu, jest następujące:
zczas snu = –0,41 × zmaksymalna długość życia
Sprawdźmy za pomocą analizy wariancji, w jakim stopniu ten model pasuje
do zgromadzonych danych (zob. tab. 8.23). Czy wynikające z niego przewi-
dywania dotyczące zmienności zależnej są trafniejsze niż przewidywania
wynikające z wpływu czynników niekontrolowanych w badaniu?

Tabela 8.23. Wyniki analizy Suma Średni


wariancji przeprowadzanej Efekt df F Istotność
kwadratów kwadrat
dla modelu regresji zczas snu =
= –0,41 × zmaksymalna długość życia
[STATISTICA] Regresja 189,508 1 189,508 10,520 0,002

Reszta 936,734 52 18,014

Razem 1126,242

Wynik testu F wskazuje na to, że równanie regresji można traktować jako


model zależności między maksymalną długością życia a czasem snu. Nie
oznacza to bynajmniej, że zależność między długością życia a czasem snu
w rzeczywistości jest dokładnie taka, jak opisuje to równanie regresji. Wy-
nik testu F „mówi” nam jedynie o tym, że równanie regresji lepiej oddaje
540 WNIOSKOWANIE STATYSTYCZNE

charakter zależności między obydwoma zmiennymi niż przyjęcie, że zwią-


zek między czasem snu a maksymalną długością życia jest przypadkowy.

CZY SAMOCHODY Z MOCNIEJSZYM SILNIKIEM SĄ DROŻSZE?

* Dane te znajdują się na inter- W Internecie znaleźliśmy interesujące zestawienie cen 428 nowych modeli
netowej stronie czasopisma samochodów sprzedawanych w USA w roku 2004*. Oprócz cen, zbiór da-
Journal of Statistics Education:
http://www.amstat.org/publicati nych zawiera też różne techniczne charakterystyki samochodów, m.in. moc
ons/jse/jse_data_archive.html wyrażoną w koniach mechanicznych (w skrócie: KM). Zainteresowało nas,
(plik: 04cars.dat). Zbiór danych,
który wykorzystujemy, został
czy samochody mocniejsze są rzeczywiście także droższe.
opracowany przez firmę Kiplin-
ger, która wyraziła zgodę na
Zabawę rozpoczęliśmy od obliczenia podstawowych statystyk opisowych
wykorzystywanie tych danych dla zmiennych „Cena” i „Moc” (zob. tab. 8.24).
do celów edukacyjnych.
Tabela 8.24. Podstawowe sta- Odchylenie
Zmienne N Średnia Minimum Maksimum
tystyki opisowe dla zmiennych standardowe
„Cena” i „Moc” nowych modeli
samochodów sprzedawanych Cena (w $) 428 32774,86 10280,00 192465,0 19431,72
w USA w roku 2004 Moc (w KM) 428 215,89 73,00 500,0 71,84

Z tabeli 8.24 wynika, że najtańszy samochód uwzględniony w zestawieniu


kosztował 10 280 dolarów (Kia Rio z ręczną skrzynią biegów), a najdroższy
– 192 465 dolarów (Porsche 911 GT2). Nawiasem mówiąc, ten model Por-
sche nie był najmocniejszym samochodem w rankingu. Jego moc wynosi
477 KM, natomiast najwyższą moc, 500 KM, miał Dodge Viper SRT-10.
Dla porównania, najsłabszym samochodem (73 KM) była Honda Insight
o napędzie hybrydowym, czyli benzynowo-elektrycznym. Wykres rozrzutu
pomiarów modeli samochodów, ze względu na zmienne „Cena” i „Moc”,
ilustruje rysunek 8.18.
Rysunek 8.18. Wykres roz- 2e5
rzutu pomiarów modeli sa- 1,8e5
mochodów sprzedawanych
w USA w roku 2004, ze 1,6e5
Sugerowana cena detaliczna ($)

względu na zmienne „Cena” 1,4e5


i „Moc” [STATISTICA]
1,2e5

1e5

80000

60000

40000

20000

-20000
50 150 250 350 450 550
Moc (KM)
5 5
„1e5” oznacza skrócony zapis liczby: 1 × 10 , czyli 100 000, a np. „1,8e5” równa się 1,8 × 10 , czyli 180 000.
ANALIZA KORELACJI I REGRESJI 541

Dane przedstawione na rysunku 8.18 potwierdzają intuicję niemal każdego


kierowcy, że między mocą i ceną samochodu zachodzi wprost proporcjonal-
na zależność.
Aby sprawdzić, w jaki zakresie możemy przewidzieć cenę samochodu na
podstawie jego mocy, przeprowadziliśmy analizę regresji, w wyniku której
otrzymaliśmy następujące równanie regresji dla zmiennych wyrażonych
w postaci wyników standaryzowanych:
zcena = 0,827 × zmoc
Wiesz już, że taka postać równania regresji oznacza, iż każdej zmianie ceny
o jedną jednostkę odchylenia standardowego towarzyszy zmiana mocy
o 0,83 odchylenia standardowego tej zmiennej.
Sprawdźmy teraz, w jakim stopniu dobrze model zależności pomiędzy „Ce-
ną” i „Mocą”, opisany za pomocą równania regresji, odzwierciedla rzeczy-
wistą relację między danymi. Wartość współczynnika determinacji wynosi:
r2 = 0,8272 = 0,684
Wyniki zaś analizy wariancji dla równania regresji prezentuje tabela 8.25.

Tabela 8.25. Wyniki analizy Suma Średni


wariancji dla równania regre- Efekt df F Istotność
kwadratów kwadrat
sji zcena = 0,827 × zmoc
[STATISTICA] E+11 E+11
Regresja 1,102563 1 1,102563 921,4107 0,001
E+10 E+08
Reszta 5,097530 426 1,196603
E+11
Razem 1,612316

Dziwne zapisy w tabeli 8.25 to jeszcze inna wersja skróconego zapisu du-
żych liczb (pakiety statystyczne często z niego korzystają). Na przykład za-
pis 1,102563E+11 oznacza, że liczbę znajdującą się przed literką E należy
pomnożyć przez liczbę złożoną z jedynki i jedenastu zer (1011), czyli przez
100 000 000 000.
Wariancje zmiennej zależnej (czyli „Ceny”), związanej z wpływem zmien-
nej niezależnej (czyli „Mocy”) oraz z wpływem czynników niekontrolowa-
nych, są wprawdzie ogromne, ale – co dla nas najważniejsze – wariancja
wynikająca z równania regresji jest aż 921 razy większa niż wariancja
w zbiorze reszt.
Wynik analizy wariancji potwierdza, że przyjęty model regresji bardzo do-
brze pasuje do rzeczywiście otrzymanych danych, innymi słowy: jest bardzo
dobrym jego dopasowaniem.
542 WNIOSKOWANIE STATYSTYCZNE

JESZCZE RAZ O CENACH SAMOCHODÓW, CZYLI ZNACZENIE ANALIZY RESZT

Ważnym, a zarazem pouczającym etapem analizy regresji jest tzw. analiza


reszt. Przypomnijmy, że wartości zmiennej zależnej można wyrazić za po-
mocą wzoru:
Yi = Yi ' + εi
Yi wartości rzeczywiście otrzymane,
Yi’ wartości przewidywane na podstawie równania regresji,
εi odchylenie konkretnej (i-tej) wielkości otrzymanej od przewidywanej.

Odchylenia, czyli „epsilony”, mogą być dodatnie, gdy pomiary otrzymane są


wyższe od przewidywanych, lub ujemne, gdy otrzymane są niższe od prze-
widywanych. W badaniu wielkości wpływu niezidentyfikowanych zmien-
nych niezależnych na zmienną zależną przydatne jest sprawdzenie, które
z otrzymanych pomiarów zmiennych szczególnie wyraźnie odchylają się od
wartości przewidywanych. Za wyrażeniem „szczególnie wyraźnie” kryje się
odchylenie większe niż dwa odchylenia standardowe w rozkładzie reszt. Dla
każdej reszty, czyli różnicy między wartością otrzymaną i przewidywaną,
oblicza się tzw. resztę standaryzowaną:
reszta
reszta standaryzowana =
s reszta
reszta różnica między wartością otrzymaną a wartością przewidywaną,
sreszta odchylenie standardowe w rozkładzie reszt.

Ilorazem reszty i odchylenia standardowego w rozkładzie reszt jest liczba


oznaczająca, o ile jednostek odchylenia standardowego w rozkładzie reszt
odchyla się konkretna wartość reszty. Większość programów do obliczeń
statystycznych automatyczne „wyławia” te obserwacje, które odchylają się
od średniej w rozkładzie reszt o więcej niż dwa odchylenia standardowe
(zob. tabela 8.26).
Analiza reszt może się okazać bardzo użyteczna nie tylko z powodów staty-
stycznych, ale przede wszystkim merytorycznych. Ustaliwszy, które pomia-
ry znacząco odchylają się od wartości przewidywanych, możesz – uznając je
za nietypowe – usunąć je z analizy regresji. W rezultacie możesz się spo-
dziewać, że poziom dopasowania modelu do danych otrzymanych nieco
wzrośnie.
Na przykład usunięcie ze zbioru obserwacji samochodu marki Porsche 911
GT2, którego cena jest wyższa od przewidywanej aż o ponad 9 odchyleń
standardowych w rozkładzie reszt, powoduje, że wartość współczynnika re-
gresji β (czyli, jak pamiętasz, współczynnika korelacji r Pearsona) wzrasta
ANALIZA KORELACJI I REGRESJI 543

z 0,827 do 0,838, a co za tym idzie – wartość współczynnika determinacji r2


zwiększa się z 0,68 do 0,70.

Tabela 8.26. Wyniki analizy Cena Cena Standaryzowana


Marka
reszt: ceny samochodów rzeczywista przewidywana reszta
odstających o więcej niż
o dwa odchylenia standardo- Mercedes-Benz CL500 2dr 94 820,0 52 037,75 3,911
we w rozkładzie reszt od Mercedes-Benz CL600 2dr 128 420,0 94 762,44 3,077
wartości przewidywanych Mercedes-Benz S430 4dr 74 320,0 45 998,14 2,589
[STATISTICA]
Mercedes-Benz S500 4dr 86 970,0 52 037,75 3,193
Acura NSX coupe 2dr manual S 89 765,0 49 353,48 3,694
Jaguar XK8 convertible 2dr 74 995,0 50 248,24 2,262
Mercedes-Benz SL500 convertible
90 520,0 52 037,75 3,518
2dr
Mercedes-Benz SL55 AMG 2dr 12 1770,0 94 762,44 2,469
Mercedes-Benz SL600 convertible
12 6670,0 94 762,44 2,917
2dr
Pontiac GTO 2dr 33 500,0 60 537,95 –2,472
Porsche 911 Carrera convertible 2dr
79 165,0 54 945,72 2,214
(coupe)
Porsche 911 Carrera 4S coupe 2dr
84 165,0 54 945,72 2,671
(convert)
Porsche 911 GT2 2dr 19 2465,0 91 183,41 9,259
Land Rover Range Rover HSE 72 250,0 47 563,97 2,257
Lexus LX 470 64 800,0 37 050,56 2,537
Mercedes-Benz G500 76 870,0 49 800,86 2,475
GMC Sierra Extended Cab 1500 25 717,0 48 235,04 –2,059
GMC Sierra HD 2500 29 322,0 51 590,38 –2,036
Nissan Titan King Cab XE 26 650,0 52 708,82 –2,382
Minimum 25 717,0 37 050,56 –2,472
Maksimum 19 2465,0 94 762,44 9,259
Średnia 82 797,6 59 713,84 2,110
Mediana 79 165,0 52 037,75 2,537

Przeprowadzając zabieg polegający na usuwaniu wartości, które nadmiernie


odstają od średniej, należy postępować bardzo rozważnie.
• Po pierwsze, jeśli usuniemy tylko jedną obserwację ze zbioru danych, to
współczynnik determinacji r2 wcale nie musi znacząco wzrosnąć (jak
miało to miejsce wtedy, gdy do równania regresji wprowadziliśmy dane
bez Porsche 911 GT2), a tracimy jedną obserwację ze zbioru danych,
korzystamy więc z mniejszej ilości informacji, niż możemy.
• Po drugie, uważna analiza reszt może pomóc w odkryciu tego, jakie inne
czynniki mają wpływ na wartości zmiennej zależnej, oprócz predyktora
uwzględnionego w równaniu regresji.
544 WNIOSKOWANIE STATYSTYCZNE

Ten drugi aspekt jest szczególnie widoczny w przypadku reszt przedstawio-


nych w tabeli 8.26. Samochody wpisane do tej tabeli to modele, których cen
trudno byłoby się domyślić na podstawie równania regresji, właśnie dlatego,
że znacząco odchylają się od cen przewidywanych. Jeżeli jednak choć trochę
interesujesz się samochodami, to zauważysz, że te modele coś łączy.
Większość samochodów przedstawionych w tabeli 8.26 ma wyższą cenę, niż
wynikałoby to z równania regresji. Co więcej, na 15 modeli zdecydowanie
za drogich w stosunku do mocy, aż 8, czyli ponad połowa, to mercedesy,
a dalsze 3 to różne modele supersamochodów marki Porsche. Być może
więc, chociaż cena samochodu jest w znacznym stopniu związana z jego
mocą, to jednak zależność ta nie dotyczy luksusowych samochodów marki
Mercedes i Porsche, które mają dobrze ugruntowaną pozycję na rynku moto-
ryzacyjnym. Do tej grupy można by jeszcze dopisać accurę i jaguara.
Drugą wyraźną grupę tworzą także luksusowe, ale duże samochody tereno-
we marki Pontiac, GMC i Nissan. Jeśli się weźmie pod uwagę moc silnika,
to rzeczywista cena tych samochodów jest znacznie niższa od przewidywa-
nej z równania regresji. I wreszcie dwa legendarne samochody terenowe:
land-rover i lexus, których cena niewspółmiernie przekracza walory silnika.
Równanie regresji jest modelem opisującym stopień wpływu zmiennej nie-
zależnej, czyli predyktora, na zmienną zależną. Uważna analiza reszt może
bardzo pomóc w zidentyfikowaniu słabych punktów tego modelu. Cena
konkretnego samochodu bez wątpienia zależy od wielu czynników. Jednym
z nich jest moc silnika: im wyższa, tym wyższa jest również cena. Są jednak
także inne zmienne – np. pozycja na rynku lub rodzaj samochodu – których
wpływu na cenę w równaniu regresji nie uwzględniliśmy. Chociaż nasz mo-
del regresji okazał się niedoskonały, to jednak po analizie reszt znowu wie-
my więcej, a o to przecież właśnie chodzi w nauce.

O SAMOCHODACH PO RAZ TRZECI: WYNIKI ANALIZY REGRESJI DLA DANYCH SUROWYCH

Do tej pory konsekwentnie zapisywaliśmy równania regresji w postaci wy-


ników standaryzowanych. Aby wyznaczyć współczynnik regresji β, musieli-
śmy najpierw wyrazić wszystkie pomiary w postaci wyników standaryzowa-
nych z. Nie jest to wcale jednak konieczne. Równanie regresji dla „Ceny”
i „Mocy” samochodów sprzedawanych w 2004 roku w USA można też zapi-
sać w taki sposób:
Cena = 223,7 × Moc – 15 516,5
Zanim wyjaśnimy, w jaki sposób doszliśmy do takiego równania, sprawdź-
my, czy wynikające z niego przewidywania są takie same jak przewidywania
na podstawie równania dla zmiennych standaryzowanych. Weźmy tym ra-
ANALIZA KORELACJI I REGRESJI 545

zem pod uwagę nowy model volkswagena garbusa, czyli tzw. volkswagena
new beetle. Z pewnością wiesz, jak on wygląda, ale przyznasz, że jego po-
przednik miał w sobie jednak więcej uroku. Tak czy inaczej, w 2004 roku
w Stanach Zjednoczonych nowy garbus kosztował 21 055 dolarów, moc zaś
jego silnika oceniono na 150 KM. Zgodnie jednak z powyższym równaniem
regresji, ten model powinien kosztować trochę mniej:
Cena = 223,7 × 150 – 15 516,5 = 18 038 USD
Gdybyśmy chcieli ustalić cenę tego samochodu za pomocą równania regresji
wyrażonego w postaci wyników standaryzowanych z, najpierw powinniśmy
wyrazić moc new beetle’a w jednostkach standaryzowanych. W tym celu
skorzystamy z danych zawartych na internetowej stronie czasopisma Journal
of Statistics Education i po podstawieniu ich do wzoru otrzymujemy:

X MocVW − X Moc 150 − 215,89


zMoc = = = −0,9172
sMoc 71,84
Po podstawieniu tej wartości do równania regresji dla wyników standaryzo-
wanych otrzymamy:
zCena = 0,8269 × z Moc = 0,8269 × (−0,9172) = −0,7584
Wynik oznacza, że zgodnie z modelem regresji, cena nowego garbusa po-
winna być niższa o 0,7584 odchylenia standardowego od średniej ceny.
Znowu korzystamy z danych internetowych i okazuje się, że cena nowego
garbusa powinna wynosić:
X = X cena − 0,7584 × scena = 32 774,86 − 0,7584 × 19 431,72 = 18 042 USD
Jest to więc niemal dokładnie tyle samo, ile wyliczyliśmy na podstawie ta-
jemniczego wzoru z początku tego paragrafu. Niewielka różnica w przewi-
dywaniach wynika z zaokrągleń.
Powiedzmy zatem, co oznaczają liczby w równaniu regresji dla danych su-
rowych. Z matematycznego punktu widzenia są to po prostu parametry rów-
nania prostej Y = AX + B, opisującej położenie linii regresji na wykresie roz-
rzutu zmiennych, jak np. na rysunku 8.18. Linia przecinająca w poprzek ów
wykres jest właśnie opisana za pomocą magicznego równania regresji:
Cena = 223,7 × Moc – 15 516,5
Pierwsza liczba w tym równaniu, czyli 223,7, przed zmienną „Moc”, jest
liczbą oznaczającą stosunek przyrostu wartości zmiennej zależnej na pod-
stawie przyrostu wartości predyktora, druga zaś liczba jest wskaźnikiem
przesunięcia linii regresji w górę lub w dół, w stosunku do osi OX. Jeżeli jej
wartość jest ujemna, to linia regresji przecina oś OX na prawo od punktu
546 WNIOSKOWANIE STATYSTYCZNE

(0,0), a jeżeli jest dodatnia, to linia regresji przecina oś OX na lewo od tego


punktu. Pierwszą z tych liczb najczęściej się określa jako współczynnik re-
gresji i oznacza literą B (nie β, bo to jest współczynnik regresji dla wyników
standaryzowanych), druga z tych liczb to tzw. stała regresji. Podsumujmy
– ogólne równanie regresji dla wyników surowych wygląda następująco:
Y = B × X + Stała regresji

SUROWE CZY STANDARYZOWANE?

Tradycyjnie, gdy w podręczniku do statystyki opisuje się analizę regresji,


najpierw prezentowana jest wersja tego równania dla danych surowych,
a następnie dla danych standaryzowanych.
My przyjęliśmy odwrotną strategię, przede wszystkim dlatego, że – naszym
zdaniem – równanie w wersji standaryzowanej jest znacznie łatwiejsze do
interpretacji. Jeśli się dowiadujesz, że wartość współczynnika regresji wyno-
si np. 0,83, to wiesz, że wraz ze wzrostem wartości jednej zmiennej o jedno
odchylenie standardowe, wartości drugiej zmiennej rosną o 0,83 odchylenia
standardowego.
Równanie regresji dla danych standaryzowanych ma także inną ciekawą
właściwość – jest symetryczne. Niezależnie od tego, jaką zmienną wpisze
się po lewej, a jaką po prawej jego stronie, wartość współczynnika regresji β
zawsze jest taka sama. Już kilka stron wcześniej wprowadziliśmy ten zapis.
W odniesieniu do danych dotyczących mocy i cen samochodów równania
regresji wyglądają następująco:
zCena = 0,827 × zMoc
zMoc = 0,827 × zCena
Symetria ta wynika z oczywistego faktu, że wartość współczynnika regresji
dla danych standaryzowanych jest równa korelacji r Pearsona między dwo-
ma zmiennymi, która jest współczynnikiem symetrycznym.
Równania regresji dla danych surowych wyglądają nieco inaczej. Jeżeli
zmienną zależną jest „Cena”, a zmienną niezależną – „Moc”, to równanie
wygląda tak:
Cena = 223,7 × Moc – 15 516,5
Jeżeli jednak odwrócimy zmienne i „Moc” uczynimy zmienną wyjaśnianą
(zależną), a „Cena” będzie zmienną niezależną, to relacja między ceną i mo-
cą samochodów sprzedawanych w USA w roku 2004 będzie wyglądać na-
stępująco:
Moc = 0,003 × Cena + 115,69
ANALIZA KORELACJI I REGRESJI 547

To, która zmienna znajdzie się po lewej, a która po prawej stronie równania
regresji, ma zasadnicze znaczenie dla badacza. Z pojęciem regresji bowiem
ściśle się wiąże pojęcie przewidywania, a przewidywanie zakłada teoretycz-
ne uzasadnienie relacji między zmiennymi.
W przypadku takich zmiennych, jak cena i moc samochodu, trudno jest teo-
retycznie rozstrzygnąć, co na co wpływa. Prawdopodobnie zachodzi tu swe-
go rodzaju sprzężenie zwrotne: wzrost mocy silnika pociąga za sobą wyższe
koszty wytworzenia, a to przekłada się na wyższą cenę. Z kolei wyższa cena
musi mieć jakieś pokrycie w towarze, co w przypadku samochodu może
oznaczać podniesienie mocy silnika, ale to z kolei pociąga za sobą wyższe
koszty itd. W tym przypadku korelacja między zmiennymi „mówi” nam po
prostu, że cena związana jest z mocą w sposób liniowy (lub prawie liniowy)
i kolejność zmiennych w równaniu regresji nie ma aż tak dużego znaczenia.
Zupełnie inaczej jest jednak w odniesieniu do zmiennych, które łączą jakieś
logiczne związki. Na przykład równanie regresji, w którym zmienną zależną
jest liczba ciężarówek, a zmienną niezależną liczba wypadków, nie wydaje
się zbyt sensowne. To w końcu więcej ciężarówek powoduje więcej wypad-
ków, a nie odwrotnie.
Kolejność zmiennych w równaniu regresji ma zasadniczy wpływ na interpre-
tację zależności między zmiennymi, zwłaszcza wtedy, gdy wyniki równania
regresji podawane są w postaci danych surowych. Na przykład, gdy po lewej
stronie równania regresji znajduje się moc samochodu, czyli:
Moc = 0,003 × Cena + 115,69
wówczas możemy stwierdzić, że średni poziom mocy samochodu sprzeda-
wanego w USA w roku 2004 wynosi 115,69 KM, oraz dodatkowo, że za
każdego dolara dostaje się 0,003 KM mocy.
Znacznie trudniej jednak zinterpretować parametry równania regresji wtedy,
gdy po lewej stronie równania znajduje się cena samochodu, a po prawej je-
go moc, czyli:
Cena = 223,7 × Moc – 15 516,5
Oznaczałoby to, że w roku 2004 za każdego konia mechanicznego mocy
Amerykanin płacił 223,7 dolara i od ceny samochodu dostawał 15 516,50
dolarów upustu. Chociaż w gruncie rzeczy o to chodzi w tym równaniu, to
jednak podana interpretacja wydaje się mocno naciągana. W każdym razie
nie jest to chyba dobry opis stanu świadomości ani dealera sprzedającego
samochody, ani nabywcy.
Przedstawianie równania regresji w postaci wyników standaryzowanych
sprawia, że relacja między zmiennymi, opisana jako proporcja przyrostu
wartości standaryzowanych jednej zmiennej na podstawie drugiej, jest ła-
548 WNIOSKOWANIE STATYSTYCZNE

twiejsza w interpretacji niż przedstawianie tego równania w wynikach suro-


wych. Jest tak głównie dlatego, że można wtedy wprost interpretować war-
tość współczynnika regresji β jako miarę siły związku pomiędzy analizowa-
nymi zmiennymi.
Porzućmy na razie rozważania dotyczące relacji między mocą silnika a ceną
samochodu i wróćmy do problemu związku między czasem snu a maksy-
malną długością życia ssaków, opisanego przez Truetta Allisona i Domenica
Cicchettiego. Przypomnijmy, że równanie regresji dla wartości standaryzo-
wanych miało postać następującą:
zczas snu = –0,41 × zmaksymalna długość życia
Odpowiednikiem tego równania dla danych surowych jest następujący zapis:
Czas snu = –0,1 × maksymalna długość życia + 12,44
Oznacza on, że przeciętnie (pamiętajmy, że dysponujemy modelem) ssaki
uwzględnione w badaniu śpią 12,44 godziny, minus 0,1 godziny za każdy
rok życia. Z tego wynika, że człowiek, który żyje maksymalnie 100 lat, po-
winien otrzymać coś w rodzaju „kary” w postaci skrócenia czasu snu
o 0,1 × 100, czyli o 10 godzin w stosunku do średniej równej 12,44 godziny.
Wiemy, że to nieprawda.
Nie możemy jednak zapominać, że współczynnik determinacji r2 dla relacji
między zmiennymi w tym badaniu wynosi zaledwie 0,16, nie możemy więc
zbyt wiele oczekiwać po dopasowaniu modelu regresji do danych rzeczywi-
stych. Do dokładności przewidywania jeszcze wrócimy, ale najpierw do-
mknijmy sprawę obliczania współczynników równania regresji dla danych
surowych.

OBLICZANIE WSPÓŁCZYNNIKÓW RÓWNANIA REGRESJI DLA DANYCH SUROWYCH

Obliczanie współczynników równania regresji jest dosyć skomplikowane


i nie namawiamy Cię zanadto do stosowania tradycyjnej metody „papier –
ołówek”. Jak zawsze, może Cię w tym wyręczyć komputer, a nawet dobry
kalkulator z wbudowaną funkcją obliczania współczynników równania re-
gresji. Nie zwalnia nas to jednak od podania wzorów służących do oblicza-
nia wartości tych współczynników. Rozpocznijmy od wzoru pozwalającego
obliczyć wartość współczynnika regresji B:
N

∑X Y i i − N XY
BYX = i =1
N

∑X
2
i
2
−NX
i =1
ANALIZA KORELACJI I REGRESJI 549

∑X Y
i =1
i i suma iloczynów par pomiarów ze zbiorów X oraz Y,

∑X
i =1
i
2
zsumowane wartości podniesionych do kwadratu pomiarów zmiennej X,

X iY średnie arytmetyczne w obu zbiorach,


N liczba wszystkich par.

Ponieważ nie spodziewamy się, abyś kiedykolwiek samodzielnie obliczał


współczynnik B, a zarazem nie chcemy Cię pozbawić tej przyjemności, pro-
ponujemy więc, byśmy wspólnie zrobili kilka rachunków.
Pamiętasz dane dotyczące ocen z matematyki i fizyki pięciu dość zdolnych
uczniów (zob. tab. 8.19)? Na wszelki wypadek powtórzymy je w nieco
prostszej formie, jako zbiór par pomiarów:
(X,Y) = {(2,3) (3,4) (4,5) (4,6) (3,4)}
W każdej parze pierwsza liczba to ocena z matematyki, a druga – z fizyki.
Do obliczenia współczynnika regresji B potrzebne będą iloczyny wszystkich
par pomiarów, a więc:
2 × 3 = 6, 3 × 4 = 12, 4 × 5 = 20, 4 × 6 = 24, 3 × 4 = 12
które trzeba dodać do siebie:
N

∑ X Y = 6 + 12 + 20 + 24 + 12 = 74
i =1
i i

Będziemy również potrzebowali iloczynu średnich z obu zbiorów, czyli:


X Y = 3,2 × 4,4 = 14,08
Z kolei średnią ze zbioru X należy podnieść do kwadratu:
2
X = 3,22 = 10,24
oraz obliczyć sumę podniesionych do kwadratu wartości zbioru X:
N

∑X
i =1
i
2
= 22 + 32 + 42 + 42 + 32 = 54

Mamy już chyba wszystkie klocki, możemy więc teraz wstawić je do wzoru
(pamiętając, że N = 5) i w rezultacie otrzymujemy następujący wynik:
N

∑ X Y − N XY
i i
74 − 5 × 14,08
B yx = i =1
= = 1,29
N
54 − 5 × 10,24
∑X
2
i
2
−NX
i =1
550 WNIOSKOWANIE STATYSTYCZNE

Na szczęście wzór służący do obliczania stałej regresji jest prostszy. Znając


wartość współczynnika regresji B oraz średnie dla obu zbiorów zmiennych,
możemy rozwiązać równanie:
stała = Y − BYX × X = 4,4 − 1,29 × 3,2 = 0,27
Ostatni krok polega na ułożeniu równania regresji, ukazującego związek
między ocenami z fizyki i z matematyki w grupie dość zdolnych uczniów:
Y = 1,29 × X + 0,27
Zamiast iksów i igreków możemy użyć opisowych nazw zmiennych i wtedy
równanie będzie bardziej czytelne:
Ocena z fizyki = 1,29 × ocena z matematyki + 0,27.
No to sprawdźmy, czy przewidywanie na podstawie tego równania jest takie
samo, jak przewidywanie na podstawie równania regresji dla wyników stan-
daryzowanych. Weźmy dla przykładu wyniki Jurka Krzaka, który w teście
z matematyki dostał tróję. Na podstawie równania regresji można by się po
nim spodziewać, że z fizyki dostanie...
Ocena z fizyki = 1,29 × 3 + 0,27 = 4,14
I jest to dokładnie tyle samo, ile wychodzi z przewidywania na podstawie
równania regresji dla danych standaryzowanych, a co więcej – niewiele się
różni od oceny, którą Jurek naprawdę dostał z fizyki (por. tab. 8.20)
Przedstawiony wyżej współczynnik regresji oznaczyliśmy jako BYX. Chcieli-
śmy w ten sposób zasygnalizować, że jest to współczynnik równania regre-
sji, w którym po lewej stronie wpisana jest zmienna Y, a po prawej zmienna
X. Znacznie ważniejsze od tego jest jednak to, którą zmienną traktujemy ja-
ko zmienną zależną, a którą jako predyktor. Ponieważ równanie regresji dla
wyników surowych jest niesymetryczne, więc zamiana kolejności pomiarów
w parach wpływa na wartości obu współczynników regresji.
Jeżeli więc ustalimy, że zmienną Y będzie ocena z matematyki, a zmienną
X ocena z fizyki, to otrzymamy następującą wartość współczynnika regresji:
N

∑X Y i i − N XY
74 − 5 × 14,08
BYX = i =1
= = 0,69
N
102 − 5 × 4,4 2
∑X
2
i
2
−NX
i =1

Ponieważ zamieniliśmy miejscami wartości X-ów i Y-ów, zmienił się rów-


nież mianownik we wzorze – podstawiliśmy sumę kwadratów zmiennej
„ocena z fizyki” oraz podniesioną do kwadratów średnią z ocen z fizyki (bo
teraz jest to zmienna X). Po zamianie zmiennych stała regresji wynosi więc:
ANALIZA KORELACJI I REGRESJI 551

stała = Y − BYX × X = 3,2 − 0,69 × 4,4 = 0,16


Obliczając wartość stałej, zamieniliśmy kolejność średnich we wzorze. Osta-
tecznie otrzymujemy drugie równanie regresji, które tym razem pozwala na
przewidywanie ocen z matematyki na podstawie ocen z fizyki:
Ocena z matematyki = 0,69 × ocena z fizyki + 0,16
Skoro zaś Jurek Krzak dostał 4 z fizyki, to z matematyki powinien mieć:
Ocena z matematyki = 0,69 × 4 + 0,16 = 2,92
I wszystko się zgadza. Jurek naprawdę nie był orłem z matematyki i – jak
pamiętasz – z testu dostał 3, więc i tym razem przewidywanie na podstawie
równania regresji jest zadowalające. Nawiasem mówiąc, można się było
spodziewać całkiem przyzwoitej dokładności przewidywania, ponieważ war-
tość standaryzowanego współczynnika regresji β = 0,94.

CZAS NA KRÓTKIE PODSUMOWANIE

Przedstawiliśmy wzory na obliczanie wartości współczynników regresji dla


danych surowych, ale nie napisaliśmy, skąd się one wzięły. Matematycznie
rzecz biorąc, sprawa jest nieco skomplikowana i wystarczy, jeśli powiemy
tylko, że:
• Linia regresji to linia najmniej oddalona od rozkładu par pomiarów
w układzie współrzędnych XY.
• Równanie takiej prostej można znaleźć, poszukując spośród wielu teore-
tycznie możliwych prostych takiej, dla której suma kwadratów różnic
między otrzymanymi wartościami Y i wartościami przewidywanymi,
czyli leżącymi na tej linii, jest jak najmniejsza.
• Metoda taka nazywa się metodą najmniejszych kwadratów i z matema-
tycznego punktu widzenia sprowadza się do znalezienia parametrów
prostej, dla której suma kwadratów różnic jest najmniejsza.
Szczegóły tej zabawy darujemy sobie i Tobie.

PREDYKCJA ZNACZY PRZEWIDYWANIE

Obliczenie parametrów linii regresji pozwala na:


• ustalenie siły związku między dwiema zmiennymi,
• znalezienie metody pozwalającej na przewidywanie wartości jednej
zmiennej na podstawie wartości drugiej zmiennej.
552 WNIOSKOWANIE STATYSTYCZNE

Zajmijmy się nieco dokładniej tym drugim przypadkiem. Dla ilustracji, raz
jeszcze skorzystamy z danych zawartych w Polskim Generalnym Sondażu
Społecznym. Tym razem do analizy wybraliśmy odpowiedzi 1002 osób ba-
danych w 2002 roku na dwa pytania, które dotyczyły ich zarobków.
W pierwszym chodziło o oszacowanie przeciętnych zarobków netto (czyli
po odjęciu podatków) miesięcznie, a w drugim – o określenie, na jakie za-
robki netto miesięcznie osoba badana, „swoim zdaniem”, zasługuje.
Jak można się było spodziewać, aktualne zarobki były istotnie niższe niż te,
na które badani – jak sądzili – zasługiwali. Średnia arytmetyczna dla pierw-
szej zmiennej wyniosła 1188,51 zł, odchylenie standardowe – 1082,2. Z ko-
lei średnia dla drugiej zmiennej wyniosła 2023,70 zł, a odchylenie standar-
dowe – 1578,12 zł. Związek między zmiennymi, zapisany w postaci równa-
nia regresji, wygląda następująco:
Dochody „zasłużone” = 1,1 × Dochód aktualny + 713 zł
Równanie można łatwo zinterpretować. Wynika z niego, że przeciętny, czyli
tzw. statystyczny Polak chciałby zarabiać 10 procent więcej niż obecnie plus
713 złotych. Ponieważ osoby badane w Polskim Generalnym Sondażu Spo-
łecznym są próbą reprezentatywną dla populacji Polaków powyżej 18. roku
życia, zatem na podstawie równania regresji można przewidywać, jaka jest
rzeczywista relacja pomiędzy dochodami, na które ktoś we własnych oczach
zasługuje, a tymi, które otrzymuje. Jeżeli np. ktoś zarabia 1000 złotych, to
można policzyć, że oczekuje, iż powinien zarabiać:
1,1 × 1000 + 713 = 1813 zł
W ogólnej postaci zapisaliśmy równanie regresji jako Y = BX + stała.
Współczynnik B określa, pod jakim kątem prosta będzie nachylona do osi
OX. Jeżeli jego wartość będzie dodatnia, to wraz ze wzrostem wartości
zmiennej X będą też rosły wartości zmiennej Y. Prosta nachyli się do osi OX
pod kątem między 0 i 90 stopni. Tak jest w przypadku równania łączącego
aktualne zarobki i zarobki „zasłużone”: w miarę wzrostu jednych rosną dru-
gie. Gdyby współczynnik B był ujemny, wtedy wzrostowi wartości X towa-
rzyszyłby spadek wartość Y, a linia regresji ułożyłaby się pod kątem więk-
szym niż 90 stopni w stosunku do osi OX.
Często, gdy równanie regresji wykorzystywane jest do przewidywania war-
tości jednaj zmiennej na podstawie wartości innej zmiennej, mówi się o
predykcji zmiennej Y na podstawie zmiennej X. Z predykcją mamy do czy-
nienia w wielu dziedzinach psychologii. Jest ona wykorzystywana np. w
psychologii różnic indywidualnych, gdzie na podstawie znanej relacji Y =
BX + + stała można przewidywać nasilenie nieznanych cech osób badanych
na podstawie znanych. W pewnym sensie jest to klasyczny sposób widzenia
ANALIZA KORELACJI I REGRESJI 553

regresji, właśnie bowiem w taki sposób wykorzystywał ją sir Francis Galton,


przewidując wielkość „geniuszu” dzieci na podstawie „geniuszu” ich ojców.
Czy znajomość linii regresji pozwala na dokładne przewidywanie? Mieliśmy
już kilka razy okazję przekonać się co do tego, że z tym bywa różnie, i od-
powiedź na to pytanie brzmi: „To zależy”. Przede wszystkim zależy od tego,
w jakim stopniu parametry równania regresji, oszacowane na podstawie ze-
branych danych, odpowiadają faktycznym parametrom tego równania w po-
pulacji. Parametry w równaniu:
Dochody „zasłużone” = 1,1 × Dochód aktualny + 713
czyli liczby „1,1” i „713”, zostały oszacowane na podstawie danych dla pró-
by 1002 dorosłych Polaków, wylosowanej z całej populacji. Tak jak z każ-
dym innym parametrem rozkładu, np. ze średnią lub wariancją, oszacowanie
na podstawie próby tylko z pewnym prawdopodobieństwem odpowiada rze-
czywistym wartościom w całej populacji.
Innymi słowy, gdybyśmy wyznaczyli parametry równania na podstawie ba-
dania wszystkich dorosłych Polaków, niemal z pewnością ich wartości były-
by inne. Co więcej, mogłyby być inne nawet wtedy, gdybyśmy wylosowali
z populacji drugą, również 1002-osobową próbę. Jedyne, co możemy zrobić
w tej sytuacji, to przyjąć, że losowanie w pewnym sensie gwarantuje, iż róż-
nice między oszacowywanymi parametrami na podstawie każdej próby tego
typu dadzą rezultaty podobne do tych, które właśnie uzyskaliśmy.
Parametry otrzymane na podstawie próby są przecież tylko estymatorami
rzeczywistych parametrów populacji. Sporo miejsca poświęciliśmy w na-
szym przewodniku temu zagadnieniu w odniesieniu do średniej arytmetycz-
nej. Te same reguły obowiązują w odniesieniu do parametrów równania re-
gresji. Podobnie jak w przypadku średniej arytmetycznej obliczaliśmy dla
niej błąd standardowy, tak też można obliczyć błędy standardowe dla obu
parametrów regresji. Daliśmy sobie spokój ze wzorami i korzystając z kom-
putera, policzyliśmy błędy standardowe dla obu parametrów równania doty-
czącego związku pomiędzy aktualnymi i zasłużonymi dochodami:
sB = 0,03
sstała = 48,51
No to brnijmy dalej.

KRZYWE UFNOŚCI DLA LINII REGRESJI

Błędy standardowe dla parametrów w równaniu regresji mają rozkład t Stu-


denta. Dzięki temu możemy określić ich przedziały ufności dla zadowalają-
554 WNIOSKOWANIE STATYSTYCZNE

cego nas poziomu oszacowania. Podobnie jak dotąd, możemy się zgodzić na
popełnienie błędu w zakresie 5% przypadków.
Wróćmy więc do przykładu z osobą, której dochód obecnie wynosi 1000 zł.
Na podstawie równania regresji możemy oczekiwać, że uważa ona, iż po-
winna zarabiać nie 1000, lecz 1813 zł.
Korzystając z programu komputerowego, możemy dość łatwo wyznaczyć
przedziały ufności zmiennej zależnej dla dowolnej wartości predyktora.
Dolna granica przedziału, który z prawdopodobieństwem 95% pokrywa rze-
czywistą wartość oszacowania dochodów oczekiwanych przez wszystkie
osoby badane, obecnie zarabiające po 1000 zł, wynosi 1750,38 zł, a górna
granica tego przedziału – 1880,46 zł.
Oznacza to, że gdybyśmy oszacowywali współczynniki równania regresji
dla nieskończenie wielu losowych prób Polaków, z których każda liczyłaby
1002 osoby, wtedy parametry regresji dla każdego z tych oszacowań byłyby
różne, ale dla 95% z tych wszystkich teoretycznie możliwych oszacowań pa-
rametry równania byłyby takie, że dochody, na które – swoim zdaniem – za-
sługuje osoba zarabiająca 1000 zł, znajdowałyby się w przedziale (1750,38;
1880,46).
Prezentując graficznie wynik równania regresji, możemy:
• zadowolić się tą jedną linią, którą akurat otrzymaliśmy na podstawie
próby, i uznać, że jest ona najlepszym oszacowaniem związku, czyli
funkcji łączącej obie zmienne;
• rozszerzyć nasze przewidywanie i myśleć nie o jednej linii, ale o prze-
dziale wielu możliwych linii regresji, które z określonym przez nas
prawdopodobieństwem mieściłyby się w wyznaczonych granicach. Gra-
nice te na wykresie wyznaczałyby krzywe ufności dla regresji.
Dla danych dotyczących aktualnych i oczekiwanych dochodów Polaków
obie te możliwości ilustruje rysunek 8.19.
Na rysunku 8.19 znajdują się trzy linie: środkowa to linia regresji, jaką
otrzymaliśmy na podstawie analizy danych pochodzących od 1002 Polaków,
oraz dwie krzywe znajdujące się na prawo i na lewo od środkowej, zwane
krzywymi ufności. Ograniczają one obszar, w którym znalazłoby się 95%
wszystkich możliwych linii regresji, gdybyśmy nieskończenie wiele razy
powtórzyli to samo badanie na próbach o tej samej liczebności.
Zauważ, że w najbliższym sąsiedztwie średnich dla obu zmiennych krzywe
ufności zbiegają się z linią regresji, co oznacza, że przewidywanie na pod-
stawie regresji jest najdokładniejsze, gdy dotyczy pomiarów znajdujących
się blisko średniej.
ANALIZA KORELACJI I REGRESJI 555

Rysunek 8.19. Linia regresji 22000


i krzywe ufności dla związku 20000
między aktualnymi i oczeki-

Oczekiwane dochody Polaków w 2002 roku


18000
wanymi dochodami Polaków
w roku 2002 [STATISTICA] 16000
14000
12000
10000
8000
6000
4000
2000
0
-2000
-2000 0 2000 4000 6000 8000 10000 12000 14000 16000
Aktualne dochody Polaków w 2002 roku

Ponieważ do przygotowywania wykresu rozrzutu przedstawionego na wy-


kresie 8.19 dysponowaliśmy bardzo dużą liczbą danych, więc krzywe ufno-
ści znajdują się bardzo blisko linii regresji.
Dla porównania rzuć okiem na położenie krzywych ufności dla regresji po-
między czasem snu i maksymalną długością życia ssaków badanych przez
Allisona i Cicchettiego (zob. rys. 8.20).
Rysunek 8.20. Linia regresji 22
i krzywe ufności dla maksy- 20
malnej długości życia i czasu
Całkowity czas snu (godziny na dobę)

snu ssaków badanych przez 18


Allisona i Chicchettiego 16
[STATISTICA]
14

12

10

0
-10 10 30 50 70 90 110
Maksymalna długość życia (lata)

Linia regresji i krzywe ufności przedstawione na rysunku 8.20 nie są już tak
blisko siebie położone, jak linie na poprzednim wykresie. Ich odsunięcie od
linii regresji jest widomym znakiem słabości modelu regresyjnego dla anali-
zowanych danych.
Mieliśmy już okazję się o tym przekonać, interpretując niezbyt wysoki
współczynnik determinacji r2 dla korelacji między czasem snu a maksymal-
ną długością życia.
556 WNIOSKOWANIE STATYSTYCZNE

ISTOTNOŚĆ WSPÓŁCZYNNIKA REGRESJI

Wielkość współczynnika regresji dla danych standaryzowanych, czyli β,


oznacza kąt nachylenia linii regresji w układzie współrzędnych. Wartość
* Dotyczy to tylko sytuacji, tego współczynnika waha się w przedziale od –1 do 1*. Jeżeli współczynnik
w których równanie regresji regresji ma wartość ujemną, to linia regresji nachylona jest tak, jak na ry-
dotyczy związku między
dwiema zmiennymi. sunku 8.20. Jeżeli zaś współczynnik regresji ma wartość dodatnią, to linia
regresji ma takie nachylenie, jak na rysunku 8.19.
Co dzieje się wtedy, gdy wartość współczynnika regresji wynosi 0? W takiej
sytuacji linia regresji jest równoległa do osi OX, jeżeli wyznaczyliśmy ją na
podstawie wartości rzeczywistych, albo pokrywa się z osią OX, jeżeli wy-
znaczyliśmy ją na podstawie wartości standaryzowanych. Oczywiście zero-
wa wartość współczynnika oznacza, że nie ma żadnego związku między
zmiennymi. W odniesieniu do danych dotyczących aktualnych i oczekiwa-
nych zarobków, zerowa wartość współczynnika regresji oznaczałaby mniej
więcej tyle, że bez względu na wielkość aktualnych zarobków, wszyscy
uważaliby, że zasługują dokładnie na tyle samo.
Niezależnie od tego, czy wartość współczynnika regresji jest duża, czy też
bliska 0, należy jednak pamiętać, że jest to tylko wartość oszacowanego pa-
rametru populacji na podstawie badanej próby. Należy zatem sprawdzić, czy
oszacowanie, jakiego dokonaliśmy, w ogóle wskazuje na jakikolwiek zwią-
zek między analizowanymi zmiennymi, a więc czy wskaźnik ten istotnie
różni się od 0. Łatwo do zrobić dla wartości standaryzowanej β, która ma
rozkład t Studenta. Za pomocą następującej formuły można łatwo znaleźć
wartość w rozkładzie t Studenta dla każdej wielkości β:
N −2
tβ = β
1− β 2
N liczebność próby
β standaryzowany współczynnik regresji dla przewidywanej zmiennej Y.

W przypadku danych dotyczących związku między maksymalną długością


życia a czasem snu:
54 − 2
t = −0,41 = −3,24
1 − (−0,41) 2
Tak jak w każdym przypadku, gdy oblicza się test t, trzeba jeszcze spraw-
dzić, czy jego wynik jest wyższy od wartości krytycznej, dla liczby stopni
swobody df = N – 2 = 54 – 2 = 52. Wartość krytyczna dwustronnego testu
t0,05(52) = 2,01. Ponieważ bezwzględna wartość otrzymanego wyniku testu
t jest wyższa niż wartość krytyczna, można odrzucić hipotezę zerową, że
otrzymana wartość β = 0.
ANALIZA KORELACJI I REGRESJI 557

Wartość testu t dla współczynnika regresji między dochodami aktualnymi


i oczekiwanymi wynosi t = 36,52 i dla df = 1002 – 2 = 1000 i jest istotna na
poziomie p<0,000001.

TEST F CZY t?

Kilkanaście stron wcześniej, sprawdzając, w jakim stopniu model regresji


pasuje do rzeczywiście zgromadzonych danych, korzystaliśmy z analizy wa-
riancji i testu F (zob. tab. 8.23). Z kolei w poprzednim paragrafie, w podob-
nym celu, sprawdzaliśmy istotność współczynnika regresji β za pomocą te-
stu t. A więc w końcu, jak: F czy t?
Sprawa jest prosta. Gdy mamy do czynienia tylko z jednym predyktorem,
czyli z jedną zmienną niezależną, wtedy nie ma znaczenia, który sposób
oceny istotności regresji wybierzemy. Oba są równoważne, a między wyni-
kiem testu F i t zachodzi taka zależność, że:
F = t2
Jeżeli więc jedna wartość jest istotna, to druga też. Sprawdźmy to na przy-
kładzie. Wynik testu t dla regresji między czasem snu a maksymalną długo-
ścią życia równa się t = –3,24. Po podniesieniu do kwadratu otrzymujemy
t2 = –3,242 = 10,50
Jest to niemal dokładnie tyle, ile wyniósł wynik testu F w następstwie prze-
prowadzonej analizy wariancji dla tej samej regresji (por. tab. 8.23). Różnicę
równą 0,02 między wynikiem t2 i F przypiszemy, jak zawsze, zaokrągleniu
wyników pośrednich, z których korzystaliśmy przy obliczeniach.
Jeżeli zaś będziemy mieli do czynienia z więcej niż jednym predyktorem,
czyli z wieloma zmiennymi niezależnymi, których wpływ badamy na
zmienną zależną, to nie możemy już zamiennie posługiwać się testem F i t.
O tym właśnie będzie mowa dalej.

REGRESJA WIELOKROTNA, CZYLI OD CZEGO ZALEŻY CZAS MARZEŃ SENNYCH U SSAKÓW?

Niezależnie od tego, że analiza regresji pozwala na:


• ustalenie modelu zależności między predyktorem a zmienną zależną,
• przewidywanie wartości zmiennych zależnych na podstawie predyktora,
to jedną z największych jej zalet jest możliwość stosowania jej wtedy, gdy
* W programie STATISTICA chcemy wziąć pod uwagę więcej niż tylko jeden predyktor. Regresja, w któ-
zamiast nazwy „regresja wielo-
krotna”, używa się nazwy „re- rej uwzględnia się wpływ wielu zmiennych niezależnych na zmienną objaś-
gresja wieloraka”. nianą, czyli zmienną zależną, nosi nazwę regresji wielokrotnej*.
558 WNIOSKOWANIE STATYSTYCZNE

* Mówiąc „analiza regresji”, Poziom obliczeń regresji wielokrotnej jest zbyt skomplikowany, żeby szcze-
mamy na myśli sytuację, w któ- gółowo się nim tutaj zajmować. Raczej skoncentrujemy się na tym, co ozna-
rej występuje tylko jedna zmien-
na zależna, czyli objaśniana. czają wyniki takiej analizy.
Oczywiście są i takie metody
statystyczne, które pozwalają na Jak zwykle zacznijmy od możliwie najprostszego przykładu, a więc w tym
budowanie modeli łączących przypadku od analizy regresji dla dwóch zmiennych niezależnych i jednej
więcej niż jedną zmienną zależ-
ną z grupą zmiennych niezależ-
zmiennej zależnej*. Wykorzystamy do tego ponownie dane dotyczące czasu
nych. Omawianie jednak takich snu ssaków. Tym razem interesować nas będzie całkowity czas snu, jako
metod badawczych znacznie zmienna zależna, oraz maksymalna długość życia i czas ciąży, jako zmienne
wykraczałoby poza zakres na-
szego przewodnika. niezależne, czyli wyjaśniające. Średnie i odchylenia standardowe dla tych
trzech zmiennych przedstawione są w tabeli 8.27.

Tabela 8.27. Podstawowe sta- a Odchylenie


Zmienne Średnia
tystyki opisowe dla czasu snu, standardowe
maksymalnej długości życia i
czasu ciąży 51 ssaków (bada- Maksymalna długość życia (w latach) 20,147 19,035
nie Allisona i Cicchettiego). Czas ciąży (w dniach) 142,069 142,460
Całkowity czas snu (w godzina na dobę) 10,349 4,680
a
Średnie i odchylenia standardowe dla zmiennych: maksymalna długość życia i czas snu, trochę się różnią
od wartości, jakie braliśmy pod uwagę wcześniej. Różnica wynika ze zmiany liczebności zbioru pomiarów, dla
których zostały one obliczone. Poprzednio zbiór liczył 54 ssaki, a obecnie 51. Uwzględniając jeszcze jedną
zmienną (czas ciąży), z poprzedniego zbioru danych musieliśmy usunąć trzy przypadki, dla których nie poda-
no informacji dotyczącej czasu ciąży.

Wyniki regresji wielokrotnej dla danych przedstawionych w tabeli 8.27 za-


wiera tabela 8.28.
Zasadniczym celem wszystkich regresji, z jakimi mieliśmy do tej pory do
czynienia, było zbudowanie modelu, który pozwalałby na ocenę wpływu
predyktora na zmienną zależną. Podobnie jest w przypadku regresji, której
wyniki przedstawione są w tabeli 8.28.
Tabela 8.28. Wyniki regresji Podsumowanie regresji zmiennej zależnej (całkowity czas snu):
2 2
wielokrotnej dla zmiennych: r = 0,63; r = 0,40; skorygowany r = 0,37; F(2, 48) = 15,719; p < 0,0
całkowity czas snu (zmien-
na zależna), maksymalna Błąd stan- Błąd stan-
Zmienne β B t(48) p
długość życia i czas ciąży dardowy dardowy
(predyktory) [STATISTICA] Wyraz wolny 13,269 0,792 16,752 0,001
Maksymalna
0,008 0,146 0,002 0,036 0,055 0,956
długość życia
Czas ciąży -0,634 0,146 –0,021 0,005 –4,355 0,001

Zmienną zależną jest całkowita długość snu. W tabeli, w pierwszej kolum-


nie, czyli w boczku, znajdują się nazwy tych zmiennych, które zdefiniowali-
śmy jako niezależne w analizie regresji. Są to predyktory.
Dla każdego z tych predyktorów obliczona jest wartość standaryzowanego
współczynnika regresji β. Wartości tych współczynników nie są już równe
ANALIZA KORELACJI I REGRESJI 559

współczynnikom korelacji między miarami predyktorów i zmiennej zależ-


nej. Są to wystandaryzowane, ale w gruncie rzeczy dosyć abstrakcyjne, mia-
ry wpływu zmiennej niezależnej na zmienną zależną.
Chociaż mogą one być mniejsze od –1 lub większe od +1, to – podobnie jak
w przypadku współczynnika korelacji – ich wartość interpretuje się jako
wskaźnik siły związku między zmiennymi, a zatem wartość zerowa będzie
wskaźnikiem braku związku, o jego kierunku zaś wnosimy na podstawie
znaków + lub –.
Nawiasem mówiąc, właśnie dlatego, że współczynniki β w regresji wielo-
krotnej nie są współczynnikami korelacji, w modelu regresji jedno-jedno-
* To znaczy: jedna zmienna zmiennowej* też się używa symbolu β, aby podkreślić fakt, że wartość tego
niezależna – jedna zmienna współczynnika nie zawsze jest równa korelacji. Zasada ta nie obowiązuje
zależna.
tylko w przypadku równania dla jednej zmiennej niezależnej i jednej zmien-
nej zależnej.
Porównując bezwzględne wartości współczynników β, można uporządkować
predyktory ze względu na ich wpływ na zmienną zależną.
Współczynnik β, będący miarą wpływu zmiennej „maksymalna długość ży-
cia”, wynosi 0,008, a współczynnik związany z wpływem zmiennej „czas
ciąży” = –0,634.
Na podstawie drugiego z tych wskaźników można wnioskować, że im dłuż-
szy jest czas ciąży u ssaka, tym krótszy czas snu dorosłego osobnika. Dodat-
nia wartość współczynnika β, związana z wpływem maksymalnej długości
życia, sugerowałaby wprost proporcjonalny związek tej zmiennej z czasem
snu, ale jego wartość jest tak niska, że w zasadzie można ten wpływ zupełnie
zignorować.
Potwierdzają to wyniki testu t (spójrz na dwie ostatnie kolumny z prawej
strony w tabeli 8.28). W przypadku regresji wielokrotnej obowiązuje bo-
wiem dokładnie taka sama zasada, jak w modelu jedno-jednozmiennowym:
jeżeli wynik testu t nie jest istotny statystycznie, to należy uznać, że w całej
populacji wartość współczynnika regresji β nie różni się istotnie od zera.
Wolny wyraz w tabeli 8.28 oznacza tzw. resztę, czyli wpływ tych wszyst-
kich czynników, których w równaniu regresji nie kontrolujemy. Jak widać,
wpływ ten bynajmniej nie jest mały.

REGRESJA WIELOKROTNA I ANALIZA WARIANCJI

Ścisłe związki między regresją wielokrotną i analizą wariancji są uzasadnio-


ne co najmniej z dwóch powodów, a nawet z trzech. O dwóch napiszemy
dokładniej, trzeci tylko zasygnalizujemy.
560 WNIOSKOWANIE STATYSTYCZNE

Najpierw przypomnijmy, że ostatecznym rezultatem każdej analizy regresji


(prostej czy wielokrotnej) jest zbudowanie modelu, który będzie możliwie
jak najlepiej dopasowany do danych empirycznych. Wprawdzie nie zawsze
udaje się skonstruować idealny model, ale większość z nich i tak jest bar-
dziej użyteczna niż brak jakiegokolwiek rozwiązania. W przypadku regresji
prostej ogólny model, dla wyników standaryzowanych, wygląda tak:
y = βx + ε,
a dla regresji wielokrotnej, z dwoma predyktorami, tak:
y = β1x1 + β2x2 + ε
gdzie β1 i β2 to standaryzowane współczynniki regresji, będące miarami
wpływu predyktorów x1 oraz x2 na zmienną zależną. Im więcej jest predykto-
rów, tym więcej w modelu regresji par iloczynów βi xi. Symbol ε – jak to już
pisaliśmy – oznacza tzw. wyraz wolny lub resztę, czyli wpływ tych czynni-
ków, dla których nie znamy wartości β, ponieważ ich nie kontrolowaliśmy.
Pierwszy związek między analizą wariancji i regresji wielokrotnej jest taki
sam jak między analizą wariancji i regresją prostą. Otóż metoda analizy wa-
riancji jest wykorzystywana w tym celu, aby sprawdzić, czy do otrzymanych
danych lepiej pasuje model opisany w równaniu regresji, czy też „model
losowy”.
Innymi słowy, analiza wariancji pozwala nam stwierdzić, czy kombinacja
zmiennych niezależnych i współczynników β lepiej wyjaśnia zmienną zależ-
ną niż odwołanie się do działania przypadku. Wynik analizy wariancji dla
regresji wielokrotnej jest podawany w podobnej tabeli, jak w przypadku re-
gresji prostej. Dla danych dotyczących czasu snu wynik ten przedstawiony
jest w tabeli 8.29.
Wyniki podane w wierszu nazwanym „Regresja” jednoznacznie wskazują na
to, że do danych otrzymanych lepiej pasuje model regresji niż rozwiązanie
odwołujące się do czystego przypadku. Gdy stosujesz regresję dla jednej
zmiennej zależnej i jednej zmiennej niezależnej, wtedy na podstawie wyniku
analizy wariancji wiesz, że właśnie ta zmienna niezależna wpływa (lub nie
wpływa) istotnie za zmienną zależną (jeśli wolisz unikać określeń przyczy-
nowo-skutkowych, to zamiast słowa „wpływa” możesz użyć wyrażenia: „ma
związek”). Stwierdzenie, że regresja lepiej pasuje do danych niż odwołanie
się do przypadku, nie jest ostatnim etapem analizy wyniku w modelu regresji
wielokrotnej. Za pomocą testu t powinieneś jeszcze sprawdzić, który z pre-
dyktorów ma statystycznie istotny wpływ na zmienną zależną, czyli w od-
niesieniu do którego można odrzucić hipotezę zerową: β = 0. Jak wynika
z tabeli 8.28, dla danych dotyczących czasu snu, jedynym czynnikiem istot-
nie wpływającym na ten czas jest czas ciąży.
ANALIZA KORELACJI I REGRESJI 561

Tabela 8.29. Wyniki analizy Suma Średni


wariancji dla związku pomię- Efekt df F Istotność
kwadratów kwadrat
dzy czasem snu, maksymal-
ną długością życia i czasem
ciąży [STATISTICA] Regresja 433,295 2 216,648 15,719 0,001

Reszta 661,572 48 13,783

Razem 1094,867

Drugi związek regresji wielokrotnej z analizą wariancji opiera się na pewnej


analogii. Stosując obie te metody, możesz stwierdzić, które ze zmiennych
niezależnych mają istotny wpływ na zmienną zależną. W przypadku analizy
wariancji uznajesz wpływ każdego czynnika eksperymentalnego za istotny
wtedy, gdy jego prawdopodobieństwo wyrażone za pomocą wyniku testu F
jest mniejsze od przyjętego wcześniej kryterium α. W przypadku regresji
wielokrotnej jest podobnie, choć najpierw dokonujesz całościowej oceny
modelu (test F), a potem sprawdzasz, czy wpływ każdej ze zmiennych nieza-
leżnych jest istotny (testy t).
Na podstawie analiz danych przeprowadzonych za pomocą obu metod do-
chodzisz do podobnych wniosków: możesz ustalić, które ze zmiennych nie-
zależnych mają związek ze zmienianiem się, a więc wariancją w zakresie
zmiennej zależnej. Regresja wielokrotna tym się różni jednak od analizy wa-
riancji, że do jej przeprowadzenia musisz dysponować pomiarami zmien-
nych zależnych dla wszystkich wziętych pod uwagę obiektów.
Trzecie podobieństwo obu metod statystycznych potraktujemy tutaj tylko
szkicowo. Wiąże się ono ze sposobem pomiaru zmiennych niezależnych.
W przypadku analizy wariancji zmienne niezależne są mierzone za pomocą
skali nominalnej, natomiast w odniesieniu do analizy regresji – w zasadzie
tylko przedziałowej. Napisaliśmy „w zasadzie”, choć przy odrobinie wiedzy
i umiejętności kombinatorycznych można tak zdefiniować analizę regresji,
aby włączyć do niej także zmienne nominalne i różne grupy badane. Nie bę-
* Brzeziński, J. (1996). Metodo- dziemy opisywać szczegółów – bardzo dobrym źródłem jest podręcznik Je-
logia badań psychologicznych. rzego Brzezińskiego*. My przedstawimy tylko przykład.
Warszawa: PWN. Sposób ko-
dowania zmiennych niezależ- Korzystając raz jeszcze z danych na temat czasu snu ssaków, przeanalizujmy
nych z analizy wariancji w mo-
delu regresji opisany jest w roz- zmienną: „indeks ekspozycji snu”. Autorzy badania przypisywali rangi od
dziale 13. tego podręcznika. 1 do 5 w zależności od stopnia zabezpieczenia się zwierzęcia na czas snu. Im
łatwiej się zbliżyć do zwierzęcia, gdy śpi, czyli im bardziej jest eksponowa-
ne, tym wyższa jest wartość tego wskaźnika. Na przykład ludzie i nietoperze
należą do tych ssaków, które bardzo dbają o swoje bezpieczeństwo podczas
snu, krowa zaś lub koń mogą spać nawet na otwartej przestrzeni.
Wskaźnik ekspozycji snu postanowiliśmy uprościć i podzieliliśmy wszystkie
ssaki na te, które podczas snu są niedostępne (w oryginalnym zbiorze da-
562 WNIOSKOWANIE STATYSTYCZNE

nych były one oznaczone jedynkami) – przypisaliśmy im wartość 0 – oraz te,


który mniej dbały o spokój swojego snu (w oryginalnej wersji oznaczone od
2 do 5) i którym przypisaliśmy wartość 1. W ten sposób uzyskaliśmy nową
zmienną dwuwartościową (0 i 1) i wpisaliśmy ją do grupy zmiennych nieza-
leżnych w równaniu regresji (wyniki zob. 8.30).

Tabela 8.30. Wyniki analizy re- Podsumowanie regresji zmiennej zależnej (całkowity czas snu):
2 2
gresji dla czasów snu, po r = 0,682; r = 0,465; skorygowany r = 0,431; F(3, 47) = 13,624; p < 0,0
wprowadzeniu dwuwartościo-
wej zmiennej „indeks ekspo- Błąd stan- Błąd stan-
Zmienne β B t(47) p
zycji snu” [STATISTICA] dardowy dardowy
Wyraz wolny 14,371 0,875 16,415 0,001
Maksymalny
czas życia –0,024 0,139 –0,004 0,034 –0,173 0,863
(lata)
Czas ciąży
–0,489 0,150 –0,016 0,005 –3,255 0,002
(dni)
Ekspozycja
–0,292 0,118 –2,752 1,115 –2,469 0,017
snu (1-5)

Okazuje się, że po wprowadzeniu do równania zmiennej ekspozycji snu nasz


nowy model nie tylko lepiej, niż czynniki przypadkowe, jest dopasowany do
danych empirycznych, ale dopasowanie tego modelu jest nawet lepsze, niż
było wtedy, gdy nie uwzględnialiśmy tej zmiennej w równaniu. Poprzednim
razem, czyli bez zmiennej „ekspozycja snu” r2 = 0,396 (po zaokrągleniu do
dwóch miejsc po przecinku: 0,40; por. nagłówek tabeli 8.28), dopasowanie
modelu uwzględniającego te zmienne jest wyraźnie wyższe: r2 = 0,465.
Długość czasu ciąży także w nowym modelu jest czynnikiem istotnie wpły-
wającym na długość snu (t = –3,25; p = 0,002). Wpływ tego czynnika jest co
prawda wyższy (β = –0,489) niż wpływ ekspozycji snu (β = –0,292), ale
i ten drugi jest statystycznie istotny (t = –2,469; p = 0,017). Ponieważ war-
tość współczynnika β związana z ekspozycją snu jest ujemna, więc wpływ
tego czynnika na długość snu jest odwrotnie proporcjonalny. W tym miejscu
jednak przypomnijmy, że zmienna „ekspozycja snu” jest czynnikiem zeroje-
dynkowym. A zatem te zwierzęta, które na skali ekspozycji siebie na nie-
bezpieczeństwo podczas snu miały jedynki, śpią krócej niż te, które pilnie
zabezpieczają się na czas snu i na naszej skali nominalnej otrzymały zera.
Można stąd wyciągnąć wniosek, że większe eksponowanie się na niebezpie-
czeństwo podczas snu skraca całkowity czas spania. Wniosek jest więc do-
kładnie taki sam jak w przypadku porównywania dwóch grup niezależnych
za pomocą testu t.
W podobny sposób, czyli za pomocą zer i jedynek, można w analizie regresji
zakodować więcej niż dwa poziomy zmiennej niezależnej, co w praktyce
ANALIZA KORELACJI I REGRESJI 563

prowadzi do analizy wariancji. Nie będziemy jednak opisywać szczegółów,


raz jeszcze odsyłając Cię do wielokrotnie cytowanego podręcznika Jerzego
Brzezińskiego.

CO OZNACZAJĄ TE WSZYSTKIE LICZBY W TABELI WYNIKÓW REGRESJI WIELOKROTNEJ?

Wyniki regresji wielokrotnej przedstawione w tabelkach 8.28 i 8.30 wydają


się nieco skomplikowane. Podsumujmy je, mając nadzieję, że poniższy opis
pomoże Ci je właściwie zinterpretować:
• Po pierwsze, oglądanie wyników w tabeli powinieneś zacząć od znale-
zienia wyniku testu F dla całego modelu regresji i towarzyszącego mu
prawdopodobieństwa. Jeżeli jest ono niższe niż wartość kryterialna
(a więc w praktyce niższe niż 0,05), to możesz uznać, że model regresji
lepiej pasuje do danych niż przyjęcie założenia, że między zmiennością
niezależną a zmiennością zależną jest związek przypadkowy.
• Po drugie, miarą dobroci dopasowania modeli do danych jest wartość r2.
Jest to współczynnik determinacji i oznacza, w jakim stopniu wariancja
zmiennej zależnej jest „wyjaśniona” przez wariancję wszystkich predyk-
torów. Współczynnik r2 przyjmuje wartości z przedziału od 0 do 1. Im
bliższy jest jedynki, tym mniej pomiarów zmiennej zależnej wiąże się
z niekontrolowaną wariancją błędu, a więcej zależy od predyktorów
uwzględnionych w równaniu regresji. Wartość r2 jest globalną miarą
wpływu wszystkich predyktorów na zmienną zależną. Jeżeli do równa-
nia regresji włączyliśmy wiele predyktorów, których wpływ na zmienną
zależną jest niewielki, to zdarza się, że wartość współczynnika r2 jest re-
latywnie duża. W takiej sytuacji lepszą miarą dopasowania modelu do
danych rzeczywistych jest tzw. skorygowana wartość r2. Mówiąc naj-
prościej, jest to wartość współczynnika determinacji z poprawką ograni-
czającą wpływ zmiennych uwzględnionych w równaniu regresji, których
wpływ na zmienną zależną jest statystycznie nieistotny. Wartości
r2 i skorygowanego r2 nie różnią się istotnie od siebie, jeżeli w modelu
regresji nie ma wielu predyktorów, których wpływ na zmienną zależną
jest nieistotny. Na przykład w tabeli 8.30, spośród czterech predyktorów
(włącznie z wyrazem wolnym), wpływ tylko jednego, tj. maksymalnej
długości życia, można uznać za nieistotny. Odrzucenie wpływu tego
czynnika obniża wielkość współczynnika determinacji tylko o 0,03.
• Po trzecie, to, który predyktor ma istotny wpływ na zmienną zależną,
możesz ocenić na podstawie wyniku testu t Studenta, obliczonego dla
tego predyktora. Zasada jest taka sama jak w przypadku testu F dla całe-
go modelu regresji – istotny wpływ mają te predyktory, dla których war-
564 WNIOSKOWANIE STATYSTYCZNE

tość prawdopodobieństwa otrzymanego wyniku t jest niższa od wartości


kryterialnej.
• Po czwarte, tabela wyników regresji wielokrotnej zawiera wartości
współczynników regresji dla danych surowych (współczynniki B) oraz
dla danych standaryzowanych (współczynniki β). Ponadto programy sta-
tystyczne z reguły podają także wartości błędów standardowych dla
każdego z tych współczynników. Są one przydatne do obliczania granic
przedziałów ufności wtedy, gdy na podstawie równania regresji chcemy
przewidywać wartości zmiennej zależnej.

REGRESJA WIELOKROTNA – INTERPRETACJA GRAFICZNA

Regresję jedno-jednozmiennową nazywa się regresją liniową. Pisaliśmy już,


że model regresji liniowej zakłada liniową zależność między zmienną nieza-
leżną a zmienną zależną (objaśnianą). Graficzny obraz tej relacji ilustruje li-
nia prosta, przebiegająca możliwie jak najbliżej wszystkich punktów repre-
zentujących pary pomiarów (X,Y). Równanie, na podstawie którego powstała
ta prosta, jest de facto przepisem pozwalającym znajdować nieznane warto-
ści Y na podstawie znanych wartości X. Podczas gdy X-y mogą się swobod-
nie zmieniać, Y-i są całkowicie od nich zależne. Tak więc swobodna zmiana
wartości jest możliwa tylko w zakresie jednego wymiaru.
W podobny sposób można graficznie interpretować równanie regresji,
w którym są dwa predyktory. To właśnie od nich zależą wartości zmiennej
objaśnianej. W tym przypadku graficzny obraz zależności między zmienny-
mi jest dwuwymiarowy, czyli reprezentuje go płaszczyzna.
Przykładem takiej zależności jest wykres rozrzutu punktów dla regresji,
w której zmienną zależną jest długość snu, a zmienne niezależne to maksy-
malna długość życia i czas ciąży (zob. rys. 8.21).
Płaszczyzna na rysunku 8.21 jest graficzną reprezentacją równania regresji,
które skonstruowaliśmy na podstawie danych zawartych w tabeli 8.28:
Czas snu = 0,002 × maksymalna długość życia + (–0,021) × czas ciąży + 13,269
Gdy zmiennych niezależnych jest więcej niż dwie, wtedy graficzna prezen-
tacja regresji wielokrotnej nie jest możliwa. Tak się złożyło, że żyjemy
w świecie trójwymiarowym, i chociaż matematycy i fizycy przekonują nas
o większej liczbie wymiarów, to nie możemy sobie wyobrazić otaczającej
nas rzeczywistości inaczej, jak tylko w trzech wymiarach. Nie jest to jednak
żadna przeszkoda dla prowadzenia badań nad przestrzeniami wielowymia-
rowymi, z tym tylko, że opis tych przestrzeni jest możliwy wyłącznie za
pomocą równań matematycznych.
ANALIZA KORELACJI I REGRESJI 565

Rysunek 8.21. Wykres roz-


rzutu punktów i płaszczyzna
regresji dla równania z dwo-
ma predyktorami
[STATISTICA]

Zauważ, że do przedstawienia tej płaszczyzny na wykresie użyliśmy układu


trzech współrzędnych. Nic dziwnego – potrzebowaliśmy dwóch współrzęd-
nych na wyrażenie wartości zmiennych niezależnych i jednej współrzędnej
na wyrażenie wartości zmiennej zależnej.
Podobnie jest z regresją wielokrotną dla więcej niż dwóch predyktorów. Dla
każdej takiej sytuacji możemy jednak utworzyć równanie, które opisze
związek jednej zmiennej zależnej z wieloma zmiennymi niezależnymi, np.:

Y = –0,05* × X1 + 0,05** × X2 – 0,01 × X3 – 0,04** × X4 + C


Jest to równanie hiperpłaszczyzny regresji, będącej obrazem relacji między
jedną zmienną zależną i czterema zmiennymi niezależnymi.
Takiej pięciowymiarowej przestrzeni nie możesz sobie oczywiście wyobra-
zić, natomiast możesz zrozumieć to równanie, jeżeli będziesz wiedział, że:
Y wysokość podatku, jaki mieszkańcy amerykańskiego stanu Connecticut byliby skłonni zapła-
cić za podniesienie standardu działania policji w tym stanie; średnia wartość tej zmiennej
wyniosła 43 dolary.

Kolejne X-y to wartości predyktorów, czyli zmiennych związanych z ten-


dencją do płacenia dodatkowego podatku na policję. Te zmienne to odpo-
wiednio:
566 WNIOSKOWANIE STATYSTYCZNE

X1 czas oglądania telewizji w ciągu doby,


X2 czas oglądania wiadomości lokalnych,
X3 odpowiedź na pytanie, czy osoba badana kiedykolwiek dzwoniła na policję (zmienna katego-
rialna o wartościach: 0 – nigdy, 1 – przynajmniej raz),
X4 odpowiedź na pytanie, czy osoba badana była kiedykolwiek zatrzymana przez policję z po-
wodu przestępstwa drogowego (zmienna kategorialna o wartościach: 0 – nigdy, 1 – przy-
najmniej raz).

Wszystkie liczby w równaniu to wartości współczynników regresji B dla da-


nych surowych. Gwiazdką oznaczone są współczynniki istotne na poziomie
0,05, a dwoma gwiazdkami współczynniki istotne na poziomie 0,01.
C stała w równaniu regresji, której wartości nie znamy, ale nie jest ona szczególnie istotna,
o czym za chwilę.

Wiedząc, co oznaczają poszczególne symbole, na podstawie równania regre-


sji możesz się domyślić, że obywatele Connecticut są skłonni więcej płacić
na policję, pod warunkiem, że:
• poświęcają więcej czasu na oglądanie wiadomości lokalnych (wpływ
predyktora X2 należy do dwóch relatywnie największych, a wartość
współczynnika B dla tego predyktora jest dodatnia),
• poświęcają mniej czasu na oglądanie telewizji w ogóle (wpływ predyk-
tora X1 jest taki sam jak predyktora X2, ale znak współczynnika B jest
ujemny, co oznacza zależność odwrotnie proporcjonalną),
• nigdy nie byli zatrzymani za przekroczenie przepisów w ruchu drogo-
wym (wpływ predyktora X4 jest statystycznie istotny, a znak współczyn-
nika B, związanego z tym predyktorem, jest ujemny).
Nie ma natomiast żadnego związku między chęcią płacenia wyższych po-
datków na policję a faktem wezwania policji przez telefon (wpływ predykto-
ra X3 jest statystycznie nieistotny).
Tak więc, mimo że nie można na wykresie zobrazować relacji między czte-
rema zmiennymi niezależnymi i jedną zmienną zależną, to na podstawie zna-
jomości równania regresji można zrozumieć, na czym ta relacja polega.

* Donahue, A. K, Miller, J. M.
Przykład, którym się posłużyliśmy, pochodzi z badania telefonicznego prze-
(2005). Citizen preferences and prowadzonego wśród 1057 mieszkańców stanowiących reprezentatywną
paying for police. Journal of próbę dla stanu Connecticut, przeprowadzonego przez Amy Donahue i Jo-
Urban Affair, 27, 419-435.
anne Miller*.

REGRESJA JEDNO- I WIELOKROTNA – PORÓWNANIE

Czy sądzisz, że jesteś uważnym czytelnikiem? Jeśli tak, to z całą pewnością


zauważyłeś pewną niejednoznaczność między wynikami analizy jedno-
ANALIZA KORELACJI I REGRESJI 567

i wielokrotnej w odniesieniu do wpływu zmiennej „maksymalna długość ży-


cia” na zmienną „czas snu” u ssaków.
Stosując model jedno-jednozmiennowy, ustaliliśmy, że maksymalna długość
życia jest istotnym predyktorem czasu snu u ssaków (zob. np. tab. 8.23).
Gdy jednak w równaniu regresji, oprócz maksymalnej długości życia, jako
predyktor uwzględniliśmy także okres ciąży, wtedy się okazało, że to właś-
nie ta zmienna jest istotnym predyktorem długości czasu snu, ale maksymal-
na długość życia już nie. Od czego więc zależy czas snu u ssaków? I jak wy-
jaśnić tę niejednoznaczność wyników?
Rozpoczniemy od odpowiedzi na drugie pytanie. Przede wszystkim musimy
pamiętać, że równanie regresji zawsze należy traktować tylko jako pewien
model matematyczny, opisujący relację między analizowanymi zmiennymi,
i – jak każdy model – mający swoje ograniczenia. No cóż, do modelu samo-
lotu Messerschmitt P.1101, zbudowanego z zapałek, nie możemy włożyć
działającego silnika odrzutowego Jumo 004 B o mocy 1030 KM, lecz jedy-
nie jakąś bardziej lub mniej udaną jego atrapę. Całość może nawet wyglądać
dość dobrze, ale w niczym nie zmieni to faktu, że nie osiągniemy nim pułapu
7000 m z prędkością ponad 1000 km/godz.
Podobnie do konstrukcji modelu relacji pomiędzy czasem snu a maksymalną
długością życia u ssaków wykorzystaliśmy taki materiał, jaki mieliśmy, któ-
ry w najprostszej wersji sprowadzał się tylko do pomiarów dwóch zmien-
nych (zależnej i niezależnej). Wprowadzenie następnej zmiennej niezależnej,
czyli czasu ciąży, spowodowało, że nasz model stał się bogatszy (żeby nie
powiedzieć: bardziej wypasiony), ponieważ zawiera więcej informacji doty-
czących modelowanego zjawiska. Tę „lepszość” modelu odzwierciedlają
współczynniki r2. Dla modelu dwuzmiennowego r2 = 0,39, a dla jedno-
zmiennowego r2 = 0,17. Mniej więcej jest to taka różnica, jak między zapał-
czanym modelem Messerschmitta P.1101 z papierową atrapą silnika a mode-
lem z miniaturowym silniczkiem spalinowym. Który lepiej odzwierciedla
rzeczywistość?
Mówiąc technicznie, model z dwoma predyktorami w większym stopniu wy-
jaśnia wariancję zmiennej zależnej niż model z jednym predyktorem i dlate-
go przewidywania tych modeli odnośnie do konkretnych predyktorów mogą
nawet znacznie się od siebie różnić. Mniej więcej jest to odpowiedź na pyta-
nie o powody niejednoznaczności wyników.
Dlaczego jednak w modelu z dwoma zmiennymi niezależnymi wpływ mak-
symalnej długości życia na czas snu okazał się nieistotny, podczas gdy
w modelu jednozmiennowym był istotny na poziomie α = 0,002 (por. tab.
8.23)? Najłatwiej jest odpowiedzieć na to pytanie po przeanalizowaniu ma-
cierzy korelacji między wszystkimi wziętymi do analizy zmiennymi (zob.
tab. 8.31).
568 WNIOSKOWANIE STATYSTYCZNE

Tabela 8.31. Macierz korelacji Maksymalna


Zmienne Całkowity czas snu Czas ciąży
między całkowitym czasem długość życia
snu, maksymalną długością
życia i czasem ciąży Całkowity czas snu 1,00 –0,40 –0,63
Maksymalna długość
–0,40 1,00 0,64
życia
Czas ciąży –0,63 0,64 1,00

Wszystkie korelacje przedstawione w tabeli 8.31 są statystycznie istotne co


najmniej na poziomie p<0,05. Wyniki analizy korelacji ujawniają, że mak-
symalna długość życia i czas ciąży to zmienne, które są ze sobą ściśle zwią-
zane (r = 0,64). Każda z tych zmiennych jest także związana z całkowitym
czasem snu. Kiedy jednak się oblicza wartości korelacji cząstkowych dla
całkowitego czasu snu i maksymalnej długości życia po odrzuceniu wpływu
zmiennej czasu ciąży, wówczas się okazuje, że związek między tymi zmien-
nymi jest pozorny, ponieważ maksymalna długość życia jest wprost propor-
cjonalna do czasu ciąży. Korelacja cząstkowa między okresem ciąży a cał-
kowitym czasem snu wynosi r = –0,532, a korelacja cząstkowa między mak-
symalną długości życia a całkowitym czasem snu równa się zaledwie
r = 0,008. Teraz już rozumiesz. Jeżeli maksymalną długość życia uwzględ-
nimy w równaniu regresji jako jedyną zmienną niezależną, to się okaże, że
jest ona istotnie związana z całkowitym czasem snu. Jeżeli jednak do rów-
nania dołączymy drugą zmienną niezależną, czyli czas ciąży, to poprzedni
związek znika, ponieważ większe wartości zmiennej „maksymalna długość
życia” po prostu towarzyszą większym wartościom zmiennej „czas ciąży”.

O ZMIENNYCH NADMIAROWYCH I REGRESJI KROKOWEJ

Niezależnie od wszystkich wyjaśnień poczynionych w poprzednim punkcie,


pytanie, dlaczego w wyniku analizy regresji wielokrotnej istotny okazał się
wpływ czasu ciąży, a nieistotny – maksymalnej długości życia, a nie od-
wrotnie, pozostaje otwarte. Skoro obie te zmienne są ze sobą skorelowane,
to skąd program obliczeniowy „wie”, którą zmienną niezależną uznać za
ważniejszą w wyjaśnianiu wariancji zmiennej zależnej? Innymi słowy, pro-
blem polega na tym, że jeżeli między dwiema lub więcej niż dwiema zmien-
nymi objaśniającymi zachodzi wysoka korelacja, to algorytm obliczeniowy
analizy regresji musi dokonać podziału zmiennych niezależnych na te, które
istotnie wiążą się ze zmienną zależną, oraz na zmienne nadmiarowe, czyli
takie, które są związane ze zmienną zależną tylko dlatego, że są powiązane
z innymi zmiennymi niezależnymi.
* Luszniewicz, A., Słaby, T.
(2003). Statystyka z pakietem Andrzej Luszniewicz i Teresa Słaby* zwracają uwagę na to, że problem
komputerowym Statistica PL.
Teoria i zastosowania. Warsza- zmiennych nadmiarowych nie może być rozwiązany inaczej, jak tylko za
wa: C.H. Beck. pomocą algorytmu opartego na metodzie prób i błędów. Nie wchodzimy
ANALIZA KORELACJI I REGRESJI 569

w szczegóły tej metody, w praktyce bowiem znacznie ważniejsze dla Ciebie


jest to, abyś w analizie regresji uwzględnił jako zmienne niezależne wszyst-
kie te cechy mierzonych obiektów lub zjawisk, które na podstawie Twojej
wiedzy teoretycznej mogą mieć związek ze zmienną objaśnianą.
Jednym z często stosowanych algorytmów pozwalających na usunięcie
zmiennych nadmiarowych z równania regresji jest regresja krokowa (ang.
step-wise regression).
Istnieją dwie wersje tej metody: regresja krokowa postępująca i regresja
krokowa wsteczna. Jak sama nazwa wskazuje, regresja krokowa przebiega
w kolejnych krokach.
W wersji postępującej najpierw budowane są wszystkie możliwe modele re-
gresji oddzielnie z każdą zmienną niezależną. Spośród nich wybiera się ten,
dla którego wartość statystyki F jest najwyższa. Następnie do tego modelu
dołącza się po kolei pozostałe zmienne niezależne i w ten sposób powstaje
seria modeli jedno-dwuzmiennowych. I znowu spośród nich wybierany jest
ten, dla którego wartość F jest najwyższa. Tym razem dołącza się do niego
pozostałe zmienne i znowu wybierany jest ten model, dla którego wartość
statystyki F jest największa. Proces dołączania kolejnych zmiennych prze-
biega tak długo, aż wyczerpana zostanie lista zmiennych niezależnych lub
wartość F nie zwiększy się istotnie po dołączeniu kolejnej zmiennej.
Wersja wsteczna działa bardzo podobnie jak postępująca, tyle że od końca.
Najpierw buduje się model uwzględniający wpływ wszystkich zmiennych
niezależnych na zmienną zależną. Następnie z tego modelu usuwa się kolej-
ne zmienne i w odniesieniu do każdego rozwiązania sprawdzana jest wartość
testu F. Procedura kończy się wtedy, gdy usunięcie kolejnej zmiennej nie
powoduje istotnego zmniejszenia wartości statystyki F dla regresji.
Oczywiście technika obliczeniowa jest skonstruowana na pewnych założe-
niach dotyczących np. „wystarczalności” wielkości różnic między wynikami
testu F, które sugerowałaby kontynuację lub zaniechanie procesu dołączania
lub odłączania kolejnych zmiennych.
Niezależnie od tego i tak, jak zawsze, do oceny wartości ostatecznego wyni-
ku analizy potrzebna jest wiedza merytoryczna w danej dziedzinie.
Zastosowanie regresji krokowej w obu wersjach przedstawimy na przykła-
dzie czasów snu. Najpierw wykorzystamy metodę regresji wstecznej, pole-
gającej na systematycznym usuwaniu zmiennych nieistotnych z równania
regresji, które w wersji pierwotnej obejmie je wszystkie na raz.
Oprócz całkowitego czasu snu, w artykule Allisona i Cicchettiego znalazły
się jeszcze dane na temat: wielkości mózgu, masy ciała, maksymalnej długo-
ści życia, czasu ciąży, a także trzy indeksy: (1) zagrożenia przez drapieżniki
570 WNIOSKOWANIE STATYSTYCZNE

(mierzony na skali od 1 – brak zagrożenia, do 5 – bardzo duże zagrożenie),


(2) dostępności (ekspozycji) podczas snu (mierzonej na skali od 1 – brak do-
* Do tego indeksu już się odwo- stępu, do 5 – dostęp bardzo łatwy)* oraz (3) ogólnego zagrożenia ze strony
ływaliśmy, omawiając wykorzy- innych zwierząt (mierzony od 1 – narażony na niewielkie zagrożenie, do 5 –
stanie danych kategorialnych
w analizie regresji. narażony na bardzo duże zagrożenie).
Upraszczając nieco, można powiedzieć, że analiza regresji za pomocą meto-
dy krokowej wstecznej polega na tym, że program obliczeniowy najpierw
buduje równanie uwzględniające wszystkie predyktory, a następnie usuwa te
najmniej istotne (zob. tabela 8.32).

Tabela 8.32. Wyniki regresji Podsumowanie regresji zmiennej zależnej (całkowity czas snu):
2 2
krokowej wstecznej dla czasu r = 0,781; r = 0,610; skorygowany r = 0,594; F(2, 48) = 37,546; p < 0,0
snu jako zmiennej zależnej
i siedmiu zmiennych obja- Błąd stan- Błąd stan-
Zmienne β B t(47) p
śniających [STATISTICA] dardowy dardowy
Wyraz wolny 16,772 0,901 18,609 0,001
Czas ciąży
–0,477 0,0948 –0,016 0,003 –5,034 0,001
(w dniach)
Indeks
ogólnego –0,487 0,0948 –1,597 0,311 –5,136 0,001
zagrożenia

Wykorzystanie procedury regresji krokowej wstecznej prowadzi do powsta-


nia stosunkowo prostego modelu, o całkiem przyzwoitym poziomie dopaso-
wania do danych empirycznych (r2 = 0,61). W modelu tym uwzględniony
jest wpływ tylko dwóch zmiennych: „czas ciąży” i „indeks ogólnego zagro-
żenia”.
Wpływ obu tych zmiennych na zmienną objaśnianą jest odwrotnie propro-
cjonalny i niemal identyczny, jeśli chodzi o siłę (wartości β są niemal takie
same). Oznacza to, że krócej śpią te ssaki, które są bardziej zagrożone ze
strony innych zwierząt oraz mają dłuższy czas ciąży.
Metodę regresji krokowej postępującej wykorzystamy z kolei do tego, aby
stwierdzić, od czego zależy czas marzeń sennych, czyli długość fazy REM
u ssaków.
Do analizy wprowadziliśmy znowu siedem tych samych co poprzednio
zmiennych niezależnych (zob. tabela 8.33).
** W metodzie analizy regresji
krokowej postępującej wprowa- W wyniku tej analizy regresji okazało się, że aż 4 zmienne niezależne zosta-
dziliśmy specjalną poprawkę
(tzw. regresję grzbietową), w ce-
ły uwzględnione w końcowym modelu regresji (o wartości dopasowania
lu usunięcia wpływu nadmiaro- r2 = 0,45), ale tylko dwie z nich mają wpływ istotny statystycznie. Możemy
wej zmiennej „zagrożenie przez więc stwierdzić, że czas marzeń sennych zależy przede wszystkim od ogól-
drapieżnika”, która jest silnie
skorelowana ze zmienną „indeks nego zagrożenia (im większe, tym ssak krócej śni) oraz od masy ciała (im
ogólnego zagrożenia” (r = 0,94). większa, tym dłuższa jest faza REM)**.
ANALIZA KORELACJI I REGRESJI 571

Tabela 8.33. Wynik analizy Podsumowanie regresji zmiennej zależnej (całkowity czas snu):
2 2
regresji postępującej dla r = 0,675; r = 0,455; skorygowany r = 0,399; F(4, 39) = 8,141; p < 0,0
zmiennej zależnej „czas snu
paradoksalnego” i siedmiu Błąd stan- Błąd stan-
Zmienne β B t(47) p
predyktorów [STATISTICA] dardowy dardowy
Wyraz wolny 3,782 0,389 9,718 0,001
Indeks ogól-
nego zagro- –0,503 0,125 –0,483 0,120 –4,033 0,001
żenia
Maksymalna
–0,203 0,140 –0,014 0,010 –1,453 0,154
długość życia
Waga ciała 0,318 0,147 0,001 0,001 2,161 0,037
Czas ciąży –0,304 0,169 –0,003 0,002 –1,802 0,079

O STAŁEJ W RÓWNANIU REGRESJI

Na końcu każdego równania regresji dla danych surowych znajduje się stała
regresji. Wartość ta, zwana też czasem wyrazem wolnym, nie występuje
w równaniu regresji dla wyników standaryzowanych. W pewnym sensie jest
ona związana z różnicą między średnimi w zbiorze zmiennej objaśnianej
i średnimi w zbiorach zmiennych objaśniających. Na podstawie tabeli 8.33
możemy zapisać równanie regresji w postaci standaryzowanej:
* Predyktory istotne statystycz- zfaza REM = –0,5* × zzagrożenie – 0,2 × zdługość życia + 0,32* × zmasa – 0,3 × zczas ciąży
nie w obydwu równaniach ozna-
czyliśmy za pomocą gwiazdek. oraz dla wyników surowych:
faza REM = –0,48* × zagrożenie – 0,01 × długość życia + 0,001* × masa –
– 0,003 × czas ciąży + 3,78
W równaniu dla danych standaryzowanych każda zmienna wyrażona jest
w takich samych jednostkach, czyli w proporcji odchyleń standardowych od
średnich. Średnie dla każdej zmiennej są takie same i mają wartość równą
zero. Ponieważ różnice między tymi średnimi także są równe 0, nie ma więc
potrzeby wprowadzania w równaniu regresji dodatkowego współczynnika
(można też powiedzieć, że stała równania równa się zero).
Inaczej jest w przypadku danych surowych: wszystkie zmienne mają nie tyl-
ko różne średnie, ale mogą mieć także różne jednostki. Wartości minimalne
i maksymalne, średnie, odchylenia standardowe i rozpiętości, a także jed-
nostki pomiaru dla każdego z predyktorów w równaniu regresji dla danych
surowych zawiera tabela 8.34.
Przyglądając się danym zapisanym do tabeli 8.34, można odnieść wrażenie,
że analiza regresji jest niezłą metodą pozwalającą na porządkowanie całkiem
sporego galimatiasu. W przypadku równania dla danych surowych, po lewej
stronie mamy wartości zmiennej „długość fazy REM”, czyli wartości wyra-
572 WNIOSKOWANIE STATYSTYCZNE

żone w liczbie godzin na dobę, wahające się od 0 (kolczatka australijska) do


6,6 (opos wodny), a po prawej stronie wartości wyrażone w zupełnie innych
jednostkach (pięciopunktowa skala zagrożenia, lata, kilogramy, dni) i w do-
datku żadna z nich nie jest taka sama, jak jednostka po stronie lewej. Ponad-
to jeszcze każdej ze zmiennych niezależnych towarzyszy waga, czyli współ-
czynnik regresji B.

Tabela 8.34. Podstawowe Odchylenie


Zmienne Jednostka Średnia Minimum Maksimum
statystyki opisowe dla standardowe
zmiennych włączonych do
równania regresji, z długością godz. na
Czas fazy REM 1,843 1,384 0 6,6
fazy REM jako zmienną dobę
objaśnianą Ogólne zagro-
skala (1–5) 2,796 1,440 1 5
żenie
Maksymalna
lata 19,664 19,832 2 100
długość życia
Masa ciała kg 113,936 398,442 0,005 6654
Czas ciąży dni 143,125 139,057 12 645

Często, a w praktyce niemal zawsze, kombinacja liniowa, czyli suma ilo-


czynów współczynników regresji i wartości B, daje w rezultacie zaniżoną
lub zawyżoną wartość zmiennej zależnej. Sprawdźmy to na przykładzie i ob-
liczmy, jak długo śniłby ssak, którego wszystkie parametry zmiennych były-
by równe średnim dla tych zmiennych. Co prawda taki egzemplarz w przy-
rodzie nie występuje, ale nam to nie przeszkadza podstawić do równania re-
gresji średnich z tabeli 8.34:
faza REM = –0,48 × 2,796 – 0,01 × 19,664 + 0,001 × 113,936 – 0,003 ×
× 143,125 = –1,342 – 0,197 + 0,114 – 0,429 = –1,854
Długość fazy REM ssaka, który charakteryzuje się średnimi wartościami dla
wszystkich zmiennych niezależnych, jest mniejsza od średniej długości
tej fazy dla wszystkich zwierząt o ok. 3,78, czyli o wartość stałej regresji
* W tabeli 8.34 średnia długość (–1,854 + 3,78 = 1,926*). Dokładnie o tyle samo byłby zaniżony przewidy-
fazy REM wynosi co prawda wany czasu snu paradoksalnego, czyli fazy REM dla każdego ssaka.
1,843, ale – jak zwykle – za
różnicę między wynikami Podsumowując, można więc powiedzieć, że stała w równaniu regresji pełni
uzyskiwanymi za pomocą
różnych metod odpowiada błąd funkcję kompensacyjną, tzn. uzupełnia (kompensuje) niedobór (lub nadmiar,
„zaokrągleń”. gdy jest ujemna) przewidywania opartego na liniowej kombinacji współ-
czynników regresji.

A NAJLEPIEJ, JEŚLI RESZTY SĄ NORMALNE

Zasadniczo analiza regresji wymaga tego, by pomiar zmiennych przeprowa-


dzony był na skali przedziałowej. Podobnie jednak, jak w przypadku analizy
ANALIZA KORELACJI I REGRESJI 573

korelacji, także i przy regresji założenie to często bywa ignorowane. Nie jest
to chyba największy problem, tym bardziej że z badań prowadzonych za
pomocą metod Monte Carlo wynika, że współczynniki regresji są dosyć od-
porne na sytuacje, w których to założenie nie jest spełnione. Praktycznie
najważniejszym, a często uważanym za jedyne, założeniem modelu regresji,
którego nie można ignorować, jest założenie normalności rozkładu reszt.
Żeby je wyjaśnić, przywołajmy raz jeszcze ogólną postać modelu regresji,
tym razem w takiej formie:
Y = F (X1, X2, ... Xn) + ε
Symbol F oznacza tutaj jakąś funkcję, której argumentami są predyktory
uwzględnione w równaniu regresji X1, X2 itd. Symbol ε, jak pamiętasz, ozna-
cza resztę, czyli wartość reprezentującą wielkość wpływu niekontrolowa-
nych zmiennych niezależnych na zmienną zależną w równaniu regresji.
Każda wartość zmiennej Y jest więc sumą tego, co „przewiduje” dla niej re-
gresja oraz reszta.
Model regresji opiera się na założeniu, że rozkład reszt jest losowy. Oznacza
to np., że do obiektów, dla których wartości zmiennej X1 są wysokie, nie
„doklejają” się wyższe reszty, a do obiektów o niskich wartościach zmiennej
X1 – niższe. Nie tylko to jednak jest ważne. Jeżeli model regresyjny ma być
dobrze dopasowany do rzeczywistych pomiarów, to reszty powinny się „do-
klejać” (do nas też „dokleiło” się to określenie) w taki sposób, aby niektóre
pomiary były wyższe od przewidywanych, a niektóre niższe. A zatem reszty
powinny być czasem dodatnie, a czasem ujemne. Najlepiej by było, aby
większość reszt miała niewielki wpływ na zmienną zależną, a jeśli jej war-
tość bezwzględna byłaby większa, to tym rzadziej powinna się pojawiać.
Wszystkie te cechy ma rozkład normalny, a więc najlepiej, gdy rozkład reszt
jest rozkładem normalnym, i to takim, w którym średnia wynosi zero.
W pakietach do obliczeń statystycznych wbudowane są specjalne moduły
pozwalające na sprawdzanie, czy rozkład reszt jest rozkładem normalnym.
My skorzystaliśmy z możliwości najprostszej. Dla każdego ssaka obliczyli-
śmy różnicę między otrzymaną i przewidywaną długością jego fazy REM
i w ten sposób otrzymaliśmy histogram reszt (zob. rysunek 8.22).
Reszty mierzone są w takich samych jednostkach jak zmienna zależna. W 33
przypadkach pomiary czasu snu paradoksalnego u ssaków odchylają się od
wartości przewidywanych o (+/–) jedną godzinę.
Z wykresu na rysunku 8.22 wynika, że jest pewien nadmiar reszt z przedzia-
łu od 0 do –0,5 godziny, co oznacza, że wartości przewidywane dla czasów
snu paradoksalnego są wyższe niż pomiary rzeczywiste. Za pomocą testu
Kołmogorowa-Smirnowa sprawdziliśmy jednak, czy można utrzymać hipo-
tezę o normalności rozkładu reszt, i okazało się, że d = 0,14. Oznacza to, iż
574 WNIOSKOWANIE STATYSTYCZNE

nie ma podstaw do odrzucenia hipotezy zerowej, czyli model regresji dla


czasu snu paradoksalnego spełnia założenie o normalności rozkładu reszt.
Rysunek 8.22. Histogram 11
reszt dla analizy regresji 10
z czasem snu paradoksalne-
go jako zmienna zależną 9
[STATISTICA] 8

Liczba obserwacji
6

0
-3,0 -2,5 -2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,0 2,5 3,0 3,5
Reszty

I NA KONIEC JESZCZE JEDEN EKSPERYMENCIK

David Balota, Michael Cortese, Susan Sergent-Marshall oraz Daniel


* Balota, D., Cortese, M., Ser- Spieler* interesują się czynnikami odpowiedzialnymi za rozpoznawaniem
gent-Marshall, S., Spieler, D. krótkich, jednosylabowych wyrazów. W jednym z przeprowadzonych przez
(2004). Visual word recognition
of single-syllable words. Journal nich eksperymentów zmienną zależną był czas tzw. decyzji leksykalnych
of Experimental Psychology: (Lexical Decision Task – w skrócie LDT). Osobom badanym prezentowano
General, 133, 283-316.
na monitorze komputera serię 600 znaczących i nieznaczących ciągów liter.
Wszystkie angielskie słowa i nie-słowa, czyli ciągi przypadkowych znaków
alfabetu, liczyły od 2 do 8 liter. Osoby badane miały nacisnąć określony
klawisz, gdy uważały, że dany ciąg znaków jest słowem, a inny, gdy sądziły,
że prezentowany ciąg liter nie jest słowem w języku angielskim.
Druga część eksperymentu odbyła się po 7 dniach. Tym razem badani mieli
przeczytać na głos tylko te ciągi liter, które uważali za słowa angielskie,
pominąć zaś milczeniem pozostałe (ich odpowiedzi nagrywano na kompu-
ter). Było to „zadanie nazywania” (Naming Task).
Wyniki opracowano za pomocą kilku analiz regresji, w których predykto-
rami były m.in. takie zmienne, jak: znajomość słów, wiek osób badanych
i subiektywne przekonanie o częstości pojawiania się określonych słów,
a także obiektywne dane o częstości pojawiania się tych samych słów w ję-
zyku angielskim.
Większość równań regresji przedstawionych w cytowanym artykule to mo-
dele dla rozpoznawania słów w grupie osób młodych (MM = 20,5 lat) oraz
starszych (MS = 73,6 lat). David Balota i współpracownicy obliczali analizy
ANALIZA KORELACJI I REGRESJI 575

regresji dla wielu układów zmiennych zależnych i niezależnych, ale jeden


z nich wydał się nam szczególnie ciekawy. Chodziło o pomiar czasu latencji
u osób młodszych i starszych.
Czas latencji to czas, jaki upłynął od momentu pojawienia się ciągu znaków
na monitorze komputera do chwili rozpoczęcia reakcji przez badanego, czyli
wciśnięcia klawisza w zadaniach wymagających decyzji leksykalnych lub
rozpoczęcia wypowiadania słowa w zadaniach wymagających nazywania.
Relację między czasem decyzji leksykalnych dla tych samych ciągów zna-
ków opisuje następujące równanie:
y = 0,7298x + 307,83
Autorzy eksperymentu przyjęli, że zmienną zależną (y) jest czas potrzebny
do rozpoznania słowa w grupie osób starszych, a zmienną niezależną (x) –
czas potrzebny do rozpoznania tego samego słowa w grupie osób młod-
szych. Wartość współczynnika korelacji dla relacji między tymi zmiennymi
wyniosła r = 0,656, a wartość współczynnika determinacji r2 = 0,43.
Dodatnia wartość współczynnika B w równaniu regresji wskazuje na to, że
jeżeli osoby młodsze potrzebowały więcej czasu na rozpoznanie jakiegoś
słowa, to na ten cel także więcej czasu potrzebowały osoby starsze. Wniosek
ten nie jest szczególnie zaskakujący. Oznacza on po prostu tyle, że jeżeli ja-
kiś ciąg znaków jest trudniejszy do rozpoznania od innych ciągów, to trud-
ności będą miały zarówno osoby starsze, jak i młodsze
Relacja między czasem potrzebnym na nazywanie tych samych słów przez
młodszych i starszych uczestników badania jest bardzo podobna do relacji
między czasami decyzji leksykalnych w obu grupach – osoby starsze potrze-
bują więcej czasu na nazywanie tych słów, przy których osoby młodsze tak-
że myślą dłużej.
Dokładność przewidywania czasów latencji w grupie osób starszych, na
podstawie czasów w grupie osób młodszych, również jest niemal identyczna
w obu zadaniach – wartość r2 dla decyzji leksykalnych wynosi 0,430, a dla
zadania nazywania – 0,428.
Oba równania różnią się jednak wielkością współczynnika B (jego wartości
wynoszą 0,730 dla decyzji leksykalnych i 1,084 dla zadania nazywania) oraz
wielkością stałej regresji, czyli ε (dla decyzji leksykalnych wynosi ona
307,83, a dla nazywania 147,03).
Korzystając ze specjalnej wersji testu t, Autorzy cytowanego artykułu po-
równali wartości współczynników regresji (czy 1,084 jest istotnie wyższe
niż 0,730) oraz stałych regresji (czy 307,83 to istotnie więcej niż 147,03).
Okazało się, że tylko druga z tych różnic jest statystycznie istotna.
576 WNIOSKOWANIE STATYSTYCZNE

Wyniki obu analiz regresji pozwalają na wyciągnięcie wniosku, że osoby


starsze potrzebują więcej czasu na podjęcie decyzji leksykalnej i nazwanie
wyrazu niż osoby młodsze, ale z porównania stałych regresji wynika, że róż-
nica czasu jest wyraźnie wyższa tylko przy decyzjach leksykalnych. Wyglą-
da na to, że osoby starsze, około siedemdziesiątki, średnio potrzebują dodat-
kowych 160 milisekund (307-147) na stwierdzenie, czy to, co widzą, jest
słowem, czy też nie jest, w porównaniu z osobami młodszymi.
Być może – jak sugerują autorzy – przyczyną tej różnicy jest decyzyjny cha-
rakter zadania leksykalnego. Można przyjąć hipotezę, przynajmniej w przy-
padku tak prostych zadań, jak decyzje leksykalne i rozpoznawanie słów, że
ludzie starsi potrzebują wyraźnie więcej czasu na podjęcie decyzji niż na
wykonanie czynności, która nie wymaga decyzji. Niewykluczone jest jednak
i to, że osoby starsze potrzebują więcej czasu nie tyle na podjęcie decyzji
leksykalnej, ile na reakcję naciśnięcia klawisza, która przecież była wskaź-
nikiem tej decyzji. Obie hipotezy wymagają więc dalszych badań.
IV.
DODATEK GRATIS
9. JAK NAPISAĆ RAPORT Z BADAŃ

GOALS ARE DREAMS WITH DEADLINES*

* Autorką tego trafnego spo- Każde postępowanie naukowe przebiega w czasie, ma swój początek i cel.
strzeżenia, wyrażającego esencję Rozpoczyna się od pytań, hipotez i projektów badań. Dalej jest czas ich
każdej celowej działalności
człowieka, jest Diana Scharf- przeprowadzania, po nim zaś – czas analizy i interpretacji wyników. Jest
Hunt, która wraz z Pam Hait na- także czas ich ogłaszania. W praktyce publikacja wyników badań nauko-
pisała książkę Studying smart:
Time management for college
wych sprowadza się do przedstawienia ich w formie pisemnego raportu. Ra-
students (New York: Harper Re- portem może być artykuł w specjalistycznym czasopiśmie lub książka. Może
source 1990). być nim studencka praca zaliczeniowa, a także multimedialna prezentacja
podczas konferencji. Wyciąg z badań marketingowych wykonanych na za-
mówienie Biura Promocji Miasta, notatka do lokalnego dziennika lub zapis
w internetowym blogu – to jeszcze inne formy raportów.
Każde forum, na którym publikowane są wyniki badań, rządzi się swoimi
prawami. Doniesienia w prasie na ogół składają się z kilku lub kilkunastu
akapitów napisanych językiem zrozumiałym dla przeciętnego odbiorcy. Ra-
port z badań przeprowadzonych w ramach zajęć akademickich obejmuje kil-
kanaście stron tekstu, w którym oprócz wyrażeń zaczerpniętych z języka po-
tocznego pojawiają się również specjalistyczne słowa i zwroty, a także tabe-
le lub wykresy. Jego obszerniejszą wersją jest praca magisterska lub doktor-
ska. Jeszcze zaś bardziej zagęszczoną teoretycznie formą studenckiego ra-
portu jest artykuł w czasopiśmie naukowym.
Niezależnie jednak od rodzaju publikacji wszystkie je łączy to, że są zwień-
czeniem dzieła. Są próbą werbalizacji prawdy o kawałku świata. Jest zatem
istotne, by ta prawda była wyrażona w sposób możliwie jednoznaczny lub –
jak wolisz – intersubiektywnie komunikowalny. Dla naukowców publikacje
innych badaczy są niczym drogowskaz albo podpowiedź, w którą stronę na-
leży iść, by osiągnąć wymarzony cel, czyli Prawdę, a nadto by osiągnąć go
w nieprzekraczalnym terminie (deadline).

CO TO JEST STYL APA?

Chcemy zaprezentować Ci sposób pisania raportów badawczych charaktery-


styczny dla nauk społecznych, a zwłaszcza dla psychologii. Opisując go,
wielokrotnie będziemy odwoływać się do tzw. formatu APA. Skrót ten po-
580 DODATEK GRATIS

chodzi od nazwy Amerykańskiego Towarzystwa Psychologicznego (Ameri-


can Psychological Association) i oznacza zbiór reguł pisania raportów ba-
dawczych powszechnie akceptowany w psychologii. Prezentując je, będzie-
my się opierać na aktualnie najnowszym, piątym wydaniu podręcznika Pu-
blication Manual of the American Psychological Association (2001).
Określenia „styl APA” po raz pierwszy użyto w odniesieniu do niewielkiego
dokumentu zawierającego zapis kilku najważniejszych wskazówek dla osób,
które chciałaby opublikować wyniki swoich badań w Psychological Bulletin,
jednym z czasopism wydawanych przez Amerykańskie Towarzystwo Psy-
chologiczne.
Informacje dla autorów spisano na 7 stronach i opublikowano w tym czaso-
piśmie w roku 1929. Znacznie rozszerzona, 60-stronicowa wersja tego do-
kumentu została dołączona do jednego numerów Psychological Bulletin
w 1952 roku, pod nazwą Publication Manual. Obecne, książkowe wydanie
podręcznika liczy już 439 stron wskazówek, podpowiedzi i żelaznych reguł
instruujących, w jaki sposób należy poprawnie przygotować raport z wyni-
ków badań przeznaczony do publikacji.
Od roku 1929 nie tylko znacznie zwiększyła się objętość podręcznika, ale
także wzrosła ranga tego wydawnictwa. Początkowo zasady składające się
na styl APA miały charakter sugestii, w jaki sposób powinien być przygoto-
wany tekst do publikacji w czasopiśmie wydawanym przez Amerykańskie
Towarzystwo Psychologiczne.
Obecnie wytyczne zawarte w podręczniku stały się zasadami obowiązują-
cymi wszystkich tych, którzy chcą, aby wyniki ich badań były wydrukowane
w jakimkolwiek poważnym czasopiśmie naukowym poświęconym psycho-
logii. Niekoniecznie muszą one być ściśle przestrzegane w czasopismach
popularnych, takich jak amerykańskie Psychology Today czy polskie Cha-
raktery. Artykuł jednak złożony do druku nawet w rodzimym Przeglądzie
Psychologicznym lub w Studiach Psychologicznych musi być przygotowany
zgodnie ze standardem APA. Co więcej, na większości wydziałów psycho-
logii na całym świecie coraz częściej wymaga się również od studentów prac
przygotowywanych zgodnie z tym standardem.
Na styl APA składają się trzy grupy zasad dotyczących:
• części, z jakich powinien się składać raport badawczy, oraz tego, co i w
jaki sposób należy w tych częściach zawrzeć,
• zapisu bibliograficznego i cytowania w tekście prac napisanych przez
innych autorów,
• technicznego opracowania tabel i rysunków, opisu wyników statystycz-
nych, używania skrótów, formatowania tekstu itp.
JAK NAPISAĆ RAPORT Z BADAŃ? 581

KIEDY NALEŻY STOSOWAĆ STYL APA?

Odpowiedź na pytanie zawarte w tytule jest prosta: należy stosować go zaw-


sze wtedy, gdy tego wymaga od Ciebie ten, komu oddajesz swoją pracę do
oceny lub publikacji. W gruncie rzeczy każdy styl pisarski jest dobry, jeśli
tylko jest dość klarowny i konsekwentnie przestrzegany. Właśnie dlatego,
zanim zaczniesz pisać raport, powinieneś się dowiedzieć, jakie zasady Cię
obowiązują – i to niezależnie od tego, czy piszesz pracę ćwiczeniową na za-
liczenie, pracę magisterską, książkę, czy artykuł do czasopisma specjali-
stycznego. Z tym ostatnim jest najłatwiej, ponieważ w większości czasopism
znajduje się specjalny dodatek zatytułowany: „Informacja dla autorów”,
w którym można znaleźć szczegółowo przedstawione wymogi stawiane nad-
syłanym pracom. Informacje dla autorów znajdują się z reguły także na
* Linki do stron internetowych stronach internetowych tych czasopism*.
praktycznie wszystkich czaso-
pism psychologicznych można Większość standardów pisania prac naukowych, oprócz bardzo rozbudowa-
znaleźć na wielu stronach zbie- nego stylu APA, koncentruje się przede wszystkim na zasadach cytowania
rających te adresy. Nam podoba-
ła się strona: dzieł innych autorów. W Polsce cytowanie źródeł jest określone przez Pol-
http://www.psycline.org/journals ską Normę „PN-ISO 690: 2002 Dokumentacja. Przypisy bibliograficzne.
/psycline.html
Zawartość, forma i struktura”. Jest to dokument opublikowany przez Polski
Komitet Normalizacyjny, który zawiera szczegółowe zasady sporządzania
tzw. bibliografii załącznikowej, czyli spisu materiałów wykorzystanych pod-
czas pisania. Normy te są powszechnie stosowane w Polsce w wielu dzie-
dzinach, jednakże poza psychologią. Psychologowie tak bardzo przywiązali
się do stylu APA, że nie przestrzegają norm obowiązujących w Polsce. Jest
więc powód, aby bliżej przyjrzeć się temu standardowi.

CZĘŚCI RAPORTU BADAWCZEGO

Raport badawczy powinien składać się z następujących części:


• Strona tytułowa (Title page)
• Streszczenie (Abstract)
• Wprowadzenie (Introduction)
• Metoda (Method)
• Wyniki (Results)
• Dyskusja (Discussion)
• Literatura cytowana lub Bibliografia (References)
• Załączniki (Apendices)
• Nota autorska (Autor’s note)
582 DODATEK GRATIS

Zarówno polskie, jak i angielskie określenia poszczególnych części są po-


wszechnie akceptowane przez psychologów. Trochę niejasności dotyczy tyl-
ko polskiej nazwy części zawierającej spis cytowanych źródeł. W wielu cza-
sopismach psychologicznych (zob. np. Przegląd Psychologiczny, Czaso-
* Zob. np. J. Strelau (red.) pismo Psychologiczne) lub w podręcznikach* używa się określenia „biblio-
(2000). Psychologia. Podręcznik grafia”. Z kolei Edward Nęcka i Ryszard Stocki** zwracają uwagę na to, że
akademicki. Gdańsk: GWP.
słowo „bibliografia” może się kojarzyć ze wszystkimi publikacjami dotyczą-
** Nęcka, E., Stocki, R. (2001). cymi danego tematu, i sugerują, by raczej stosować zwrot „literatura cyto-
Jak pisać prace naukowe z psy-
chologii. Kraków: Universitas.
wana”. Konsekwencje wyboru jednego lub drugiego tytułu nie wydają się
jednak zbyt daleko idące, wobec czego każda decyzja jest do przyjęcia.

STRONA TYTUŁOWA

Jak sama nazwa wskazuje, strona tytułowa powinna zawierać przede


wszystkim tytuł. Zgodnie ze stylem APA, tytuł powinien liczyć od 10 do 12
słów (oczywiście w języku angielskim). Sprawdziliśmy, jaka jest długość ty-
tułów artykułów publikowanych w trzech polskich czasopismach psycholo-
gicznych klasy A: w Przeglądzie Psychologicznym, w Czasopiśmie Psycho-
logicznym i w Studiach Psychologicznych. Wybraliśmy po 10 tytułów z każ-
dego z nich i policzyliśmy liczbę słów w każdym z tytułów. Najkrótszy tytuł
składał się z trzech słów, a najdłuższy – z piętnastu. Średnio, długość pol-
skich tytułów wyniosła 9,6 słów, formalnie więc nieco poniżej standardu.
Być może, taka jest właśnie specyfika języka polskiego, ale i tak ważniejsza
od długości tytułu jest jego treść.
Podręcznik APA daje bardzo prostą wskazówkę: tytuł powinien zwięźle
przedstawiać główny temat pracy, badane zmienne i relacje między nimi.
Inaczej mówiąc, tytuł powinien się sam wyjaśniać, czyli być w pełni zrozu-
miały, niezależnie od tekstu. Powinien też dokładnie odpowiadać treści pra-
cy. Pytanie: „Czy treść pracy odpowiada tematowi określonemu w tytule?”
jest jednym z pierwszych, na które musi odpowiedzieć każdy jej recenzent.
Na etapie formułowania tytułu raportu z badań bardzo łatwo można spraw-
dzić, czy spełnia on kryterium odpowiedniości z treścią. Wystarczy zapytać
kogoś, kto nie zna treści pracy, o czym – jak sądzi – jest tekst zatytułowany
w taki a taki sposób. Znając treść, bez trudu możesz sam ocenić, w jakim
stopniu pokrywa się ona z odpowiedzią zapytanego. Jeśli Rozbieżności są
zbyt duże, warto zastanowić się nad zmianą tytułu. Naszym zdaniem, najle-
piej uda Ci się sformułować dobry tytuł dopiero wtedy, gdy dokładnie bę-
dziesz wiedział, o czym chcesz napisać. Zdarza się i tak, że najlepsza wersja
tytułu przychodzi do głowy dopiero wtedy, gdy raport jest już napisany.
Dobry tytuł powinien być również tak sformułowany, aby osoby zaintereso-
wane dziedziną badań, której dotyczy publikacja, bez trudu mogły znaleźć
JAK NAPISAĆ RAPORT Z BADAŃ? 583

Twój artykuł np. w elektronicznej bazie danych. Tytuł powinien więc zawie-
rać jak najwięcej tzw. słów kluczowych.
W podręczniku APA zwraca się również uwagę na to, aby nie używać w ty-
tułach pustych zwrotów, takich jak „badanie empiryczne” bądź też „wyniki
badań”.
Zabierając się do sformułowania tytułu swojej pracy, warto uważnie prze-
czytać kilka tytułów artykułów w interesującej Cię dziedzinie, zwłaszcza
tych, które zostały opublikowane w dobrych czasopismach psychologicz-
nych. Z naszej małej bazy bibliograficznej wybraliśmy kilka przykładów
lepszych i gorszych tytułów: „Problemy metodologiczne pomiaru czasu re-
akcji”, „Miejsce konstruktu aktywacji w badaniach nad temperamentem”,
„Torowanie kontrfaktyczne w procesie perswazji”, „Rozszerzanie znaku to-
warowego w podejściu wnioskowania przez analogię”, „Tożsamość czło-
wieka i zaangażowanie w działalność proekologiczną”. Czy jesteś pewien,
że wiesz, co jest treścią każdego z tych artykułów?
Na stronie tytułowej, oprócz tytułu, powinny się znajdować jeszcze dwie
ważne informacje: kto jest autorem pracy i skąd ten autor pochodzi. Należy
więc podać imię (imiona) i nazwisko autora (lub autorów), pomijając przy
tym wszelkie tytuły naukowe (np. profesor, magister) lub nienaukowe (np.
ksiądz, prezes). Należy również podać tzw. afiliację, czyli nazwę instytucji,
w której autor pracuje. Zasada ta nie dotyczy prac studenckich – wystarczy
jedynie imię i nazwisko autora. Jeżeli praca ma więcej niż jednego autora,
należy podawać ich imiona i nazwiska w jednej linijce, w kolejności ustalo-
nej między nimi na podstawie przyjętego kryterium (np. wkładu pracy).
Jeżeli piszesz pracę magisterską lub seminaryjną, sprawdź, jak powinna wy-
glądać strona tytułowa zgodnie z wymogami Twojej uczelni. Na pewno
oprócz swojego imienia i nazwiska oraz tytułu będziesz musiał umieścić na
niej także inne informacje, takie jak nazwa uczelni, data pisania pracy, imię
i nazwisko promotora wraz z tytułami naukowymi.

STRESZCZENIE

Streszczenie, zwane czasem z angielska abstraktem, powinno się znajdować


na odrębnej stronie, następnej po stronie tytułowej. Zdarza się, że niektóre
wydawnictwa lub instytucje wymagają, by streszczenie znajdowało się na
końcu lub by było napisane po angielsku. Jak zawsze, zanim zaczniesz pisać,
sprawdź, czego wymagają ci, którzy będą odbierać od Ciebie pracę. Zgodnie
ze stylem APA, streszczenie nie powinno być dłuższe niż 120 słów. Spraw-
dziliśmy, jak to wygląda w naszej bazie 30 artykułów, i okazało się, że
streszczenia w języku polskim są nieco dłuższe – liczą od 124 do 174 słów.
Długość streszczenia, jak każda formalna reguła dotycząca przygotowania
584 DODATEK GRATIS

publikacji, jest określona przez redakcję czasopisma lub przez przyjmujące-


go pracę. W streszczeniu powinno znaleźć się wszystko to, co jest najważ-
niejsze w całym raporcie. Należy je napisać w taki sposób, aby czytelnik
dowiedział się, co chciałeś badać, jak wyglądało badanie i co z niego wyni-
ka. Zgodnie z zaleceniami autorów podręcznika APA, streszczenie w rapor-
cie z badań empirycznych powinno więc zawierać:
• problem badawczy, sformułowany, o ile to możliwe, w postaci jednego
zdania,
• opis uczestników badania: liczbę badanych osób (zwierząt), rodzaj,
wiek, płeć,
• opis metody eksperymentalnej, włączając w to wykorzystaną aparaturę,
sposób zbierania danych, pełne nazwy testów, a także pełne nazwy le-
ków, jeżeli były wykorzystywane w badaniu,
• wyniki, włącznie z poziomem istotności statystycznej,
• wnioski, a także możliwe zastosowania.
Pisząc streszczenie, musisz się postawić w sytuacji czytelnika i odpowie-
dzieć na dwa pytania: 1) Czy po przeczytaniu streszczenia wiedziałbyś, o co
chodzi w całym tekście? 2) Czy zechciałbyś przeczytać całą pracę, aby do-
kładniej się dowiedzieć, w jaki sposób autor doszedł do wniosków przedsta-
wionych w streszczeniu?

WPROWADZENIE

Podobno pułkownik, a następnie generał II RP, Bolesław Wieniawa-


Długoszowski, kiedy po suto zakrapianej kolacji wyszedł na klatkę schodo-
wą w kamienicy, miał powiedzieć: „Panowie, żarty się skończyły… zaczęły
się schody”. Powiedzenie to zadomowiło się w naszym języku, a przywołu-
jemy je po to, by Ci uświadomić, że jesteśmy teraz w najtrudniejszej części
całej pracy. Trudność polega przede wszystkim na tym, że nie można sfor-
mułować zbyt wielu szczegółowych wskazówek dotyczących tego, w jaki
sposób ją napisać.
W podręczniku APA można znaleźć jedynie wskazówkę, by wprowadzenie
koniecznie zawierało trzy następujące elementy:
• przedstawienie problemu,
• opis wcześniejszych badań, które mają związek z tym problemem,
• zdefiniowanie celu badania i proponowanego sposobu rozwiązania pro-
blemu.
JAK NAPISAĆ RAPORT Z BADAŃ? 585

PRZEDSTAWIENIE PROBLEMU

Praca powinna się rozpoczynać od przedstawienia problemu badawczego.


Należy więc napisać o tym:
• dlaczego problem jest ważny,
• jaki jest związek pomiędzy tym problemem a stawianymi hipotezami
badawczymi,
• jaki jest związek przedstawianego badania z innymi badaniami w danej
dziedzinie,
• jakie znaczenie ma prezentowana praca dla rozwoju teorii w danej dzie-
dzinie.
Dobrze jest więc rozpocząć raport od krótkiego (APA zaleca wszystko robić
jak najkrócej) połączenia swoich badań z teorią (lub z teoriami) w interesu-
jącej Cię dziedzinie badawczej. Pisząc wprowadzenie, od samego początku
koncentruj się raczej na tym, jaki jest związek Twoich badań (i ich wyni-
ków) z aktualnie ugruntowanymi przekonaniami teoretycznymi w dziedzi-
nie, a nie na tym, że zrobiłeś ciekawe badanie i chcesz o nim opowiedzieć.
Oto przykład wprowadzenia do artykułu napisanego przez Piotra Winkiel-
mana, Norberta Schwarza i Roberta Belli, który ukazał się w Psychological
* Winkielman, P., Schwarz, N., Science*:
Belli, R. F. (1998). The role of
ease of retrieval and attribution Przekonania ludzi na temat pamięci badano w wielu różnych dziedzinach (przegląd
in memory judgments: Judging badań można znaleźć w pracach Dixona, 1989 i Hermanna, 1982). Niniejsze badania
your memory as worse despite koncentrują się na temacie, któremu dotąd poświęcono mniej uwagi – strategiom,
recalling more events. Psycholo-
gical Science, 9, 124-126. Wy- jakie ludzie wykorzystują w ocenie jakości swojej pamięci. Przypuśćmy np., że ktoś
niki tych badań wykorzystaliśmy Cię pyta: „Czy wiele jest takich informacji z Twojego dzieciństwa powyżej piątego
w naszym przewodniku w roz- roku życia, których nie pamiętasz?”. Możesz odpowiedzieć: „tak”, „nie jestem pe-
dziale poświęconym logicznym wien” lub „nie” (Ross, 1989). W jaki sposób doszedłbyś do odpowiedzi? W jaki
podstawom testowania hipotez.
sposób ludzie oceniają swoją własną pamięć w odniesieniu do pewnego okresu? Być
może, koncentrują się na tym, jak wiele informacji mogą wydobyć z pamięci. Im
więcej sobie przypominają, tym lepiej ją oceniają. Inna możliwość wiąże się z kon-
cepcją heurystyki dostępności (Tversky, Kahneman, 1973). Oceniając swoją pamięć,
ludzie mogą polegać na subiektywnym doświadczeniu łatwości lub trudności przy-
pominania. Jeżeli tak, to będą oceniać swoją pamięć jako dobrą, gdy mają poczucie,
że przypominanie sobie czegoś jest łatwe, a jako złą, gdy doświadczają jakichś trud-
ności w przypominaniu (s. 124).
Przeanalizujmy ten fragment. Zwróć uwagę na to, że:
• już w pierwszym zdaniu dowiadujesz się, iż badanie będzie dotyczyło
przekonań ludzi na temat pamięci, oraz otrzymujesz wskazówkę biblio-
graficzną odsyłającą Cię do przeglądowych artykułów na ten temat, na-
pisanych przez innych autorów,
586 DODATEK GRATIS

• w drugim zdaniu dowiadujesz się, że chodzi o strategie oceny własnej


pamięci,
• następnie autorzy zwracają się do Ciebie z pytaniem dotyczącym oceny
zakresu Twojej pamięci i za pomocą kilku następnych pytań starają się
wzbudzić w Tobie refleksje wokół interesującego ich przedmiotu badań
(nawiasem mówiąc, w tym fragmencie autorzy powiedzieli także już
trochę na temat zastosowanej przez siebie metody badania przekonań
dotyczących własnej pamięci, ponieważ zadane Ci pytanie i zapropono-
wany sposób odpowiadania na nie są elementami zadania wykorzysta-
nego w eksperymencie),
• w ostatniej części akapitu przedstawiony jest problem badawczy: czy
ocena własnej pamięci zależy od liczby przypomnianych zdarzeń, czy
też od łatwości przypominania? Problem wyrasta na dwóch intuicyjnie
akceptowanych, choć przecież różnych przesłankach teoretycznych.

OPIS WCZEŚNIEJSZYCH BADAŃ, KTÓRE MAJĄ ZWIĄZEK Z PROBLEM BADAWCZYM

W tej części wprowadzenia największa trudność polega na trafnym wyborze


i przytoczeniu wyników tych badań, które wiążą się z tematem pracy. Nie
należy przesadzać z liczbą odwołań.
We wprowadzeniu do cytowanego artykułu Winkielmana i współpracowni-
ków pojawia się zaledwie kilka odnośników bibliograficznych. Ich badania
nie dotyczą funkcjonowania pamięci we wszystkich możliwych aspektach,
lecz jedynie strategii jej oceniania. Stąd też nie ma potrzeby odwoływania
się do niezliczonej liczby badań nad pamięcią.
Zgodnie z zaleceniem APA, w zupełności wystarczy przywołać jedną lub
kilka pozycji bibliograficznych, w których można znaleźć całościowy prze-
gląd badań. Działając zgodnie z tymi wskazówkami, autorzy cytowanego ar-
tykułu koncentrują się tylko na tych badaniach, które bezpośrednio są zwią-
zane z oceną pamięci.
Nie ma prostej recepty na napisanie dobrego przeglądu literatury, ale może
tych kilka uwag, które znaleźliśmy w podręczniku APA, pomogą Ci sprostać
temu zadaniu:
• przede wszystkim koniecznie powinieneś przywołać te badania, które
dotyczą analizowanego przez Ciebie tematu,
• raczej staraj się nie cytować podręczników, a także tych publikacji, które
mają marginalny związek z podjętą przez Ciebie problematyką,
• prezentując inne badania, kieruj się przede wszystkim logiką wywodu,
a nie tym, które z nich zostały opublikowane wcześniej, a które później,
JAK NAPISAĆ RAPORT Z BADAŃ? 587

• zasadniczo możesz przyjąć, że Twój tekst będzie czytał ktoś zoriento-


wany w danej dziedzinie, i dlatego unikaj zbyt wielu szczegółowych wy-
jaśnień,
• z drugiej jednak strony pisz komunikatywnie (prosto i jednoznacznie,
a przede wszystkim zgodnie z normą języka, którym się posługujesz),
aby zawiłościami tzw. naukowej nowomowy nie ograniczać zanadto
liczby czytelników (nawiasem mówiąc, te uwagi nie dotyczą tylko tej
części raportu, którą właśnie omawiamy, lecz także całej Twojej pisar-
skiej twórczości naukowej).

CEL BADANIA I PROPONOWANY SPOSÓB ROZWIĄZANIA PROBLEMU

Zgodnie ze standardem APA, wprowadzenie winno się zakończyć definicją


analizowanych zmiennych niezależnych i zależnych oraz sformułowaniem
hipotez badawczych. Można tę część wykonać opisowo, za pomocą ciągłego
tekstu, lub schematycznie – w punktach. Oto, jak poradzili sobie z tym zada-
niem Piotr Winkielman i współpracownicy:
[…] osoby badane zostały poproszone o to, aby przypomniały sobie albo 4, albo 12
wydarzeń ze swojego dzieciństwa. Podczas gdy pierwsze zadanie było dla badanych
raczej łatwe, drugie oceniali jako trudne. Następnie osoby badane oceniały komplet-
ność swoich wspomnień z dzieciństwa. Przewidywaliśmy, że uczestnicy będą oce-
niali swoją pamięć jako gorszą wtedy, gdy uda im się wydobyć wiele wspomnień
z dzieciństwa, niż wtedy, gdy przypomną sobie tylko kilka wydarzeń z dzieciństwa
[…] (s. 124).
Po przeczytaniu tego fragmentu dowiedziałeś się:
• że zmienną niezależną w eksperymencie będzie liczba wspomnień, jaką
mają przypomnieć sobie badani (4 lub 12),
• że zmienną zależną będzie ocena „kompletności” swojej pamięci (ale nie
wiemy jeszcze, w jaki sposób badacze będą mierzyć tę zmienną),
• jaka jest hipoteza badawcza – zaczyna się ona od sformułowania:
„Przewidywaliśmy, że ...”

I NA KONIEC KILKA UWAG O WPROWADZENIU

Pierwsza uwaga dotyczy umieszczenia słowa „Wprowadzenie” jako tytułu


tej części. Kiedy chcemy komuś o czymś powiedzieć, na ogół nie zaczyna-
my od końca, tylko od początku. Wprowadzenie – jak sama nazwa wskazuje
– musi znajdować się na początku, a zatem nie trzeba go specjalnie anonso-
wać. Krótko mówiąc, w większości przypadków można sobie darować sło-
wo „Wprowadzenie”, tylko po prostu od razu zacząć pisać. W zasadzie tak
588 DODATEK GRATIS

będą wyglądały artykuły opublikowane w specjalistycznych czasopismach,


zgodnie ze standardem APA. Bynajmniej nie oznacza to jednak, że wprowa-
dzenie jest monolitem, którego nie można podzielić na mniejsze części,
z których każda będzie zatytułowana inaczej. Jeżeli tylko taki podział po-
prawi czytelność tekstu, to oczywiście nie ma żadnych przeciwwskazań.
Pisząc pracę magisterską lub doktorską, z pewnością będziesz chciał znacz-
nie rozbudować swoje wprowadzenie. Podzielisz je na rozdziały i podroz-
działy, a całość poprzedzisz z kolei „Wstępem”, który w pewnym sensie
przejmie funkcję „Wprowadzenia” do artykułu. Twój tekst będzie bardziej
przypominał książkę niż artykuł w czasopiśmie. Nawiasem mówiąc,
„Wstęp” możesz z kolei poprzedzić „Przedmową”, w której odbędziesz sen-
tymentalną podróż, wspominając okoliczności powstawania dzieła oraz
dziękując ludziom, którzy pomogli Ci je sfinalizować. A na upartego
„Przedmowę” możesz jeszcze poprzedzić trafnym mottem lub dedykacją. To
jednak, jak te pierwsze części pracy będą wyglądały, w znaczniej mierze za-
leży od szczegółowych ustaleń z jej odbiorcą.
Na wydziałach psychologii polskich uczelni najczęściej prace magisterskie
składają się z dwóch części – teoretycznej i empirycznej. Podział ten jest
nieco szkolny i bywa, że obie części są traktowane w oderwaniu od siebie.
Czasem wygląda to trochę tak, jakby praca składała się z dwóch niezależ-
nych od siebie publikacji. W jednej magistrant umieszcza wszystko, co mu
się kojarzy na temat dziedziny badań wskazanej w tytule pracy, a w drugiej
– wszystko, co zrobił od chwili, gdy pierwsza osoba badana weszła do labo-
ratorium. Problem w tym, że między tymi dwoma opisami związek bywa
dość luźny. No cóż, przyjmowanie takich prac mówi także co nieco na temat
ich promotorów. Tak czy inaczej, wskazówki APA dotyczące charakteru
wprowadzenia dotyczą przede wszystkim części teoretycznej.

METODA

Druga część raportu poświęcona jest szczegółowemu opisowi sposobu,


w jaki przeprowadziłeś badanie. Należy ją tak napisać, aby czytelnik mógł
stwierdzić, czy dobrze dobrałeś metody badawcze do weryfikacji stawianych
hipotez, i w efekcie ocenić jakość uzyskanych przez Ciebie wyników. Zgod-
nie ze standardem APA, metoda powinna być tak opisana, żeby osoby z od-
powiednim doświadczeniem w danej dziedzinie mogły powtórzyć ekspery-
ment.
Część „Metoda” dzieli się na trzy sekcje:
• osoby badane,
• materiały,
• procedura.
JAK NAPISAĆ RAPORT Z BADAŃ? 589

OSOBY BADANE

Bez zbędnych wstępów należy dokładnie opisać, kim były osoby, które
wzięły udział w badaniach.
• W szczególności należy zwrócić uwagę na takie ich cechy demograficz-
ne, jak wiek i płeć, a jeśli z punktu widzenia problemu badawczego ma
to jakieś znaczenie – również pochodzenie społeczne, wykształcenie lub
inne, np. przebyte choroby lub aktualna diagnoza kliniczna.
• Koniecznie trzeba podać liczbę wszystkich osób badanych, a także licz-
bę badanych w poszczególnych grupach, wyróżnionych zarówno ze
względu na kryteria demograficzne, jak i zmienne niezależne główne.
• Dalej należy podać nie tylko średnią wieku w całej grupie (i ewentualnie
średnie wieku w podgrupach), ale także odpowiadające im odchylenia
standardowe.
• Warto również napisać, w jaki sposób dotarliśmy do osób badanych (np.
za pośrednictwem ogłoszenia na uczelni) i czy otrzymywały one jakieś
wynagrodzenie za udział (może to być drobna suma pieniędzy lub tzw.
punkty za badania do zaliczenia niektórych przedmiotów).
• Jeżeli któraś z osób badanych wycofała się z eksperymentu lub z jakie-
goś powodu nie można brać jej wyników pod uwagę w analizie staty-
stycznej, można o tym napisać właśnie w tym miejscu.
Krótki opis osób badanych biorących udział w eksperymencie przeprowa-
* Diseth, A., Martinsen, Ø. dzonym przez Åge Diseth i Øyvind Martinsen*, dotyczącym stylu uczenia
(2003). Approaches to learning, się wśród studentów, wygląda następująco:
cognitive style, and motives as
predictors of academic achieve- Badana próba składała się ze 192 studentów psychologii – 137 kobiet oraz 55 męż-
ment. Educational Psychology,
23, 195-207.
czyzn. Średnia wieku wyniosła 21,7, rozpiętość wieku wahała się od 19 do 46 lat
(s. 199).
Opis grupy badanej to niewątpliwie najłatwiejszy punkt całej pracy. Jeżeli
nie wiesz, od czego zacząć pisanie raportu, zacznij właśnie od tego.

MATERIAŁY

Słowo „Materiały” jest tłumaczeniem angielskiego Materials, którym posłu-


giwano się jeszcze w czwartym wydaniu podręcznika APA. W wydaniu pią-
tym zostało ono zastąpione określeniem Apparatus, co można przetłumaczyć
jako „Aparatura” lub „Aparatura badawcza”.
Na oznaczenie tej części raportu czasem można też spotkać się z angielskim
słowem Stimulus („Bodziec” lub „Bodźce”). W języku polskim jednak naj-
częściej używa się określenia „Materiały” lub „Narzędzia badawcze”.
590 DODATEK GRATIS

Niezależnie od przyjętego tytułu, w tej części należy opisać wszystkie


„urządzenia” wykorzystane w badaniu. Pod tym słowem mogą się kryć za-
równo komputery, specjalna aparatura (np. do pomiaru reakcji fizjologicz-
nych), jak i testy czy kwestionariusze psychologiczne, a także wykorzystane
zdjęcia, grafiki lub rekwizyty. Należy wymienić i opisać tylko urządzenia
specyficzne dla sytuacji badawczej, pomijając tak oczywiste, jak np. krzesła
czy stoły, przy których siedzieli badani, a także nieistotne z punktu widzenia
badań cechy tych urządzeń, np. kolor obudowy komputera.
Nie trzeba też podawać szczegółowego opisu materiałów, które są po-
wszechnie używane. Jeżeli w badaniu wykorzystałeś stoper, kamerę lub apa-
rat fotograficzny, to nie musisz pisać, jaki to był model i kto go wyproduko-
wał, a jeśli wykorzystałeś test psychologiczny, to wystarczy, gdy podasz je-
go nazwę i ewentualnie numer wersji. Do opisu urządzeń warto jednak dołą-
czać krótkie notki bibliograficzne odnoszące do publikacji, w których czy-
telnik raportu znajdzie więcej szczegółów na ich temat.
Wykorzystując bardziej skomplikowane, a zwłaszcza mniej znane urządze-
nia, można załączyć ich zdjęcie lub schemat. Dobrym miejscem do nieco
bardziej szczegółowego ich opisu są załączniki umieszczone na końcu pracy.
Opis materiałów wykorzystanych w eksperymencie powinien być tak jedno-
znaczny, aby na jego podstawie można było poprawnie je zrekonstruować.
* Simons, D. J., Chabris, C. F. Daniel Simons i Christopher Chablis* przeprowadzili interesujący ekspery-
(1999). Gorillas in our midst: ment dotyczący uwagi i skonstruowany przez nich materiał bodźcowy wy-
sustained intentional blindness
for dynamic events. Perception, magał nieco bardziej szczegółowego opisu:
28, 1059-1074.
Przygotowane zostały cztery kasety wideo, każda z nagraniem o długości 75 sek. Na
każdej z nich pokazane były dwa zespoły po trzech zawodników; jeden zespół ubra-
ny był w białe, a drugi w czarne koszulki. Zawodnicy poruszali się w dosyć przy-
padkowy sposób w hallu (około 3 m szerokości i 5,2 m długości) na tle trzech drzwi
do wind. Członkowie każdego z zespołu podawali do siebie standardową pomarań-
czową piłkę do koszykówki, w sposób z góry określony: gracz 1 podawał piłkę do
gracza 2, który podawał ją do gracza 3, a ten z kolei rzucał ją do gracza 1 itd. Za-
wodnicy podawali do siebie piłkę albo z odbiciem, albo w powietrzu; gracze także
kozłowali piłkę, machali rękami i wykonywali inne ruchy, tylko przypadkowo spo-
glądając w kierunku kamery.
Po 44-48 sek. gry pojawiało się jedno z nieoczekiwanych zdarzeń: w wersji „Kobie-
ta z Parasolem” na ekranie pojawiała się wysoka kobieta z otwartym parasolem, któ-
ra wychodziła spoza pola widzenia kamery z lewej strony gry i przechodziła na
prawą stronę. Zachowanie się graczy i sposób prezentacji tego niespodziewanego
wydarzenia zostały przedstawione w sposób podobny do bodźców użytych przez
Neissera i jego współpracowników. W wersji „Goryl” w podobny sposób przed ka-
merą przechodziła niższa kobieta ubrana w strój goryla. W obu przypadkach niespo-
dziewane wydarzenie trwało 5 sek. Przed, w czasie i po tym wydarzeniu zawodnicy
stale kontynuowali grę.
JAK NAPISAĆ RAPORT Z BADAŃ? 591

Wykorzystane zostały dwa typy filmów: w wersji „Przezroczystej” drużyna biała,


drużyna czarna i niespodziewane wydarzenie zostały sfilmowane oddzielnie, a trzy
strumienie wideo zamieniono na częściowo przezroczyste i nałożono na siebie za
pomocą programu do cyfrowej obróbki wideo. […] W wersji „Nieprzezroczystej”
cała siódemka aktorów była sfilmowana jednocześnie, a ponieważ mogło to powo-
dować kolizję pomiędzy graczami lub z piłką, filmowanie tej wersji wymagała kilku
prób, których celem było wyeliminowanie zderzeń, tak aby całość miała wygląd jak
najbardziej naturalny (s. 1066).
Przede wszystkim zwróć uwagę na to, jak dokładny jest opis materiału ba-
dawczego. Korzystając tylko z tego fragmentu, z pewnością sam mógłbyś
przygotować nagrania do podobnego eksperymentu. W opisie zawarte są
również informacje dotyczące zmiennych niezależnych głównych. Nazwy
warunków eksperymentalnych autorzy zasygnalizowali za pomocą wielkich
liter. Jedną ze zmiennych jest typ niespodziewanego wydarzenia wplecione-
go w grę (Kobieta z Parasolem lub Goryl), drugą – film w wersji Przezro-
czystej lub Nieprzezroczystej.
Jak zaznaczają autorzy na początku opisu, w sumie skonstruowali cztery
* Jeżeli chcesz, możesz te ob- wersje filmu i dla rozwiania wszelkich wątpliwości w oryginalnym tekście
razki znaleźć w Internecie na
stronie: artykułu zamieszczono po jednym zdjęciu z każdego z nich*. O tym, na
http://www.perceptionweb.com/ czym polegało zadanie osób badanych w tym eksperymencie, napisano w
perc0999/simons.html
następnej sekcji, w części „Metoda”.

PROCEDURA

Tym razem zacznijmy od cytatu z badania przeprowadzonego przez Daniela


Simonsa i Christophera Chabrisa. Oto opis procedury badawczej w ekspe-
rymencie z Kobietą z Parasolem i kobietą przebraną za goryla.
Wszyscy obserwatorzy [tak autorzy nazwali uczestników eksperymentu – P. F.
i R. M.] byli testowani indywidualnie, po wcześniejszym wyrażeniu zgody na
udział w badaniu. Przed obejrzeniem kasety wideo zostali oni poinformowani, że
będą oglądać dwa zespoły składające się z trójek zawodników podających do siebie
piłkę do koszykówki. Uczestnicy eksperymentu zostali poinformowani, że powinni
zwracać uwagę albo na drużynę ubraną na biało (warunek Biały), albo ubraną na
czarno (warunek Czarny). Powiedziano im także, że powinni liczyć w myśli albo
wszystkie podania wykonane przez drużynę, na której się koncentrowali (warunek
Łatwy), albo odrębnie liczyć podania górą i z odbiciem od ziemi, wykonane przez tę
drużynę (warunek Trudny). Tak więc dla każdego z czterech typów filmów utwo-
rzone zostały cztery warunki eksperymentalne: „Biały – Łatwy”, „Biały – Trudny”,
„Czarny – Łatwy”, „Czarny – Trudny”, dając w sumie 16 odrębnych sytuacji ba-
dawczych. Każdy obserwator brał udział tylko w jednej z tych sytuacji.
Po obejrzeniu nagrań i liczeniu podawanych piłek obserwatorzy byli od razu pro-
szeni o to, aby zapisali na papierze liczbę zarejestrowanych przez siebie podań. Nie-
oczekiwanie proszono ich także o odpowiedź na cztery dodatkowe pytania: (1) Czy
592 DODATEK GRATIS

podczas liczenia zauważyłeś coś niezwykłego w nagraniu? (2) Czy zauważyłeś coś
innego niż sześciu graczy? (3) Czy widziałeś, by ktokolwiek inny poza graczami po-
jawił się na wideo? (4) Czy widziałeś, jak na ekranie przechodził goryl (lub kobieta
niosąca parasol)? Po odpowiedzi „tak” na każde z tych pytań proszono obserwato-
rów o podanie szczegółów odnośnie do tego, co widzieli. Jeżeli przy którymkolwiek
pytaniu obserwator wspominał o niespodziewanym wydarzeniu, następne pytania
były opuszczane. Po odpowiedzi na te pytania obserwatorzy byli pytani, czy kiedy-
kolwiek wcześniej brali udział w podobnym eksperymencie albo czy słyszeli o po-
dobnym eksperymencie lub o podobnym zjawisku. (Obserwatorzy, który odpowie-
dzieli „tak”, byli zastępowani nowymi osobami badanymi, a ich wyniki były odrzu-
cane z dalszych analiz). W ostatniej części badania obserwatorzy wzięli udział w se-
sji wyjaśniającej, w której, jeżeli ktoś chciał, ponownie puszczano cały film jeszcze
raz. Cała sesja eksperymentalna trwała od 5 do 10 minut (s. 1066-1067).
Cytowany opis procedury zawiera wszystkie etapy wykonywania badania.
Rozpoczyna się od zwięzłego przedstawienia instrukcji, jaką otrzymali ob-
serwatorzy. Nawiasem mówiąc, jeżeli w badaniu wykorzystuje się różne in-
strukcje (np. w celu wprowadzenia różnych poziomów zmiennej niezależ-
nej), to istotne ich fragmenty – a nawet całą treść – należy podać dosłownie.
W tej części raportu najważniejsze jest opisanie wszystkich warunków eks-
perymentalnych i sposobu przydzielania do nich osób badanych.
Z cytowanych opisów materiału bodźcowego oraz procedury wyłania się ob-
raz 16 różnych sytuacji eksperymentalnych powstałych w wyniku „skrzyżo-
wania” 4 dwuwartościowych zmiennych: Wersja filmu (Przezroczysta lub
Nieprzezroczysta) × Rodzaj niespodziewanego wydarzenia (Kobieta z Para-
solem lub Goryl) × Obserwowana drużyna (Czarna lub Biała) × Rodzaj za-
dania (Łatwe lub Trudne).
Zgodnie ze standardem APA, przedstawiając warunki eksperymentalne, do-
brze jest wyróżnić ich nazwy za pomocą słów-haseł. W raporcie z cytowa-
nych badań Simons i Chabris wyróżnili wielkimi literami nazwy poszcze-
gólnych poziomów zmiennych niezależnych. Nie jest to całkiem zgodne
z zaleceniami zawartymi w podręczniku APA. Jego autorzy sugerują, aby
wielkie litery rezerwować raczej dla nazw czynników, a nazwy warunków
eksperymentalnych zapisywać małymi literami. Taki zapis powinien więc
wyglądać raczej tak: Wersja Filmu (przezroczysta lub nieprzezroczysta).
Jak widzisz, nie zawsze wszystkie zalecenia APA są ściśle przestrzegane.
Nawiasem mówiąc, omawiany artykuł został opublikowany w czasopiśmie
Perception, które nie jest wydawane przez APA, ale przez Pion Limited
w Wielkiej Brytanii. Być może, właśnie stąd wynikają drobne odstępstwa od
stylu APA. Trzeba też jednak dodać, że Publication Manual nie jest spisem
niekwestionowanych dogmatów, lecz zbiorem użytecznych zasad, z których
tak naprawdę najważniejsza jest jedna: bądź konsekwentnie komunikatyw-
ny. Jeżeli więc do opisu czynnika lub warunku eksperymentalnego użyłeś
JAK NAPISAĆ RAPORT Z BADAŃ? 593

wielkiej litery, to stosuj ten zapis w całym raporcie. Jeżeli zaś zdecydowałeś
się nazywać jeden z warunków eksperymentalnych „przezroczystą wersją
filmu”, to nie nazywaj go gdzie indziej np. „wyraźnym filmem”, bo wtedy
czytelnik nie będzie pewien, czy chodzi Ci o to samo. Pisanie raportu ba-
dawczego nie jest wypracowaniem z języka polskiego – jednoznaczność tre-
ści jest tu znacznie ważniejsza od kwiecistości stylu.
W części poświęconej opisowi procedury można – o ile to koniecznie – wy-
odrębnić mniejsze fragmenty. Najczęściej taki podział jest podyktowany
opisem różnych metod pomiaru zmiennych zależnych, zwłaszcza gdy są one
mało znane.
Najważniejszym wymogiem stawianym autorowi opisu procedury badaw-
czej jest takie jej przedstawienie, aby czytelnik, który jest zorientowany
w danej dziedzinie, mógł powtórzyć badanie.
Na zakończenie tej części proponujemy Ci krótki przerywnik.
Eksperyment z kobietą-gorylem znaleźliśmy na stronie internetowej czasopis-
ma Annals of Improbable Research (Roczniki Badań Niewiarygodnych),
które przyznaje nagrody, tzw. Ig Nobel, za szczególne osiągnięcia w nauce,
które sprawiają, że „najpierw się śmiejesz, a potem myślisz”. Nagrody są
sponsorowane m.in. przez dwa studenckie stowarzyszenia na Uniwersytecie
Harvarda w Bostonie i przyznawane rokrocznie jesienią tuż po przyznaniu
„normalnej” nagrody Nobla. Otrzymanie Ig Nobel bynajmniej nie oznacza
promocji bylejakości w nauce. Przeciwnie, laureatami Ig Nobla są także re-
gularni nobliści, choć oczywiście nie za te same badania.
Nagrodę otrzymał m.in. Brytyjski Instytut Standaryzacji (British Standard
Institute) za opublikowanie 6-stronicowej instrukcji parzenia herbaty numer
BS 6008, grupa meksykańskich naukowców za wyhodowanie odmiany pa-
pryki jalapeno, która nie jest ostra, i holenderscy fizycy za opracowanie ma-
tematycznej funkcji znikania piany na piwie. Nagroda Ig Nobel jest przy-
znawana w różnych kategoriach. Japończyk, Daisuke Inoue, otrzymał ją za
wynalezienie karaoke, które uznano za nowy sposób uczenia ludzi tolerancji
(jeśli brałeś kiedyś udział w tej zabawie dłużej niż przez 2 minuty, to mniej
więcej wiesz, o co chodzi). Ig Nobel dostają także psychologowie lub osoby,
których dokonania można zaliczyć do psychologii. W 1995 roku japońscy
badacze, Shigeru Watanabe, Junko Sakamoto i Masumi Wakita, dostali na-
grodę za eksperyment, w którym nauczyli gołębie odróżniania obrazów Pi-
cassa od obrazów Moneta, a jeden z premierów Singapuru otrzymał ją za
wykorzystanie warunkowania klasycznego do oduczenia mieszkańców mia-
sta plucia na ulicę, żucia gumy w miejscach publicznych i karmienia gołębi.
Nie wszyscy laureaci czują się urażeni tą nagrodą i zdarza się, że osobiście
ją odbierają. Jednym z nich jest psycholog społeczny, Filip Zimbardo, który
594 DODATEK GRATIS

w latach 60. przeprowadził kontrowersyjny eksperyment ze studentami w ro-


lach więźniów i strażników. Zimbardo, wraz z dwójką Włochów, Gianem
Vittoriem Caprarą i Claudiem Barbaranellim, otrzymał Ig Nobel za udowod-
nienie, że do opisu polityka wystarczą dwie cechy osobowości, a nie pięć,
jak się to dosyć powszechnie w psychologii przyjmuje.
W kontekście tych wszystkich nieco zaskakujących dokonań intelektualnych
* Jeśli chcesz się dowiedzieć o domyślasz się, że wyniki eksperymentu Daniela Simonsa i Christophera
innych dziwnych dokonaniach Chabrisa musiały również znaleźć uznanie w oczach jury Ig Nobel. Osta-
naukowców, zajrzyj na stronę
http://www.improb.com/ig/ig- tecznie to naprawdę jest dość dziwne, że gdy zwracasz baczną uwagę na
top.html. Znajdziesz na niej listę jedną rzecz, możesz przegapić inną – nawet jeśli jest nią kobieta przebrana
wszystkich laureatów Ig Nobel
oraz krótkie uzasadnienia wer-
za goryla. Dla porządku dodajmy, że obaj autorzy stawili się po odbiór na-
dyktu. grody podczas ceremonii wręczenia*.

WYNIKI

Najczęstszym błędem w raportach z badań przygotowywanych przez studen-


tów jest pomieszanie opisu wyników z ich interpretacją. Warto więc zapa-
miętać, że w części zatytułowanej „Wyniki” piszemy o tym, co wyszło, a nie
co z tego wynika. Upraszczając nieco, w tej części raportu opisujemy to, co
otrzymaliśmy na wydrukach komputerowych z pakietu statystycznego. Zde-
cydowanie jednak nie należy opisywać w raporcie wszystkiego, co wyszło.
Przede wszystkim trzeba uwzględnić te wyniki, które mają bezpośredni
związek ze stawianymi hipotezami. Inne rezultaty badań można włączyć do
opisu tylko pod warunkiem, że są ważne ze względu na przedmiot badań.
Jeżeli są jeszcze jakieś wyniki, które wydają nam się ciekawe, ale wyszły
jakby trochę niechcący, warto je zachować jako punkt wyjścia do następ-
nych eksperymentów.
Nie należy podawać wyników pojedynczych osób. Taka prezentacja nie
sprzyja uchwyceniu charakterystycznych trendów.
Wyniki najlepiej przedstawiać w takiej kolejności, w jakiej zostały zaprezen-
towane związane z nimi hipotezy badawcze.
W tej części raportu jego autor nie tylko opisuje procenty, średnie bądź
wskaźniki zmienności, ale także ujawnia wyniki testów, które przesądzają
o statystycznej istotności różnic. Dobrą praktyką jest wyraźne rozdzielenie
obu tych informacji, tak aby po usunięciu tego, co dotyczy statystycznej
istotności, czytelnik nadal wiedział, jaki jest wynik przeprowadzonego eks-
perymentu.
Zgodnie ze standardem APA, opis wyników powinien obejmować, oprócz
miar tendencji centralnej, również miary zmienności. Jeżeli np. sprawdzałeś,
ile sylab bezsensownych pamiętają studenci matematyki, w porównaniu ze
JAK NAPISAĆ RAPORT Z BADAŃ? 595

studentami polonistyki, po jednym, po dwóch lub po trzech dniach od wy-


uczenia się całej listy na pamięć, to wynikiem będą średnie liczby zapamię-
tanych sylab w obu grupach, w trzech kolejnych pomiarach. Prezentując ten
wynik, musisz zapisać sześć średnich arytmetycznych oraz liczebność
dwóch badanych grup. Ponadto powinieneś przedstawić odchylenia standar-
dowe (lub ewentualnie błąd standardowy) dla każdej z tych średnich. Auto-
rzy podręcznika APA zalecają, aby w tekście nie wymieniać bezpośrednio
po sobie więcej niż trzech liczb. Gdy jest ich więcej, lepiej użyć tabeli, a jeś-
li ich liczba przekracza dwadzieścia – najlepszym rozwiązaniem jest wykres.
Przypuśćmy, że badałeś pamięć studentów matematyki i polonistyki tylko
raz, następnego dnia po nauczeniu się przez nich listy bezsensownych sylab.
Wówczas opis takiego wyników mógłby wyglądać np. tak:
Po 24 godzinach od nauczenia się listy 20 sylab bezsensownych studenci matematy-
* Skróty M i SD oznaczają, od- ki poprawnie odtwarzali średnio więcej sylab (M = 16,3, SD = 2,37)* niż studenci
powiednio, średnią arytmetyczną polonistyki (M = 9,8; SD = 3,23).
(ang. mean) i odchylenie stan-
dardowe (ang. standard devia- Prezentując wyniki wyrażone za pomocą różnych miar położenia, najczę-
tion).
ściej używamy określeń: „więcej – mniej”, „lepiej – gorzej”, „szybciej –
wolniej” itp. Średnie i inne miary tendencji centralnej prezentuje się po to,
by je porównywać, należy więc to zrobić także za pomocą odpowiednio do-
branych słów.
O tym, czy różnica między wskaźnikami tendencji centralnej lub korelacja
jest statystycznie istotna, przesądza wynik odpowiedniego testu statystycz-
nego. Właśnie po to się stosuje testy, by stwierdzić, czy otrzymane dane tak
naprawdę nie różnią się od siebie tylko przypadkiem. Na ogół wynik testu
podajesz zgodnie z następującym schematem: nazwa testu, liczba stopni
swobody, wynik testu, prawdopodobieństwo odrzucenia hipotezy zerowej,
czyli np.:
t(18) = 5,13; p<0,001
Z tego zapisu wynika, że różnica między średnimi w dwóch 10-osobowych
grupach, sprawdzana za pomocą testu t-Studenta dla 18 stopni swobody (10
osób z pierwszej grupy + 10 osób z drugiej grupy – 2 = 18), wyniosła 5,13
oraz że ta wartość jest istotna statystycznie na poziomie α, co najmniej rów-
nym 0,001.
Poziom istotności różnic wyraża się za pomocą liczb dziesiętnych, z dokład-
nością nie większą niż do jednej tysięcznej, czyli do trzech miejsc po prze-
cinku. Jeżeli na wydruku komputerowym, obok wyniku testu, odczytasz
wartość prawdopodobieństwa odrzucenia hipotezy zerowej mniejszą niż
0,001, np.:
p = 0,00005
596 DODATEK GRATIS

to w raporcie zapisujesz: p<0,001. Dokładnie tak samo postępuj wtedy, gdy


na wydruku znajdziesz nieco zaskakujący zapis prawdopodobieństwa, równy
0,000000. Oznacza on, że prawdopodobieństwo uzyskania przypadkiem ta-
kiej różnicy między średnimi, jaką właśnie analizujesz, jest mniejsze niż
jedna milionowa. W raporcie jednak znowu zapiszesz, że p<0,001.
Pamiętaj również o tym, że zgodnie z polską normą zapis p<,001 jest niepo-
prawny, chociaż często pojawia się w takiej formie na wydrukach kompute-
rowych. Każda liczba mniejsza niż 1 musi być w raporcie zapisana włącznie
z zerem przed przecinkiem.
I jeszcze jedno – gdy wartość prawdopodobieństwa odrzucenia hipotezy ze-
rowej jest większa niż 0,001, np.: 0,023423, wówczas poprawny jest zapis
p<0,023. Nie powinno się natomiast stosować zapisu p = 0,023, ponieważ
w przypadku oceny prawdopodobieństwa każda wartość liczbowa jest tylko
przybliżona.
* Zob. Wilkinson, L. (1999). Zgodnie z zaleceniem Grupy Zadaniowej APA (Task Force)*, oprócz poda-
Statistical methods in psycho- nia poziomu istotności statystycznej, należy także podać wielkość efektu, np.
logy. Guidlines and explana-
tions. American Psychologist, za pomocą współczynnika d Cohena.
54, 594-104.
Prezentacja wyników testu komplikuje się wraz z jego zaawansowaniem sta-
tystycznym. Chcąc zapisać kompletny wynik analizy wariancji lub analizy
regresji, czasem nawet musimy się posłużyć tabelą.

O ZDJĘCIACH TWARZY I BAKTERIACH W SAŁATCE Z KURCZAKA

Czy wiesz, co to jest face-ism, czyli po polsku „twarzowość”? Jest to zjawi-


sko polegające na tym, że lepiej oceniamy ludzi na fotografiach wtedy, gdy
przedstawiają tylko ich twarze, niż wtedy, gdy prezentują ich do pasa lub
w całości. Badania empiryczne nad tym zjawiskiem przeprowadzili Marco
** Costa, M., Bitti, P.E., (2000). Costa i Pio Enrico Ricci Bitti**. Zadaniem osób badanych była ocena foto-
Face-ism effect and head canting grafii prezentowanych na monitorze komputera: trzech własnych, trzech nie-
in one’s own and others’ photo-
graphs. European Psychologist, znanej kobiety i trzech nieznanego mężczyzny. Każde ze zdjęć było kadro-
5, 293-301. wane w trzech formatach: zbliżenie (sama twarz), plan amerykański (do pa-
sa) i plan pełny (cała osoba). Trzecim czynnikiem eksperymentalnym była
płeć osoby oceniającej zdjęcia.
Costa i Bitti zaprojektowali badanie w modelu trójczynnikowej analizy wa-
riancji w układzie 2 × 3 × 3: Płeć Obserwatora (kobieta lub mężczyzna), Typ
Zdjęcia (zbliżenie, plan amerykański, plan pełny), Osoba na Zdjęciu (bada-
ny, nieznany mężczyzna, nieznana kobieta). Zmienną zależną była ocena
atrakcyjności, które polegała na postawieniu znaczka na skali 10-punktowej.
Badanych poinstruowano, żeby stawiali znaczek bliżej prawego końca skali,
im bardziej są przekonani, że osoba na zdjęciu jest atrakcyjna. Oprócz anali-
JAK NAPISAĆ RAPORT Z BADAŃ? 597

zy wariancji, istotność różnic między średnimi w parach sprawdzono za po-


mocą testu post-hoc Tukeya. Autorzy w następujący sposób opisali wynik
badania (to prawie dosłowny cytat, z niewielkimi skrótami):
Rozpoczniemy od efektu głównego Płci Obserwatora. Wyniki wskazują na tenden-
cję do dawania wyższych ocen przez mężczyzn (średnia = 5,49) niż przez kobiety
(średnia = 5,12): F(1,77) = 2,97, p<0,08. Analiza interakcji pomiędzy Osobą
Oceniającą i Typem Zdjęcia ujawniła, że tendencja ta może być wyjaśniona
przede wszystkim poprzez różnicę pomiędzy ocenami zdjęć w zbliżeniu twarzy:
F(1,77) = 4,41, p<0,04, natomiast wpływ Płci Obserwatora był nieistotny w ocenie
zdjęć w planie amerykańskim i pełnym.
Efekt główny Typu Zdjęcia był bardzo istotny: F(2, 154) = 6,92, p<0,001. Zdjęcia
w pełnym planie były oceniane gorzej (5,06) niż zdjęcia w planie amerykańskim
(post hoc: p<0,001), które miały lepsze oceny (5,52), i zbliżenia (5,30, p<0,05).
Między planem amerykańskim a zbliżeniem nie stwierdzono istotnych różnic
(p<0,08). Jeżeli chodzi o czynnik Osoba na Zdjęciu, efekt główny był istotny:
F(2, 154) = 6,37; p<0,002, a w wyniku analizy post hoc okazało się, że fotografie
przedstawiające kobiety (średnia = 5,69) były lepiej oceniane niż fotografie przed-
stawiające mężczyzn (p<0,002, średnia = 5,08) i samego obserwatora (p<0,006,
średnia = 5,14) (s. 297).
Ponieważ czasopismo European Psychologist jest wydawane przez instytu-
cję, która działa w porozumieniu z American Psychological Association, mo-
żemy mieć pewność, że ten opis wyników jest zgodny ze stylem APA.
Zwróć uwagę na to, że dla każdego wyniku F podane są w nawiasie stopnie
swobody dla wariancji między grupami i wariancji wewnątrz grup oraz
prawdopodobieństwa odrzucania hipotezy zerowej. Autorzy jednoznacznie
wskazują, który czynnik miał istotny wpływ na zmienną zależną, i dokład-
niej analizują ten wpływ za pomocą testu post hoc (jego pełna nazwa poja-
wiła się tylko raz, na początku opisu). Czasem najwygodniej jest opisać wy-
nik analizy wariancji w tabeli (zob. tab. 9.1).

Tabela 9.1. Efekty główne Źródło zmienności df F p


i interakcje w trójczynniko-
wej analizie wariancji dla da- Temperatura 1 245,4856 0,0001
nych dotyczących rozwijania
się bakterii Listeria monocy-
pH 1 3,83 0,0510
togenes w sałatkach z kur-
czaka ze zmodyfikowanym
Czas 1 203,683 0,0001
poziomem pH
[STATISTICA]
Czas × pH 1 6,6506 0,0103

Temp × pH 1 1,21 0,2717

Temp × Czas 1 22,6033 0,0001

Temp × pH ×Czas 1 1,6427 0,2007


598 DODATEK GRATIS

[STATISTICA]Tabela 9.1 została zamieszczona w artykule poświęconym two-


rzeniu się bakterii Listeria monocytogenes w sałatkach z kurczaka. Co praw-
da, związek tych badań z psychologią jest dość swobodny, ale za to tabelka
zawiera wszystkie najważniejsze wyniki analizy wariancji. Czytając te dane,
możemy się dowiedzieć, że na rozwój bakterii L. monocytogenes w sałatce z
kurczaka mają wpływ: Czas (chodziło o czas przechowywania w lodówce)
i Temperatura oraz interakcja obu tych czynników, a także interakcja pH
(czyli kwasowości produktu, którą autorzy badania regulowali, dodając róż-
ne ilości octu do zakupionych w supermarkecie sałatek eksperymentalnych)
i Czasu przechowywania w lodówce. Oczywiście zmienną zależną w tym
eksperymencie był przyrost masy bakterii w stosunku do ilości wstrzykniętej
do sałatek na początku badania*.
* Zob. Guentert, A. M., Linton,
R. H., Luchansky, J. B., Cousin, Tabela 9.1 zawiera niemal kompletny zapis wyniku analizy wariancji: nazwy
M.A. (2005). Behavior of Liste-
ria monocytogenes in pH mod- czynników, liczby stopni swobody związane z każdym czynnikiem, wartości
ified chicken salad during refri- testu F i prawdopodobieństwa odrzucenia hipotezy zerowej dla efektów
gerated storage. Journal of Envi-
ronmental Health, 68,
głównych i interakcji. APA zaleca, aby do tego opisu dołączyć jeszcze jedną
31-37. kolumnę z jakąś miarą wielkości efektu, np. η2 (czytaj: „eta kwadrat”). Zale-
cenie to wciąż jeszcze jest rzadko przestrzegane, natomiast najczęściej ta-
belki wyników ANOVA zawierają niewiele mówiącą kolumnę z sumami
kwadratów.
Wynik zapisany w tabeli 9.1 wymaga jeszcze omówienia w tekście raportu.
Na podstawie tabeli wiesz już np., że na rozwój bakterii wpływa kombinacja
zakwaszenia i czasu chłodzenia, ale nie wiesz, jaki jest ten wpływ. Wynik
musi być uzupełniony prezentacją średnich dla różnych warunków ekspery-
mentalnych. Dopiero włączenie tych danych ujawniło, że zależność między
kwasowością i namnażaniem się bakterii nie jest liniowa: przy niektórych
poziomach pH bakterie rozwijały się szybciej, a przy innych wolniej.

O SATYSFAKCJI Z ZAKUPÓW W SUPERMARKECIE

Szczegółowy opis wyników analizy regresji zależy od zastosowanej meto-


dy. Zgodnie z zaleceniami APA, bez względu na metodę, zawsze należy po-
dać wielkość badanej próby, tabelę korelacji, średnie wartości zmiennych,
istotność parametrów regresji i wielkość dopasowania modelu regresji do
danych empirycznych.
Żeby zilustrować tę plątaninę wyników, przyjrzyjmy się czynnikom wpły-
wającym na satysfakcję zakupów w supermarkecie wśród klientów w
** Hutcheson, G. D., Mutinho, walijskim mieście Cardiff**. Na podstawie badań ankietowych, Graeme Hu-
L. (1998). Measuring preferred tcheson i Luiz Mutinho zidentyfikowali pięć czynników, które wpływają na
store satisfaction using consum-
er choice criteria as a mediating satysfakcję z wizyty w supermarkecie. Były to: (1) jakość produktów i ob-
factor. Journal of Marketing sługi, (2) dodatkowe usługi (typu pralnia, wywoływanie zdjęć), (3) parking
Management, 14, 705-720.
JAK NAPISAĆ RAPORT Z BADAŃ? 599

i stacja benzynowa (jakość parkingu, obecność stacji), (4) szybkość i łatwość


obsługi, (5) korzyści finansowe (niskie ceny, częste promocje, itp.) i dodat-
kowo włączono jeszcze jeden czynnik: (6) różnorodność cen i produktów.
Ważność każdego z tych czynników była średnią arytmetyczną z ocen udzie-
lanych przez klientów supermarketu na kilku skalach od 1 do 5 (im wyższa
ocena, tym ważniejszy jest czynnik). Poziom satysfakcji z supermarketu był
z kolei oceniany na skali 7-stopniowej (im wyższa satysfakcja, tym wyższa
ocena).
Prezentację wyników rozpoczniemy od tabeli średnich (zob. tab. 9.2).

Tabela 9.2. Średnia ważność Średnia


Lp. Czynnik
czynników wpływających na ważność
ocenę satysfakcji z zakupów
w supermarkecie 1. Jakość produktów i obsługi 4,188

2. Dodatkowe usługi (typu pralnia, wywoływanie zdjęć) 2,123

3. Parking i stacja benzynowa (jakość parkingu, obecność stacji) 3,276

4. Szybkość i łatwość obsługi 3,402

5. Korzyści finansowe (niskie ceny, częste promocje itp.) 3,865

6. Różnorodność cen i produktów 3,318

Następnym wymogiem przy prezentacji wyników analizy regresji jest przed-


stawienie tabeli korelacji między badanymi zmiennymi (zob. tab. 9.3).

Tabela 9.3. Współczynniki 3: par- 4: szyb- 5: finan- 6: różno-


Czynnik 1: jakość 2: usługi
korelacji między czynnikami king kość se rodność
wpływającymi na ocenę sa-
tysfakcji z zakupów w su- 1: jakość 1,00 0,134* –0,089 –0,172** –0,320** 0,190**
permarkecie [STATISTICA]
2: usługi 1,00 –0,147** –0,202** –0,132* 0,108*

3: parking 1,00 0,141** 0,174** 0,107*

4: szybkość 1,00 0,206** –0,149**

5: finanse 1,00 –0,197**

6: różnorodność 1,00

*p<0,01; **p<0,001

Do tabeli wystarczy wpisać tylko połowę współczynników korelacji, ponie-


waż współczynniki w drugiej połowie będą identyczne. Zwróć uwagę na
sposób, w jaki oznaczona została statystyczna istotność współczynników ko-
relacji. Stosując tę gwiazdkową metodę, pamiętaj o umieszczeniu legendy
pod tabelą.
600 DODATEK GRATIS

I wreszcie wynik analizy regresji. Hutcheson i Mouthino przedstawili go


w postaci tabeli 9.4.

Tabela 9.4. Czynniki wpły- Odchylenie


wające na satysfakcję z za- Współczynnik standardowe
kupów w supermarkecie – Zmienna t p
B współczynnika
podsumowanie analizy re- B
gresji [STATISTICA]
Jakość 0,1452 0,0594 2,445 0,0148

Finanse –0,1401 0,0588 –2,383 0,0175

Jakość × finanse 0,155 0,0432 3,605 0,003

Stała regresji 5,4129 0,0543 99,722 0,0000

Autorzy cytowanej pracy przedstawiają wartości współczynników regresji


B, choć częściej prezentuje się standaryzowane współczynniki β. Czasem
w główce tabeli używa się tylko symboli B, β, SE B zamiast pełnych nazw.
W naszym przewodniku nie jesteśmy w stanie przedstawić wszystkich moż-
liwych wariantów opisu wyników analiz statystycznych. Jest ich zbyt wiele.
Pamiętaj jednak, że zawsze należy podawać wartości statystyk opisowych
i wyniki testów, w taki sposób, by czytanie raportu badawczego było w mia-
rę łatwe dla jak największej grupy odbiorców. A jeśli będziesz miał jakieś
wątpliwości dotyczące sposobu prezentacji wyników, to najlepiej zajrzyj do
kilku artykułów opublikowanych w dobrych czasopismach psychologicz-
nych i zastosuj podobny zapis.

WYKRESY I TABELE

O wykresach napisaliśmy już prawie wszystko w rozdziale 4.4. Graficzne


metody prezentacji danych. Przywołajmy zatem w tym miejscu tylko kilka
najważniejszych zasad wymienionych w podręczniku APA. Każdy więc wy-
kres powinien:
• uzupełniać tekst, a nie powtarzać informacji, które zostały przedstawio-
ne w formie słownej,
• zawierać tylko najważniejsze wyniki; często jeden, nawet nieco uprosz-
czony wykres jest lepszy niż kilka szczegółowych,
• być prosty, czyli taki, że wystarczy jeden rzut oka, by wiedzieć, o co
w nim chodzi,
• sam się wyjaśniać, czyli:
JAK NAPISAĆ RAPORT Z BADAŃ? 601

o mieć podpis, który identyfikuje przedstawione na nim zmienne,


o mieć tak opisane wszystkie osie, aby nie było wątpliwości, która oś
reprezentuje którą zmienną i w jakich jednostkach są one mierzone,
o zawierać wyjaśnienia wszystkich skrótów albo w tytule (np. w na-
wiasie), albo w przypisie pod wykresem,
o mieć swój numer (zasada numeracji wykresów może być dowolna,
byle tylko była konsekwentnie przestrzegana w całym raporcie),
• [a nawet musi!] być przywołany w tekście; odwołując się do wykresu,
trzeba zawsze (!) napisać, na co czytelnik powinien zwrócić uwagę,
• być przywoływany w tekście przez swój numer, a nie za pomocą okre-
śleń w rodzaju „poniżej”, „powyżej” czy „obok”; czasem taka informa-
cja może błędnie zinterpretowana przez czytelnika.
Dobrą ilustracja sposobu prezentacji danych za pomocą wykresu jest rysu-
nek, który pochodzi z badań omówionych przez nas przy okazji prezentacji
analizy wariancji. Jak pamiętasz, chodziło w nich o ekonomiczne zachowa-
nia dzieci.
Rysunek 9.1. Wyniki w eks- 8
perymencie J. Gregan- Wiek dzieci:
Paxton i D. R. John (1995, 4-5 lat
7 6-7 lat
Are young children adaptive
Liczba odkrytych zasłonek w oknach

decision makers? A study of 6


age differences in information 6
5,33
search behavior. Journal of
Consumer Research, 21, 5 4,87
4,53
573) [STATISTICA]
4 3,75
3,59
3,33

3
2,31
2

1
wysoki koszt niski koszt wysoki koszt niski koszt
Niska nagroda Wysoka nagroda

Oprócz wykresów w raporcie czasem zamieszcza się także inne rysunki.


Mogą to być np. zdjęcia aparatury badawczej, próbki bodźców wizualnych
lub schematyczny model jakiegoś procesu psychicznego. Podobnie jak w
odniesieniu do wykresów, powinny one być jak najprostsze i same się wyjaś-
niać. Powinny mieć swoje numery i tytuły oraz koniecznie być przynajmniej
raz przywołane w tekście. Jeżeli w tekście znajdują się rysunki i wykresy, to
możesz dla nich wprowadzić jedną wspólną numerację. Byłoby to zgodne ze
standardem APA, choć trzeba pamiętać, że wszystkie elementy graficzne po
angielsku określa się jednym słowem figure, podczas gdy w języku polskim
602 DODATEK GRATIS

wyraźnie odróżniamy rysunki od wykresów. Czasem na oznaczenie różnych


grafik używa się jednego słowa „rycina”, ale zdaje się, że obecnie wyszło
ono już z mody, w każdym razie w psychologii. Pozostaje więc odrobina
niepewności, czy lepiej się odwołać „[…] do wykresu na rysunku 1.7”, czy
też od razu „[…] do wykresu 1,7”, choć jest on podpisany „Rysunek 1.7”.
Na dodatek, norma polska do rysunków zalicza, oprócz wykresów, także
diagramy i schematy. Gdyby więc dla każdego z tych rodzajów stosować od-
rębną numerację, powstałby tylko bałagan. Osobno numeruje się, oczywiś-
cie, tabele, fotografie, mapy i plany.
Przedstawione zasady opracowania wykresów w znacznym stopniu odnoszą
się także do tabel, które:
• nie mogą dublować informacji w tekście,
• muszą mieć tytuł,
• same się wyjaśniać,
• i co najmniej raz być przywołane w tekście.
APA zaleca także, aby te wartości, które porównujemy w tekście, w tabeli
znajdowały się obok siebie (zob. tab. 9.5).

Tabela 9.5. Różnice w za- M SD a


kresie częstości niewerbal- Rodzaj zachowania df t
nych zachowań współmał- Mężowie Żony Mężowie Żony
żonków [STATISTICA]
Uśmiechy 2,65 3,83 2,30 3,78 39 –2,72*

Głośny śmiech 0,80 1,78 1,16 2,28 39 –3,40*

Marszczenie czoła 0,36 0,31 0,81 0,66 38 0,29

Zaskoczenie 0,00 0,03 0,00 0,16 38 –1,00

Liczba spojrzeń 10,83 10,76 6,11 7,05 39 0,05

Długość spojrzenia
4,61 7,50 2,81 5,95 39 –3,27*
w sek. (średnia)
a
* p<0,01; test t dla danych skorelowanych

Tabela 9.5, w nieco zmodyfikowanej przez nas wersji, pochodzi z artykułu


* Weisfeld, C. C., Stack, Carol Weisfeld i Margaret Stack*, w którym autorki prezentują swoje bada-
M. A. (2002). When I look into nia zachowań niewerbalnych 40 par małżeńskich, określających się jako
your eyes. An ethological analy-
sis of gender differences in mar- szczęśliwe. Tabela spełnia wszystkie wymienione przez nas kryteria: tytuł
ried couples’ non-verbal beha- wprost sugeruje, że należy szukać różnic w zakresie częstości zachowań
viors. Psychology, Evolution and
Gender, 4, 125–147.
niewerbalnych, że badanie dotyczy małżeństw oraz że porównywane są re-
akcje kobiet i mężczyzn. W boczku tabeli znajdują się jasne opisy zachowań,
o które chodzi w badaniu, a w następnych kolumnach średnie i odchylenia
JAK NAPISAĆ RAPORT Z BADAŃ? 603

standardowe dla porównywanych grup. W ostatniej kolumnie zamieszczone


są wartości testów t, które pozwalają się zorientować, w odniesieniu do ja-
kich zachowań niewerbalnych mężczyźni różnią się od kobiet.
Z pewnością zauważyłeś, że tabela 9.5 jest sformatowana inaczej niż
wszystkie pozostałe w naszym przewodniku. Zgodnie z zaleceniami APA,
w tabelach nie stosuje się linii pionowych, linie poziome zaś oddzielają tylko
główkę, czyli tytuły kolumn, od danych. Format tabel często bywa jednak
podporządkowywany jakiejś konwencji estetycznej lub tradycji wydawni-
czej. Najważniejsze, by spełniony był warunek czytelności, no i oczekiwania
odbiorcy Twojej pracy.
Zamieszczając wykres lub tabelę na stronie raportu, trzeba pamiętać, żeby
nie odrywały się od nich ich tytuły. Tabela lub wykres i ich tytuły zawsze
muszą znajdować się razem na tej samej stronie. Tytuł nie może samotnie
„wisieć” na dole strony. Nawiasem mówiąc, tytuły tabel powinniśmy zawsze
umieszczać nad tabelą, a tytuły rysunków pod nimi.
Jeżeli tabela jest duża, to lepiej podzielić ją na dwie lub więcej mniejszych,
niż zostawić pół tabeli z tytułem na poprzedniej stronie, a drugą połowę
przenosić na następną stronę. Te nowe tabele składowe można oznaczyć za
pomocą dodatkowej numeracji, np. 1a, 1b itd.
Wydawcy czasopism naukowych z reguły wymagają, żeby każdy wykres
i każda tabela znajdowały się na oddzielnych stronach, na końcu raportu
z badań. W tekście powinny wówczas znajdować się odnośniki wskazujące
na miejsce tabeli lub rysunku. Można to zrobić np. w taki sposób:
___________

Tabela 1
___________
co oznacza, że mniej więcej w tym miejscu powinna znaleźć się tabela nr 1.
Oczywiście zalecenie to nie dotyczy prac, które są opracowywane w wersji
ostatecznej, np. seminaryjnych, magisterskich lub doktorskich. Nie dotyczy
również raportów z badań wykonywanych np. na zlecenie jakiejś firmy. Co
do tego stanowisko APA jest zgodne, aby studenci po prostu wstawili tabelę
lub rysunek do tekstu, tam, gdzie powinny się znajdować.

DYSKUSJA WYNIKÓW

W raporcie należy starannie rozdzielić prezentację wyników od ich interpre-


tacji. Dżentelmeni nie dyskutują o faktach. Można Ci zarzucić, że źle zope-
racjonalizowałeś zmienne albo że niewłaściwe dobrałeś metody statystyczne
do weryfikacji hipotez. Nie ma jednak sensu spierać się o to, czy jedna śred-
604 DODATEK GRATIS

nia jest wyższa od drugiej, skoro jest wyższa, albo że pewne czynniki ekspe-
rymentalne mają wpływ na zmienną zależną, a inne nie, skoro wyraźnie
wskazuje na to wynik testu (oczywiście pod warunkiem, że nie pomyliłeś się
w obliczeniach).
Dyskusja dotycząca tego, czy lub w jakim zakresie uzyskane dane potwier-
dzają stawiane przez Ciebie hipotezy – to już jest zupełnie inna historia,
a właściwym do jej przeprowadzenia forum jest część raportu pod tytułem
„Dyskusja wyników”, czasem zatytułowana: „Interpretacja wyników”. By-
wa, że – podobnie jak wprowadzenie – również i ta część raportu jest po-
dzielona jest na kilka części, które mają własne tytuły. Jedno jest pewne, ko-
niecznie musisz jednoznacznie oddzielić opis tego, co wyszło, od tego, co
Ty myślisz na ten temat.
Zgodna ze standardem APA dyskusja wyników powinna się rozpocząć od
jasnego stwierdzenia, które dane potwierdzają Twoje hipotezy, a które nie są
z nimi zgodne. Najlepiej, gdy porządek dyskusji jest wyznaczony kolejno-
ścią, w jakiej prezentowane były hipotezy badawcze na zakończenie wpro-
wadzenia. Omawiając wyniki swoich badań, przede wszystkim powinieneś
skoncentrować się na tym, co one wnoszą do teorii, które przyjąłeś jako
punkt wyjścia Twoich hipotez i operacjonalizacji zmiennych. Możesz po-
równać uzyskane przez siebie wyniki z osiągnięciami innych badaczy, ale
nie przepisuj tego, co już napisałeś we wprowadzeniu. Przyjrzyj się, w jaki
* Costa, M., Bitti, P.E., (2000). sposób Costa i Bitti* rozpoczęli swoją dyskusję wyników badań dotyczą-
Face-ism effect and head canting cych efektu twarzowości:
in one’s own and others’ photo-
graphs. European Psychologist, Przedstawione wyżej wyniki są zgodne z hipotezą, że efekt twarzowości dotyczy
5, 293-301.
tylko oceny fotografii innych osób, podczas gdy w ocenie siebie na zdjęciu wystąpił
odwrotny trend: oceny atrakcyjności samego siebie na podstawie zdjęć przedstawia-
jących całą osobę były wyższe niż na podstawie fotografii swojej twarzy na zbliże-
niu. Podobnie jak w badaniach Schwarza i Kurza (1989), ogólna ocena atrakcyjności
fizycznej nieznanych mężczyzn była niższa niż ocena samego siebie i nieznanych
kobiet, niezależnie od tego, jaka była płeć osoby oceniającej. Tę różnicę w ocenach
można wyjaśnić przez fakt, że kobiety z reguły wyglądają bardziej atrakcyjnie, po-
nieważ poświęcają więcej uwagi swojej fryzurze i ubiorowi […].
We wcześniejszych badaniach, w których wykazywano pozytywny związek między
zbliżeniem twarzy na fotografii a oceną atrakcyjności sfotografowanej osoby, za-
wsze brano pod uwagę zdjęcia dostępne w mediach, zaniedbując różnicę pomiędzy
zdjęciami samych siebie i zdjęciami innych osób. Niniejsze badanie pozwala na
stwierdzenie, że zmienna ta ma bardzo istotne znaczenie w formułowaniu ocen este-
tycznych (s. 300).
I kilka słów komentarza:
• już w pierwszym zdaniu dyskusji autorzy powtarzają hipotezę badawczą
i stwierdzają, że ją potwierdzili,
JAK NAPISAĆ RAPORT Z BADAŃ? 605

• następnie podają, że uzyskane wyniki dotyczące płci osoby na zdjęciu są


zgodne z rezultatami jednego z wcześniejszych badań (w nawiasie
przywołane są nazwiska jego autorów i rok wydania artykułu),
• dalej wyjaśnione jest, dlaczego kobiety na zdjęciach wyglądają lepiej niż
mężczyźni (to akurat nie jest najbardziej kreatywny kawałek raportu Co-
sty i Bittiego),
• w drugim akapicie dowiadujesz się, co było nowego w tym badaniu
w stosunku do poprzednich (wcześniej nikt w analizie efektu twarzowo-
ści nie brał pod uwagę ocen własnych twarzy przez osoby badane).
W dalszej części dyskusji autorzy odwołują się do różnych teoretycznych
uzasadnień efektu twarzowości, m.in. do koncepcji dystansu społecznego.
W dyskusji możesz sobie pozwolić na uogólnienia teoretyczne, a także
na sugestie dotyczące możliwości wykorzystania wyników Twoich badań
w praktyce. Z wyników badań nad efektem twarzowości płynie np. taka
praktyczna rada: mając do wyboru kilka różnych zdjęć kandydatów do par-
lamentu studenckiego, lepiej jest wykorzystać na plakatach zbliżenia ich
twarzy niż fotografie ich sylwetek w szerszych planach.
Można, a nawet należałoby, na koniec trochę pobić się w piersi i uczciwie
przyznać się np. do tego, jakie są słabe strony zastosowanej metody groma-
dzenia danych. Warto również postawić kilka nowych pytań badawczych.
W kontekście uzyskanych wyników, autorzy eksperymentu nad efektem
twarzowości doszli do wniosku, że kolejnym krokiem powinna być próba
sprawdzenia, jaki zachodzi związek między sposobem prezentacji kogoś na
fotografii a wiekiem zarówno osoby prezentowanej na zdjęciu, jak i
* Wilkinson, L. (1999). Statis- oceniającej. Leyland Wilkinson* w cytowanym już artykule zwraca uwagę
tical methods in psychology na to, że wszelkie sugestie dotyczące przyszłych badań powinny być kon-
journals. Guidlines and explana-
tions. American Psychologist, kretne. Zaleca, aby zdecydowanie unikać sformułowań w rodzaju: „Problem
54, jest bardzo ciekawy i wymaga dalszych badań”. Po polsku na takie zdania
594-104.
mamy dobre określenie – „wodolejstwo”.

DYSKUSJA OGÓLNA LUB ZAKOŃCZENIE

Czasem raport badawczy obejmuje więcej niż jeden eksperyment. Wtedy na-
leży odrębnie opisać i zinterpretować wyniki każdego z nich, a na zakończe-
nie wszystkie je podsumować w ogólnej dyskusji. Co do formy wypowiedzi,
dyskusja ogólna nie różni się w zasadzie od dyskusji wieńczących opisy po-
szczególnych badań. Jest to po prostu próba podsumowania osiągnięć całego
projektu badawczego.
W pracy magisterskiej taki ostatni punkt może nosić tytuł „Podsumowanie”
lub „Zakończenie”. Dobrze jest napisać tę część w taki sposób, aby Twoją
606 DODATEK GRATIS

pracę zrozumiał każdy, kto nie czytał wcześniej ani jednego jej fragmentu.
Należy więc zacząć od przypomnienia, jaki był główny problem badawczy
i dlaczego uznałeś, że jest ważny. Następnie trzeba krótko opisać zastoso-
waną metodę badań i uzyskane wyniki. W kolejnej części należy je zinter-
pretować w świetle teorii, które doprowadziły Cię do sformułowania hipotez
badawczych. I na koniec można sobie pozwolić na kilka zdań uogólnienia
oraz sugestii dotyczących kierunków dalszych badań. Jak widzisz, zakoń-
czenie zawiera wszystkie najważniejsze elementy raportu badawczego.

POWOŁYWANIE SIĘ NA PRACE INNYCH BADACZY W TEKŚCIE RAPORTU

Praca naukowa ma charakter społeczny. Autor raportu badawczego nie tylko


prezentuje swoje osiągnięcia badawcze, ale uczciwość nakazuje, aby rów-
nież jednoznacznie oddzielił je od dokonań innych badaczy. I właśnie dlate-
go powoływanie się na ich publikacje należy do zestawu podstawowych re-
guł nie tylko merytorycznych, lecz także etycznych w nauce.
W tekście raportu z badań – dodajmy, z badań psychologicznych (ponieważ
styl APA odbiega nieco od standardów aprobowanych w innych dziedzinach
wiedzy) – można wyróżnić dwa sposoby odwołań bibliograficznych. Frag-
menty publikacji innych badaczy można cytować dosłownie lub odwoływać
się do nich w postaci parafrazy czy streszczenia.

DOSŁOWNE CYTOWANIE FRAGMENTÓW PUBLIKACJI

Zgodnie ze standardem APA, cytowanie literatury w tekście polega na poda-


niu nazwiska/nazwisk autora/autorów badań (bez inicjałów imion), roku wy-
dania publikacji, na którą się powołujesz, oraz stron, z których pochodzi cy-
tat. Wszystkie te informacje mogą być umieszczone w jednym nawiasie
i wówczas są rozdzielone przecinkami lub nazwisko autora może znajdować
się poza nawiasem i wtedy przecinkiem rozdzielony jest rok wydania i stro-
ny. Przed numerami stron powinna znajdować się pojedyncza, mała litera
„s.” (oczywiście w wersji zalecanej przez APA, jest to litera „p.”, od page,
lub podwójna litera „pp.”, od pages).
Sam cytat powinien być wyraźnie oddzielony od tekstu raportu. Najczęściej
do tego celu wykorzystuje się cudzysłów („”). Jeżeli z cytatu usuniesz jakieś
fragmenty, to te miejsca zaznacza się za pomocą trzech kropek ograniczo-
nych nawiasem kwadratowym, czyli […]. Cytaty, zwłaszcza dłuższe niż
jedno zdanie, należy umieszczać w odrębnych akapitach.
W wersji z nazwiskiem autora cytowanego fragmentu publikacji poza na-
wiasem odwołanie może wyglądać np. w taki sposób:
JAK NAPISAĆ RAPORT Z BADAŃ? 607

Jak stwierdził Wason, „[...] w wersji tematycznej zadanie to okazało się znacznie
trudniejsze niż w wersji abstrakcyjnej, która była strukturalnie tożsama” (1997,
s. 643).
Lub w taki:
Jak stwierdził Wason (1997), „[...] w wersji tematycznej zadanie to okazało się zna-
czenie trudniejsze niż w wersji abstrakcyjnej, która była strukturalnie tożsama”
(s. 643).
Z kolei wariant „wszystko w nawiasie” wygląda tak:
„[…] w wersji tematycznej zadanie to okazało się znaczenie trudniejsze niż w wersji
abstrakcyjnej, która była strukturalnie tożsama” (Wason, 1997, s. 643).
Uwaga, jeżeli cytowane zdanie kończy się kropką, ale po nim następuje
jeszcze odniesienie bibliograficzne w jakiejkolwiek formie, to kropkę sta-
wiamy po odnośniku, a nie na końcu cytatu. Wersje niepoprawne:
[...] tożsama.” (Wason, 1997, s. 643).
[...] tożsama.” (Wason, 1997, s. 643)
[...] tożsama”. (Wason, 1997, s. 643).
[...] tożsama”. (Wason, 1997, s. 643)
I wersja poprawna:
[...] tożsama” (Wason, 1997, s. 643).
* Nieco więcej na temat sposo- Być może, ten styl cytowania wydaje Ci się dość dziwny*. Przyzwyczaisz
bów cytowania w nauce zob. się. A ponadto jest on naprawdę wygodny. Jeżeli znasz nazwisko autora
Węglińska, M. (2005). Jak pisać
pracę magisterską. Kraków: i rok publikacji, to czytając tekst, natychmiast znasz odpowiedź na dwa
Oficyna Wydawnicza Impuls. ważne pytania: „kto?” i „kiedy?” napisał przytaczany fragment. Możesz tak-
że znaleźć pełną informację na temat źródła cytatu w zamieszczonej na koń-
cu raportu bibliografii.
Zgodnie ze standardem APA, w przypisach nie podaje się pełnych informa-
cji bibliograficznych!
Z pewnością zauważyłeś, że w naszym przewodniku nie stosujemy rygory-
stycznie wielu zaleceń APA. Nasz styl cytowania jest mieszanką kilku róż-
nych, ale uznaliśmy, że tak będzie lepiej dla Ciebie. Chociaż zgodnie ze
stylem APA imiona autorów cytowanych publikacji przywołuje się tylko
w szczególnych okolicznościach (np. w odniesieniu do wybitnych nestorów
psychologii), my jednak postanowiliśmy umieszczać je w tekście zawsze,
o ile tylko udało nam się rozszyfrować ich inicjały (ostatnio coraz więcej au-
torów postępuje w ten sposób). Zgodnie z naszym wyczuciem języka pol-
skiego, powoływanie się na prace innych badaczy tylko poprzez ich nazwi-
ska wydaje nam się trochę „niekulturalne”.
608 DODATEK GRATIS

ODWOŁANIA BIBLIOGRAFICZNE

W swoim raporcie badawczym możesz w różny sposób nawiązać do ustaleń


innych badaczy. Za każdym razem jednak powinieneś w tekście podać na-
zwisko lub nazwiska autorów i rok publikacji, w której znalazłeś daną myśl.
Postępuj podobnie jak w przypadku cytowania, pomijając jedynie numery
stron, na których ją znalazłeś. Nawiązując do cytowanego poglądu Petera
Wasona, mógłbyś sparafrazować go np. w taki sposób:
Choć z logicznego punktu widzenia, zadania selekcyjne w wersji tematycznej i abs-
trakcyjnej są identyczne, to jednak Wason (1997) na podstawie serii eksperymentów
wykazał, że zadanie selekcyjne w wersji abstrakcyjnej jest znacznie trudniejsze.
Nazwisko autora przywołanej myśli jest w tym przypadku elementem tekstu
raportu, odwołanie zaś stanowi umieszczona tuż za nazwiskiem data publi-
kacji. Mógłbyś też przywołać wynik badań Wasona, przenosząc jego nazwi-
sko do nawiasu i oddzielając je przecinkiem od daty publikacji, np.:
W wersji abstrakcyjnej zadanie selekcyjne jest jednak znacznie trudniejsze niż w
wersji tematycznej (Wason, 1997).
W nawiasie, przed nazwiskiem autora, możemy w razie potrzeby wstawić
jakieś dodatkowe słowo, najczęściej w formie skrótu, np. „por.” (porównaj)
lub „zob.” (zobacz).
Wiele jest zasad i niuansów redakcyjnych dotyczących cytowania i powoły-
wania się w tekście raportu na osiągnięcia innych badaczy. Oprócz tych, na
które już zwróciliśmy uwagę, staraj się przestrzegać również kilka następu-
jących wskazówek:
• gdy przywoływana praca ma dwóch autorów, wówczas, zgodnie z zale-
ceniem APA, należy każdorazowo używać obu ich nazwisk;
• jeśli jest od trzech do pięciu autorów, to wszystkie nazwiska należy wy-
mienić za pierwszym razem; powołując się na to samo dzieło po raz
drugi i każdy następny, używaj nazwiska tylko pierwszego autora z do-
piskiem „i współpracownicy” lub w skrócie „i in.” (i inni);
• niezależnie od tego, ile nazwisk autorów zastąpiłeś np. skrótem „i in.”,
nigdy nie zapominaj dołączyć w nawiasie daty publikacji, na którą się
powołujesz; odstępstwem od tej zasady są sytuacje, w których kilkakrot-
nie, raz po raz, powołujesz się na tę samą publikację (wtedy tylko przy
pierwszym odwołaniu się do niej podajesz datę wydania, a przy następ-
nych już nie);
• jeżeli do jednego nawiasu wstawia się dwa lub więcej źródeł bibliogra-
ficznych, to należy je oddzielić od siebie średnikami;
JAK NAPISAĆ RAPORT Z BADAŃ? 609

• jeśli cytujemy pracę, która nie zawiera informacji o roku wydania


(a zdarza się to coraz częściej, np. w Internecie), to wpisujemy do rapor-
tu nazwisko autora i w nawiasie skrót „b.r.w.” (brak roku wydania);
• gdy w raporcie odwołujemy się do kilku prac tego samego autora, które
zostały wydane w tym samym roku, wtedy należy je odróżnić, wstawia-
jąc po roku wydania kolejne literki „a”, „b”, np. (Wason, 1996a; 1996b);
• gdy w czyjejś publikacji przeczytaliśmy o poglądach lub badaniach ja-
kiegoś autora, lecz nie udało nam się dotrzeć do jego oryginalnej pracy,
wówczas podajemy oba źródła informacji, najpierw przywołując nazwi-
sko i datę publikacji autora, który nas szczególnie zainteresował, a na-
stępnie, po pauzie (–) i słowie „za:”, nazwisko i datę publikacji przeglą-
dowej; zapis: (Wason, 1996 – za: Johnson-Laird, Byrne, 2001) oznacza,
że w pracy Johnsona-Lairda i Byrne’a z 2001 roku znaleźliśmy interesu-
jące myśli Wasona, które opublikował w 1996 roku.
Coraz większym problemem, który wciąż jeszcze nie doczekał się na osta-
teczne rozwiązanie edytorskie, jest sposób cytowania informacji z Interne-
* Na stronie internetowej Ame- tu*. Szczególnie kłopotliwe są te prace, które umieszczone na stronie WWW,
rykańskiego Towarzystwa Psy- oprócz jej adresu internetowego nie zawierają żadnych innych danych wska-
chologicznego (APA): http://
www.apastyle.org/elecref.html zujących na czas i miejsce ich publikacji.
znajdziesz pewne sugestie doty-
czące akceptowanego w psycho- W takich sytuacjach proponujemy, aby w tekście raportu, po nazwisku auto-
logii sposobu cytowania danych ra pracy, w nawiasie wpisać ogólną nazwę stron internetowych, czyli np.
bibliograficznych w tekście i w Kreman (www). Gdy chcesz się powołać na kilka internetowych prac tego
zestawieniu literatury na końcu
raportu. samego autora, wówczas obok ogólnej nazwy stron internetowych, po uko-
śniku, wpisz kolejną literkę alfabetu, np. Kreman (www/a; www/b). Taki
zapis pozwoli na bezbłędne odnalezienie adresu strony internetowej w spisie
literatury cytowanej.
I na koniec uwaga, którą postaraj się dobrze zapamiętać. Odwoływanie się
przez Ciebie do myśli, które inni badacze zawarli w swoich publikacjach, nie
oznacza, że masz prawo do dosłownego przepisywania ich do swojego ra-
portu bez wyraźnego zaznaczenia, że jest to cytat.
Jeżeli uważasz, że jakaś idea wyrażona przez przywołanego przez Ciebie au-
tora jest szczególnie trafnie sformułowana, to po prostu zapisz ją, zgodnie
z zasadami cytowania.
Dosłowne przepisywanie fragmentów czyjegoś tekstu bez wskazania stron
publikacji, na którą się powołujesz, jest nie tylko nieetyczne, ale również za-
bronione prawnie. Budowanie swojej kariery naukowej na plagiatach niejed-
nego już „naukowca” doprowadziło do poważnych problemów natury praw-
nej, społecznej, a także finansowej. Warto o tym pamiętać już wtedy, gdy
przygotowujesz pracę zaliczeniową na studiach.
610 DODATEK GRATIS

BIBLIOGRAFIA, CZYLI LITERATURA CYTOWANA

Spis literatury cytowanej w raporcie to już jedna z ostatnich jego części. Za-
wiera ona alfabetycznie uporządkowaną listę wszystkich źródeł, na które się
powoływałeś. W standardzie sporządzania poprawnego zapisu bibliograficz-
nego liczy się każda kropka i każdy przecinek. Zgodnie z zaleceniami APA
istnieją trzy podstawowe formaty zapisu cytowanych źródeł:
• książki autorskie,
• artykuły w czasopismach,
• rozdziały w drukach zwartych, czyli w książkach napisanych pod czyjąś
redakcją.
Niezależnie od tego, czy przywołana przez Ciebie praca została opubliko-
wana w czasopiśmie, czy w książce, pierwsza część zapisu bibliograficznego
zawsze musi zawierać trzy informacje, na temat: autora, daty publikacji i ty-
tułu pracy. Zapis bibliograficzny zawsze rozpoczynasz od nazwiska autora
publikacji, a następnie po przecinku piszesz inicjał lub inicjały jego imienia
(imion) z kropką. Jeżeli jest dwóch lub więcej autorów, to postępujesz tak
samo: nazwisko, przecinek, inicjał, kropka itd. Kolejne nazwiska autorów są
oddzielone od siebie przecinkami. Bezpośrednio po inicjale ostatniego na-
zwiska, w okrągłym nawiasie, piszesz datę publikacji i znowu kropkę. Trze-
cią informacja jest tytuł publikacji. Jeżeli jest to tytuł książki, zapisujesz go
kursywą (pismo pochyłe), a jeśli jest to tytuł artykułu lub rozdziału w książ-
ce, piszesz tekstem prostym. Po tytule – oczywiście kropka. Zobacz kilka
przykładów:
Bar-Hillel, M., Wagenaar, W. A. (1993). The perception of randomness.
Pinker, S. (1994). The language instinct.
Rundus, D. J. (1971). Analysis of rehearsal processes in free recall.
Na podstawie zapisu bibliograficznego w trzech przytoczonych przykładach
nie powinieneś mieć wątpliwości, że praca Stevena Pinkera jest książką (po-
nieważ jej tytuł został zapisany kursywą), a dwie pozostałe to artykuły, tyl-
ko że jeszcze nie wiadomo, czy zostały opublikowane w czasopiśmie, czy
w druku zwartym.
Przy okazji zapamiętaj również nieco ogólniejszą uwagę dotyczącą inter-
punkcji: po każdym znaku interpunkcyjnym – a więc po kropce, przecinku,
średniku lub dwukropku, a także po znaku zapytania lub wykrzykniku –
zawsze należy wstawić spację, czyli pustą przestrzeń, której używasz do
rozdzielania wyrazów od siebie. (Jedyne odstępstwo od tej zasady – zawsze
musi być jakiś wyjątek, bo inaczej w ogóle nie byłoby zasady – dotyczy za-
pisu wartości dziesiętnych, np. 10,67 lub 3,5, kiedy po przecinku nie sta-
wiamy spacji).
JAK NAPISAĆ RAPORT Z BADAŃ? 611

Od tego miejsca zapisy bibliograficzne publikacji książkowych i artykułów


różnią się od siebie trochę bardziej. Zajmijmy się najpierw książkami. Mia-
nowicie po tytule książki wpisujemy jeszcze dwie informacje (znowu pi-
smem prostym). Są to: miejsce wydania i – po dwukropku – nazwa wydaw-
nictwa. Przez „miejsce wydania” najczęściej rozumie się miejscowość,
w której znajduje się wydawnictwo. Nazwa wydawnictwa powinna być za-
pisana w taki sam sposób, w jaki umieszczono ją na stronie tytułowej książ-
ki. Jeśli więc nazwę wydawnictwa pisze się dużymi literami, np. REBIS lub
PWN, to bez względu na to, czy jest to nazwa własna, czy skrót, powinna
być identycznie zapisana w bibliografii. Przejdźmy więc znowu do kilku
przykładów:
Aron, A., Aron, E. (1999). Statistics for psychology. Upper Saddle River: Prentice
Hall.
Baddeley, A. (1998). Pamięć. Poradnik użytkownika. Warszawa: Prószyński i S-ka.
Buss, D. M. (2001). Psychologia ewolucyjna. Jak wytłumaczyć społeczne zachowa-
nia człowieka? Gdańsk: GWP.
Pinker, S. (1994). The language instinct. London: Penguin.
Zapis artykułów jest tylko trochę bardziej skomplikowany. Tym razem po
tytule podajesz trzy informacje: nazwę czasopisma, jego kolejny numer
i strony, na których artykuł został opublikowany. Wszystkie te elementy są
oddzielone od siebie przecinkami, całość zaś zamyka kropka. Zgodnie ze
stylem APA, nazwę czasopisma i jego numer zapisuje się kursywą, ale
w polskich periodykach psychologicznych pismem pochyłym zapisuje się
tylko nazwę czasopisma. Na okładce czasopism często znajdują się dwa nu-
mery: bieżący, od początku jego wydawania, oraz kolejny w danym roku.
W bibliografii zapisujemy tylko ten pierwszy numer. Czasem spotkasz się
jednak z podwójnym zapisem, np. 69 (4), który oznacza czwarty numer
w danym roku i sześćdziesiąty dziewiąty od początku wydawania pisma. Po-
za tym przed stronami nie umieszcza się litery „s.” ani żadnej innej, a nume-
ry stron są rozdzielone krótką kreseczka poziomą (nie pauzą), bez spacji.
Przyjrzyj się uważnie następującym przykładom:
Bargh, J. A., Chen, M. (1996). Automaticity of social behavior: Direct effects of
trait construct and stereotype activation on action. Journal of Personality and
Social Psychology, 71, 230-244.
Doliński, D., Nawrat, R. (1994). „Huśtawka emocji” jako nowa technika manipula-
cji społecznej. Przegląd Psychologiczny, 37, 7-20.
Kahneman, D., Tversky, A. (1996). On the reality of cognitive illusions. Psycholog-
ical Review, 103, 582-591.
Rundus, D. J. (1971). Analysis of rehearsal processes in free recall. Journal of Expe-
rimental Psychology, 89, 63-77.
I na koniec jeszcze jeden sposób zapisu bibliograficznego. Tym razem cho-
dzi o rozdział w książce pod czyjąś redakcją. Bezpośrednio po tytule należy
612 DODATEK GRATIS

umieścić literkę „W:”. Oznacza ona po prostu, że to, co zostało zapisane


przed nią, znajduje się w czymś innym (czyli np. w pracy zbiorowej), a po-
nieważ znajduje się po kropce, więc litera jest duża. Teraz należy napisać,
kto jest redaktorem tej publikacji.
W odróżnieniu jednak od zapisu nazwisk na początku informacji bibliogra-
ficznej, personalia redaktora zaczynasz od inicjału jego imienia, a następnie
piszesz nazwisko. Tym razem nie stawiasz już przecinka po inicjale imienia,
natomiast przecinkami rozdzielasz nazwiska redaktorów, jeśli jest ich kilku.
Po ostatnim nazwisku, w nawiasie okrągłym, piszesz skrót „(red.)”, który
oznacza, że wskazane właśnie osoby są redaktorami książki. Oznaczenie
„red.”, podobnie jak literę „W:”, piszesz nawet wtedy, gdy książka jest wy-
dana w języku obcym. Krótko mówiąc, w polskim zapisie bibliograficznym
wszystkie obcojęzyczne skróty piszesz według polskich zasad.
Po skrócie „(red.)” stawiasz przecinek i tym razem, znowu kursywą, zapisu-
jesz dokładny tytuł książki, w której zamieszczony był przywołany przez
Ciebie artykuł lub rozdział. Zwróć uwagę na to, że w zapisie bibliograficz-
nym kursywy używasz tylko do zapisu tytułów książek (niezależnie od tego,
czy jest to książka napisana przez jednego autora, czy praca zbiorowa) lub
czasopism. Zanim postawisz kropkę po tytule, jeszcze w nawiasie (oczywi-
ście pismem prostym) piszesz strony, na których można znaleźć cytowany
fragment książki. Zapis stron poprzedzasz literką „s.”, a numery stron roz-
dzielasz łącznikiem (krótką kreseczką), bez spacji, np. (s. 345-376).
Bywa, że prace zbiorowe są wydawnictwami wielotomowymi. Gdy masz
właśnie do czynienia z taką pozycją, wówczas w nawiasie, przed numerami
stron, należy umieścić informację na temat numeru tomu. Tom oznaczamy
małą literką „t.”, po której piszemy numer tomu (za pomocą liczb arab-
skich), a dalej przecinek i numery stron, np. (t. 9, s. 345-376).
Ostatnią informacją w tym zapisie bibliograficznym jest – podobnie jak
w odniesieniu do książek autorskich – miejsce wydania i, po dwukropku, na-
zwa wydawnictwa. Sprawdź, czy zapamiętałeś wszystkie zasady, na kilku
przykładach:
Atkinson, R. C., Shiffrin, R. M. (1968). Human memory: A proposed system and its
control processes. W: K. W. Spence, J. T. Spence (red.), The psychology of
learning and motivation (t. 2, s. 89-105). New York: Academic Press.
Bar-Hillel, M., Wagenaar, W. A. (1993). The perception of randomness. W: G. Ke-
ren, C. Lewis (red.), A handbook for data analysis in the behavioral sciences:
Methodological issues (s. 369-393). Hillsdale NJ: Erlbaum.
Łukaszewski, W. (2000). Psychologiczne koncepcje człowieka. W: J. Strelau (red.),
Psychologia. Podręcznik akademicki (t. 2, s. 67-92). Gdańsk: GWP.
Najder, K. (1997). Schematy poznawcze. W: M. Materska, T. Tyszka (red.), Psycho-
logia i poznanie (s. 38-60). Warszawa: PWN.
JAK NAPISAĆ RAPORT Z BADAŃ? 613

Formatując bibliografię, warto zwrócić uwagę jeszcze na kilka spraw:


• lista źródeł powinna być ułożona alfabetycznie, według nazwisk pierw-
szych autorów publikacji;
• w tytułach artykułów lub książek stosuj duże litery, tylko w tych wyra-
zach, które są na początku, a nie – jak to często można spotkać, zwłasz-
cza w publikacjach angielskojęzycznych – również w wyrazach znajdu-
jących się w środku tytułu; jedynie tytuł czasopisma może zawierać wy-
razy rozpoczynające się od dużych liter, niezależnie od tego czy są na
początku czy w środku (np. Przegląd Psychologiczny lub Journal of Ex-
perimental Psychology);
• pierwszy wiersz zapisu bibliograficznego należy wysunąć na lewy mar-
gines, następne zaś wiersze są wsunięte na wielkość wcięcia tabulacyj-
nego (zob. przykłady); taki zapis ułatwia odnajdywanie poszukiwanych
nazwisk w bibliografii;
• w bibliografii powinny znaleźć się wszystkie źródła, które były cytowa-
ne w tekście raportu, również te „nieoryginalne”, na które powołałeś się
na podstawie jakiejś innej pracy; krótko mówiąc, w takich przypadkach
wpisujesz obie pozycje;
• prace ze tron internetowych zapisujesz podobnie, jak książki, z tym że
zamiast miejsca wydania i nazwy wydawnictwa wpisujesz podkreślony,
dokładny adres: http:\\www.[…] (bez kropki na końcu).

ZAŁĄCZNIKI ZWANE ANEKSEM

Do aneksu włączasz wszystkie dopowiedzenia, które z jednej strony uwa-


żasz za ważne, z drugiej zaś, jeśli byłyby zamieszczone w tekście głównym,
utrudniłyby jego czytanie. Często załącznikiem do pracy jest metoda badaw-
cza, np. kwestionariusz lub test, wraz z instrukcjami, szczegółowe wyniki
analizy statystycznej bądź też zdjęcia wykorzystanej aparatury badawczej
lub materiałów bodźcowych. Każdy załącznik powinien mieć swój tytuł
i kolejny numer i być przywołany w tekście podobnie jak wykres czy tabela

NOTA AUTORSKA

Niektóre wydawnictwa wymagają dołączenia do raportu również krótkiej in-


formacji na temat jego autora (lub autorów). Na ogół chodzi tutaj o tytuł
i stopień naukowy, adres miejsca zatrudnienia i e-mail. Ponadto w nocie au-
torskiej można zamieścić podziękowania dla osób, które np. recenzowały
pracę lub pomogły w jej realizacji, a także dla instytucji finansujących bada-
614 DODATEK GRATIS

nia (najczęściej w tym miejscu podaje się nazwę sponsora i numer grantu
badawczego).

KILKA UWAG TECHNICZNYCH DOTYCZĄCYCH SKŁADU I ŁAMANIA TEKSTU RAPORTU

Wszystkie zamieszczone poniżej uwagi dotyczące składu i łamania tekstu


raportu są zgodne z polską normą i tylko częściowo pokrywają się ze stan-
dardem APA. Różnice między tymi dwoma standardami wynikają m.in.
z innych formatów papieru i różnych jednostek metrycznych.
• Raport powinien być przygotowany na arkuszach papieru w formacie
A4 (210 × 297 mm).
• Wszystkie marginesy wokół kolumny tekstu powinny mieć 2,5 cm. Jeże-
li raportem będzie praca zaliczeniowa, magisterska lub doktorska (bin-
dowana lub oprawiana w introligatorni), margines z lewej strony powi-
nien być większy, np. 3,5-4 cm.
• Interlinia między wierszami równa 1,5 wysokości wiersza (co daje około
30 linii tekstu na stronie).
• Czcionka: Times New Roman 12 pkt. Można również stosować czcion-
kę większą o 1 punkt, czyli 13 pkt.
• Wielkość marginesów, interlinii i czcionki składają się na liczbę znaków
na stronie. Zgodnie polską normą, na stronie arkusza A4 powinno się
znajdować ok. 2000 znaków, włącznie ze spacjami.
• Cały tekst powinien być wyjustowany do lewego marginesu (a nie, jak
to się często robi, do obu marginesów) oraz nie powinien zawierać po-
działów wyrazów na końcu wierszy.
• Tytuły należy wyśrodkować oraz oddzielić od tekstu poprzedniego i na-
stępnego za pomocą jednego pustego wiersza. Tytuły można dodatkowo
wyróżnić, np. za pomocą wytłuszczenia lub wersalików (wszystkie duże
litery), można także prowadzić ich ciągłą numerację.
• Numery stron powinny być wyśrodkowane na dole strony; numeracje
prowadzi się włącznie ze stroną okładkową, ale na tej stronie z reguły
numeru się nie drukuje.
• Na oddzielnych stronach powinny się znajdować: (1) tytuł, (2) stresz-
czenie, (3) tekst raportu, (4) bibliografia, (5) aneksy, (6) nota autorska.
• I na koniec uwaga ogólna. Postaraj się ograniczyć tzw. formatowanie
tekstu do niezbędnego minimum. W przypadku takiego opracowania, jak
raport z badań, jego forma nie może przeszkadzać w zrozumieniu treści.
JAK NAPISAĆ RAPORT Z BADAŃ? 615

SUGESTIE DOTYCZĄCE JĘZYKA

• Raczej unikaj skrótów, z wyjątkiem oczywistych (np., zob., por., s., t.


lub USA, PWN itp.). Inne skróty, jeżeli są koniecznie, trzeba wyjaśnić.
• Należy konsekwentnie trzymać się jednej formy prezentacji (osobowej,
a jeszcze lepiej – bezosobowej).
• Wszystkie tzw. terminy techniczne powinny pojawiać się w formie, któ-
ra jest powszechnie przyjęta w danej dziedzinie. Jeżeli autor wprowadza
nowe terminy, powinien je wyjaśnić i konsekwentnie używać ich w tej
wersji.
• Metodę badawczą należy przedstawiać w czasie przeszłym. Pozostałe
części można również pisać w czasie przeszłym lub teraźniejszym. Na-
tomiast zdecydowanie należy unikać czasu przyszłego i sztucznej dra-
maturgii w stylu „Jak pokażemy w eksperymencie […]”.
• Koniecznie trzeba zwracać uwagę na ortografię i interpunkcję.
• Zapamiętaj, że nie stawiamy kropek na końcu tytułów, a także na końcu
podpisów pod rysunkami i tytułów tabel.
• Lepiej jest unikać stwierdzeń kategorycznych (np. „Niewątpliwie wyniki
eksperymentu świadczą o tym, że […]”). Nie trzeba jednak również po-
padać w przesadną skromność.
• Myśli należy wyrażać za pomocą krótkich i jasno zrozumiałych zdań,
bez zbędnych ozdobników i barokowej ornamentyki.
• Każdy akapit powinien dotyczyć tylko jednej myśli. Najlepiej, gdy wy-
raża ją pierwsze zdanie, a następne rozwijają.
• Należy unikać personifikacji w rodzaju: „teoria twierdzi” – co najwyżej
„teoretycy twierdzą”.
• Lepiej jest unikać zwrotów obcojęzycznych i kalek językowych. Jeżeli
autor uzna, że powinien podać obcojęzyczny odpowiednik używanego
przez siebie terminu, należy go zapisać kursywą w nawiasie, bezpośred-
nio po tym wyrazie.
• Litery alfabetu łacińskiego, które wykorzystujemy jako symbole, za-
pisujemy pismem pochyłym; z kolei litery alfabetu greckiego piszemy
prosto.
• Zanim oddasz raport odbierającemu pracę, przeczytaj napisane fragmen-
ty tekstu na głos oraz poproś przyjaciół o krytyczne zapoznanie się z nim
i naniesienie poprawek.
616 DODATEK GRATIS

I COŚ NA DESER

Na stronie http://psychology.about.com/library/hm/blhm_college7.htm zna-


leźliśmy interesujące zestawienie niektórych zwrotów używanych w publi-
kacjach naukowych z psychologii. Trudno powiedzieć, czy autorzy tego ze-
stawienia mają rację, ale chyba coś w tym jest. Zresztą oceń sam:

Jeśli w tekście naukowym znajdziesz taki … to najprawdopodobniej jego Autor nie


tekst… chciał powiedzieć wprost, że:
Od dawna wiadomo Nie sprawdziłem żadnego źródła
Ujawniono wyraźną tendencję Wyniki są praktycznie nieistotne
Chociaż udzielenie jednoznacznej odpowie- Eksperyment się nie udał, ale wciąż mam
dzi na postawione pytanie było nie możliwe nadzieję, że da się go opublikować
Do szczegółowych analiz zakwalifikowano Wyniki pozostałych okazały się bez sensu
trzy próbki
Zaprezentowano najbardziej typowe wyniki To jest najładniejszy wykres
Wyniki te zostaną przedstawione w następ- Jeśli będę zmuszony albo mi zapłacą, może
nym raporcie jeszcze kiedyś się do tego zabiorę
W mojej praktyce Raz
Niemal w każdym przypadku Dwa razy
W serii kolejnych przypadków Co najwyżej trzy razy
Uważa się, że Sądzę, że
Powszechnie uważa się, że Kilku moich znajomych też tak sądzi
Prawidłowy przy uporządkowaniu według Nieprawidłowy
wielkości
Zgodnie z analizami statystycznymi Gdzieś o tym słyszałem
Statystycznie zorientowana eksplikacja zna- Zgaduję w ciemno
czenia tych wyników
Uważna analiza uzyskanych danych Zalałem te cholerne kartki z notatkami pi-
wem i nic nie mogę odczytać
To oczywiste, że całkowite zrozumienie te- Tak czy inaczej, jak na razie nic z tego nie
go zjawiska będzie wymagać dalszych prac rozumiem
Po dalszych badaniach przeprowadzonych Oni również tego nie rozumieją
przez moich współpracowników
Wyrażam podziękowania dla Joego Bloggsa Pan Bloggs wykonał eksperyment, a pani
za pomoc przy eksperymencie oraz dla Cin- Adams wyjaśniła mi, co z niego wyszło
dy Adams za cenne uwagi
Niezwykle ważny obszar dla badań eksplo- Całkowicie bezużyteczny temat wybrany
racyjnych przez komisję uczelnianą
Mam nadzieję, że zaprezentowane badania W każdym razie, ja rezygnuję
będą inspiracją do dalszych poszukiwań
JAK NAPISAĆ RAPORT Z BADAŃ? 617
V.
NA DOBRY POCZĄTEK
Teraz już nie tylko wiesz, w jaki sposób przygotować projekt badawczy oraz
jak przeprowadzić analizę statystyczną danych, ale także, jak samodzielnie
napisać raport z badań i czego w nim należy unikać.
Pozostaje nam już tylko życzyć Ci ciekawych pomysłów, interesujących
wyników i bardzo dobrych tekstów opublikowanych w najlepszych na świe-
cie czasopismach specjalistycznych.

Powodzenia
Piotr Francuz i Robert Mackiewicz

PS
Jeśli masz ochotę, napisz, co sądzisz o tej książce. Bardzo zależy nam na
Twojej opinii i będziemy wdzięczni za każdą uwagę na jej temat.
Nasz adres: przewodnik@kul.lublin.pl
P. F. i R. M.
BIBLIOGRAFIA

Adamson C. (1993). Evolving complaint procedures. Managing service quality, 3,


439-445.
Adaval, R., Monroe, K. B. (2002). Automatic construction and use of contextual in-
formation for product and price evaluations. Journal of Consumer Re-
search, 28, 572-588.
Ajdukiewicz, K. (1985). Język i poznanie. T. I. Wybór pism z lat 1920-1939. Wars-
zawa: PWN.
Allison, T., Cicchetti, D. (1976). Sleep in mammals: Ecological and constitutional
correlates. Science, 194, 732-734.
American Psychological Association (20015). Publication Manual of the American
Psychological Association. Washington, DC: APA.
Anderson J. (1990). The adaptive character of thought. Hillsdale NJ: Erlbaum.
Aron, A., Aron, E. N. (1999). Statistics for psychology. Upper Saddle River: Pren-
tice Hall.
Atkinson, R. C., Shiffrin, R. M. (1968). Human memory: A proposed system and its
control processes. W: K. W. Spence, J. T. Spence (red.), The psychology of
learning and motivation (t. 2, s. 89-105). New York: Academic Press.
Baddeley, A. (1998). Pamięć. Poradnik użytkownika. Warszawa: Prószyński i S-ka.
Balota, D., Cortese, M., Sergent-Marshall, S., Spieler, D. (2004). Visual word re-
cognition of single-syllable words. Journal of Experimental Psychology:
General, 133, 283-316.
Bargh, J. A., Chen, M. (1996). Automaticity of social behavior: Direct effects of
trait construct and stereotype activation on action. Journal of Personality
and Social Psychology, 71, 230-244.
Bar-Hillel, M., Wagenaar, W. A. (1993). The perception of randomness. W: G. Ke-
ren, C. Lewis (red.), A handbook for data analysis in the behavioral
sciences: Methodological issues (s. 369-393). Hillsdale NJ: Erlbaum.
Berlyne, D. E. (1969). Struktura i kierunek myślenia. Warszawa: PWN.
Blair, R. C., Higgins, J. J. (1985). Comparison of the power of the paired samples
t test to that of Wilcoxon’s signed ranks test under various population
shapes. Psychological Bulletin, 97, 119-128.
Bower, G. H., Karlin, M. B., Dueck, A. (1975). Comprehension and memory for
pictures. Memory and Cognition, 3, 216-220.
Brooks, G. P. (2003). Using Monte Carlo methods to teach statistics. The MC2G
computer program. Understanding Statistics, 2, 137-150.
620 BIBLIOGRAFIA

Brzeziński, J. (1996). Metodologia badań psychologicznych. Warszawa: PWN.


Brzeziński, J. (2000). Badania eksperymentalne w psychologii i pedagogice. War-
szawa: Wydawnictwo Naukowe PWN.
Brzeziński, J., Hornowska, E. (red.) (1998). Skala inteligencji Wechslera WAIS-R:
polska adaptacja, standaryzacja, normalizacja i wykorzystanie w diagno-
styce psychologicznej. Warszawa: PWN.
Brzeziński, J., Maruszewski, T. (1978). Metoda sędziów kompetentnych i jej zasto-
sowanie w badaniach pedagogicznych. Kwartalnik Pedagogiczny, 1, 61-74.
Brzeziński, J., Stachowski, R. (1984). Zastosowanie analizy wariancji w ekspery-
mentalnych badaniach psychologicznych. Warszawa: PWN.
Buss, D. M. (2001). Psychologia ewolucyjna. Jak wytłumaczyć społeczne zachowa-
nia człowieka? Gdańsk: GWP.
Campbell, S. S. Tobler, I. (1984). Animal sleep: a review of sleep duration across
phylogeny. Neuroscience and Biobehavioral Review, 8, 269-300.
Cichomski, B., Jerzyński, T., Zieliński, M. (2003). Polskie Generalne Sondaże Spo-
łeczne: skumulowany komputerowy zbiór danych 1992-2002. Warszawa:
Instytut Studiów Społecznych Uniwersytetu Warszawskiego.
Cliff, N. (1996). Answering ordinal questions with ordinal data using ordinal statis-
tics. Multivariate Behavioral Research, 31, 331-350.
Coakley, C. W. (1996). Suggestions for your nonparametric statistics course. Jour-
nal of Statistics Education, 4, 2.
Cohen, J. (1969). Statistical power analysis for the behavioral sciences. New York:
Academic Press.
Cohen, J. (1992). A power primer. Psychological Bulletin, 112, 155-159.
Cohen, J. (1994). The earth is round (p<.05). American Psychologist, 49, 997-1003.
Coombs, C. H. (1958). On the use of inconsistence of preferences in psychological
measurement. Journal of Experimental Psychology, 55, 1-7.
Costa, M., Bitti, P. E., (2000). Face-ism effect and head canting in one’s own and
others’ photographs. European Psychologist, 5, 293-301.
Craik, F. I. M., Lockhart, R. S. (1972). Levels of processing: A framework for
memory research. Journal of Verbal Learning and Verbal Behavior, 11,
671-684.
Crick, F. (1997). Zdumiewająca hipoteza. Warszawa: Prószyński i S-ka.
Cwalina, W. (2000). Telewizyjna reklama polityczna. Lublin: Towarzystwo Nauko-
we KUL.
Dean, L. M., Willis, F. N., Hewitt, J. (1975). Initial interaction distance among indi-
viduals equal and unequal in military rank. Journal of Personality and So-
cial Psychology, 32, 294-299.
Diseth, A., Martinsen, Ø. (2003). Approaches to learning, cognitive style, and mo-
tives as predictors of academic achievement. Educational Psychology, 23,
195-207.
Doliński, D., Nawrat, R. (1994). „Huśtawka emocji” jako nowa technika manipula-
cji społecznej. Przegląd Psychologiczny, 37, 7-20.
BIBLIOGRAFIA 621

Domański, C. (1986). Teoretyczne podstawy testów nieparametrycznych i ich zasto-


sowanie w naukach społeczno-ekonomicznych. Łódź: Acta Universitas
Lodziensis.
Domański, C., Pruska, K. (2000). Nieklasyczne metody statystyczne. Warszawa:
PWE.
Donahue, A. K, Miller, J. M. (2005). Citizen preferences and paying for police.
Journal of Urban Affair, 27, 419-435.
Dunn P. K. (1999) A Simple Dataset for Demonstrating Common Distributions.
Journal of Statistics Education, 7, 3.
Durka, P. J. (2003). Wstęp do współczesnej statystyki. Warszawa: Wydawnictwo
Adamantan.
Efron, B. (1988). Bootsrap confidence intervals: good or bad? Psychological Bulle-
tin, 104, 293-296.
Entwistle, N. J., Waterston, S. (1988). Approaches to studying and levels of
processing in university students. British Journal of Educational Psycholo-
gy, 58, 258-265.
Epstein, S. (1977). Stability and constancy in visual perception: Mechanism and
processes. New York: Wiley.
Falkowski, A., Tyszka, T. (2002). Psychologia zachowań konsumenckich. Gdańsk:
GWP.
Ferguson, G. A., Takane, Y. (1997). Analiza statystyczna w psychologii i pedagogi-
ce. Warszawa: Wydawnictwo Naukowe PWN.
Festinger, L. (1957). A theory of cognitive dissonance. New York: Harper and Row.
Finch, H. (2005). Comparison of the performance on nonparametric and parametric
MANOVA test statistics when assumptions are violated. Methodology, 1,
27-38.
Friestad, M., Thorson, E. (1993). Remembering ads: the effects of encoding strate-
gies, retrieval cues and emotional response. Journal of Consumer Psycho-
logy, 21, 1-23.
Furr, R. M., Rosenthal, R. (2003). Evaluating theories efficiently: The nuts and bolts
of contrast analysis. Understanding Statistics, 2, 45-67.
Furr, R. M., Rosenthal, R. (2003). Repeated-Measures Contrasts for “Multiple-
Pattern” Hypotheses. Psychological Methods, 8, 275–293.
Gaito, J. (1980). Measurement Scales and Statistics: Resurgence of an Old Miscon-
ception. Psychological Bulletin, 87, 564-567.
Gajek, L., Kałuszka, M. (1996). Wnioskowanie statystyczne. Warszawa: WNT.
Garcia-Madruga, J. A., Moreno, S., Carriedo, N., Gutierrez, F., Johnson-Laird, P. N.
(2001). Are conjunctive inferences easier than disjunctive inferences.
A comparison of rules and models. The Quarterly Journal of Experimental
Psychology, 53(A), 613-632.
Gigerenzer, G. (1994). Why the distinction between single-event probabilities and
frequencies is important for psychology (and vice versa). W: G. Wright,
P. Ayton (red.), Subjective Probability (s. 129-162). Chichester: John Wi-
ley.
622 BIBLIOGRAFIA

Gigerenzer, G. (1996). On narrow norms and vague heuristics: A rebuttal to


Kahneman and Tversky (1996). Psychological Review, 103, 592-596.
Gigerenzer, G., Murray, D. J. (1987). Cognition as intuitive statistics. Hillsdale: Erl-
baum.
Good, P. I, Hardin, J. W. (2003). Common errors in statistics (and how to avoid
them). Hoboken: John Wiley and Sons Inc.
Góralski, A. (1987). Metody opisu i wnioskowania statystycznego w psychologii
i statystyce. Warszawa: PWN.
Gregan-Paxton, J., John, D. R. (1995). Are young children adaptive decision ma-
kers? A study of age differences in information search behavior. Journal of
Consumer Research, 21, 567-580.
Greń, J. (1982). Statystyka matematyczna. Modele i zadania. Warszawa: PWN.
Greń, J. (1987). Statystyka matematyczna. Podręcznik programowany. Warszawa:
PWN.
Guentert, A. M., Linton, R. H., Luchansky, J. B., Cousin, M.A. (2005). Behavior of
Listeria monocytogenes in pH modified chicken salad during refrigerated
storage. Journal of Environmental Health, 68, 31-37.
Guilford, J. P. (1960). Podstawowe metody statystyczne w psychologii i pedagogice.
Warszawa: PWN.
Haig, B. D. (2003). What is a spurious correlation? Understanding Statistics, 2, 125-
132.
Heider, F. (1958). The psychology of interpersonal relations. New York: Wiley.
Heinz, G., Peterson, L. J., Johnson, R. W., Kerk, C. J. (2003). Exploring Relation-
ships in Body Dimensions. Journal of Statistics Education, 11.
Higgins, N. C., Cocks, P. (1999). The effects of animation cues on vocabulary de-
velopment. Reading Psychology, 20, 1-10.
Hiller, F. S., Lieberman, G. J. (1990). Introduction to stochastic models in opera-
tions research. New York: McGraw-Hill.
Hutcheson, G. D., Mutinho, L. (1998). Measuring preferred store satisfaction using
consumer choice criteria as a mediating factor. Journal of Marketing Man-
agement, 14, 705-720.
Inhelder, B., Piaget, J. (1970). Od logiki dziecka do logiki młodzieży (s. 162-164).
Warszawa: PWN.
Johnson-Laird, Ph. N. (1993). The computer and the mind. An introduction to cogni-
tive science. London: Fontana Press.
Johnson-Laird, Ph. N., Byrne, R. M., Schaeken, W. (1992). Propositional reasoning
by model. Psychological Review, 99, 418-439.
Kahneman, D., Tversky, A. (1982). Variants of uncertainty. Cognition, 11, 143-157.
Kahneman, D., Tversky, A. (1996). On the reality of cognitive illusions. Psycholo-
gical Review, 103, 582-591.
Kamen, J., Swyngedouwa, M. (2000), The ordinal controversy revisited. Quality
and Quantity, 34, 87-102.
BIBLIOGRAFIA 623

Kassin, S., Kiechel, K. (1996). The social psychology of false confessions: Com-
pliance, internalization, and confabulation. Psychological Science, 7, 125-
128.
Kendall, M. G., Buckland, W. R. (1986). Słownik terminów statystycznych. War-
szawa: PWE.
Kerkhof, G. A. (1998). The 24-hour variation of mood differ between morning – and
evening-type individuals. Perception and Motor Skills, 84, 264-266.
Kopaliński, W. (1989). Słownik wyrazów obcych i zwrotów obcojęzycznych. War-
szawa: PWN.
Kosslyn, S. (1973). Scanning visual images: Some structural implications. Percep-
tion and Psychophysics, 14, 90-94.
Kozielecki, J. (1999). Banach, geniusz ze Lwowa. Warszawa: Wydawnictwo Aka-
demickie Żak.
Krosnick, J. A. (1999). Survey research. Annual Review of Psychology, 50, 537-67.
Lakoff, G., Johnson, M. (1988). Metafory w naszym życiu. Warszawa: Państwowy
Instytut Wydawniczy.
Lewicka, M. (1993). Aktor czy obserwator? Psychologiczne mechanizmy odchyleń
od racjonalności w myśleniu potocznym. Warszawa–Olsztyn: Polskie To-
warzystwo Psychologiczne – Pracownia Wydawnicza.
Lewicka, M., Wojciszke, B. (2000). Wiedza jednostki i sądy o świecie społecznym.
W: J. Strelau (red.), Psychologia. Podręcznik akademicki (t. III). Gdańsk:
GWP.
Linder, D. E., Cooper, J., Jones, E. E. (1967). Decision freedom as a determinant of
the role of incentive magnitude in attitude change. Journal of Personality
and Social Psychology, 6, 245-254.
Lomax, R. G., Moosavi, S. A. (2002). Using humour to teach statistics: must they be
orthogonal? Understanding Statistics, 1, 113-130.
Lord, F. (1946). On the statistical treatment of football numbers. American Psychol-
ogist, 8, 750-751.
Lowes, G., Bitterman, M. E. (1967). Reward and learning in goldfish. Science, 157,
455-457.
Luszniewicz, A., Słaby, T. (2003). Statystyka z pakietem komputerowym Statistica
PL. Teoria i zastosowania. Warszawa: C. H. Beck.
Łukaszewski, W. (2000). Motywacja w najważniejszych systemach teoretycznych.
W: J. Strealu (red.), Psychologia. Podręcznik akademicki (s. 427-440).
Gdańsk: GWP.
Łukaszewski, W. (2000). Psychologiczne koncepcje człowieka. W: J. Strelau (red.),
Psychologia. Podręcznik akademicki (s. 67-92). Gdańsk: GWP.
Marciszewski, W. (red.) (1988). Mała encyklopedia logiki. Warszawa: Ossolineum.
Marques, F., Dehaene, S. (2004). Developing intuition for prices in euros: Rescaling
or relearning prices? Journal of Experimental Psychology: Applied, 10,
148-155.
Maslow, A. H. (1990). Motywacja i osobowość. Warszawa: PAX.
624 BIBLIOGRAFIA

Matthews, R. (2000). Storks deliver babies (p = 0.008). Teaching Statistics, 22, 36-
38.
Matysiak, J. (2000). Psychologia fizjologiczna. W: J. Strelau (red.), Psychologia.
Podręcznik akademicki (t. 1, s. 95-129). Gdańsk: GWP.
Micceri, T. (1989). The unicorn, the normal curve, and other impossible creatures.
Psychological Bulletin, 105, 156-166.
Michotte, A. (1946). The Perception of Causality. New York: Basic Books.
Młodkowski, J. (1998). Aktywność wizualna człowieka. Warszawa–Łódź: Wydaw-
nictwo Naukowe PWN.
Mukherjee, A., Hoyer, W. (2001). The effect of novel attributes on product evalua-
tion. Journal of Consumer Research, 28, 462-473.
Najder, K. (1989). Reprezentacje i ich reprezentacje. Analiza podstawowych kon-
trowersji teoretycznych we współczesnych koncepcjach reprezentacji po-
znawczej. Wrocław–Warszawa–Kraków: Ossolineum.
Najder, K. (1997). Schematy poznawcze. W: M. Materska, T. Tyszka (red.), Psycho-
logia i poznanie (s. 38-60). Warszawa: PWN.
Nanna, M. J., Sawilowsky, S. S. (1998). Analysis of Likert scale data in disability
and medical rehabilitation research. Psychological Methods, 3, 55-67.
Natale, V. Adan, A., Chotai, J. (2002). Further results on the association between
morningness-eveningness preference and the season of birth in human
adults. Neuropsychobiology 46, 209–214.
Nęcka, E. (2000). Inteligencja. W: J. Strealu (red.), Psychologia. Podręcznik akade-
micki (t. 1, s. 721-760). Gdańsk: GWP.
Nęcka, E. (2001). Psychologia twórczości. Gdańsk: GWP.
Nęcka, E., Stocki, R. (2001). Jak pisać prace naukowe z psychologii. Kraków:
Universitas.
Nisbett, R. E., Borgida, E., Crandall, R., Reed, H. (1982). Popular induction: Infor-
mation is not necessarily informative. W: J. Carroll, J. Payne (red.), Cogni-
tion and social behavior (s. 227-236). Hillsdale, NJ: Erlbaum.
Pearson, K. (1897). Mathematical contributions to the theory of evolution: On
a form of spurious correlation which may arise when indices are used in the
measurement of organs. Proceedings of the Royal Society of London, 60,
489-498.
Piaget, J. (1966). Narodziny inteligencji dziecka. Warszawa: PWN.
Piaget, J., Inhelder, B. (1967). Operacje umysłowe i ich rozwój. W: P. Fraisse,
J. Piaget (red.), Inteligencja. Warszawa: PWN.
Pichert, J. W., Anderson, R. C. (1977). Taking different perspectives on a story.
Journal of Educational Psychology, 69, 309-315.
Pinker, S. (1994). The language instinct. London: Penguin.
Popper, K. (1997). Logika odkrycia naukowego. Warszawa: PWN.
Postolache, T. T., Hardin, T. A., Myers, F. S., Turner, E. H., Yi, L. Y., Barnett,
R. L., Matthews, J. R., Rosenthal, N. E. (1998). Greater improvement in
summer than with light treatment in winter in patients with seasonal affec-
tive disorder. American Journal of Psychiatry, 155, 1614-1616.
BIBLIOGRAFIA 625

Pryor, K. W., Haag, R., O’Reilly, J. (1969). The creative porpoise: Training for no-
vel behavior. Journal of the Experimental Analysis of Behavior, 12, 655-
661.
Psychologia w perspektywie XXI wieku. XXXI Zjazd Naukowy Polskiego Towarzy-
stwa Psychologicznego, Lublin, 5-8 września 2002 r. Lublin: TN KUL.
Pylyshyn, Z. W. (1984). Computation and cognition: Toward a foundation of cogni-
tive science. Cambridge, Mass.: MIT Press.
Rahman, M. M., Govindarajulu, Z. (1997). A modification of the test of Shapiro and
Wilk for normality. Journal of Applied Statistics, 24, 219- 235.
Raju, N. S., Pappas, S., Williams, C. P. (1989). An empirical Monte Carlo test of the
accuracy of the correlation, covariance, and regression slope models for as-
sessing validity generalization. Journal of Applied Psychology, 74, 901-
911.
Reichmann, W. J. (1968). Drogi i bezdroża statystyki. Warszawa: PWN.
Richards, I. (1983). Teoria liczb. W: Steen L. A. (red.), Matematyka współczesna
(s. 50-79). Warszawa: PWN.
Roberge, J. J. (1978). Linguistic and psychometric factors in propositional reason-
ing. Quarterly Journal of Experimental Psychology, 30, 705-716.
Robson, J. (1993). Soaring to new heights. Managing Service Quality, 3, 465-468.
Rosenthal, R., Fode, K. (1963). The effect of experimenter bias on performance of
the albino rat. Behavioral Science, 8, 183-189.
Rosenthal, R., Jacobson, L. (1963). Teachers’ expectancies: Determinants of pupils’
IQ gains. Psychological Reports, 19, 115-118.
Rosnow, R. L., Rosenthal, L., Rubin, D. B. (2000). Contrasts and correlations in ef-
fect size estimations. Psychological Science, 11, 446-453.
Ruch, W. (red.) (1998). To joke or not to joke: exploring individual differences con-
cerning the positive and the dark side of humour: the sense of humour. Ex-
plorations of personality characteristics. New York: Mouton de Gruyter.
Rundus, D. J. (1971). Analysis of rehearsal processes in free recall. Journal of Expe-
rimental Psychology, 89, 63-77.
Sawilowsky, S. S., Blair, R. C. (1992). A more realistic look at the robustness and
type II error properties of the t test to departures from population normality.
Psychological Bulletin, 111, 352-360.
Scharf-Hunt, D., Hait, P. (1990). Studying Smart: Time Management for College
Students. New York: Harper Resource.
Schwarz, N., Bless, H., Strack, F., Klumpp, G., Rittenauer-Schatka, H. (1991). Ease
of retrieval as information: Another look at the availability heuristic. Jour-
nal of Personality and Social Psychology, 61, 195-202.
Selfridge, O. (1959). Pandemonium: A paradigm for learning. W: Symposium on the
mechanization of thought processes. London: HM Stationary Office.
Shackelford, T. K., Goetz, A., T., Buss, D. M. (2005). Mate retention in marriage:
Further evidence of the reliability of the Mate Retention Inventory. Perso-
nality and Individual Differences, 39, 415-425.
626 BIBLIOGRAFIA

Shapiro, S. S., Wilk, M. B. (1965). An analysis of variance test for normality (com-
plete samples). Biometrika, 52, 591-611.
Siegel J. M. (1999). The evolution of REM sleep. W: R. Lydic, H. A. Baghdoyan
(red.), Handbook of behavioral state control (s. 87-100). Boca Raton: CRC
Press.
Siegel, S. (1956). Nonparametric statistics for the behavioral sciences. New York:
McGraw-Hill.
Sillamy, N. (1994). Słownik psychologii. Katowice: Wydawnictwo „Książnica”.
Simon, H. (1990). Invariants of human behavior. Annual Review of Psychology, 41,
1-19.
Simon, J. L. (1997). Resampling: The new statistics. Arlington, VA: Resampling
Stats, Inc.
Simons, D. J., Chabris, C. F. (1999). Gorillas in our midst: sustained intentional
blindness for dynamic events. Perception, 28, 1059-1074.
Simonson, I., Carmon, Z., Dhar, R., Drolet, A. (2001). Consumer research: In search
of identity. Annual Review of Psychology, 52, 249-276.
Smith, E. E., Shafir, E., Osherson, D. N. (1993). Similarity, plausibility, and judg-
ments of probability. Cognition, 49, 67-96.
Solomon, R. L. (1949). An extension of control group design. Psychological Bulle-
tin, 46, 137-150.
Sosnowski, T. (2004). Analiza kontrastów: między eksploracją a testowaniem hipo-
tez. Przegląd Psychologiczny, 47.
Sosnowski, T., Zimmer, K. (red.) (1993). Metody psychofizjologiczne w badaniach
psychologicznych. Warszawa: PWN.
Steele, M. J. (2005). Darrell Huff and fifty years of how to lie with statistics. Statis-
tical Science, 20, 205-209.
Stern, W. (1921). Differentielle Psychologie (wyd. 3). Leipzig: Johann Ambrosius
Barth.
Sternberg, R. (2001). Psychologia poznawcza. Warszawa: Wydawnictwa Szkolne
i Pedagogiczne.
Stevens, S. S. (1935a). The operational basis of psychology. American Journal of
Psychology, 47, 323-330.
Stevens, S. S. (1935b). The operational definition of psychological concepts. Psy-
chological Review, 42, 517-527.
Stevens, S. S. (1946) On the theory of scales of measurement. Science, 103, 677-
680.
Strelau, J. (2000). Temperament. [W:] J. Strelau (red.), Psychologia. Podręcznik
akademicki (t. 1, s. 683-720). Gdańsk: GWP.
Strelau, J. (red.) (2000). Psychologia. Podręcznik akademicki. T. 1-3. Gdańsk:
GWP.
Such, J. (1975). Problemy weryfikacji wiedzy. Warszawa: PWN.
Szaniawski, K. (1994). O nauce, rozumowaniu i wartościach. Warszawa: PWN.
BIBLIOGRAFIA 627

Szmajke, A. (1998). Niski mężczyzna – człowiek bez właściwości? Rola informacji


o wzroście w spostrzeganiu mężczyzn przez kobiety. Przegląd Psycholo-
giczny, 41, 181-195.
Thorndike, E. L. (1990). Uczenie się ludzi. Warszawa: PWN.
Thumin, F. (1962). Identification of cola beverages. Journal of Applied Psychology,
46, 358-360.
Tversky, A., Kahneman, D. (1971). Belief in the law of small numbers. Psychologi-
cal Bulletin, 76, 105-110.
Tversky, A., Kahneman, D. (1974). Judgment under uncertainty: heuristics and bi-
ases. Science, 185, 1124-1131.
Velleman, P. F., Wilkinson, P. F. (1993). Nominal, ordinal, interval, and ratio typol-
ogies are misleading. The American Statistician, 47, 65-72.
Węglińska, M. (2005). Jak pisać pracę magisterską. Kraków: Oficyna Wydawnicza
Impuls.
Weisfeld, C. C., Stack, M. A. (2002). When I look into your eyes. An ethological
analysis of gender differences in married couples’ non-verbal behaviors.
Psychology, Evolution and Gender, 4, 125-147.
Weller, L., Livingston, R. (1988). Effect of color of questionnaire on emotional res-
ponses. Journal of General Psychology, 115, 433-441.
White, J., Roufail, M. (1989). Gender and influence strategies of first choice and last
resort. Psychology of Women Quarterly, 13, 175-189.
Wilkinson, L. (1999). Statistical methods in psychology journals. Guidelines and
explanations. American Psychologist, 54, 594-604.
Winkielman, P., Schwarz, N., Belli, R. F. (1998). The role of ease of retrieval and
attribution in memory judgments: Judging your memory as worse despite
recalling more events. Psychological Science, 9, 124-126.
Zalewski, A. (2000). Zapoznane dziedzictwo: czy kognitywna teoria filmu jest ko-
gnitywna? Principia, 26, 99-129.
Zimmerman, D. (2004). A note on preliminary tests of equality of variances. British
Journal of Mathematical and Statistical Psychology, 57, 173-181.
Zuckerman, M. (1994). Behavioral expressions and biosocial bases of sensation
seeking. New York: Cambridge University Press.
INDEKS

aksjomaty rachunku prawdopodobień- długość przedziału klasowego 110


stwa 84 dobór incydentalny 92
analiza kontrastów 371 dobór losowy 61
analiza regresji 527 dokładne granice przedziałów klaso-
analiza równań strukturalnych 429 wych 228
analiza trendu 374 dwuczynnikowa analiza wariancji 343
analiza wariancji 322 dwumian Newtona 180
analiza wariancji – założenia 336 dwustronna hipoteza alternatywna 285
analiza wariancji dla regresji 536 dystrybuanta 124

badanie korelacyjne 471 efekt główny 350


badanie różnicowe 67 efekt prosty 350
baza PsycInfo 90 efekt Rosenthala 42
błąd I rodzaju 259 efektywny estymator 220
błąd II rodzaju 259 eksperyment 4
błąd koniunkcji 86 eksperyment – definicja 41
błąd próbkowania 62 eksperyment czynnikowy 69, 70
błąd standardowy średniej 233 eksperyment jako doświadczenie losowe
błąd systematyczny 220 96
błąd α 259 elastyczność testu 397
błąd β 259 empiryczny rozkład zmiennej losowej
100, 175
cecha 26 estymacja 218
cecha stała 26 estymacja przedziałowa 228, 236
centralne twierdzenie graniczne 229, estymacja punktowa 226, 236
262 estymator 220
centyle 150 estymator nieobciążony 220
częstościowe rozumienie prawdopodo- estymator zgodny 221
bieństwa 98 etapy testowania hipotez statystycznych
255
decyle 150
dedukcja 17 falsyfikacja 20
630 INDEKS

geometryczna interpretacja średniej kwartyle 148, 164


arytmetycznej 145 kwestionariusz 35
gęstość prawdopodobieństwa 104, 232
liczba stopni swobody 299
hiperpłaszczyzna regresji 565 liczebność klasowa 112
hipoteza alternatywna 246, 283 liczebność oczekiwana 419, 456
hipoteza alternatywna lewostronna 284 liczebność otrzymana 419, 456
hipoteza badawcza 21, 246 liczebność skumulowana 116
hipoteza kierunkowa 247 linia regresji 481
hipoteza lewostronna 247 liniowa kombinacja 572
hipoteza prawostronna 247 losowanie grupowe 92
hipoteza zerowa 246 losowanie ze zwracaniem 91
hipotezy prostota 25
hipotezy w analizie wariancji 333 macierz korelacji 488
hipotezy w dwuczynnikowej analizie mediana 146, 147
wariancji 348 metody bootstrapowe (rzemykowe)
histogram 120 402
histogram skumulowany 124 metody Monte Carlo 394
homogeniczność wariancji 308 metody repróbkowania 400
miara pozycyjna 221
indukcja 17, 81 miara zmienności 153
instrukcja do eksperymentu 47 moc predyktywna teorii 23
interakcja 346 moc testów nieparametrycznych 413
interwał 109, 110 moc testu 268, 383
modalna 151
jednostki standaryzowane 195 modelowanie badań empirycznych 59
kanon jedynej różnicy 44
nieobciążony estymator wariancji 224,
kategoryzacja 30
323
klasyfikacja 30
nominalizacja 40
konstrukt teoretyczny 18
normalny rozkład zmiennej losowej
kontrast 359 160
korelacja 74, 474
korelacja cząstkowa 508 obserwacja 4
korelacja semi-cząstkowa 509 obszar odrzucenia hipotezy zerowej
krzywa Gaussa 187 289
krzywa kumulacyjna 123 odchylenie ćwiartkowe 165
krzywa skumulowana 123 odchylenie przeciętne 163
krzywa ufności dla regresji 554 odchylenie standardowe 153, 159
krzywa wyrównana 121 omnibusowy test F 358
krzywoliniowy związek 74 operacjonalizacja 54
kwantyle 150, 221 opis statystyczny 7
INDEKS 631

parametr populacji 219 pytanie badawcze, jasne 16


parametr rozkładu zmiennej losowej pytanie dopełnienia 16
132 pytanie rozstrzygnięcia 15
plan czterogrupowy Solomona 68-69
podział wyczerpujący 30 randomizacja 61
pole powierzchni w rozkładzie normal- randomizacja I rodzaju 322
nym 199 randomizacja II rodzaju 322
poligon 118 ranga 33
pomiar 28 rangi wiązane 34, 452
poprawka Yatesa 426 rangowanie 40
populacja 89 regresja krokowa postępująca 569
porównania a priori 359 regresja krokowa wsteczna 569
porównania post hoc 359 regresja wielokrotna 557
porównania zaplanowane 359, 371 reguła Bayesa 82
postępowanie korelacyjne 73-74 reguła trzech sigm 160, 195
posttest 67 relacja przechodniości 32
poziom istotności α 253, 261 relacja spójności 32
poziom odrzucania hipotezy zerowej reprezentatywna grupa 209
253 reszta regresji 533
praw naukowych tworzenie 26 rodzina rozkładów normalnych 193
prawdopodobieństwo 84 rozkład cech dwuwartościowych 181
prawdopodobieństwo iloczynu zdarzeń rozkład dwumianowy 442
niezależnych 86
rozkład dwumianowy a rozkład normal-
prawdopodobieństwo obiektywne 80 ny 189
prawdopodobieństwo subiektywne 79 rozkład empiryczny 131
prawo małych liczb 210 rozkład F Snedecora 332
prawo naukowe 22 rozkład heterogeniczny 153
prawo wielkich liczb 215 rozkład homogeniczny 153
predykcja 552 rozkład jednorodny 153
predyktor 533 rozkład najlepiej dobrany 454
pretest 67 rozkład niejednorodny 153
procent 88 rozkład normalny 186, 407
proporcja 88 rozkład normalny standaryzowany 194
prostoliniowość 74 rozkład t Studenta 295
próba 90 rozkład teoretyczny 131
próba losowa 91 rozkład teoretyczny zmiennej losowej
próba prosta 91 99
próba warstwowa 91 rozkład w populacji 217
przedział klasowy 108 rozkład w próbie 216
przedział ufności dla średniej 238 rozkład z próby 216, 228
pytanie badawcze 9, 15 rozkład zmiennej losowej 99
632 INDEKS

rozkład χ2 412 termin teoretyczny 19, 54, 246


rozpiętość 109, 165 test χ2 308
rozstęp 109, 165 test χ2 niezależności 412
rozstrzygalność 16 test χ2 niezależności – hipoteza alterna-
rozumowanie indukcyjne 250 tywna 418
równanie linii regresji 529 test χ2 zgodności 413, 460
test Bartletta 337
sędziowie kompetentni 44 test Cochrana 337
skala ilorazowa 39 test Duncana 369
skala nominalna 30 test dwustronny 288
skala porządkowa 31 test F 308
skala przedziałowa 35 test F – wartości kryterialne 334
skala rangowa 31 test Friedmana 411, 450
skala stosunkowa 38 test Hartleya 337
skale pomiarowe i interpretacja danych test jednorodności wariancji 336
393
test Kołmogorowa-Smirnowa 308, 431
skumulowane liczebności oczekiwane
test Kruskala-Wallisa 411, 449
458
test Levene’a 337
statystyki liczące 408
test lewostronny 288
statystyki opisowe 6, 132
test Lillieforsa 469
statystyki opisowe – zestawienie 166
test Manna-Whitneya 410, 433
statystyki populacji – symbole 218
test nieparametryczny 407
statystyki próby 219
test niezależny od rozkładu 407
statystyki próby – symbole 218
test normalności Shapiro-Wilka 470
stosunek 88
test oparty na medianie 411, 445
stosunek korelacyjny η2 382
test permutacyjny 403
struktura wyniku w dwuczynnikowej
analizie wariancji 347 test prawostronny 288
struktura wyniku w jednoczynnikowej test psychologiczny 35
analizie wariancji 342 test Sheffégo 368
suma kwadratów 339 test statystyczny – ogólna definicja 252
szereg klasowy 107 test Studenta-Neumana-Keulsa 369
szereg rozdzielczy 107 test t dla danych zależnych 311
szereg skumulowany 116 test t dla dwóch średnich (dane nieza-
leżne) 303
średnia arytmetyczna 131 test t i test F – porównanie 557
średnia ważona 140 test t Studenta dla współczynnika kore-
lacji 490
teoretyczny rozkład zmiennej losowej test t dla jednej próby 296
175 test Tukeya 364
teoria 19 test Wilcoxona 410, 438
termin empiryczny 54, 246 test z dla jednej próby 296
INDEKS 633

test z dla jednej średniej 279 wykres kołowy 125


test znaków 411, 441 wykres słupkowy 120
trójkąt Pascala 180 wyniki standaryzowane 195
wzór na średnią arytmetyczną 137
układ z powtarzanymi pomiarami 62
wzór statystyczny 135
wariancja 153, 154
wariancja błędu 309, 329, 339 zakres kwartyli 165
wariancja całkowita 322, 340, 345 założenia pytania badawczego: nega-
tywne 17
wariancja międzygrupowa 309, 324
założenia pytania badawczego: pozy-
wariancja resztowa 328
tywne 17
wariancja wewnątrzgrupowa 309, 328
założenie normalności rozkładu reszt
wariancja z próby jako estymator wa- 573
riancji w populacji 222
zdanie empiryczne 56
wartości krytyczne 289
zdanie teoretyczne 56
wartości standaryzowane 195
zdarzenia niezależne 176
wartości zmiennej losowej 96
zgodność z rozkładem równomiernym
wartości oczekiwane 143 463
weryfikowalność hipotez 24 zmienna 27
weryfikowanie hipotez 23 zmienna ciągła 101, 131
wielkość efektu 270 zmienna dyskretna 101, 131
wielkość efektu w analizie wariancji zmienna ilościowa 27
359
zmienna jakościowa 27
wielkość efektu w testach dla jednej
zmienna losowa 96, 131
średniej 313
zmienna nadmiarowa 568
wielobok liczebności 118
zmienna niezależna 41
wnioskowanie statystyczne 7
zmienna niezależna istotna 41
wskaźnik dyspersji 153
zmienna niezależna istotna główna 41
współczynnik determinacji 486
zmienna niezależna istotna uboczna 41
współczynnik korelacji 474
zmienna niezależna nieistotna 41
współczynnik korelacji r Pearsona 475
zmienna nominalna 27
współczynnik korelacji rangowej 517
zmienna objaśniająca 533
współczynnik korelacji τ Kendalla 521
zmienna różnicująca 67
współczynnik kowariancji 504
zmienna zakłócająca 41
współczynnik zgodności W Kendalla
523 zmienna zależna 42, 50
ANEKS:
TABLICE STATYSTYCZNE

Tablica A. Powierzchnie pod Pole powierzchni Pole powierzchni Pole powierzchni


krzywą normalną odpowiada- z poniżej powyżej z poniżej powyżej z poniżej powyżej
jące wynikom standaryzowa- z z z z z z
nym z przedziału od –3z do -3,00 0,0013 0,9987 -2,58 0,0049 0,9951 -2,16 0,0154 0,9846
+3z (hipoteza jednostronna) -2,99 0,0014 0,9986 -2,57 0,0051 0,9949 -2,15 0,0158 0,9842
-2,98 0,0014 0,9986 -2,56 0,0052 0,9948 -2,14 0,0162 0,9838
-2,97 0,0015 0,9985 -2,55 0,0054 0,9946 -2,13 0,0166 0,9834
-2,96 0,0015 0,9985 -2,54 0,0055 0,9945 -2,12 0,0170 0,9830
-2,95 0,0016 0,9984 -2,53 0,0057 0,9943 -2,11 0,0174 0,9826
-2,94 0,0016 0,9984 -2,52 0,0059 0,9941 -2,10 0,0179 0,9821
-2,93 0,0017 0,9983 -2,51 0,0060 0,9940 -2,09 0,0183 0,9817
-2,92 0,0018 0,9982 -2,50 0,0062 0,9938 -2,08 0,0188 0,9812
-2,91 0,0018 0,9982 -2,49 0,0064 0,9936 -2,07 0,0192 0,9808
-2,90 0,0019 0,9981 -2,48 0,0066 0,9934 -2,06 0,0197 0,9803
-2,89 0,0019 0,9981 -2,47 0,0068 0,9932 -2,05 0,0202 0,9798
-2,88 0,0020 0,9980 -2,46 0,0069 0,9931 -2,04 0,0207 0,9793
-2,87 0,0021 0,9979 -2,45 0,0071 0,9929 -2,03 0,0212 0,9788
-2,86 0,0021 0,9979 -2,44 0,0073 0,9927 -2,02 0,0217 0,9783
-2,85 0,0022 0,9978 -2,43 0,0075 0,9925 -2,01 0,0222 0,9778
-2,84 0,0023 0,9977 -2,42 0,0078 0,9922 -2,00 0,0228 0,9772
-2,83 0,0023 0,9977 -2,41 0,0080 0,9920 -1,99 0,0233 0,9767
-2,82 0,0024 0,9976 -2,40 0,0082 0,9918 -1,98 0,0239 0,9761
-2,81 0,0025 0,9975 -2,39 0,0084 0,9916 -1,97 0,0244 0,9756
-2,80 0,0026 0,9974 -2,38 0,0087 0,9913 -1,96 0,0250 0,9750
-2,79 0,0026 0,9974 -2,37 0,0089 0,9911 -1,95 0,0256 0,9744
-2,78 0,0027 0,9973 -2,36 0,0091 0,9909 -1,94 0,0262 0,9738
-2,77 0,0028 0,9972 -2,35 0,0094 0,9906 -1,93 0,0268 0,9732
-2,76 0,0029 0,9971 -2,34 0,0096 0,9904 -1,92 0,0274 0,9726
-2,75 0,0030 0,9970 -2,33 0,0099 0,9901 -1,91 0,0281 0,9719
-2,74 0,0031 0,9969 -2,32 0,0102 0,9898 -1,90 0,0287 0,9713
-2,73 0,0032 0,9968 -2,31 0,0104 0,9896 -1,89 0,0294 0,9706
-2,72 0,0033 0,9967 -2,30 0,0107 0,9893 -1,88 0,0301 0,9699
-2,71 0,0034 0,9966 -2,29 0,0110 0,9890 -1,87 0,0307 0,9693
-2,70 0,0035 0,9965 -2,28 0,0113 0,9887 -1,86 0,0314 0,9686
-2,69 0,0036 0,9964 -2,27 0,0116 0,9884 -1,85 0,0322 0,9678
-2,68 0,0037 0,9963 -2,26 0,0119 0,9881 -1,84 0,0329 0,9671
-2,67 0,0038 0,9962 -2,25 0,0122 0,9878 -1,83 0,0336 0,9664
-2,66 0,0039 0,9961 -2,24 0,0125 0,9875 -1,82 0,0344 0,9656
-2,65 0,0040 0,9960 -2,23 0,0129 0,9871 -1,81 0,0351 0,9649
-2,64 0,0041 0,9959 -2,22 0,0132 0,9868 -1,80 0,0359 0,9641
-2,63 0,0043 0,9957 -2,21 0,0136 0,9864 -1,79 0,0367 0,9633
-2,62 0,0044 0,9956 -2,20 0,0139 0,9861 -1,78 0,0375 0,9625
-2,61 0,0045 0,9955 -2,19 0,0143 0,9857 -1,77 0,0384 0,9616
-2,60 0,0047 0,9953 -2,18 0,0146 0,9854 -1,76 0,0392 0,9608
-2,59 0,0048 0,9952 -2,17 0,0150 0,9850 -1,75 0,0401 0,9599
636 ANEKS

Pole powierzchni Pole powierzchni Pole powierzchni


Tablica A. cd. z poniżej powyżej z poniżej powyżej z poniżej powyżej
z z z z z z
-1,74 0,0409 0,9591 -1,21 0,1131 0,8869 -0,68 0,2483 0,7517
-1,73 0,0418 0,9582 -1,20 0,1151 0,8849 -0,67 0,2514 0,7486
-1,72 0,0427 0,9573 -1,19 0,1170 0,8830 -0,66 0,2546 0,7454
-1,71 0,0436 0,9564 -1,18 0,1190 0,8810 -0,65 0,2578 0,7422
-1,70 0,0446 0,9554 -1,17 0,1210 0,8790 -0,64 0,2611 0,7389
-1,69 0,0455 0,9545 -1,16 0,1230 0,8770 -0,63 0,2643 0,7357
-1,68 0,0465 0,9535 -1,15 0,1251 0,8749 -0,62 0,2676 0,7324
-1,67 0,0475 0,9525 -1,14 0,1271 0,8729 -0,61 0,2709 0,7291
-1,66 0,0485 0,9515 -1,13 0,1292 0,8708 -0,60 0,2743 0,7257
-1,65 0,0495 0,9505 -1,12 0,1314 0,8686 -0,59 0,2776 0,7224
-1,64 0,0505 0,9495 -1,11 0,1335 0,8665 -0,58 0,2810 0,7190
-1,63 0,0516 0,9484 -1,10 0,1357 0,8643 -0,57 0,2843 0,7157
-1,62 0,0526 0,9474 -1,09 0,1379 0,8621 -0,56 0,2877 0,7123
-1,61 0,0537 0,9463 -1,08 0,1401 0,8599 -0,55 0,2912 0,7088
-1,60 0,0548 0,9452 -1,07 0,1423 0,8577 -0,54 0,2946 0,7054
-1,59 0,0559 0,9441 -1,06 0,1446 0,8554 -0,53 0,2981 0,7019
-1,58 0,0571 0,9429 -1,05 0,1469 0,8531 -0,52 0,3015 0,6985
-1,57 0,0582 0,9418 -1,04 0,1492 0,8508 -0,51 0,3050 0,6950
-1,56 0,0594 0,9406 -1,03 0,1515 0,8485 -0,50 0,3085 0,6915
-1,55 0,0606 0,9394 -1,02 0,1539 0,8461 -0,49 0,3121 0,6879
-1,54 0,0618 0,9382 -1,01 0,1562 0,8438 -0,48 0,3156 0,6844
-1,53 0,0630 0,9370 -1,00 0,1587 0,8413 -0,47 0,3192 0,6808
-1,52 0,0643 0,9357 -0,99 0,1611 0,8389 -0,46 0,3228 0,6772
-1,51 0,0655 0,9345 -0,98 0,1635 0,8365 -0,45 0,3264 0,6736
-1,50 0,0668 0,9332 -0,97 0,1660 0,8340 -0,44 0,3300 0,6700
-1,49 0,0681 0,9319 -0,96 0,1685 0,8315 -0,43 0,3336 0,6664
-1,48 0,0694 0,9306 -0,95 0,1711 0,8289 -0,42 0,3372 0,6628
-1,47 0,0708 0,9292 -0,94 0,1736 0,8264 -0,41 0,3409 0,6591
-1,46 0,0721 0,9279 -0,93 0,1762 0,8238 -0,40 0,3446 0,6554
-1,45 0,0735 0,9265 -0,92 0,1788 0,8212 -0,39 0,3483 0,6517
-1,44 0,0749 0,9251 -0,91 0,1814 0,8186 -0,38 0,3520 0,6480
-1,43 0,0764 0,9236 -0,90 0,1841 0,8159 -0,37 0,3557 0,6443
-1,42 0,0778 0,9222 -0,89 0,1867 0,8133 -0,36 0,3594 0,6406
-1,41 0,0793 0,9207 -0,88 0,1894 0,8106 -0,35 0,3632 0,6368
-1,40 0,0808 0,9192 -0,87 0,1922 0,8078 -0,34 0,3669 0,6331
-1,39 0,0823 0,9177 -0,86 0,1949 0,8051 -0,33 0,3707 0,6293
-1,38 0,0838 0,9162 -0,85 0,1977 0,8023 -0,32 0,3745 0,6255
-1,37 0,0853 0,9147 -0,84 0,2005 0,7995 -0,31 0,3783 0,6217
-1,36 0,0869 0,9131 -0,83 0,2033 0,7967 -0,30 0,3821 0,6179
-1,35 0,0885 0,9115 -0,82 0,2061 0,7939 -0,29 0,3859 0,6141
-1,34 0,0901 0,9099 -0,81 0,2090 0,7910 -0,28 0,3897 0,6103
-1,33 0,0918 0,9082 -0,80 0,2119 0,7881 -0,27 0,3936 0,6064
-1,32 0,0934 0,9066 -0,79 0,2148 0,7852 -0,26 0,3974 0,6026
-1,31 0,0951 0,9049 -0,78 0,2177 0,7823 -0,25 0,4013 0,5987
-1,30 0,0968 0,9032 -0,77 0,2206 0,7794 -0,24 0,4052 0,5948
-1,29 0,0985 0,9015 -0,76 0,2236 0,7764 -0,23 0,4090 0,5910
-1,28 0,1003 0,8997 -0,75 0,2266 0,7734 -0,22 0,4129 0,5871
-1,27 0,1020 0,8980 -0,74 0,2296 0,7704 -0,21 0,4168 0,5832
-1,26 0,1038 0,8962 -0,73 0,2327 0,7673 -0,20 0,4207 0,5793
-1,25 0,1056 0,8944 -0,72 0,2358 0,7642 -0,19 0,4247 0,5753
-1,24 0,1075 0,8925 -0,71 0,2389 0,7611 -0,18 0,4286 0,5714
-1,23 0,1093 0,8907 -0,70 0,2420 0,7580 -0,17 0,4325 0,5675
-1,22 0,1112 0,8888 -0,69 0,2451 0,7549 -0,16 0,4364 0,5636
TABLICE STATYSTYCZNE 637

Tablica A. cd. Pole powierzchni Pole powierzchni Pole powierzchni


z poniżej powyżej z poniżej powyżej z poniżej powyżej
z z z z z z
-0,15 0,4404 0,5596 0,38 0,6480 0,3520 0,91 0,8186 0,1814
-0,14 0,4443 0,5557 0,39 0,6517 0,3483 0,92 0,8212 0,1788
-0,13 0,4483 0,5517 0,40 0,6554 0,3446 0,93 0,8238 0,1762
-0,12 0,4522 0,5478 0,41 0,6591 0,3409 0,94 0,8264 0,1736
-0,11 0,4562 0,5438 0,42 0,6628 0,3372 0,95 0,8289 0,1711
-0,10 0,4602 0,5398 0,43 0,6664 0,3336 0,96 0,8315 0,1685
-0,09 0,4641 0,5359 0,44 0,6700 0,3300 0,97 0,8340 0,1660
-0,08 0,4681 0,5319 0,45 0,6736 0,3264 0,98 0,8365 0,1635
-0,07 0,4721 0,5279 0,46 0,6772 0,3228 0,99 0,8389 0,1611
-0,06 0,4761 0,5239 0,47 0,6808 0,3192 1,00 0,8413 0,1587
-0,05 0,4801 0,5199 0,48 0,6844 0,3156 1,01 0,8438 0,1562
-0,04 0,4840 0,5160 0,49 0,6879 0,3121 1,02 0,8461 0,1539
-0,03 0,4880 0,5120 0,50 0,6915 0,3085 1,03 0,8485 0,1515
-0,02 0,4920 0,5080 0,51 0,6950 0,3050 1,04 0,8508 0,1492
-0,01 0,4960 0,5040 0,52 0,6985 0,3015 1,05 0,8531 0,1469
0,00 0,5000 0,5000 0,53 0,7019 0,2981 1,06 0,8554 0,1446
0,01 0,5040 0,4960 0,54 0,7054 0,2946 1,07 0,8577 0,1423
0,02 0,5080 0,4920 0,55 0,7088 0,2912 1,08 0,8599 0,1401
0,03 0,5120 0,4880 0,56 0,7123 0,2877 1,09 0,8621 0,1379
0,04 0,5160 0,4840 0,57 0,7157 0,2843 1,10 0,8643 0,1357
0,05 0,5199 0,4801 0,58 0,7190 0,2810 1,11 0,8665 0,1335
0,06 0,5239 0,4761 0,59 0,7224 0,2776 1,12 0,8686 0,1314
0,07 0,5279 0,4721 0,60 0,7257 0,2743 1,13 0,8708 0,1292
0,08 0,5319 0,4681 0,61 0,7291 0,2709 1,14 0,8729 0,1271
0,09 0,5359 0,4641 0,62 0,7324 0,2676 1,15 0,8749 0,1251
0,10 0,5398 0,4602 0,63 0,7357 0,2643 1,16 0,8770 0,1230
0,11 0,5438 0,4562 0,64 0,7389 0,2611 1,17 0,8790 0,1210
0,12 0,5478 0,4522 0,65 0,7422 0,2578 1,18 0,8810 0,1190
0,13 0,5517 0,4483 0,66 0,7454 0,2546 1,19 0,8830 0,1170
0,14 0,5557 0,4443 0,67 0,7486 0,2514 1,20 0,8849 0,1151
0,15 0,5596 0,4404 0,68 0,7517 0,2483 1,21 0,8869 0,1131
0,16 0,5636 0,4364 0,69 0,7549 0,2451 1,22 0,8888 0,1112
0,17 0,5675 0,4325 0,70 0,7580 0,2420 1,23 0,8907 0,1093
0,18 0,5714 0,4286 0,71 0,7611 0,2389 1,24 0,8925 0,1075
0,19 0,5753 0,4247 0,72 0,7642 0,2358 1,25 0,8944 0,1056
0,20 0,5793 0,4207 0,73 0,7673 0,2327 1,26 0,8962 0,1038
0,21 0,5832 0,4168 0,74 0,7704 0,2296 1,27 0,8980 0,1020
0,22 0,5871 0,4129 0,75 0,7734 0,2266 1,28 0,8997 0,1003
0,23 0,5910 0,4090 0,76 0,7764 0,2236 1,29 0,9015 0,0985
0,24 0,5948 0,4052 0,77 0,7794 0,2206 1,30 0,9032 0,0968
0,25 0,5987 0,4013 0,78 0,7823 0,2177 1,31 0,9049 0,0951
0,26 0,6026 0,3974 0,79 0,7852 0,2148 1,32 0,9066 0,0934
0,27 0,6064 0,3936 0,80 0,7881 0,2119 1,33 0,9082 0,0918
0,28 0,6103 0,3897 0,81 0,7910 0,2090 1,34 0,9099 0,0901
0,29 0,6141 0,3859 0,82 0,7939 0,2061 1,35 0,9115 0,0885
0,30 0,6179 0,3821 0,83 0,7967 0,2033 1,36 0,9131 0,0869
0,31 0,6217 0,3783 0,84 0,7995 0,2005 1,37 0,9147 0,0853
0,32 0,6255 0,3745 0,85 0,8023 0,1977 1,38 0,9162 0,0838
0,33 0,6293 0,3707 0,86 0,8051 0,1949 1,39 0,9177 0,0823
0,34 0,6331 0,3669 0,87 0,8078 0,1922 1,40 0,9192 0,0808
0,35 0,6368 0,3632 0,88 0,8106 0,1894 1,41 0,9207 0,0793
0,36 0,6406 0,3594 0,89 0,8133 0,1867 1,42 0,9222 0,0778
0,37 0,6443 0,3557 0,90 0,8159 0,1841 1,43 0,9236 0,0764
638 ANEKS

Tablica A. cd. Pole powierzchni Pole powierzchni Pole powierzchni


z poniżej powyżej z poniżej powyżej z poniżej powyżej
z z z z z z
1,44 0,9251 0,0749 1,97 0,9756 0,0244 2,50 0,9938 0,0062
1,45 0,9265 0,0735 1,98 0,9761 0,0239 2,51 0,9940 0,0060
1,46 0,9279 0,0721 1,99 0,9767 0,0233 2,52 0,9941 0,0059
1,47 0,9292 0,0708 2,00 0,9772 0,0228 2,53 0,9943 0,0057
1,48 0,9306 0,0694 2,01 0,9778 0,0222 2,54 0,9945 0,0055
1,49 0,9319 0,0681 2,02 0,9783 0,0217 2,55 0,9946 0,0054
1,50 0,9332 0,0668 2,03 0,9788 0,0212 2,56 0,9948 0,0052
1,51 0,9345 0,0655 2,04 0,9793 0,0207 2,57 0,9949 0,0051
1,52 0,9357 0,0643 2,05 0,9798 0,0202 2,58 0,9951 0,0049
1,53 0,9370 0,0630 2,06 0,9803 0,0197 2,59 0,9952 0,0048
1,54 0,9382 0,0618 2,07 0,9808 0,0192 2,60 0,9953 0,0047
1,55 0,9394 0,0606 2,08 0,9812 0,0188 2,61 0,9955 0,0045
1,56 0,9406 0,0594 2,09 0,9817 0,0183 2,62 0,9956 0,0044
1,57 0,9418 0,0582 2,10 0,9821 0,0179 2,63 0,9957 0,0043
1,58 0,9429 0,0571 2,11 0,9826 0,0174 2,64 0,9959 0,0041
1,59 0,9441 0,0559 2,12 0,9830 0,0170 2,65 0,9960 0,0040
1,60 0,9452 0,0548 2,13 0,9834 0,0166 2,66 0,9961 0,0039
1,61 0,9463 0,0537 2,14 0,9838 0,0162 2,67 0,9962 0,0038
1,62 0,9474 0,0526 2,15 0,9842 0,0158 2,68 0,9963 0,0037
1,63 0,9484 0,0516 2,16 0,9846 0,0154 2,69 0,9964 0,0036
1,64 0,9495 0,0505 2,17 0,9850 0,0150 2,70 0,9965 0,0035
1,65 0,9505 0,0495 2,18 0,9854 0,0146 2,71 0,9966 0,0034
1,66 0,9515 0,0485 2,19 0,9857 0,0143 2,72 0,9967 0,0033
1,67 0,9525 0,0475 2,20 0,9861 0,0139 2,73 0,9968 0,0032
1,68 0,9535 0,0465 2,21 0,9864 0,0136 2,74 0,9969 0,0031
1,69 0,9545 0,0455 2,22 0,9868 0,0132 2,75 0,9970 0,0030
1,70 0,9554 0,0446 2,23 0,9871 0,0129 2,76 0,9971 0,0029
1,71 0,9564 0,0436 2,24 0,9875 0,0125 2,77 0,9972 0,0028
1,72 0,9573 0,0427 2,25 0,9878 0,0122 2,78 0,9973 0,0027
1,73 0,9582 0,0418 2,26 0,9881 0,0119 2,79 0,9974 0,0026
1,74 0,9591 0,0409 2,27 0,9884 0,0116 2,80 0,9974 0,0026
1,75 0,9599 0,0401 2,28 0,9887 0,0113 2,81 0,9975 0,0025
1,76 0,9608 0,0392 2,29 0,9890 0,0110 2,82 0,9976 0,0024
1,77 0,9616 0,0384 2,30 0,9893 0,0107 2,83 0,9977 0,0023
1,78 0,9625 0,0375 2,31 0,9896 0,0104 2,84 0,9977 0,0023
1,79 0,9633 0,0367 2,32 0,9898 0,0102 2,85 0,9978 0,0022
1,80 0,9641 0,0359 2,33 0,9901 0,0099 2,86 0,9979 0,0021
1,81 0,9649 0,0351 2,34 0,9904 0,0096 2,87 0,9979 0,0021
1,82 0,9656 0,0344 2,35 0,9906 0,0094 2,88 0,9980 0,0020
1,83 0,9664 0,0336 2,36 0,9909 0,0091 2,89 0,9981 0,0019
1,84 0,9671 0,0329 2,37 0,9911 0,0089 2,90 0,9981 0,0019
1,85 0,9678 0,0322 2,38 0,9913 0,0087 2,91 0,9982 0,0018
1,86 0,9686 0,0314 2,39 0,9916 0,0084 2,92 0,9982 0,0018
1,87 0,9693 0,0307 2,40 0,9918 0,0082 2,93 0,9983 0,0017
1,88 0,9699 0,0301 2,41 0,9920 0,0080 2,94 0,9984 0,0016
1,89 0,9706 0,0294 2,42 0,9922 0,0078 2,95 0,9984 0,0016
1,90 0,9713 0,0287 2,43 0,9925 0,0075 2,96 0,9985 0,0015
1,91 0,9719 0,0281 2,44 0,9927 0,0073 2,97 0,9985 0,0015
1,92 0,9726 0,0274 2,45 0,9929 0,0071 2,98 0,9986 0,0014
1,93 0,9732 0,0268 2,46 0,9931 0,0069 2,99 0,9986 0,0014
1,94 0,9738 0,0262 2,47 0,9932 0,0068 3,00 0,9987 0,0013
1,95 0,9744 0,0256 2,48 0,9934 0,0066
1,96 0,9750 0,0250 2,49 0,9936 0,0064
TABLICE STATYSTYCZNE 639

Tablica B. Wyniki standa- Pole powierzchni Pole powierzchni Pole powierzchni


ryzowane odpowiadające po- z z z
poniżej z powyżej z poniżej z powyżej z poniżej z powyżej z
wierzchniom pod krzywą nor-
malną (hipoteza jednostronna) 1,000 0,001 3,291 0,755 0,245 0,690 0,490 0,510 0,025
0,999 0,001 3,090 0,750 0,250 0,675 0,485 0,515 0,038
0,998 0,002 2,878 0,745 0,255 0,659 0,480 0,520 0,050
0,997 0,003 2,748 0,740 0,260 0,643 0,475 0,525 0,063
0,996 0,004 2,652 0,735 0,265 0,628 0,470 0,530 0,075
0,995 0,005 2,576 0,730 0,270 0,613 0,465 0,535 0,088
0,990 0,010 2,326 0,725 0,275 0,598 0,460 0,540 0,100
0,985 0,015 2,170 0,720 0,280 0,583 0,455 0,545 0,113
0,980 0,020 2,054 0,715 0,285 0,568 0,450 0,550 0,126
0,975 0,025 1,960 0,710 0,290 0,553 0,445 0,555 0,138
0,970 0,030 1,881 0,705 0,295 0,539 0,440 0,560 0,151
0,965 0,035 1,812 0,700 0,300 0,524 0,435 0,565 0,164
0,960 0,040 1,751 0,695 0,305 0,510 0,430 0,570 0,176
0,955 0,045 1,695 0,690 0,310 0,496 0,425 0,575 0,189
0,950 0,050 1,645 0,685 0,315 0,482 0,420 0,580 0,202
0,945 0,055 1,598 0,680 0,320 0,468 0,415 0,585 0,215
0,940 0,060 1,555 0,675 0,325 0,454 0,410 0,590 0,228
0,935 0,065 1,514 0,670 0,330 0,440 0,405 0,595 0,240
0,930 0,070 1,476 0,665 0,335 0,426 0,400 0,600 0,253
0,925 0,075 1,440 0,660 0,340 0,413 0,395 0,605 0,266
0,920 0,080 1,405 0,655 0,345 0,399 0,390 0,610 0,279
0,915 0,085 1,372 0,650 0,350 0,385 0,385 0,615 0,292
0,910 0,090 1,341 0,645 0,355 0,372 0,380 0,620 0,306
0,905 0,095 1,302 0,640 0,360 0,359 0,375 0,625 0,319
0,900 0,100 1,282 0,635 0,365 0,345 0,370 0,630 0,332
0,895 0,105 1,254 0,630 0,370 0,332 0,365 0,635 0,345
0,890 0,110 1,227 0,625 0,375 0,319 0,360 0,640 0,359
0,885 0,115 1,200 0,620 0,380 0,306 0,355 0,645 0,372
0,880 0,120 1,175 0,615 0,385 0,292 0,350 0,650 0,385
0,875 0,125 1,150 0,610 0,390 0,279 0,345 0,655 0,399
0,870 0,130 1,126 0,605 0,395 0,266 0,340 0,660 0,413
0,865 0,135 1,103 0,600 0,400 0,253 0,335 0,665 0,426
0,860 0,140 1,080 0,595 0,405 0,240 0,330 0,670 0,440
0,855 0,145 1,058 0,590 0,410 0,228 0,325 0,675 0,454
0,850 0,150 1,036 0,585 0,415 0,215 0,320 0,680 0,468
0,845 0,155 1,015 0,580 0,420 0,202 0,315 0,685 0,482
0,840 0,160 0,995 0,575 0,425 0,189 0,310 0,690 0,496
0,835 0,165 0,974 0,570 0,430 0,176 0,305 0,695 0,510
0,830 0,170 0,954 0,565 0,435 0,164 0,300 0,700 0,524
0,825 0,175 0,935 0,560 0,440 0,151 0,295 0,705 0,539
0,820 0,180 0,915 0,555 0,445 0,138 0,290 0,710 0,553
0,815 0,185 0,897 0,550 0,450 0,126 0,285 0,715 0,568
0,810 0,190 0,878 0,545 0,455 0,113 0,280 0,720 0,583
0,805 0,195 0,860 0,540 0,460 0,100 0,275 0,725 0,598
0,800 0,200 0,842 0,535 0,465 0,088 0,270 0,730 0,613
0,795 0,205 0,824 0,530 0,470 0,075 0,265 0,735 0,628
0,790 0,210 0,806 0,525 0,475 0,063 0,260 0,740 0,643
0,785 0,215 0,789 0,520 0,480 0,050 0,255 0,745 0,659
0,780 0,220 0,772 0,515 0,485 0,038 0,250 0,750 0,675
0,775 0,225 0,755 0,510 0,490 0,025 0,245 0,755 0,690
0,770 0,230 0,739 0,505 0,495 0,013 0,240 0,760 0,706
0,765 0,235 0,723 0,500 0,500 0,000 0,235 0,765 0,723
0,760 0,240 0,706 0,495 0,505 0,013 0,230 0,770 0,739
640 ANEKS

Tablica B. cd. Pole powierzchni Pole powierzchni Pole powierzchni


z z z
poniżej z powyżej z poniżej z powyżej z poniżej z powyżej z
0,225 0,775 0,755 0,140 0,860 1,080 0,055 0,945 1,598
0,220 0,780 0,772 0,135 0,865 1,103 0,050 0,950 1,645
0,215 0,785 0,789 0,130 0,870 1,126 0,045 0,955 1,695
0,210 0,790 0,806 0,125 0,875 1,150 0,040 0,960 1,751
0,205 0,795 0,824 0,120 0,880 1,175 0,035 0,965 1,812
0,200 0,800 0,842 0,115 0,885 1,200 0,030 0,970 1,881
0,195 0,805 0,860 0,110 0,890 1,227 0,025 0,975 1,960
0,190 0,810 0,878 0,105 0,895 1,254 0,020 0,980 2,054
0,185 0,815 0,897 0,100 0,900 1,282 0,015 0,985 2,170
0,180 0,820 0,915 0,095 0,905 1,302 0,010 0,990 2,326
0,175 0,825 0,935 0,090 0,910 1,341 0,005 0,995 2,576
0,170 0,830 0,954 0,085 0,915 1,372 0,004 0,996 2,652
0,165 0,835 0,974 0,080 0,920 1,405 0,003 0,997 2,748
0,160 0,840 0,995 0,075 0,925 1,440 0,002 0,998 2,878
0,155 0,845 1,015 0,070 0,930 1,476 0,001 0,999 3,090
0,150 0,850 1,036 0,065 0,935 1,514 0,001 1,000 3,291
0,145 0,855 1,058 0,060 0,940 1,555
TABLICE STATYSTYCZNE 641

Tablica C. Wartości krytycz- Poziomy istotności dla hipotezy jednostronnej


ne testu t dla hipotezy jedno- 0,10 0,05 0,025 0,01 0,005 0,0005
i dwustronnej df
Poziomy istotności dla hipotezy dwustronnej
0,20 0,10 0,05 0,02 0,01 0,001
1 3,078 6,314 12,706 31,821 63,656 636,578
2 1,886 2,920 4,303 6,965 9,925 31,600
3 1,638 2,353 3,182 4,541 5,841 12,924
4 1,533 2,132 2,776 3,747 4,604 8,610
5 1,476 2,015 2,571 3,365 4,032 6,869
6 1,440 1,943 2,447 3,143 3,707 5,959
7 1,415 1,895 2,365 2,998 3,499 5,408
8 1,397 1,860 2,306 2,896 3,355 5,041
9 1,383 1,833 2,262 2,821 3,250 4,781
10 1,372 1,812 2,228 2,764 3,169 4,587
11 1,363 1,796 2,201 2,718 3,106 4,437
12 1,356 1,782 2,179 2,681 3,055 4,318
13 1,350 1,771 2,160 2,650 3,012 4,221
14 1,345 1,761 2,145 2,624 2,977 4,140
15 1,341 1,753 2,131 2,602 2,947 4,073
16 1,337 1,746 2,120 2,583 2,921 4,015
17 1,333 1,740 2,110 2,567 2,898 3,965
18 1,330 1,734 2,101 2,552 2,878 3,922
19 1,328 1,729 2,093 2,539 2,861 3,883
20 1,325 1,725 2,086 2,528 2,845 3,850
21 1,323 1,721 2,080 2,518 2,831 3,819
22 1,321 1,717 2,074 2,508 2,819 3,792
23 1,319 1,714 2,069 2,500 2,807 3,768
24 1,318 1,711 2,064 2,492 2,797 3,745
25 1,316 1,708 2,060 2,485 2,787 3,725
26 1,315 1,706 2,056 2,479 2,779 3,707
27 1,314 1,703 2,052 2,473 2,771 3,689
28 1,313 1,701 2,048 2,467 2,763 3,674
29 1,311 1,699 2,045 2,462 2,756 3,660
30 1,310 1,697 2,042 2,457 2,750 3,646
31 1,309 1,696 2,040 2,453 2,744 3,633
32 1,309 1,694 2,037 2,449 2,738 3,622
33 1,308 1,692 2,035 2,445 2,733 3,611
34 1,307 1,691 2,032 2,441 2,728 3,601
35 1,306 1,690 2,030 2,438 2,724 3,591
36 1,306 1,688 2,028 2,434 2,719 3,582
37 1,305 1,687 2,026 2,431 2,715 3,574
38 1,304 1,686 2,024 2,429 2,712 3,566
39 1,304 1,685 2,023 2,426 2,708 3,558
40 1,303 1,684 2,021 2,423 2,704 3,551
41 1,303 1,683 2,020 2,421 2,701 3,544
42 1,302 1,682 2,018 2,418 2,698 3,538
43 1,302 1,681 2,017 2,416 2,695 3,532
44 1,301 1,680 2,015 2,414 2,692 3,526
45 1,301 1,679 2,014 2,412 2,690 3,520
46 1,300 1,679 2,013 2,410 2,687 3,515
47 1,300 1,678 2,012 2,408 2,685 3,510
48 1,299 1,677 2,011 2,407 2,682 3,505
49 1,299 1,677 2,010 2,405 2,680 3,500
50 1,299 1,676 2,009 2,403 2,678 3,496
642 ANEKS

Tablica C. cd. Poziom istotności przy teście jednostronnym


0,10 0,05 0,025 0,01 0,005 0,0005
df
Poziom istotności przy teście dwustronnym
0,20 0,10 0,05 0,02 0,01 0,001
51 1,298 1,675 2,008 2,402 2,676 3,492
52 1,298 1,675 2,007 2,400 2,674 3,488
53 1,298 1,674 2,006 2,399 2,672 3,484
54 1,297 1,674 2,005 2,397 2,670 3,480
55 1,297 1,673 2,004 2,396 2,668 3,476
56 1,297 1,673 2,003 2,395 2,667 3,473
57 1,297 1,672 2,002 2,394 2,665 3,469
58 1,296 1,672 2,002 2,392 2,663 3,466
59 1,296 1,671 2,001 2,391 2,662 3,463
60 1,296 1,671 2,000 2,390 2,660 3,460
61 1,296 1,670 2,000 2,389 2,659 3,457
62 1,295 1,670 1,999 2,388 2,657 3,454
63 1,295 1,669 1,998 2,387 2,656 3,452
64 1,295 1,669 1,998 2,386 2,655 3,449
65 1,295 1,669 1,997 2,385 2,654 3,447
66 1,295 1,668 1,997 2,384 2,652 3,444
67 1,294 1,668 1,996 2,383 2,651 3,442
68 1,294 1,668 1,995 2,382 2,650 3,439
69 1,294 1,667 1,995 2,382 2,649 3,437
70 1,294 1,667 1,994 2,381 2,648 3,435
71 1,294 1,667 1,994 2,380 2,647 3,433
72 1,293 1,666 1,993 2,379 2,646 3,431
73 1,293 1,666 1,993 2,379 2,645 3,429
74 1,293 1,666 1,993 2,378 2,644 3,427
75 1,293 1,665 1,992 2,377 2,643 3,425
76 1,293 1,665 1,992 2,376 2,642 3,423
77 1,293 1,665 1,991 2,376 2,641 3,421
78 1,292 1,665 1,991 2,375 2,640 3,420
79 1,292 1,664 1,990 2,374 2,639 3,418
80 1,292 1,664 1,990 2,374 2,639 3,416
81 1,292 1,664 1,990 2,373 2,638 3,415
82 1,292 1,664 1,989 2,373 2,637 3,413
83 1,292 1,663 1,989 2,372 2,636 3,412
84 1,292 1,663 1,989 2,372 2,636 3,410
85 1,292 1,663 1,988 2,371 2,635 3,409
86 1,291 1,663 1,988 2,370 2,634 3,407
87 1,291 1,663 1,988 2,370 2,634 3,406
88 1,291 1,662 1,987 2,369 2,633 3,405
89 1,291 1,662 1,987 2,369 2,632 3,403
90 1,291 1,662 1,987 2,368 2,632 3,402
91 1,291 1,662 1,986 2,368 2,631 3,401
92 1,291 1,662 1,986 2,368 2,630 3,399
93 1,291 1,661 1,986 2,367 2,630 3,398
94 1,291 1,661 1,986 2,367 2,629 3,397
95 1,291 1,661 1,985 2,366 2,629 3,396
96 1,290 1,661 1,985 2,366 2,628 3,395
97 1,290 1,661 1,985 2,365 2,627 3,394
98 1,290 1,661 1,984 2,365 2,627 3,393
99 1,290 1,660 1,984 2,365 2,626 3,391
100 1,290 1,660 1,984 2,364 2,626 3,390
TABLICE STATYSTYCZNE 643

Tablica C. cd. Poziom istotności przy teście jednostronnym


0,10 0,05 0,025 0,01 0,005 0,0005
df
Poziom istotności przy teście dwustronnym
0,20 0,10 0,05 0,02 0,01 0,001
101 1,290 1,660 1,984 2,364 2,625 3,389
102 1,290 1,660 1,983 2,363 2,625 3,389
103 1,290 1,660 1,983 2,363 2,624 3,388
104 1,290 1,660 1,983 2,363 2,624 3,387
105 1,290 1,659 1,983 2,362 2,623 3,386
106 1,290 1,659 1,983 2,362 2,623 3,385
107 1,290 1,659 1,982 2,362 2,623 3,384
108 1,289 1,659 1,982 2,361 2,622 3,383
109 1,289 1,659 1,982 2,361 2,622 3,382
110 1,289 1,659 1,982 2,361 2,621 3,381
111 1,289 1,659 1,982 2,360 2,621 3,380
112 1,289 1,659 1,981 2,360 2,620 3,380
113 1,289 1,658 1,981 2,360 2,620 3,379
114 1,289 1,658 1,981 2,360 2,620 3,378
115 1,289 1,658 1,981 2,359 2,619 3,377
116 1,289 1,658 1,981 2,359 2,619 3,376
117 1,289 1,658 1,980 2,359 2,619 3,376
118 1,289 1,658 1,980 2,358 2,618 3,375
119 1,289 1,658 1,980 2,358 2,618 3,374
120 1,289 1,658 1,980 2,358 2,617 3,373
644 ANEKS

Tablica D. Zależność między Moc testu


przewidywaną wielkością d
0,95 0,9 0,8 0,7 0,6 0,5 0,4 0,3
efektu d i mocą testu a mini-
malną liczbą osób badanych test jednostronny
w eksperymencie (test jedno- 0,2 1084 858 620 472 362 272 196 128
i dwustronny dla α = 0,05) 0,3 484 382 278 212 162 122 88 58
0,4 272 216 156 120 92 70 50 34
0,5 176 140 102 78 60 46 34 22
0,6 122 98 72 54 42 32 24 16
0,7 90 72 52 40 32 24 18 12
0,8 70 56 42 32 24 20 14 10
0,9 56 44 32 26 20 16 12 8
1,0 46 36 28 22 16 14 10 8
test dwustronny
0,2 1302 1054 788 620 492 388 294 208
0,3 580 470 352 278 220 174 132 94
0,4 328 266 200 158 126 98 76 54
0,5 210 172 128 102 82 64 50 36
0,6 148 120 90 72 58 46 36 26
0,7 110 88 68 54 42 34 26 20
0,8 84 68 52 42 34 28 22 16
0,9 68 54 42 34 28 22 18 14
1,0 54 46 34 28 22 18 14 12
TABLICE STATYSTYCZNE 645

Tablica E. Wartości testu F df1 1 2 3 4 5 6 7 8 9 10


Snedecora dla α = 0,05 df2
1 161 199 216 225 230 234 237 239 241 242
2 18,513 19,000 19,164 19,247 19,296 19,329 19,353 19,371 19,385 19,396
3 10,128 9,552 9,277 9,117 9,013 8,941 8,887 8,845 8,812 8,785
4 7,709 6,944 6,591 6,388 6,256 6,163 6,094 6,041 5,999 5,964
5 6,608 5,786 5,409 5,192 5,050 4,950 4,876 4,818 4,772 4,735
6 5,987 5,143 4,757 4,534 4,387 4,284 4,207 4,147 4,099 4,060
7 5,591 4,737 4,347 4,120 3,972 3,866 3,787 3,726 3,677 3,637
8 5,318 4,459 4,066 3,838 3,688 3,581 3,500 3,438 3,388 3,347
9 5,117 4,256 3,863 3,633 3,482 3,374 3,293 3,230 3,179 3,137
10 4,965 4,103 3,708 3,478 3,326 3,217 3,135 3,072 3,020 2,978
11 4,844 3,982 3,587 3,357 3,204 3,095 3,012 2,948 2,896 2,854
12 4,747 3,885 3,490 3,259 3,106 2,996 2,913 2,849 2,796 2,753
13 4,667 3,806 3,411 3,179 3,025 2,915 2,832 2,767 2,714 2,671
14 4,600 3,739 3,344 3,112 2,958 2,848 2,764 2,699 2,646 2,602
15 4,543 3,682 3,287 3,056 2,901 2,790 2,707 2,641 2,588 2,544
16 4,494 3,634 3,239 3,007 2,852 2,741 2,657 2,591 2,538 2,494
17 4,451 3,592 3,197 2,965 2,810 2,699 2,614 2,548 2,494 2,450
18 4,414 3,555 3,160 2,928 2,773 2,661 2,577 2,510 2,456 2,412
19 4,381 3,522 3,127 2,895 2,740 2,628 2,544 2,477 2,423 2,378
20 4,351 3,493 3,098 2,866 2,711 2,599 2,514 2,447 2,393 2,348
21 4,325 3,467 3,072 2,840 2,685 2,573 2,488 2,420 2,366 2,321
22 4,301 3,443 3,049 2,817 2,661 2,549 2,464 2,397 2,342 2,297
23 4,279 3,422 3,028 2,796 2,640 2,528 2,442 2,375 2,320 2,275
24 4,260 3,403 3,009 2,776 2,621 2,508 2,423 2,355 2,300 2,255
25 4,242 3,385 2,991 2,759 2,603 2,490 2,405 2,337 2,282 2,236
26 4,225 3,369 2,975 2,743 2,587 2,474 2,388 2,321 2,265 2,220
27 4,210 3,354 2,960 2,728 2,572 2,459 2,373 2,305 2,250 2,204
28 4,196 3,340 2,947 2,714 2,558 2,445 2,359 2,291 2,236 2,190
29 4,183 3,328 2,934 2,701 2,545 2,432 2,346 2,278 2,223 2,177
30 4,171 3,316 2,922 2,690 2,534 2,421 2,334 2,266 2,211 2,165
32 4,149 3,295 2,901 2,668 2,512 2,399 2,313 2,244 2,189 2,142
34 4,130 3,276 2,883 2,650 2,494 2,380 2,294 2,225 2,170 2,123
36 4,113 3,259 2,866 2,634 2,477 2,364 2,277 2,209 2,153 2,106
38 4,098 3,245 2,852 2,619 2,463 2,349 2,262 2,194 2,138 2,091
40 4,085 3,232 2,839 2,606 2,449 2,336 2,249 2,180 2,124 2,077
42 4,073 3,220 2,827 2,594 2,438 2,324 2,237 2,168 2,112 2,065
44 4,062 3,209 2,816 2,584 2,427 2,313 2,226 2,157 2,101 2,054
46 4,052 3,200 2,807 2,574 2,417 2,304 2,216 2,147 2,091 2,044
48 4,043 3,191 2,798 2,565 2,409 2,295 2,207 2,138 2,082 2,035
50 4,034 3,183 2,790 2,557 2,400 2,286 2,199 2,130 2,073 2,026
60 4,001 3,150 2,758 2,525 2,368 2,254 2,167 2,097 2,040 1,993
80 3,960 3,111 2,719 2,486 2,329 2,214 2,126 2,056 1,999 1,951
100 3,936 3,087 2,696 2,463 2,305 2,191 2,103 2,032 1,975 1,927
120 3,920 3,072 2,680 2,447 2,290 2,175 2,087 2,016 1,959 1,910
150 3,904 3,056 2,665 2,432 2,274 2,160 2,071 2,001 1,943 1,894
200 3,888 3,041 2,650 2,417 2,259 2,144 2,056 1,985 1,927 1,878
300 3,873 3,026 2,635 2,402 2,244 2,129 2,040 1,969 1,911 1,862
500 3,860 3,014 2,623 2,390 2,232 2,117 2,028 1,957 1,899 1,850
1000 3,851 3,005 2,614 2,381 2,223 2,108 2,019 1,948 1,889 1,840
10000 3,842 2,997 2,606 2,373 2,215 2,099 2,011 1,939 1,881 1,832
646 ANEKS

Tablica E. cd. dla α = 0,05 df1 12 14 16 18 20 22 24 26 28 30


df2
1 244 245 246 247 248 249 249 249 250 250
2 19,412 19,424 19,433 19,440 19,446 19,450 19,454 19,457 19,460 19,463
3 8,745 8,715 8,692 8,675 8,660 8,648 8,638 8,630 8,623 8,617
4 5,912 5,873 5,844 5,821 5,803 5,787 5,774 5,763 5,754 5,746
5 4,678 4,636 4,604 4,579 4,558 4,541 4,527 4,515 4,505 4,496
6 4,000 3,956 3,922 3,896 3,874 3,856 3,841 3,829 3,818 3,808
7 3,575 3,529 3,494 3,467 3,445 3,426 3,410 3,397 3,386 3,376
8 3,284 3,237 3,202 3,173 3,150 3,131 3,115 3,102 3,090 3,079
9 3,073 3,025 2,989 2,960 2,936 2,917 2,900 2,886 2,874 2,864
10 2,913 2,865 2,828 2,798 2,774 2,754 2,737 2,723 2,710 2,700
11 2,788 2,739 2,701 2,671 2,646 2,626 2,609 2,594 2,582 2,570
12 2,687 2,637 2,599 2,568 2,544 2,523 2,505 2,491 2,478 2,466
13 2,604 2,554 2,515 2,484 2,459 2,438 2,420 2,405 2,392 2,380
14 2,534 2,484 2,445 2,413 2,388 2,367 2,349 2,333 2,320 2,308
15 2,475 2,424 2,385 2,353 2,328 2,306 2,288 2,272 2,259 2,247
16 2,425 2,373 2,333 2,302 2,276 2,254 2,235 2,220 2,206 2,194
17 2,381 2,329 2,289 2,257 2,230 2,208 2,190 2,174 2,160 2,148
18 2,342 2,290 2,250 2,217 2,191 2,168 2,150 2,134 2,119 2,107
19 2,308 2,256 2,215 2,182 2,155 2,133 2,114 2,098 2,084 2,071
20 2,278 2,225 2,184 2,151 2,124 2,102 2,082 2,066 2,052 2,039
21 2,250 2,197 2,156 2,123 2,096 2,073 2,054 2,037 2,023 2,010
22 2,226 2,173 2,131 2,098 2,071 2,048 2,028 2,012 1,997 1,984
23 2,204 2,150 2,109 2,075 2,048 2,025 2,005 1,988 1,973 1,961
24 2,183 2,130 2,088 2,054 2,027 2,003 1,984 1,967 1,952 1,939
25 2,165 2,111 2,069 2,035 2,007 1,984 1,964 1,947 1,932 1,919
26 2,148 2,094 2,052 2,018 1,990 1,966 1,946 1,929 1,914 1,901
27 2,132 2,078 2,036 2,002 1,974 1,950 1,930 1,913 1,898 1,884
28 2,118 2,064 2,021 1,987 1,959 1,935 1,915 1,897 1,882 1,869
29 2,104 2,050 2,007 1,973 1,945 1,921 1,901 1,883 1,868 1,854
30 2,092 2,037 1,995 1,960 1,932 1,908 1,887 1,870 1,854 1,841
32 2,070 2,015 1,972 1,937 1,908 1,884 1,864 1,846 1,830 1,817
34 2,050 1,995 1,952 1,917 1,888 1,863 1,843 1,825 1,809 1,795
36 2,033 1,977 1,934 1,899 1,870 1,845 1,824 1,806 1,790 1,776
38 2,017 1,962 1,918 1,883 1,853 1,829 1,808 1,790 1,774 1,760
40 2,003 1,948 1,904 1,868 1,839 1,814 1,793 1,775 1,759 1,744
42 1,991 1,935 1,891 1,855 1,826 1,801 1,780 1,761 1,745 1,731
44 1,980 1,924 1,879 1,844 1,814 1,789 1,767 1,749 1,733 1,718
46 1,969 1,913 1,869 1,833 1,803 1,778 1,756 1,738 1,721 1,707
48 1,960 1,904 1,859 1,823 1,793 1,768 1,746 1,728 1,711 1,697
50 1,952 1,895 1,850 1,814 1,784 1,759 1,737 1,718 1,702 1,687
60 1,917 1,860 1,815 1,778 1,748 1,722 1,700 1,681 1,664 1,649
80 1,875 1,817 1,772 1,734 1,703 1,677 1,654 1,634 1,617 1,602
100 1,850 1,792 1,746 1,708 1,676 1,650 1,627 1,607 1,589 1,573
120 1,834 1,775 1,728 1,690 1,659 1,632 1,608 1,588 1,570 1,554
150 1,817 1,758 1,711 1,673 1,641 1,614 1,590 1,570 1,552 1,535
200 1,801 1,742 1,694 1,656 1,623 1,596 1,572 1,551 1,533 1,516
300 1,785 1,725 1,677 1,638 1,606 1,578 1,554 1,533 1,514 1,497
500 1,772 1,712 1,664 1,625 1,592 1,563 1,539 1,518 1,499 1,482
1000 1,762 1,702 1,654 1,614 1,581 1,553 1,528 1,507 1,488 1,471
10000 1,753 1,693 1,645 1,605 1,572 1,543 1,518 1,497 1,477 1,460
TABLICE STATYSTYCZNE 647

Tablica E. cd. dla α = 0,05 df1 35 40 45 50 60 80 100 200 500 10000


df2
1 251 251 251 252 252 253 253 254 254 254
2 19,467 19,471 19,473 19,476 19,479 19,483 19,486 19,491 19,494 19,496
3 8,604 8,594 8,587 8,581 8,572 8,561 8,554 8,540 8,532 8,527
4 5,729 5,717 5,707 5,699 5,688 5,673 5,664 5,646 5,635 5,628
5 4,478 4,464 4,453 4,444 4,431 4,415 4,405 4,385 4,373 4,365
6 3,789 3,774 3,763 3,754 3,740 3,722 3,712 3,690 3,678 3,669
7 3,356 3,340 3,328 3,319 3,304 3,286 3,275 3,252 3,239 3,230
8 3,059 3,043 3,030 3,020 3,005 2,986 2,975 2,951 2,937 2,928
9 2,842 2,826 2,813 2,803 2,787 2,768 2,756 2,731 2,717 2,707
10 2,678 2,661 2,648 2,637 2,621 2,601 2,588 2,563 2,548 2,538
11 2,548 2,531 2,517 2,507 2,490 2,469 2,457 2,431 2,415 2,405
12 2,443 2,426 2,412 2,401 2,384 2,363 2,350 2,323 2,307 2,297
13 2,357 2,339 2,325 2,314 2,297 2,275 2,261 2,234 2,218 2,207
14 2,284 2,266 2,252 2,241 2,223 2,201 2,187 2,159 2,142 2,131
15 2,223 2,204 2,190 2,178 2,160 2,137 2,123 2,095 2,078 2,066
16 2,169 2,151 2,136 2,124 2,106 2,083 2,068 2,039 2,022 2,010
17 2,123 2,104 2,089 2,077 2,058 2,035 2,020 1,991 1,973 1,961
18 2,082 2,063 2,048 2,035 2,017 1,993 1,978 1,948 1,929 1,917
19 2,046 2,026 2,011 1,999 1,980 1,955 1,940 1,910 1,891 1,879
20 2,013 1,994 1,978 1,966 1,946 1,922 1,907 1,875 1,856 1,844
21 1,984 1,965 1,949 1,936 1,916 1,891 1,876 1,845 1,825 1,812
22 1,958 1,938 1,922 1,909 1,889 1,864 1,849 1,817 1,797 1,784
23 1,934 1,914 1,898 1,885 1,865 1,839 1,823 1,791 1,771 1,758
24 1,912 1,892 1,876 1,863 1,842 1,816 1,800 1,768 1,747 1,734
25 1,892 1,872 1,855 1,842 1,822 1,796 1,779 1,746 1,725 1,712
26 1,874 1,853 1,837 1,823 1,803 1,776 1,760 1,726 1,705 1,691
27 1,857 1,836 1,819 1,806 1,785 1,758 1,742 1,708 1,686 1,672
28 1,841 1,820 1,803 1,790 1,769 1,742 1,725 1,691 1,669 1,655
29 1,827 1,806 1,789 1,775 1,754 1,726 1,710 1,675 1,653 1,638
30 1,813 1,792 1,775 1,761 1,740 1,712 1,695 1,660 1,637 1,623
32 1,789 1,767 1,750 1,736 1,714 1,686 1,669 1,633 1,610 1,595
34 1,767 1,745 1,728 1,713 1,691 1,663 1,645 1,609 1,585 1,570
36 1,748 1,726 1,708 1,694 1,671 1,643 1,625 1,587 1,564 1,548
38 1,731 1,708 1,691 1,676 1,653 1,624 1,606 1,568 1,544 1,528
40 1,715 1,693 1,675 1,660 1,637 1,608 1,589 1,551 1,526 1,510
42 1,701 1,679 1,661 1,646 1,623 1,593 1,574 1,535 1,510 1,493
44 1,689 1,666 1,648 1,633 1,609 1,579 1,560 1,520 1,495 1,478
46 1,677 1,654 1,636 1,621 1,597 1,567 1,547 1,507 1,481 1,464
48 1,667 1,644 1,625 1,610 1,586 1,555 1,536 1,495 1,469 1,451
50 1,657 1,634 1,615 1,599 1,576 1,544 1,525 1,484 1,457 1,439
60 1,618 1,594 1,575 1,559 1,534 1,502 1,481 1,438 1,409 1,390
80 1,570 1,545 1,525 1,508 1,482 1,448 1,426 1,379 1,347 1,326
100 1,541 1,515 1,494 1,477 1,450 1,415 1,392 1,342 1,308 1,284
120 1,521 1,495 1,474 1,457 1,429 1,392 1,369 1,316 1,280 1,255
150 1,502 1,475 1,454 1,436 1,407 1,369 1,345 1,290 1,252 1,224
200 1,482 1,455 1,433 1,415 1,386 1,346 1,321 1,263 1,221 1,190
300 1,463 1,435 1,412 1,393 1,363 1,323 1,296 1,234 1,188 1,152
500 1,447 1,419 1,396 1,376 1,345 1,303 1,275 1,210 1,159 1,116
1000 1,435 1,406 1,383 1,363 1,332 1,289 1,260 1,190 1,134 1,082
10000 1,424 1,395 1,371 1,351 1,319 1,275 1,245 1,172 1,109 1,033
648 ANEKS

Tablica E. Wartości testu F df1 1 2 3 4 5 6 7 8 9 10


Snedecora dla α = 0,01 df2
1 4052 4999 5404 5624 5764 5859 5928 5981 6022 6056
2 98,502 99,000 99,164 99,251 99,302 99,331 99,357 99,375 99,390 99,397
3 34,116 30,816 29,457 28,710 28,237 27,911 27,671 27,489 27,345 27,228
4 21,198 18,000 16,694 15,977 15,522 15,207 14,976 14,799 14,659 14,546
5 16,258 13,274 12,060 11,392 10,967 10,672 10,456 10,289 10,158 10,051
6 13,745 10,925 9,780 9,148 8,746 8,466 8,260 8,102 7,976 7,874
7 12,246 9,547 8,451 7,847 7,460 7,191 6,993 6,840 6,719 6,620
8 11,259 8,649 7,591 7,006 6,632 6,371 6,178 6,029 5,911 5,814
9 10,562 8,022 6,992 6,422 6,057 5,802 5,613 5,467 5,351 5,257
10 10,044 7,559 6,552 5,994 5,636 5,386 5,200 5,057 4,942 4,849
11 9,646 7,206 6,217 5,668 5,316 5,069 4,886 4,744 4,632 4,539
12 9,330 6,927 5,953 5,412 5,064 4,821 4,640 4,499 4,388 4,296
13 9,074 6,701 5,739 5,205 4,862 4,620 4,441 4,302 4,191 4,100
14 8,862 6,515 5,564 5,035 4,695 4,456 4,278 4,140 4,030 3,939
15 8,683 6,359 5,417 4,893 4,556 4,318 4,142 4,004 3,895 3,805
16 8,531 6,226 5,292 4,773 4,437 4,202 4,026 3,890 3,780 3,691
17 8,400 6,112 5,185 4,669 4,336 4,101 3,927 3,791 3,682 3,593
18 8,285 6,013 5,092 4,579 4,248 4,015 3,841 3,705 3,597 3,508
19 8,185 5,926 5,010 4,500 4,171 3,939 3,765 3,631 3,523 3,434
20 8,096 5,849 4,938 4,431 4,103 3,871 3,699 3,564 3,457 3,368
21 8,017 5,780 4,874 4,369 4,042 3,812 3,640 3,506 3,398 3,310
22 7,945 5,719 4,817 4,313 3,988 3,758 3,587 3,453 3,346 3,258
23 7,881 5,664 4,765 4,264 3,939 3,710 3,539 3,406 3,299 3,211
24 7,823 5,614 4,718 4,218 3,895 3,667 3,496 3,363 3,256 3,168
25 7,770 5,568 4,675 4,177 3,855 3,627 3,457 3,324 3,217 3,129
26 7,721 5,526 4,637 4,140 3,818 3,591 3,421 3,288 3,182 3,094
27 7,677 5,488 4,601 4,106 3,785 3,558 3,388 3,256 3,149 3,062
28 7,636 5,453 4,568 4,074 3,754 3,528 3,358 3,226 3,120 3,032
29 7,598 5,420 4,538 4,045 3,725 3,499 3,330 3,198 3,092 3,005
30 7,562 5,390 4,510 4,018 3,699 3,473 3,305 3,173 3,067 2,979
32 7,499 5,336 4,459 3,969 3,652 3,427 3,258 3,127 3,021 2,934
34 7,444 5,289 4,416 3,927 3,611 3,386 3,218 3,087 2,981 2,894
36 7,396 5,248 4,377 3,890 3,574 3,351 3,183 3,052 2,946 2,859
38 7,353 5,211 4,343 3,858 3,542 3,319 3,152 3,021 2,915 2,828
40 7,314 5,178 4,313 3,828 3,514 3,291 3,124 2,993 2,888 2,801
42 7,280 5,149 4,285 3,802 3,488 3,266 3,099 2,968 2,863 2,776
44 7,248 5,123 4,261 3,778 3,465 3,243 3,076 2,946 2,840 2,754
46 7,220 5,099 4,238 3,757 3,444 3,222 3,056 2,925 2,820 2,733
48 7,194 5,077 4,218 3,737 3,425 3,204 3,037 2,907 2,802 2,715
50 7,171 5,057 4,199 3,720 3,408 3,186 3,020 2,890 2,785 2,698
60 7,077 4,977 4,126 3,649 3,339 3,119 2,953 2,823 2,718 2,632
80 6,963 4,881 4,036 3,563 3,255 3,036 2,871 2,742 2,637 2,551
100 6,895 4,824 3,984 3,513 3,206 2,988 2,823 2,694 2,590 2,503
120 6,851 4,787 3,949 3,480 3,174 2,956 2,792 2,663 2,559 2,472
150 6,807 4,749 3,915 3,447 3,142 2,924 2,761 2,632 2,528 2,441
200 6,763 4,713 3,881 3,414 3,110 2,893 2,730 2,601 2,497 2,411
300 6,720 4,677 3,848 3,382 3,079 2,862 2,699 2,571 2,467 2,380
500 6,686 4,648 3,821 3,357 3,054 2,838 2,675 2,547 2,443 2,356
1000 6,660 4,626 3,801 3,338 3,036 2,820 2,657 2,529 2,425 2,339
10000 6,637 4,607 3,784 3,321 3,019 2,804 2,641 2,513 2,409 2,323
TABLICE STATYSTYCZNE 649

Tablica E. cd. dla α = 0,01 df1 12 14 16 18 20 22 24 26 28 30


df2
1 6107 6143 6170 6191 6209 6223 6234 6245 6253 6260
2 99,419 99,426 99,437 99,444 99,448 99,455 99,455 99,462 99,462 99,466
3 27,052 26,924 26,826 26,751 26,690 26,639 26,597 26,562 26,531 26,504
4 14,374 14,249 14,154 14,079 14,019 13,970 13,929 13,894 13,864 13,838
5 9,888 9,770 9,680 9,609 9,553 9,506 9,466 9,433 9,404 9,379
6 7,718 7,605 7,519 7,451 7,396 7,351 7,313 7,281 7,253 7,229
7 6,469 6,359 6,275 6,209 6,155 6,111 6,074 6,043 6,016 5,992
8 5,667 5,559 5,477 5,412 5,359 5,316 5,279 5,248 5,221 5,198
9 5,111 5,005 4,924 4,860 4,808 4,765 4,729 4,698 4,672 4,649
10 4,706 4,601 4,520 4,457 4,405 4,363 4,327 4,296 4,270 4,247
11 4,397 4,293 4,213 4,150 4,099 4,057 4,021 3,990 3,964 3,941
12 4,155 4,052 3,972 3,910 3,858 3,816 3,780 3,750 3,724 3,701
13 3,960 3,857 3,778 3,716 3,665 3,622 3,587 3,556 3,530 3,507
14 3,800 3,698 3,619 3,556 3,505 3,463 3,427 3,397 3,371 3,348
15 3,666 3,564 3,485 3,423 3,372 3,330 3,294 3,264 3,237 3,214
16 3,553 3,451 3,372 3,310 3,259 3,216 3,181 3,150 3,124 3,101
17 3,455 3,353 3,275 3,212 3,162 3,119 3,083 3,053 3,026 3,003
18 3,371 3,269 3,190 3,128 3,077 3,035 2,999 2,968 2,942 2,919
19 3,297 3,195 3,116 3,054 3,003 2,961 2,925 2,894 2,868 2,844
20 3,231 3,130 3,051 2,989 2,938 2,895 2,859 2,829 2,802 2,778
21 3,173 3,072 2,993 2,931 2,880 2,837 2,801 2,770 2,743 2,720
22 3,121 3,019 2,941 2,879 2,827 2,785 2,749 2,718 2,691 2,667
23 3,074 2,973 2,894 2,832 2,780 2,738 2,702 2,671 2,644 2,620
24 3,032 2,930 2,852 2,789 2,738 2,695 2,659 2,628 2,601 2,577
25 2,993 2,892 2,813 2,751 2,699 2,657 2,620 2,589 2,562 2,538
26 2,958 2,857 2,778 2,715 2,664 2,621 2,585 2,554 2,526 2,503
27 2,926 2,824 2,746 2,683 2,632 2,589 2,552 2,521 2,494 2,470
28 2,896 2,795 2,716 2,653 2,602 2,559 2,522 2,491 2,464 2,440
29 2,868 2,767 2,689 2,626 2,574 2,531 2,495 2,463 2,436 2,412
30 2,843 2,742 2,663 2,600 2,549 2,506 2,469 2,437 2,410 2,386
32 2,798 2,696 2,618 2,555 2,503 2,460 2,423 2,391 2,364 2,340
34 2,758 2,657 2,578 2,515 2,463 2,420 2,383 2,351 2,323 2,299
36 2,723 2,622 2,543 2,480 2,428 2,384 2,347 2,315 2,288 2,263
38 2,692 2,591 2,512 2,449 2,397 2,353 2,316 2,284 2,256 2,232
40 2,665 2,563 2,484 2,421 2,369 2,325 2,288 2,256 2,228 2,203
42 2,640 2,539 2,460 2,396 2,344 2,300 2,263 2,231 2,203 2,178
44 2,618 2,516 2,437 2,374 2,321 2,278 2,240 2,208 2,180 2,155
46 2,598 2,496 2,417 2,353 2,301 2,257 2,220 2,187 2,159 2,134
48 2,579 2,478 2,399 2,335 2,282 2,238 2,201 2,168 2,140 2,115
50 2,563 2,461 2,382 2,318 2,265 2,221 2,183 2,151 2,123 2,098
60 2,496 2,394 2,315 2,251 2,198 2,153 2,115 2,083 2,054 2,028
80 2,415 2,313 2,233 2,169 2,115 2,070 2,032 1,999 1,969 1,944
100 2,368 2,265 2,185 2,120 2,067 2,021 1,983 1,949 1,919 1,893
120 2,336 2,234 2,154 2,089 2,035 1,989 1,950 1,916 1,886 1,860
150 2,305 2,203 2,122 2,057 2,003 1,957 1,918 1,884 1,854 1,827
200 2,275 2,172 2,091 2,026 1,971 1,925 1,886 1,851 1,821 1,794
300 2,244 2,142 2,061 1,995 1,940 1,894 1,854 1,819 1,789 1,761
500 2,220 2,117 2,036 1,970 1,915 1,869 1,829 1,794 1,763 1,735
1000 2,203 2,099 2,018 1,952 1,897 1,850 1,810 1,774 1,743 1,716
10000 2,187 2,083 2,002 1,935 1,880 1,833 1,793 1,757 1,726 1,698
650 ANEKS

Tablica E. cd. dla α = 0,01 df1 35 40 45 50 60 80 100 200 500 10000


df2
1 6275 6286 6296 6302 6313 6326 6334 6350 6360 6366
2 99,470 99,477 99,477 99,477 99,484 99,484 99,491 99,491 99,499 99,499
3 26,451 26,411 26,379 26,354 26,316 26,269 26,241 26,183 26,148 26,126
4 13,785 13,745 13,714 13,690 13,652 13,605 13,577 13,520 13,486 13,464
5 9,329 9,291 9,262 9,238 9,202 9,157 9,130 9,075 9,042 9,022
6 7,180 7,143 7,115 7,091 7,057 7,013 6,987 6,934 6,901 6,881
7 5,944 5,908 5,880 5,858 5,824 5,781 5,755 5,702 5,671 5,651
8 5,151 5,116 5,088 5,065 5,032 4,989 4,963 4,911 4,880 4,860
9 4,602 4,567 4,539 4,517 4,483 4,441 4,415 4,363 4,332 4,312
10 4,201 4,165 4,138 4,115 4,082 4,039 4,014 3,962 3,930 3,910
11 3,895 3,860 3,832 3,810 3,776 3,734 3,708 3,656 3,624 3,604
12 3,654 3,619 3,592 3,569 3,535 3,493 3,467 3,414 3,382 3,362
13 3,461 3,425 3,398 3,375 3,341 3,298 3,272 3,219 3,187 3,166
14 3,301 3,266 3,238 3,215 3,181 3,138 3,112 3,059 3,026 3,005
15 3,167 3,132 3,104 3,081 3,047 3,004 2,977 2,923 2,891 2,870
16 3,054 3,018 2,990 2,967 2,933 2,889 2,863 2,808 2,775 2,754
17 2,956 2,920 2,892 2,869 2,835 2,791 2,764 2,709 2,676 2,654
18 2,871 2,835 2,807 2,784 2,749 2,705 2,678 2,623 2,589 2,567
19 2,797 2,761 2,732 2,709 2,674 2,630 2,602 2,547 2,512 2,490
20 2,731 2,695 2,666 2,643 2,608 2,563 2,535 2,479 2,445 2,422
21 2,672 2,636 2,607 2,584 2,548 2,503 2,476 2,419 2,384 2,361
22 2,620 2,583 2,554 2,531 2,495 2,450 2,422 2,365 2,329 2,307
23 2,572 2,536 2,506 2,483 2,447 2,401 2,373 2,316 2,280 2,257
24 2,529 2,492 2,463 2,440 2,403 2,357 2,329 2,271 2,235 2,212
25 2,490 2,453 2,424 2,400 2,364 2,317 2,289 2,230 2,194 2,171
26 2,454 2,417 2,388 2,364 2,327 2,281 2,252 2,193 2,156 2,133
27 2,421 2,384 2,354 2,330 2,294 2,247 2,218 2,159 2,122 2,098
28 2,391 2,354 2,324 2,300 2,263 2,216 2,187 2,127 2,090 2,065
29 2,363 2,325 2,296 2,271 2,234 2,187 2,158 2,097 2,060 2,035
30 2,337 2,299 2,269 2,245 2,208 2,160 2,131 2,070 2,032 2,008
32 2,290 2,252 2,222 2,198 2,160 2,112 2,082 2,021 1,982 1,957
34 2,249 2,211 2,181 2,156 2,118 2,070 2,040 1,977 1,938 1,913
36 2,213 2,175 2,145 2,120 2,082 2,032 2,002 1,939 1,899 1,873
38 2,182 2,143 2,112 2,087 2,049 1,999 1,968 1,904 1,864 1,838
40 2,153 2,114 2,083 2,058 2,019 1,969 1,938 1,874 1,833 1,806
42 2,127 2,088 2,057 2,032 1,993 1,943 1,911 1,846 1,804 1,777
44 2,104 2,065 2,034 2,008 1,969 1,918 1,887 1,821 1,779 1,751
46 2,083 2,044 2,012 1,987 1,947 1,896 1,864 1,797 1,755 1,727
48 2,064 2,024 1,993 1,967 1,927 1,876 1,844 1,776 1,733 1,705
50 2,046 2,007 1,975 1,949 1,909 1,857 1,825 1,757 1,713 1,685
60 1,976 1,936 1,904 1,877 1,836 1,783 1,749 1,678 1,633 1,602
80 1,890 1,849 1,816 1,788 1,746 1,690 1,655 1,579 1,530 1,496
100 1,839 1,797 1,763 1,735 1,692 1,634 1,598 1,518 1,466 1,429
120 1,806 1,763 1,728 1,700 1,656 1,597 1,559 1,477 1,421 1,383
150 1,772 1,729 1,694 1,665 1,620 1,559 1,520 1,435 1,376 1,334
200 1,738 1,694 1,659 1,629 1,583 1,521 1,481 1,391 1,328 1,281
300 1,705 1,660 1,624 1,594 1,547 1,483 1,441 1,346 1,276 1,223
500 1,678 1,633 1,596 1,566 1,517 1,452 1,408 1,308 1,232 1,168
1000 1,658 1,613 1,576 1,544 1,495 1,428 1,383 1,278 1,195 1,118
10000 1,640 1,594 1,557 1,525 1,475 1,407 1,361 1,250 1,157 1,048
TABLICE STATYSTYCZNE 651

Tablica F. Wartości krytyczne p 0,99 0,975 0,95 0,9 0,8 0,7 0,6 0,5
2
testu χ df
1 0,000 0,001 0,004 0,016 0,064 0,148 0,275 0,455
2 0,020 0,051 0,103 0,211 0,446 0,713 1,022 1,386
3 0,115 0,216 0,352 0,584 1,005 1,424 1,869 2,366
4 0,297 0,484 0,711 1,064 1,649 2,195 2,753 3,357
5 0,554 0,831 1,145 1,610 2,343 3,000 3,655 4,351
6 0,872 1,237 1,635 2,204 3,070 3,828 4,570 5,348
7 1,239 1,690 2,167 2,833 3,822 4,671 5,493 6,346
8 1,646 2,180 2,733 3,490 4,594 5,527 6,423 7,344
9 2,088 2,700 3,325 4,168 5,380 6,393 7,357 8,343
10 2,558 3,247 3,940 4,865 6,179 7,267 8,295 9,342
11 3,053 3,816 4,575 5,578 6,989 8,148 9,237 10,341
12 3,571 4,404 5,226 6,304 7,807 9,034 10,182 11,340
13 4,107 5,009 5,892 7,042 8,634 9,926 11,129 12,340
14 4,660 5,629 6,571 7,790 9,467 10,821 12,078 13,339
15 5,229 6,262 7,261 8,547 10,307 11,721 13,030 14,339
16 5,812 6,908 7,962 9,312 11,152 12,624 13,983 15,338
17 6,408 7,564 8,672 10,085 12,002 13,531 14,937 16,338
18 7,015 8,231 9,390 10,865 12,857 14,440 15,893 17,338
19 7,633 8,907 10,117 11,651 13,716 15,352 16,850 18,338
20 8,260 9,591 10,851 12,443 14,578 16,266 17,809 19,337
21 8,897 10,283 11,591 13,240 15,445 17,182 18,768 20,337
22 9,542 10,982 12,338 14,041 16,314 18,101 19,729 21,337
23 10,196 11,689 13,091 14,848 17,187 19,021 20,690 22,337
24 10,856 12,401 13,848 15,659 18,062 19,943 21,652 23,337
25 11,524 13,120 14,611 16,473 18,940 20,867 22,616 24,337
26 12,198 13,844 15,379 17,292 19,820 21,792 23,579 25,336
27 12,879 14,573 16,151 18,114 20,703 22,719 24,544 26,336
28 13,565 15,308 16,928 18,939 21,588 23,647 25,509 27,336
29 14,256 16,047 17,708 19,768 22,475 24,577 26,475 28,336
30 14,953 16,791 18,493 20,599 23,364 25,508 27,442 29,336
31 15,655 17,539 19,281 21,434 24,255 26,440 28,409 30,336
32 16,362 18,291 20,072 22,271 25,148 27,373 29,376 31,336
33 17,074 19,047 20,867 23,110 26,042 28,307 30,344 32,336
34 17,789 19,806 21,664 23,952 26,938 29,242 31,313 33,336
35 18,509 20,569 22,465 24,797 27,836 30,178 32,282 34,336
36 19,233 21,336 23,269 25,643 28,735 31,115 33,252 35,336
37 19,960 22,106 24,075 26,492 29,635 32,053 34,222 36,336
38 20,691 22,878 24,884 27,343 30,537 32,992 35,192 37,335
39 21,426 23,654 25,695 28,196 31,441 33,932 36,163 38,335
40 22,164 24,433 26,509 29,051 32,345 34,872 37,134 39,335
41 22,906 25,215 27,326 29,907 33,251 35,813 38,105 40,335
42 23,650 25,999 28,144 30,765 34,157 36,755 39,077 41,335
43 24,398 26,785 28,965 31,625 35,065 37,698 40,050 42,335
44 25,148 27,575 29,787 32,487 35,974 38,641 41,022 43,335
45 25,901 28,366 30,612 33,350 36,884 39,585 41,995 44,335
46 26,657 29,160 31,439 34,215 37,795 40,529 42,968 45,335
47 27,416 29,956 32,268 35,081 38,708 41,474 43,942 46,335
48 28,177 30,755 33,098 35,949 39,621 42,420 44,915 47,335
49 28,941 31,555 33,930 36,818 40,534 43,366 45,889 48,335
50 29,707 32,357 34,764 37,689 41,449 44,313 46,864 49,335
652 ANEKS

Tablica F. cd. p 0,4 0,3 0,2 0,1 0,05 0,025 0,01 0,005
df
1 0,708 1,074 1,642 2,706 3,841 5,024 6,635 7,879
2 1,833 2,408 3,219 4,605 5,991 7,378 9,210 10,597
3 2,946 3,665 4,642 6,251 7,815 9,348 11,345 12,838
4 4,045 4,878 5,989 7,779 9,488 11,143 13,277 14,860
5 5,132 6,064 7,289 9,236 11,070 12,833 15,086 16,750
6 6,211 7,231 8,558 10,645 12,592 14,449 16,812 18,548
7 7,283 8,383 9,803 12,017 14,067 16,013 18,475 20,278
8 8,351 9,524 11,030 13,362 15,507 17,535 20,090 21,955
9 9,414 10,656 12,242 14,684 16,919 19,023 21,666 23,589
10 10,473 11,781 13,442 15,987 18,307 20,483 23,209 25,188
11 11,530 12,899 14,631 17,275 19,675 21,920 24,725 26,757
12 12,584 14,011 15,812 18,549 21,026 23,337 26,217 28,300
13 13,636 15,119 16,985 19,812 22,362 24,736 27,688 29,819
14 14,685 16,222 18,151 21,064 23,685 26,119 29,141 31,319
15 15,733 17,322 19,311 22,307 24,996 27,488 30,578 32,801
16 16,780 18,418 20,465 23,542 26,296 28,845 32,000 34,267
17 17,824 19,511 21,615 24,769 27,587 30,191 33,409 35,718
18 18,868 20,601 22,760 25,989 28,869 31,526 34,805 37,156
19 19,910 21,689 23,900 27,204 30,144 32,852 36,191 38,582
20 20,951 22,775 25,038 28,412 31,410 34,170 37,566 39,997
21 21,991 23,858 26,171 29,615 32,671 35,479 38,932 41,401
22 23,031 24,939 27,301 30,813 33,924 36,781 40,289 42,796
23 24,069 26,018 28,429 32,007 35,172 38,076 41,638 44,181
24 25,106 27,096 29,553 33,196 36,415 39,364 42,980 45,558
25 26,143 28,172 30,675 34,382 37,652 40,646 44,314 46,928
26 27,179 29,246 31,795 35,563 38,885 41,923 45,642 48,290
27 28,214 30,319 32,912 36,741 40,113 43,195 46,963 49,645
28 29,249 31,391 34,027 37,916 41,337 44,461 48,278 50,994
29 30,283 32,461 35,139 39,087 42,557 45,722 49,588 52,335
30 31,316 33,530 36,250 40,256 43,773 46,979 50,892 53,672
31 32,349 34,598 37,359 41,422 44,985 48,232 52,191 45,003
32 33,381 35,665 38,466 42,585 46,194 49,480 53,486 56,328
33 34,413 36,731 39,572 43,745 47,400 50,725 54,776 57,648
34 35,444 37,795 40,676 44,903 48,602 51,966 56,061 58,964
35 36,475 38,859 41,778 46,059 49,802 53,203 57,342 60,275
36 37,505 39,922 42,879 47,212 50,998 54,437 58,619 61,581
37 38,535 40,984 43,978 48,363 52,192 55,668 59,893 62,882
38 39,564 42,045 45,076 49,513 53,384 56,896 61,162 64,181
39 40,593 43,105 46,173 50,660 54,572 58,120 62,428 65,476
40 41,622 44,165 47,269 51,805 55,758 59,342 63,691 66,766
41 42,651 45,224 48,363 52,949 56,942 60,561 64,950 68,053
42 43,679 46,282 49,456 54,090 58,124 61,777 66,206 69,336
43 44,706 47,339 50,548 55,230 59,304 62,990 67,459 70,616
44 45,734 48,396 51,639 56,369 60,481 64,201 68,710 71,893
45 46,761 49,452 52,729 57,505 61,656 65,410 69,957 73,166
46 47,787 50,507 53,818 58,641 62,830 66,617 71,201 74,437
47 48,814 51,562 54,906 59,774 64,001 67,821 72,443 75,704
48 49,840 52,616 55,993 60,907 65,171 69,023 73,683 76,969
49 50,866 53,670 57,079 62,038 66,339 70,222 74,919 78,231
50 51,892 54,723 58,164 63,167 67,505 71,420 76,154 79,490
TABLICE STATYSTYCZNE 653

Tablica G. Wartości Test jednostronny Test dwustronny


krytyczne testu Wilcoxona
(test jedno- i dwustronny) p 0,05 0,02 0,01 0,05 0,02 0,01
n
6 2 0 0
7 3 2 0 2 0
8 5 3 1 4 2 0
9 8 4 3 6 3 2
10 11 6 5 8 5 3
11 14 8 7 11 7 5
12 17 12 10 14 10 7
13 21 16 13 17 13 10
14 25 19 16 21 16 13
15 30 24 20 25 20 16
16 35 29 24 30 24 20
17 41 34 28 35 28 23
18 47 40 33 40 33 28
19 53 46 38 46 38 32
20 60 52 43 52 43 38
21 67 59 49 59 49 43
22 75 67 55 66 56 49
23 83 74 62 73 62 55
24 92 83 69 81 69 61
654 ANEKS

Tablica H. Wartości współ- p 0,05 0,01


czynnika korelacji Spearma- n
na istotne na poziomie 0,05
i 0,01 (test jednostronny) 5 0,9 1,000
6 0,829 0,943
7 0,714 0,893
8 0,643 0,833
9 0,600 0,783
10 0,564 0,746
12 0,506 0,712
14 0,456 0,645
16 0,425 0,601
18 0,399 0,564
20 0,377 0,534
22 0,359 0,508
24 0,343 0,485
26 0,329 0,465
28 0,317 0,448
30 0,306 0,432

View publication stats

You might also like