Professional Documents
Culture Documents
Mackiewicz F (2007) Liczby Nie Wiedzą Skąd Pochodzą
Mackiewicz F (2007) Liczby Nie Wiedzą Skąd Pochodzą
net/publication/259762088
CITATIONS READS
32 32,387
2 authors:
Some of the authors of this publication are also working on these related projects:
All content following this page was uploaded by Piotr Francuz on 08 August 2016.
2. PROJEKTOWANIE EKSPERYMENTÓW 59
2. PROJEKTOWANIE EKSPERYMENTÓW 59
• Eksperyment jako procedura pozwalająca na zbieranie danych 59
• Modelowanie badań empirycznych 59
• Układ z dwoma grupami badawczymi – przykład z mikrusem grającym na puzonie 60
• Warunki poprawności układu z dwoma grupami badawczymi 61
• Układ z powtarzanymi pomiarami w jednej grupie badanej – o tygrysach i kuguarach 62
• Jakie zalety ma układ z powtarzanymi pomiarami? 63
• Jakie są wady układu z powtarzanymi pomiarami? 65
• Badanie eksperymentalne i różnicowe 67
• Pretest i posttest zmiennej zależnej 67
• Plan czterogrupowy Salomona 68
• Układ Solomona jako przykład eksperymentu czynnikowego 69
• Eksperyment czynnikowy z czterema grupami badanych – o fałszywych zeznaniach 70
• Plany eksperymentalne – uogólnienie na wiele zmiennych 72
• Plany z powtarzanymi pomiarami – wiele grup badanych 72
• Badania bez manipulacji eksperymentalnej 72
• Badanie korelacyjne 73
• Korelacja wielokrotna i związki krzywoliniowe 74
niezależności?” 425
• O poprawce Yatesa do testu χ ze względu na małe liczebności 426
2
• Na koniec coś dla ochłody: „Cola czy pepsi? A może royal crown?” 428
• Czy statystyka byłaby możliwa bez Karla Pearsona? 429
Bibliografia 619
Indeks 629
TRZY ZASADY
* Lord, F. (1946). On the statis- Tytuł naszego przewodnika pochodzi z artykułu Frederica Lorda*. Opisał on
tical treatment of football num- spór między statystykiem a psychologiem, który to spór miał (lub mógł
bers. American Psychologist, 8,
750-751. mieć) miejsce na pewnej uczelni. Statystyk twierdził, że może zastosować
dowolną metodę obliczeniową w odniesieniu do dostarczonych mu danych,
całkowicie ignorując to, jakie jest ich źródło, ponieważ i tak „liczby nie wie-
dzą, skąd pochodzą”. Psycholog zaś się upierał, że nie można swobodnie
dobierać metody statystycznej analizy danych, dlatego że liczby zgromadzo-
ne w wyniku określonego eksperymentu mają swoje znaczenie i nie są po
prostu zbiorem dowolnych liczb losowych.
Kiedy zastanawialiśmy się nad tytułem naszego przewodnika, doszliśmy do
wniosku, że zdanie: „Liczby nie wiedzą, skąd pochodzą” idealnie pasuje do
tego, co chcemy w nim przekazać. W pewnym sensie ten tytuł jakby sam się
do nas „zgłosił”. Liczby rzeczywiście nie mają zielonego pojęcia, skąd się
wzięły. Świadomy jednak swoich działań badacz, który je zdobył, wie lub
powinien wiedzieć wiele na ich temat. Kiedy uważnie przyjrzymy się temu,
czym zajmują się naukowcy, stwierdzimy, że lwią część swojego czasu pra-
cy poświęcają oni na myślenie właśnie o liczbach: najpierw, kiedy projektują
badania i formułują hipotezy, później podczas badań, gdy je gromadzą,
i wreszcie wtedy, gdy poddają je analizie statystycznej i interpretacji.
W największym skrócie treścią naszego przewodnika jest zatem opis procesu
zdobywania, analizowania i publikowania informacji o liczbach, które coś
znaczą. Rozpoczynamy od momentu, w którym nie mamy jeszcze żadnych
liczb i jesteśmy na etapie poszukiwania interesujących pytań badawczych.
Na ostatnim etapie zajmujemy się już tylko problemem sposobu, w jaki ma-
my powiadomić innych ludzi o wynikach naszych badań, czyli o znaczeniu
zebranych liczb. Pomiędzy pierwszym a ostatnim rozdziałem naszego prze-
wodnika, a zarazem między pierwszym i ostatnim stadium procesu ba-
dawczego, jest wiele etapów pośrednich. Dobrze jest, jeśli na każdym z tych
etapów badacz wie, co zamierza osiągnąć i w jaki sposób chce dojść do sta-
wianych sobie celów. O wszystkich etapach procesu badawczego oraz
o tym, co badacz powinien wiedzieć na temat każdej z tych faz, jest właśnie
ta książka.
go, ile czasu zajęło nam jej napisanie, ale jedno jest pewne: z wersji począt-
kowej, która liczyła niewiele mniej stron niż ta, nie zostało już chyba ani
jedno zdanie.
CZAS NA PODZIĘKOWANIA
Naszym celem nie jest ani próba systematyzacji poglądów na temat tego,
czym jest lub czym się zajmuje psychologia, ani też przedstawienie jakiejś
4 O METODACH BADAŃ PSYCHOLOGICZNYCH
OBSERWACJA
EKSPERYMENT
MAGIA LICZB
nego jako wątpliwości, rozterki czy sprzeczności, w każdym razie jako jakaś
forma dezorientacji poznawczej. Zdaje się, że podobnego zdania są również
* Festinger, L. (1957). A theory psychologowie społeczni, Leon Festinger* i Fritz Heider**. Ich zdaniem
of cognitive dissonance. New ciekawość jest raczej wynikiem praktyki dnia codziennego niż jakąś bardziej
York: Harper and Row.
** Heider, F. (1958). The psy-
podstawową potrzebą poznawania świata.
chology of interpersonal rela-
tions. New York: Wiley.
Pozostawiając wszelkie spory na boku, wystarczy stwierdzić, że ludzie naj-
częściej podejmują aktywność poznawczą wtedy, gdy spełnione są dwa wa-
runki: po pierwsze, uświadomią sobie, że czegoś nie wiedzą, tzn. że spotyka-
ją takie fakty, które nie pasują do ich wiedzy, i po drugie, mają odpowiednią
motywację, aby się dowiedzieć, o co tutaj chodzi.
Człowiek nie jest biernym odbiorcą informacji – ucząc się, przyswaja nie
tylko nowe pojęcia, lecz także nowy język. Początkowo niezbyt jasna termi-
nologia – z czasem wypełnia się zrozumiałą treścią. Opanowując język nie-
znanej Ci dyscypliny wiedzy, musisz nauczyć się nim sprawnie posługiwać,
tak by móc swobodnie wyrażać w nim poglądy i dyskutować z innymi.
Stawiane przez Ciebie problemy muszą być zrozumiałe nie tylko dla Ciebie,
ale również (a może nawet przede wszystkim) dla innych. Krótko mówiąc,
muszą one być zrozumiałe intersubiektywnie.
Język każdej dziedziny wiedzy jest osadzony w pewnym teoretycznym tle
i stanowi jego integralny element. Każde zagadnienie, które jest przedmio-
tem badań naukowych, powinno znajdować uzasadnienie w kontekście aktu-
alnej wiedzy i być wyrażone za pomocą odpowiednich terminów.
Uwaga ta odnosi się oczywiście do wszystkich dziedzin wiedzy, ale zwłasz-
cza do psychologii. Wynika to stąd, że w całkiem sporym zakresie wszyscy
czujemy się psychologami: czyż wiele naszych kłótni nie bierze się właśnie
z przekonania, że mamy lepszą teorię psychologiczną na temat wychowania
dzieci, fatalnych cech osobowości naszych przełożonych czy irytujących
przyzwyczajeń rodziców?
* Pylyshyn, Z. W. (1984). Com- Zenon Pylyshyn*, jeden z najwybitniejszych współczesnych kognitywistów,
putation and cognition: Toward jest nawet przekonany, że tzw. psychologia naukowa to nieco bardziej roz-
a foundation of cognitive
science. Cambridge, Mass.: MIT winięta psychologia potoczna (folk psychology), ze swoim dość swobodnym
Press. i zdecydowanie nieprecyzyjnym językiem. Z kolei dla wielu osób niewpra-
wionych w posługiwaniu się naukowym językiem psychologii może się on
wydać udziwniony i sztuczny. Niestety, jest również dosyć hermetyczny.
W rezultacie wiele czasopism naukowych i książek wypełniają teksty adre-
sowane do bardzo niewielkich grup specjalistów, którzy mniej więcej rozu-
mieją, o co w nich chodzi.
Jest wiele różnych klasyfikacji pytań badawczych, ale niemal wszystkie py-
tania badawcze można sprowadzić do dwóch rodzajów: pytań rozstrzyg-
**** Por. Brzeziński, J. (1996). nięcia i dopełnienia****.
Metodologia badań psycholo-
gicznych. Warszawa: PWN. • Pytania rozstrzygnięcia najczęściej mają postać zdań rozpoczynających
się od partykuły „czy”, np.: „Czy wzrośnie wydajność pracownika, gdy
dostanie 5% podwyżki?”. Odpowiedzią na takie pytanie może być
stwierdzenie: „tak” lub „nie”.
16 O METODACH BADAŃ PSYCHOLOGICZNYCH
Każde pytanie badawcze musi być wyrażone w języku danej dziedziny wie-
dzy, a użyte w nim terminy – precyzyjne i jednoznaczne. Musi także istnieć
realna szansa uzyskania na nie odpowiedzi.
• Pytania badawcze powinny więc być przede wszystkim jasne, to znaczy
zrozumiałe przynajmniej dla specjalistów z danej dziedziny, czyli zawie-
rające tylko takie terminy, co do których znaczenia nikt z nich nie ma
wątpliwości. Na przykład pytanie: „Jaki jest zakres pamięci roboczej?”
zawiera dwa takie terminy.
Słowo „zakres” oznacza ilość informacji w jakiś sposób zmierzoną,
a wyrażenie „pamięć robocza” – zdolność ludzkiego umysłu do prze-
chowywania i przetwarzania informacji w danej chwili.
Pytanie zaś: „Ile mieści się w pamięci?” na pewno nie jest sformułowane
w sposób jasny, bo ani nie wiadomo, o jaki rodzaj pamięci chodzi, ani
też co miałoby się tam mieścić.
• Kolejnym warunkiem, jaki powinno spełniać poprawne pytanie badaw-
cze jest rozstrzygalność. Chodzi o to, że pytanie naukowe (i nie tylko
naukowe) ma sens wtedy, gdy za pomocą dostępnych środków można
próbować poszukiwać na nie odpowiedzi.
Z jednej strony nietrudno jest wygenerować wiele interesujących pytań,
na które zupełnie nie wiadomo, jak odpowiedzieć, ponieważ nie ma me-
tod, które pozwoliłyby znaleźć odpowiedź. Z drugiej jednak strony war-
to pamiętać, że sytuacja w nauce jest tak dalece dynamiczna, iż jeszcze
kilkanaście lat temu „pytania niemożliwe” – obecnie stają się jak najbar-
dziej sensowne.
Który z poważnych uczonych sprzed 100 lat uznałby za sensowne pyta-
nie o możliwość istnienia życia na Marsie? Teraz nie tylko stawia się ta-
kie pytania, ale co więcej – z uwagą analizuje się dane przesyłane przez
sondy kosmiczne Mars Odyssey czy Mars Global Surveyor, umieszczo-
ne na orbicie i na powierzchni „czerwonej planety”. Tak więc, skoro ist-
nieją metody badania Marsa, to pytania o życie na tej planecie nabierają
sensu.
POSTĘPOWANIE BADAWCZE W PSYCHOLOGII 17
* Ajdukiewicz, K. (1985). Język Pisząc o pytaniach, chcielibyśmy jeszcze wspomnieć, że każde pytanie ma
i poznanie. T. I. Wybór pism pewne ukryte założenia. Kazimierz Ajdukiewicz* podzielił je na założenia
z lat 1920-1939. Warszawa:
PWN. pozytywne i założenia negatywne. Założenie pozytywne to stwierdzenie, że
przynajmniej jedna z odpowiedzi, jakich teoretycznie można udzielić na da-
ne pytanie, jest prawdziwa. Z kolei założenie negatywne to stwierdzenie, że
przynajmniej jedna z możliwych odpowiedzi prawdziwa nie jest. Pytania,
które nie spełniają obu tych założeń, to pytania niewłaściwie postawione.
Oczywiście każde pytanie typu rozstrzygnięcia jest pytaniem właściwie po-
stawionym, bo ma tylko dwie odpowiedzi – „tak” lub „nie” – i jeżeli jedna
z nich jest prawdziwa, to druga musi być fałszywa.
Inaczej jest już jednak z pytaniami typu dopełnienia. Na przykład pytanie:
„Jaki rozkład wzmocnień jest najbardziej efektywny w warunkowaniu zło-
tych rybek?” zakłada, że spośród wszystkich możliwych odpowiedzi (czyli
wszystkich możliwych rozkładów wzmocnień) przynajmniej jedna jest
prawdziwa (założenie pozytywne), a jedna fałszywa (założenie negatywne).
W rzeczywistości jednak, jak twierdzą niektórzy badacze, żadna z odpowie-
dzi nie jest prawdziwa, a więc pytanie jest niewłaściwie postawione, bo nie
jest spełnione jego pozytywne założenie. Wykazali to m.in. Gillian Lowes
** Lowes, G., Bitterman, M. E. i Martin Bitterman**. W swoim eksperymencie nauczyli oni złote rybki ude-
(1967). Reward and learning in rzać w kartonowe kółko zawieszone w wodzie. Po każdym takim uderzeniu
goldfish. Science, 157, 455-457.
rybki dostawały stosowną porcję robaczków tubifex. Bez względu na wiel-
kość nagrody, rybki z jednakową częstotliwością i siłą uderzały w kartonowe
kółko. Rozkład wzmocnień nie miał więc żadnego znaczenia dla warunko-
wania rybek, a pytanie o jego optymalną charakterystykę oparto na błędnym
założeniu, że w ogóle taki rozkład istnieje. To samo jednak pytanie jest już
właściwie postawione w odniesieniu np. do szczurów lub gołębi.
Bardzo często autor teorii naukowej jest tak do niej przywiązany, że wymy-
śla tylko takie eksperymenty, które potwierdzają jego przewidywania. Do-
brze jednak, że nauka jest publiczna i dość w niej miejsca na uzasadnioną
złośliwość. Kiedy tylko ktoś opracuje teorię, zaraz inni zaczynają poszuki-
wać takich wynikających z niej konsekwencji, które wcale nie mają potwier-
dzenia w faktach.
Pudełkowa teoria pamięci nie jest wyjątkiem. Jeżeli uniemożliwienie powta-
rzania informacji przeszkadza w ich zapamiętywaniu, to informacje, z któ-
rymi mamy kontakt tylko raz, powinny być najszybciej zapominane. Łatwo
jednak się przekonać, że tak być nie musi. Napisz na kartce kilka słów i
przeczytaj je komuś tylko raz. Przypuśćmy, że na tej liście znajdzie się rów-
nież imię tej osoby. Jeśli nawet za kilka dni nie będzie ona już pamiętała
żadnego innego słowa, to najprawdopodobniej wymieni przynajmniej jedno
– swoje imię. To skądinąd proste zjawisko trudno wyjaśnić w ramach teorii
Atkinsona i Shiffrina, chyba że się udowodni, iż osoba badana przez kilka
dni cały czas powtarzała w pamięci swoje imię. Jest to jednak raczej mało
prawdopodobne. Należy więc uznać, że – wbrew przewidywaniom wynika-
jącym z teorii – są takie informacje, które zapamiętujemy od razu, i nie mu-
simy stale zaprzątać nimi uwagi, żeby je sobie przypomnieć.
W obliczu empirii zadrży każda teoria (oczywiście z wyjątkiem teorii Hegla,
według której jeśli fakty nie potwierdzają teorii, to tym gorzej dla faktów).
Jeżeli wynik badania jest sprzeczny z teorią, to należy albo odrzucić ją w ca-
łości, albo też ją tak zmodyfikować, by nowo odkryte zjawisko również z
niej wynikało. Postępowanie, którego celem jest próba obalenia istniejącej
** Popper, K. (1997). Logika
odkrycia naukowego. Warszawa: teorii, nazywa się falsyfikacją. Autorem tego pojęcia jest Karl Popper**,
PWN. który twierdził nawet, że nie ma większego sensu zajmowanie się potwier-
POSTĘPOWANIE BADAWCZE W PSYCHOLOGII 21
dzaniem teorii naukowych. Badacze powinni raczej starać się je obalać, czyli
falsyfikować.
Może to zabrzmi nieco dziwnie, ale wiele wskazuje na to, że możemy zadać
pytanie tylko wtedy, gdy w naszej głowie mamy już przynajmniej jedną od-
powiedź. Właśnie to, że jest jedna albo że jest jakaś niewyraźna lub że jest
ich zbyt wiele, skłania nas do postawienia pytania. Tę niejasną, dopiero
przeczuwaną odpowiedź można nazwać zalążkiem hipotezy badawczej.
Wyprzedzając nieco, ustalmy: hipoteza badawcza to zdanie twierdzące, do-
tyczące przewidywanego wyniku eksperymentu, skonstruowanego w celu
uzyskania odpowiedzi na pytanie badawcze. Rozpatrzymy kilka przykładów.
Większą część swojej naukowej aktywności Stephen Kosslyn poświęcił na
badania wyobraźni. Zarówno problem, jak i nazwisko badacza wykorzystali-
22 O METODACH BADAŃ PSYCHOLOGICZNYCH
śmy już do zilustrowania tego, jak funkcjonuje baza danych PsycInfo. Teraz
odwołamy się do badań Kosslyna, żeby pokazać, na czym polega sformuło-
wanie interesującej hipotezy badawczej. Analizując różne przejawy funkcjo-
nowania wyobraźni, doszedł on do wniosku, że z psychologicznego punktu
widzenia, niewielka jest różnica między wyobrażeniami wzrokowymi a per-
cepcją wzrokową. Innymi słowy, wyobrażając sobie coś, zachowujemy się
* Kosslyn, S. (1973). Scanning podobnie, jak byśmy to coś oglądali. Stephen Kosslyn* postanowił ekspe-
visual images: Some structural rymentalnie sprawdzić tę intuicję. Wystarczyło przyjąć tylko dwa, dość
implications. Perception and
Psychophysics, 14, 90-94. oczywiste założenia: (1) każdy spostrzegany przedmiot ma pewną wielkość
i kilka charakterystycznych punktów, np. róża ma od kilku do kilkudziesię-
ciu centymetrów wysokości oraz składa się z korzenia, liści i kwiatu;
(2) przesuwając wzrok od kwiatu w dół, szybciej zauważymy liście niż ko-
rzeń. Jeżeli zatem wyobraźnia działa podobnie jak spostrzeganie, to czas
udzielenia odpowiedzi na pytania dotyczące szczegółów „bliższych” lub
„dalszych” części jakiegoś przedmiotu powinien być wprost proporcjonalny
do długości drogi, jaką należy „przebyć w wyobraźni” z miejsca, które aktu-
alnie znajduje się w centrum uwagi. I to jest właśnie hipoteza.
Z pewnością dobrze pamiętasz eksperymenty dotyczące warunkowania kla-
sycznego, które Iwan Pawłow przeprowadzał na psach. Jak według ciebie
mogła brzmieć najważniejsza z testowanych przez niego hipotez? Być może,
tak: jeżeli specyficzny bodziec (np. pokarm), który naturalnie wywołuje re-
akcję fizjologiczną (ślinienie), będzie wielokrotnie podawany zwierzęciu w
towarzystwie innego bodźca (np. dzwonka), który nie wywołuje reakcji śli-
nienia, to po pewnym czasie bezwarunkowa reakcja ślinienia pojawi się już
na sam dźwięk dzwonka. Nawiasem mówiąc – czy nie tak właśnie brzmi
ogólne prawo warunkowania klasycznego?
Między prawem naukowym a hipotezą badawczą zachodzi bardzo ścisły
związek: prawo naukowe to potwierdzona i wyrażona w nieco ogólniejszej
postaci hipoteza badawcza.
HIPOTEZY NIE POWINNY BYĆ ANI ZBYT OGÓLNE, ANI ZBYT SZCZEGÓŁOWE
* Najder, K. (1997). Schematy drugiej strony psycholog-kognitywista, Krzysztof Najder*, również stawia
poznawcze. W: M. Materska, poważny zarzut, twierdząc, iż „[...] koncepcja schematowa ma wprawdzie
T. Tyszka (red.), Psychologia
i poznanie (s. 38-60). Warszawa: dużą moc wyjaśniającą, ale jednocześnie (z punktu widzenia psychologa) –
PWN. niewielką moc predyktywną” (s. 57). Moc predyktywna koncepcji (teorii
lub modelu) to taka jej własność, dzięki której możliwe jest przewidywanie
na podstawie tej koncepcji przyszłych wydarzeń.
Zdarza się więc, że hipoteza jest zbyt ogólna – ale czy może być zbyt szcze-
gółowa? Wszystko zależy od tego, jak będziemy rozumieć słowo „szczegó-
łowa”. Jeśli oznacza: „dokładna”, „nie budząca wątpliwości co do znaczeń
używanych w niej słów” czy też „jednoznacznie odnosząca się do weryfiku-
jącej ją procedury eksperymentalnej”, to wobec takiej hipotezy wyrażenie
„zbyt szczegółowa” jest nie na miejscu. Oczywiście nie należy przesadzać z
nadmierną dokładnością wyrażania się, ponieważ hipoteza powinna zawie-
rać wyłącznie te słowa, które są ważne z punktu widzenia pytania ba-
dawczego. Wrócimy do tego później. Tak rozumiane szczegółowe hipotezy
mają tę zaletę, że stosunkowo łatwo je weryfikować, to znaczy potwierdzić,
że jest prawdziwa, albo odrzucić.
Hipoteza może być jednak „zbyt szczegółowa”, ale w nieco innym znacze-
niu. Chodzi o meritum. Można sobie wyobrazić projekt badawczy, którego
celem byłoby zweryfikowanie hipotez dotyczących szybkości czytania
wszystkich kombinacji dwuliterowych w kilkunastu krojach i wielkościach
pisma. Moglibyśmy oczekiwać, że badacze takiego problemu musieliby po-
stawić setki hipotez w rodzaju: „czas czytania sekwencji liter «os» zapisa-
nych pismem Times Roman o wielkości 12 punktów typograficznych jest
krótszy niż czas czytania sekwencji «os» zapisanych pismem Times Roman
o wielkości 11 punktów” lub „czas czytania sekwencji liter «ot» zapisa-
nych...” itd. Przykład jest oczywiście nieco przerysowany, ale przeglądając
literaturę naukową, trudno się czasem oprzeć wrażeniu, że jest w niej cał-
kiem sporo opisów tego rodzaju eksperymentów.
W praktyce o właściwym poziomie ogólności hipotez badawczych decyduje
wiedza i doświadczenie. Im więcej wiadomo na temat badań prowadzonych
w danej dziedzinie, tym łatwiej ustalić, jaki jest najbardziej typowy poziom
ogólności stawianych w niej hipotez. Przykładem mogą być eksperymenty
dotyczące zapamiętywania bezsensownych zbitek liter, przeprowadzone
** Baddeley, A. (1998). Pamięć. przez Alana Baddeleya**. Sprawdzał on, jakiego rodzaju kombinacje kilku
Poradnik użytkownika. Warsza- liter są lepiej zapamiętywane przez osoby badane. Mogłoby się wydawać, że
wa: Prószyński i s-ka.
sprawdzenie, czy ludzie lepiej pamiętają sekwencję NGORHQ, czy też se-
kwencję REASYS, to zdecydowanie zbyt szczegółowe zagadnienie. Pozory
jednak mylą w tym przypadku. Porównanie tych dwóch sekwencji miało
ważny cel teoretyczny. Otóż pierwsza z nich to zbitka przypadkowych liter,
druga zaś to zbitka dwóch trójek liter (REA plus SYS), które w tej formie po-
jawiają się w angielskich słowach. Ludzie lepiej pamiętają drugą zbitkę, bo
24 O METODACH BADAŃ PSYCHOLOGICZNYCH
jest ona zbudowana z dwóch elementów, które mogą rozpoznać, a nie z sze-
ściu. Warto też wspomnieć, że powód przeprowadzenia takiego właśnie eks-
perymentu był całkiem praktyczny. Baddeley zaprojektował go na potrzeby
poczty w Wielkiej Brytanii, gdy pracowano nad nowym systemem kodów
pocztowych i ktoś chciał zaprojektować takie kody, które byłyby łatwe do
zapamiętania. Niestety, współczesna technologia popsuła ten szlachetny za-
miar i z powodu ograniczeń technicznych wprowadzono inny system kodów
– jak pisze Baddeley: „znacznie trudniejszy do zapamiętania!”.
wany jest materiał, który jest głębiej przetworzony, a o tym, że materiał jest
głębiej przetworzony, wiemy dlatego, że został... lepiej zapamiętany.
CECHA A ZMIENNA
Cechy mogą być stałe dla pewnej grupy obiektów (np. dla czytelników tego
przewodnika, którzy – mamy nadzieję – wszyscy są „zaciekawieni”) lub dla
tego samego obiektu (czyli dla Ciebie, drogi czytelniku, czytający w tej
chwili – mamy nadzieję, że jesteś „bardzo zaciekawiony”). Cechy mogą też
odróżniać od siebie poszczególne grupy i jednostki – np. studenci różnych
kierunków różnią się co do tego, jaką wartość przyjmuje dla nich cecha „kie-
POSTĘPOWANIE BADAWCZE W PSYCHOLOGII 27
Ze zmienną mamy do czynienia wtedy, gdy interesująca nas cecha nie przy-
sługuje w taki sam sposób wszystkim branym przez nas pod uwagę obiek-
tom. W zależności od tego, czy wartość zmiennej traktujemy jako nasilenie
danej cechy, czy nie, wyróżnimy zmienne ilościowe i jakościowe. Łatwo
zgadnąć, że zmienne ilościowe przyjmują wartości liczbowe (np. liczba ka-
napek zjadanych na śniadanie lub przeczytanych dzisiaj stron tego przewod-
nika). Zmienne jakościowe przyjmują wartości nominalne, tzn. są charak-
teryzowane jedynie za pomocą nazw (np. gatunek filmu: melodramat, we-
stern, horror czy komedia).
Wcale nierzadko bywa, że liczby stosuje się na oznaczenie różnych wartości
zmiennych jakościowych. Wtedy są one używane jako nazwy. Naszym ulu-
bionym przykładem są numery środków komunikacji miejskiej lub nazwy
programów telewizyjnych. Takie określenia, jak „Jedynka” czy „Dwójka” –
niezależnie od tego, czy dotyczą tramwajów, czy programów telewizyjnych
28 O METODACH BADAŃ PSYCHOLOGICZNYCH
CO TO JEST POMIAR?
przecież termin „miewasz” oznacza: „co drugi dzień”, czy raczej: „raz na
dwadzieścia lat”?
RANGI WIĄZANE
Czasem się zdarza, że w grupie pomiarów jest kilka takich samych wyni-
ków. Na przykład w Twojej grupie ćwiczeniowej może być kilka osób z tym
samym ilorazem inteligencji. Załóżmy na początek, że tylko dwie z nich ma-
ją iloraz równy 128 punktów, a wszystkie pozostałe mają ilorazy wyższe lub
niższe. Spójrz na tabelkę 1.1.
Najniższy iloraz ma Anka i dlatego jej przypisujemy rangę „1”, następny jest
Tadek (ranga „2”), ale Ewa i Krzysztof mają taki sam iloraz i ponieważ nie
wiadomo, któremu przypisać rangę „3”, a któremu „4”, wobec tego, krakow-
skim targiem, obydwojgu przypisujemy rangę „3,5” (to po prostu średnia
z rang „3” i „4”). Najwyższy iloraz w grupie ma Marta i jej z kolei przypisu-
jemy rangę „5” – nie „4”, bo ta została już wykorzystana dla Ewy i Krzyśka.
34 O METODACH BADAŃ PSYCHOLOGICZNYCH
3+4
Krzysiek 128 = 3,5
2
Tadek 124 2
3+4
Ewa 128 = 3,5
2
Marta 131 5
nich pasują. Na takich skalach bada się postawy wobec polityków, a także
przekonanie, że jakiś wniosek jest poprawny logicznie.
Ponieważ wartość „zero” na skali przedziałowej jest umowna, może więc
ona się znaleźć w dowolnym miejscu skali ocen wykorzystywanej przez
osoby badane. Przykład przedstawiony wyżej zakładał oceny na skali od
1 do 7, czyli na skali bez wartości „zero”. Można jednak skalę siedmiostop-
niową przedstawić w postaci od „-3” (co może oznaczać: „zdecydowanie mi
się nie podoba”) do „+ 3” („bardzo mi się podoba”) i z „0” w środku („nie
mam zdania”). Oba te typy skali wyrażają trochę coś innego, ale z matema-
tycznego punktu widzenia jedna jest przesunięta w stosunku do drugiej
o 3 punkty. O ile jednak dla matematyka dodawanie wyników na takich róż-
nych skalach nie byłoby problemem, o tyle psycholog musi być w takiej sy-
tuacji dosyć ostrożny. Spróbuj się zastanowić nad tym, co myślałaby osoba
badana, zaznaczając swoją odpowiedź na dwóch skalach poniżej:
„Czy lubisz (i jak bardzo) coca-colę?”
lub
-3 -2 -1 0 1 2 3
W przypadku skali rosnącej bez zera osoby badane raczej traktują swoją wy-
powiedź jako ocenę natężenia pewnej cechy, czyli myślą o tym, że colę
można lubić w pewnym stopniu, zaczynając od 1 (brak lubienia) aż do 7
(największe nasilenie lubienia).
W przypadku skali z wartościami ujemnymi osoby badane raczej będą
skłonne traktować swoją odpowiedź najpierw jako ocenę tego, czy lubią co-
lę, czy nie, a dopiero w drugiej kolejności będą oceniać siłę swoich odczuć
pozytywnych oraz negatywnych.
Stosunkowo często poszczególne odpowiedzi są dokładniej opisane, zawsze
jednak skala jednokierunkowa sugeruje osobie badanej, że ma się wypowie-
dzieć o natężeniu jednej cechy, a skala dwukierunkowa – że oddaje głos „za”
albo „przeciw” i ocenia siłę przekonania co do słuszności swojego wyboru.
Należy jednak pamiętać, że nie można dodawać do siebie ani liczyć średnich
arytmetycznych z pomieszanych skal jedno- i dwubiegunowych.
Podsumujmy – pomiar na skali przedziałowej pozwala na wykonywanie
pewnych operacji matematycznych, które nie są dozwolone dla pomiarów na
skali nominalnej i porządkowej. Operacje, które wolno przeprowadzać na
wynikach zgromadzonych na skali przedziałowej, to dodawanie i odejmo-
38 O METODACH BADAŃ PSYCHOLOGICZNYCH
Jeśli np. interesuje Cię tylko podział osób badanych na te, które „zdały”
i „nie zdały”, to do pomiaru wystarczy skala nominalna. Jeśli zaczniesz te
osoby różnicować ze względu na ocenę: „bardzo dobrze”, „dobrze”, „dosta-
tecznie” itd., to masz do czynienia ze skalą porządkową. Jeśli zaś powiesz,
że ktoś zdał na 5; 4,5; 4; 3,5; 3 itd., to posługujesz się skalą przedziałową.
W pewnych sytuacjach badawczych bardziej uzasadnione jest wyrażenie
miar jakiejś cechy w postaci nominalnej, a w innych jako wartości porząd-
kowych (trochę więcej na ten temat będzie przy okazji omawiania tzw.
zmiennych zależnych i niezależnych). Nie zawsze udaje się skonstruować
wystarczająco precyzyjne narzędzie pomiarowe, aby gromadzić dane inter-
wałowe czy ilorazowe. Zawsze jest jednak możliwe sprowadzenie otrzyma-
nych wyników do skali prostszej, za pomocą zabiegu rangowania lub no-
minalizacji.
Zmienna i sposób jej pomiaru za pomocą takiej czy innej skali są nie tylko
określone przez naturę mierzonej cechy, ale również – a może nawet przede
wszystkim – przez potrzeby i możliwości badacza. W psychologii klasyfika-
cja za pomocą nominałów (nazw) najczęściej jest stosowana jako podstawa
do rozróżnienia grup osób badanych (np. podział na płeć czy preferencje po-
lityczne). Z kolei dane liczbowe zgromadzone w wyniku pomiaru za pomocą
skal porządkowych, przedziałowych lub stosunkowych najczęściej są trak-
towane jako wskaźniki szeroko rozumianych zachowań osób badanych.
Zmienne niezależne:
istotne:
nieistotne główne
(zakłócające) Zmienne zależne
uboczne
kanonów Milla. Szczególnie ważny jest kanon jedynej różnicy: jeżeli dane
zjawisko ma miejsce tylko w jednej z dwóch sytuacji, a sytuacje te różnią się
tylko jedną z cech, to zjawisko to jest skutkiem lub przyczyną wystąpienia
tej cechy.
Przełóżmy to na język eksperymentu. Jeśli mamy do czynienia z dwiema
niemal identycznymi sytuacjami (dwie grupy studentów uczą szczury drogi
w labiryncie) różniącymi się tylko pod względem jednej cechy (w jednej
grupie studenci sądzą, że szczury są bystre, a w drugiej, że nie za bardzo)
i obserwujemy różnice w zachowaniu się osób znajdujących się w tych
dwóch sytuacjach (studenci w jednej grupie dostrzegają więcej pozytywnych
cech u swoich podopiecznych niż w drugiej), to znaczy, że różnice w reak-
cjach osób badanych można wyjaśnić przez odwołanie się do tej jednej ce-
John Stuart Mill chy. Instrukcja w badaniu Rosenthala jest więc przyczyną wystąpienia róż-
(1806-1873) nic w zachowaniu się osób badanych.
CZYNNIKI ZEWNĘTRZNE
ZMIENNE ZAKŁÓCAJĄCE
ZMIENNA ZALEŻNA
Spory takie nazwa się merytorycznymi, gdyż dotyczą meritum, czyli tre-
ści istotnej dla sprawy.
• Drugi rodzaj sporów toczy się wokół sposobów operacjonalizacji
zmiennych (np.: „Czy stopień wygłodzenia szczura jest adekwatną (wła-
ściwą) miarą motywacji?” lub „Jak długie powinny być przerwy w gło-
dzeniu szczurów, aby można było uznać, że kierują się one różną moty-
wacją?”). Spory takie należą do kategorii sporów metodologicznych,
ponieważ odnoszą się do metody ujęcia treści.
* Zob. Brzeziński, J., Hornow- Nie zawsze można przeprowadzić operacjonalizację zmiennych według za-
ska, E. (red.) (1998) Skala inte- sady „jeden termin teoretyczny – jeden empiryczny”. Przykładem takiej sy-
ligencji Wechslera WAIS-R: pol-
ska adaptacja, standaryzacja, tuacji jest operacjonalizacja inteligencji. David Wechsler* w jednym z naj-
normalizacja i wykorzystanie częściej używanych testów do badania inteligencji podaje aż 15 różnych
w diagnostyce psychologicznej.
Warszawa: PWN.
wskaźników. Z kolei Robert Sternberg** twierdzi, że należy mówić raczej
o trzech ogólnych grupach komponentów inteligencji i dopiero w ich obrębie
** Sternberg, R. (2001). Psycho-
logia poznawcza. Warszawa: wyróżniać poszczególne subkomponenty. Jednym z proponowanych przez
Wydawnictwa Szkolne i Peda- niego wskaźników inteligencji jest – upraszczając nieco – „zdrowy rozsądek
gogiczne. na co dzień”. David Wechsler w ogóle nie bierze pod uwagę takiej zmiennej.
Może się więc okazać, że w jednym teście ktoś okazuje się bardzo inteli-
gentną osobą, a w drugim – całkiem przeciętną. Wynik konkretnego ekspe-
rymentu w znacznym stopniu zależy więc od przyjętego sposobu operacjo-
nalizacji zmiennej.
dujesz, jaki układ wybrać, możesz zawsze poprosić inne osoby o krytyczną
ocenę Twojego projektu.
jaki jest stan wyjściowy danej cechy (zmiennej zależnej) przed wprowadze-
niem właściwej stymulacji, której wpływ na reakcje osób badanych staramy
* Brzeziński, J. (1996). Metodo- się ustalić. Jerzy Brzeziński* uważa, że pomijanie fazy pretestu zmiennej za-
logia badań psychologicznych. leżnej, zwłaszcza w porównaniach międzygrupowych, jest poważnym zanie-
Warszawa: PWN.
dbaniem ze strony eksperymentatora. Stwierdzenie na początku eksperymen-
tu, że nie ma różnic w miarach zmiennej zależnej pomiędzy porównywany-
mi grupami, działa tylko na korzyść tezy, iż różnice w reakcjach osób bada-
nych podczas właściwego eksperymentu są wynikiem działania jednego
z poziomów zmiennej niezależnej głównej, a nie np. tendencyjnego doboru
badanych do obu grup.
BADANIE KORELACYJNE
1,50
1,40
1,30 10 11 12 13 14 15 16 17 18 19 20 21 22
74 O METODACH BADAŃ PSYCHOLOGICZNYCH
Poziom motywacji
II.
PRAWDOPODOBIEŃSTWO
I ZMIENNA LOSOWA
PODSTAWOWE POJĘCIA
3. Z RACHUNKU PRAWDOPODOBIEŃSTWA
* Tversky, A., Kahneman, D. nich w prestiżowym amerykańskim czasopiśmie Science*. Tekst ten był
(1974). Judgment under uncer- w ciągu następnych 5 lat cytowany 227 razy w 127 czasopismach i do tej po-
tainty: heuristics and biases.
Science, 185, 1124-1131. ry jest uważany za jeden z najbardziej znaczących artykułów w psychologii.
Główną jego myśl streszcza następujący cytat:
Przewidując i dokonując ocen w warunkach niepewności, ludzie na ogół nie postę-
pują zgodnie z rachunkiem prawdopodobieństwa lub teorią statystyczną. Raczej po-
sługują się ograniczoną liczbą heurystyk, które czasami prowadzą do racjonalnych
ocen, a czasami do systematycznych i poważnych błędów (s. 237).
No cóż, nie jest to zbyt pocieszający wniosek dla podtrzymania poglądu, że
człowiek jest istotą racjonalną – oczywiście jeśli ma to dla Ciebie jakiekol-
wiek znaczenie.
* Thomas Bayes był brytyjskim w mieście jest 85% taksówek zielonych i 15% niebieskich, a zgodnie z prze-
matematykiem i duchownym prowadzonym eksperymentem świadek poprawnie rozpoznaje kolor taksów-
prezbiteriańskim. Jest znany ze
sformułowania teowemu Ba- ki w 80% przypadków. Poprawna odpowiedź wymaga zastosowania reguły
yesa. Jego najważniejsze dzieło: Bayesa*, która wygląda tak:
Essay towards solving o pro-
blem in the doctrine of chances, p (H ) p (D / H )
zostało wydane dopiero po jego p (H / D) =
śmierci w 1763 r. p (H ) p (D / H ) + p (−H ) p (D / − H )
H hipoteza (wypadek spowodowała taksówka niebieska),
D dane (świadek twierdzi, że taksówka była niebieska),
p(H/D) prawdopodobieństwo tego, że hipoteza jest prawdziwa, jeżeli dostarczone dane są prawdziwe
(a więc jeżeli świadek się nie pomylił), czyli właśnie poszukiwane prawdopodobieństwo te-
go, że wypadek spowodowała taksówka niebieska,
p(H) prawdopodobieństwo wyjściowe albo inaczej bazowe, czyli prawdopodobieństwo spowodo-
wania wypadku przez taksówkę niebieską, bez żadnych informacji ze strony świadka (wyno-
si ono 0,15, ponieważ taksówek niebieskich jest tylko 15%),
p(–H) drugie prawdopodobieństwo bazowe, czyli prawdopodobieństwo tego, że wypadku nie spo-
wodowała taksówka niebieska (wynosi ono 0,85, bo jeśli wypadku nie spowodowała tak-
sówka niebieska, to musiała spowodować go taksówka zielona, a tych jest 85%).
p(D/H) prawdopodobieństwo poprawnego rozpoznania taksówki niebieskiej jako niebieskiej, czyli
0,8, ponieważ świadek poprawnie rozpoznaje kolor taksówki w 80% przypadków,
p(D/–H) prawdopodobieństwo błędnego rozpoznania taksówki zielonej jako niebieskiej, które wynosi
0,2, ponieważ świadek błędnie rozpoznaje kolor taksówki w 20% przypadków.
Jeżeli pogubiłeś się we wszystkich tych wzorach – nie przejmuj się. Więk-
szość uczestników eksperymentów też nie zadaje sobie trudu, aby to obli-
czać, i jako odpowiedź podaje wskaźnik trafności świadka, czyli 80%. Jest
to jednak odpowiedź błędna, bo tak naprawdę prawdopodobieństwo, że wy-
padek spowodowała taksówka niebieska, jest mniejsze niż to, że spowodo-
wała go taksówka zielona, ponieważ:
0,15× 0,8 0,12 0,12
p (H / D) = = = = 0,414
0,15× 0,8 + 0,85× 0,2 0,12 + 0,17 0,29
Błędna ocena prawdopodobieństwa w tym wypadku jest przykładem tzw.
Thomas Bayes
(1702-1761) błędu zaniedbywania prawdopodobieństw bazowych. Po prostu bez względu
(lub prawie bez względu) na to, co mówi świadek, taksówek zielonych jest
o wiele więcej niż niebieskich i bardziej jest prawdopodobne, iż wypadek
spowodowała taksówka zielona niż niebieska.
o orzeł,
r reszka,
cyfry {1, ..., 6} liczba oczek na kostce.
BŁĄD KONIUNKCJI
* Kahneman, D., Tversky, A. Kilkakrotnie wspominani już Daniel Kahneman i Amos Tversky* przedsta-
(1982). Variants of uncertainty. wili trzem grupom badanych (studentom nie znającym statystyki, uczęszcza-
Cognition, 11, 143-157.
jącym na kurs podstawowy, oraz słuchaczom kursu zaawansowanego) na-
stępujące zadanie:
W wyniku badania psychologicznego otrzymano następującą charakterystykę Billa:
Bill ma 34 lata. Jest inteligentny, ale bez wyobraźni, kompulsywny i bez iskry życio-
wej. W szkole był silny w matematyce, lecz słaby w naukach humanistycznych i spo-
łecznych. Uszereguj poniższe zdania według Twojego przekonania co do ich praw-
dopodobieństwa:
(a) Bill jest księgowym.
(b) Hobby Billa to granie muzyki jazzowej.
(c) Bill jest księgowym, a jego hobby to muzyka jazzowa.
Studenci we wszystkich trzech grupach uznali, że odpowiedź (c) jest bar-
dziej prawdopodobna niż odpowiedź (a). Biorąc za podstawę zasady rachun-
ku prawdopodobieństwa, niezależnie od tego, co wiemy o Billu, możemy
być bardziej pewni, że jest on, powiedzmy, jazzmanem niż równocześnie
jazzmanem i księgowym. Wynik eksperymentu pokazuje, że w potocznym
myśleniu „psychiczny rachunek prawdopodobieństwa” i jego zasady wyło-
żone przez Kołmogorowa mogą się znacznie rozmijać. Nie chcąc być posą-
dzeni o dyskryminację płci (sic!), Kahneman i Tversky przygotowali rów-
nież kobiecą wersję zadania eksperymentalnego. Jego bohaterką była Linda,
przedstawiona jako aktywna feministka, które pracuje w banku. Bez wzglę-
du jednak na wersję zadania wyniki tego eksperymentu były takie same.
Eksperyment Kahnemana i Tversky’ego jest jednym z najczęściej cytowa-
nych przez psychologów w dyskusji na temat ludzkiej racjonalności. Jego
wynik został nazwany „błędem koniunkcji”, ponieważ badani postępowali
niezgodnie z zasadą, że prawdopodobieństwo koniunkcji dwóch zdarzeń jest
co najwyżej równe prawdopodobieństwu jednego z nich, co symbolicznie
można wyrazić jako:
p(P i Q) ≤ p(P)
P zdarzenie P,
Q zdarzenie Q, inne niż zdarzenie P,
p(P i Q) prawdopodobieństwo zajścia obu zdarzeń P i Q razem (prawdopodobieństwo koniunkcji),
p(P) prawdopodobieństwo zajścia zdarzenia P.
KŁOPOTY EKSPERYMENTATORA
POJĘCIE POPULACJI
W praktyce stosunkowo rzadko stosuje się próby proste. Inne próby noszą
nazwę prób złożonych i mamy z nimi do czynienie wtedy, gdy w doborze
obiektów nie został spełniony któryś z warunków próby prostej.
Typowym przykładem próby złożonej jest tzw. próba warstwowa. Jest to
rodzaj próby często wykorzystywany w badaniach opinii publicznej. W ta-
kiej próbie nie losuje się obiektów badanych bezpośrednio z całej populacji,
ale z pewnych jej podgrup, zwanych warstwami. Celem podziału populacji
na warstwy jest zagwarantowanie, że skład próby będzie jak najbardziej
zbliżony do składu populacji. Na przykład wykształcenie jest taką cechą,
która może mieć wpływ na opinie wyrażane przez ludzi. Jeżeli więc badacze
chcą, aby opinia badanej próby była reprezentatywna dla opinii całej popula-
cji, to powinni najpierw podzielić całą populację na grupy, czyli warstwy,
w zależności od wykształcenia. Jeżeli więc w danym społeczeństwie jest 9%
osób z wyższym wykształceniem, to także w badanej próbie powinno być
9% osób pochodzących z tej warstwy.
92 PRAWDOPODOBIEŃSTWO I ZMIENNA LOSOWA
liczbę oczek na swoich ściankach. Można więc liczbę oczek na ściance wi-
dzianej z góry po rzucie potraktować jako zmienną losową. Można też sytu-
ację nieco skomplikować, np. rzucając dwiema kostkami. Wówczas zmienną
losową może być np. suma oczek na obydwu „górnych” ściankach kostek.
Najmniejsza wartość takiej zmiennej równa się 2. Wartość tę można uzyskać
wtedy, gdy na obu kostkach wypadną jedynki.
Największa zaś wartość wynosi 12 – sumę taką otrzymamy, gdy na obu
kostkach wypadną szóstki. Zarówno w przypadku sumy równej 2, jak i sumy
równej 12, liczba sytuacji, w których mogą one wypaść na dwóch kostkach,
jest taka sama: dla sumy równej 2 na obu kostkach muszą być jedynki, a dla
sumy równej 12 na obu kostkach muszą być szóstki.
Liczba wszystkich możliwych kombinacji oczek na dwóch kostkach wynosi
36. Łatwo to policzyć. Załóżmy, że na kostce numer 1 zawsze wypada je-
dynka, a na kostce numer 2 może się pojawić dowolna liczba oczek, czyli
1 albo 2, albo 3, albo 4, albo 5, albo 6. Tak więc przy ciągle wypadającej je-
dynce na pierwszej kostce i dowolnej liczbie oczek na kostce drugiej możli-
wych jest sześć różnych „wypadnięć”:
(1,1); (1,2); (1,3); (1,4); (1,5); (1,6)
gdzie pierwsza cyfra oznacza liczbę oczek na pierwszej kostce, a druga – na
drugiej.
Jeżeli teraz przyjmiemy, że na kostce numer 1 zawsze ciągle wypada dwój-
ka, a na kostce numer 2 dowolna liczba oczek, to uzyskamy kolejnych 6 par
itd. W sumie oznacza to, że liczba wszystkich możliwych par wynosi 36
(6 × 6 = 36). Wszystkie te kombinacje oraz sumy oczek na obu kostkach
przedstawione są w tabeli 4.2.
Na pewno analizowanie wszystkich sum z tabeli 4.2 nie jest zajęciem szcze-
gólnie ciekawym. Zwróć jednak uwagę na to, że sumy równe 2 i 12 wpisali-
śmy tylko raz. Każdą z nich można otrzymać w jednym szczególnym przy-
98 PRAWDOPODOBIEŃSTWO I ZMIENNA LOSOWA
0,12
0,10
0,08
0,06
0,04
0,02
0,00
2 3 4 5 6 7 8 9 10 11 12
Suma oczek na dwóch kostkach
* W matematyce słowo „dys- Na koniec tej części jeszcze jedno ważne rozróżnienie. Z formalnego punktu
kretny” ma specyficzne znacze- widzenia wszystkie zmienne można podzielić na dwa rodzaje – zmienne nie-
nie i bynajmniej nie wskazuje na
osobę umiejącą dochować ta- ciągłe, zwane inaczej dyskretnymi*, i zmienne ciągłe. Podział ten dotyczy
jemnicy. Łacińskie słowo discre- tak naprawdę tego, ile wartości liczbowych może przyjąć dana zmienna.
tim znaczy „oddzielnie”, „osob-
no”, a to bardzo dobrze oddaje • W przypadku zmiennej dyskretnej (jeszcze inaczej: skokowej) liczba ta
ideę ciągu oddzielnych znaków
wziętych z pewnego zbioru jest ograniczona. Na przykład dla zmiennej „liczba oczek na kostce do
skończonego; tak więc, oprócz gry” możliwe są jedynie wartości ze zbioru: {1, 2, 3, 4, 5, 6}.
„pełnego umiaru”, „dyskretny”
to także „nieciągły” lub „prze- • Jeżeli zmienna ma charakter ciągły, to może przyjmować nieskończoną
rywany”.
liczbę wartości, nawet gdy są one ograniczone przez jakąś wartość mi-
102 PRAWDOPODOBIEŃSTWO I ZMIENNA LOSOWA
1,0
Rysunek 4.2. Dystrybuanta
zmiennej losowej dla pomia-
rów przewodnictwa skórnego 0,9
[STATISTICA]
0,8
p(7mA i mniej)
0,7
0,6
0,5
0,3
0,2
0,1
0,0
1 3 5 7 9 11
0,018 0,6
p(120 i mniej)
0,016
0,5
0,014
0,012 0,4
0,010
0,3
0,008
0,006 0,2
0,004
0,1
0,002
0,000 0,0
70 80 90 100 110 120 130 70 80 90 100 110 120 130
106 PRAWDOPODOBIEŃSTWO I ZMIENNA LOSOWA
DUŻO DANYCH
się, że nie powinno być ich więcej niż 20, a niektórzy twierdzą, że optymal-
na liczba to od 10 do 15.
W zasadzie są dwa sposoby konstruowania szeregu rozdzielczego.
• Pierwszy, który może być realizowany tradycyjną metodą za pomocą
kartki i ołówka, polega na znalezieniu takiej wielkości przedziału klaso-
wego, która jest liczbą naturalną, czyli całkowitą dodatnią (dalej bę-
dziemy ją nazywali interwałem).
• Drugi sposób, nazwijmy go „komputerowym”, będzie się opierał na
wielkości interwału, który niekoniecznie jest liczbą całkowitą.
Punktem wyjścia obu wymienionych metod jest ustalenie wielkości zwanej
rozstępem – albo inaczej rozpiętością – zbioru danych. Rozstęp jest wiel-
kością charakteryzującą zmienność w zbiorze. Określa on, jaki jest zakres
wyników (od najmniejszego do największego) w badanej grupie. Jeżeli zbiór
danych składałby się tylko z czterech wyników: 6, 7, 7 i 8, to bez większego
trudu moglibyśmy stwierdzić, że dane te różnią się w zakresie tylko trzech
wartości, tj. 6, 7 i 8, co oznaczałoby tym samym, że rozpiętość zbioru równa
się 3. Dla małego zbioru sprawa jest oczywista, a gdybyśmy to chcieli poli-
czyć, należałoby od wartości największej (maksymalnej) odjąć wartość naj-
mniejszą (minimalną) i do otrzymanej różnicy dodać 1, czyli: 8 – 6 + 1 = 3.
Zwróć uwagę na to, że rozpiętość to nie różnica pomiędzy wartością mak-
symalną a minimalną, ale liczba jednostek skali pomiarowej, jakich potrzeba
do zmierzenia wszystkich danych (lub inaczej: liczba jednostek „zajmowa-
nych” przez dane). Do różnicy pomiędzy wartością maksymalną a wartością
minimalną należy dodać 1, właśnie po to, aby uwzględnić również najmniej-
szą wartość „zajętą” przez dane.
Policzmy teraz, ile wynosi rozpiętość zbioru danych pochodzących z badań
nad zainteresowaniem statystyką przez studentów psychologii. Ustaliliśmy,
że maksymalna wartość to 29, a minimalna 2, tak więc: 29 – 2 + 1 = 28.
Dla przypomnienia, zapiszmy teraz te rachunki za pomocą symboli. Jeżeli li-
terą R oznaczymy rozpiętość zbioru, wartość maksymalną jako Xmax i mini-
malną jako Xmin, to:
R = Xmax – Xmin + 1
• Z kolei im mniejsza jest rozpiętość, tym mniej może być tych przedzia-
łów. Podobnie im większa jest liczebność zbioru, tym korzystniej jest
zwiększać liczbę przedziałów.
Jak zauważyłeś, obie intuicje opierają się na pojęciach „duży” i „mały”, któ-
re są relatywne. Stąd też decyzja musi być arbitralna i w dużej mierze będzie
opierała się na pewnym wyczuciu i doświadczeniu. Nie wchodząc więc
w dalsze spekulacje typu „co by było, gdyby...”, przyjmijmy, że 10 przedzia-
łów klasowych dla 50 danych będzie w zupełności wystarczające.
DO SZEREGU, WSTĄP!
∑f
i =1
i =n
WYNIKI EKSPERYMENTU JAKO ZMIENNA LOSOWA 113
∑f
i =1
i suma liczebności przedziałów klasowych.
O KOMPUTEROWYCH INTERWAŁACH
Tabela 4.6. Interwały w sze- Rozpiętość (R) Liczba klas Interwał (I)
regu klasowym o rozpiętości
R = 28, w zależności od licz- 28 : 10 = 2,80
by klas 28 : 11 = 2,55
28 : 12 = 2,33
28 : 13 = 2,15
28 : 14 = 2,00
28 : 15 = 1,87
Gdybyśmy przyjęli, że optymalna dla naszych danych jest liczba klas równa
10, wówczas musielibyśmy przyjąć interwał równy 2,8, a dokładne granice
przedziałów w szeregu rozdzielczym wyglądałyby tak, jak w tabeli 4.7.
Na koniec zastanówmy się chwilę, do czego może się nam przydać informa-
cja zawarta w szeregu skumulowanym. Najczęściej służy ona do analizy
tzw. przyrostów wartości. W przypadku danych dotyczących zainteresowa-
nia statystyką, początkowo wartości skumulowane narastają bardzo powoli,
a następnie, w okolicy środka skali, gwałtownie wzrastają, by wreszcie bliżej
drugiego jej krańca znowu wzrastać coraz wolniej. Daje nam to pewne wy-
obrażenie o kształcie rozkładu naszych danych. Dokładniej będziesz to mógł
śledzić na rysunkach przedstawionych w następnym paragrafie. Szeregi ku-
mulacyjne są szczególnie przydatne, gdy przedmiotem naszych zaintereso-
wań jest analiza dynamiki jakiegoś procesu, np. nabywania wprawy w czy-
taniu lub uczenia się czegoś na pamięć.
sów akcji. Wykresy mogą także stanowić ważny element reklamowy, gdy
np. nad biurkiem zawsze uśmiechniętego właściciela hurtowni pomidorów
ilustrują wyraźny progres w obrotach jego firmy w ciągu ostatnich czterech
lat. Wykres nie wymaga wielu słów. Najczęściej towarzyszy mu krótki tytuł
i legenda wyjaśniająca, co poszczególne jego elementy oznaczają.
W nauce wykresy również pełnią bardzo ważną funkcję i wszystko wskazuje
na to, że znaczenie graficznych form prezentacji wyników badań naukowych
będzie stale rosło. Coraz częściej mówi się o tym, że ze względu na ilość
publikowanej na świecie literatury fachowej, nie ma możliwości przejrzeć
jej w całości – a gdzie znaleźć czas na jej uważne czytanie? Często nie pozo-
staje nic innego, jak tylko analiza wykresów czy ilustracji.
Dobrze przygotowany wykres nie tylko unaocznia charakter omawianego
zjawiska, lecz także może zachęcić czytelników do przestudiowania przy-
najmniej wniosków z omawianych badań.
W poprzednim punkcie wykorzystaliśmy wyniki badań nad zainteresowa-
niem statystyką przez studentów psychologii do skonstruowania szeregu roz-
dzielczego. Mając za podstawę przedstawione tam rezultaty, przyjrzyjmy się
kilku sposobom ich graficznej prezentacji.
12
10
0
3 6 9 12 15 18 21 24 27 30
Środki przedziałów klasowych
Wykres słupkowy, jak sama nazwa wskazuje, nie ma postaci liniowej, lecz
składa się ze słupków ustawionych jeden obok drugiego. W odróżnieniu od
poligonu, na osi odciętych zaznaczamy tym razem dokładne granice prze-
działów klasowych. Szerokość poszczególnych słupków histogramu to
oczywiście długość interwału.
Podobnie jak w przypadku poligonu, na osi rzędnych zaznaczamy liczebno-
ści kolejnych przedziałów klasowych. Czasem, podpisując wartości liczbo-
we pod słupkami histogramu, zamiast dokładnych granic wpisujemy środki
poszczególnych przedziałów. Opierając się znowu na danych otrzymanych
w badaniach nad zainteresowaniem statystyką, możemy wykreślić następu-
jący histogram:
10
0
3 6 9 12 15 18 21 24 27 30
Środki przedziałów klasowych
KRZYWA WYRÓWNANA
Aby wyliczyć wartość fe4 (czyli dla czwartego przedziału klasowego), bie-
rzemy pod uwagę liczebność tego przedziału (= 6) oraz liczebność przedzia-
łu powyżej (= 4) i poniżej (= 13). Następnie dodajemy do siebie te warto-
ści, ale liczebność przedziału czwartego podwajamy. Chodzi o zwiększenie
wpływu liczebności otrzymanej w przedziale, dla którego wyznaczamy li-
czebność do wykresu krzywej wyrównanej.
Tak czy inaczej, sumę dzielimy przez 4 (ponieważ faktycznie dodaliśmy do
siebie cztery wartości) i w ten sposób mamy oszacowaną liczebność dla
czwartego przedziału. Rachunek wygląda następująco:
4 + (6 + 6) + 13
fe4 = = 7,25
4
Przy okazji zwróć uwagę na to, że w tabelce 4.9 pojawiły się dwa nowe
przedziały, oznaczone w kolumnie indeksowej jako zerowy i jedenasty; na
dodatek oba są puste, a więc nie zawierają żadnych liczebności. Przedziałom
tym odpowiadają jednak pewne ułamkowe wartości liczebności oszacowa-
nych. Ze względu na przyjętą zasadę obliczania tych liczebności jest to zu-
pełnie zrozumiałe.
Obliczenie liczebności oszacowanej dla przedziału zerowego wyglądałoby
następująco:
0 + ( 0 + 0) + 2
fe0 = = 0,5
4
WYNIKI EKSPERYMENTU JAKO ZMIENNA LOSOWA 123
niem statystyką
[STATISTICA] 12
10
0
3 6 9 12 15 18 21 24 27 30
Środki przedziałów klasowych
KRZYWA SKUMULOWANA
30
25
20
15
powolny
przyrost
10
liczebności
5
0
3 6 9 12 15 18 21 24 27 30
Środki przedziałów klasowych
HISTOGRAM SKUMULOWANY
25
20
15
powolny
10 wzrost
liczebności
5
0
1,5 4,5 7,5 10,5 13,5 16,5 19,5 22,5 25,5 28,5 31,5
DokładneŚrodki przedziałów
granice klasowych
przedziałów klasowych
WYKRES KOŁOWY
#1; 2
#2; 2
#5; 13
#3; 4
#4; 6
126 PRAWDOPODOBIEŃSTWO I ZMIENNA LOSOWA
3,0
2,0
1,5
1,0
3,2
Czas reakcji (sek.)
3,1
3,0
2,9
2,8
2,7
2,6
2,5
15 sek. 30 sek. 45 sek. 60 sek.
Długość treningu
Teraz wyraźnie widać różnice nie tylko między grupami, które ćwiczyły
prawą rękę, a reagowały lewą, i odwrotnie, ćwiczyły lewą rękę, a reagowały
prawą, a także między grupami osób, które zostały poddane treningowi
o różnej długości. Z wykresu łatwo odczytać, że wraz z długością treningu
lewej ręki systematycznie wzrasta sprawność wykonania zadania za pomocą
ręki prawej. Można więc w tym przypadku zinterpretować dane jako efekt
tzw. pozytywnego transferu bilateralnego, który polega na przeniesieniu wy-
uczonej czynności z jednej połowy ciała na drugą. Przebieg krzywej ilustru-
128 PRAWDOPODOBIEŃSTWO I ZMIENNA LOSOWA
jącej czasy reakcji ręką lewą, po wcześniejszym treningu ręki prawej, jest
zupełnie inny niż poprzedni. Krótki trening ręki prawej (między 15 a 30
sek.) wyraźnie wpływa na skrócenie się czasu reagowania lewą ręką, ale im
jest dłuższy, tym gorsze rezultaty przynosi. W tym przypadku pozytywny
transfer bilateralny zachodzi tylko wtedy, gdy trening jest krótki, a gdy jest
dłuższy, wtedy albo mamy do czynienia z negatywnym transferem bilateral-
nym, albo z jakimś innym zjawiskiem, np. zmęczeniem, które nie ujawniło
się w odniesieniu do ręki prawej.
3,10
3,05
3,00
2,95
2,90
2,85
15 sek. 30 sek. 45 sek. 60 sek.
Długość treningu
12
10
4
socjologowie
2
pedagogodzy
3 6 9 12 psycholodzy
15 18 21 24
Środki przedziałów klasowych 27 30
KRÓTKIE PODSUMOWANIE
Każdy zbiór danych jest zbiorem skończonym, tzn. możemy powiedzieć, ile
dokładnie zawiera elementów. Oczywiście jest to związane z liczbą dokona-
nych pomiarów, a najczęściej z liczbą osób badanych w jednym ekspery-
mencie. Powinniśmy się więc również dogadać co do symbolu oznaczające-
go liczbę pomiarów w jednym zbiorze. W tradycji statystycznej wiele sym-
boli ustalono według ogólnej zasady, zgodnie z którą jest to pierwsza litera
jakiegoś słowa kluczowego. A ponieważ ta tradycja ukształtowała się głów-
nie w kulturze angielskojęzycznej, więc często symbole statystyczne są
pierwszymi literami słów angielskich. Na przykład symbol oznaczający licz-
bę pomiarów w zbiorze mógłby być literą n, ponieważ jest to pierwsza litera
angielskiego odpowiednika słowa „liczba” (number).
Tym razem symbol zapisaliśmy małą literą. Nie zawsze będziemy tu konse-
kwentni, ale dużą literę „N” wolelibyśmy zarezerwować sobie na oznaczenie
liczebności kilku zbiorów danych razem. Jeśli więc z kontekstu będzie wy-
nikało, że chodzi nam o liczebność jednego zbioru, to napiszemy, że zawiera
on n elementów (danych lub pomiarów), lub inaczej, że jest n-elementowy.
Gdy zaś będziemy chcieli podkreślić, że tym razem mamy na myśli sumę
kilku zbiorów danych, wówczas zapiszemy, że liczy on N elementów. Pod-
sumowując kilka ostatnich akapitów, możemy już symbolicznie opisać do-
wolny zbiór danych X, który zawiera n elementów, w następujący sposób:
X = {X1, ..., Xi, ..., Xn}
X zbiór danych liczbowych,
{} zbiór danych jest skończony i zawiera n elementów, włącznie z pierwszym i ostatnim,
X1 dana liczbowa oznaczona jako pierwsza w zbiorze,
Xi dowolna dana liczbowa, która w zbiorze ma indeks większy niż 1 i mniejszy niż n,
n indeks ostatniej danej liczbowej w zbiorze, a zarazem wielkość wskazująca na liczebność
zbioru danych,
Xn ostatnia (n-ta) dana liczbowa.
∑X
i =1
i
∑X i
x= i =1
n
x średnia arytmetyczna,
n
∑X
i =1
i suma kolejnych danych liczbowych, począwszy od X1, do Xn,
Choć obliczanie średniej wydaje się czynnością bardzo łatwą, czasem jednak
można popełnić błąd. Jeden z takich błędów polega na obliczaniu średniej
nie na podstawie pojedynczych obserwacji, ale na podstawie znanych już
wcześniej średnich, w dwóch lub więcej grupach wyników.
Angielski statystyk, William Reichmann, opisuje następujący przykład po-
myłki tego rodzaju. W pewnym mieście znajdują się dwa sklepy, w których
sprzedaje się po 60 kg ziemniaków dziennie. W sklepie A można kupić dwa
kilogramy za złotówkę (zmieniliśmy brytyjskie funty i szylingi na kilogramy
i złotówki), a w sklepie B za tę samą cenę można kupić trzy kilogramy
ziemniaków, choć nieco gorszej jakości. Oznaczało to, że właściciel sklepu
A za sprzedane ziemniaki dziennie zarabiał 30 zł, a właściciel sklepu B – 20
zł. Zdarzyło się, że właściciel sklepu A przejął sklep B i zmieszał ze sobą
obydwa gatunki ziemniaków. Postanowił jednak sprzedawać je po takiej ce-
nie, która będzie odzwierciedlała uprzedni stosunek ceny i jakości produktu.
Przed połączeniem sklepów za dwa złote można było kupić pięć kilogramów
ziemniaków (2 kg w sklepie A i 3 kg w sklepie B). Właściciel nowo powsta-
łego sklepu postanowił utrzymać tę tendencję i uznał, że za dwa złote nadal
będzie można kupić u niego pięć kilo ziemniaków, czyli że cena kilograma
2 zł
ziemniaków zmieszanych powinna wynosić , tj. 40 groszy.
5 kg
Po połączeniu sklepów preferencje konsumentów nie zmieniły się i kupowa-
li teraz w jednym sklepie tyle samo ziemniaków dziennie, ile przedtem
w dwóch, czyli w sumie 120 kg. Jak łatwo obliczyć, za 120 kg zmieszanych
ziemniaków właściciel sklepu inkasował teraz 48 zł (120 × 0,4 zł = 48 zł).
Choć na pierwszy rzut oka wydaje się to dosyć dziwne, to jednak sprzedaw-
ca ziemniaków stracił na całej operacji mieszania obu gatunków. Przedtem
obydwa sklepy zarabiały razem 50 zł.
Przyczyna błędu leży w pominięciu wartości kilograma ziemniaków przed
połączeniem obu gatunków. Obliczające średnią cenę pomieszanych ziem-
niaków, właściciel połączonego sklepu potraktował równorzędnie wartość
sprzedaży obu sklepów. Średnią cenę pomieszanych ziemniaków należało
policzyć, dodając do siebie wartość sprzedaży dziennej w jednym i drugim
sklepie oraz dzieląc tę liczbę przez sumę kilogramów ziemniaków sprzeda-
wanych w obu sklepach razem, co daje nie 40 groszy, ale 41,67 groszy
⎛ 30 zł + 20 zł ⎞
⎜⎜ = 0,4167 zł = 41,67 gr ⎟⎟ . Można by to zaokrąglić do 41 groszy
⎝ 120 kg ⎠
na korzyść klienta, do 42 na korzyść właściciela lub sprzedawać 3 kilogramy
za 1,25 zł.
140 PRAWDOPODOBIEŃSTWO I ZMIENNA LOSOWA
2 + 6 + 12
x= = 6,67
3
Nigdy tego więcej nie rób – to jest kategoria grzechów ciężkich! Chyba że
liczebność poszczególnych zbiorów jest taka sama. Wtedy to co innego – ale
to jedyny taki przypadek.
Pozostałe trzy sposoby są już poprawne w każdej sytuacji.
Sposób numer dwa polega na wyliczeniu średniej arytmetycznej ze wszyst-
kich obserwacji:
1 + 2 + 3 + 4 + 5 + 6 + 7 + 8 + 9 + 10 + 11 + 12 + 13 + 14 + 15
x= =8
15
Kolejny sposób to wyliczenie średniej ważonej ze średnich, czyli z uwzględ-
nieniem liczebności kolejnych zbiorów, z których pochodzą te średnie:
3 × 2 + 5 × 6 + 7 × 12
xw = =8
15
W tym ostatnim wzorze w liczniku znajdują się średnie z każdego zbioru,
pomnożone przez liczebności tych zbiorów. W mianowniku jest łączna licz-
ba wszystkich elementów, dla których obliczana jest średnia.
Sposób ostatni jest, być może, nieco dziwaczny:
2 + 2 + 2 + 6 + 6 + 6 + 6 + 6 + 12 + 12 + 12 + 12 + 12 + 12 + 12
x= =8
15
ale wynik ciągle jest prawidłowy. W liczniku tego wzoru średnie dla każde-
go zbioru powtarzają się tyle razy, ile jest elementów w tym zbiorze. Średnia
z dowolnej liczby takich samych liczb jest cały czas taka sama. Trzykrotne
powtórzenie średniej np. ze zbioru A daje w sumie taką samą wartość śred-
nią, jak średnia w tym zbiorze: średnia z liczb {1, 2, 3} jest taka sama jak
średnia z liczb {2, 2, 2}.
⎛1+ 2 + 3 2 + 2 + 2 ⎞
⎜ = ⎟=2
⎝ 3 3 ⎠
Obliczanie średniej ważonej można więc potraktować jako obliczanie „zwy-
kłej” średniej, przy czym każda średnia powinna być pomnożona przez li-
czebność zbioru, dla którego została wyznaczona. Symbolicznie można to
zapisać w postaci następującego wzoru:
∑( n × x )
k
i i
xw = i =1
N
142 PRAWDOPODOBIEŃSTWO I ZMIENNA LOSOWA
xw średnia ważona,
k liczba średnich, a zarazem liczba zbiorów, z których jest liczona średnia ważona,
liczebności poszczególnych zbiorów danych, począwszy od zbioru oznaczonego indeksem
ni
i = 1 do i = k,
średnie arytmetyczne poszczególnych zbiorów danych, począwszy od zbioru oznaczonego
xi indeksem i = 1 do i = k,
∑ (n × x )
k
suma iloczynów (mnożenia) liczebności i średnich arytmetycznych zbiorów danych, począw-
i i
szy od zbioru oznaczonego indeksem i = 1 do i = k,
i =1
k
N suma liczebności wszystkich zbiorów danych razem, czyli N = ∑n .
i =1
i
∑( n × x )
k
i i
n1 n n
xw = i =1
= × x1 + ... + i × xi + ... + k × xk
N N N N
Nie wyjaśniamy już symboli, ponieważ chyba wszystkie są zrozumiałe.
Po lewej stronie równania jest znany Ci już wzór na średnią ważoną. Po
stronie prawej wzór ten jest rozwinięty i przekształcony w taki sposób, że
poszczególne średnie ze zbiorów są przemnożone przez iloraz liczby ele-
mentów w danym zbiorze i liczby danych we wszystkich zbiorach łącznie.
Obliczenie średniej ważonej prowadzi dokładnie do takiego samego wyniku,
jak obliczenie średniej ze zbioru, w którym każda średnia jest powtórzona
tyle razy, ile jest obiektów, które reprezentuje (to jeszcze raz na temat dziw-
nego równania numer 4 z poprzedniego paragrafu). Można więc potraktować
WYNIKI EKSPERYMENTU JAKO ZMIENNA LOSOWA 143
x średnia arytmetyczna,
1+ 2 + 3 + 4 + 5 + 6
E( X ) = = 3,5
6
i jest to oczywiście średnia z możliwych do uzyskania wartości tej zmiennej.
Niestety, nie da się w tak prosty sposób wyliczyć wartości oczekiwanej dla
rozkładu ciągłej zmiennej losowej. Nie można tego zrobić, dlatego że nie
można nieskończenie wielu wartości (a tyle wartości jest możliwych do uzy-
skania dla każdej ciągłej zmiennej) dodać do siebie i podzielić przez ich
liczbę (czyli nieskończoność). W matematyce wartość oczekiwana ciągłej
zmiennej losowej definiowana jest w bardzo zaawansowany sposób i nawet
* Postanowiliśmy wpisać tę de- nie zachęcamy Cię do zaglądania do tego przypisu*.
finicję do przypisu dla porządku,
ale możesz spokojnie ją opuścić: Łatwiejszy sposób wyznaczenia wartości oczekiwanej ciągłego rozkładu
+∞
zmiennej to obliczenie średniej arytmetycznej z pewnej próby losowo wy-
E(X ) =
∫ xf (x)dx , gdzie f(x) jest branych elementów tego rozkładu. Wartość średniej w tej próbie nie musi się
−∞
funkcją gęstości rozkładu praw- dokładnie pokrywać z wartością oczekiwaną, ale różnice stają się coraz
dopodobieństwa tej zmiennej. mniejsze w miarę wzrostu wielkości próby. Do metody tej odwołujemy się
z reguły wtedy, gdy nie znamy rozkładu danej zmiennej lub nie znamy jego
położenia. Będzie o tym mowa jeszcze dalej.
x=6
Średnia arytmetyczna – lub ogólniej wartość oczekiwana – jest podstawo-
wym parametrem reprezentującym centralną tendencję rozkładu danej
zmiennej.
146 PRAWDOPODOBIEŃSTWO I ZMIENNA LOSOWA
Tabela 4.10. Sposób zała- Liczba osób, którym o swoich problemach Liczba osób, którym o swoich problemach
twienia skargi a satysfakcja opowiedzieli klienci usatysfakcjonowani ze opowiedzieli klienci nieusatysfakcjonowani ze
klienta sposobu załatwienia ich spraw (mediana) sposobu załatwienia ich spraw (mediana)
8 16
jest chyba oczywisty: zdecydowanie lepiej jest w ogóle nie mieć reklamacji,
a jeżeli już, to załatwiać je pozytywnie.
W każdym zbiorze danych mediana jest wartością dzielącą ten zbiór na dwie
równe grupy – połowa wszystkich obserwacji znajduje się poniżej, a połowa
powyżej mediany.
Definicja mediany odwołuje się do pojęcia prawdopodobieństwa. Mediana
jest to w pewnym zbiorze danych taka wartość xe , dla której prawdopodo-
bieństwo tego, że przypadkowo wylosowana liczba z tego zbioru będzie
mniejsza lub większa od niej, jest dokładnie takie samo.
Jeżeli rozkład zmiennej losowej jest ciągły, to obliczenie mediany jest dosyć
skomplikowane i nie będziemy tu przedstawiać szczegółów. Jeżeli natomiast
rozkład zmiennej losowej jest skokowy, to mediany w zasadzie nie trzeba
obliczać – wystarczy ją tylko znaleźć. W tym celu należy wszystkie obser-
wacje ustawić w kolejności rosnącej (lub malejącej – wszystko jedno)
i sprawdzić, czy ich liczba jest parzysta, czy nieparzysta. Jeżeli liczba ob-
serwacji jest nieparzysta, to mediana jest wartością znajdującą się dokładnie
w środku tego ciągu.
Na przykład dla zbioru składającego się z 9 obserwacji mediana jest warto-
ścią piątą z kolei. Dla parzystej liczby obserwacji mediana jest średnią aryt-
metyczną z dwóch wartości środkowych, a więc np. dla zbioru składającego
się z ośmiu obserwacji, mediana jest średnią z wartości czwartej i piątej. Oto
przykłady obu tych sytuacji:
• zbiór A zawiera nieparzystą liczbę obserwacji {2, 4, 6, 8, 10, 12, 14, 16,
18} – mediana wynosi 10;
• zbiór B zawiera parzystą liczbę obserwacji {1, 3, 5, 7, 9, 11, 13, 15} –
7+9
mediana wynosi 8, ponieważ =8.
2
Sposób obliczania mediany nie zmienia się nawet wtedy, gdy w „środku”
grupy analizowanych wyników znajdują się takie same liczby.
Na przykład jeżeli zebrano 50 obserwacji, to medianą będzie średnia z tych
ustawionych na pozycji 25 i 26 po uporządkowaniu danych. Gdyby były to
takie same liczby, wówczas mediana byłaby po prostu średnią z tych dwóch
liczb, czyli ciągle tą samą liczbą, np. taką:
16 + 16
xe = = 16
2
148 PRAWDOPODOBIEŃSTWO I ZMIENNA LOSOWA
Jak wynika z definicji, mediana nie wymaga tego, aby skala, na której był
dokonywany pomiar zmiennej, miała stałą jednostkę. Wymaga tylko tego,
by wartości tej skali tworzyły zbiór uporządkowany (rosnąco lub malejąco),
w którym każdy obiekt ma jednoznacznie przyporządkowaną rangę. W od-
różnieniu od średniej, medianę możemy poprawnie oszacować dla danych
zgromadzonych za pomocą każdej skali pomiarowej, oprócz nominalnej.
KWARTYLE
0,024
0,022
0,020
0,018
0,016
0,014
0,012
0,010
0,008
0,006
0,004
0,002
0,000
-2 -1 0 1 2
Q1 Q2= xe Q3
poniżej której leży 75% danych lub powyżej której znajduje się 25% naj-
wyższych wyników. Krótko mówiąc, między kwartylami jest po 25% da-
nych, podobnie jak między początkiem skali pomiarowej a kwartylem
pierwszym oraz kwartylem trzecim a końcem skali pomiarowej. Kwartyle to
po prostu punkty na skali pomiarowej, które dzielą zbiór danych na ćwiartki.
Kwartyle wyznacza się dokładnie w taki sam sposób, jak medianę. W prak-
tyce wygląda to tak, że najpierw należy znaleźć medianę, która podzieli
zbiór danych na dwie równoliczne grupy, a potem obliczyć punkty, które
znowu podzielą każdą z tych grup na dwie.
W przypadku gdy liczba wszystkich obserwacji jest parzysta, nie ma więk-
szego problemu. Na przykład dla zbioru {1, 2, 3, 4, 5, 6, 7, 8} mediana wy-
⎛ 4+5 ⎞
nosi 4,5 ⎜ = 4,5 ⎟ i dzieli ten zbiór na dwa podzbiory: {1, 2, 3, 4} i {5, 6,
⎝ 2 ⎠
7, 8}. Ponieważ liczba obserwacji w obu tych podzbiorach jest parzysta,
wartości dzielące te podzbiory na dwie grupy to średnie arytmetyczne z obu
wartości środkowych. Pierwszy kwartyl wynosi więc 2,5, a trzeci – 6,5.
Gdy liczba wszystkich obserwacji w zbiorze danych jest parzysta, ale po po-
dzieleniu na dwie grupy otrzymamy dwa podzbiory zawierające nieparzystą
liczbę elementów, wtedy pierwszym i trzecim kwartylem będą odpowiednio
wartość środkowa w pierwszym podzbiorze i wartość środkowa w drugim.
Na przykład dla zbioru 10-elementowego {1, 2, 3, 4, 5, 6, 7, 8, 9, 10} warto-
ści kwartyli wynoszą odpowiednio Q1 = 3, Q2 = 5,5 i Q3 = 8.
Wyznaczenie kwartyli dla zbioru zawierającego nieparzystą liczbę obserwa-
cji nie jest bardziej skomplikowane. Mediana jest wartością środkową w tym
zbiorze. Nie można jej jednak pozostawić poza zbiorem danych po podziele-
niu go na dwie grupy, dlatego też wartość środkową wpisuje się dwukrotnie
– jako wartość najwyższą w zbiorze poniżej mediany i jako wartość najniż-
szą w zbiorze poniżej mediany. Na przykład dla zbioru {1, 2, 3, 4, 5, 6, 7, 8,
9} wartość środkowa wynosi 5. Wyznaczenie pierwszego i trzeciego kwarty-
la wymaga podzielenia tego zbioru na dwa podzbiory {1, 2, 3, 4, 5} oraz {5,
6, 7, 8, 9}. Wartość środkowa w całym zbiorze została powtórzona w obu
tych podzbiorach. Dalej postępowanie jest takie samo, jak przy wyliczaniu
mediany: wartość pierwszego kwartyla wynosi 3, a trzeciego – 7.
KWANTYLE
goś, kto ma czwórkę przy średniej 4,3 w całej klasie u innego nauczyciela.
Wynik wynikowi nierówny, dopóki się nie dowiesz, jaką zajmuje on pozycję
w danym zbiorze.
Niektóre uczelnie wyższe korzystają z miar położenia przy wyznaczaniu wy-
sokości stypendium naukowego. Wysokość wsparcia, jakie dostaje student,
uzależniona jest nie od średniej ocen, ale od tego, jaki centyl na danym kie-
runku studiów osiąga.
MODALNA
Jest jeszcze jedna miara położenia, innego jednak typu niż średnia i kwanty-
le. Nazywa się modalna lub krócej – moda – i jest niewątpliwie najprost-
szym z parametrów rozkładu zmiennej losowej. Jest to ta wartość, która
w zbiorze danych powtarza się najczęściej.
(Nawiasem mówiąc, jeżeli ubierasz się lub zachowujesz tak jak większość
twoich przyjaciół, to wygląda na to, że jesteś modny, ale równocześnie –
przyznasz – dość banalny. No cóż, paradoksalnie, to jest właśnie cena, jaką
płacisz za modę).
Modalna to także jedyny parametr, który możemy ustalić dla każdej ze skal
pomiarowych. Już nawet dla skali nominalnej możemy ustalić, która wartość
(nominał lub kategoria) jest najliczniejsza. Rysunek 4.20 ilustruje częstość
występowania kolejnych danych w pewnym zbiorze wyników.
Dane przedstawione na rysunku to hipotetyczne wyniki uzyskane podczas
jednej z sesji egzaminacyjnych na uczelni. W zbiorze danych połączyliśmy
wyniki trzech egzaminów, jakie odbywały się podczas tej sesji. Za każdy eg-
zamin można było zdobyć po 8 punktów.
Rysunek 4.20. Wykres zbioru 200
danych, dla którego modalna
180
wynosi 13 [STATISTICA]
160
140
Liczba studentów
120
100
80
60
40
20
0
2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
Liczba zdobytych punktów
152 PRAWDOPODOBIEŃSTWO I ZMIENNA LOSOWA
Średnią, medianę lub modalną często nazywa się „miarami tendencji cen-
tralnej”. Wszystkie one wskazują na wartość pod jakimś względem typową
dla danego rozkładu.
Średnia to „środek ciężkości” zbioru danych (por. rys. 4.18), mediana to
wartość leżąca „w środku” całej grupy wyników, a modalna to wartość, jaka
pojawia się najczęściej. Każda z tych miar wskazuje więc na jakąś tendencję
centralną, ale każda „mówi” trochę o czymś innym.
Wiesz już przecież, że ta sama wartość średnia może powstać z różnych da-
nych. Jeśli np. wszyscy uczniowie w klasie będą mieli tylko oceny równe
3,5, to średnia też będzie wynosiła 3,5. O takim rozkładzie powiemy, że jest
* My – autorzy niniejszego homogeniczny albo jednorodny.
przewodnika – należymy do po-
kolenia, dla którego piątka, a nie Jeżeli połowa uczniów będzie miała piątki*, a druga połowa dwóje, to śred-
szóstka, była najwyższą oceną nia także będzie równa 3,5, podobnie jak wtedy, gdy jedna trzecia będzie
osiągnięć szkolnych.
miała tróje, jedna trzecia tróje z plusem i jedna trzecia czwórki. Takie roz-
kłady będziemy z kolei nazywali heterogenicznymi lub niejednorodnymi.
Wszystko byłoby jeszcze dobrze, gdyby rozkład ocen cząstkowych we
wszystkich klasach był identyczny.
Ale jeśli w jednej klasie są sami „przeciętniacy”, a w innej tylko „geniusze”
i „leserzy”? Czy wiedząc o tym, tak samo poprowadzisz lekcję w obu tych
klasach? Nie życzymy ci tego, ale wygląda na to, że w tej drugiej nie będzie
łatwo.
Spójrz na wykresy na rysunku 4.21. Ilustrują one cztery możliwe rozkłady
ocen z języka polskiego w różnych klasach wtedy, gdy średnie arytmetyczne
w tych klasach są identyczne.
Można sobie wyobrazić wiele takich rozkładów zmiennej losowej, które ma-
ją nie tylko taką samą średnią, ale także identyczna medianę czy modalną,
a mimo to nie są takie same. Aby dobrze rozumieć, o czym mówią nam dane
z badań, nie wystarczy więc wiedzieć – jaki jest najbardziej typowy dla nich
wynik, ale – kto wie, czy nie jest to ważniejsze, jaki jest częstościowy roz-
kład poszczególnych wyników na skali pomiarowej. Potrzebna jest więc ja-
kaś miara liczbowa określająca, w jakim zakresie wyniki otrzymane w eks-
perymencie różnią się od siebie.
Takie liczbowe wskaźniki różnorodności danych nazywają się wskaźnikami
dyspersji lub miarami zmienności. Jednymi z najważniejszych tego rodza-
ju wskaźników są: wariancja (nie mylić z „wariacją”!) i odchylenie stan-
dardowe, czyli pierwiastek kwadratowy z wariancji.
12
[STATISTICA] 11
10
9
8
7
6
5
4
3
2
1
0
2,0 2,5 3,0 3,5 4,0 4,5 5,0
Ocena z języka polskiego
154 PRAWDOPODOBIEŃSTWO I ZMIENNA LOSOWA
12
11
10
9
8
7
6
5
4
3
2
1
0
2,0 2,5 3,0 3,5 4,0 4,5 5,0
Ocena z języka polskiego
12
11
10
9
8
7
6
5
4
3
2
1
0
2,0 2,5 3,0 3,5 4,0 4,5 5,0
Ocena z języka polskiego
∑(X i − x) 2
s = 2 i =1
n
WYNIKI EKSPERYMENTU JAKO ZMIENNA LOSOWA 155
x średnia arytmetyczna,
n
∑i =1
suma n wartości danych.
Wariancja dla zbioru takich samych danych, np. {2, 2, 2, 2, 2, 2, 2, 2}, wy-
nosi 0. Łatwo zauważyć, dlaczego tak jest. Po pierwsze, średnia arytmetycz-
na w tym zbiorze jest taka sama, jak jego wszystkie elementy (w przykłado-
wym zbiorze x = 2 ), po drugie, jedną z operacji przy obliczaniu wariancji
jest zsumowanie różnic między średnią i wszystkimi wartościami w zbiorze,
156 PRAWDOPODOBIEŃSTWO I ZMIENNA LOSOWA
się między sobą. Jeżeli chcesz, możesz samemu sprawdzić, że np. dla zbioru
{2, 2} wynik będzie taki sam, niezależnie od tego, czy podniesiesz średnią
z obu tych liczb do kwadratu, czy też obliczysz średnią z kwadratów tych
liczb. Różnica między kwadratem średniej a średnią kwadratów jest tym
większa, im większa jest różnorodność w zbiorze liczb. Co ciekawe, różnica
między średnimi arytmetycznymi obliczonymi na te dwa sposoby to właśnie
zdefiniowana wcześniej wariancja. Okazuje się bowiem, że:
2
n n
⎛ n ⎞
∑ ( X i − x) 2 ∑ X i2 ⎜ ∑ Xi ⎟
s2 = i =1
= i =1
− ⎜ i =1 ⎟
n n ⎜ n ⎟
⎜ ⎟
⎝ ⎠
Mamy nadzieję, że wszystkie symbole użyte w tym wzorze są dla ciebie zro-
zumiałe. Jeśli masz wątpliwości, spróbuj samodzielnie policzyć wariancję
dla zbioru {1, 3}, a wynik porównaj z różnicą między średnią kwadratów
a kwadratem średniej.
We wzorze wyrażenie po lewej stronie znaku odejmowania oznacza średnią
z poszczególnych liczb podniesionych do kwadratu, a wyrażenie po stronie
prawej – po prostu średnią arytmetyczną podniesioną do kwadratu.
Tabela 4.12. Liczba pytań za- Rodzaj sklepu Ekstrawertycy Introwertycy Średnia
dawanych sprzedawcom
przez klientów w fikcyjnym Supermarket 5, 4, 3 (4) 1, 2, 3 (2) 3,0
eksperymencie (w nawiasach Sklep osiedlowy 6, 5, 4 (5) 4, 3, 2 (3) 4,0
znajdują się średnie w każdej
grupie) Średnia 4,5 2,5 3,5
1+ 3 + 3 + 5 + 3 + 5
xK = = 3,33
6
a dla mężczyzn:
5+ 4+3+6+5+ 4
xM = = 4,5
6
Gdy zbiór wyjściowy nie zostanie podzielony na żadne podgrupy, wtedy ob-
liczamy wariancję w całym tym zbiorze. Wariancja ta – jak już napisaliśmy
wyżej – wynosi s2 = 1,92, a średnia w całym zbiorze: x = 3,5 .
Możemy teraz sprawdzić, jak podział wyników na takie dwie grupy wpływa
na zróżnicowanie pomiędzy tymi grupami. Wystarczy policzyć wariancję dla
średnich w grupach „Kobiety” i „Mężczyźni”, badając, o ile średnie pomię-
dzy tymi grupami odchylają się od średniej całkowitej:
(3,33 − 3,5) 2 + (4,5 − 3,5) 2
s2 = = 0,43
2
Okazuje się, że zmienność danych w analizowanej grupie związana z płcią
osób badanych jest mniejsza niż zmienność spowodowana cechami osobo-
wości klientów, ale większa niż zmienność związana z miejscem dokonywa-
nia zakupów.
* Jakiekolwiek podobieństwo
Innymi słowy, na liczbę pytań zadawanych sprzedawcy w największym
osób, instytucji lub wydarzeń stopniu wpływają cechy osobowości klientów (ekstrawertycy są szczególnie
opisanych w tym eksperymencie gadatliwi), dalej płeć (mężczyźni są bardziej dociekliwi) i wreszcie miejsce
do autentycznych osób, instytu-
cji lub wydarzeń jest przypad-
zakupów (sklep osiedlowy stwarza lepsze warunki do wymiany myśli ze
kowe (P. F. i R. M.). sprzedawcą)*.
ODCHYLENIE STANDARDOWE
∑(X i − x) 2
s= i =1
s odchylenie standardowe,
n liczba wszystkich obserwacji w zbiorze,
Xi wartość kolejnego, i-tego pomiaru,
x średnia arytmetyczna,
n
∑
i =1
suma n wartości danych,
pierwiastek kwadratowy.
∑(X
i =1
i − x) = (1 − 3,5) + (2 − 3,5) + (3 − 3,5) + (4 − 3,5) + (5 − 3,5) + (6 − 3,5) =
= (−2,5) + (−1,5) + (−0,5) + 0,5 + 1,5 + 2,5 = −2,5 − 1,5 − 0,5 + 0,5 + 1,5 + 2,5 =
= −4,5 + 4,5 = 0
Niezłe, co? Suma odchyleń poszczególnych wyników od średnich zawsze
równa się 0. Średnia arytmetyczna jest tak położona na skali pomiarowej, że
jej sumaryczna „odległość” od danych umieszczonych z jednej jej strony jest
identyczna jak jej sumaryczna „odległość” od danych z drugiej strony. Być
może, nie zauważyłeś tego wcześniej, chociaż do wyznaczenia wariancji
także obliczałeś sumę odchyleń od średniej. W tamtym wzorze sprawę
ujemnych różnic załatwiliśmy jednak podniesieniem każdej różnicy do kwa-
dratu, co spowodowało, że wszystkie wartości były dodatnie, a ich suma
większa od 0. Podobny ruch zastosujemy w przypadku liczenia odchylenia
przeciętnego. Zamiast jednak podnosić różnice do kwadratu, wyciągniemy
z nich wartość bezwzględną, a ta zawsze przecież jest dodatnia.
Ostatni krok w ustaleniu wartości odchylenia przeciętnego to obliczenie
średniej arytmetycznej z sumy bezwzględnych różnic od średniej. Krótko
mówiąc, wszystkie wartości odchyleń należy dodać i podzielić przez liczbę
danych. W postaci wzoru można to zapisać w następujący sposób:
164 PRAWDOPODOBIEŃSTWO I ZMIENNA LOSOWA
∑ Xi − x
δ= i= 1
n
δ (czytaj: delta) odchylenie przeciętne,
Xi wartość kolejnego, i-tego pomiaru,
x średnia arytmetyczna,
∑
i =1
suma n wartości danych,
∑ |x i |
δ= i= 1
ODCHYLENIE ĆWIARTKOWE
Kolejna miara zmienności zawiera informacje na temat tego, jaki jest rozrzut
danych w stosunku do dwóch miar położenia, czyli pierwszego i trzeciego
kwartyla. Przypomnijmy, że wartość pierwszego kwartyla to liczba, poniżej
której znajduje się 25% wszystkich obserwacji, a trzeci kwartyl to wartość,
WYNIKI EKSPERYMENTU JAKO ZMIENNA LOSOWA 165
Mediana xe 20,00
* Lomax, R. G., Moosavi, S. A. Richard Lomax i Seyed Moosavi* opublikowali w 2002 roku artykuł pod in-
(2002). Using humour to teach trygującym tytułem: Wykorzystanie humoru w nauczaniu statystyki: czy oba
statistics: must they be ortho-
gonal? Understanding Statistics, obszary muszą być ortogonalne? Słowo „ortogonalne” w tym przypadku
1, 113-130. oznacza rzeczy od siebie niezależne.
W artykule tym autorzy przytaczają wiele dowcipów i anegdot dotyczących
statystyki, które można wykorzystać przy różnych okazjach. Podają także
adresy internetowe, gdzie można znaleźć takie dowcipy. Większość z nich to
strony amerykańskich profesorów statystyki. Na przykład na stronie profeso-
ra Gary’ego Ramseyera z Illinois State University znaleźliśmy dowcip, który
bezpośrednio nawiązuje do treści tego rozdziału:
Wyobraź sobie, jak wygląda osoba przeciętnie głupia. A teraz pomyśl, że zgodnie
z rozkładem normalnym połowa wszystkich ludzi jest jeszcze głupsza.
Brutalnie trafne spostrzeżenie, nieprawdaż? (Jeżeli zdanie, które właśnie
przeczytałeś, jest trochę bez związku z poprzednim, to znaczy, że wydawca
niniejszego przewodnika uznał cytowany dowcip za nienadający się do pu-
blikacji). W każdym razie do dowcipu Ramseyera wrócimy jeszcze później,
gdy opiszemy, co to jest rozkład normalny.
Przypuśćmy, że artykuł Lomaxa i Moosaviego przeczytało dwóch profeso-
rów prowadzących kursy statystyki na uniwersytecie. Bardzo przejęli się je-
go główną tezą i postanowili wprowadzić więcej humoru do swoich zajęć ze
studentami. Tak się złożyło, że jeden z tych profesorów wyśmienicie opo-
wiadał dowcipy. Był to profesor Józef Wesoły, niewysoki, ruchliwy i za-
zwyczaj uśmiechnięty.
Drugi natomiast, profesor Arnold Smutny, nie miał poczucia humoru za
grosz, a większość opowiadanych przez niego dowcipów była drętwa, scze-
zła lub, jak wolisz, czerstwa. Dopięty garnitur, nienaganne maniery i cy-
niczny wyraz twarzy idealnie współgrały z jego poziomem poczucia humo-
** Zob. np. Ruch, W. (red.) ru. No cóż, pod tym względem ludzie znacznie się różnią między sobą**.
(1998). To joke or not to joke:
exploring individual differences Tak czy inaczej, obydwaj profesorowie postanowili wprowadzić humory-
concerning the positive and the styczne elementy do swoich wykładów. Jak można sobie wyobrazić, udało
dark side of humour: the sense
of humour. Explorations of per- im się to z różnymi wynikami. Dowcipy opowiadane przez profesora Weso-
sonality characteristics. New łego często budziły salwy śmiechu, choć i jemu zdarzyło się kilka razy „spa-
York: Mouton de Gruyter.
lić na panewce”. Z kolei dowcipy w wykonaniu profesora Smutnego
z reguły były katastrofą, choć trzeba przyznać, że raz na jakiś czas, przy na-
prawdę dużej koncentracji, i jemu udawało się wzbudzić aplauz studentów.
172 PRAWDOPODOBIEŃSTWO I ZMIENNA LOSOWA
Liczba wykładów
3
0
1 2 3 4 5 6 7
Liczba "śmiechów" podczas wykładów
4
Liczba wykładów
0
1 2 3 4 5 6 7
Liczba "śmiechów" podczas wykładów
0,40
0,35
0,30
0,25
⎛1 1⎞
szej monecie i orła na drugiej, czyli także ⎜ × ⎟ . W sumie daje to:
⎝2 2⎠
1 1 1
+ = . Zbierając teraz wszystkie te obliczenia razem, możemy stwier-
4 4 2
dzić, że suma wszystkich prawdopodobieństw na wykresie 4.24 wynosi 1,
1 1 1
ponieważ + + = 1 .
4 2 4
Czy wiesz teraz, jak obliczyć teoretyczną częstość wypadnięć np. różnej
liczby orłów w rzucie trzema monetami? Rozpisując wszystkie możliwe
układy wypadnięć orłów i reszek w wyniku rzutu trzema monetami, łatwo
się zorientować, że jest osiem możliwych kombinacji:
(1) (o, o, o) (2) (o, o, r) (3) (o, r, o) (4) (o, r, r)
(5) (r, o, o) (6) (r, o, r) (7) (r, r, o) (8) (r, r, r)
Zauważ że w połowie wszystkich kombinacji na pierwszej monecie wypada
orzeł, a w drugiej – reszka. Podobnie w połowie kombinacji na drugiej
i trzeciej monecie wypada orzeł, a w połowie reszka. Jakie są więc możliwe
do otrzymania liczby orłów w wyniku rzutu trzema monetami? Tylko raz
możemy oczekiwać, że na żadnej monecie nie wypadnie orzeł (zob. kombi-
nacja 8) lub że pojawi się na wszystkich monetach (zob. kombinacja 1). Je-
den orzeł może pojawić się w trzech przypadkach na osiem (zob. kombina-
cje 4, 6 i 7), podobnie jak dwa orły (zob. kombinacje 2, 3 i 5).
Prawdopodobieństwa pojawiania się różnej liczby orłów w rezultacie rzutu
trzema monetami przedstawiamy w tabeli 4.14. Oczywiście wszystkie one
sumują się do 1.
niej także może wypaść albo orzeł, albo reszka, a więc w kombinacjach
„trzymonetowych” także trzeba to uwzględnić. Musimy przepisać poprzed-
nich osiem kombinacji, najpierw dopisując na końcu orła, a potem jeszcze
raz, dopisując na końcu reszkę. Ostatecznie otrzymamy 16 kombinacji:
Same reszki (brak orłów) występują tylko w jednym przypadku, jeden orzeł
występuje w czterech, dwa orły w sześciu, trzy orły znowu w czterech i czte-
ry orły tylko w jednej sytuacji na szesnaście możliwych.
Zapewne się domyślasz, jak ustalić prawdopodobieństwa różnej liczby orłów
na pięciu monetach. Do szesnastu kombinacji czterech monet trzeba dopisać
znowu albo orła, albo reszkę na miejscu piątym, co w sumie da 32 kombina-
cje. Jeśli zaś już będziesz miał wszystkie kombinacje pięciu monet, to łatwo
utworzysz kombinacje dla sześciu. Jak się przekonasz – będzie ich 64. Po-
tem utworzysz 128 kombinacji dla siedmiu monet, 256 kombinacji dla ośmiu
monet, 512 kombinacji dla 9 monet i tak dalej, i tak dalej.
Czy nie sądzisz, że rachunek prawdopodobieństwa to dla Ciebie wielkie wy-
zwanie na całe życie? Ileż tu jest do policzenia!
Mówią, że „potrzeba jest matką wynalazków, a ojcem – lenistwo”. To nam
pasuje, więc jako ojcowie uważamy, że warto się zastanowić, czy zamiast
wypisywać tasiemcowe układy „orlo-reszkowe”, nie lepiej znaleźć ogólną
formułę, która pozwoliłaby łatwiej oszacować liczby wypadnięć orłów na
dowolnej liczbie monet.
Wróćmy do sytuacji najprostszej, czyli rzutu jedną monetą. Z jednakowymi
prawdopodobieństwami może wypaść albo orzeł, albo reszka, a suma tych
prawdopodobieństw wynosi 1. Zapiszmy to w takiej postaci:
1
⎛1 1⎞
⎜ + ⎟ =1
⎝2 2⎠
Jak zauważyłeś, sumę prawdopodobieństw podnieśliśmy do pierwszej potę-
gi. Jeżeli zamiast wykładnika 1 wpiszemy 2, to i tak nie zmieni się wynik
równania, bo przecież:
2
⎛1 1⎞
⎜ + ⎟ =1
⎝ 2 2⎠
WYNIKI EKSPERYMENTU JAKO ZMIENNA LOSOWA 179
⎛1 1⎞
Jeśli znowu za (a + b) podstawimy ⎜ + ⎟ , to otrzymamy coś takiego:
⎝2 2⎠
3 3 2 2 3
⎛1 1⎞ ⎛1⎞ ⎛1⎞ ⎛1⎞ ⎛1⎞ ⎛1⎞ ⎛1⎞ 1 3 3 1
⎜ + ⎟ = 1⎜ ⎟ + 3 ⎜ ⎟ ⎜ ⎟ + 3 ⎜ ⎟ ⎜ ⎟ + 1⎜ ⎟ = + + + = 1
⎝2 2⎠ ⎝2⎠ ⎝2⎠ ⎝2⎠ ⎝2⎠ ⎝2⎠ ⎝2⎠ 8 8 8 8
Czy rozumiesz, do czego zmierzamy? W tabeli 4.15 zapisaliśmy prawdopo-
dobieństwa wypadnięć różnej liczby orłów w wyniku rzutu 1–6 monetami.
Z tabeli 4.15 możesz łatwo odczytać, że gdy się rzuca 6 monetami, najbar-
dziej prawdopodobne jest pojawienie się 3 orłów. Wiesz także, że wartości
prawdopodobieństwa dla rzutu jedną, dwoma i trzema monetami powstały
1 2 3
⎛1 1⎞ ⎛1 1⎞ ⎛1 1⎞
z rozwinięć wyrażeń: ⎜ + ⎟ , ⎜ + ⎟ i ⎜ + ⎟ . Pierwszego wyraże-
⎝2 2⎠ ⎝2 2⎠ ⎝2 2⎠
nia właściwie nie ma co rozwijać. Do pozostałych dwóch wykorzystaliśmy
wzory skróconego mnożenia. Zapewne domyślasz się, że dla obliczenia
prawdopodobieństw różnej liczby orłów na czterech monetach trzeba rozwi-
sir Izaak Newton 4 5
(1642-1727) ⎛1 1⎞ ⎛1 1⎞
nąć wyrażenie: ⎜ + ⎟ , dla pięciu – ⎜ + ⎟ itd. Znajdowanie prawdo-
⎝2 2⎠ ⎝2 2⎠
podobieństwa wypadnięcia dla różnej liczby orłów na dowolnej liczbie mo-
n
⎛1 1⎞
net wymaga rozwijania wyrażenia ⎜ + ⎟ , gdzie n oznacza liczbę monet.
⎝2 2⎠
n
⎛1 1⎞
Czy wiesz, w jaki sposób znajdować rozwinięcia wyrażenia ⎜ + ⎟ ?
⎝2 2⎠
Wbrew pozorom, nie jest to wcale takie trudne. Autorem, który opracował
n
⎛1 1⎞
zasady rozwijania wyrażenia ⎜ + ⎟ dla dowolnej liczby n, był sir Izaak
⎝2 2⎠
Błażej Pascal
Newton. Stąd też wyrażenie to określane jest jako dwumian Newtona. Ko-
(1623-1662) lejne współczynniki tego dwumianu łatwo jest znajdować, wykorzystując
tzw. trójkąt Pascala, którego nazwa pochodzi od nazwiska słynnego filozo-
fa francuskiego, Błażeja Pascala. Fragment trójkąta Pascala znajduje się w
tabeli 4.16.
Zauważ, że dokładnie takie same liczby, jak w trójkącie Pascala, pojawiają
* Dla porządku powinniśmy na- się w licznikach prawdopodobieństw w poprzedniej tabeli 4.15*. Dla przy-
pisać, że dwumian Newtona w kładu z monetami, różne wartości n, znajdujące się w lewej kolumnie w ta-
wersji ogólnej wygląda tak:
beli 4.16, wskazują na liczbę podrzucanych monet. W środkowej części ta-
( p + q )n , gdzie p i q oznaczają n
prawdopodobieństwa dwóch do- ⎛1 1⎞
pełniających się zdarzeń, tak że beli dla każdego n mamy ustalone liczniki wyrażenia ⎜ + ⎟ po rozwinię-
p + q = 1. Do tej ogólniejszej ⎝2 2⎠
postaci powracamy poniżej. ciu, czyli np. różne możliwe do uzyskania liczby orłów. Liczby w kolumnie
po prawej stronie odpowiadają mianownikom sumy ułamków oznaczających
prawdopodobieństwa. Warto zauważyć, że liczby w trójkącie Pascala mają
WYNIKI EKSPERYMENTU JAKO ZMIENNA LOSOWA 181
pewną bardzo ciekawą właściwość: każda z nich jest sumą dwóch znajdują-
cych się bezpośrednio nad nią.
Tabela 4.16. Trójkąt Pascala n Współczynniki mnożenia w rozwinięciach dwumianu Newtona Mianownik
1 1 1 2
2 1 2 1 4
3 1 3 3 1 8
4 1 4 6 4 1 16
5 1 5 10 10 5 1 32
6 1 6 15 20 15 6 1 64
7 1 7 21 35 35 21 7 1 128
8 1 8 28 56 70 56 28 8 1 256
9 1 9 36 84 126 126 84 36 9 1 512
10 1 10 45 120 210 252 210 120 45 10 1 1024
11 1 11 55 165 330 462 462 330 165 55 11 1 2048
12 1 12 66 220 495 792 924 792 495 220 66 12 1 4096
0,20
0,15
0,10
0,05
0,00
5/0 4/1 3/2 2/3 1/4 0/5
Proporcja orłów do reszek w rzucie 5 monetami
182 PRAWDOPODOBIEŃSTWO I ZMIENNA LOSOWA
Prawdopodobieństwo
0,15
0,10
0,05
0,00
10/0 9/1 8/2 7/3 6/4 5/5 4/6 3/7 2/8 1/9 0/10
Proporcja orłów do reszek w rzucie 10 monetami
0,10
0,05
0,00
20/0 18/2 16/4 14/6 12/8 10/10 8/12 6/14 4/16 2/18 0/20
19/1 17/3 15/5 13/7 11/9 9/11 7/13 5/15 3/17 1/19
Proporcja orłów do reszek w rzucie 20 monetami
120
znajduje się 7 studentów z miasta: wynosi ono = 0,18 . Niewielkie, a w
1024
każdym razie sporo odbiegające od 0,5.
Możesz także sprawdzić, jakie jest prawdopodobieństwo tego, że w grupie
10-osobowej znajdzie się nie więcej niż 7 studentów pochodzących z miasta.
Prawdopodobieństwo to wyniesie:
1 + 10 + 45 + 120 + 210 + 252 + 210 + 120 968
= = 0,94
1024 1024
Liczba 0,94 to prawdopodobieństwo znalezienia co najwyżej 7 osób z miasta
w przypadkowo wylosowanej, 10-osobowej grupie studentów. Oczywiś-
cie liczba ta ma sens tylko wtedy, gdy prawdą jest stwierdzenie, że to, czy
w grupie znajdzie się osoba pochodząca z miasta lub ze wsi, jest tylko dzie-
łem przypadku, innymi słowy wtedy, gdy prawdopodobieństwo tego zdarze-
1
nia wynosi .
2
Porównanie empirycznie ustalonej wartości z rozkładem teoretycznym
umożliwia m.in. stwierdzenie, czy wybrany rozkład teoretyczny rzeczywi-
ście dobrze opisuje analizowaną przez nas relację. Innymi słowy, możemy
stwierdzić, czy założenia, które poczyniliśmy przy wyborze rozkładu, są
właściwe. Prawdopodobieństwo tego, że na 10 osób, co najwyżej 7 będzie
pochodzić z miasta, wynosi 0,94 i wydaje się, że jest raczej duże.
Być może jednak wyszliśmy z błędnego założenia. Przyjmując, że prawdo-
1
podobieństwo tego, że ktoś mieszka w mieście lub na wsi, wynosi , zało-
2
żyliśmy, że połowa ludzi w Polsce mieszka na wsi, a połowa w mieście, a to
nie jest zgodne z prawdą. Według danych ze spisu ludności w Polsce z roku
2002 na wsi mieszka 1 407 200 osób w wieku 19-24 lata, a w mieście
mieszka 2 482 700 osób w tym samym wieku. Oznacza to, że prawdopodo-
bieństwo tego, iż młody Polak mieszka na wsi, wynosi:
⎛ 1 407 200 ⎞
⎜⎜ = 0,37 ⎟⎟
⎝ 1 407 200 + 2 482 700 ⎠
a tego, że pochodzi z miasta – 0,63 (1 – 0,37 = 0,63). Jeżeli więc chcemy
sprawdzić, czy proporcje studentów świadczą o tym, iż szanse edukacyjne
młodzieży z miast i wsi są wyrównane, to musimy zrezygnować z założenia,
że prawdopodobieństwo tego, że przypadkowy student pochodzi ze wsi lub
miasta, wynosi 0,5. Zamiast tego powinniśmy posługiwać się prawdopodo-
bieństwami – odpowiednio – 0,37 i 0,63.
WYNIKI EKSPERYMENTU JAKO ZMIENNA LOSOWA 185
Pojęcie „rozkład dwumianowy” nie odnosi się tylko do jednego rozkładu, ale
do całej grupy rozkładów. To, z jakim rozkładem akurat mamy do czynienia,
zależy od wartości trzech parametrów: prawdopodobieństwa zajścia pewne-
go zdarzenia, prawdopodobieństwa zajścia zdarzenia dopełniającego (w su-
mie oba muszą wynosić 1) oraz liczby prób, które analizujemy.
Prawdopodobieństwa zajścia określonej liczby zdarzeń można znaleźć, wy-
korzystując liczby z trójkąta Pascala. Trójkąt ten można łatwo rozbudowy-
wać, ale przecież nie da się go generować w nieskończoność.
Prawdopodobnie pierwszym uczonym, któremu się udało poradzić sobie
z tym problemem, był francuski matematyk, Abraham de Moivre, który
Abraham de Moivre większą część życia spędził w Anglii. Udało mu się osiągnąć przybliżenie
(1667-1754)
wartości trójkąta Pascala dla bardzo dużej liczby prób.
W 1889 roku brytyjski przyrodnik, sir Franciszek Galton, nazwał rozkładem
normalnym przybliżenie dla nieskończenie wielu prób. Rozkład ten przed-
stawiony jest na rysunku 4.28.
0,35
0,30
0,25
0,20
0,15
punkt oddalony
0,10 średnia arytmetyczna od średniej arytmetycznej
o jedno odchylenie standardowe
0,05
0,00
Wartości zmiennej
WYNIKI EKSPERYMENTU JAKO ZMIENNA LOSOWA 187
Jak to często bywa, sukces ma wielu ojców, więc odkrycie rozkładu normal-
nego przypisywane jest jeszcze kilku innym osobom. Wymienia się tu nie-
mieckiego matematyka, Karla Friedricha Gaussa, a także Francuza, Pierre’a
Laplace’a, o którym wspomnieliśmy już wcześniej. Najczęściej jednak rów-
nanie opisujące rozkład normalny przypisywane jest Gaussowi, stąd też
nazywany jest on krzywą Gaussa. Nawiasem mówiąc, do czasu wymiany
waluty niemieckiej na euro, rozkład ten, wraz z portretem Gaussa, znajdował
się na niemieckim banknocie 10-markowym.
Przy okazji warto wspomnieć, że przez niektórych uczonych Gauss uważany
jest za najwybitniejszego matematyka wszechczasów. Jego geniusz ujawnił
się już dosyć wcześnie. Jak głosi jedna z anegdot, podczas lekcji matematyki
Karl Friedrich Gauss nauczyciel, któremu tego dnia nie bardzo chciało się pracować, kazał dzie-
(na 10-markówce) ciom obliczyć sumę wszystkich liczb od 1 do 100. Był już na to wzór, ale ów
mędrzec wiedział, że uczniowie nie mogli go znać, więc spodziewał się go-
dziny spokoju. Miał jednak pecha – 8-letni wówczas Karl Gauss niemal na-
tychmiast podał prawidłową odpowiedź – po prostu sam wymyślił od-
* Zob. Richards, I. (1983). Teo- powiedni wzór*. Biografowie Gaussa potwierdzają jednak powszechne
ria liczb. W: Steen L. A. (red.), przekonanie, że niektórzy wybitni ludzie niezbyt dobrze radzą sobie w nor-
Matematyka współczesna (s. 50-
79). Warszawa: PWN. malnym życiu. Gauss na co dzień był człowiekiem nieprzystępnym, a do te-
go bardzo zarozumiałym.
Z Gaussem kojarzy nam się jeszcze jedna informacja, ale nie mieliśmy oka-
zji jej sprawdzić. Podobno na jego grobowcu w Getyndze wykreślono sie-
demnastokąt foremny (spróbuj to sobie wyobrazić!). Jeżeli stwierdzisz empi-
rycznie, czyli zobaczysz na własne oczy, że to prawda, to koniecznie daj
nam znać.
σ 2π
π znana z matematyki stała, równa 3,14159...,
e również stała, która wynosi 2,71828...,
X zmienna, której rozkład dotyczy (np. liczba orłów w rzucie nieskończoną liczbą monet),
σ odchylenie standardowe w rozkładzie zmiennej X,
x średnia arytmetyczna*.
* Z reguły średnia w rozkładzie Choć ten wzór wygląda na dość skomplikowany, warto się przyjrzeć, co on
normalnym jest oznaczana za w rzeczywistości oznacza. Otóż jest to formuła na znajdowanie wartości
pomocą łacińskiej litery m lub
greckiej litery µ, natomiast zna- funkcji gęstości f(X), czyli wartości na osi OY, dla dowolnej wartości
ny ci już symbol x zarezerwo- zmiennej X. Spójrz na prawą stronę równania, a zobaczysz, od czego zależy
wany jest dla średniej w próbie. ta gęstość.
Aby nie komplikować sytuacji,
na razie pozostaniemy przy To, czy rozkład normalny leży bardziej na lewo, czy bardziej na prawo
oznaczeniu stosowanym do tej w stosunku do osi OX, zależy od tego, jaka jest średnia, natomiast kształt
pory. Nieco później jednak po-
wrócimy jeszcze do tego pro- rozkładu zależy od wartości odchylenia standardowego. Pod tym względem
blemu. z rozkładem normalnym jest podobnie, jak np. z wykresem prostej Y = AX +
+ B. Parametr A oznacza kierunek nachylenia prostej do osi OX, a B – jej od-
ległość od tej osi. Takich prostych, a także takich rozkładów normalnych
można wykreślić nieskończenie wiele.
ści jest mądrzejsza od osoby przeciętnie mądrej. No, ale wtedy – z jakiegoś
powodu, który mówi chyba coś ważnego o naszym poczuciu humoru – nie
byłoby to już takie zabawne.
Prawdopodobieństwo uzyskania wyników z dowolnego przedziału łatwo jest
przedstawić graficznie. Jest to wielkość pola powierzchni ograniczonego
przez proste prostopadłe do osi OX, przechodzące przez początek i koniec
przedziału. Ilustruje to rysunek 4.29.
Rysunek 4.29. Pola po- 0,40
wierzchni odpowiadają praw- Gęstość prawdopodobieństwa
0,35
dopodobieństwom w rozkła-
dzie normalnym (wyrażenie 0,30
p(X<A) należy czytać jako
0,25
„prawdopodobieństwo, że
wartość X jest mniejsza od 0,20
liczby A”)
0,15
0,10
p(X<A) p(A<X<B) p(B<X<C) p(X>C)
0,05
0,00
-2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,0
A B C
0,10
0,05
0,00
0 1 2 3 4 5 6 7 8 9 10
Liczba orłów w rzucie 10 monetami
n 10
x= = =5
2 2
n 10
s= = = 1,58
4 4
120
= 0,117
1024
WYNIKI EKSPERYMENTU JAKO ZMIENNA LOSOWA 191
18
16
14
12
10
8
6
4
2
0
6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
Liczba punktów zdobytych podczas egzaminu
Określenie „rozkład normalny” nie dotyczy tylko jednego rozkładu, ale jest
nazwą wielopokoleniowej rodziny z tradycjami. Wspólną cechą wszystkich
członków tej rodziny od niepamiętnych czasów jest to, że o ich wyglądzie
decyduje wartość tylko dwóch parametrów: średniej i odchylenia standar-
dowego. Przykłady rozkładów normalnych o różnych parametrach przed-
stawione są na rysunku 4.32.
Dziś dość trudno jest nam w to uwierzyć, ale ludzkość radziła sobie ze
wszystkimi problemami codzienności nawet wtedy, gdy nie było na świecie
komputerów. Nie było to zresztą wcale tak dawno temu – pierwszy kompu-
* Na podstawie www.computer- ter dla indywidualnego użytkownika pojawił się na rynku w roku 1974*. Do
world.pl/historia tego czasu jednak także radzono sobie z obliczaniem prawdopodobieństwa
w rozkładzie normalnym.
Zanim opiszemy, jak to wykonać, najpierw musimy wprowadzić pojęcie
rozkładu normalnego standaryzowanego. Otóż jest to taki rozkład, które-
go średnia wynosi 0, a odchylenie standardowe równa się 1. W gruncie rze-
czy rozkład ten ma identyczny kształt, jak rozkład normalny przedstawiony
na rysunku 4.28.
Rozkład normalny standaryzowany ma takie same cechy, jak każdy inny
rozkład normalny. Jest symetryczny wokół średniej, mediany i modalnej,
które wszystkie są sobie równe i wynoszą 0. Najbardziej jednak użyteczną
cechą rozkładu standaryzowanego jest ta, że pozwala on na oszacowanie
prawdopodobieństw różnych wartości danych na podstawie tablic staty-
stycznych, które – jeśli cię to oczywiście interesuje – zamieściliśmy
w Aneksie, na końcu tego przewodnika (nie tylko my wpadliśmy na ten po-
mysł – tablice takie są obowiązkowe w każdym podręczniku do statystyki).
WYNIKI EKSPERYMENTU JAKO ZMIENNA LOSOWA 195
Gęstość prawdopodobieństwa
0,35
N(14,68; 3,08) dla wartości pod krzywą normalną
dla X < 20
danej X = 20 0,30
0,25
0,20 p = 0,9579
powierzchnia
0,15 pod krzywą normalną
dla X > 20
0,10
0,05
p = 0,0421
0,00
Wyniki -2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 1,73 2,0
standaryzowane
Średnia w rozkładzie danych empirycznych: 14,68 X = 20
WYNIKI STANDARYZOWANE z
6 − 14,68 − 8,68
zi = = = −2,82
3,08 3,08
16 − 14,68 1,32
zi = = = 0,43
3,08 3,08
18,5 − 14,68
z= = 1,24
3,08
21,5 − 14,68
z= = 2,21
3,08
Obydwie te wartości zaznaczyliśmy na rysunku 4.34.
0,20 p = 0,8925
0,15 powierzchnia
pod krzywą normalną
dla X > 21,5
0,10
0,05 p = 0,0135
0,00
Wyniki -2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,24 1,5 2,0 2,21
standaryzowane
Średnia w rozkładzie danych empirycznych: 14,68 X = 18,5 X = 21,5
0,35
normalnym N(0; 1)
0,30 powierzchnia
pod krzywą normalną
0,25 dla X > ?
0,20
powierzchnia p = 0,9000
0,15 pod krzywą normalną
dla X < ?
0,10
0,05 p = 0,1000
0,00
Wyniki -2,0 -1,5 ? -1,0 -0,5 0,0 0,5 1,0 1,5 2,0
standaryzowane
X=? 14,68 - Średnia w rozkładzie danych empirycznych
204 PRAWDOPODOBIEŃSTWO I ZMIENNA LOSOWA
Twoim zadaniem jest ustalenie, poniżej jakiego wyniku znajduje się 10%
najmniej zadowolonych klientów twojego hotelu. Znowu trzeba skorzystać z
tablic – tym razem potrzebna jest tablica B, która jest odwrotnością tablicy
A. W lewej kolumnie podana jest tam wielkość pola powierzchni poniżej
wartości z, w środkowej wielkość powierzchni powyżej wartości z, a w pra-
wej odpowiadająca tym powierzchniom wielkość zmiennej standaryzowanej
z. Interesuje cię lewa kolumna. Znajdujesz wiersz odpowiadający po-
wierzchni pod krzywą normalną równą 0,1000 i w ostatniej kolumnie odczy-
tujesz odpowiadającą jej wartość z. Wynosi ona 1,28, ale dopisujesz minus,
ponieważ leży ona na lewo od średniej, czyli –1,28. Pozostaje teraz znaleźć
liczbę punktów odpowiadającą tej wartości w rozkładzie wyników z ankiety
hotelowej o średniej 53 i odchyleniu standardowym 12. Mówiąc dokładniej,
chodzi o wartość, która jest mniejsza od średniej o 1,28 odchylenia standar-
dowego, czyli o 1,28 (wynik standaryzowany) × 12 (odchylenie standardo-
we) = 15,36. Wynik ten oznacza, że 10% najmniej zadowolonych klientów
ocenia Twój hotel co najmniej o 15,36 punktu niżej niż średnia. Ponieważ
średnia równa się 53, więc najwyższa nota, jaką 10% malkontentów jest
skłonnych przypisać twojej usłudze hotelowej, to: 53 – 15,36 = 37,64 punk-
tu. Masz odpowiedź. Każdy gość, który daje nie więcej niż 37-38 punktów,
na otarcie łez powinien dostać coś gratis. Dobrze, że przynajmniej pozosta-
łym 90% gości nie trzeba nic dawać. A skoro im tak dobrze, to może by dla
nich podnieść cenę za nocleg? Byłoby na te kawałki szkła dla nudziarzy.
NO TO PODSUMUJMY
Jeżeli chcesz znaleźć wartość zmiennej X, dla której znasz pole powierzchni
leżącej na prawo lub na lewo od niej, to najpierw w tablicy B musisz znaleźć
wartość z, odpowiadającą znanej ci powierzchni. UWAGA: Jeśli wynik stan-
daryzowany leży poniżej średniej, dopisujesz do niego minus. Znając z,
przemnażasz go przez odchylenie standardowe dla rozkładu zmiennej X,
a otrzymany wynik dodajesz do średniej w tym rozkładzie. Jeśli z był ujem-
ny, to twoje dodawanie automatycznie zamienia się na odejmowanie od
średniej. Procedurę tę możemy zapisać skrótowo w postaci następującego
wzoru:
X i = x + zi × s
Xi poszukiwana wartość zmiennej X,
W Polsce różne głosowania odbywają się dosyć często: raz na cztery lata
mamy wybory parlamentarne i lokalne, a raz na pięć lat wybieramy prezy-
denta. Co jakiś czas odbywają się także referenda, które, podobnie jak wybo-
ry, też wymagają wrzucania kartki do urny. A teraz zastanów się chwilę i po-
wiedz, czy pamiętasz swój udział w ostatnim powszechnym głosowaniu, np.
w wyborach parlamentarnych. Okazuje się, że nie wszyscy biorący w nich
udział dobrze to zapamiętali.
Pytanie o udział w wyborach jest jednym z wielu zadawanych w Polskim
* Cichomski, B., Jerzyński, T., Generalnym Sondażu Społecznym (PGSS), prowadzonym od 1992 roku*.
Zieliński, M. (2003). Polskie W ostatnim badaniu, z roku 2002, zadano pytania dotyczące udziału w ostat-
Generalne Sondaże Społeczne:
skumulowany komputerowy nich wyborach prezydenckich i parlamentarnych (ostatnich oczywiście w
zbiór danych 1992-2002. War- stosunku do momentu, w którym przeprowadzony był ten sondaż). Pytania
szawa: Instytut Studiów Spo-
łecznych, Uniwersytet War-
brzmiały następująco: „Czy brałeś udział w wyborach prezydenckich w roku
szawski. 2000?” oraz „Czy brałeś udział w wyborach parlamentarnych w roku
2001?”. Pytania te zostały zadane reprezentatywnej grupie 2473 dorosłych
Polaków. Spośród nich 1829 osób, czyli 73,9% ankietowanych, stwierdziło,
że wzięły udział w wyborach prezydenckich, a 1502 osoby (tj. 60,7% ankie-
towanych) przyznały się do udziału w wyborach parlamentarnych. Ponieważ
próba osób biorących udział w PGSS jest próbą reprezentatywną dla wszyst-
kich dorosłych Polaków, można więc uznać, że liczby te odzwierciedlają
rzeczywiste przekonanie Polaków pytanych w roku 2002 na temat ich udzia-
łu w wyborach w roku 2000 i 2001.
Próba badana w 2002 w PGSS jest dość duża, nawet jak na badania socjolo-
giczne, a z pewnością robi wrażenie na studencie psychologii. Gdybyś sam
chciał przeprowadzić podobne badanie, być może, udałoby Ci się zapytać
o udział w wyborach parlamentarnych pięćdziesiąt, może sto osób, ale nie
dwa i pół tysiąca. Mógłbyś się jednak obawiać, że wyniki tak małej grupy
nie będą reprezentatywne dla całej populacji. Nie ma problemu. Łatwo mo-
210 WNIOSKOWANIE STATYSTYCZNE
żemy sprawdzić, czy rozkład odpowiedzi w próbie liczącej np. 100 osób
znacznie się różni od rozkładu wyników w próbie liczącej 2473 osoby.
W tym celu spośród wszystkich odpowiedzi w PGSS, za pomocą programu
komputerowego, wylosowaliśmy podgrupę 100 osób, które mogą reprezen-
tować potencjalnych uczestników Twojego eksperymentu. Jedna z wyloso-
wanych przez nas osób nie pamiętała, czy brała udział w wyborach parla-
mentarnych w 2001 roku, 59 na 100 ankietowanych przyznało się do udziału
w tych wyborach, a 40 – że nie poszło na głosowanie. Porównując proporcje
wyników w całej grupie PGSS i w grupie 100-osobowej, możemy zauważyć,
że niewiele się one od siebie różnią. Różnica wynosi dokładnie 1,7 punktu
procentowego (60,7% – 59% = 1,7%).
Skoro proporcja tych, którzy przyznają się do udziału w wyborach w przy-
padkowej grupie 100 osób, jest niemal taka sama, jak w reprezentatywnej
dla całej populacji grupie liczącej 2473 osób, to – być może – nie trzeba ba-
dać ponad dwóch tysięcy osób, a wystarczy tylko 100. A może nie trzeba ba-
dać nawet 100 osób?
Spośród wszystkich wyników PGSS wylosowaliśmy kolejną grupę, tym ra-
zem 50 ankietowanych. W tej grupie do wzięcia udziału w wyborach parla-
mentarnych w roku 2001 przyznało się 64% osób. W porównaniu z całą pró-
bą PGSS, różnica jest już nieco większa i wynosi 3,3 punktu procentowego
(60,7% – 64% = –3,3%).
Zmniejszyliśmy jeszcze bardziej liczbę osób ankietowanych, do 30. W wy-
losowanej przez komputer (a niech mu będzie) grupie 30-osobowej do wzię-
cia udziału w wyborach przyznało się 43,3% ankietowanych. Tym razem
różnica okazała się już całkiem spora i wyniosła 17,4 punktu procentowego
(60,7% – 43,3% = 17,4%).
Podjęliśmy jednak ryzyko jeszcze większej pomyłki i wylosowaliśmy grupę
liczącą tylko 10 osób badanych. Ku naszemu zaskoczeniu, w tej grupie
wskaźnik tych, którzy przyznali się do wzięcia udziału w wyborach, był
równy 50%. W stosunku do proporcji w całej próbie PGSS różnica wyniosła
10,7% (60,7% – 50,0% = 10,7%), ale – co ciekawsze – była mniejsza niż w
grupie 30-osobowej.
Różnica między tymi procentami obliczonymi dla grupy liczącej 100 osób
i 2473 osób wynosi tylko 1,7%. W porównaniu z próbą 50-osobową ta róż-
nica jest już nieco większa, ale i tak znacznie mniejsza niż w porównaniu
z wynikiem w próbie 30-osobowej. Nieco zaskakujące jest jednak to, że pro-
cent osób, które pamiętają swój udział w wyborach, obliczony w próbie
10-osobowej, mniej różni się od wyniku w całej grupie PGSS niż od wyniku
w grupie 30-osobowej. Postanowiliśmy się przyjrzeć temu dokładniej.
W jednej z poprzednich części przypomnieliśmy kilka eksperymentów prze-
prowadzonych przez Daniela Kahnemana i Amosa Tversky’ego oraz ich
współpracowników. Wnioskiem wynikającym z większości tych badań było
stwierdzenie, że ludzie często popełniają błędy, gdy rozwiązują zadania do-
tyczące rachunku prawdopodobieństwa lub zależności statystycznych. Jeden
* Zob. Tversky, A., Kahneman, z takich błędów Kahneman i Tversky nazwali „prawem małych liczb”*, na-
D. (1971). Belief in the law of wiązując do słynnego prawa wielkich liczb, o którym dowiesz się jeszcze w
small numbers. Psychological
Bulletin, 76, 105-110. tym rozdziale. Nawiasem mówiąc, prawo małych liczb wcale nie jest żad-
nym prawem, tylko wygodną nazwą pewnego typu błędu, jaki ludzie popeł-
niają. Błąd ten nie dotyczy liczb małych, np. 1, 2 lub 3, ale liczb występują-
cych w małej grupie. Otóż zgodnie z tym prawem ludzie spodziewają się, że
prawidłowości statystyczne dotyczące dużej grupy obserwacji powinny się
ujawnić również w małej próbie, oczywiście pod warunkiem, że mała próba
zostanie losowo dobrana z grupy dużej. Zilustrujemy to oryginalnym przy-
kładem z badań przeprowadzonych przez Tversky’ego i Kahnemana. Popro-
sili oni uczestników posiedzenia Grupy Psychologii Matematycznej o roz-
wiązanie następującego zadania:
Załóżmy, że średni iloraz inteligencji dzieci w ostatniej klasie szkoły pod-
stawowej w pewnym mieście wynosi 100. Do badań wylosowano grupę 50
dzieci. Iloraz pierwszego z badanych wyniósł 150. Jaki będzie średni iloraz
w całej 50-osobowej grupie dzieci?
Jaką usłyszeli odpowiedź? Oczywiście – 100. Jest ona jednak błędna. Nie
ma bowiem żadnej pewności, że zależność, która zachodzi w całej populacji,
w takim samym stopniu będzie widoczna w każdej grupie wylosowanej z tej
populacji. Oznacza to np., że średnia w grupie 50 dzieci wcale nie musi być
taka sama jak średnia w całej populacji. A nawet jeśli przyjmiemy, że tak
jest, to możemy odnieść to założenie tylko do ilorazów 49 dzieci, których
jeszcze nie zbadaliśmy. Jeżeli przyjmiemy, że iloraz w grupie 49 dzieci jest
taki sam jak w populacji, czyli wynosi 100, to zważywszy na wysoki ilo-
raz pierwszego zbadanego dziecka, średni iloraz inteligencji w grupie
50-osobowej musi być wyższy niż 100. Wynika to z obliczenia średniej wa-
żonej, w której do licznika wpiszemy sumę iloczynu 49 dzieci, co do których
zakładamy, że mają iloraz inteligencji równy 100, oraz jednego wyniku 150,
a do mianownika – liczbę wszystkich badanych dzieci, czyli 50:
212 WNIOSKOWANIE STATYSTYCZNE
49 × 100 + 1 × 150
xw = = 101
50
Tversky i Kahneman dali wiele podobnych zadań członkom Grupy Psycho-
logii Matematycznej i w większości przypadków odpowiedzi ekspertów,
niestety, również były błędne.
0
30 40 50 60 70 80
Procent tych, którzy wzięli udział w wyborach, w próbach 10-osobowych
PODSTAWY WNIOSKOWANIA STATYSTYCZNEGO 213
ILE TO JEST „MAŁO”, CZYLI KIEDY MOŻNA ZAPOMNIEĆ O PRAWIE MAŁYCH LICZB?
0
45 50 55 60 65 70
Procent tych, którzy wzięli udział w wyborach, w próbach 30-osobowych
Rozkład próbek na rysunku 5.2, nie jest tak symetryczny, jak wykres pro-
porcji osób biorących udział w wyborach dla próbek 10-elementowych
przedstawiony na rysunku 5.1. Na podstawie rysunku 5.2 także jednak moż-
na stwierdzić, że prawo małych liczb jest złudzeniem. Nie można oczekiwać,
że prawidłowość charakterystyczna w całej grupie wyników PGSS objawi
się w każdej próbie wylosowanej z tej grupy. Pierwszy słupek po lewej stro-
nie na rysunku 5.2 oznacza jedną próbę 30-elementową, w której procent
214 WNIOSKOWANIE STATYSTYCZNE
0
50 55 60 65 70 75 80
Procent tych, którzy wzięli udział w wyborach, w próbach 50-osobowych
0
52 53 54 55 56 57 58 59 60 61 62 63 64 65
Procent tych, którzy wzięli udział w wyborach, w próbach 100-osobowych
ESTYMATORY
Nie powinieneś się dziwić temu, że niemal wszystkie miary dla próby i dla
populacji nieco różnią się od siebie. Estymator, czyli konkretna liczba wyli-
czona dla próby, jest tylko przybliżeniem estymowanego parametru. Oczy-
wiście najczęściej nie wiemy, jaka jest rzeczywista wartość tego parametru.
Porównując jednak ze sobą statystyki i parametry z tabeli 5.3, dojdziemy do
wniosku, że nie popełnilibyśmy zbyt wielkiego błędu, zakładając, że np.
mediana w populacji wynosi 40,5, a nie 42, jak jest naprawdę.
Przy okazji warto podkreślić, że osoby biorące udział w sondażu trochę
chciały olśnić ankieterów i zawyżyły nieco swoją pracowitość. Fakt, że
pierwszy kwartyl wynosi 40 godzin, oznacza, że tylko 25% Polaków pracuje
mniej niż 8 godzin dziennie (zakładając, że tydzień pracy ma 5 dni). Co wię-
cej, okazuje się, że aż 50% Polaków pracuje od 8 do 10 godzin dziennie –
wartość trzeciego kwartyla wynosi 50 godzin, co po podzieleniu na 5 dni da-
je 10 godzin dziennie. Środkowe 50% wszystkich obserwacji, czyli liczba
osób badanych „pomiędzy” pierwszym i trzecim kwartylem, ocenia swój
czas pracy na 8 do 10 godzin dziennie.
Czyżbyśmy byli aż tak pracowici?
∑(X i − x) 2
s2 = i =1
n
przeciętnie nie doszacowuje wariancji w populacji o wielkość równą:
σ2
n
s2 (czytaj: „s kwadrat”) wariancja w próbie,
x średnia arytmetyczna,
n
∑
i =1
suma n wartości danych.
∑(X i − x) 2
sˆ 2 = i =1
n −1
Zwróć uwagę na to, że wzór na ŝ 2 różni się od wzoru na s2 tylko ze względu
na mianownik. Przed chwilą ustaliliśmy, że wariancja obliczana metodą tra-
dycyjną, czyli zgodnie ze wzorem, w którym w mianowniku znajduje się li-
czebność próby (n), na ogół jest niższa od wariancji dla populacji. Jeżeli
w mianowniku, zamiast n, wstawimy n – 1, to tak obliczona wariancja wzro-
śnie. Zawsze tak się dzieje, gdy utrzymując tę samą wartość licznika,
zmniejszamy wartości w mianowniku. Można się więc spodziewać, że ŝ 2
będzie się mniej różnić od σ2 niż s2. Łatwo to sprawdzić.
W tabeli 5.5. przedstawiamy wariancje z 10 próbek po 50 osób z PGSS obli-
czone według wzorów na s2 i ŝ 2 . Od każdej z tych wariancji odjęliśmy także
wartość wariancji w populacji σ 2 = 0,24.
ESTYMACJA PUNKTOWA
ESTYMACJA PRZEDZIAŁOWA
14
12
10
8
6
4
2
0
20 30 40 50 60 70 80 90 100
Procent tych, którzy wzięli udział w wyborach, w 100 próbach 10-osobowych
blisko średniej w populacji, czy też jej średnia znacznie się różni od średniej
w populacji. Bez względu na to, jak szeroki przedział na prawo i na lewo od
średniej w próbie uznasz za wystarczające oszacowanie parametru populacji,
i tak nigdy nie będziesz miał pewności, czy jest to przedział o wystarczającej
długości, chyba że zadowolisz się stwierdzeniem, iż proporcja głosujących
waha się od 0% do 100%.
Możesz jednak się dowiedzieć, jakie jest prawdopodobieństwo, że we wska-
zanym przez Ciebie przedziale rzeczywiście znajdzie się średnia w popula-
cji. Do tego celu przyda się znajomość centralnego twierdzenia graniczne-
go. W najprostszej wersji brzmi ono następująco:
Rozkład średniej z próby n-elementowej pobranej z populacji o średniej µ i warian-
σ2
cji σ2 jest rozkładem normalnym o średniej µ i wariancji .
n
Co to jest „rozkład średniej z próby n-elementowej”? Jest to rozkład nie-
skończenie wielu średnich, obliczonych dla próbek o liczebności n. Takim
rozkładem, a właściwie jego częścią, jest wykres przedstawiony na rysun-
ku 5.5.
Na osi OX są tam zaznaczone procenty osób przyznających się do udziału w
głosowaniu (jak to już wcześniej wyjaśnialiśmy, odpowiadają one średnim,
po zamianie odpowiedzi „tak” na jedynki, a „nie” i innych na zera oraz po-
mnożeniu przez sto procent). Na osi OY zaznaczone są częstości, z jakimi
dane próbki pojawiają się w grupie 100 średnich.
Centralne twierdzenie graniczne należy do najważniejszych, czyli właśnie
centralnych twierdzeń stosowanych we wnioskowaniu statystycznym.
Określenie „graniczne” zwraca uwagę na to, że twierdzenie to dotyczy za-
leżności, która zachodzi na granicy, czyli – innymi słowy – na końcu
wszystkich możliwości, wtedy gdy próbek jest nieskończenie wiele. W takiej
sytuacji oczywiście rozkład średnich z nieskończenie wielu próbek jest roz-
kładem ciągłym, ale najważniejsze jest to, że jest to rozkład normalny. Po-
nadto średnia w tym rozkładzie jest taka sama jak średnia w populacji, a wa-
riancja jest wprost proporcjonalna do wariancji w populacji i odwrotnie pro-
porcjonalna do liczebności próbek.
0
0,3 0,4 0,5 0,6 0,7 0,8
10 próbek po 10 osób
0
0,45 0,50 0,55 0,60 0,65 0,70
10 próbek po 30 osób
PODSTAWY WNIOSKOWANIA STATYSTYCZNEGO 231
Liczba próbek
3
0
0,50 0,55 0,60 0,65 0,70 0,75 0,80
10 próbek po 50 osób
0
0,52 0,53 0,54 0,55 0,56 0,57 0,58 0,59 0,60 0,61 0,62 0,63 0,64 0,65
10 próbek po 100 osób
16
Liczba próbek
14
12
10
0
0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0
Średnia liczba głosujących po zamianie na 1 i 0
σ2 wariancja w populacji,
n liczebność próby.
σ = σ 2 = 0,24 = 0,49
Stąd już tylko jeden krok do obliczenia odchylenia standardowego w rozkła-
dzie średniej z próby:
σ2 σ 0,49 0,49
σx = = = = = 0,155
n n 10 3,16
W ten sposób znamy już obydwa parametry rozkładu średnich z próby.
Średnia w tym rozkładzie wynosi µ = 0,607, a odchylenie standardowe
σ x = 0,155. Rozkład o tych parametrach przedstawiony jest na rysunku 5.11.
2,0
1,8
1,6
1,4
1,2
1,0
0,8
0,6
0,4
0,2
0,0
0,3 0,4 0,5 0,6 0,7 0,8 0,9
⎧⎪ σ2 σ 2 ⎫⎪
µ∈ ⎨ x − zα ; x + zα ⎬
⎪⎩ n n ⎪⎭
W JAKIM ZAKRESIE MOŻESZ UFAĆ ŚREDNIEJ Z PRÓBY, GDY NIC NIE WIESZ NA TEMAT POPULACJI?
∑(X i − x) 2
5 × (1 − 0,5) 2 + 5 × (0 − 0,5) 2
sˆ =2 i =1
= = 0,28
n −1 10 − 1
Teraz możemy przystąpić do obliczenia wariancji w rozkładzie średnich
z nieskończenie wielu próbek 10-elementowych. Ponieważ nie znasz wa-
riancji w populacji, do wyznaczenia wariancji w rozkładzie z próby musisz
wykorzystać oszacowaną wariancję w populacji, czyli ŝ 2 :
sˆ 2 0,28
sˆx2 = = = 0,028
n 10
Pozostaje już tylko jedna operacja do oszacowania odchylenia standardowe-
go w rozkładzie średnich z nieskończenie wielu próbek:
sˆx = 0,028 = 0,17
1,8
Gęstość prawdopodobieństwa
1,6
1,4
1,2
1,0
0,8
0,6
0,4
0,2
0,0
0,2 0,3 0,4 0,5 0,6 0,7 0,8
• Gdy zwiększa się wynik standaryzowany zα, wtedy zwiększa się po-
prawność oszacowania, ale niestety zwiększa się także długość przedzia-
łu ufności.
• Wielkość przedziału ufności zależy także od wielkości odchylenia stan-
dardowego w rozkładzie średnich. Ta wartość z kolei jest wprost propor-
cjonalna do wielkości odchylenia standardowego danej cechy w popula-
cji (lub wielkości oszacowania tego odchylenia na podstawie danych
w próbie) oraz odwrotnie proporcjonalna do wielkości próby. A zatem:
im większe odchylenie standardowe, tym dłuższy przedział ufności, ale
im większa próba, tym mniejsza długość tego przedziału. Gdybyś więc
wylosował więcej osób niż 10, to nawet gdyby średnia liczba głosują-
cych oraz wariancja były takie same, wówczas otrzymany przedział uf-
ności byłby krótszy. W tabeli 5.6 podajemy granice trzech takich prze-
działów: dla próby 30-elementowej, 50-elementowej i 100-elementowej,
zakładając, że liczba głosujących jest zawsze taka sama, czyli 50%.
Oszacowanie wariancji w
populacji na podstawie sˆ 2 = 0,26 sˆ 2 = 0,25 sˆ 2 = 0,25
próby
Ponieważ cała próba PGSS liczy 2473 osoby, przedział ufności z prawdopo-
dobieństwem 0,95 dla średniej głosujących w roku 2001 w wyborach parla-
mentarnych jest następujący:
⎧⎪ 0,24 0,24 ⎫⎪
µ∈ ⎨0,607 − 1,96 × ; 0,607 + 1,96 × ⎬
⎪⎩ 2473 2473 ⎪⎭
co po obliczeniu daje:
µ∈{0,588; 0,626}
Przedział ten jest niewielki, ponieważ badana próbka jest bardzo duża. Wo-
bec tego możemy pokusić się o zwiększenie prawdopodobieństwa popraw-
ności oszacowania do 0,999. Końce przedziału ufności dla średniej wyzna-
czymy tak samo jak poprzednio, tylko w miejsce 1,96 trzeba wstawić war-
tość z = 3,29:
⎧⎪ 0,24 0,24 ⎪⎫
µ∈ ⎨0,607 − 3,29 × ; 0,607 + 3,29 × ⎬
⎪⎩ 2473 2473 ⎪⎭
czyli
µ∈{0,577; 0,637}
Z bardzo dużą pewnością (99,9%) przedział od 0,577 do 0,637 zawiera rze-
czywistą proporcję Polaków przyznających się do głosowania w wyborach
parlamentarnych w roku 2001. Możemy też granice tego przedziału wyrazić
w procentach i wtedy powiemy, że niemal na pewno od 57,7% do 63,7% Po-
laków pozytywnie odpowiedziałoby na pytanie o udział w wyborach. Błąd
naszego wnioskowania nie jest większy niż 0,001.
Na początku tego rozdziału wspomnieliśmy też o wyborach prezydenckich
w roku 2000. Przypomnijmy, że do głosowania w tych wyborach przyznało
się 1829 osób, czyli 73,9% ankietowanych w PGSS. Po zamianie odpowie-
dzi „tak” na jedynki, a wszystkich innych na zera, średnia w próbie PGSS
wynosi x = 0,739. Wariancję w tej próbie policzymy tak samo jak w odnie-
sieniu do pytania o wybory parlamentarne:
1829 × (1 − 0,739) 2 + 644 × (0 − 0,739) 2
s2 = = 0,14
2473
Ponownie obliczyliśmy wielkość obciążonego estymatora wariancji, a po-
nieważ próba jest duża, więc estymator obciążony i nieobciążony są niemal
identyczne. Teraz podstawimy oba estymatory (średniej i wariancji) do wzo-
ru i wyznaczymy granice przedziału ufności z prawdopodobieństwem 0,999
zawierającym średnią w populacji.
PODSTAWY WNIOSKOWANIA STATYSTYCZNEGO 243
⎧⎪ 0,14 0,14 ⎫⎪
µ∈ ⎨0,739 − 3,29 × ; 0,739 + 3,29 × ⎬
⎪⎩ 2473 2473 ⎪⎭
czyli
µ∈{0,719; 0,759}
Po zamianie granic przedziału na procenty możemy autorytatywnie stwier-
dzić, że proporcja Polaków przyznających się do głosowania w wyborach
prezydenckich waha się od 71,9% do 75,9%, z prawdopodobieństwem błędu
równym 0,001.
JAK DUŻA MUSI BYĆ PRÓBA, ABY MOŻNA BYŁO ESTYMOWAĆ ŚREDNIĄ?
CZY JEŚLI ULICA JEST MOKRA, TO PADAŁ DESZCZ? O PRAWDZIWOŚCI HIPOTEZ STATYSTYCZNYCH
Czy fakt, że 46% osób z grupy tych, którzy mieli sobie przypomnieć dwana-
ście wydarzeń z dzieciństwa, uważa, iż jest wiele takich wydarzeń, których
PODSTAWY WNIOSKOWANIA STATYSTYCZNEGO 249
co najmniej jedna osoba, która oceniała swoją pamięć dzieciństwa jako lep-
szą niż przynajmniej jedna osoba z grupy „czterech wspomnień”. Wniosko-
wanie na podstawie wyników eksperymentu psychologicznego nie polega na
znajdowaniu stałych zależności typu: „każdy, kto ma kłopoty z przypomina-
niem sobie, będzie źle oceniał swoją pamięć”.
A teraz uważaj: wnioskowanie w psychologii to poszukiwanie pewnych ten-
dencji w zachowaniu się ludzi.
Stwierdzenie, że więcej ludzi z grupy „czterech wspomnień” lepiej ocenia
swoją pamięć niż z grupy „dwunastu wspomnień”, może prowadzić jedynie
do uogólnienia typu „jeżeli ktoś odczuwa trudności z przypominaniem sobie
pewnych wydarzeń, to jest bardziej prawdopodobne (a nie stuprocentowo
pewne), że będzie oceniał swoją pamięć jako gorszą niż ten, kto nie odczuwa
trudności z przypominaniem”.
Dobrze oddaje tę zasadę przykład z ekstrawertykiem. Zasadniczo lubi on
kontakty z innymi ludźmi, łatwo nawiązuje nowe znajomości oraz unika sy-
tuacji, w których czułby się samotny. Nawet jednak bardzo towarzyska oso-
ba może zamrozić kontakty ze znajomymi, choćby na czas sesji egzamina-
cyjnej (ciekawe, czy znasz kogoś takiego). Opis ekstrawertyka ujawnia więc
przede wszystkim najbardziej typową charakterystykę jego zachowania,
pewną jego względnie stałą skłonność lub tendencję, ale tak naprawdę ta
charakterystyka staje się dla nas wyrazista dopiero wtedy, gdy zostanie ze-
stawiona z typowym opisem zachowania się introwertyka.
1
czynek (lub odwrotnie: dziewczynek niż chłopców), wynosi . Podobnie
2
jak w przypadku rzutu monetą – wypadnie orzeł albo reszka. Dalej Arbuth-
not rozumował w następujący sposób: ponieważ prawdopodobieństwo prze-
1
wagi noworodków jednej płci w ciągu jednego roku wynosi , więc szansa,
2
że będzie więcej noworodków tej samej płci w dwóch kolejnych latach, wy-
1 1
niesie × , czyli znowu tak jak w przypadku rzutu, ale tym razem dwoma
2 2
1
monetami – prawdopodobieństwo wypadnięcia dwóch orłów też wynosi .
4
Kontynuując ten kierunek myślenia, Arbuthnot doszedł do wniosku, że
prawdopodobieństwo tego, że w kolejnych 82 latach urodzi się więcej
1
chłopców niż dziewczynek, wynosi 82 . Czy wiesz, ile to jest? Zero, a po
2
przecinku 23 zera, a potem czwórka. Przyznasz, że to niewiele.
Karl Pearson
Test statystyczny możemy więc zdefiniować jako procedurę pozwalającą na
(1857-1936) obliczenie prawdopodobieństwa otrzymania danego wyniku w eksperymen-
cie przy założeniu, że prawdziwa jest hipoteza zerowa.
Kluczowe w tej definicji jest wzajemne odniesienie dwóch pojęć: „wyniku w
eksperymencie” i „prawdopodobieństwa uzyskania tego wyniku”. U Johna
Arbuthnota wynikiem badań była liczba kolejnych lat, w których urodziło
się więcej chłopców niż dziewczynek.
A co jest wynikiem w eksperymencie Winkielmana i współpracowników do-
tyczącym związku między trudnością przypominania a oceną własnej pa-
mięci? Otóż jest nim proporcja tych, którzy przyznawali się do trudności
PODSTAWY WNIOSKOWANIA STATYSTYCZNEGO 253
* Do dzisiaj jednak sceptycy która z dwóch wziętych pod uwagę hipotez jest bardziej prawdopodobna: ze-
zastanawiają się, czy takie połą- rowa czy alternatywna.
czenie w ogóle jest możliwe.
Piszą na ten temat m.in.: Po latach doszło jednak do zbliżenia tych stanowisk. Od Fishera wzięto ideę
Klemens Szaniawski (1994).
O nauce, rozumowaniu i warto- odrzucania hipotezy zerowej przy poziomie α = 0,05. Od Neymana i Pearso-
ściach. Warszawa: PWN oraz na zaś wzięto ideę porównywania prawdopodobieństw hipotezy zerowej
Gerd Gigerenzer i David Murray
(1987). Cognition as intuitive
i hipotezy alternatywnej, w wyniku którego jako poprawny przyjmuje się
statistics. Hillsdale: Erlbaum. wniosek, że jeżeli hipoteza zerowa została odrzucona, to jako prawdziwą
można przyjąć hipotezę alternatywną*.
Sytuacja zobrazowana w tabeli 5.7 to tzw. macierz wypłat, czyli zapis kon-
sekwencji (a więc właśnie wypłat) tego, co się stanie, gdy podejmiesz po-
prawną lub błędną decyzję. To, jaki sposób uczenia się wybierzesz – podob-
nie jak w przypadku Teoretyka – także zależy od wielu różnych okoliczności
(np. Twojej motywacji czy subiektywnego poczucia użyteczności wypłat).
Idąc za sugestią Teoretyka, skłaniasz się raczej do podjęcia decyzji (1). Nie
masz jednak pewności, jak jest naprawdę. Możesz się przecież pomylić.
Pewne jest tylko to, że konsekwencją Twojej decyzji jest albo zdanie egza-
minu, albo – jeśli podejmiesz decyzję niezgodną z tym, jak jest naprawdę –
oswojenie się z myślą o sesji poprawkowej.
Na koniec chcielibyśmy zwrócić Twoją uwagę na to, że za sformułowaniem
„jak jest naprawdę” kryje się trzeci gracz z wymienionych na początku tego
rozdziału, czyli Przyroda. Tak naprawdę to tylko on wie, jak jest naprawdę.
Nieraz pewnie śmieje się z wysiłków i nieporadności Teoretyka, a czasem
kpi sobie z celów i chęci Praktyka i właśnie dlatego bywa nazywany Dia-
błem. Nieraz jak „pies ogrodnika” zazdrośnie strzeże swoich tajemnic, ale
bywa i tak, że determinacja Teoretyka w poszukiwaniu prawdy i upór Prak-
tyka dążącego do zaspokojeniu swoich potrzeb zmuszają go do kapitulacji.
Tabela 5.10. Dwa rodzaje Decyzja badacza Błąd, jaki badacz może popełnić
błędów, jakie popełnia ba-
dacz, przyjmując lub odrzuca- Odrzucić H0 Błąd I rodzaju (α)
jąc hipotezę zerową Przyjąć H0 Błąd II rodzaju (β)
[STATISTICA]
4
prawdopodobień-
3 stwo błędu I ro-
dzaju
0
0,58 0,60 0,62 0,64 0,66 0,68 0,70 0,72 0,74 0,76 0,78 0,80 0,82
14
Rozkład średnich dla
Warszawy
(N = 141) 12
prawdopodobień-
stwo błędu II rodzaju 6
0
0,74 0,76 0,78 0,80 0,82 0,84
Pytanie, jakie stoi przed badaczem, dotyczy jednak nie tego, czy średnia
w próbie z jednego miasta jest wyższa od średniej w drugim mieście (bo to
przecież widać!), ale tego, czy średnia wśród wszystkich mieszkańców War-
szawy jest wyższa niż średnia dla wszystkich mieszkańców Wrocławia.
A zatem hipoteza zerowa w tym eksperymencie brzmi:
PODSTAWY WNIOSKOWANIA STATYSTYCZNEGO 265
MOC TESTU
[STATISTICA] 4
0
0,55 0,60 0,65 0,70 0,75 0,80 0,85
Prawdopodobieństwo
5
błędu II rodzaju = 0,05
4
Moc testu = 0,95
3
0
0,80 0,85 0,90 0,95 1,00 1,05 0,85
Średnia na górnym wykresie równa się 0,70 i jest taka sama jak średnia dla
próby, którą wylosowaliśmy z Wrocławia. Na tym wykresie zaznaczyliśmy
również wartość 0,80, powyżej której znajduje się 5% najwyższych średnich
ze wszystkich 30-elementowych próbek wylosowanych z populacji, w której
średnia głosujących jest taka sama jak we Wrocławiu.
Odchylenie standardowe na dolnym wykresie jest takie samo jak na górnym.
Dolny wykres został tak dopasowany do tego na górze, że 5% wszystkich
możliwych do uzyskania średnich w próbach 30-elementowych znajduje się
poniżej wartości 0,81. Średnia w dolnym rozkładzie wynosi 0,92.
Oznacza to, że aby moc testu wyniosła 0,95, przy pobieraniu dwóch 30-ele-
mentowych próbek z populacji PGSS i przy ustalonym kryterium odrzucania
hipotezy zerowej α = 0,05 różnica między średnimi musi być co najmniej ta-
ka, jak między średnimi na wykresie 5.14, a więc: 0,92 – 0,70 = 0,21. Ina-
czej mówiąc, jeżeli pobierzesz dwie 30-elementowe próby z populacji Pola-
ków przyznających się do głosowania w wyborach prezydenckich 2000, to
przy ustalonym α = 0,05, prawdopodobieństwo popełnienia błędu II rodzaju
też będzie wynosić 0,05 dopiero wtedy, gdy różnica pomiędzy proporcjami
głosujących w obu tych próbach wyniesie co najmniej 21%.
270 WNIOSKOWANIE STATYSTYCZNE
WIELKOŚĆ EFEKTU
Odrzucenie hipotezy zerowej wcale nie musi oznaczać, że udało Ci się udo-
wodnić to, co zamierzałeś, choć większość badaczy jest przekonana, że tak
właśnie jest. Jeżeli odrzucisz hipotezę zerową, to po prostu stwierdzisz, że
gdyby była prawdziwa, wówczas byłaby bardzo mała szansa (mniejsza niż
ustalona z góry wartość α) uzyskania przypadkowo takich danych, jakimi
akurat dysponujemy. Może jednak się okazać, że chociaż mamy podstawy
do odrzucenia hipotezy zerowej, to zależność, której istnienie postulujemy
w rzeczywistości, jest bardzo niewielka.
Jedną z metod pozwalającą na stwierdzenie, co tak naprawdę wykazał ba-
dacz, odrzucając hipotezę zerową, jest obliczenie tzw. wielkości efektu. Jest
ona różnie definiowana dla różnych sytuacjach badawczych i dlatego bę-
dziemy się do tego pojęcia jeszcze nieraz odwoływać w następnych rozdzia-
łach, przedstawiając poszczególne testy statystyczne. W tym miejscu poda-
my sposób obliczenia wielkości efektu wtedy, gdy porównujemy ze sobą
dwie średnie. Wartość tę, oznaczaną za pomocą litery d, można zdefiniować
jako różnicę pomiędzy średnimi, podzieloną przez odchylenie standardowe
danej cechy w populacji. Na przykład dla próbek osób mieszkających we
Wrocławiu i w Warszawie, które przyznały się do głosowania w wyborach
prezydenckich, wielkość efektu wynosi:
µ1 − µ 2 0,79 − 0,70
d= = = 0,24
σ 0,37
Wartości wstawione do powyższego wzoru to: średnia głosujących w próbie
z Warszawy, średnia głosujących w próbie z Wrocławia i odchylenie stan-
dardowe w całej populacji PGSS.
* Cohen, J. (1992). A power Sposób interpretacji wielkości efektu opisał m.in. Jacob Cohen*. Zauważył
primer. Psychological Bulletin, on, że wielkość efektu równa 0,5 to średnia dla wyników badań referowa-
112, 155-159.
nych w większości artykułów naukowych. Wielkość efektu ok. 0,2 oznacza,
że badacz, być może, odkrył jakąś zależność (oczywiście wtedy, gdy odrzu-
cił hipotezę zerową), ale w gruncie rzeczy jest ona niewielka, bez znaczenia.
Tak właśnie jest w przypadku porównania proporcji głosujących do wszyst-
kich mieszkańców w Warszawie i we Wrocławiu. Nawet jeślibyśmy złago-
dzili kryterium odrzucania hipotezy zerowej do α = 0,1, to ogłaszanie, że
mieszkańcy Warszawy istotnie częściej głosowali niż mieszkańcy Wrocła-
wia, w gruncie rzeczy byłoby stwierdzeniem bardzo niewielkiej zależności –
ostatecznie różnica w proporcji głosujących wynosi zaledwie 9 punktów
procentowych. Z dużym efektem mamy do czynienia wtedy, gdy jego war-
tość zbliża się do 0,8.
Wielkość efektu przy porównywaniu średnich zależy od różnicy między
średnimi w próbach, a także od wielkości odchylenia standardowego w po-
PODSTAWY WNIOSKOWANIA STATYSTYCZNEGO 271
µ1 − µ 2 = d × σ
A ponieważ chcemy, by wielkość efektu d była równa 0,5, więc różnica po-
między średnimi powinna wynosić:
Gdybyś chciał, aby wielkość efektu wynosiła 0,5, wówczas dla poziomu α =
= 0,05 próba badana powinna liczyć około 100 osób badanych. Jeżeli po-
równujesz dwie próby, to w każdej z nich powinno się znaleźć co najmniej
po 50 obserwacji. Zauważ, że im większego efektu się spodziewasz, tym
mniej potrzeba obserwacji, aby wykazać jego istnienie.
Z drugiej jednak strony zwiększanie wielkości efektu, związane ze zmniej-
szaniem liczby obserwacji, łączy się z koniecznością zmniejszania poziomu
α, czyli z zaostrzaniem kryterium niezbędnego do odrzucenia hipotezy
zerowej.
Rysunek 5.15. Relacja
0,95
między poziomem α i wielko-
ścią efektu dla ustalonej na 0,9
jednym poziomie wartości
mocy testu (= 0,80) i stałej li- 0,85
czebności próby (n = 80)
0,8
[STATISTICA]
Wielkość efektu d
0,75
0,7
0,65
0,6
0,55
0,5
0 0,02 0,04 0,06 0,08 0,1 0,12 0,14 0,16 0,18 0,2
Alfa
Rysunek 5.16. Relacja
1,2
między wielkością efektu
i liczebnością próby dla usta-
lonych na jednym poziomie 1
wartości poziomu α = 0,05
oraz mocy testu (= 0,80)
0,8
[STATISTICA]
Wielkość efektu d
0,6
0,4
0,2
0
0 100 200 300 400 500 600 700
Liczebność próby
psychologię, to jej średnia ocen jest taka sama jak średnia ocen dla wszyst-
kich studentów tej uczelni.
Jeśli średni wynik psychologów nie różniłby się zasadniczo od średniego
wyniku dla wszystkich studentów uczelni, to moglibyśmy powiedzieć, że ze
względu na średnią ocen z sesji letniej, studenci psychologii należą do tej
samej populacji co wszyscy inni. Gdyby jednak studenci psychologii zdecy-
dowanie lepiej (lub zdecydowanie gorzej) wypadli na tle wszystkich studen-
tów, wtedy moglibyśmy wnioskować, że – ze względu na badany parametr –
nie należą oni do tej samej populacji, co wszyscy pozostali. To tak, jakby na
tę sesję zostali jakoś szczególnie namaszczeni.
Średni wynik testu dla 151 studentów zdających egzamin ze statystyki wy-
niósł µ = 15,61 punktów, a odchylenie standardowe σ = 3,34. Są to znane
parametry populacji.
Hipoteza alternatywna, jaką postawiliśmy przed badaniami, brzmiała:
H1: Średnia w badanej grupie jest wyższa niż średnia w populacji.
Zapisana za pomocą symboli, mogłaby wyglądać tak:
H1: x > µ
W tej sytuacji hipoteza zerowa powinna brzmieć:
H0: Nie ma różnicy pomiędzy średnią w próbie a średnią w populacji,
czyli:
H0: x = µ
Grupa osób, która opuściła nie więcej niż dwa wykłady w ciągu semestru, li-
czyła dokładnie 30 osób (i tak w sumie mieliśmy niezły wynik). Średnio
uzyskały one na egzaminie x = 16,77 , a odchylenie standardowe wynosiło
s = 3,95.
280 WNIOSKOWANIE STATYSTYCZNE
Zastosujemy teraz ten sam pomysł, ale w odniesieniu do znanych nam staty-
styk i parametrów. Obliczając wartość wyniku standaryzowanego de facto
obliczamy wartość testu z. Wzór na test z wygląda więc następująco:
x −µ
z=
σx
282 WNIOSKOWANIE STATYSTYCZNE
hipotetyczna
średnia w populacji średnia w próbie
µ x
hipotetyczna
średnia w próbie średnia w populacji
x µ
średnia w populacji
x µ x
To ma sens – powiesz – ale czy zatem nie lepiej po prostu zawsze testować
hipotezę dwustronną? Jest bezpieczniejsza, a przecież i tak zawsze jakiś wy-
nik uzyskamy. A poza tym nie zawsze trzeba byłoby przyznawać się do nie-
zbyt trafionej hipotezy alternatywnej. Wreszcie można byłoby po prostu naj-
pierw poczekać na wyniki badania i do końcowego raportu wpisać taką hipo-
tezę, która akurat została potwierdzona. Coś tu jednak nie gra!
W rozdziałach poświęconych logice testowania hipotez oraz konsekwencjom
błędów wynikających z decyzji badacza napisaliśmy, że wnioskowanie
w statystyce z reguły sprowadza się do tego, aby na podstawie danych od-
rzucić jedno z dwóch możliwych wyjaśnień badanego zjawiska: przypadek
lub zmienną niezależną. Badacz-Teoretyk tak planuje eksperyment, aby
mógł na podstawie uzyskanych wyników, wykluczając jedno z tych wyja-
śnień, przyjąć drugie.
To, co składa się na eksperyment, jest więc nieprzypadkowo podporządko-
wane podstawowej myśli, sformułowanej przez badacza w postaci hipotezy
alternatywnej. I z tego punktu widzenia nie jest wszystko jedno, jaka ona jest
i czy ma ona postać jedno-, czy dwustronną. Jest taka, jaka jest aktualna
wiedza badacza, skądkolwiek by ją zaczerpnął. I tu nie chodzi także o to, czy
hipoteza się potwierdzi, czy nie, ponieważ w gruncie rzeczy każdy wynik
eksperymentu jest pozytywny – albo umacnia badacza w dotychczasowej
wiedzy, albo sugeruje jego niewiedzę i potrzebę dalszych badań.
Najważniejsze w grze umysłu badacza-Teoretyka ze światem-Przyrodą jest
to, że obowiązują w niej pewne reguły i nie powinno się ich łamać. Jeśli
286 WNIOSKOWANIE STATYSTYCZNE
dająca jej wartość testu z wynosiłaby nie 1,90, ale –1,90. Czy umiałbyś poli-
czyć tę średnią? Musimy zacząć od przekształcenia znanego ci wzoru. Jeżeli:
x−µ
z=
σx
to
x = µ + zσ x
czyli
x = 15,61 + (−1,90) × 0,61 = 15,61 − 1,159 = 14,451
No i gotowe. Jeśliby więc studenci uzyskali średnią 14,451, to odpowiadają-
cy jej wynik testu z wyniósłby –1,90, co znaczyłoby, że moglibyśmy przyjąć
lewostronną hipotezę alternatywną z prawdopodobieństwem popełnienia
błędu I rodzaju równym 0,0287 (por. rys. 6.3).
Stało się jednak inaczej. Jeśli więc chcemy być konsekwentni, musimy
stwierdzić, że prawdopodobieństwo średniej 16,77 i niższych od niej wynosi
0,9713 (powierzchnia poniżej z = 1,90), co oczywiście skłoniłoby nas do
uznania, że nie ma podstaw do odrzucenia lewostronnej hipotezy zerowej
(zob. rys. 6.5).
Rysunek 6.5. Powierzchnia
pod krzywą normalną repre-
zentująca prawdopodobień-
stwo przyjęcia hipotezy zero-
wej (pole zaciemnione) wo-
bec błędnie sformułowanej
lewostronnej hipotezy alter- średnia
uzyskana
natywnej
w badaniach
średnia w populacji
µ x
Najpierw nanieśmy na rysunek 6.6 wynik testu z = 1,90 (zob. rys. 6.7).
290 WNIOSKOWANIE STATYSTYCZNE
z = 1,90
obszar odrzucenia obszar odrzucenia
hipotezy zerowej hipotezy zerowej
dla lewostronnej dla prawostronnej
hipotezy hipotezy
alternatywnej alternatywnej
Teraz mamy już komplet. Przeanalizujmy raz jeszcze trzy scenariusze badań.
• Zacznijmy od rozpatrzenia sytuacji, w której przed badaniami przyjęli-
byśmy prawostronną hipotezę alternatywną, zgodnie z którą studenci,
którzy nie opuszczali naszych wykładów, osiągnęli wyższe wyniki na
egzaminie niż wszyscy podchodzący do tego egzaminu. Z wykresu na
rysunku 6.7 oraz z porównania wartości liczbowych testu z = 1,90 i wy-
niku standaryzowanego z dla α = 0,05 dla hipotezy prawostronnej
(z = 1,64) wynika, że wynik testu jest wyższy niż wynik standaryzowany
z dla przyjętego poziomu istotności α. Wobec tego można powiedzieć,
że wynik testu „wpada w obszar odrzucenia hipotezy zerowej”, a zatem
pozwala na przyjęcie hipotezy alternatywnej. Studenci, którzy regular-
niej uczęszczali na nasze wykłady, uzyskali na egzaminie statystycznie
istotnie wyższy wynik niż wszyscy studenci zdający ten egzamin. Zapis
tego wyniku statystycznego wygląda tak: z = 1,90; p<0,05.
• Przyglądając się rysunkowi 6.7, możesz teraz sam spróbować odpowie-
dzieć na pytanie, czy gdybyśmy przed badaniami przyjęli hipotezę dwu-
stronną, również zostałaby ona potwierdzona. Dla dwustronnej hipotezy
alternatywnej, kryterialny wynik standaryzowany z dla α = 0,05 wynosi
1,96. Jest więc nieco wyższy niż uzyskany w badaniach wynik testu
z = 1,90. Można powiedzieć zatem, że nie osiągnął on poziomu kryte-
rialnego lub też że „nie wpadł w obszar odrzucenia hipotezy zerowej”.
Oznacza to, że nadal znajduje się on w obszarze przyjęcia hipotezy ze-
rowej. Gdybyśmy więc przyjęli hipotezę dwustronną, po badaniu musie-
libyśmy przyznać, że niewiele wskazuje na to, aby studenci, którzy
opuszczają co najwyżej dwa wykłady ze statystyki, na egzaminie uzy-
skiwali średni wynik, który statystycznie istotnie różniłby się od śred-
niego wyniku uzyskanego przez wszystkich zdających ten egzamin. Po-
nieważ jednak wynik testu jest bardzo bliski wartości krytycznej, może-
my zinterpretować go jako „wyraźną, choć nieistotną statystycznie ten-
dencję”. Taki wynik może nas sprowokować do podjęcia dalszych ba-
dań. Chociaż średnia dla naszej grupy studentów nie różni się istotnie od
TESTOWANIE HIPOTEZ DOTYCZĄCYCH ŚREDNICH 291
Tabela 6.1. Wartości krytycz- Poziom odrzucania Wartość testu z, przy której można odrzucić H0
ne dla testu z dla kilku przy-
H0 (α) Test dwustronny Test lewostronny Test prawostronny
kładowych poziomów α
z < -1,96
0,05 z < -1,64 z > 1,64
lub z > 1,96
z < -2,34
0,02 z < -2,05 z > 2,05
lub z > 2,34
z < -2,58
0,01 z < -2,34 z > 2,34
lub z > 2,58
z < -3,29
0,001 z < -3,09 z > 3,09
lub z > 3,29
Test z można stosować wtedy, gdy rozkład danej cechy w populacji jest roz-
kładem normalnym oraz znamy średnią i odchylenie standardowe tego roz-
kładu. Znajomość średniej w populacji jest oczywiście warunkiem niezbęd-
nym do testowania hipotez o jednej średniej. Pytanie, jakie stawiamy, brzmi
TESTOWANIE HIPOTEZ DOTYCZĄCYCH ŚREDNICH 293
∑(X i − x) 2
s= i =1
n
Jak zapewne pamiętasz, odchylenie standardowe w próbie jest estymatorem
obciążonym, co w praktyce oznacza, że jest ono nieco mniejsze od odchy-
lenia standardowego w populacji. Jeżeli jednak próba liczy 30 elementów
i więcej, to ta różnica jest tak niewielka, że spokojnie można ją zaniedbać
(opisaliśmy to dokładnie w rozdziale o estymacji).
Zamiast nieznanego odchylenia standardowego w populacji możemy więc
do wzoru na test z wstawić wartość estymatora odchylenia standardowego
w próbie, ale pod warunkiem, że próba, jaką pobraliśmy, jest dostatecznie
duża, czyli zawiera więcej niż 30 elementów. Wzór na test z wyglądałby
wtedy tak:
x−µ
z=
s
n
z wynik testu z,
* Por. Aron, A., Aron, E. N. browaru Guinnessa nigdy nie zgodziłby się na opublikowanie danych świad-
(1999). Statistics for psychology. czących o tym, że różne próbki ich piwa mają różną jakość lub – mówiąc
Upper Saddle River: Prentice
Hall. dokładniej – że ich browar produkuje piwo lepsze i gorsze*.
ROZKŁAD t STUDENTA
Rozkład normalny
Gdy badana próba liczy mniej niż 30 elementów i sprawdzamy, czy badana
próba pochodzi z populacji o znanej średniej i nieznanym odchyleniu stan-
dardowym, wówczas odpowiednikiem testu z dla jednej próby jest test
t dla jednej próby. Wzór na ten test jest, przynajmniej po prawej stronie
znaku równości, taki sam jak wzór na test z:
x−µ
t=
s
n
co po przekształceniu może też wyglądać tak:
x−µ
t= n
s
t wynik testu t Studenta,
błędowi radykała. Jak pamiętasz, radykał łatwiej może popełnić błąd polega-
jący na odrzucaniu hipotezy zerowej wtedy, gdy jest prawdziwa, niż na jej
przyjęciu, gdy jest fałszywa. W tym kontekście o teście t mówi się, że jest
bardziej konserwatywny.
Dokładnie tak jak w przypadku testów dla jednej średniej, tak i tutaj analiza
statystyczna będzie polegać na obliczeniu prawdopodobieństwa uzyskania
takich wyników, jakie otrzymali Bower, Karlin i Dueck, ale w sytuacji, w
której nazywanie nie miałoby żadnego wpływu na przypominanie, to znaczy
gdyby uzyskana różnica między średnimi była tylko dziełem przypadku. Tak
właśnie powinna brzmieć hipoteza zerowa dla tego eksperymentu:
H0: Nie ma różnic między średnimi dla obu populacji,
czyli
µz nazwami = µbez nazw
Obydwie średnie oznaczają wartości wskaźników rozpoznania obrazków
z nazwami i bez nazw dla całej populacji, czyli dla wszystkich takich studen-
tów, którzy potencjalnie mogli wziąć udział w tym eksperymencie. Wnios-
kowanie dotyczy więc jednej populacji osób, które zostały postawione
w dwóch różnych sytuacjach: albo podawano im nazwy rysunków, albo ich
nie podawano. Biorąc jednak pod uwagę tę zmienną, można również przy-
jąć, że jest ona czynnikiem tak dalece różnicującym zakres zapamiętywania
obrazków przez osoby należące do jednej populacji, iż naprawdę trzeba by
TESTOWANIE HIPOTEZ DOTYCZĄCYCH ŚREDNICH 303
Choć piętrowa postać wzoru na ten test może nieco odstraszać, to w gruncie
rzeczy powiela on tylko doskonale znany ci wzór na wynik standaryzowany
z czy też wzór na test z lub t dla jednej średniej.
304 WNIOSKOWANIE STATYSTYCZNE
Zwróć uwagę na to, że wszystkie te wzory łączy jedna idea: jest nią iloraz
różnicy między dwiema wartościami przez odchylenie standardowe. W licz-
niku najczęściej pojawiają się albo dwie średnie, albo jedna średnia i jakiś
konkretny wynik, a w mianowniku jest to albo odchylenie standardowe
w próbie, albo z próby, albo wreszcie – jak w przypadku tego wzoru na test
t – dwa odchylenia standardowe obliczone dla obu porównywanych grup.
Jeśli dodamy do tego, że odchylenie standardowe jest wskaźnikiem zmien-
ności wewnątrz każdej próby i jego wielkość jest wynikiem niekontrolowa-
nego wpływu zmiennych niezależnych zakłócających na zmienną zależną, to
się okaże, że wszystkie te wzory zawierają w sobie bardzo proste przesłanie:
jest nim ujęcie różnicy między dwiema wartościami, na którą miały wpływ
jakieś niekontrolowane czynniki.
Wróćmy do naszego nowego piętrowca. Jak widać, wzór na test t wymaga
podania w mianowniku wariancji w obu grupach. Byłoby lepiej, gdybyśmy
znali wariancję w całej populacji, ale skoro jej nie znamy, to możemy wyko-
rzystać wariancje w grupach jako estymatory wariancji w populacji. W zasa-
dzie nie ma znaczenia, czy wykorzystamy wartość zwykłej wariancji w pró-
bie, czyli bez daszka, czy wartość nieobciążonego estymatora wariancji, czy-
li wariancję z daszkiem.
W obu przypadkach wzory na test t nieco się różnią, ale wynik jest dokład-
nie taki sam. W praktyce najczęściej stosuje się obliczanie testu t, uwzględ-
niając wariancję „bez daszka”.
W eksperymencie Bowera i współpracowników wartości wariancji w obu
grupach wynosiły odpowiednio: w grupie „bez nazw” s12 = 6,77 , a w grupie
„z nazwami” s22 = 12,5 .
Po podstawieniu wszystkich danych do wzoru łatwo mogli obliczyć wartość
testu t Studenta:
14,2 − 19,6
t= = −3,48
9 × 6,77 + 9 × 12,5 ⎛ 1 1 ⎞
⎜ + ⎟
9+9−2 ⎝9 9⎠
df = (n1 – 1) + (n2 – 1) = n1 + n2 – 2
gdzie n1 to liczebność pierwszej grupy, czyli „bez nazwy”, a n2 oznacza li-
czebność drugiej grupy, czyli „z nazwą”.
Ponieważ w analizowanym przykładzie w obu grupach badano po 9 osób,
więc liczba stopni swobody wynosi:
df = 9 + 9 – 2 = 16
Hipoteza alternatywna jest jednostronna (średnia w grupie „bez nazwy” jest
mniejsza od średniej w grupie „z nazwą”), w więc w tablicy C należy odszu-
kać wartość krytyczną dla testu jednostronnego.
Jeżeli przyjmiemy, że α = 0,05, to dla df = 16 wartość krytyczna t0,05 wynosi
1,746. W tablicy C podane są tylko liczby dodatnie, a ponieważ testowana
hipoteza alternatywna jest lewostronna, więc przed odczytaną wartością kry-
tyczną musimy dostawić minus i dopiero teraz sprawdzić, czy zachowana
jest nierówność wynikająca z tej hipotezy:
–3,48<–1,79
Jak widać, wynik testu t jest mniejszy od wartości krytycznej t0,05. Oznacza
to, że z prawdopodobieństwem popełnienia błędu I rodzaju równym 0,05
możemy odrzucić hipotezę zerową i przyjąć hipotezę alternatywną.
Wynik badań potwierdził przypuszczenie badaczy, że nazywanie bezsen-
sownych obrazków pomaga w ich zapamiętywaniu. Wniosek ten dotyczy
jednak nie tylko obu grup badanych, lecz także całych populacji, z których te
grupy pochodzą.
Łatwo sprawdzić, że także na poziomie α = 0,01, a nawet dla α = 0,005, od-
rzucilibyśmy hipotezę zerową. Odrzucilibyśmy ją nawet wtedy, gdyby hipo-
teza alternatywna była dwustronna. Spójrz tabelę 6.2, w której przepisaliśmy
fragment tablicy C z Aneksu:
Wynik testu jest większy tylko od wartości krytycznej t0,0005 dla hipotezy
jednostronnej na poziomie α = 0,0005. Dla porządku warto dodać, że do-
kładne prawdopodobieństwo uzyskania przypadkiem wartości t = –3,48
i mniejszych wynosi 0,001546. Można je łatwo obliczyć za pomocą progra-
mu STATISTICA.
306 WNIOSKOWANIE STATYSTYCZNE
x1 − x 2
z=
σ12 σ 22
+
n1 n2
Założenia różne
Moc testu Test mocniejszy niż z: mniej- Test słabszy niż t : większa
sza szansa na odrzucenie hi- szansa na odrzucenie hipote-
potezy zerowej zy zerowej
308 WNIOSKOWANIE STATYSTYCZNE
Przyglądając się jego konstrukcji, zastanówmy się raz jeszcze, od czego tak
naprawdę zależy jego wynik. Najkrócej można odpowiedzieć na to pytanie
w taki sposób: od tego, co zapiszemy w liczniku i w mianowniku. Wynik te-
stu t jest więc tym większy, im większa jest różnica między średnimi w licz-
niku lub im mniejsza jest wartość w mianowniku. Wielkość tej ostatniej jest
wprost proporcjonalna do wariancji w obu porównywanych grupach. Innymi
słowy, wynik testu t jest tym mniejszy, im mniejsza jest różnica między
średnimi w liczniku lub im większa jest wartość w mianowniku.
A teraz zapytajmy inaczej: czy z punktu widzenia stawianych hipotez ba-
dawczych (alternatywnych) wolałbyś, żeby wynik testu t był większy, czy
mniejszy? Chwila na zastanowienie – oczywiście, że większy. Im jest więk-
szy, tym większą mam szansę na odrzucenie hipotezy zerowej i tym mniej-
szy popełniam błąd, podejmując tę decyzję. Dobrze. A zatem, żeby wynik
testu był większy, musisz zadbać o dwie sprawy.
Po pierwsze, planując eksperyment, jesteś szczególnie zainteresowany tym,
by wyniki w grupie eksperymentalnej i kontrolnej czy w jakichkolwiek po-
równywanych grupach danych jak najbardziej różniły się od siebie. Tę
zmienność wyników pomiędzy grupami określa się jako wariancję między-
grupową. Jeśli chcemy mieć wyższy wynik w teście, musimy maksymali-
zować tę wariancję. Pytasz, w jaki sposób. Niemal cały nasz przewodnik jest
właśnie o tym, ale damy ci dwie krótkie rady:
• stawiaj dobrze przemyślane hipotezy alternatywne,
• projektuj eksperymenty z wielką dbałością o szczegóły, starając się kon-
trolować wpływ wszystkich ważnych zmiennych niezależnych na
zmienną zależną.
I sukces gwarantowany!
Tyle o liczniku w naszym wzorze. Zajmijmy się teraz mianownikiem, w któ-
rym mamy zapisaną informację o zmienności wyników w obu grupach, czyli
po drugie..
Im wyższe są wariancje s12 i s22 , tym wyższa jest wartość wyrażenia pod
pierwiastkiem (dla danych n1 i n2) i ostatecznie tym niższy jest wynik testu t.
Skoro tak, to jesteśmy szczególnie zainteresowani tym, aby zmienność wy-
ników wewnątrz grup (czyli wariancja wewnątrzgrupowa) była jak naj-
mniejsza. Jest ona przecież efektem wpływu niekontrolowanych zmiennych
zakłócających na zmienną zależną. Nieprzypadkowo nazywa się ją również
wariancją błędu. Ale jak sobie z tą wariancją poradzić? Jest na to tylko je-
den sposób. Planując badania:
• postaraj się przewidzieć możliwie jak najwięcej zmiennych, które mogą
wpłynąć na zachowania się osób badanych,
310 WNIOSKOWANIE STATYSTYCZNE
* Baddeley, A. (1998). Pamięć. Alan Baddeley opisuje w swojej książce o pamięci* eksperyment, w którym
Poradnik użytkownika. Warsza- wzięła udział grupa płetwonurków. Chodziło o ustalenie, czy człowiek, któ-
wa: Prószyński i S-ka.
ry nurkuje pod wodą, jest równie sprawny intelektualnie, jak na powierzchni.
Mówiąc dokładniej, Baddeley chciał sprawdzić, jaki jest wpływ tzw. narko-
zy azotowej, czyli pewnego stanu „upojenia”, który występuje przy oddy-
chaniu pod wysokim ciśnieniem, na funkcjonowanie intelektualne. Zadanie
osób badanych polegało na rozwiązywaniu prostego testu rozumowania.
Widząc na kartce parę liter, np. „A ... B” musieli oni oceniać prawdziwość
zdań typu: „A jest poprzedzane przez B” (w tym przypadku badani powinni
uznać, że jest to zdanie fałszywe). Okazało się, że badani popełniali znacznie
więcej błędów w tym teście wtedy, gdy rozwiązywali go, nurkując na głębo-
kości 30 metrów pod wodą, niż wtedy, gdy znajdowali się na powierzchni.
Sytuacja opisana przez Baddeleya może być przykładem eksperymentu,
w którym zbieramy tzw. dane zależne, czyli pochodzące z kilkukrotnego ba-
dania tych samych osób. Zmienna niezależna – rozwiązywanie testu pod
wodą lub na powierzchni – przyjmowała w eksperymencie Baddeleya dwie
wartości w tej samej grupie płetwonurków. Nazwa „dane zależne” lub „pró-
by zależne” bierze się stąd, że ponieważ pochodzą od tych samych osób ba-
danych, w każdym pomiarze zależą od siebie.
Fakt, że gromadzone dane nie pochodzą z dwóch różnych grup, ale od tych
samych osób postawionych w różnych sytuacjach, jest tak ważnym elemen-
tem procedury badawczej, że nie można go pominąć również w analizie sta-
tystycznej. Największą zaletą tej procedury jest to, że na ogół prowadzi ona
TESTOWANIE HIPOTEZ DOTYCZĄCYCH ŚREDNICH 311
∑ (d i − d )2
sd = i =1
n
Niestety, nie mamy danych surowych z eksperymentu Baddeleya. Z pewno-
ścią nie miałby on jednak nic przeciwko temu, gdybyśmy je zmyślili –
oczywiście wyłącznie do celów dydaktycznych. Załóżmy więc, że zbadał on
10 płetwonurków i po badaniach uzyskaliby oni takie wyniki, jak zamiesz-
czone w tabeli 6.4.
Tabela 6.4. Fikcyjne wyniki Lp. Pomiar na powierzchni Pomiar w wodzie Różnica pomiarów d
uzyskane przez osoby badane
w eksperymencie Baddeleya 1 17 13 4
z płetwonurkami (dane w tabeli 2 11 12 –1
oznaczają liczby błędów po-
pełnionych przez każdego płe- 3 22 16 6
twonurka) 4 18 9 9
5 19 15 4
6 13 14 –1
7 14 10 4
8 16 8 8
9 19 13 6
10 14 16 –2
zależnych liczba stopni swobody jest obliczana w taki sam sposób jak
w teście t dla jednej średniej, czyli df = n – 1.
Ponieważ w eksperymencie Baddeleya testowana hipoteza alternatywna była
dwustronna, musimy więc znaleźć wartość krytyczną dla testu dwustronne-
go, przy założeniu, że α = 0,05 oraz liczba stopni swobody df = 9. Wartość
krytyczna zapisana w tablicy C wynosi 2,262. Ponieważ
t = 3,03 > t0,05 = 2,262
możemy więc odrzucić hipotezę zerową i stwierdzić, że przebywanie pod
wodą znacząco obniża sprawność rozumowania u płetwonurków. Prawdo-
podobieństwo uzyskania wyniku t = 3,03 w teście dwustronnym dla rozkła-
du o dziewięciu stopniach swobody w rzeczywistości wynosi 0,014.
[STATISTICA] 0,020
0,016
0,012
0,008
0,004
0,000
80 85 90 95 100 105 110 115 120
0,032 d = 0,5
0,024
0,020
0,016
0,012
0,008
0,004
0,000
80 85 90 95 100 105 110 115 120
314 WNIOSKOWANIE STATYSTYCZNE
0,032 d = 0,8
Rozklad B (112, 15)
0,028 Rozklad A (100, 15)
0,024
0,020
0,016
0,012
0,008
0,004
0,000
80 85 90 95 100 105 110 115 120
Bez względu na to, czy zastosowaliśmy test z, czy test t, wielkość efektu ob-
licza się, dzieląc różnicę między średnią w próbie i średnią w populacji przez
odchylenie standardowe danej cechy w populacji. Oczywiście, gdy nie zna-
my odchylenia standardowego w populacji, możemy użyć estymatora tego
odchylenia na podstawie danych z badanej próby (wszystko jedno, czy uży-
jemy wartości „z daszkiem”, czy „bez daszka” – różnica w wynikach jest
nieznaczna). Wielkość efektu obliczaną dla testów dla jednej średniej ozna-
cza się symbolem f, a wzór na jej obliczenie można zapisać następująco:
x−µ
f =
σ
Na przykład w odniesieniu do danych z badania, w którym staraliśmy się
uchwycić związek między chodzeniem na wykłady a wynikiem na egzami-
nie ze statystyki, wielkość efektu wynosi:
16,77 − 15,61
f = = 0,35
3,34
Przypomnijmy, że liczby w tym wzorze to:
• średnia liczba punktów zdobytych na egzaminie przez studentów, którzy
opuścili nie więcej niż dwa wykłady (16,77),
• średnia liczba punktów wśród całej populacji studentów (15,61),
• odchylenie standardowe w rozkładzie punktów w całej populacji (3,41).
Jeśli więc testowaliśmy hipotezę, że studenci, którzy opuścili co najwyżej
dwa wykłady, uzyskają więcej punktów na egzaminie niż wszyscy studenci
z danego roku, to ustaloną wielkość efektu można by określić jako raczej
słabą, w każdym razie poniżej średniej jego wielkości. Oznaczałoby to, że
316 WNIOSKOWANIE STATYSTYCZNE
Wielkość efektu w testach dla dwóch średnich obliczonych dla danych nie-
zależnych oznacza się literą d i oblicza podobnie jak wielkość efektu w te-
ście dla jednej średniej. Różnicę pomiędzy porównywanymi średnimi należy
podzielić przez odchylenie standardowe danej cechy w populacji. Gdy nie
znamy tego odchylenia, możemy:
• sprawdzić, czy odchylenia standardowe w obu grupach nie różnią się
istotnie od siebie (czyli że wartość testu F jest nieistotna, o czym jeszcze
później szczegółowo napiszemy), oraz obliczyć odchylenie standardowe
wspólne dla danych w obu grupach (rozwiązanie lepsze),
• obliczyć tzw. dostosowane odchylenie standardowe według następu-
σ12 + σ 22
jącego wzoru: σ′ = (rozwiązanie gorsze, ale nie aż tak złe).
2
Oczywiście wtedy, gdy nie znamy odchyleń standardowych w obu popula-
cjach, możemy wykorzystać ich oszacowania w obu badanych próbach.
Na przykład w opisanym wcześniej eksperymencie Gordona Bowera
i współpracowników (1975) okazało się, że osoby, którym przedstawia-
no bezsensowne obrazki z podpisami, zapamiętały ich średnio 19,6, a oso-
by z grupy kontrolnej, czyli oglądające obrazki bez podpisów, 14,2. Warian-
cja w grupie eksperymentalnej wyniosła: s12 = 12,5 , a w grupie kontrolnej
s22 = 6,77 . Dostosowane odchylenie standardowe, obliczone na podstawie
oszacowań odchyleń standardowych w populacji, wynosi:
12,5 + 6,77
s′ = = 3,1
2
Możemy teraz tę wartość wykorzystać do obliczenia wielkości efektu dla
danych z eksperymentu Bowera i współpracowników:
TESTOWANIE HIPOTEZ DOTYCZĄCYCH ŚREDNICH 317
* Cohen (1969) pierwotnie zde- Obliczając wielkość efektu dla danych zależnych, średnią różnic między po-
finiował wielkość efektu, odwo-
łując się do parametrów popula- miarami, czyli d , dzieli się przez odchylenie standardowe w rozkładzie róż-
cji. Stąd też wielkość efektu d nic między średnimi. Odchylenie to liczy się tak, jak np. odchylenie standar-
czasami nazywa się d Cohena
(ang. Cohen’s d) w odróżnieniu
dowe w próbie, z tym że danymi, które podstawiamy do wzoru, są różnice
od innych definicji wielkości między średnimi w każdej parze. Jeśli nie jesteś pewien, jak to zrobić, prze-
efektu, których można wiele rzuć kilka stron wstecz i znajdź opis eksperymentu Alana Baddeleya z roz-
znaleźć w artykułach dotyczą-
cych statystyki (zob. np. Ros- wiązywaniem testu rozumowania logicznego przez płetwonurków na po-
now, R. L., Rosenthal, L., Ru- wierzchni i pod wodą.
bin, D. B. (2000). Contrasts and
correlations in effect size estima- Dla fikcyjnych danych do tego eksperymentu wartość odchylenia standar-
tions. Psychological Science, 11, dowego wyniosła 3,66, średnia liczba poprawnych odpowiedzi podczas roz-
446-453). Cohen dopuszczał
wykorzystywanie statystyk pró- wiązywania testu na powierzchni – 16,3, a pod wodą – 12,6. Wielkość efek-
by do obliczania wielkości efek- tu dla tych danych wynosi zatem:
tu, tak jak to czynimy w tej czę-
ści (Cohen 1969, s. 64) i propo-
d 3,7
nuje, aby na oznaczenie efektu f = = = 1,01
obliczonego w ten sposób uży- sd 3,66
wać symbolu ds. Często jednak
ta mała literka s jest pomijana.
Okazuje się, że również i w tym przypadku mamy do czynienia z dużym
wpływem zmiennej niezależnej (miejsca rozwiązywania testu) na zmienną
zależną (poziom rozwiązania tego testu). Wyniki powyżej średniej uzyskane
przez płetwonurków na powierzchni są wyższe od 84% wszystkich wyników
uzyskanych przez tych samych płetwonurków pod wodą. Chociaż nie mieli-
śmy dostępu do danych źródłowych, to wiele wskazuje na to, że nasz wynik
niewiele odbiega od oryginału.
∑ (X i − x (c) ) 2
s(2c ) = i =1
N −1
TESTOWANIE HIPOTEZ DOTYCZĄCYCH ŚREDNICH 323
wariancja całkowita w zbiorze wszystkich danych wziętych razem (identyfikator (c) oznacza,
s(c2 )
że jest to właśnie wariancja całkowita),
wynik uzyskany przez i-tą osobę badaną, spośród wszystkich, które wzięły udział w ekspe-
Xi
rymencie,
x (c ) średnia całkowita, czyli średnia arytmetyczna obliczona dla wszystkich danych razem,
∑(X
i =1
i − x (c) ) 2
suma kwadratów odchyleń poszczególnych wyników od średniej całkowitej, począwszy od
pierwszego (i = 1), aż do ostatniego (i = N).
12 − 1
+ (0 − 0,5) + (1 − 0,5)
2 2
25
= = 2,27
12 − 1 11
Obliczając wariancję całkowitą, przyjęliśmy, że wszyscy badani zostali
przypadkowo dobrani z jakiejś populacji do jednej grupy.
Wzór na tak obliczaną wariancję wygląda tak samo jak wzór na obliczanie
nieobciążonego estymatora wariancji na podstawie danych w próbie.
• Od wyniku każdej osoby badanej odjęliśmy średnią dla wszystkich wyni-
ków, czyli 0,5 (kto nie wierzy, niech sam sprawdzi).
• Następnie każdą różnicę podnieśliśmy do kwadratu i wszystkie dodaliśmy
do siebie.
• To, co nam wyszło, podzieliliśmy przez liczbę wszystkich osób badanych
pomniejszoną o jeden.
Obliczona przez nas wielkość to wariancja całkowita s(c2 ) . Jest ona miarą
zmienności dla wszystkich wyników razem, bez zastosowania jakiegokol-
wiek kryterium ich podziału na grupy.
324 WNIOSKOWANIE STATYSTYCZNE
∑ (x
j =1
( odmowa ) j − x (c) ) 2
s(2odmowa ) =
J −1
2
s(odmowa ) wariancja międzygrupowa dla zmiennej „możliwość odmowy napisania listu”,
x (c ) średnia całkowita, czyli średnia arytmetyczna obliczona dla wszystkich danych razem,
∑(x
j =1
( odmowa ) j − x (c) ) 2 suma kwadratów odchyleń kolejnych średnich dla porównywanych grup od średniej całkowi-
tej, począwszy od pierwszej (j = 1), aż do ostatniej (j = J).
TESTOWANIE HIPOTEZ DOTYCZĄCYCH ŚREDNICH 325
∑ (x ( nagroda ) k − x (c ) ) 2
s(2nagroda) = k =1
K −1
2
s(nagroda ) wariancja międzygrupowa dla zmiennej „wysokość nagrody za napisanie listu”,
x (c ) średnia całkowita, czyli średnia arytmetyczna obliczona dla wszystkich danych razem,
∑(x
k =1
( nagroda ) jk − x (c ) ) 2
suma kwadratów odchyleń kolejnych średnich dla porównywanych grup od średniej całkowi-
tej, począwszy od pierwszej (k = 1), aż do ostatniej (k = K).
2
Wariancję tę określiliśmy jako s(nagroda ) , ponieważ jest ona miarą zmienności
KTÓŻ Z NAS JEDNAK WIE, NA JAKIE KATEGORIE NAPRAWDĘ DZIELĄ SIĘ BADANI?
x ( A) = 0,33 x (B ) = 1,17
∑ ∑(X il − xl )2
s 2
= l =1 i =1
N−L
( w)
2
s(w ) wariancja wewnątrz porównywanych grup,
∑(X
i =1
il − xl )2
suma podniesionych do kwadratu odchyleń poszczególnych danych od średniej w l-tej gru-
pie, czyli po prostu licznik wzoru na wariancję w próbie,
L nl
∑ ∑(X
l =1 i =1
il − xl )2
suma wszystkich sum podniesionych do kwadratu odchyleń poszczególnych danych Xil od
średniej w l-tej grupie, czyli dodane do siebie liczniki wzorów na wariancję w próbie.
s2 =
[(−1 − 0) ] [ ]
+ ( −1 − 0) 2 + (2 − 0) 2 + ( −1 − 1) 2 + (1 − 1) 2 + (3 − 1) 2 +
2
( w) 12 − 4
[ 2 2 2
] [
+ ( −1 − 1) + ( 2 − 1) + (2 − 1) + ( −1 − 0) 2 + (0 − 0) 2 + (1 − 0) 2 ] =
12 − 4
6+8+6+2
= = 2,75
8
Powyższy zapis jest dosyć długi, dlatego że wpisaliśmy do niego wszystkie
różnice między średnimi. Zauważ, że od każdego wyniku odejmowana jest
średnia grupy, do której ten wynik należał.
We wzorze pogrupowaliśmy kwadraty różnic dla każdej grupy za pomocą
nawiasów kwadratowych. To już czwarta wariancja, jaką policzyliśmy dla
naszych danych (nie licząc oczywiście tych, które liczyliśmy nielegalnie,
czyli z rzutem monetą i znakiem danej). Czas już uporządkować tę wiedzę.
ROZKŁAD F SNEDECORA
0,8
1,125
0,6
0,750
0,4
0,375
0,2
0,000 0,0
0 1 2 3 4 0 1 2 3 4
s(2nagroda )
H0: ≤1
s(2w)
s(2nagroda )
H2: >1
s(2w)
JAKIE MUSZĄ BYĆ SPEŁNIONE WARUNKI, ŻEBY MOŻNA BYŁO WYKORZYSTAĆ ANALIZĘ WARIANCJI
W BADANIACH EMPIRYCZNYCH?
–1, 2, 2 –1, 0, 1
tak
s 2 (tak ; $0,50) = 3 s 2 (tak ; $2,50 ) = 1
* Dean, L. M., Willis, F. N., Larry Dean, Frank Willis i Jay Hewitt* chcieli się dowiedzieć, w jakim za-
Hewitt, J. (1975). Initial interac- kresie fizyczny dystans między komunikującymi się żołnierzami w wojsku
tion distance among individuals
equal and unequal in military odzwierciedla różnice rang między nimi. Przyjęto założenie, że fizyczna od-
rank. Journal of Personality and ległość między rozmawiającymi ze sobą ludźmi może być interpretowana
Social Psychology, 32, 294-299.
w kategoriach dystansu społecznego.
Badania polegały na rejestracji zachowań 562 marynarzy w kantynie woj-
skowej. Nie mieli oni pojęcia, że są obserwowani. Przez kilka tygodni
współpracownicy eksperymentatorów (również marynarze) zapisywali dane
o tym, kto z kim nawiązuje kontakt werbalny i w jakiej randze są te osoby.
Za interakcję uznawano każdą wymianę zdań.
Zmienną niezależną w tym eksperymencie była różnica stopni wojskowych
pomiędzy rozmawiającymi marynarzami. Przyjmowała ona wartości od 0
(dwie osoby o tej samej randze) do 8 i więcej. Z kolei zmienną zależną był
fizyczny dystans pomiędzy rozmawiającymi osobami.
Na uwagę zasługuje pomysłowy sposób jej pomiaru.
Brano pod uwagę tylko interakcje pomiędzy osobami stojącymi i dla każdej
pary marynarzy zapisywano, ile dzieli ich płytek ceramicznych leżących na
podłodze. Ponieważ płytki były identyczne w całej kantynie, można było
więc uznać, że pomiar zmiennej zależnej przeprowadzono na skali przedzia-
łowej (jak pamiętasz, skala ta zakłada równe jednostki).
SS ( m ) = ∑ ( x j − x ( c ) ) n j
2
j=1
xj średnia dla dowolnej (j-tej) grupy wyróżnionej za pomocą zmiennej niezależnej głównej,
J nj
SS ( w) = ∑ ∑ (X ij − x j )2
j =1 i =1
xj średnia dla dowolnej (j-tej) grupy wyróżnionej za pomocą zmiennej niezależnej głównej,
∑(X i − x (c) )2
s 2
= i =1
N −1
(c)
SS ( m ) ∑ (x j − x (c) )2 n j
s(2m ) = = j=1
df ( m ) J −1
SS ( w) ∑ ∑ (X
j =1 i =1
ij − x j )2
s(2w) = =
df ( w) N−J
Mamy nadzieję, że symbolika tych piętrusów jest dla Ciebie już całkiem
czytelna. Jeśli masz jakieś wątpliwości, zatrzymaj się na chwilę i przejrzyj
raz jeszcze kilka ostatnich stron.
∑(X
N
Nieokreślone SS(c ) = ∑(X i =1
i − x (c ) ) 2
df(c) = N – 1
s (2c ) = i =1
i − x (c ) ) 2
–
N −1
J
∑ (x
J
s (2m )
∑ (x j − x (c ) ) 2 n j
Między grupami SS(m ) = j − x (c ) ) 2 n j df(m) = J – 1 F(m ) =
j =1 s(2m ) =
j =1 s (2w )
J −1
J nj
∑ ∑(X
J nj
∑ ∑(X
− x j )2
Wewnątrz grup SS(w ) = ij − x j )2 df(w) = N – J ij
–
j =1 i =1
j =1 i =1 s (2w ) =
N −J
a hipoteza alternatywna:
s(2m )
H1: F = >1
s(2w)
∑(X
Nieokreślone SS(c )
SS(c ) = i − x (c ) ) 2 df(c) = N – 1 s (2c ) = –
(cała) df(c )
i =1
A
s (2A)
∑
Między SS( A )
SS( A ) = B ( x a − x (c ) )2 nab df(A) = A – 1 s (2A) = F( A) =
grupami (A) df( A) s (2w )
a =1
B
s (2B )
∑
Między SS(B )
SS(B ) = A ( x b − x (c ) )2 nab df(B) = B – 1 s (2B ) = F(B ) =
grupami (B) df(B ) s (2w )
b =1
A B
s (2A×B )
∑ ∑ (x
Interakcja df(A×B) = (A – 1) × (B SS( A×B )
SS( A×B ) = ab − x a − x b + x (c ) ) 2 nab s (2A×B ) = F( A×B ) =
(A × B) – 1) df( A×B ) s (2w )
a =1 b =1
nab
∑∑∑ (X )
A B
2
SS (w ) = − x ab df(w) = N – (A × B) SS (w )
Wewnątrz grup abj s (2w ) = –
a =1 b =1 j =1 df(w )
wynik (j-tej) osoby badanej z grupy wyznaczonej przez poziomy zmiennych niezależnych
Xabj
A i B.
Tabela 6.18. Wynik dwuczynnikowej ANOVA dla eksperymentu badającego związek pomiędzy temperamentem i miejscem do-
konywania zakupów a liczbą pytań zadawanych sprzedawcom
Wariancja
Źródło Suma kwadratów Stopnie swobody ⎛ 2 SS ⎞
⎜⎜ s = ⎟ Test F
zmienności
df ⎟⎠
(SS) (df)
⎝
2 2 2
SS(c) = (5 – 3,5) + (4 – 3,5) + (3 – 3,5) + (1 –
2 2 2 2
Nieokreślone 3,5) + (2 – 3,5) + (3 – 3,5) + (6 – 3,5) + (5 – 23
2 2 2 2 df(c) = 12 – 1 = 11 s(2c ) = = 2,09 –
(cała) 3,5) + (4 – 3,5) + (4 – 3,5) + (3 – 3,5) + (2 – 11
2
3,5) = 23
Rodzaj sklepu 6 6
SS(A) = 2 × ((3 – 3,5) × 3 + (4 – 3,5) × 3) = 6
2 2
df(A) = 2 – 1 = 1 s(2A ) = =6 F( A ) = =6
(A) 1 1
Temperament 24 24
SS(A) = 2 × ((4,5 – 3,5) × 3 + (2,5 – 3,5) × 3) = 24
2 2
df(B) = 2 – 1 = 1 s(2B ) = = 24 F(B ) = = 24
(B) 1 1
2 2 2
SS(w) = (5,0 – 4,0) + (4,0 – 4,0) + (3,0 – 4,0) +
2 2 2
Wewnątrz (1,0 – 2,0) + (2,0 – 2,0) + (3,0 – 2,0) + (6,0 – df(w) = 12 – (2 × 2) 2 8
grup
2 2 2 2
5,0) + (5,0 – 5,0) + (4,0 – 5,0) + (4,0 – 3,0) +
s (w ) = =1 –
=8 8
2 2
(3,0 – 3,0) + (2,0 – 3,0) = 8
0,63
0,6
0,4
0,2
-0,2
$0,50 $2,50
Nagroda
jest mniejsza niż zmienność wewnątrz grup badanych. W sumie nic dziwne-
go, bo średnia w grupie z prawem do odmowy różni się od średniej całkowi-
tej jedynie o 0,15 (0,59 – 0,44 = 0,15), czyli tyle samo, ile średnia w grupie
bez prawa do odmowy od średniej całkowitej (0,44 – 0,29 = 0,15). Oblicza-
jąc różnice przestawiliśmy średnie w taki sposób, aby w obu rachunkach
uzyskać wynik dodatni.
Po drugie, średnie obliczone dla dwóch grup badanych powstałych w wyni-
ku połączenia wszystkich, którzy mieli małą nagrodę, i wszystkich, którzy
mieli dużą nagrodę, także niewiele się różnią od średniej całkowitej:
1,25 + (−0,05)
x ($0,50) = = 0,6
2
0,63 + (−0,07)
x ($2,50) = = 0,28
2
Wreszcie, po trzecie, od średniej całkowitej znacznie różnią się średnie
w dwóch grupach powstałych w wyniku specyficznej kombinacji zmiennych
niezależnych. Osoby badane, które miały prawo do odmowy i dostawały ma-
łą nagrodę, oraz osoby, które nie miały takiego prawa, ale dostawały dużą
nagrodę, bardzo wyraźnie zmieniały swoją postawę (skala była do +1):
1,25 + 0,63
x ( tak i $0,50 + nie i $2,50 ) = = 0,94
2
Z kolei osoby badane, które miały prawo odmowy, ale dostały dużą nagrodę,
albo nie miały tego prawa i dostały małą nagrodę, postawy nie zmieniły:
− 0,07 + (−0,05)
x tak i $2,50 + nie i $0,50 ) = = −0,06
2
Zwróć uwagę również na to, że obie średnie powstałe z takiego połączenia
znacznie bardziej różnią się od siebie (a każda z nich – od średniej całkowi-
tej) niż średnie w dwóch poprzednio analizowanych zestawieniach.
Okazuje się, że chociaż na zmianę postawy nie miało wpływu to, czy ktoś
dostawał dużą nagrodę, czy małą, ani to, czy ktoś mógł odmówić napisania
listu, czy też nie, to jednak wpływ na zmienną zależną miała specyficzna
kombinacja obu tych cech.
Zgodnie z przewidywaniami wynikającymi z teorii dysonansu poznawczego,
postawę powinni zmienić ci, którzy nie mogą przypisać przyczyny napisania
listu na temat sprzeczny z ich poglądem czynnikom niezależnym od nich
samych. Jeżeli ktoś mógł odmówić, ale tego nie zrobił, i po napisaniu listu
dostał w dodatku mało pieniędzy, to nic dziwnego, że dla ratowania dobrego
obrazu samego siebie musiał uznać, że jednak zgadza się z treścią listu.
TESTOWANIE HIPOTEZ DOTYCZĄCYCH ŚREDNICH 353
W przeciwnym razie dlaczego napisał ten list, skoro mógł odmówić, a i tak
nic wielkiego za to nie dostał. Podobnie ci, którzy nie mieli prawa odmowy,
ale dostali więcej pieniędzy, „musieli” zmienić postawę, bo inaczej trzeba by
było przyznać się przed samym sobą, że napisało się list po prostu dla pie-
niędzy, co zbyt jawnie mogłoby sugerować, że jest się osobnikiem szczegól-
nie pazernym na parę centów.
Linie na rysunku 6.11 krzyżują się, co jest wizualną wskazówką tego, że
mamy do czynienia z interakcją (o ile oczywiście odpowiednia wartość sta-
tystyki F jest istotna). Ujawnioną interakcję można opisać mniej więcej tak:
„Jeżeli osoba badana ma prawo do odmowy, to bardziej będzie skłonna do
zmiany postawy wtedy, gdy dostanie małą nagrodę, a mniej skłonna wtedy,
gdy nagroda będzie duża. Jeżeli jednak osoba badana nie ma prawa do od-
mowy, to będzie bardziej skłonna do zmiany postawy wtedy, gdy nagroda
będzie duża, a mniej skłonna wtedy, gdy nagroda będzie mała”.
nie istotna. Jak wiesz, interakcję tę oblicza się, dzieląc wariancję dla takiej
interakcji przez wariancję wewnątrz badanych grup.
Rysunek 6.12. Wyniki w eks- 8
perymencie Gregan-Paxton i Wiek dzieci:
Roedder John (1995, s. 573) 4-5 lat
7 6-7 lat
[STATISTICA]
5 4,87
4,53
4 3,75
3,59
3,33
3
2,31
2
1
wysoki koszt niski koszt wysoki koszt niski koszt
Niska nagroda Wysoka nagroda
Stosunek emocjonalny
koloru kwestionariusza
43,95
[STATISTICA] 44 43,19
42
40
38
36
różowy niebieski biały
Kolor papieru, na którym wydrukowano kwestionariusz
Płeć okazała się czynnikiem, który nie wpłynął istotnie na emocjonalne re-
akcje osób badanych (F(1, 219) = 1,69; p = 0,20). Nie wystąpiła też żadna
interakcja pomiędzy zmiennymi niezależnymi w tym eksperymencie.
OMNIBUSOWY TEST F
H2: x ( R ) < x ( N )
średni poziom zaangażowania emocjonalnego osób, które odpowiadały na pytania kwestio-
x( R)
nariusza wydrukowanego na różowym papierze,
średni poziom zaangażowania emocjonalnego osób, które odpowiadały na pytania kwestio-
x( B)
nariusza wydrukowanego na białym papierze,
średni poziom zaangażowania emocjonalnego osób, które odpowiadały na pytania kwestio-
x(N )
nariusza wydrukowanego na niebieskim papierze.
SPOSOBY WERYFIKACJI HIPOTEZ POST HOC, CZYLI DLACZEGO, PORÓWNUJĄC DWIE ŚREDNIE,
MUSIMY BRAĆ POD UWAGĘ TAKŻE WSZYSTKIE INNE
Obok skrzyni zielonej stoi nieco większa, czarna. Na jej dnie leży sześć kar-
teczek z następującymi liczbami:
{43,19; 45,85; 43,95; 49,22; 44,65; 41,56}
Znowu wyjmujesz dwie, a ponieważ masz dzisiaj farta, znowu wylosowałeś
te, na których zapisano najmniejszą i największą wartość, czyli 41,56
i 49,22. Różnica między nimi wynosi 7,66 (49,22 – 41,56 = 7,66) i – jak wi-
dać – jest większa niż poprzednia.
Chyba jesteś już trochę zmęczony, jeśli nie zauważyłeś, że liczby, które
znajdowały się w zielonej skrzyni, to zapisane jedna po drugiej średnie oce-
ny stosunku emocjonalnego wobec zabójstwa, wyrażone w odpowiedziach
na pytania kwestionariuszy wydrukowanych na papierze różowym, niebie-
skim i białym. Do czarnej skrzyni, oprócz liczb, które znajdowały się rów-
nież w zielonej, ktoś wrzucił jeszcze trzy karteczki z liczbami losowo wyge-
nerowanymi z przedziału 40-50. W tym właśnie przedziale znajdowały się
średnie ocen zabójstwa w eksperymencie Wellera i Livingstona.
Tak czy inaczej, mamy dwie sytuacje. W pierwszej losowaliśmy dwie spo-
śród trzech liczb i w rezultacie mogliśmy otrzymać jedną z trzech różnic,
między pierwszą i drugą, pierwszą i trzecią oraz drugą i trzecią liczbą.
W drugiej sytuacji także losowaliśmy dwie liczby, ale już spośród sześciu,
co oznacza, że mogliśmy otrzymać jedną spośród piętnastu różnic między
nimi. Zarówno w jednej, jak i w drugiej sytuacji mogliśmy wylosować takie
dwie liczby, że różnica między nimi wyniosłaby np. 2,66. Prawdopodobień-
stwo jednak przypadkowego wylosowania takich dwóch liczb w pierwszej
sytuacji jest znacznie większe niż w drugiej. Innymi słowy, w drugiej sytu-
acji prawdopodobieństwo przypadkowego uzyskania różnicy równej 2,66
jest mniejsze niż w pierwszej.
W pewnym sensie weryfikacja hipotez post hoc jest właśnie próbą odpowie-
dzi na pytanie, czy różnica między dwiema empirycznie ustalonymi średni-
mi jest przypadkowa, czy nie. Zauważ, że zawsze, gdy w parach porównu-
jesz ze sobą liczby „każda z każdą”, w jednej z tych par porównasz także
liczbę najmniejszą z największą. Różnica między skrajnymi liczbami wyję-
tymi z czarnej skrzyni, w której znalazły się przecież trzy zupełnie przypad-
kowe liczby, jest znacznie większa niż różnica między wartością minimalną
i maksymalną w zbiorze ocen emocjonalnych zabójstwa uzyskanych w eks-
perymencie.
Mogłoby to nam zasugerować, że skoro różnica między wylosowanymi licz-
bami jest większa, to prawdopodobieństwo odrzucenia hipotezy zerowej w
drugiej sytuacji także jest większe. Nic bardziej mylnego.
Wszystkie procedury służące do porównań post hoc uwzględniają nie tylko
to, jaka jest różnica pomiędzy konkretną parą średnich, lecz także to, z jak
364 WNIOSKOWANIE STATYSTYCZNE
Ogółem 171,550 79
4,5
4,0
3,45 3,55
3,5 3,15
3,0
2,5
2,0
biały różowy niebieski żółty
Kolor arkusza papieru
* Wzór podajemy za Jerzym
Brzezińskim i Ryszardem Sta-
chowskim (1984, Zastosowanie Teraz już możemy napisać wzór na obliczenie testu Tukeya*. Przypomina
analizy wariancji w eksperymen-
talnych badaniach psycholo- on nieco wzór na test t Studenta, który – jak pamiętasz – także służy do po-
gicznych. Warszawa: PWN). równywania dwóch średnich.
366 WNIOSKOWANIE STATYSTYCZNE
xi − x j
Q=
s w2
n
Drugim – oprócz statystyki Tukeya – testem, który równie często jest stoso-
wany do porównań post hoc, jest test Sheffégo. Jak łatwo się domyślić, jego
nazwa pochodzi od nazwiska autora, czyli Henry’ego Sheffégo – amerykań-
skiego statystyka niemieckiego pochodzenia.
Choć oba testy, Sheffégo i Tukeya, stosuje się do porównań post hoc, to jed-
nak są między nimi pewne różnice. Pierwsza polega na tym, że test Sheffégo
pozwala na porównywanie średnich w grupach o różnej liczebności, test Tu-
keya zaś jest przeznaczony do porównań grup równolicznych.
Po drugie, test Sheffégo jest bardziej konserwatywny, tzn. trudniej za jego
pomocą odrzucić hipotezę zerową o równości porównywanych średnich.
Gdy wynik testu F w analizie wariancji jest nieistotny, wówczas przy zasto-
sowaniu metody Tukeya jest większa szansa na to, że któraś z różnic między
średnimi okaże się istotna, niż wtedy, gdy stosuje się test Sheffégo*.
Henry Sheffé
(1907-1977) Trzecia różnica między tymi testami sprowadza się do odpowiedzi na pyta-
nie, co porównujemy. Test Tukeya służy do porównań średnich w parach,
* Por. Ferguson, Takane (1997). natomiast test Sheffégo może być także stosowany do porównania całych
pakietów średnich, czyli czegoś w rodzaju średnich ze średnich. Korzystając
z tego testu, możemy np. się dowiedzieć, czy istnieje statystycznie istotna
różnica między oceną poczucia szczęścia wyrażoną na kwestionariuszu
w kolorze różowym a „uśrednioną” oceną poczucia szczęścia wyrażoną na
wszystkich pozostałych kwestionariuszach wziętych razem. W praktyce
opcja ta jest rzadko wykorzystywana. Ponadto tego typu porównania powin-
ny być raczej wynikiem hipotez stawianych a priori, a nie post hoc.
Korzystając z testu Sheffégo, policzyliśmy różnice między średnimi ocen
poczucia szczęścia wyrażonymi na różnokolorowych kwestionariuszach
(zob. tab. 6.21).
2
s(m ) = 1,6184; df = 76
Jak można się łatwo zorientować, również wyniki testu Sheffégo potwier-
dzają hipotezy post hoc dotyczące różnic w ocenach poczucia szczęścia za-
TESTOWANIE HIPOTEZ DOTYCZĄCYCH ŚREDNICH 369
x( B) białym,
x(N ) niebieskim,
x(Ż ) żółtym.
Hipoteza ta nie odnosi się do żadnej pary średnich, ale do relacji pomiędzy
ocenami na kwestionariuszu różowym i na pozostałych trzech łącznie. Jest
tak, ponieważ mamy podstawy przypuszczać, że w obecności różowego ko-
loru ludzie wpadają w lepszy nastrój niż w towarzystwie innych kolorów.
Zgodnie zatem z hipotezą a priori oczekujemy, że oceny szczęścia na kwe-
TESTOWANIE HIPOTEZ DOTYCZĄCYCH ŚREDNICH 371
M
t( M ) =
k
λ2i
s(2w ) × ∑
i =1 ni
t(M) test t dla analizy kontrastów,
M Obliczona wartość kontrastu,
1,6
t( M ) = = 3,98
⎡ 12 (−1) 2 ⎤
1,618 × ⎢ +
⎣ 20 20 ⎥⎦
0
Gdańsk Lublin Poznań Warszawa
Miasta
TESTOWANIE HIPOTEZ DOTYCZĄCYCH ŚREDNICH 375
robkami niż mieszkanie w dużym mieście. Nie jest więc wykluczone, że li-
niowa zależność między wielkością miejsca zamieszkania a poczuciem
szczęścia jest wprost proporcjonalna, czyli im większe miasto, tym wyższe
poczucie szczęścia mają jego mieszkańcy.
Stosując analizę kontrastów, możemy sprawdzić, która z tych argumentacji
jest bliższa prawdy.
Wykorzystamy raz jeszcze dane z Polskiego Generalnego Sondażu Społecz-
nego z próby z roku 2002. Wszyscy uczestnicy tego badania zostali zakwali-
fikowani do ośmiu kategorii ze względu na wielkość miejsca zamieszkania.
Nazwy tych kategorii, jak również średnie oceny poczucia szczęścia, przed-
stawione są w tabeli 6.23.
szej teorii, to wystarczy obliczyć wielkość kontrastu tylko dla jednego tren-
du, np. rosnącego.
Nawiasem mówiąc, rzeczywista zależność między wielkością miejsca za-
mieszkania a poczuciem szczęścia po prostu nie jest liniowa (zob. rys. 6.16).
Rysunek 6.16. Poczucie 2,3
szczęścia wśród Polaków
w badaniu PGSS w roku
2002 w zależności od wielko- 2,2
ści miejsca zamieszkania (im
niższy wynik, tym wyższe po-
czucie szczęścia)
Poczucie szczęścia
2,1
[STATISTICA]
2,0
1,9
1,8
Wieś 10-24 tys. 50-99 tys. 250-499 tys.
do 10 tys. 25-49 tys. 100-249 tys. powyżej 500 tys.
Miejsce zamieszkania
Poczucie szczęścia wśród Polaków nie zmienia się więc liniowo wraz ze
wzrostem liczby współmieszkańców. Jeśli jednak przyjrzysz się uważniej
średnim na rysunku 6.16, to zauważysz, że można je połączyć w trzy grupy.
Patrząc od lewej, będą to oceny mieszkańców: a) wsi i miast do 10 tysięcy,
b) miast liczących od 10 do 100 tysięcy i c) miast powyżej 100 tysięcy.
Analiza wykresu ujawnia, że osoby badane z grupy środkowej dawały niższe
oceny na skali poczucia szczęścia (przypomnijmy, im niższa ocena, tym
bardziej ktoś jest szczęśliwy) niż mieszkańcy wsi i małych miasteczek oraz
wielkich miast.
Być może więc, oba czynniki mogące mieć wpływ na poczucie szczęścia:
poczucie wspólnoty oraz dostęp do dóbr kultury, najbardziej sprzyjają
mieszkańcom średnich miast. Na wsi poczucie szczęścia może być wyraźnie
niższe z powodu mniejszego dostępu do zdobyczy współczesnej cywilizacji,
a w wielkich miastach z powodu pośpiechu i anonimowości.
Stosując analizę kontrastów, możemy badać trendy liniowe, ale także np.
kwadratowe. Na ogół przyjmują one jedną z dwóch form, w zależności od
tego, co przewidujemy. Jeśli się spodziewamy, że średnie w skrajnych gru-
pach będą niższe od średnich w grupach środkowych, to mamy do czynienia
z trendem w kształcie odwróconego „U”. Przykładem takiego rozkładu wy-
TESTOWANIE HIPOTEZ DOTYCZĄCYCH ŚREDNICH 379
0
1 2 3 4 5 6 7 8
Nasilenie motywacji
2,0
1,9
1,8
Wieś 10-24 tys. 50-99 tys. 250-499 tys.
do 10 tys. 25-49 tys. 100-249 tys. powyżej 500 tys.
Miejsce zamieszkania
Podobnie jak w przypadku testów dla jednej czy dwóch średnich, również
stosując analizę wariancji, możesz oszacować, w jakim stopniu zmienna nie-
TESTOWANIE HIPOTEZ DOTYCZĄCYCH ŚREDNICH 381
W tabeli 6.24 mamy dwie sumy kwadratów (SS), jedną związaną z wielko-
ścią miejsca zamieszkania (SS(m)), drugą zaś – ze zmiennością wewnątrz
grup (SS(w)). Ponieważ nie ma innych źródeł zmienności, więc całkowita su-
ma kwadratów wynosi:
SS(c) = SS(m) + SS(w) = 7,794 + 1005,232 = 1013,026
a stosunek korelacyjny η2:
SS ( m ) 7,794
η2 = = = 0,0076
SS ( c ) 1013,26
225
nych w analizie wariancji
(2 x 2) a mocą testu F, 200
przy założeniu średniej wiel-
kości efektu (f = 0,25) oraz 175
α = 0,05 [STATISTICA]
150
125
100
75
50
25
0
0,3 0,4 0,5 0,6 0,7 0,8 0,9
Moc testu F
Z rysunku 6.19 wynika więc, że wraz ze wzrostem mocy testu wzrasta też
wielkość badanej próby. Jeżeli np. w badanych czterech grupach jest łącznie
80 osób, to po odrzuceniu hipotezy zerowej moc testu F będzie wynosić
384 WNIOSKOWANIE STATYSTYCZNE
kraju. Czy muszą uczyć się wszystkich cen na nowo, czy też potrafią podać
ceny w euro, przeliczając „w głowie” znane im wcześniej ceny w escudo
(dla przypomnienia: 1 euro = około 200 escudos). W celu sprawdzenia, która
ze strategii była częściej stosowana, autorzy badania poprosili 174 studen-
tów o podanie 40 cen różnych produktów wyrażonych w euro. Badanie po-
wtórzono czterokrotnie od listopada 2001 (tuż przed wejściem euro do obie-
gu) do lipca 2002 (czyli pół roku po wejściu euro do obiegu).
Autorzy opisują w swoim artykule wiele różnych analiz, ale my przedstawi-
my dokładniej tylko jedną z nich. Wyniki oszacowań cen w euro zostały po-
równane z oszacowaniami cen tych samych produktów w walucie portugal-
skiej. Ponieważ w badaniu wzięły udział dwie grupy studentów, mamy więc
do czynienia ze zmienną międzygrupową, która przyjmuje dwie wartości.
Drugą zmienną niezależną była częstość kupowania różnych produktów.
Spośród czterdziestu, których ceny podawali badani, połowę stanowiły pro-
dukty kupowane często (np. gazeta codzienna, jogurt), a połowę produkty
kupowane rzadko (np. składane krzesło, butelka szampana).
Zmienną zależną była dokładność oszacowania ceny dla każdego produktu,
mierzona za pomocą specjalnego wskaźnika, którego nie będziemy tutaj
szczegółowo omawiać. W każdym razie jego wartość była tym większa, im
bardziej badani różnili się między sobą co do szacowanej ceny danego pro-
duktu. W wyniku przeprowadzonej dwuczynnikowej analizy wariancji oka-
zało się, że istotny wpływ na dokładność oszacowania ceny ma waluta oraz
częstość kupowania produktu. Oceny były dokładniejsze wtedy, gdy poda-
wane były w escudos niż w euro, a także bez względu na walutę studenci
z mniejszym błędem podawali ceny produktów kupowanych często.
Wybraliśmy ten przykład na koniec, aby Ci pokazać, w jaki sposób można
zapisać wynik analizy wariancji z uwzględnieniem wielkości efektu. Otóż
Marques i Dehaene opisują swój wynik w następujący sposób:
Przeprowadzona została mieszana analiza wariancji (ANOVA) typu 2 x 2 ze zmien-
nymi: Waluta (zmienna międzygrupowa) i Częstość Kupowania (zmienna we-
wnątrzgrupowa). Okazało się, że istotny jest efekt główny zmiennej Waluta, do-
kładniejsze były oszacowania w escudo, F(1, 37) = 5,40, MSE = 0,019, p < 0,05,
f Cohena = 0,37, a także efekt główny Częstości Kupowania, F(1, 37) = 6,95,
MSE = 0,124, p < 0,05, f Cohena = 0,41; dokładniejsze były oszacowania cen dla
produktów częściej kupowanych. Interakcja pomiędzy zmiennymi Waluta i Czę-
* Marques, Dehaene, 2004, stość Kupowania nie była istotna*.
s. 151.
Jest to chyba najpełniejszy opis wyników analizy wariancji, jaki można so-
bie wyobrazić.
• Autorzy ustosunkowują się do tego, czy wszystkie możliwe efekty anali-
zy są statystycznie istotne, czy nie: istotne są dwa efekty główne, a nie-
istotna jest interakcja.
386 WNIOSKOWANIE STATYSTYCZNE
• Dokładnie opisane jest to, na czym polega wpływ obu istotnych czynni-
ków: „dokładniejsze były oszacowania w escudo” oraz „...dla produktów
częściej kupowanych”.
• Podane są stopnie swobody dla testów F, z czego można łatwo wy-
wnioskować, że każdy czynnik był dwuwartościowy (pierwsza wartość
w nawiasie po F wynosi 1), oraz to, że do analizy wykorzystano osza-
cowania cen 39 produktów (N – k, czyli liczba wszystkich danych minus
liczba grup); oceny jednego produktu nie zostały wykorzystane ze
względu na braki danych.
• Oprócz liczby stopni swobody podane są także wartości MSE, czyli tzw.
błędu oszacowania. Wartość ta pozwala na zastosowanie alternatywnego
podejścia do weryfikacji hipotez statystycznych, czyli analizy wielkości
przedziałów ufności (pisaliśmy trochę na ten temat w rozdziale poświę-
conym estymacji, przy okazji omawiania nieobciążonego estymatora
wariancji).
• Opis każdego z czynników obejmuje również wielkość efektu, obliczoną
za pomocą wskaźnika f Cohena.
Dzięki połączeniu informacji o istotności statystyki F oraz współczynnika
wielkości efektu f Cohena wiemy, że wpływ obu czynników, czyli znajomo-
ści waluty oraz częstości kupowania, na dokładność oszacowania jest duży
(f w obu przypadkach oscyluje wokół 0,4). Znając wartość f Cohena, może-
my wyrazić wielkość efektu również za pomocą stosunku korelacyjnego η2,
korzystając z następującej zależności:
f2
η2 =
1+ f 2
W przypadku wielkości wpływu czynnika „Waluta” wartość η2 wynosi:
0,37 2
η2 = = 0,12
1 + 0,37 2
a wielkość wpływu czynnika „Częstość Kupowania”:
0,412
η2 = = 0,14
1 + 0,412
Zamieniając wartości η2 na procenty, możemy wyciągnąć wniosek, że w ba-
danej grupie Portugalczyków rozrzut w dokładności oszacowania w 12% był
związany z rodzajem waluty, a w 14% – z tym, jak często uczestnicy bada-
nia kupowali różne produkty. Być może, wnioski te wydają się oczywiste,
niemniej jednak wynik ten ma dużą wartość społeczną. Wiemy, że Portugal-
TESTOWANIE HIPOTEZ DOTYCZĄCYCH ŚREDNICH 387
Mało jest tak gorących sporów w metodologii badań społecznych, jak ten,
który dotyczy rozumienia skal pomiarowych. Zasadniczo chodzi w nim o to,
w jaki sposób należy traktować dane gromadzone za pomocą skal liczbo-
wych w badaniach, w których uczestnicy, wskazując na liczby, mówią coś o
swoich przekonaniach, postawach czy preferencjach. Stopniowe skale ocen,
którymi posługują się osoby badane, wybierając jedną odpowiedź z kilku
uporządkowanych według jakiejś zasady, nazywa się skalami typu Likerta.
Nazwa pochodzi od amerykańskiego psychologa Rensisa Likerta, który
w swojej pracy doktorskiej obronionej w Columbia University w roku 1932
wykorzystał kwestionariusz, w którym badani wyrażali nasilenie swoich po-
staw za pomocą punktów na skali od 1 do 5.
Rensis Likert
(1903-1981) Przykładem zastosowania tego typu skali może być forma udzielania odpo-
wiedzi na pytania dotyczące zaufania do różnych instytucji życia publiczne-
go, zadawane Polakom cyklicznie w Polskim Generalnym Sondażu Społecz-
* Cichomski, B., Jerzyński, T., nym*. W jednej z wersji tego sondażu, z roku 2002, respondenci oceniali 17
Zieliński, M. (2003). Polskie instytucji życia publicznego, m.in. przedsiębiorstwa państwowe i prywatne,
Generalne Sondaże Społeczne:
skumulowany komputerowy rząd, sejm, senat, policję, wojsko, Kościół katolicki, telewizję.
zbiór danych 1992-2002.
Warszawa: Instytut Studiów Zadaniem osób ankietowanych była ocena każdej z wymienianych instytucji
Społecznych, Uniwersytet War- za pomocą jednego z następujących określeń:
szawski.
1. Zdecydowanie zasługuje na zaufanie.
2. Raczej zasługuje na zaufanie.
3. Ani zasługuje, ani nie zasługuje na zaufanie.
4. Raczej nie zasługuje na zaufanie.
5. Zdecydowanie nie zasługuje na zaufanie.
Określenia te niewątpliwie spełniają wymagania skali porządkowej, czyli
jednej z prostszych skal pomiarowych, którą przedstawiliśmy w pierwszej
części naszego przewodnika. Przypomnijmy, że ze skalą porządkową (ran-
388 WNIOSKOWANIE STATYSTYCZNE
* Gaito, J. (1980). Measurement Morał z tej historyjki John Gaito* przedstawił w następujący sposób:
scales and statistics: Resurgence
of an old misconception. Psy- W literaturze poświęconej statystyce matematycznej nie da się znaleźć miejsca,
chological Bulletin, 87, 564-567. gdzie by napisano, że wymogiem zastosowania takiej, a nie innej procedury staty-
stycznej jest skala pomiarowa. Wymaganie to istnieje jedynie w wyobraźni pewnej
liczby psychologów i powstało w wyniku pomylenia teorii pomiaru z teorią staty-
styczną (s. 564).
STATYSTYCZNE ZABAWKI?
Stosując metody Monte Carlo, sprawdziliśmy, jak często popełnia się błąd
I lub II rodzaju, pobierając wiele razy próbki z populacji o znanych parame-
trach. Z naszego punktu widzenia najważniejsze jest jednak to, że metody
Monte Carlo pozwalają również na sprawdzenie, w jakim stopniu dany test
jest elastyczny (robust) wobec odstępstw danych od jego założeń, czyli jak
zmienia się jego wynik np. w zależności od większych lub mniejszych od-
chyleń danych od normalności. Przeanalizujemy to dokładniej dla testu
F w sytuacji, gdy nie są spełnione różne założenia analizy wariancji.
Założenie o normalności rozkładu analizowanej cechy w populacji jest pod-
stawą stosowania testu F. Sprawdziliśmy, jak zmieniłaby się wartość testu F,
gdyby zaufanie do instytucji publicznych nie było rozkładem normalnym.
Korzystając z programu Monte Carlo, pobraliśmy 10 000 zestawów po trzy
próbki, każda o liczebności 100 elementów. We wszystkich próbkach śred-
nia i odchylenie standardowe były takie same jak w grupie danych dotyczą-
cych zaufania do naukowców, czyli odpowiednio 1,94 i 0,95. W programie
ustawiliśmy jednak dwa ograniczenia. Po pierwsze, komputer miał pobierać
próbki z rozkładu, który nie jest normalny, i po drugie, w każdej z tych pró-
bek mogły się znaleźć tylko liczby całkowite z przedziału od 1 do 5. Inaczej
mówiąc, ustawiliśmy parametry programu w taki sposób, aby generował da-
ne analogiczne do danych z sondażu PGSS, z którego korzystaliśmy.
Okazało się, że hipoteza zerowa, zgodnie z którą próbki pochodzą z tej sa-
mej populacji, zostałaby odrzucona w 514 przypadkach na 10 000. Wiemy
jednak przecież, że w symulowanej sytuacji hipoteza zerowa jest prawdziwa,
ponieważ założyliśmy, że średnie we wszystkich trzech zbiorach są takie
same i wynoszą 1,94. Wynik programu Monte Carlo oznacza, że stosując
test F, popełnilibyśmy błąd I rodzaju, czyli odrzucilibyśmy prawdziwą hipo-
tezę zerową w 5,14% przypadków. Chyba nie masz wątpliwości, że wobec
tego warto zaryzykować i zastosować test F dla danych, które nie pochodzą
z rozkładu normalnego, ale np. skośnego. Różnica w wielkości błędu I ro-
dzaju w tej sytuacji, w porównaniu z sytuacją, gdyby rozkład był normalny,
wynosi zaledwie 0,0014 (0,0514 – 0,05 = 0,0014), czyli niespełna 3% więcej
⎛ 0,0014 ⎞
od wartości 0,05 ⎜ = 0,028 ⎟ . Większość osób zajmujących się symu-
⎝ 0,05 ⎠
lacjami Monte Carlo uważa, że można uznać dany test statystyczny za wy-
398 WNIOSKOWANIE STATYSTYCZNE
Wymienione trzy zasady potraktuj nie tyle jako obowiązujące reguły, ile ra-
czej jako użyteczne wskazówki. Problemy związane ze stosowaniem testów
parametrycznych dla danych gromadzonych za pomocą skali rangowej,
a także wtedy, gdy nie jest spełnione założenie o normalności rozkładu ba-
danej cechy w populacji, wciąż są przedmiotem nierozstrzygniętej dyskusji.
Jedni, powołując się na wyniki badań prowadzonych za pomocą metod
Monte Carlo, uspokajają sumienie badacza, który zastosował test t lub F,
w odniesieniu do „wątpliwych” danych. Drudzy, powołując się na mniej
więcej podobną liczbę badań, dowodzą, że nie można stosować metod para-
metrycznych dla danych porządkowych i gdy niespełnione są założenia
** Por. Cliff, N. (1996). Ans- dotyczące rozkładu badanej cechy w populacji**.
wering ordinal questions with
ordinal data using ordinal statis- Końca sporu nie widać i w takim punkcie go zostawimy. W tej sytuacji ma-
tics. Multivariate Behavioral Re- my do wyboru:
search, 31, 331-350.
• albo stosować testy parametryczne i akceptując przytoczoną tutaj argu-
mentację, stłumić nieco wyrzuty sumienia,
• albo niczego nie tłumić i jeśli mamy wątpliwości, posłużyć się tradycyj-
nymi testami nieparametrycznymi,
400 WNIOSKOWANIE STATYSTYCZNE
* Jeśli chcesz, możesz sam zro- Jak się zapewne domyślasz, nie losowaliśmy „ręcznie” tysiąca próbek ze
bić to samo, ściągając program zbioru 20 karteczek. Wykorzystaliśmy do tego celu komputer i odpowiedni
ze strony www.resample.com
program*. Metody repróbkowania zostały wymyślone w latach 30. XX
** Piotr Durka (2003) podaje, że wieku i są jedną z wersji metod Monte Carlo**. Na dobre zadomowiły się
jedną z tych metod, tzw. testy one w statystyce dopiero w latach 90. ubiegłego stulecia, gdy moc oblicze-
permutacyjne, opracował już w
latach 30. nie kto inny, tylko niowa komputerów stała się wystarczająco duża, aby poradzić sobie z takimi
sam Ronald Fisher. zadaniami w rozsądnie krótkim czasie. Niewątpliwą zaletą tych metod jest
to, że można je stosować niezależnie od rozkładu danych w populacji. Wy-
starczy „w kółko” powtarzać losowanie ze znanego zbioru danych. Stąd wła-
śnie wzięła się nazwa „repróbkowanie”. Nie będziemy przedstawiać dyskusji
na temat skuteczności tych metod. W prosty sposób prezentuje je Piotr Dur-
ka w swojej książce Wstęp do współczesnej statystyki. My natomiast przed-
stawimy w skrócie dwie główne ich wersje, czyli metody bootstrapowe
i permutacyjne.
Trzy osoby z tabeli 6.25 bardziej ufają naukowcom niż prasie. Załóżmy jed-
nak, że w rzeczywistości osoby te mają takie samo zaufanie do obu instytu-
cji. W takiej sytuacji przedstawiony w tabeli 6.25 podział wyników na dwie
grupy należy uznać za przypadkowy.
Na ile sposobów można podzielić tych 6 liczb na dwie grupy? Podział zbioru
6-elementowego na dwa zbiory po 3 jest równoznaczny z wylosowaniem 3
liczb z 6 i wtedy ta wylosowana trójka stanowi jeden zbiór, a te niewyloso-
wane – drugi. Na przykład jeżeli wylosujemy liczby {2, 3, 2}, to drugi zbiór
będą stanowiły pozostałe, czyli {2, 5, 2}.
Wzór pozwalający na obliczenie liczby wszystkich k-elementowych pod-
zbiorów z n elementów jest taki:
⎛n⎞ n!
⎜⎜ ⎟⎟ =
⎝ k ⎠ k!(n − k )!
k wielkość podzbioru (u nas 3),
n liczba wszystkich elementów (u nas 6).
Jeden z tych możliwych dwudziestu układów jest taki sam jak ten, który
uzyskaliśmy w eksperymencie. Dwadzieścia par zbiorów po trzy elementy
wyczerpuje wszystkie możliwe podziały zbioru 6-elementowego.
Podział, jaki uzyskaliśmy w badaniu, mógł albo zdarzyć się przypadkiem,
albo też zdarzył się dlatego, że badane osoby rzeczywiście miały większe
zaufanie do nauki niż do prasy. Różnica między średnią zaufania do prasy
i średnią zaufania do naukowców, wyrażona przez trzy osoby z sondażu
PGSS, wynosi 1,33 (3,33 – 2 = 1,33).
Podobnie można obliczyć różnice między pozostałymi dziewiętnastoma pa-
rami średnich. Ponieważ w naszym zestawie mamy dużo takich samych da-
nych (tj. dwójek), więc wraz z różnicą otrzymaną w badaniach mamy tylko
cztery możliwości. Aby odpowiedzieć na pytanie, czy różnicę między dwo-
ma średnimi równą 1,33 można potraktować jak dzieło przypadku, musimy
sprawdzić, jak często występuje taka różnica lub wyższa, kiedy losowo dzie-
limy 6 liczb na dwie grupy po 3.
Testy permutacyjne są odmianą metod repróbkowania, a zatem ich weryfi-
kacja odbywa się poprzez wielokrotne losowanie liczb zgodnie z przyjętymi
warunkami. Wpisaliśmy 6 liczb do komputera, zaprogramowaliśmy losowa-
nie 1000 podziałów na dwie grupy po 3 elementy w każdej oraz dla każdego
z tych podziałów wyliczyliśmy różnice między średnimi (zob. rys. 6.20).
Rysunek 6.20. Częstość po- 350
jawiania się różnic między 321
308
średnimi dla 1000 podziałów 300
liczb: 2, 2, 2, 2, 3, 5 na dwa
równoliczne zbiory
Liczba różnic między średnimi
250
[STATISTICA]
197
200
174
150
100
50
0 0 0
0
-2,0 -1,33 -0,67 0 0,67 1,33 2,0
Różnice między średnimi
1
wyniesie . Jeżeli pierwszą osobą będzie mężczyzna, to druga musi być ko-
2
bieta, a jeżeli pierwszą osobą będzie kobieta, to drugi musi być mężczyzna,
1
co daje 2 sytuacje na cztery możliwe, czyli .
2
Pisaliśmy już o tym w rozdziale 4.7, że dla dowolnej liczby powtarzanych
pomiarów, gdy cecha jest dwuwartościowa (np. płeć studentów), prawdopo-
dobieństwo wystąpienia dowolnej kombinacji tych dwóch cech można zna-
leźć z rozkładu dwumianowego, zwanego też rozkładem Bernoulliego. Od-
woływaliśmy się wtedy do dwumianu Newtona i trójkąta Pascala, a teraz
podamy wzór pozwalający bezpośrednio obliczyć to prawdopodobieństwo:
N!
p(k ) = × p k × q N −k
k!( N − k )!
p(k) prawdopodobieństwo, że jakaś cecha pojawi się k razy, np. to, że w grupie będzie 8 kobiet,
N liczebność całego zbioru, czyli w naszym przykładzie 10 osób na ćwiczeniach,
piq dopełniające się, czyli w sumie wynoszące 1, prawdopodobieństwa tego, że zdarzenie, jakie
nas interesuje, pojawi się raz. W naszym przykładzie jest to prawdopodobieństwo pojawienia
się na zajęciach pierwszego mężczyzny (p) i pierwszej kobiety (q). Uznaliśmy, że oba są ta-
1
kie same, a więc p = q = .
2
Test znaków stosuje się w takiej samej sytuacji, jak test Wilcoxona, ale jego
obliczenie jest znacznie mniej skomplikowane. Po prostu w każdej parze
odejmuje się drugi wynik od pierwszego i zlicza, ile razy wystąpił „+”, a ile
razy „–”. Dane do tego testu także muszą być co najmniej porządkowe.
Test Kruskala-Wallisa odpowiada jednoczynnikowej analizie wariancji.
Wymaga, aby dane były wyrażone na skali rangowej. Jego obliczanie zasad-
niczo sprowadza się do tego, aby porangować wszystkie dane razem (nieza-
leżnie od tego, do jakich należą grup), a następnie sprawdzić, jaki jest stosu-
nek między sumami rang w poszczególnych grupach.
Test oparty na medianie to także nieparametryczny odpowiednik jedno-
czynnikowej analizy wariancji. Jego obliczenie polega na sprawdzeniu, ile
wyników w każdej z badanych grup znajduje się powyżej, a ile poniżej me-
diany, obliczonych dla wszystkich wyników razem.
Test Friedmana jest odpowiednikiem analizy wariancji z powtarzanymi po-
miarami w obrębie jednego czynnika. Polega na porównywaniu rang dla tej
samej osoby, badanej przy różnych poziomach zmiennej niezależnej.
Wymienione testy nieparametryczne należą do najpopularniejszych i są
również dostępne w pakietach statystycznych. Przedstawiona lista nie obej-
muje oczywiście wszystkich metod niezależnych od rozkładu, a z pewnością
na szczególną uwagę zasługuje grupa testów opartych na rozkładzie χ2 (czy-
taj: „chi kwadrat”).
2
TESTY OPARTE NA ROZKŁADZIE χ
liczebność względna
0,175 0,175
0,131 0,131
0,087 0,087
0,044 0,044
0,000 0,000
0,00 6,25 12,50 18,75 25,00 0,00 6,25 12,50 18,75 25,00
skala chi kwadrat skala chi kwadrat
2 2
y = chi (x; 5) y = chi (x; 10)
0,219 0,219
liczebność względna
liczebnośc względna
0,175 0,175
0,131 0,131
0,087 0,087
0,044 0,044
0,000 0,000
0,00 6,25 12,50 18,75 25,00 0,00 6,25 12,50 18,75 25,00
skala chi kwadrat skala chi kwadrat
Nazwa rozkładu χ2, została wykorzystana także jako nazwa dwóch testów.
Test χ2 Pearsona (a kogóż by innego?) zwany jest także testem χ2 niezależ-
ności i w standardowej wersji służy do sprawdzania, czy dwie cechy są od
siebie niezależne. Obliczenie testu polega na porównaniu stwierdzonego
w badaniach rozkładu częstości zajścia jakichś zdarzeń z losowym rozkła-
TESTY NIEPARAMETRYCZNE 413
dem tych częstości. Test można stosować nawet wtedy, gdy dane są zgroma-
dzone na skali nominalnej.
Test χ 2 zgodności w zasadzie trudno uzna ć za test nieparametryczny.
Oprócz testu Kołmogorowa-Smirnowa, jest najczęściej używanym testem do
sprawdzania założenia o normalności rozkładu badanej cechy w populacji.
Jak widzisz, sprawa jest otwarta, ale ogólne zasady byłyby z grubsza takie:
• Jeżeli rozkład cechy tylko w niewielkim stopniu odbiega od rozkładu
normalnego, a wariancje i liczebności porównywanych grup są podobne,
to lepiej użyj testu parametrycznego. Jest większa szansa na odrzucenie
hipotezy zerowej i niepopełnienie błędu I rodzaju niż w przypadku testu
nieparametrycznego.
• Jeżeli rozkład badanej cechy nie jest normalny, ale wariancje są równe
i grupy o podobnej liczebności, to zastosuj test parametryczny. Ryzyko
popełnienia błędu I lub II rodzaju i tak nie jest większe niż w przypadku
testu nieparametrycznego, do odrzucenia zaś hipotezy zerowej potrzeba
z reguły mniejszej próbki, gdy test jest parametryczny, niż wtedy, gdy
jest nieparametryczny.
• Jeżeli wariancje w porównywanych grupach nie są równe lub grupy nie
są liczne bądź też uznasz, że trudno byłoby zinterpretować dane jako
pomiary na skali co najmniej przedziałowej, wtedy użyj testu nieparame-
trycznego. Jeżeli dobrze zaprojektowałeś eksperyment, a badana przez
Ciebie zależność rzeczywiście istnieje, to bądź spokojny – uda się to
udowodnić, bez względu na rodzaj testu.
• Jeżeli opisujesz wyniki analiz przeprowadzonych za pomocą testu para-
metrycznego, to podaj powody jego zastosowania. Możesz np. napisać,
że spełnione zostały wszystkie założenia testu albo też niektóre założe-
nia nie zostały spełnione, ale powołując się na wyniki innych badań
(choćby te, o których pisaliśmy, omawiając metody Monte Carlo), i tak
stosujesz test parametryczny. W każdym razie dobrze jest podać jakąś
argumentację uzasadniającą Twoją decyzję.
• Nie musisz się tłumaczyć z wyboru testu nieparametrycznego. Ponieważ
testy te są na ogół słabsze od parametrycznych, jeśli więc uda się odrzu-
cić hipotezę zerową za pomocą jednego z nich, to i tak udałoby się od-
rzucić hipotezę zerową za pomocą metody parametrycznej.
• Ważne jest to, abyś do analizy danych wybrał taki test, który jest najczę-
ściej stosowany w interesującej cię dziedzinie badań. W psychologii
często mamy do czynienia z tzw. małymi paradygmatami, czyli prowa-
dzeniem badań według uświęconego tradycją, niemal identycznego
schematu eksperymentalnego. Wiele eksperymentów, np. w psychologii
myślenia, zakłada pomiary na skali rangowej i ich nieparametryczną
analizę. Wykorzystywanie tych samych skal pomiarowych i testów sta-
tystycznych pozwala na bezpośrednie porównywanie wyników różnych
badań.
TESTY NIEPARAMETRYCZNE 415
Któregoś dnia przyszło nam do głowy, żeby sprawdzić, czy studenci lubią
obiady w stołówce akademickiej. Ustawiliśmy się przed drzwiami do mensy
i pytaliśmy się o to każdego, kto wychodził. Założyliśmy, że jeśli studenci
odpowiadaliby przypadkowo, to połowa z nich powinna stwierdzić, że lubi
obiady, a druga połowa, że ich nie lubi. Taka sama proporcja powinna by się
ujawnić także wtedy, gdyby studenci nie mieli wyrobionego zdania na te-
mat obiadów. Uzyskanie odpowiedzi na pytanie, czy studenci lubią obiady
w stołówce akademickiej, byłoby jednak zbyt banalne. Bez wątpienia wszy-
scy studenci lubią obiady akademickie! (☺).
Postanowiliśmy więc sprawdzić coś znacznie mniej banalnego, a mianowi-
cie, czy lubienie obiadów jest w jakikolwiek sposób związane z płcią. Dys-
kretnie zapisywaliśmy zatem, czy wychodząca ze stołówki osoba jest chłop-
cem, czy londynką (oops, to zdaje się, że z innego przykładu). Tak czy ina-
czej, gdyby lubienie obiadów nie było związane z płcią, wtedy w grupie mi-
łośników kuchni akademickiej połowę powinny stanowić studentki, a drugą
połowę studenci oraz podobnie w grupie wybrednych – proporcja osób obu
płci powinna być taka sama. Po przeprowadzeniu ankiety otrzymaliśmy na-
stępujący rozkład odpowiedzi „lubię”, „nie lubię” wśród respondentów i re-
spondentek naszej ankiety.
416 WNIOSKOWANIE STATYSTYCZNE
2
O ZJEŹDZIE FANÓW CHAPLINA I NIEZALEŻNOŚCI TESTU χ NIEZALEŻNOŚCI
2
oraz × 33 = 22 białe kapelusze w kółka. Liczbę kapeluszy wszystkich
3
czterech typów podsumowuje tabela 7.2.
Tabela 7.2. Rozkład liczebno- Wzór na kapeluszach
ści osób w czarnych i białych Kolor kapeluszy Suma
melonikach w dwóch różnych paski kółka
wzorach podczas zjazdu w czarny 4 8 12
1986 roku, przy założeniu, że
kolor kapelusza i wzór nie są biały 11 22 33
ze sobą powiązane Suma 15 30 45
2
HIPOTEZA ZEROWA I ALTERNATYWNA W TEŚCIE χ NIEZALEŻNOŚCI
2
PANIE I PANOWIE, MELONIKI Z GŁÓW – LICZYMY χ
∑
i =1
suma liczebności w zakresie wszystkich kategorii od i do k.
2
I CO Z TEGO, ŻE χ = 8,18?
Wynikiem testu χ2 niezależności jest jedna liczba, która jest po prostu sumą
podniesionych do kwadratu różnic pomiędzy liczebnościami, jakie otrzyma-
liśmy w eksperymencie, a liczebnościami, jakie otrzymalibyśmy, gdyby obie
cechy klasyfikujące były od siebie niezależne. Liczbę tę interpretuje się po-
dobnie jak np. wynik testu t Studenta (oczywiście korzystając z innych tablic
statystycznych). Musimy sprawdzić, jakie jest prawdopodobieństwo otrzy-
mania takiej wartości χ2, jaką otrzymaliśmy (czyli w przykładzie z kapelu-
szami – 8,18), przy założeniu, że obie cechy klasyfikujące są od siebie nieza-
leżne. Prawdopodobieństwo to jednak zależy nie tylko od różnicy pomiędzy
wartościami otrzymanymi i wartościami oczekiwanymi, lecz także od tego,
jak wiele grup obserwacji powstało w wyniku klasyfikacji. Liczba grup jest
związana z parametrem rozkładu χ2, który – podobnie jak w przypadku testu
t – nosi nazwę liczby stopni swobody i oznaczany jest symbolem df (ang.
deegres of freedom). Wartość tego parametru oblicza się według wzoru:
df = (w – 1) × (k – 1)
w liczba poziomów jednej zmiennej niezależnej (np. liczba wierszy w tabeli klasyfikacji),
k liczba poziomów drugiej zmiennej niezależnej (np. liczba kolumn w tabeli klasyfikacji).
2
O POPRAWCE YATESA DO TESTU χ ZE WZGLĘDU NA MAŁE LICZEBNOŚCI
2
O ZDROWYM ROZSĄDKU I WIELKOŚCI TABEL LICZEBNOŚCI DLA TESTU χ NIEZALEŻNOŚCI
2
PIEŚŃ O TEŚCIE Χ NIEZALEŻNOŚCI PRAWIE SKOŃCZONA, PROSIMY O OKLASKI
NA KONIEC COŚ DLA OCHŁODY: „COLA CZY PEPSI? A MOŻE ROYAL CROWN?”
Liczba obserwacji
15
10
0
3,5 7,5 11,5 15,5 19,5 23,5 27,5 31,5 35,5 39,5 43,5 47,5
Długości zaskrońców
Skumulowane
Granice Liczebności zaskrońców liczebności proporcje
przedziałów w lesie pod
Lp. D
(długości
zaskrońców) zaskrońców w lesie pod
Zanim zajmiemy się sprawą interpretacji wyniku testu K-S, zapiszmy proce-
durę ustalania różnic między proporcjami za pomocą jednego wzoru.
fc ( A) i fc ( B ) i
Di = −
n( A ) i n( B ) i
Di różnica między proporcjami w dwóch zbiorach danych dla i-tego przedziału klasowego; spo-
śród tych różnic wybierana jest różnica największa D (max) i ona jest traktowana jako wynik
testu K-S,
fc(A)i oraz fc(B)i liczebności skumulowane w kolejnych, i-tych przedziałach klasowych dla dwóch porówny-
wanych zbiorów danych A i B,
n(A) oraz n(B) liczba pomiarów w grupie A i B.
n1 + n2
D α ,n n = λ α
n1 × n2
1 2
D α ,n1 ,n2 krytyczna wartość testu Kołmogorowa-Smirnowa dla danego poziomu istotności α oraz li-
czebności n1 i n2, odpowiadających obu porównywanym zbiorom danych,
λα (czytaj: „lambda alfa”) stała wartość rozkładu Kołmogorowa dla danego poziomu α; wartość
λ w zależności od przyjętego poziomu wynosi: 1,36 dla α = 0,05, 1,63 dla α = 0,01 i 1,95 dla
α = 0,001.
79 + 101
D 0, 01; 79;101 = 1,63 = 0,2428
79 × 101
Ostatnim krokiem analizy statystycznej jest zinterpretowanie wyniku testu
K-S poprzez porównanie go z obliczoną wartością krytyczną. Ponieważ
maksymalna różnica pomiędzy skumulowanymi proporcjami D (max) wynosi
0,4086 i jest ona większa od wartości krytycznej D 0, 01;79;101 = 0,2428 , może-
my spokojnie odrzucić hipotezę zerową i przyjąć, że prawdziwa jest hipoteza
alternatywna. Krótko mówiąc, wszystko wskazywałoby na to, że podwar-
szawskie zaskrońce to mikrusy w porównaniu z podlubelskimi, gdyby nie to,
że... całe to badanie wymyśliliśmy.
Nie mieliśmy pod ręką żadnych ciekawych wyników eksperymentów, które
analizowano by za pomocą testu Kołmogorowa-Smirnowa, i poniosła nas
fantazja. Jak później doczytaliśmy, w rzeczywistości samce zaskrońców ma-
ją między 70 a 100 cm, a samice między 85 a 130. W obu naszych zmyślo-
nych rozkładach są zaskrońce wyraźnie mniejsze od typowych, co tylko
świadczy o naszej ignorancji w tym temacie. Mamy przynajmniej nadzieję,
że udało nam się osiągnąć cel dydaktyczny, czyli z grubsza wiesz, o co cho-
dzi z testem K-S. Ma on jeszcze jedno zastosowanie, ale o tym później.
czy nie. Teraz pozostało już tylko podstawić te dane do testu Manna-
Whitneya. Oczywiście Marek nie znał tego testu, ale właśnie wtedy narodzi-
ła się w nim druga życiowa pasja – statystyka. Wkrótce już wiedział, do ja-
kich wzorów ma podstawić swoje dane:
n1 ( n1 + 1)
U 1 = n1 × n2 + − R1
2
i
n2 (n2 + 1)
U 2 = n1 × n2 + − R2
2
n1 liczebność pierwszej grupy,
n2 liczebność drugiej grupy,
R1 suma rang w pierwszej grupie,
R2 suma rang w drugiej grupie.
nie nieistotne. Właściwie nie ma w tym nic dziwnego, przecież w końcu obie
20-elementowe podróże powstały zupełnie przypadkowo.
1 32 19 13 13 8
2 41 23 18 18 9
3 18 12 6 6 4
4 19 19 0 0 –
5 26 23 3 3 3
6 15 16 –1 1 1 1
7 29 21 8 8 6
8 43 33 10 10 7
9 17 19 –2 2 2 2
10 19 12 7 7 5
Frank Wilcoxon 3
Suma 259 197
(1892-1965)
Test znaków stosuje się w podobnych sytuacjach, jak test Wilcoxona. Jest on
po prostu jeszcze łatwiejszy w obsłudze. Sposób jego obliczania przedstawi-
liśmy już w zasadzie, omawiając test dwumianowy na początku części po-
święconej testom nieparametrycznym. Procedura obliczania testu znaków,
442 WNIOSKOWANIE STATYSTYCZNE
tak samo jak testu dwumianowego, polega na porównaniu, ile razy wartości
jednego zbioru są większe od wartości drugiego zbioru. Bez wątpienia, jest
to najprostszy test statystyczny. Mimo to – a może właśnie dlatego – jest on
całkiem często wykorzystywany.
* Higgins, N. C., Cocks, P. Norman Higgins i Patricia Cocks* przeprowadzili badania dotyczące wpły-
(1999). The effects of animation wu animowanych książek wydawanych na CD-ROM-ach na uczenie się no-
cues on vocabulary develop-
ment. Reading Psychology, 20, wych słów przez dzieci. Chcieli się dowiedzieć, czy udział w ich ekspery-
1-10. mencie spowoduje, że dzieci będą znały więcej nowych słów niż przed eks-
perymentem.
Najpierw sprawdzali, jaki jest zakres rozumienia przez dzieci sześciu wy-
branych słów. Następnie poprosili je o to, aby wraz z nimi przeczytały ksią-
żeczkę zapisaną na płycie CD. Słowa, których znajomość wcześniej spraw-
dzali, ilustrowane były w książeczce za pomocą animacji. Po czterech
dniach raz jeszcze zapytali dzieci, w jaki sposób rozumieją te słowa. Okaza-
ło się, że 14 dzieci spośród 15 podało poprawne definicje większej liczby
słów niż za pierwszym razem.
Wykonując test znaków, podobnie jak w przypadku każdego testu dla da-
nych zależnych, najpierw trzeba odjąć wartości jednego pomiaru od drugie-
go w każdej parze. Kolejnym, a zarazem ostatnim krokiem jest policzenie,
ile razy wynik odejmowania ma znak dodatni, a ile razy znak ujemny. Wy-
nikiem testu jest liczba par ze znakiem, który wystąpił częściej. W ekspery-
mencie z animowanymi książkami na CD-ROM-ach wynikiem testu znaków
jest liczba 14, ponieważ tyle dzieci poprawnie definiowało więcej słów po
badaniu niż przed badaniem na wszystkich 15, które wzięły w nim udział.
H0: Proporcja par wyników, w których pierwszy pomiar jest wyższy niż dru-
gi, jest taka sama jak proporcja par wyników, dla których zachodzi za-
leżność odwrotna.
Im bardziej są zachwiane proporcje znaków dodatnich i ujemnych, tym
większe jest prawdopodobieństwo, że różnice pomiędzy danymi w pierw-
szym i w drugim pomiarze nie są dziełem przypadku.
Analizując wyniki testu znaków, zakładamy, że prawdopodobieństwo tego,
iż jeden z pomiarów w parze przypadkiem będzie większy od drugiego, wy-
nosi 0,5. Prawdopodobieństwo w teście znaków można obliczyć, korzystając
ze wzoru na prawdopodobieństwo w rozkładzie dwumianowym, który poda-
liśmy we wprowadzeniu do tego rozdziału. Przypomnijmy:
N!
p(k ) = × p k × q N −k
k!( N − k )!
p(k) prawdopodobieństwo, że jakaś cecha pojawi się k razy,
N liczebność całego zbioru,
dopełniające się, czyli w sumie wynoszące 1, prawdopodobieństwa tego, że zdarzenie, jakie
piq
nas interesuje, pojawi się jeden raz.
Test znaków jest uproszczoną wersją testu znaków i rang różnic Wilcoxona.
W przypadku testu Wilcoxona braliśmy pod uwagę dwie cechy par danych –
liczbę różnic ze znakiem dodatnim i ujemnym oraz sumę rang różnic ze zna-
kiem rzadziej występującym.
W teście znaków bierzemy pod uwagę mniej informacji – tylko liczbę różnic
– a zaniedbujemy ich wielkość. Test znaków jest więc stosowany zamiast te-
stu Wilcoxona zwłaszcza wtedy, gdy wyniki uzyskane przez osoby badane
mają bardzo mały zakres zmienności. W takiej sytuacji rangowanie ich róż-
nic niewiele wnosi istotnych informacji co do charakteru analizowanego
zbioru danych.
TESTY NIEPARAMETRYCZNE 445
4 5 6 5 6
5 7 4 7 5
6 3 6 6 9
7 4 3 5 8
8 5 9 7 3
9 5 8 8 6
10 5 4 6 5
11 4 7 4 8
2
NAWET W TEŚCIE OPARTYM NA MEDIANIE NIE UCIEKNIESZ OD χ
Tabela 7.14 jako żywo przypomina tabele używane do obliczania testu χ2.
W jej kratkach zapisane są liczebności cząstkowe i sumy brzegowe: wypisz,
wymaluj, matryca 2 × 4. I rzeczywiście, do jej analizy wykorzystuje się zna-
ny ci już test χ2.
448 WNIOSKOWANIE STATYSTYCZNE
CZY TEST FRIEDMANA POZWOLI NAM SIĘ CZEGOŚ DOWIEDZIEĆ O POTRZEBACH LINOSKOCZKÓW?
Test Friedmana stosuje się wtedy, gdy zgromadzono więcej niż dwa pomiary
zmiennej zależnej w tej samej grupie osób badanych. Jest to więc, ściśle
mówiąc, odpowiednik jednoczynnikowej analizy wariancji z powtarzanymi
pomiarami.
* Siegel, S. (1956). Nonparame- Do prezentacji sposobu obliczania testu Friedmana wykorzystamy przykład
tric statistics for the behavioral
sciences. New York: McGraw opisany w podręczniku Sidneya Siegla*. Nadamy mu jednak konkretną
Hill. treść, aby nie był zbyt nudny. Nie możemy przecież dopuścić do tego, żebyś
się nudził na zajęciach ze statystyki. Zafundujmy więc sobie trochę ekscytu-
jących wrażeń.
** Zuckerman, M. (1994). Be- Marvin Zuckerman** skonstruował kwestionariusz mierzący nasilenie po-
havioral expressions and bioso- trzeby poszukiwania wrażeń.
cial bases of sensation seeking.
New York: Cambridge Universi- Poszukiwanie doznań – pisze Zuckerman – to cecha zdefiniowana przez poszukiwa-
ty Presss – za: Strelau, J. (2000).
Temperament. W: J. Strelau
nie zróżnicowanych, nowych, złożonych i intensywnych wrażeń i doświadczeń oraz
(red.), Psychologia. Podręcznik gotowość do podejmowania ryzyka […] w celu dostarczenia sobie tego typu do-
akademicki (t. I, s. 683-720). świadczeń (s. 27).
Gdańsk: GWP.
Poszukiwanie wrażeń jest wypadkową czterech wymiarów: poszukiwania
grozy i przygód, poszukiwania przeżyć, rozhamowania i podatności na nudę.
Nazwy tych wymiarów w zasadzie tłumaczą się same, może z wyjątkiem
rozhamowania, które oznacza tendencję do specyficznego stylu życia, wyra-
żającego się np. nieplanowanymi podróżami lub sięganiem po narkotyki.
Skala poszukiwania wrażeń (określana w skrócie jako SSS, od angielskiej
nazwy Sensation Seeking Scale) składa się z czterdziestu pytań, z których po
dziesięć przypada na każdą z podskal.
Na każde pytanie badany ma do wyboru jedną z dwóch odpowiedzi. Suma
diagnostycznych odpowiedzi w ramach każdego wymiaru waha się od 0 do
10 punktów. Im więcej punktów, tym silniejsza tendencja do poszukiwania
wrażeń.
Skalą poszukiwania wrażeń przebadano trzech linoskoczków z cyrku „Are-
na” (zob. tab. 7.17).
Oczywiście, gdyby dwie lub więcej wartości w tym samym wierszu były
identyczne, należałoby użyć tak zwanych rang wiązanych.
Zgodnie z hipotezą zerową możemy się spodziewać, że pomiary w poszcze-
gólnych skalach układają się losowo. Gdyby tak było, wówczas sumy rang
dla poszczególnych kolumn powinny być identyczne. Jeżeli jednak któryś
z wymiarów tendencji do poszukiwania wrażeń np. był bardziej dominujący
niż inne, to sumy rang w poszczególnych kolumnach powinny być różne.
Weryfikacja hipotezy zerowej w teście Friedmana polega na obliczeniu
„specjalnej” wersji statystyki χ2 według następującego wzoru:
⎡ 12 k
⎤
χ 2r = ⎢ ∑ R 2j ⎥ − 3 N (k + 1)
⎣ Nk (k + 1) j =1 ⎦
χ 2r wynik testu Friedmana,
χ r2 =
12
3 × 4 × (4 + 1)
[ ]
× 112 + 52 + 4 2 + 10 2 − 3 × 3 × (4 + 1) = 7,4
nie zabieg ten się określa jako poszukiwanie krzywej normalnej najlepiej
dobranej do krzywej empirycznej.
Rysunek 7.1 pokazuje dwie takie krzywe: jedna przedstawia rzeczywisty
rozkład wyników, druga zaś – jaki ten rozkład powinien być, gdyby badana
zmienna miała rzeczywiście rozkład normalny.
5
Liczba obserwacji
0
13 14 15 16 17 18 19 20 21 22
Punkty na egzaminie
≤ 37 4
≤ 38 11
≤ 39 19
≤ 40 25
≤ 41 46
≤ 42 52
≤ 43 37
≤ 44 31
≤ 45 12
≤ 46 5
≤ 47 1
≤ 48 1
Suma 247
35 − 41,24
z35 = = −2,99
2,09
Teraz wiemy, że 35 cm jest odsunięte od średniej dla całej próby o 2,99 od-
chylenia standardowego. Spójrz, jeżeli odchylenie standardowe równa się
2,09, to 35 leży w odległości równej 2,99 × 2,09 od 41,24. A ponieważ wy-
nik standaryzowany z poprzedza znak minus (–2,99), jest więc oczywiste, że
wartość 35 leży po lewej stronie od średniej.
458 WNIOSKOWANIE STATYSTYCZNE
36 − 41,24
z14 = = −2,51
2,09
2
TEST χ ZGODNOŚCI
38 11 9,68 1,32
39 19 20,10 –1,10
40 25 33,24 –8,24
41 46 43,92 2,08
42 52 46,35 5,65
43 37 39,08 –2,08
44 31 26,32 4,68
45 12 14,16 –2,16
Koniec końców, wartość testu χ2 dla zbioru pomiarów rozstawu ramion wy-
nosi 5,3128.
462 WNIOSKOWANIE STATYSTYCZNE
2
INTERPRETACJA WYNIKU W TEŚCIE χ ZGODNOŚCI
kładem normalnym. Wynik testu χ2 dla tych danych równał się 5,90. Pro-
gram, z którego korzystaliśmy, początkowo podzielił cały zbiór na 11 kate-
gorii, ale po połączeniu przedziałów, w których wartości oczekiwane były
niższe niż 5, zostało ich 8. Wartość krytyczna testu χ2 dla df = 8 – 2 – 1 = 5,
wynosi 11,07, a więc jest wyższa niż otrzymana, co wskazuje na brak istot-
nych różnic między rozkładem empirycznym i normalnym.
Średni rozstaw ramion u kobiet to około 36,5 cm, a odchylenie standardowe
wynosi 1,78. Jeżeli chcesz, możesz samemu sprawdzić, czy kobiety są rze-
czywiście węższe w ramionach niż mężczyźni. Ponieważ rozkłady obu grup
osób badanych są normalne, możesz zastosować test t dla dwóch średnich
(lub test z – liczebności bowiem w badanych próbach są tak duże, że nie bę-
dzie większej różnicy w wyniku).
2
TEST χ ZGODNOŚCI DLA INNYCH ROZKŁADÓW TEORETYCZNYCH NIŻ ROZKŁAD NORMALNY
6 mln
5 mln
Liczba głosów
4 mln
3 mln
2 mln
1 mln
Lepper
Wałęsa
Wilecki
Łopuszański
Ikonowicz
Pawłowski
Olechowski
Kalinowski
Grabowski
Kwaśniewski
Krzaklewski
Korwin-Mikke
Kandydaci na prezydenta
2 1800,00-2000,00 0 1
3. 2000,00-2200,00 2 3
4. 2200,00-2400,00 2 5
5. 2400,00-2600,00 1 6
6. 2600,00-2800,00 1 7
7. 2800,00-3000,00 2 9
8. 3000,00-3200,00 4 13
9. 3200,00-3400,00 8 21
10. 3400,00-3600,00 12 33
11. 3600,00-3800,00 6 39
12. 3800,00-4000,00 4 43
13. 4000,00-4200,00 1 44
44
2
KIEDY STOSUJE SIĘ TEST KOŁMOGOROWA-SMIRNOWA, A KIEDY TEST χ ZGODNOŚCI?
* Allison, T., Cicchetti, D. Truett Allison i Domenico Cicchetti zainteresowali się długością snu u róż-
(1976) Sleep in mammals: eco- nych gatunków ssaków*. Ponieważ przeprowadzone przez nich badania do-
logical and constitutional corre-
lates. Science, 194, 732-734. tyczyły różnych typów snów, zacznijmy od kilku wyjaśnień wprowadzają-
cych w tę tematykę.
Badacze rozróżniają dwa rodzaje snu: wolnofalowy i paradoksalny, określa-
ny inaczej jako faza REM (od angielskiego Rapid Eye Movement, czyli od
szybkich ruchów gałek ocznych, występujących w tej fazie). Sen paradok-
salny występuje 5-6 razy w ciągu nocy. Jeśli w czasie fazy REM zostaniesz
obudzony, doświadczysz zaskakującego doznania „wyrwania” Cię z bardziej
lub mniej przyjemnego marzenia sennego, czyli tego, co najczęściej nazy-
wamy śnieniem. Oba typy snów (wolnofalowy i paradoksalny) charakteryzu-
ją się różnym przebiegiem fal mózgowych oraz różnymi procesami neu-
** Por. Matysiak, J. (2000). robiochemicznymi**.
Psychologia fizjologiczna. W:
J. Strelau (red.), Psychologia. Wśród badaczy podejmujących problematykę snu u zwierząt istnieje spór
Podręcznika akademicki (t. I, dotyczący natury śnienia w fazie REM. Jeżeli sen paradoksalny kojarzy się
s. 95-129). Gdańsk: GWP.
z marzeniami sennymi u ludzi, to istnienie takiej fazy u zwierząt mogłoby
świadczyć o tym, że i zwierzęta także śnią podczas snu. Ale co miałoby to
znaczyć? – pytają inni. Czy możemy odpowiedzieć na pytanie, o czym śnią
np. gronostaje czy mrówkojady lub w jaki sposób reprezentują świat w ma-
rzeniach sennych leniwce? Do tej pory najlepiej zbadano sen u kotów, u któ-
rych zaobserwowano podobny przebieg fal mózgowych do tego zidentyfi-
kowanego u ludzi podczas snu paradoksalnego. Naukowcy próbują także
odpowiedzieć na pytanie, czy inne ssaki także śnią, oraz usiłują zdiagnozo-
wać czynniki, od których zależy długość snu w ciągu doby oraz długość snu
paradoksalnego.
ANALIZA KORELACJI I REGRESJI 473
* Siegel J. M. (1999). The evo- Okazuje się np., że czas snu paradoksalnego w największym stopniu zależy
lution of REM sleep. W: od tego, czy zwierzę rodzi się jako jednostka gotowa do samodzielnego ży-
R. Lydic, H.A. Baghdoyan
(red.), Handbook of behavioral cia (wtedy śni raczej krótko), czy też potrzebuje opieki rodzicielskiej po
state control (s. 87-100). Boca urodzeniu (i wtedy śni znacznie dłużej)*.
Raton: CRC Press.
Tabela 8.1. Najdłuższe i naj- Gatunek ssaka Czas snu (godz. na dobę) Maks. długość życia
krótsze czasy snów i maksy-
malne długości życia wśród Sarna 2,6 17
ssaków opisanych przez Nocek 19,9 24
Truetta Allisona i Domenica
Cicchettiego (1976) Człowiek 8 100
Ryjówka 12,8 2
∑z Xi zY
i
rXY = i =1
N
rXY współczynnik korelacji,
zX wynik standaryzowany danego pomiaru (i) zmiennej X, czyli różnica między tym pomiarem
i
a średnią dla zmiennej X, wyrażona w jednostkach odchylenia standardowego dla tej
zmiennej,
zY wynik standaryzowany danego pomiaru (i) zmiennej Y, czyli różnica między tym pomiarem
i
a średnią dla zmiennej Y, wyrażona w jednostkach odchylenia standardowego dla tej
zmiennej,
N liczba par pomiarów,
N suma – w tym przypadku – iloczynów par wyników standaryzowanych, począwszy od
∑
i =1
pierwszego (i = 1) do ostatniego, równego liczbie wszystkich pomiarów, czyli N.
∑z xi zy i
0,63 + (−0,44) + (−0,74) + (−0,28) − 0,83
rXY = i =1
= = = −0,21
N 4 4
Wartość rXY = –0,21 oznacza, że jeżeli wartość jednej zmiennej jest wyższa
od średniej o jedno odchylenie standardowe, to wartość drugiej jest przecięt-
nie niższa od średniej o 0,21 odchylenia standardowego. Nie wchodząc na
razie w dalsze szczegóły, możemy powiedzieć, że związek między długością
snu a długością życia jest odwrotnie proporcjonalny, czyli im dłużej żyje
ssak, tym krócej śpi, co na tym poziomie analizy jest równoważne stwier-
dzeniu, że im dłużej ssak śpi, tym krócej żyje.
8
Zmienna Y
2
1 2 3 4 5
Zmienna X
1 1 3 –1,22 –1,22
2 2 5 –0,82 –0,82
3 4 9 0 0
4 5 11 0,41 0,41
5 8 17 1,63 1,63
Średnia 4 9 0 0
Odchylenie
2,45 4,90
standardowe
∑z xi zy i
rXY = i =1
=
N
(−1,22) × ( −1,22) + ( −0,82) × (−0,82) + 0 × 0 + 0,41 × 0,41 + 1,63 × 1,63
= =
5
4,99
= = 0,998
5
No, prawie 1, ale tylko dlatego, że najpierw odchylenia standardowe, a póź-
niej wszystkie wyniki standaryzowane zaokrągliliśmy do dwóch miejsc po
przecinku. Gdyby nie te zaokrąglenia, wyszłoby dokładnie 1 – możesz nam
wierzyć.
Jeżeli w układzie współrzędnych naniesiemy punkty odpowiadające wyni-
kom standaryzowanym zX i zY, to również te punkty będą leżały na linii pro-
stej (por. rysunek 8.2).
No to zabawmy się i zróbmy teraz mały „myk”: odwróćmy kolejność pomia-
rów i odpowiadających im wyników standaryzowanych dla zmiennej Y. Na-
sza tabelka z danymi będzie teraz wyglądała następująco (zob. tab. 8.6).
480 WNIOSKOWANIE STATYSTYCZNE
0,5
Zmienna Y
0,0
-0,5
-1,0
-1,5
-1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,0
Zmienna X
∑z
i =1
xi zy i
rXY = =
N
(−1,22) × 1,63 + (−0,82) × 0,41 + 0 × 0 + 0,41× (−0,82) + 1,63 × (−1,22)
= =
5
− 4,65
= = −0,93
5
Przede wszystkim współczynnik korelacji jest ujemny, a poza tym jego war-
tość bezwzględna jest mniejsza od 1. Jeżeli zrobimy wykres rozrzutu wyni-
ków standaryzowanych odpowiadających pomiarom zmiennych X i Y „po
ANALIZA KORELACJI I REGRESJI 481
myku”, to się okaże, że w żaden sposób nie da się poprowadzić linii prostej
przechodzącej przez wszystkie pięć punktów (zob. rys. 8.3). Co najwyżej
można narysować linię prostą, która znajdzie się możliwie jak najbliżej
wszystkich punktów.
Pewne jest tylko jedno, że taka linia będzie przechodzić przez punkt odpo-
wiadający średniej arytmetycznej dla rozkładów standaryzowanych zmien-
nej X i zmiennej Y, czyli przez punkt (0, 0).
Oczywiście istnieje matematyczna metoda służąca do znajdowania takich
prostych, jak ta na rysunku 8.3. O metodzie tej napiszemy dokładniej w czę-
ści poświęconej analizie regresji, ale teraz wprowadzimy pojęcie linii regre-
sji, czyli prostej, która znajduje się najbliżej wszystkich punktów na wykre-
sie rozrzutu.
Rysunek 8.3. Wykres rozrzu- 2,0
tu wyników standaryzowa-
nych dla pomiarów „po myku” 1,5
(r = –0,93) [STATISTICA]
1,0
0,5
Zmienna Y
0,0
-0,5
-1,0
-1,5
-1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,0
Zmienna X
0,5
Zmienna Y
0,0
-0,5
-1,0
-1,5
-2,0
-2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,0
Zmienna X
W obu sytuacjach, czyli na rysunkach 8.2 i 8.4, gdy korelacja wynosi 1 albo
–1, można bezbłędnie przewidywać wartości jednej zmiennej na podstawie
wartości drugiej zmiennej. Wynika to wprost ze wzoru na wartość współ-
czynnika korelacji, który po pewnych przekształceniach opisuje następującą
zależność:
z x = rXY × z y
10
Zmienna Y
0
0 1 2 3 4 5 6 7 8 9
Zmienna X
Wiesz już, co to znaczy, że korelacja wynosi 1 lub –1. Wiesz także, że gdy
wartość współczynnika jest mniejsza niż 1 lub większa od –1, wtedy linia
regresji nie przechodzi przez wszystkie pary pomiarów (X,Y), choć zawsze
przechodzi przez punkt reprezentujący średnią w obu tych zbiorach. Jeśli
484 WNIOSKOWANIE STATYSTYCZNE
14 ryjówka
12
10
człowiek
8
4 sarna
2
0
-20 0 20 40 60 80 100 120
Maksymalna długość życia (lata)
σ 2y '
∑ (Y '
− Y )2 N
∑ (Y
i
σ 2 i =1
i
'
− Y )2
r2 = y'
= N = i =1
σ 2 N N
y
∑ (Y − Y )
i =1
i
2
∑ (Y − Y )
i =1
i
2
N
Po skróceniu tego piętrusa przez N, czyli liczbę par pomiarów, otrzymujemy
stosunek dwóch sum kwadratów odchyleń od średniej. Suma w liczniku to
miara tego, o ile odchylają się wartości przewidywane od średniej w zbiorze
Y (czyli faktycznej średniej czasu snu), a suma w mianowniku to miara tego,
o ile od tej samej średniej odchylają się faktycznie otrzymane wartości.
Jeżeli popatrzysz jeszcze raz na rysunek 8.6, to szybko dojdziesz do wnio-
sku, że współczynnik determinacji r2 jest wskaźnikiem odchylenia otrzyma-
nych pomiarów od linii regresji, czyli linii przechodzącej przez pomiary
przewidywane. Można więc powiedzieć, że współczynnik determinacji jest
miarą liniowości związku pomiędzy zmiennymi, a współczynnik korelacji –
pierwiastkiem kwadratowym z tej miary, dodatkowo opatrzonym znakiem
dodatnim lub ujemnym, w zależności od kierunku tego związku.
dzy jedną zmienną a drugą, jaki zachodzi dla otrzymanych przez nas danych.
Dla r = –0,41, r2 = 0,168, a 1 – r2 = 0,832. Na podstawie tych rachunków
możemy powiedzieć, że czas snu w badanej grupie ssaków w 16,8% zależy
od maksymalnej długości ich życia, a w 83,2% od innych czynników, o któ-
rych nic (na razie) nie wiemy.
Rysunek 8.7. Wykres rozrzu- 22
tu zmiennych „długość snu” 20
i „maksymalna długość życia”
16
14
12
10
0
-10 10 30 50 70 90 110
Maksymalna długość życia (lata)
(1 – min.,5 – maks.)
3. Sen wolnofalowy
2. Masa mózgu (g)
6. Maks. długość
(1-min., 5 maks.)
(godz./doba)
(godz./doba)
(godz./doba)
4. Sen REM
życia (lata)
1. Masa ciała (kg) 1,00 0,93 –0,38 –0,11 –0,31 0,30 0,65 0,06 0,34 0,13
2. Masa mózgu (g) 0,93 1,00 –0,37 –0,11 –0,36 0,51 0,75 0,03 0,37 0,15
3. Sen wolnofalowy (godz./doba) –0,38 –0,37 1,00 0,51 0,96 –0,38 –0,59 –0,32 –0,54 –0,48
4. Sen REM (godz./doba) –0,11 –0,11 0,51 1,00 0,73 –0,30 –0,45 –0,45 –0,54 –0,58
5. Całkowity czas snu (godz./doba) –0,31 –0,36 0,96 0,73 1,00 –0,41 –0,63 –0,40 –0,64 –0,59
6. Maks. długość życia (lata) 0,30 0,51 –0,38 –0,30 –0,41 1,00 0,61 –0,10 0,36 0,06
7. Czas ciąży (dni) 0,65 0,75 –0,59 –0,45 –0,63 0,61 1,00 0,20 0,64 0,38
8. Zagrożenie drapieżnikiem
0,06 0,03 –0,32 –0,45 –0,40 –0,10 0,20 1,00 0,62 0,92
(1 – min., 5 – maks.)
3,5
2,5
1,5
0,5
-10 10 30 50 70 90 110
Maksymalna długość życia (lata)
OBSERWACJE NIETYPOWE
wie 5 gramów ryjówka. W ten sposób skala ciężaru ciała ssaków rozciąga
się od 5 gramów do 6654 kg. Średnia waga wszystkich ssaków wyniosła
198,79 kg, średnia zaś długość snu – 10,53 godziny. Korelacja między tymi
dwoma zmiennymi równa się: r = –0,31 i istotnie różni się od zera na po-
ziomie p<0,05. Na rysunkach 8.9 i 8.10 przedstawiamy histogramy dla
zmiennych, odpowiednio, „ciężar ciała” i „całkowity czas snu”.
40
35
30
25
20
15
10
5
0 1 0 0 0 1 0
0
0-1 1-2 2-3 3-4 4-5 5-6 6-7 >7
Ciężar ciała (w tonach)
7
6
5 5
5
4
3 3
3
2
2
1
0 0
0
<2 2-4 4-6 6-8 8-10 10-12 12-14 14-16 16-18 18-20 >20
Całkowity czas snu (godziny na dobę)
Zmienna Y
czyzn [STATISTICA]
96
94
92
-0,20)
Kobiety (r = 0,20)
90
90 92 94 96 98 100 102 104 106
Zmienna X
49
48
47
46
45 Profile:
mężczyzn
44
kobiet
43
I II III IV V VI VII VIII IX X XI XII
Miesiące urodzenia
0,0
-0,2
-0,4
-0,6
-0,8
-1,0
-1,2
0 2 4 6 8 10 12 14
Zmienna X
∑z Xi zY
i
rXY = i =1
N
502 WNIOSKOWANIE STATYSTYCZNE
∑(X i − µ X )(Yi − µY )
rXY = i =1
Nσ X σ Y
We wzorze tym użyliśmy symboli greckich po prawej stronie – jest to więc
wartość współczynnika korelacji dla populacji i w zasadzie po lewej stronie
równania powinien znajdować się symbol ρ (czytaj: „ro”).
Gdybyśmy obliczali korelację dla próby, byłyby one wtedy estymatorem pa-
rametru populacji, a wzór wyglądałby tak:
N
∑(X i − X X )(Yi − Y Y )
rXY = i =1
Ns X sY
∑(X i − X X )(Yi − Y Y )
rXY = i =1
N N
∑ ( X i − X ) 2 ∑ (Yi − Y ) 2
i =1 i =1
ANALIZA KORELACJI I REGRESJI 503
∑(X i − X X )(Yi − Y Y )
− 200,58
rXY = i =1
= = −0,21
N N
5756,75 × 161,98
∑(Xi =1
i − X) 2
∑ (Y − Y )
i =1
i
2
Wynik jest dokładnie taki sam jak wtedy, gdy obliczaliśmy korelację po za-
mienieniu wartości obu zmiennych na wyniki standaryzowane z.
∑(X i − µ X )(Yi − µY )
rXY = i =1
Nσ X σ Y
usuniemy odchylenia standardowe dla zmiennych X i Y, to otrzymamy wzór
na współczynnik kowariancji, który oznaczymy symbolem σXY :
504 WNIOSKOWANIE STATYSTYCZNE
∑(X i − µ X )(Yi − µY )
σ XY = i =1
N
Dokładniejsza analiza tego, co „zawiera” wzór na kowariancję, pomaga
w zrozumieniu związku między korelacją a liniowością. Najpierw zwróć
uwagę na to, że kowariancja wzrasta wtedy, gdy dla każdej pary (X, Y) po-
miary odchylają się od średniej w tym samym kierunku: jeżeli wartość X jest
większa od średniej µX, to i wartość Y jest większa od średniej µY. Kowarian-
cja wzrasta również wtedy, gdy wartościom zmiennej X mniejszym od śred-
niej µX odpowiadają wartości zmiennej Y mniejsze od wartości µY. Mamy
wtedy w liczniku iloczyn dwóch liczb ujemnych, co daje wartość dodatnią,
czyli zwiększa kowariancję.
Jeżeli związek między zmiennymi jest wprost proporcjonalny, to kowarian-
cja jest dodatnia, a jeżeli jest odwrotnie proporcjonalny, to kowariancja jest
ujemna. Nic w tym dziwnego, ponieważ między kowariancją a korelacją
występuje prosta zależność: kowariancja to nic innego, jak iloczyn korelacji
i odchyleń standardowych dla zmiennych X i Y:
σ XY = rXY σ X σY
No to, konsekwentnie, korelacja jest równa kowariancji podzielonej przez
iloczyn odchyleń standardowych:
σ XY
rXY =
σ X σY
Kowariancja i korelacja mają zawsze taki sam znak, ponieważ odchylenie
standardowe zawsze jest wartością dodatnią.
CZY W KRAJACH, W KTÓRYCH JEST WIĘCEJ BOCIANÓW, RODZI SIĘ WIĘCEJ DZIECI?
Sprawa związku między liczbą bocianów i liczbą dzieci wcale nie jest taka
oczywista, jak mogłoby się niejednemu sceptykowi wydawać.
Robert Matthews stwierdził, że korelacja między liczbą dzieci a liczbą bo-
* Por. Matthews, R. (2000).
cianów w krajach europejskich wynosi r = 0,62. Po podniesieniu jej do kwa-
Storks deliver babies dratu, wartość współczynnika determinacji wynosi r2 = 0,384, co oznacza, że
(p = 0,008). Teaching Statistics, 38,4% wariancji dla zmiennej „liczba dzieci w krajach Europy” jest związa-
22, 36-38.
ne z tym, ile bocianów jest w danym kraju (zob. tab. 8.10)*. I co Ty na to?
Dane w tabeli 8.10 pochodzą z roku 1990 i chociaż w Polsce nie rodziło się
wtedy najwięcej dzieci w porównaniu z innymi krajami europejskimi, to
* Zgodnie z wynikami spisu bo- jednak bez wątpienia najwięcej bocianów przylatywało do nas!*
cianów, podanymi na stronie
www.bociany.pl, w Polsce w ro- Aby obliczyć korelację między liczbą bocianów w poszczególnych krajach
ku 2005 mieszka około 50 000 a liczbą dzieci, które rodzą się w ciągu roku, należy podstawić odpowiednie
par bocianów.
pary pomiarów do wzoru na współczynnik korelacji r Pearsona.
Liczba
0,812 0,354 1 0,851
mieszkańców
Jak widzisz, różnica między tymi dwoma rodzajami korelacji dotyczy tylko
tego, co znajduje się w mianowniku. Korelację semi-cząstkową między
zmiennymi X i Y należy traktować jako korelację między tymi zmiennymi,
pomniejszoną o siłę związku zmiennej Y (lub X) z trzecią zmienną Z.
Gdy obliczasz współczynnik zarówno korelacji cząstkowej, jak i semi-
cząstkowej między zmiennymi X i Y, odrzucasz wpływ trzeciej zmiennej Z.
Różnica między tymi współczynnikami polega na tym, że gdy obliczasz ko-
relację cząstkową, wówczas odrzucasz związek zmiennej Z ze zmienną
Y oraz związek zmiennej Z ze zmienną X. Wtedy zaś, gdy obliczasz korela-
cję semi-cząstkową, odrzucasz tylko jeden związek zmiennej Y (lub X) ze
zmienną Z.
Porównajmy wielkość obu tych korelacji dla danych z naszego przykładu
z bocianami. Wartość współczynnika korelacji semi-cząstkowej, czyli
współczynnika korelacji między zmienną X („liczba bocianów”) a zmienną
Y („liczba urodzeń”), pomniejszonego o związek zmiennej Z („powierzchnia
kraju”) ze zmienną Y („liczba urodzeń”), obliczymy następująco:
rXY − rXZ rYZ 0,62 − 0,579 × 0,923
rX (Y .Z ) = = = 0,22
(1 − r ) 2
YZ (1 − 0,9232 )
Współczynnik korelacji semi-cząstkowej jest zawsze mniejszy od współ-
czynnika korelacji cząstkowej, choć często obie wartości są do siebie po-
dobne.
510 WNIOSKOWANIE STATYSTYCZNE
KRÓTKIE PODSUMOWANIE
Jeżeli zbiór par wyników potraktujemy jako pewną próbę wylosowaną z ca-
łej populacji możliwych par, to – dokładnie tak samo, jak w przypadku śred-
niej arytmetycznej – możemy oszacować, w jakim stopniu współczynnik ten
odzwierciedla rzeczywistą korelację dwóch cech w całej populacji. Inaczej
mówiąc, możemy sprawdzić, czy otrzymana przez nas wartość korelacji
istotnie różni się od zera. W tym celu – jak już pisaliśmy – stosuje się test
t Studenta dla współczynnika korelacji:
r
t= N −2
1− r 2
ANALIZA KORELACJI I REGRESJI 511
ILUZJA KONTROLI
* Por. rozdział 6.4. rządkowych, ale wtedy możesz wystawić się na krytykę, ponieważ nie wszy-
scy badacze są przekonani, że takie zabiegi są dopuszczalne*.
Jeśli jednak chcesz interpretować współczynnik korelacji r Pearsona jako es-
tymator parametru w populacji, to, po pierwsze, rozkład obu zmiennych mu-
si być normalny, a po drugie, wariancje nie mogą się istotnie od siebie róż-
nić. Zgodnie z cytowanymi wcześniej wynikami badań prowadzonych za
pomocą metod Monte Carlo, można trochę naciągnąć zwłaszcza to drugie
założenie, gdy badana próba liczy więcej niż 50 elementów.
Ze zignorowaniem pierwszego jest pewien kłopot, jako że już samo stwier-
dzenie normalności lub odstępstwa od normalności rozkładu wymaga, aby
dane były wyrażone za pomocą skali o stałej jednostce, czyli przedziałowej
lub stosunkowej.
W jaki więc sposób można oszacować korelację między dwoma zmiennymi
wtedy, gdy:
• do ich pomiaru w badaniach posłużyliśmy się skalami porządkowymi,
• mamy uzasadnione wątpliwości co do tego, czy otrzymane wartości
można potraktować jako pomiary na skali interwałowej, lub
• liczebność zbiorów danych jest mała, np. obejmuje tylko 10 pomiarów?
Ponieważ w praktyce badawczej dosyć często mamy do czynienia z takimi
danymi, statystycy opracowali odpowiednie metody służące do szacowania
siły związku między zmiennymi tego typu. Jednym z najczęściej stosowa-
nych współczynników w takiej sytuacji jest współczynnik korelacji rango-
wej R Spearmana. Współczynnik znany jest także pod nazwą ρ (czytaj: „ro”)
Spearmana, ale w naszym przewodniku grecką literę ρ zarezerwowaliśmy na
oznaczenie korelacji dla populacji.
Oprócz współczynnika R, opracowanego przez Charlesa Edwarda Spearma-
na, drugim statystykiem, który zaproponował alternatywne metody badania
korelacji dla danych porządkowych, był Maurice George Kendall. Opowie-
my Ci więc także o współczynniku τ (czytaj: „tau”) Kendalla i jego specjal-
nej wersji, wykorzystywanej do oceny zgodności ocen, czyli o współczynni-
ku zgodności W, też Kendalla.
Przy okazji dodajmy, że dwa korelowane ciągi rang mogą się odnosić za-
równo do tego samego zbioru obiektów (czyli tak jak w przypadku zacho-
wań morświnów), jak i do tych samych osób badanych. Może to być np.
dwukrotna ocena trudności zadań testowych, przez tę samą grupę studentów,
przed rozwiązaniem testu i po jego rozwiązaniu.
2
CZY WPADŁBYŚ NA TO, ŻE d JEST MIARĄ INWERSJI?
Każde uporządkowanie, bez względu na to, czy dokonane przez jedną, czy
przez dwie grupy osób badanych, ostatecznie sprowadza się do ustawienia
w odpowiedniej kolejności zbioru liczb całkowitych. Na przykład uporząd-
kowanie 10 porcelanowych filiżanek ze względu na ich pojemność polega na
przypisaniu im liczb od 1 do 10 i ustawieniu w kolejności od najmniejszej do
największej. Jeżeli uporządkujemy jeden zbiór obiektów dwukrotnie, to mo-
żemy porównać kolejność obu uporządkowań.
Pięć zabawek znajdujących się w pokoju dziecinnym ułożyliśmy według
wielkości. Wzięliśmy pod uwagę: traktor, globus, samolot, pudełko z puzz-
lami i balon. Po uporządkowaniu otrzymamy następujący porządek zabawek
i odpowiadających im rang: samolot – 1, traktor – 2, globus – 3, puzzle – 4,
balon – 5. Następnie poprosiliśmy dziecko o uporządkowanie ich ze względu
na atrakcyjność. Teraz kolejność wyglądała inaczej: puzzle – 1, globus – 2,
balon – 3, traktor – 4, samolot – 5 (zob. tab. 8.13).
∑d
i =1
2
ANALIZA KORELACJI I REGRESJI 517
∑d 2
= (1 − 5) 2 +(2 − 4) 2 + (3 − 2) 2 + (4 − 1) 2 + (5 − 3) 2 = 34
Bardzo łatwo wykazać (i właśnie dlatego nie będziemy tego tutaj robić), że
jeśli obydwa uporządkowania są takie same, to wskaźnik inwersji ∑ d 2
wynosi 0. Można także wykazać (choć to nieco trudniejsze), że dla każdej
liczby par istnieje najwyższa wartość ∑ d 2 wtedy, gdy obydwa uporząd-
kowania są względem siebie odwrotne.
2
W JAKI SPOSÓB CHARLES SPEARMAN WYKORZYSTAŁ d DO OBLICZANIA KORELACJI?
N × ( N 2 − 1)
R współczynnik korelacji rangowej Spearmana,
N miara inwersji, czyli w tym przypadku suma podniesionych do kwadratu różnic między ko-
∑d
i =1
i
2
lejnymi parami rang,
6×0
R = 1− =1
5 × (5 2 − 1)
Taki wynik otrzymasz zawsze, niezależnie od tego, ile jest par rang, ponie-
waż zerowa wartość miary inwersji w liczniku sprawia, że cały iloraz jest
równy 0, a 1 – 0 = 1. A co by się stało z współczynnikiem korelacji rango-
wej Spearmana, gdyby obydwa uporządkowania były odwrotne względem
siebie (zob tab. 8.14)?
Tabela 8.14. Odwrotnie pro- Rangi 2
porcjonalne uporządkowanie d d
dwóch zbiorów rang Zbiór A Zbiór B
1 5 –4 16
2 4 –2 4
3 3 0 0
4 2 2 4
5 1 4 16
∑d 2
= 40
N −2
t=R
1 − R2
Na początku tego rozdziału opisaliśmy wyniki rangowania 16 zachowań
morświnów, ze względu na ich nowość oraz skomplikowanie. Korelacja
rangowa między tymi dwoma uporządkowaniami wyniosła R = 0,54. Korzy-
ANALIZA KORELACJI I REGRESJI 521
NA CO IDZIEMY DO KINA?
Termin „regresja” po raz pierwszy pojawił się w pracach sir Francisa Galto-
na na oznaczenie pewnych zależności w opracowywanej przez niego teorii
* Luszniewicz, A., Słaby, T. dziedziczenia zdolności, czyli – jak mawiał – geniuszu*. Galton zaobserwo-
(2003). Statystyka z pakietem wał m.in., że w następnym pokoleniu geniusz dzieci osób wybitnych jest
komputerowym Statistica PL.
Teoria i zastosowania. Warsza- niższy od geniuszu ich rodziców, czyli cofa się (ang. regress) do średniej
wa: C. H. Beck. w danym pokoleniu**.
** Nęcka, E. (2000). Inteligen-
cja. W: J. Strelau (red.), Psycho-
Galton był kuzynem Karola Darwina i starał się powiązać wyniki badań nad
logia. Podręcznik akademicki inteligencją z teoriami ewolucji. Był bardzo aktywnym człowiekiem – ukoń-
(t. I, s. 721-760). Gdańsk: GWP. czył studia medyczne, udał się z misją badawczą do Afryki, a nawet wyna-
lazł okulary do czytania pod wodą.
Miał także obsesję na punkcie liczenia dosłownie wszystkiego. Zliczał więc
np. ruchy pędzla artysty malującego jego portret, tylko po to, by stwierdzić,
że namalowanie go wymaga około 20 000 ruchów pędzla. Nosił też przy so-
bie specjalny zeszyt, w którym zaznaczał, czy spotykane na ulicach angiel-
skich kobiety są „ładne”, „średnio ładne”, czy „brzydkie”. Niestety, rękopisy
się nie zachowały.
Choć Galton posługiwał się pojęciem regresji na oznaczenie pewnej tenden-
cji w dziedziczeniu zdolności, to jednak obecnie termin ten najczęściej się
Portret sir Francisa Galtona stosuje w odniesieniu do statystycznej metody oszacowywania siły zależno-
(1822-1911) ści między zmiennymi.
Omawiając współczynnik korelacji r Pearsona, posługiwaliśmy się wyraże-
niem „linia regresji”. Przypomnijmy, że jest to linia prosta, która leży najbli-
żej wszystkich punktów odpowiadających parom pomiarów zmiennych
(X,Y). Ponadto, jak pamiętasz, korelacja jest wskaźnikiem odchylenia par
pomiarów od linii regresji. Jeżeli współczynnik korelacji równa się +1 lub
–1, to znaczy, że wszystkie punkty leżą na linii regresji. To mniej więcej
wszystko, co powinieneś wiedzieć na temat korelacji, zanim zaczniesz czy-
tać rozdział poświęcony regresji.
Przypomnijmy jeszcze wykres rozrzutu czasów snu i maksymalnej długości
życia czterech ssaków, opracowany na podstawie wyników badań
*** Allison, T., Cicchetti, D. przeprowadzonych przez Truetta Allisona i Domenica Cicchettiego***.
(1976). Sleep in mammals: Eco-
logical and constitutional corre- Korelacja między zmiennymi przedstawionymi na wykresie 8.14 wyniosła
lates. Science, 194, 732-734. r = –0,21. Przecinająca wykres prosta to właśnie linia regresji, która prze-
biega najbliżej wszystkich znajdujących się na nim punktów. Analiza regre-
sji to – najkrócej mówiąc – metoda pozwalająca na znalezienie równania tej
prostej. Można ją stosować nie tylko wtedy, gdy mamy do czynienia z dwo-
528 WNIOSKOWANIE STATYSTYCZNE
ma zmiennymi, ale także wtedy, gdy zmiennych jest znacznie więcej. Opis
analizy regresji rozpoczniemy jednak od prostszej sytuacji, tzn. takiej, w któ-
rej dysponujemy pomiarami tylko dwóch zmiennych.
14 ryjówka
12
10
człowiek
8
4 sarna
2
0
-20 0 20 40 60 80 100 120
Maksymalna długość życia (lata)
∑z Xi zY i
rXY = i =1
N
Drugi sposób pozwala na obliczanie współczynnika z danych surowych:
N
∑(X i − X X )(Yi − Y Y )
rXY = i =1
N N
∑ ( X i − X ) 2 ∑ (Yi − Y ) 2
i =1 i =1
0,0
człowiek
-0,5
-1,0
sarna
-1,5
-1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,0
Maksymalna długość życia (wyniki standaryzowane)
530 WNIOSKOWANIE STATYSTYCZNE
16 Y = -021X + 1
[STATISTICA] Y = -021X + 0
14 ryjówka Y = -021X + (-1)
12 Y = -021X + (-2)
10
człowiek
8
4 sarna
2
0
-20 0 20 40 60 80 100 120
Maksymalna długość życia (lata)
i obliczyć, jaki jest przewidywany czas snu żyrafy. Do tego jednak potrze-
bować będziemy także wartości średnich i odchyleń standardowych dla obu
tych zmiennych w całej badanej próbie 54 ssaków (zob. tab. 8.18).
Tabela 8.18. Średnia i odchy- Zmienne Maksymalna długość życia Całkowity czas snu
lenie standardowe dla zmien- Statystyki
nych: „maksymalna długość
życia” i „całkowity czas snu” Średnia 19,85 10,41
Odchylenie standardowe 18,81 4,7
* Campbell, S. S., Tobler, I. Czy to możliwe, żeby żyrafy sypiały po 10 godzin na dobę? Z artykułu
(1984). Animal sleep: a review Campbella i Toblera dowiedzieliśmy się, że przeciętnie żyrafy śpią tylko
of sleep duration across phylo-
geny. Neuroscience and Biobe- niespełna 2 godziny na dobę (dokładnie – 1,9 godz.)*. Nasze przewidywanie
havioral Review, 8, 269-300. okazało się więc bardzo niedokładne.
ści obu zmiennych. W tworzeniu linii regresji nie zostały jednak wykorzy-
stane dane dotyczące żyrafy, ponieważ autorzy nie wiedzieli, jak długo żyra-
fy śpią. Ponieważ nam udało się znaleźć brakującą daną, więc na rysunku
8.17 dostawiliśmy także punkt odpowiadający długości czasu snu i maksy-
malnej długości życia żyrafy. Dobrze teraz widać, jak bardzo rzeczywiste
dane na temat żyrafy odchylają się od przewidywania na podstawie linii re-
gresji. Wielkość tego odchylenia możemy zresztą łatwo obliczyć, odejmując
od wartości rzeczywistej wartość przewidywaną, czyli:
1,9 – 9,56 = –7,66
Rysunek 8.17. Wykres roz- 22
rzutu zmiennych „długość 20
snu” i „maksymalna długość
Całkowty czas sny (godziny na dobę)
życia” [STATISTICA] 18
mroczek wielki
16
14
12
10
2
żyrafa
0
-10 10 30 50 70 90 110
Maksymalna długość życia (lata)
∑(X
tzw. wariancji z próby, czyli es-
tymatora wariancji w populacji. i − x) 2
s = 2 i =1
n −1
s odchylenie standardowe,
n liczba wszystkich obserwacji w zbiorze,
Xi wartość kolejnego, i-tego pomiaru,
x średnia arytmetyczna,
n
∑i =1
suma n wartości danych.
Wiele już pisaliśmy na temat wariancji, ale w tym miejscu chcemy przypo-
mnieć Ci dwa fakty.
• Po pierwsze, obliczanie wariancji ma sens tylko wtedy, kiedy możemy ją
porównać do innej wariancji. „Samotna” wariancja jest wskaźnikiem
o niewielkiej zawartości informacyjnej, ale w zestawach – to już zupeł-
nie inna historia.
• Po drugie, na wielkość wariancji największy wpływ mają te pomiary,
które najbardziej odchylają się od średniej arytmetycznej. Własność ta
wynika ze wzoru na wariancję. Ponieważ do kwadratu podnosimy różni-
ce między poszczególnymi pomiarami a średnią, więc kwadraty dużych
różnic są wartościami nieproporcjonalnie większymi niż kwadraty ma-
łych różnic.
Wariancja ma jeszcze jedną bardzo ważną cechę: otóż postępując umiejęt-
nie, można ją rozbić na wariancje składowe. Właśnie na tej idei zbudowana
jest cała analiza wariancji. W największym skrócie, metoda ta polega na
ustaleniu, jakie są wartości wariancji związane z działaniem każdego
z czynników eksperymentalnych i na porównaniu ich z wariancją niekontro-
lowaną. Dokładnie tak samo możemy postąpić w przypadku analizy regresji.
ANALIZA KORELACJI I REGRESJI 535
Jeżeli każdy wynik zmiennej Y zależy od zmiennej X (od tego zależy war-
tość przewidywana Y’) oraz niekontrolowanej wielkości reszty ε, to można
sprawdzić, które z tych źródeł w większym stopniu związane jest z całkowi-
tą wariancją zmiennej Y. W postaci symbolicznej wyglądałoby to tak:
2
scała = sregresja
2
+ sreszta
2
∑(X i − X X )(Yi − Y Y )
rXY = i =1
Ns X sY
Po obliczeniu okazało się, że korelacja Pearsona r = 0,94, co sugeruje, że
istnieje bardzo duży związek między ocenami z fizyki i z matematyki. Skoro
znamy współczynnik korelacji, to wiemy także, jak wyglądają równania re-
gresji dla zmiennych wyrażonych w postaci wartości standaryzowanych:
zmatematyka = 0,94 × zfizyka
zfizyka = 0,94 × zmatematyka
Przyjrzyjmy się uważniej drugiemu z tych równań. Korzystając z niego, mo-
żemy bez trudu przewidzieć oceny z fizyki na podstawie wyników z mate-
matyki. Aby obliczyć te wartości, postąpimy dokładnie tak samo, jak wtedy,
gdy obliczaliśmy przewidywaną długość czasu snu dla żyrafy. Pomijając ko-
lejne kroki obliczeniowe, od razu podajemy wynik (zob. tab. 8.20).
W ostatnim wierszu tabeli 8.20 dopisaliśmy też wariancje z próby dla każ-
dego zbioru zmiennych. Podstawiając je do równania, możemy stwierdzić,
536 WNIOSKOWANIE STATYSTYCZNE
że wariancja dla ocen otrzymanych równa jest sumie wariancji ocen przewi-
dywanych i reszt, czyli:
2
scała = sregresja
2
+ sreszta
2
= 1,157 + 0,143 = 1,30
Ogółem 171,550 79
Ogółem 5,2 4
Wynik analizy z tabeli 8.22 interpretujemy dokładnie tak samo, jak wynik
każdej analizy wariancji. Ponieważ prawdopodobieństwo uzyskania przy-
padkiem stosunku wariancji F(1, 3) = 24,37 wynosi 0,0159, możemy więc
odrzucić hipotezę zerową, co najmniej na poziomie α = 0,05.
A jaka było hipoteza zerowa? Mamy nadzieję, że się domyśliłeś. W naj-
prostszej wersji można ją sformułować tak:
2
sregresja
2
=1
sreszta
a hipotezę alternatywną w taki sposób:
2
sregresja
2
>1
sreszta
ANALIZA KORELACJI I REGRESJI 539
Razem 1126,242
* Dane te znajdują się na inter- W Internecie znaleźliśmy interesujące zestawienie cen 428 nowych modeli
netowej stronie czasopisma samochodów sprzedawanych w USA w roku 2004*. Oprócz cen, zbiór da-
Journal of Statistics Education:
http://www.amstat.org/publicati nych zawiera też różne techniczne charakterystyki samochodów, m.in. moc
ons/jse/jse_data_archive.html wyrażoną w koniach mechanicznych (w skrócie: KM). Zainteresowało nas,
(plik: 04cars.dat). Zbiór danych,
który wykorzystujemy, został
czy samochody mocniejsze są rzeczywiście także droższe.
opracowany przez firmę Kiplin-
ger, która wyraziła zgodę na
Zabawę rozpoczęliśmy od obliczenia podstawowych statystyk opisowych
wykorzystywanie tych danych dla zmiennych „Cena” i „Moc” (zob. tab. 8.24).
do celów edukacyjnych.
Tabela 8.24. Podstawowe sta- Odchylenie
Zmienne N Średnia Minimum Maksimum
tystyki opisowe dla zmiennych standardowe
„Cena” i „Moc” nowych modeli
samochodów sprzedawanych Cena (w $) 428 32774,86 10280,00 192465,0 19431,72
w USA w roku 2004 Moc (w KM) 428 215,89 73,00 500,0 71,84
1e5
80000
60000
40000
20000
-20000
50 150 250 350 450 550
Moc (KM)
5 5
„1e5” oznacza skrócony zapis liczby: 1 × 10 , czyli 100 000, a np. „1,8e5” równa się 1,8 × 10 , czyli 180 000.
ANALIZA KORELACJI I REGRESJI 541
Dziwne zapisy w tabeli 8.25 to jeszcze inna wersja skróconego zapisu du-
żych liczb (pakiety statystyczne często z niego korzystają). Na przykład za-
pis 1,102563E+11 oznacza, że liczbę znajdującą się przed literką E należy
pomnożyć przez liczbę złożoną z jedynki i jedenastu zer (1011), czyli przez
100 000 000 000.
Wariancje zmiennej zależnej (czyli „Ceny”), związanej z wpływem zmien-
nej niezależnej (czyli „Mocy”) oraz z wpływem czynników niekontrolowa-
nych, są wprawdzie ogromne, ale – co dla nas najważniejsze – wariancja
wynikająca z równania regresji jest aż 921 razy większa niż wariancja
w zbiorze reszt.
Wynik analizy wariancji potwierdza, że przyjęty model regresji bardzo do-
brze pasuje do rzeczywiście otrzymanych danych, innymi słowy: jest bardzo
dobrym jego dopasowaniem.
542 WNIOSKOWANIE STATYSTYCZNE
zem pod uwagę nowy model volkswagena garbusa, czyli tzw. volkswagena
new beetle. Z pewnością wiesz, jak on wygląda, ale przyznasz, że jego po-
przednik miał w sobie jednak więcej uroku. Tak czy inaczej, w 2004 roku
w Stanach Zjednoczonych nowy garbus kosztował 21 055 dolarów, moc zaś
jego silnika oceniono na 150 KM. Zgodnie jednak z powyższym równaniem
regresji, ten model powinien kosztować trochę mniej:
Cena = 223,7 × 150 – 15 516,5 = 18 038 USD
Gdybyśmy chcieli ustalić cenę tego samochodu za pomocą równania regresji
wyrażonego w postaci wyników standaryzowanych z, najpierw powinniśmy
wyrazić moc new beetle’a w jednostkach standaryzowanych. W tym celu
skorzystamy z danych zawartych na internetowej stronie czasopisma Journal
of Statistics Education i po podstawieniu ich do wzoru otrzymujemy:
To, która zmienna znajdzie się po lewej, a która po prawej stronie równania
regresji, ma zasadnicze znaczenie dla badacza. Z pojęciem regresji bowiem
ściśle się wiąże pojęcie przewidywania, a przewidywanie zakłada teoretycz-
ne uzasadnienie relacji między zmiennymi.
W przypadku takich zmiennych, jak cena i moc samochodu, trudno jest teo-
retycznie rozstrzygnąć, co na co wpływa. Prawdopodobnie zachodzi tu swe-
go rodzaju sprzężenie zwrotne: wzrost mocy silnika pociąga za sobą wyższe
koszty wytworzenia, a to przekłada się na wyższą cenę. Z kolei wyższa cena
musi mieć jakieś pokrycie w towarze, co w przypadku samochodu może
oznaczać podniesienie mocy silnika, ale to z kolei pociąga za sobą wyższe
koszty itd. W tym przypadku korelacja między zmiennymi „mówi” nam po
prostu, że cena związana jest z mocą w sposób liniowy (lub prawie liniowy)
i kolejność zmiennych w równaniu regresji nie ma aż tak dużego znaczenia.
Zupełnie inaczej jest jednak w odniesieniu do zmiennych, które łączą jakieś
logiczne związki. Na przykład równanie regresji, w którym zmienną zależną
jest liczba ciężarówek, a zmienną niezależną liczba wypadków, nie wydaje
się zbyt sensowne. To w końcu więcej ciężarówek powoduje więcej wypad-
ków, a nie odwrotnie.
Kolejność zmiennych w równaniu regresji ma zasadniczy wpływ na interpre-
tację zależności między zmiennymi, zwłaszcza wtedy, gdy wyniki równania
regresji podawane są w postaci danych surowych. Na przykład, gdy po lewej
stronie równania regresji znajduje się moc samochodu, czyli:
Moc = 0,003 × Cena + 115,69
wówczas możemy stwierdzić, że średni poziom mocy samochodu sprzeda-
wanego w USA w roku 2004 wynosi 115,69 KM, oraz dodatkowo, że za
każdego dolara dostaje się 0,003 KM mocy.
Znacznie trudniej jednak zinterpretować parametry równania regresji wtedy,
gdy po lewej stronie równania znajduje się cena samochodu, a po prawej je-
go moc, czyli:
Cena = 223,7 × Moc – 15 516,5
Oznaczałoby to, że w roku 2004 za każdego konia mechanicznego mocy
Amerykanin płacił 223,7 dolara i od ceny samochodu dostawał 15 516,50
dolarów upustu. Chociaż w gruncie rzeczy o to chodzi w tym równaniu, to
jednak podana interpretacja wydaje się mocno naciągana. W każdym razie
nie jest to chyba dobry opis stanu świadomości ani dealera sprzedającego
samochody, ani nabywcy.
Przedstawianie równania regresji w postaci wyników standaryzowanych
sprawia, że relacja między zmiennymi, opisana jako proporcja przyrostu
wartości standaryzowanych jednej zmiennej na podstawie drugiej, jest ła-
548 WNIOSKOWANIE STATYSTYCZNE
∑X Y i i − N XY
BYX = i =1
N
∑X
2
i
2
−NX
i =1
ANALIZA KORELACJI I REGRESJI 549
∑X Y
i =1
i i suma iloczynów par pomiarów ze zbiorów X oraz Y,
∑X
i =1
i
2
zsumowane wartości podniesionych do kwadratu pomiarów zmiennej X,
∑ X Y = 6 + 12 + 20 + 24 + 12 = 74
i =1
i i
∑X
i =1
i
2
= 22 + 32 + 42 + 42 + 32 = 54
Mamy już chyba wszystkie klocki, możemy więc teraz wstawić je do wzoru
(pamiętając, że N = 5) i w rezultacie otrzymujemy następujący wynik:
N
∑ X Y − N XY
i i
74 − 5 × 14,08
B yx = i =1
= = 1,29
N
54 − 5 × 10,24
∑X
2
i
2
−NX
i =1
550 WNIOSKOWANIE STATYSTYCZNE
∑X Y i i − N XY
74 − 5 × 14,08
BYX = i =1
= = 0,69
N
102 − 5 × 4,4 2
∑X
2
i
2
−NX
i =1
Zajmijmy się nieco dokładniej tym drugim przypadkiem. Dla ilustracji, raz
jeszcze skorzystamy z danych zawartych w Polskim Generalnym Sondażu
Społecznym. Tym razem do analizy wybraliśmy odpowiedzi 1002 osób ba-
danych w 2002 roku na dwa pytania, które dotyczyły ich zarobków.
W pierwszym chodziło o oszacowanie przeciętnych zarobków netto (czyli
po odjęciu podatków) miesięcznie, a w drugim – o określenie, na jakie za-
robki netto miesięcznie osoba badana, „swoim zdaniem”, zasługuje.
Jak można się było spodziewać, aktualne zarobki były istotnie niższe niż te,
na które badani – jak sądzili – zasługiwali. Średnia arytmetyczna dla pierw-
szej zmiennej wyniosła 1188,51 zł, odchylenie standardowe – 1082,2. Z ko-
lei średnia dla drugiej zmiennej wyniosła 2023,70 zł, a odchylenie standar-
dowe – 1578,12 zł. Związek między zmiennymi, zapisany w postaci równa-
nia regresji, wygląda następująco:
Dochody „zasłużone” = 1,1 × Dochód aktualny + 713 zł
Równanie można łatwo zinterpretować. Wynika z niego, że przeciętny, czyli
tzw. statystyczny Polak chciałby zarabiać 10 procent więcej niż obecnie plus
713 złotych. Ponieważ osoby badane w Polskim Generalnym Sondażu Spo-
łecznym są próbą reprezentatywną dla populacji Polaków powyżej 18. roku
życia, zatem na podstawie równania regresji można przewidywać, jaka jest
rzeczywista relacja pomiędzy dochodami, na które ktoś we własnych oczach
zasługuje, a tymi, które otrzymuje. Jeżeli np. ktoś zarabia 1000 złotych, to
można policzyć, że oczekuje, iż powinien zarabiać:
1,1 × 1000 + 713 = 1813 zł
W ogólnej postaci zapisaliśmy równanie regresji jako Y = BX + stała.
Współczynnik B określa, pod jakim kątem prosta będzie nachylona do osi
OX. Jeżeli jego wartość będzie dodatnia, to wraz ze wzrostem wartości
zmiennej X będą też rosły wartości zmiennej Y. Prosta nachyli się do osi OX
pod kątem między 0 i 90 stopni. Tak jest w przypadku równania łączącego
aktualne zarobki i zarobki „zasłużone”: w miarę wzrostu jednych rosną dru-
gie. Gdyby współczynnik B był ujemny, wtedy wzrostowi wartości X towa-
rzyszyłby spadek wartość Y, a linia regresji ułożyłaby się pod kątem więk-
szym niż 90 stopni w stosunku do osi OX.
Często, gdy równanie regresji wykorzystywane jest do przewidywania war-
tości jednaj zmiennej na podstawie wartości innej zmiennej, mówi się o
predykcji zmiennej Y na podstawie zmiennej X. Z predykcją mamy do czy-
nienia w wielu dziedzinach psychologii. Jest ona wykorzystywana np. w
psychologii różnic indywidualnych, gdzie na podstawie znanej relacji Y =
BX + + stała można przewidywać nasilenie nieznanych cech osób badanych
na podstawie znanych. W pewnym sensie jest to klasyczny sposób widzenia
ANALIZA KORELACJI I REGRESJI 553
cego nas poziomu oszacowania. Podobnie jak dotąd, możemy się zgodzić na
popełnienie błędu w zakresie 5% przypadków.
Wróćmy więc do przykładu z osobą, której dochód obecnie wynosi 1000 zł.
Na podstawie równania regresji możemy oczekiwać, że uważa ona, iż po-
winna zarabiać nie 1000, lecz 1813 zł.
Korzystając z programu komputerowego, możemy dość łatwo wyznaczyć
przedziały ufności zmiennej zależnej dla dowolnej wartości predyktora.
Dolna granica przedziału, który z prawdopodobieństwem 95% pokrywa rze-
czywistą wartość oszacowania dochodów oczekiwanych przez wszystkie
osoby badane, obecnie zarabiające po 1000 zł, wynosi 1750,38 zł, a górna
granica tego przedziału – 1880,46 zł.
Oznacza to, że gdybyśmy oszacowywali współczynniki równania regresji
dla nieskończenie wielu losowych prób Polaków, z których każda liczyłaby
1002 osoby, wtedy parametry regresji dla każdego z tych oszacowań byłyby
różne, ale dla 95% z tych wszystkich teoretycznie możliwych oszacowań pa-
rametry równania byłyby takie, że dochody, na które – swoim zdaniem – za-
sługuje osoba zarabiająca 1000 zł, znajdowałyby się w przedziale (1750,38;
1880,46).
Prezentując graficznie wynik równania regresji, możemy:
• zadowolić się tą jedną linią, którą akurat otrzymaliśmy na podstawie
próby, i uznać, że jest ona najlepszym oszacowaniem związku, czyli
funkcji łączącej obie zmienne;
• rozszerzyć nasze przewidywanie i myśleć nie o jednej linii, ale o prze-
dziale wielu możliwych linii regresji, które z określonym przez nas
prawdopodobieństwem mieściłyby się w wyznaczonych granicach. Gra-
nice te na wykresie wyznaczałyby krzywe ufności dla regresji.
Dla danych dotyczących aktualnych i oczekiwanych dochodów Polaków
obie te możliwości ilustruje rysunek 8.19.
Na rysunku 8.19 znajdują się trzy linie: środkowa to linia regresji, jaką
otrzymaliśmy na podstawie analizy danych pochodzących od 1002 Polaków,
oraz dwie krzywe znajdujące się na prawo i na lewo od środkowej, zwane
krzywymi ufności. Ograniczają one obszar, w którym znalazłoby się 95%
wszystkich możliwych linii regresji, gdybyśmy nieskończenie wiele razy
powtórzyli to samo badanie na próbach o tej samej liczebności.
Zauważ, że w najbliższym sąsiedztwie średnich dla obu zmiennych krzywe
ufności zbiegają się z linią regresji, co oznacza, że przewidywanie na pod-
stawie regresji jest najdokładniejsze, gdy dotyczy pomiarów znajdujących
się blisko średniej.
ANALIZA KORELACJI I REGRESJI 555
12
10
0
-10 10 30 50 70 90 110
Maksymalna długość życia (lata)
Linia regresji i krzywe ufności przedstawione na rysunku 8.20 nie są już tak
blisko siebie położone, jak linie na poprzednim wykresie. Ich odsunięcie od
linii regresji jest widomym znakiem słabości modelu regresyjnego dla anali-
zowanych danych.
Mieliśmy już okazję się o tym przekonać, interpretując niezbyt wysoki
współczynnik determinacji r2 dla korelacji między czasem snu a maksymal-
ną długością życia.
556 WNIOSKOWANIE STATYSTYCZNE
TEST F CZY t?
* Mówiąc „analiza regresji”, Poziom obliczeń regresji wielokrotnej jest zbyt skomplikowany, żeby szcze-
mamy na myśli sytuację, w któ- gółowo się nim tutaj zajmować. Raczej skoncentrujemy się na tym, co ozna-
rej występuje tylko jedna zmien-
na zależna, czyli objaśniana. czają wyniki takiej analizy.
Oczywiście są i takie metody
statystyczne, które pozwalają na Jak zwykle zacznijmy od możliwie najprostszego przykładu, a więc w tym
budowanie modeli łączących przypadku od analizy regresji dla dwóch zmiennych niezależnych i jednej
więcej niż jedną zmienną zależ-
ną z grupą zmiennych niezależ-
zmiennej zależnej*. Wykorzystamy do tego ponownie dane dotyczące czasu
nych. Omawianie jednak takich snu ssaków. Tym razem interesować nas będzie całkowity czas snu, jako
metod badawczych znacznie zmienna zależna, oraz maksymalna długość życia i czas ciąży, jako zmienne
wykraczałoby poza zakres na-
szego przewodnika. niezależne, czyli wyjaśniające. Średnie i odchylenia standardowe dla tych
trzech zmiennych przedstawione są w tabeli 8.27.
Razem 1094,867
Tabela 8.30. Wyniki analizy re- Podsumowanie regresji zmiennej zależnej (całkowity czas snu):
2 2
gresji dla czasów snu, po r = 0,682; r = 0,465; skorygowany r = 0,431; F(3, 47) = 13,624; p < 0,0
wprowadzeniu dwuwartościo-
wej zmiennej „indeks ekspo- Błąd stan- Błąd stan-
Zmienne β B t(47) p
zycji snu” [STATISTICA] dardowy dardowy
Wyraz wolny 14,371 0,875 16,415 0,001
Maksymalny
czas życia –0,024 0,139 –0,004 0,034 –0,173 0,863
(lata)
Czas ciąży
–0,489 0,150 –0,016 0,005 –3,255 0,002
(dni)
Ekspozycja
–0,292 0,118 –2,752 1,115 –2,469 0,017
snu (1-5)
* Donahue, A. K, Miller, J. M.
Przykład, którym się posłużyliśmy, pochodzi z badania telefonicznego prze-
(2005). Citizen preferences and prowadzonego wśród 1057 mieszkańców stanowiących reprezentatywną
paying for police. Journal of próbę dla stanu Connecticut, przeprowadzonego przez Amy Donahue i Jo-
Urban Affair, 27, 419-435.
anne Miller*.
Tabela 8.32. Wyniki regresji Podsumowanie regresji zmiennej zależnej (całkowity czas snu):
2 2
krokowej wstecznej dla czasu r = 0,781; r = 0,610; skorygowany r = 0,594; F(2, 48) = 37,546; p < 0,0
snu jako zmiennej zależnej
i siedmiu zmiennych obja- Błąd stan- Błąd stan-
Zmienne β B t(47) p
śniających [STATISTICA] dardowy dardowy
Wyraz wolny 16,772 0,901 18,609 0,001
Czas ciąży
–0,477 0,0948 –0,016 0,003 –5,034 0,001
(w dniach)
Indeks
ogólnego –0,487 0,0948 –1,597 0,311 –5,136 0,001
zagrożenia
Tabela 8.33. Wynik analizy Podsumowanie regresji zmiennej zależnej (całkowity czas snu):
2 2
regresji postępującej dla r = 0,675; r = 0,455; skorygowany r = 0,399; F(4, 39) = 8,141; p < 0,0
zmiennej zależnej „czas snu
paradoksalnego” i siedmiu Błąd stan- Błąd stan-
Zmienne β B t(47) p
predyktorów [STATISTICA] dardowy dardowy
Wyraz wolny 3,782 0,389 9,718 0,001
Indeks ogól-
nego zagro- –0,503 0,125 –0,483 0,120 –4,033 0,001
żenia
Maksymalna
–0,203 0,140 –0,014 0,010 –1,453 0,154
długość życia
Waga ciała 0,318 0,147 0,001 0,001 2,161 0,037
Czas ciąży –0,304 0,169 –0,003 0,002 –1,802 0,079
Na końcu każdego równania regresji dla danych surowych znajduje się stała
regresji. Wartość ta, zwana też czasem wyrazem wolnym, nie występuje
w równaniu regresji dla wyników standaryzowanych. W pewnym sensie jest
ona związana z różnicą między średnimi w zbiorze zmiennej objaśnianej
i średnimi w zbiorach zmiennych objaśniających. Na podstawie tabeli 8.33
możemy zapisać równanie regresji w postaci standaryzowanej:
* Predyktory istotne statystycz- zfaza REM = –0,5* × zzagrożenie – 0,2 × zdługość życia + 0,32* × zmasa – 0,3 × zczas ciąży
nie w obydwu równaniach ozna-
czyliśmy za pomocą gwiazdek. oraz dla wyników surowych:
faza REM = –0,48* × zagrożenie – 0,01 × długość życia + 0,001* × masa –
– 0,003 × czas ciąży + 3,78
W równaniu dla danych standaryzowanych każda zmienna wyrażona jest
w takich samych jednostkach, czyli w proporcji odchyleń standardowych od
średnich. Średnie dla każdej zmiennej są takie same i mają wartość równą
zero. Ponieważ różnice między tymi średnimi także są równe 0, nie ma więc
potrzeby wprowadzania w równaniu regresji dodatkowego współczynnika
(można też powiedzieć, że stała równania równa się zero).
Inaczej jest w przypadku danych surowych: wszystkie zmienne mają nie tyl-
ko różne średnie, ale mogą mieć także różne jednostki. Wartości minimalne
i maksymalne, średnie, odchylenia standardowe i rozpiętości, a także jed-
nostki pomiaru dla każdego z predyktorów w równaniu regresji dla danych
surowych zawiera tabela 8.34.
Przyglądając się danym zapisanym do tabeli 8.34, można odnieść wrażenie,
że analiza regresji jest niezłą metodą pozwalającą na porządkowanie całkiem
sporego galimatiasu. W przypadku równania dla danych surowych, po lewej
stronie mamy wartości zmiennej „długość fazy REM”, czyli wartości wyra-
572 WNIOSKOWANIE STATYSTYCZNE
korelacji, także i przy regresji założenie to często bywa ignorowane. Nie jest
to chyba największy problem, tym bardziej że z badań prowadzonych za
pomocą metod Monte Carlo wynika, że współczynniki regresji są dosyć od-
porne na sytuacje, w których to założenie nie jest spełnione. Praktycznie
najważniejszym, a często uważanym za jedyne, założeniem modelu regresji,
którego nie można ignorować, jest założenie normalności rozkładu reszt.
Żeby je wyjaśnić, przywołajmy raz jeszcze ogólną postać modelu regresji,
tym razem w takiej formie:
Y = F (X1, X2, ... Xn) + ε
Symbol F oznacza tutaj jakąś funkcję, której argumentami są predyktory
uwzględnione w równaniu regresji X1, X2 itd. Symbol ε, jak pamiętasz, ozna-
cza resztę, czyli wartość reprezentującą wielkość wpływu niekontrolowa-
nych zmiennych niezależnych na zmienną zależną w równaniu regresji.
Każda wartość zmiennej Y jest więc sumą tego, co „przewiduje” dla niej re-
gresja oraz reszta.
Model regresji opiera się na założeniu, że rozkład reszt jest losowy. Oznacza
to np., że do obiektów, dla których wartości zmiennej X1 są wysokie, nie
„doklejają” się wyższe reszty, a do obiektów o niskich wartościach zmiennej
X1 – niższe. Nie tylko to jednak jest ważne. Jeżeli model regresyjny ma być
dobrze dopasowany do rzeczywistych pomiarów, to reszty powinny się „do-
klejać” (do nas też „dokleiło” się to określenie) w taki sposób, aby niektóre
pomiary były wyższe od przewidywanych, a niektóre niższe. A zatem reszty
powinny być czasem dodatnie, a czasem ujemne. Najlepiej by było, aby
większość reszt miała niewielki wpływ na zmienną zależną, a jeśli jej war-
tość bezwzględna byłaby większa, to tym rzadziej powinna się pojawiać.
Wszystkie te cechy ma rozkład normalny, a więc najlepiej, gdy rozkład reszt
jest rozkładem normalnym, i to takim, w którym średnia wynosi zero.
W pakietach do obliczeń statystycznych wbudowane są specjalne moduły
pozwalające na sprawdzanie, czy rozkład reszt jest rozkładem normalnym.
My skorzystaliśmy z możliwości najprostszej. Dla każdego ssaka obliczyli-
śmy różnicę między otrzymaną i przewidywaną długością jego fazy REM
i w ten sposób otrzymaliśmy histogram reszt (zob. rysunek 8.22).
Reszty mierzone są w takich samych jednostkach jak zmienna zależna. W 33
przypadkach pomiary czasu snu paradoksalnego u ssaków odchylają się od
wartości przewidywanych o (+/–) jedną godzinę.
Z wykresu na rysunku 8.22 wynika, że jest pewien nadmiar reszt z przedzia-
łu od 0 do –0,5 godziny, co oznacza, że wartości przewidywane dla czasów
snu paradoksalnego są wyższe niż pomiary rzeczywiste. Za pomocą testu
Kołmogorowa-Smirnowa sprawdziliśmy jednak, czy można utrzymać hipo-
tezę o normalności rozkładu reszt, i okazało się, że d = 0,14. Oznacza to, iż
574 WNIOSKOWANIE STATYSTYCZNE
Liczba obserwacji
6
0
-3,0 -2,5 -2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,0 2,5 3,0 3,5
Reszty
* Autorką tego trafnego spo- Każde postępowanie naukowe przebiega w czasie, ma swój początek i cel.
strzeżenia, wyrażającego esencję Rozpoczyna się od pytań, hipotez i projektów badań. Dalej jest czas ich
każdej celowej działalności
człowieka, jest Diana Scharf- przeprowadzania, po nim zaś – czas analizy i interpretacji wyników. Jest
Hunt, która wraz z Pam Hait na- także czas ich ogłaszania. W praktyce publikacja wyników badań nauko-
pisała książkę Studying smart:
Time management for college
wych sprowadza się do przedstawienia ich w formie pisemnego raportu. Ra-
students (New York: Harper Re- portem może być artykuł w specjalistycznym czasopiśmie lub książka. Może
source 1990). być nim studencka praca zaliczeniowa, a także multimedialna prezentacja
podczas konferencji. Wyciąg z badań marketingowych wykonanych na za-
mówienie Biura Promocji Miasta, notatka do lokalnego dziennika lub zapis
w internetowym blogu – to jeszcze inne formy raportów.
Każde forum, na którym publikowane są wyniki badań, rządzi się swoimi
prawami. Doniesienia w prasie na ogół składają się z kilku lub kilkunastu
akapitów napisanych językiem zrozumiałym dla przeciętnego odbiorcy. Ra-
port z badań przeprowadzonych w ramach zajęć akademickich obejmuje kil-
kanaście stron tekstu, w którym oprócz wyrażeń zaczerpniętych z języka po-
tocznego pojawiają się również specjalistyczne słowa i zwroty, a także tabe-
le lub wykresy. Jego obszerniejszą wersją jest praca magisterska lub doktor-
ska. Jeszcze zaś bardziej zagęszczoną teoretycznie formą studenckiego ra-
portu jest artykuł w czasopiśmie naukowym.
Niezależnie jednak od rodzaju publikacji wszystkie je łączy to, że są zwień-
czeniem dzieła. Są próbą werbalizacji prawdy o kawałku świata. Jest zatem
istotne, by ta prawda była wyrażona w sposób możliwie jednoznaczny lub –
jak wolisz – intersubiektywnie komunikowalny. Dla naukowców publikacje
innych badaczy są niczym drogowskaz albo podpowiedź, w którą stronę na-
leży iść, by osiągnąć wymarzony cel, czyli Prawdę, a nadto by osiągnąć go
w nieprzekraczalnym terminie (deadline).
STRONA TYTUŁOWA
Twój artykuł np. w elektronicznej bazie danych. Tytuł powinien więc zawie-
rać jak najwięcej tzw. słów kluczowych.
W podręczniku APA zwraca się również uwagę na to, aby nie używać w ty-
tułach pustych zwrotów, takich jak „badanie empiryczne” bądź też „wyniki
badań”.
Zabierając się do sformułowania tytułu swojej pracy, warto uważnie prze-
czytać kilka tytułów artykułów w interesującej Cię dziedzinie, zwłaszcza
tych, które zostały opublikowane w dobrych czasopismach psychologicz-
nych. Z naszej małej bazy bibliograficznej wybraliśmy kilka przykładów
lepszych i gorszych tytułów: „Problemy metodologiczne pomiaru czasu re-
akcji”, „Miejsce konstruktu aktywacji w badaniach nad temperamentem”,
„Torowanie kontrfaktyczne w procesie perswazji”, „Rozszerzanie znaku to-
warowego w podejściu wnioskowania przez analogię”, „Tożsamość czło-
wieka i zaangażowanie w działalność proekologiczną”. Czy jesteś pewien,
że wiesz, co jest treścią każdego z tych artykułów?
Na stronie tytułowej, oprócz tytułu, powinny się znajdować jeszcze dwie
ważne informacje: kto jest autorem pracy i skąd ten autor pochodzi. Należy
więc podać imię (imiona) i nazwisko autora (lub autorów), pomijając przy
tym wszelkie tytuły naukowe (np. profesor, magister) lub nienaukowe (np.
ksiądz, prezes). Należy również podać tzw. afiliację, czyli nazwę instytucji,
w której autor pracuje. Zasada ta nie dotyczy prac studenckich – wystarczy
jedynie imię i nazwisko autora. Jeżeli praca ma więcej niż jednego autora,
należy podawać ich imiona i nazwiska w jednej linijce, w kolejności ustalo-
nej między nimi na podstawie przyjętego kryterium (np. wkładu pracy).
Jeżeli piszesz pracę magisterską lub seminaryjną, sprawdź, jak powinna wy-
glądać strona tytułowa zgodnie z wymogami Twojej uczelni. Na pewno
oprócz swojego imienia i nazwiska oraz tytułu będziesz musiał umieścić na
niej także inne informacje, takie jak nazwa uczelni, data pisania pracy, imię
i nazwisko promotora wraz z tytułami naukowymi.
STRESZCZENIE
WPROWADZENIE
PRZEDSTAWIENIE PROBLEMU
METODA
OSOBY BADANE
Bez zbędnych wstępów należy dokładnie opisać, kim były osoby, które
wzięły udział w badaniach.
• W szczególności należy zwrócić uwagę na takie ich cechy demograficz-
ne, jak wiek i płeć, a jeśli z punktu widzenia problemu badawczego ma
to jakieś znaczenie – również pochodzenie społeczne, wykształcenie lub
inne, np. przebyte choroby lub aktualna diagnoza kliniczna.
• Koniecznie trzeba podać liczbę wszystkich osób badanych, a także licz-
bę badanych w poszczególnych grupach, wyróżnionych zarówno ze
względu na kryteria demograficzne, jak i zmienne niezależne główne.
• Dalej należy podać nie tylko średnią wieku w całej grupie (i ewentualnie
średnie wieku w podgrupach), ale także odpowiadające im odchylenia
standardowe.
• Warto również napisać, w jaki sposób dotarliśmy do osób badanych (np.
za pośrednictwem ogłoszenia na uczelni) i czy otrzymywały one jakieś
wynagrodzenie za udział (może to być drobna suma pieniędzy lub tzw.
punkty za badania do zaliczenia niektórych przedmiotów).
• Jeżeli któraś z osób badanych wycofała się z eksperymentu lub z jakie-
goś powodu nie można brać jej wyników pod uwagę w analizie staty-
stycznej, można o tym napisać właśnie w tym miejscu.
Krótki opis osób badanych biorących udział w eksperymencie przeprowa-
* Diseth, A., Martinsen, Ø. dzonym przez Åge Diseth i Øyvind Martinsen*, dotyczącym stylu uczenia
(2003). Approaches to learning, się wśród studentów, wygląda następująco:
cognitive style, and motives as
predictors of academic achieve- Badana próba składała się ze 192 studentów psychologii – 137 kobiet oraz 55 męż-
ment. Educational Psychology,
23, 195-207.
czyzn. Średnia wieku wyniosła 21,7, rozpiętość wieku wahała się od 19 do 46 lat
(s. 199).
Opis grupy badanej to niewątpliwie najłatwiejszy punkt całej pracy. Jeżeli
nie wiesz, od czego zacząć pisanie raportu, zacznij właśnie od tego.
MATERIAŁY
PROCEDURA
podczas liczenia zauważyłeś coś niezwykłego w nagraniu? (2) Czy zauważyłeś coś
innego niż sześciu graczy? (3) Czy widziałeś, by ktokolwiek inny poza graczami po-
jawił się na wideo? (4) Czy widziałeś, jak na ekranie przechodził goryl (lub kobieta
niosąca parasol)? Po odpowiedzi „tak” na każde z tych pytań proszono obserwato-
rów o podanie szczegółów odnośnie do tego, co widzieli. Jeżeli przy którymkolwiek
pytaniu obserwator wspominał o niespodziewanym wydarzeniu, następne pytania
były opuszczane. Po odpowiedzi na te pytania obserwatorzy byli pytani, czy kiedy-
kolwiek wcześniej brali udział w podobnym eksperymencie albo czy słyszeli o po-
dobnym eksperymencie lub o podobnym zjawisku. (Obserwatorzy, który odpowie-
dzieli „tak”, byli zastępowani nowymi osobami badanymi, a ich wyniki były odrzu-
cane z dalszych analiz). W ostatniej części badania obserwatorzy wzięli udział w se-
sji wyjaśniającej, w której, jeżeli ktoś chciał, ponownie puszczano cały film jeszcze
raz. Cała sesja eksperymentalna trwała od 5 do 10 minut (s. 1066-1067).
Cytowany opis procedury zawiera wszystkie etapy wykonywania badania.
Rozpoczyna się od zwięzłego przedstawienia instrukcji, jaką otrzymali ob-
serwatorzy. Nawiasem mówiąc, jeżeli w badaniu wykorzystuje się różne in-
strukcje (np. w celu wprowadzenia różnych poziomów zmiennej niezależ-
nej), to istotne ich fragmenty – a nawet całą treść – należy podać dosłownie.
W tej części raportu najważniejsze jest opisanie wszystkich warunków eks-
perymentalnych i sposobu przydzielania do nich osób badanych.
Z cytowanych opisów materiału bodźcowego oraz procedury wyłania się ob-
raz 16 różnych sytuacji eksperymentalnych powstałych w wyniku „skrzyżo-
wania” 4 dwuwartościowych zmiennych: Wersja filmu (Przezroczysta lub
Nieprzezroczysta) × Rodzaj niespodziewanego wydarzenia (Kobieta z Para-
solem lub Goryl) × Obserwowana drużyna (Czarna lub Biała) × Rodzaj za-
dania (Łatwe lub Trudne).
Zgodnie ze standardem APA, przedstawiając warunki eksperymentalne, do-
brze jest wyróżnić ich nazwy za pomocą słów-haseł. W raporcie z cytowa-
nych badań Simons i Chabris wyróżnili wielkimi literami nazwy poszcze-
gólnych poziomów zmiennych niezależnych. Nie jest to całkiem zgodne
z zaleceniami zawartymi w podręczniku APA. Jego autorzy sugerują, aby
wielkie litery rezerwować raczej dla nazw czynników, a nazwy warunków
eksperymentalnych zapisywać małymi literami. Taki zapis powinien więc
wyglądać raczej tak: Wersja Filmu (przezroczysta lub nieprzezroczysta).
Jak widzisz, nie zawsze wszystkie zalecenia APA są ściśle przestrzegane.
Nawiasem mówiąc, omawiany artykuł został opublikowany w czasopiśmie
Perception, które nie jest wydawane przez APA, ale przez Pion Limited
w Wielkiej Brytanii. Być może, właśnie stąd wynikają drobne odstępstwa od
stylu APA. Trzeba też jednak dodać, że Publication Manual nie jest spisem
niekwestionowanych dogmatów, lecz zbiorem użytecznych zasad, z których
tak naprawdę najważniejsza jest jedna: bądź konsekwentnie komunikatyw-
ny. Jeżeli więc do opisu czynnika lub warunku eksperymentalnego użyłeś
JAK NAPISAĆ RAPORT Z BADAŃ? 593
wielkiej litery, to stosuj ten zapis w całym raporcie. Jeżeli zaś zdecydowałeś
się nazywać jeden z warunków eksperymentalnych „przezroczystą wersją
filmu”, to nie nazywaj go gdzie indziej np. „wyraźnym filmem”, bo wtedy
czytelnik nie będzie pewien, czy chodzi Ci o to samo. Pisanie raportu ba-
dawczego nie jest wypracowaniem z języka polskiego – jednoznaczność tre-
ści jest tu znacznie ważniejsza od kwiecistości stylu.
W części poświęconej opisowi procedury można – o ile to koniecznie – wy-
odrębnić mniejsze fragmenty. Najczęściej taki podział jest podyktowany
opisem różnych metod pomiaru zmiennych zależnych, zwłaszcza gdy są one
mało znane.
Najważniejszym wymogiem stawianym autorowi opisu procedury badaw-
czej jest takie jej przedstawienie, aby czytelnik, który jest zorientowany
w danej dziedzinie, mógł powtórzyć badanie.
Na zakończenie tej części proponujemy Ci krótki przerywnik.
Eksperyment z kobietą-gorylem znaleźliśmy na stronie internetowej czasopis-
ma Annals of Improbable Research (Roczniki Badań Niewiarygodnych),
które przyznaje nagrody, tzw. Ig Nobel, za szczególne osiągnięcia w nauce,
które sprawiają, że „najpierw się śmiejesz, a potem myślisz”. Nagrody są
sponsorowane m.in. przez dwa studenckie stowarzyszenia na Uniwersytecie
Harvarda w Bostonie i przyznawane rokrocznie jesienią tuż po przyznaniu
„normalnej” nagrody Nobla. Otrzymanie Ig Nobel bynajmniej nie oznacza
promocji bylejakości w nauce. Przeciwnie, laureatami Ig Nobla są także re-
gularni nobliści, choć oczywiście nie za te same badania.
Nagrodę otrzymał m.in. Brytyjski Instytut Standaryzacji (British Standard
Institute) za opublikowanie 6-stronicowej instrukcji parzenia herbaty numer
BS 6008, grupa meksykańskich naukowców za wyhodowanie odmiany pa-
pryki jalapeno, która nie jest ostra, i holenderscy fizycy za opracowanie ma-
tematycznej funkcji znikania piany na piwie. Nagroda Ig Nobel jest przy-
znawana w różnych kategoriach. Japończyk, Daisuke Inoue, otrzymał ją za
wynalezienie karaoke, które uznano za nowy sposób uczenia ludzi tolerancji
(jeśli brałeś kiedyś udział w tej zabawie dłużej niż przez 2 minuty, to mniej
więcej wiesz, o co chodzi). Ig Nobel dostają także psychologowie lub osoby,
których dokonania można zaliczyć do psychologii. W 1995 roku japońscy
badacze, Shigeru Watanabe, Junko Sakamoto i Masumi Wakita, dostali na-
grodę za eksperyment, w którym nauczyli gołębie odróżniania obrazów Pi-
cassa od obrazów Moneta, a jeden z premierów Singapuru otrzymał ją za
wykorzystanie warunkowania klasycznego do oduczenia mieszkańców mia-
sta plucia na ulicę, żucia gumy w miejscach publicznych i karmienia gołębi.
Nie wszyscy laureaci czują się urażeni tą nagrodą i zdarza się, że osobiście
ją odbierają. Jednym z nich jest psycholog społeczny, Filip Zimbardo, który
594 DODATEK GRATIS
WYNIKI
6: różnorodność 1,00
*p<0,01; **p<0,001
WYKRESY I TABELE
3
2,31
2
1
wysoki koszt niski koszt wysoki koszt niski koszt
Niska nagroda Wysoka nagroda
Długość spojrzenia
4,61 7,50 2,81 5,95 39 –3,27*
w sek. (średnia)
a
* p<0,01; test t dla danych skorelowanych
Tabela 1
___________
co oznacza, że mniej więcej w tym miejscu powinna znaleźć się tabela nr 1.
Oczywiście zalecenie to nie dotyczy prac, które są opracowywane w wersji
ostatecznej, np. seminaryjnych, magisterskich lub doktorskich. Nie dotyczy
również raportów z badań wykonywanych np. na zlecenie jakiejś firmy. Co
do tego stanowisko APA jest zgodne, aby studenci po prostu wstawili tabelę
lub rysunek do tekstu, tam, gdzie powinny się znajdować.
DYSKUSJA WYNIKÓW
nia jest wyższa od drugiej, skoro jest wyższa, albo że pewne czynniki ekspe-
rymentalne mają wpływ na zmienną zależną, a inne nie, skoro wyraźnie
wskazuje na to wynik testu (oczywiście pod warunkiem, że nie pomyliłeś się
w obliczeniach).
Dyskusja dotycząca tego, czy lub w jakim zakresie uzyskane dane potwier-
dzają stawiane przez Ciebie hipotezy – to już jest zupełnie inna historia,
a właściwym do jej przeprowadzenia forum jest część raportu pod tytułem
„Dyskusja wyników”, czasem zatytułowana: „Interpretacja wyników”. By-
wa, że – podobnie jak wprowadzenie – również i ta część raportu jest po-
dzielona jest na kilka części, które mają własne tytuły. Jedno jest pewne, ko-
niecznie musisz jednoznacznie oddzielić opis tego, co wyszło, od tego, co
Ty myślisz na ten temat.
Zgodna ze standardem APA dyskusja wyników powinna się rozpocząć od
jasnego stwierdzenia, które dane potwierdzają Twoje hipotezy, a które nie są
z nimi zgodne. Najlepiej, gdy porządek dyskusji jest wyznaczony kolejno-
ścią, w jakiej prezentowane były hipotezy badawcze na zakończenie wpro-
wadzenia. Omawiając wyniki swoich badań, przede wszystkim powinieneś
skoncentrować się na tym, co one wnoszą do teorii, które przyjąłeś jako
punkt wyjścia Twoich hipotez i operacjonalizacji zmiennych. Możesz po-
równać uzyskane przez siebie wyniki z osiągnięciami innych badaczy, ale
nie przepisuj tego, co już napisałeś we wprowadzeniu. Przyjrzyj się, w jaki
* Costa, M., Bitti, P.E., (2000). sposób Costa i Bitti* rozpoczęli swoją dyskusję wyników badań dotyczą-
Face-ism effect and head canting cych efektu twarzowości:
in one’s own and others’ photo-
graphs. European Psychologist, Przedstawione wyżej wyniki są zgodne z hipotezą, że efekt twarzowości dotyczy
5, 293-301.
tylko oceny fotografii innych osób, podczas gdy w ocenie siebie na zdjęciu wystąpił
odwrotny trend: oceny atrakcyjności samego siebie na podstawie zdjęć przedstawia-
jących całą osobę były wyższe niż na podstawie fotografii swojej twarzy na zbliże-
niu. Podobnie jak w badaniach Schwarza i Kurza (1989), ogólna ocena atrakcyjności
fizycznej nieznanych mężczyzn była niższa niż ocena samego siebie i nieznanych
kobiet, niezależnie od tego, jaka była płeć osoby oceniającej. Tę różnicę w ocenach
można wyjaśnić przez fakt, że kobiety z reguły wyglądają bardziej atrakcyjnie, po-
nieważ poświęcają więcej uwagi swojej fryzurze i ubiorowi […].
We wcześniejszych badaniach, w których wykazywano pozytywny związek między
zbliżeniem twarzy na fotografii a oceną atrakcyjności sfotografowanej osoby, za-
wsze brano pod uwagę zdjęcia dostępne w mediach, zaniedbując różnicę pomiędzy
zdjęciami samych siebie i zdjęciami innych osób. Niniejsze badanie pozwala na
stwierdzenie, że zmienna ta ma bardzo istotne znaczenie w formułowaniu ocen este-
tycznych (s. 300).
I kilka słów komentarza:
• już w pierwszym zdaniu dyskusji autorzy powtarzają hipotezę badawczą
i stwierdzają, że ją potwierdzili,
JAK NAPISAĆ RAPORT Z BADAŃ? 605
Czasem raport badawczy obejmuje więcej niż jeden eksperyment. Wtedy na-
leży odrębnie opisać i zinterpretować wyniki każdego z nich, a na zakończe-
nie wszystkie je podsumować w ogólnej dyskusji. Co do formy wypowiedzi,
dyskusja ogólna nie różni się w zasadzie od dyskusji wieńczących opisy po-
szczególnych badań. Jest to po prostu próba podsumowania osiągnięć całego
projektu badawczego.
W pracy magisterskiej taki ostatni punkt może nosić tytuł „Podsumowanie”
lub „Zakończenie”. Dobrze jest napisać tę część w taki sposób, aby Twoją
606 DODATEK GRATIS
pracę zrozumiał każdy, kto nie czytał wcześniej ani jednego jej fragmentu.
Należy więc zacząć od przypomnienia, jaki był główny problem badawczy
i dlaczego uznałeś, że jest ważny. Następnie trzeba krótko opisać zastoso-
waną metodę badań i uzyskane wyniki. W kolejnej części należy je zinter-
pretować w świetle teorii, które doprowadziły Cię do sformułowania hipotez
badawczych. I na koniec można sobie pozwolić na kilka zdań uogólnienia
oraz sugestii dotyczących kierunków dalszych badań. Jak widzisz, zakoń-
czenie zawiera wszystkie najważniejsze elementy raportu badawczego.
Jak stwierdził Wason, „[...] w wersji tematycznej zadanie to okazało się znacznie
trudniejsze niż w wersji abstrakcyjnej, która była strukturalnie tożsama” (1997,
s. 643).
Lub w taki:
Jak stwierdził Wason (1997), „[...] w wersji tematycznej zadanie to okazało się zna-
czenie trudniejsze niż w wersji abstrakcyjnej, która była strukturalnie tożsama”
(s. 643).
Z kolei wariant „wszystko w nawiasie” wygląda tak:
„[…] w wersji tematycznej zadanie to okazało się znaczenie trudniejsze niż w wersji
abstrakcyjnej, która była strukturalnie tożsama” (Wason, 1997, s. 643).
Uwaga, jeżeli cytowane zdanie kończy się kropką, ale po nim następuje
jeszcze odniesienie bibliograficzne w jakiejkolwiek formie, to kropkę sta-
wiamy po odnośniku, a nie na końcu cytatu. Wersje niepoprawne:
[...] tożsama.” (Wason, 1997, s. 643).
[...] tożsama.” (Wason, 1997, s. 643)
[...] tożsama”. (Wason, 1997, s. 643).
[...] tożsama”. (Wason, 1997, s. 643)
I wersja poprawna:
[...] tożsama” (Wason, 1997, s. 643).
* Nieco więcej na temat sposo- Być może, ten styl cytowania wydaje Ci się dość dziwny*. Przyzwyczaisz
bów cytowania w nauce zob. się. A ponadto jest on naprawdę wygodny. Jeżeli znasz nazwisko autora
Węglińska, M. (2005). Jak pisać
pracę magisterską. Kraków: i rok publikacji, to czytając tekst, natychmiast znasz odpowiedź na dwa
Oficyna Wydawnicza Impuls. ważne pytania: „kto?” i „kiedy?” napisał przytaczany fragment. Możesz tak-
że znaleźć pełną informację na temat źródła cytatu w zamieszczonej na koń-
cu raportu bibliografii.
Zgodnie ze standardem APA, w przypisach nie podaje się pełnych informa-
cji bibliograficznych!
Z pewnością zauważyłeś, że w naszym przewodniku nie stosujemy rygory-
stycznie wielu zaleceń APA. Nasz styl cytowania jest mieszanką kilku róż-
nych, ale uznaliśmy, że tak będzie lepiej dla Ciebie. Chociaż zgodnie ze
stylem APA imiona autorów cytowanych publikacji przywołuje się tylko
w szczególnych okolicznościach (np. w odniesieniu do wybitnych nestorów
psychologii), my jednak postanowiliśmy umieszczać je w tekście zawsze,
o ile tylko udało nam się rozszyfrować ich inicjały (ostatnio coraz więcej au-
torów postępuje w ten sposób). Zgodnie z naszym wyczuciem języka pol-
skiego, powoływanie się na prace innych badaczy tylko poprzez ich nazwi-
ska wydaje nam się trochę „niekulturalne”.
608 DODATEK GRATIS
ODWOŁANIA BIBLIOGRAFICZNE
Spis literatury cytowanej w raporcie to już jedna z ostatnich jego części. Za-
wiera ona alfabetycznie uporządkowaną listę wszystkich źródeł, na które się
powoływałeś. W standardzie sporządzania poprawnego zapisu bibliograficz-
nego liczy się każda kropka i każdy przecinek. Zgodnie z zaleceniami APA
istnieją trzy podstawowe formaty zapisu cytowanych źródeł:
• książki autorskie,
• artykuły w czasopismach,
• rozdziały w drukach zwartych, czyli w książkach napisanych pod czyjąś
redakcją.
Niezależnie od tego, czy przywołana przez Ciebie praca została opubliko-
wana w czasopiśmie, czy w książce, pierwsza część zapisu bibliograficznego
zawsze musi zawierać trzy informacje, na temat: autora, daty publikacji i ty-
tułu pracy. Zapis bibliograficzny zawsze rozpoczynasz od nazwiska autora
publikacji, a następnie po przecinku piszesz inicjał lub inicjały jego imienia
(imion) z kropką. Jeżeli jest dwóch lub więcej autorów, to postępujesz tak
samo: nazwisko, przecinek, inicjał, kropka itd. Kolejne nazwiska autorów są
oddzielone od siebie przecinkami. Bezpośrednio po inicjale ostatniego na-
zwiska, w okrągłym nawiasie, piszesz datę publikacji i znowu kropkę. Trze-
cią informacja jest tytuł publikacji. Jeżeli jest to tytuł książki, zapisujesz go
kursywą (pismo pochyłe), a jeśli jest to tytuł artykułu lub rozdziału w książ-
ce, piszesz tekstem prostym. Po tytule – oczywiście kropka. Zobacz kilka
przykładów:
Bar-Hillel, M., Wagenaar, W. A. (1993). The perception of randomness.
Pinker, S. (1994). The language instinct.
Rundus, D. J. (1971). Analysis of rehearsal processes in free recall.
Na podstawie zapisu bibliograficznego w trzech przytoczonych przykładach
nie powinieneś mieć wątpliwości, że praca Stevena Pinkera jest książką (po-
nieważ jej tytuł został zapisany kursywą), a dwie pozostałe to artykuły, tyl-
ko że jeszcze nie wiadomo, czy zostały opublikowane w czasopiśmie, czy
w druku zwartym.
Przy okazji zapamiętaj również nieco ogólniejszą uwagę dotyczącą inter-
punkcji: po każdym znaku interpunkcyjnym – a więc po kropce, przecinku,
średniku lub dwukropku, a także po znaku zapytania lub wykrzykniku –
zawsze należy wstawić spację, czyli pustą przestrzeń, której używasz do
rozdzielania wyrazów od siebie. (Jedyne odstępstwo od tej zasady – zawsze
musi być jakiś wyjątek, bo inaczej w ogóle nie byłoby zasady – dotyczy za-
pisu wartości dziesiętnych, np. 10,67 lub 3,5, kiedy po przecinku nie sta-
wiamy spacji).
JAK NAPISAĆ RAPORT Z BADAŃ? 611
NOTA AUTORSKA
nia (najczęściej w tym miejscu podaje się nazwę sponsora i numer grantu
badawczego).
I COŚ NA DESER
Powodzenia
Piotr Francuz i Robert Mackiewicz
PS
Jeśli masz ochotę, napisz, co sądzisz o tej książce. Bardzo zależy nam na
Twojej opinii i będziemy wdzięczni za każdą uwagę na jej temat.
Nasz adres: przewodnik@kul.lublin.pl
P. F. i R. M.
BIBLIOGRAFIA
Kassin, S., Kiechel, K. (1996). The social psychology of false confessions: Com-
pliance, internalization, and confabulation. Psychological Science, 7, 125-
128.
Kendall, M. G., Buckland, W. R. (1986). Słownik terminów statystycznych. War-
szawa: PWE.
Kerkhof, G. A. (1998). The 24-hour variation of mood differ between morning – and
evening-type individuals. Perception and Motor Skills, 84, 264-266.
Kopaliński, W. (1989). Słownik wyrazów obcych i zwrotów obcojęzycznych. War-
szawa: PWN.
Kosslyn, S. (1973). Scanning visual images: Some structural implications. Percep-
tion and Psychophysics, 14, 90-94.
Kozielecki, J. (1999). Banach, geniusz ze Lwowa. Warszawa: Wydawnictwo Aka-
demickie Żak.
Krosnick, J. A. (1999). Survey research. Annual Review of Psychology, 50, 537-67.
Lakoff, G., Johnson, M. (1988). Metafory w naszym życiu. Warszawa: Państwowy
Instytut Wydawniczy.
Lewicka, M. (1993). Aktor czy obserwator? Psychologiczne mechanizmy odchyleń
od racjonalności w myśleniu potocznym. Warszawa–Olsztyn: Polskie To-
warzystwo Psychologiczne – Pracownia Wydawnicza.
Lewicka, M., Wojciszke, B. (2000). Wiedza jednostki i sądy o świecie społecznym.
W: J. Strelau (red.), Psychologia. Podręcznik akademicki (t. III). Gdańsk:
GWP.
Linder, D. E., Cooper, J., Jones, E. E. (1967). Decision freedom as a determinant of
the role of incentive magnitude in attitude change. Journal of Personality
and Social Psychology, 6, 245-254.
Lomax, R. G., Moosavi, S. A. (2002). Using humour to teach statistics: must they be
orthogonal? Understanding Statistics, 1, 113-130.
Lord, F. (1946). On the statistical treatment of football numbers. American Psychol-
ogist, 8, 750-751.
Lowes, G., Bitterman, M. E. (1967). Reward and learning in goldfish. Science, 157,
455-457.
Luszniewicz, A., Słaby, T. (2003). Statystyka z pakietem komputerowym Statistica
PL. Teoria i zastosowania. Warszawa: C. H. Beck.
Łukaszewski, W. (2000). Motywacja w najważniejszych systemach teoretycznych.
W: J. Strealu (red.), Psychologia. Podręcznik akademicki (s. 427-440).
Gdańsk: GWP.
Łukaszewski, W. (2000). Psychologiczne koncepcje człowieka. W: J. Strelau (red.),
Psychologia. Podręcznik akademicki (s. 67-92). Gdańsk: GWP.
Marciszewski, W. (red.) (1988). Mała encyklopedia logiki. Warszawa: Ossolineum.
Marques, F., Dehaene, S. (2004). Developing intuition for prices in euros: Rescaling
or relearning prices? Journal of Experimental Psychology: Applied, 10,
148-155.
Maslow, A. H. (1990). Motywacja i osobowość. Warszawa: PAX.
624 BIBLIOGRAFIA
Matthews, R. (2000). Storks deliver babies (p = 0.008). Teaching Statistics, 22, 36-
38.
Matysiak, J. (2000). Psychologia fizjologiczna. W: J. Strelau (red.), Psychologia.
Podręcznik akademicki (t. 1, s. 95-129). Gdańsk: GWP.
Micceri, T. (1989). The unicorn, the normal curve, and other impossible creatures.
Psychological Bulletin, 105, 156-166.
Michotte, A. (1946). The Perception of Causality. New York: Basic Books.
Młodkowski, J. (1998). Aktywność wizualna człowieka. Warszawa–Łódź: Wydaw-
nictwo Naukowe PWN.
Mukherjee, A., Hoyer, W. (2001). The effect of novel attributes on product evalua-
tion. Journal of Consumer Research, 28, 462-473.
Najder, K. (1989). Reprezentacje i ich reprezentacje. Analiza podstawowych kon-
trowersji teoretycznych we współczesnych koncepcjach reprezentacji po-
znawczej. Wrocław–Warszawa–Kraków: Ossolineum.
Najder, K. (1997). Schematy poznawcze. W: M. Materska, T. Tyszka (red.), Psycho-
logia i poznanie (s. 38-60). Warszawa: PWN.
Nanna, M. J., Sawilowsky, S. S. (1998). Analysis of Likert scale data in disability
and medical rehabilitation research. Psychological Methods, 3, 55-67.
Natale, V. Adan, A., Chotai, J. (2002). Further results on the association between
morningness-eveningness preference and the season of birth in human
adults. Neuropsychobiology 46, 209–214.
Nęcka, E. (2000). Inteligencja. W: J. Strealu (red.), Psychologia. Podręcznik akade-
micki (t. 1, s. 721-760). Gdańsk: GWP.
Nęcka, E. (2001). Psychologia twórczości. Gdańsk: GWP.
Nęcka, E., Stocki, R. (2001). Jak pisać prace naukowe z psychologii. Kraków:
Universitas.
Nisbett, R. E., Borgida, E., Crandall, R., Reed, H. (1982). Popular induction: Infor-
mation is not necessarily informative. W: J. Carroll, J. Payne (red.), Cogni-
tion and social behavior (s. 227-236). Hillsdale, NJ: Erlbaum.
Pearson, K. (1897). Mathematical contributions to the theory of evolution: On
a form of spurious correlation which may arise when indices are used in the
measurement of organs. Proceedings of the Royal Society of London, 60,
489-498.
Piaget, J. (1966). Narodziny inteligencji dziecka. Warszawa: PWN.
Piaget, J., Inhelder, B. (1967). Operacje umysłowe i ich rozwój. W: P. Fraisse,
J. Piaget (red.), Inteligencja. Warszawa: PWN.
Pichert, J. W., Anderson, R. C. (1977). Taking different perspectives on a story.
Journal of Educational Psychology, 69, 309-315.
Pinker, S. (1994). The language instinct. London: Penguin.
Popper, K. (1997). Logika odkrycia naukowego. Warszawa: PWN.
Postolache, T. T., Hardin, T. A., Myers, F. S., Turner, E. H., Yi, L. Y., Barnett,
R. L., Matthews, J. R., Rosenthal, N. E. (1998). Greater improvement in
summer than with light treatment in winter in patients with seasonal affec-
tive disorder. American Journal of Psychiatry, 155, 1614-1616.
BIBLIOGRAFIA 625
Pryor, K. W., Haag, R., O’Reilly, J. (1969). The creative porpoise: Training for no-
vel behavior. Journal of the Experimental Analysis of Behavior, 12, 655-
661.
Psychologia w perspektywie XXI wieku. XXXI Zjazd Naukowy Polskiego Towarzy-
stwa Psychologicznego, Lublin, 5-8 września 2002 r. Lublin: TN KUL.
Pylyshyn, Z. W. (1984). Computation and cognition: Toward a foundation of cogni-
tive science. Cambridge, Mass.: MIT Press.
Rahman, M. M., Govindarajulu, Z. (1997). A modification of the test of Shapiro and
Wilk for normality. Journal of Applied Statistics, 24, 219- 235.
Raju, N. S., Pappas, S., Williams, C. P. (1989). An empirical Monte Carlo test of the
accuracy of the correlation, covariance, and regression slope models for as-
sessing validity generalization. Journal of Applied Psychology, 74, 901-
911.
Reichmann, W. J. (1968). Drogi i bezdroża statystyki. Warszawa: PWN.
Richards, I. (1983). Teoria liczb. W: Steen L. A. (red.), Matematyka współczesna
(s. 50-79). Warszawa: PWN.
Roberge, J. J. (1978). Linguistic and psychometric factors in propositional reason-
ing. Quarterly Journal of Experimental Psychology, 30, 705-716.
Robson, J. (1993). Soaring to new heights. Managing Service Quality, 3, 465-468.
Rosenthal, R., Fode, K. (1963). The effect of experimenter bias on performance of
the albino rat. Behavioral Science, 8, 183-189.
Rosenthal, R., Jacobson, L. (1963). Teachers’ expectancies: Determinants of pupils’
IQ gains. Psychological Reports, 19, 115-118.
Rosnow, R. L., Rosenthal, L., Rubin, D. B. (2000). Contrasts and correlations in ef-
fect size estimations. Psychological Science, 11, 446-453.
Ruch, W. (red.) (1998). To joke or not to joke: exploring individual differences con-
cerning the positive and the dark side of humour: the sense of humour. Ex-
plorations of personality characteristics. New York: Mouton de Gruyter.
Rundus, D. J. (1971). Analysis of rehearsal processes in free recall. Journal of Expe-
rimental Psychology, 89, 63-77.
Sawilowsky, S. S., Blair, R. C. (1992). A more realistic look at the robustness and
type II error properties of the t test to departures from population normality.
Psychological Bulletin, 111, 352-360.
Scharf-Hunt, D., Hait, P. (1990). Studying Smart: Time Management for College
Students. New York: Harper Resource.
Schwarz, N., Bless, H., Strack, F., Klumpp, G., Rittenauer-Schatka, H. (1991). Ease
of retrieval as information: Another look at the availability heuristic. Jour-
nal of Personality and Social Psychology, 61, 195-202.
Selfridge, O. (1959). Pandemonium: A paradigm for learning. W: Symposium on the
mechanization of thought processes. London: HM Stationary Office.
Shackelford, T. K., Goetz, A., T., Buss, D. M. (2005). Mate retention in marriage:
Further evidence of the reliability of the Mate Retention Inventory. Perso-
nality and Individual Differences, 39, 415-425.
626 BIBLIOGRAFIA
Shapiro, S. S., Wilk, M. B. (1965). An analysis of variance test for normality (com-
plete samples). Biometrika, 52, 591-611.
Siegel J. M. (1999). The evolution of REM sleep. W: R. Lydic, H. A. Baghdoyan
(red.), Handbook of behavioral state control (s. 87-100). Boca Raton: CRC
Press.
Siegel, S. (1956). Nonparametric statistics for the behavioral sciences. New York:
McGraw-Hill.
Sillamy, N. (1994). Słownik psychologii. Katowice: Wydawnictwo „Książnica”.
Simon, H. (1990). Invariants of human behavior. Annual Review of Psychology, 41,
1-19.
Simon, J. L. (1997). Resampling: The new statistics. Arlington, VA: Resampling
Stats, Inc.
Simons, D. J., Chabris, C. F. (1999). Gorillas in our midst: sustained intentional
blindness for dynamic events. Perception, 28, 1059-1074.
Simonson, I., Carmon, Z., Dhar, R., Drolet, A. (2001). Consumer research: In search
of identity. Annual Review of Psychology, 52, 249-276.
Smith, E. E., Shafir, E., Osherson, D. N. (1993). Similarity, plausibility, and judg-
ments of probability. Cognition, 49, 67-96.
Solomon, R. L. (1949). An extension of control group design. Psychological Bulle-
tin, 46, 137-150.
Sosnowski, T. (2004). Analiza kontrastów: między eksploracją a testowaniem hipo-
tez. Przegląd Psychologiczny, 47.
Sosnowski, T., Zimmer, K. (red.) (1993). Metody psychofizjologiczne w badaniach
psychologicznych. Warszawa: PWN.
Steele, M. J. (2005). Darrell Huff and fifty years of how to lie with statistics. Statis-
tical Science, 20, 205-209.
Stern, W. (1921). Differentielle Psychologie (wyd. 3). Leipzig: Johann Ambrosius
Barth.
Sternberg, R. (2001). Psychologia poznawcza. Warszawa: Wydawnictwa Szkolne
i Pedagogiczne.
Stevens, S. S. (1935a). The operational basis of psychology. American Journal of
Psychology, 47, 323-330.
Stevens, S. S. (1935b). The operational definition of psychological concepts. Psy-
chological Review, 42, 517-527.
Stevens, S. S. (1946) On the theory of scales of measurement. Science, 103, 677-
680.
Strelau, J. (2000). Temperament. [W:] J. Strelau (red.), Psychologia. Podręcznik
akademicki (t. 1, s. 683-720). Gdańsk: GWP.
Strelau, J. (red.) (2000). Psychologia. Podręcznik akademicki. T. 1-3. Gdańsk:
GWP.
Such, J. (1975). Problemy weryfikacji wiedzy. Warszawa: PWN.
Szaniawski, K. (1994). O nauce, rozumowaniu i wartościach. Warszawa: PWN.
BIBLIOGRAFIA 627
Tablica F. Wartości krytyczne p 0,99 0,975 0,95 0,9 0,8 0,7 0,6 0,5
2
testu χ df
1 0,000 0,001 0,004 0,016 0,064 0,148 0,275 0,455
2 0,020 0,051 0,103 0,211 0,446 0,713 1,022 1,386
3 0,115 0,216 0,352 0,584 1,005 1,424 1,869 2,366
4 0,297 0,484 0,711 1,064 1,649 2,195 2,753 3,357
5 0,554 0,831 1,145 1,610 2,343 3,000 3,655 4,351
6 0,872 1,237 1,635 2,204 3,070 3,828 4,570 5,348
7 1,239 1,690 2,167 2,833 3,822 4,671 5,493 6,346
8 1,646 2,180 2,733 3,490 4,594 5,527 6,423 7,344
9 2,088 2,700 3,325 4,168 5,380 6,393 7,357 8,343
10 2,558 3,247 3,940 4,865 6,179 7,267 8,295 9,342
11 3,053 3,816 4,575 5,578 6,989 8,148 9,237 10,341
12 3,571 4,404 5,226 6,304 7,807 9,034 10,182 11,340
13 4,107 5,009 5,892 7,042 8,634 9,926 11,129 12,340
14 4,660 5,629 6,571 7,790 9,467 10,821 12,078 13,339
15 5,229 6,262 7,261 8,547 10,307 11,721 13,030 14,339
16 5,812 6,908 7,962 9,312 11,152 12,624 13,983 15,338
17 6,408 7,564 8,672 10,085 12,002 13,531 14,937 16,338
18 7,015 8,231 9,390 10,865 12,857 14,440 15,893 17,338
19 7,633 8,907 10,117 11,651 13,716 15,352 16,850 18,338
20 8,260 9,591 10,851 12,443 14,578 16,266 17,809 19,337
21 8,897 10,283 11,591 13,240 15,445 17,182 18,768 20,337
22 9,542 10,982 12,338 14,041 16,314 18,101 19,729 21,337
23 10,196 11,689 13,091 14,848 17,187 19,021 20,690 22,337
24 10,856 12,401 13,848 15,659 18,062 19,943 21,652 23,337
25 11,524 13,120 14,611 16,473 18,940 20,867 22,616 24,337
26 12,198 13,844 15,379 17,292 19,820 21,792 23,579 25,336
27 12,879 14,573 16,151 18,114 20,703 22,719 24,544 26,336
28 13,565 15,308 16,928 18,939 21,588 23,647 25,509 27,336
29 14,256 16,047 17,708 19,768 22,475 24,577 26,475 28,336
30 14,953 16,791 18,493 20,599 23,364 25,508 27,442 29,336
31 15,655 17,539 19,281 21,434 24,255 26,440 28,409 30,336
32 16,362 18,291 20,072 22,271 25,148 27,373 29,376 31,336
33 17,074 19,047 20,867 23,110 26,042 28,307 30,344 32,336
34 17,789 19,806 21,664 23,952 26,938 29,242 31,313 33,336
35 18,509 20,569 22,465 24,797 27,836 30,178 32,282 34,336
36 19,233 21,336 23,269 25,643 28,735 31,115 33,252 35,336
37 19,960 22,106 24,075 26,492 29,635 32,053 34,222 36,336
38 20,691 22,878 24,884 27,343 30,537 32,992 35,192 37,335
39 21,426 23,654 25,695 28,196 31,441 33,932 36,163 38,335
40 22,164 24,433 26,509 29,051 32,345 34,872 37,134 39,335
41 22,906 25,215 27,326 29,907 33,251 35,813 38,105 40,335
42 23,650 25,999 28,144 30,765 34,157 36,755 39,077 41,335
43 24,398 26,785 28,965 31,625 35,065 37,698 40,050 42,335
44 25,148 27,575 29,787 32,487 35,974 38,641 41,022 43,335
45 25,901 28,366 30,612 33,350 36,884 39,585 41,995 44,335
46 26,657 29,160 31,439 34,215 37,795 40,529 42,968 45,335
47 27,416 29,956 32,268 35,081 38,708 41,474 43,942 46,335
48 28,177 30,755 33,098 35,949 39,621 42,420 44,915 47,335
49 28,941 31,555 33,930 36,818 40,534 43,366 45,889 48,335
50 29,707 32,357 34,764 37,689 41,449 44,313 46,864 49,335
652 ANEKS
Tablica F. cd. p 0,4 0,3 0,2 0,1 0,05 0,025 0,01 0,005
df
1 0,708 1,074 1,642 2,706 3,841 5,024 6,635 7,879
2 1,833 2,408 3,219 4,605 5,991 7,378 9,210 10,597
3 2,946 3,665 4,642 6,251 7,815 9,348 11,345 12,838
4 4,045 4,878 5,989 7,779 9,488 11,143 13,277 14,860
5 5,132 6,064 7,289 9,236 11,070 12,833 15,086 16,750
6 6,211 7,231 8,558 10,645 12,592 14,449 16,812 18,548
7 7,283 8,383 9,803 12,017 14,067 16,013 18,475 20,278
8 8,351 9,524 11,030 13,362 15,507 17,535 20,090 21,955
9 9,414 10,656 12,242 14,684 16,919 19,023 21,666 23,589
10 10,473 11,781 13,442 15,987 18,307 20,483 23,209 25,188
11 11,530 12,899 14,631 17,275 19,675 21,920 24,725 26,757
12 12,584 14,011 15,812 18,549 21,026 23,337 26,217 28,300
13 13,636 15,119 16,985 19,812 22,362 24,736 27,688 29,819
14 14,685 16,222 18,151 21,064 23,685 26,119 29,141 31,319
15 15,733 17,322 19,311 22,307 24,996 27,488 30,578 32,801
16 16,780 18,418 20,465 23,542 26,296 28,845 32,000 34,267
17 17,824 19,511 21,615 24,769 27,587 30,191 33,409 35,718
18 18,868 20,601 22,760 25,989 28,869 31,526 34,805 37,156
19 19,910 21,689 23,900 27,204 30,144 32,852 36,191 38,582
20 20,951 22,775 25,038 28,412 31,410 34,170 37,566 39,997
21 21,991 23,858 26,171 29,615 32,671 35,479 38,932 41,401
22 23,031 24,939 27,301 30,813 33,924 36,781 40,289 42,796
23 24,069 26,018 28,429 32,007 35,172 38,076 41,638 44,181
24 25,106 27,096 29,553 33,196 36,415 39,364 42,980 45,558
25 26,143 28,172 30,675 34,382 37,652 40,646 44,314 46,928
26 27,179 29,246 31,795 35,563 38,885 41,923 45,642 48,290
27 28,214 30,319 32,912 36,741 40,113 43,195 46,963 49,645
28 29,249 31,391 34,027 37,916 41,337 44,461 48,278 50,994
29 30,283 32,461 35,139 39,087 42,557 45,722 49,588 52,335
30 31,316 33,530 36,250 40,256 43,773 46,979 50,892 53,672
31 32,349 34,598 37,359 41,422 44,985 48,232 52,191 45,003
32 33,381 35,665 38,466 42,585 46,194 49,480 53,486 56,328
33 34,413 36,731 39,572 43,745 47,400 50,725 54,776 57,648
34 35,444 37,795 40,676 44,903 48,602 51,966 56,061 58,964
35 36,475 38,859 41,778 46,059 49,802 53,203 57,342 60,275
36 37,505 39,922 42,879 47,212 50,998 54,437 58,619 61,581
37 38,535 40,984 43,978 48,363 52,192 55,668 59,893 62,882
38 39,564 42,045 45,076 49,513 53,384 56,896 61,162 64,181
39 40,593 43,105 46,173 50,660 54,572 58,120 62,428 65,476
40 41,622 44,165 47,269 51,805 55,758 59,342 63,691 66,766
41 42,651 45,224 48,363 52,949 56,942 60,561 64,950 68,053
42 43,679 46,282 49,456 54,090 58,124 61,777 66,206 69,336
43 44,706 47,339 50,548 55,230 59,304 62,990 67,459 70,616
44 45,734 48,396 51,639 56,369 60,481 64,201 68,710 71,893
45 46,761 49,452 52,729 57,505 61,656 65,410 69,957 73,166
46 47,787 50,507 53,818 58,641 62,830 66,617 71,201 74,437
47 48,814 51,562 54,906 59,774 64,001 67,821 72,443 75,704
48 49,840 52,616 55,993 60,907 65,171 69,023 73,683 76,969
49 50,866 53,670 57,079 62,038 66,339 70,222 74,919 78,231
50 51,892 54,723 58,164 63,167 67,505 71,420 76,154 79,490
TABLICE STATYSTYCZNE 653