Psychometria Podstawowe Zagadnienia

FOLIA MAT
Psychometria
Podstawowe zagadnienia
ISBN 978-83-61086-31-4
Psychometria
pod redakcją Krzysztofa Fronczyka
Psychometria_Fronczyk_Druk.indd 1 2009-01-14 12:51:34

##7#52#aMjA4MzYyNTNBMzIzNTY1Mw==

Psychometria Psychometria
– podstawowe zagadnienia – podstawowe zagadnienia
Plik zabezpieczony watermarkiem jawnym i niejawnym: 20836253A3235653




Psychometria Psychometria
– podstawowe zagadnienia – podstawowe zagadnienia
pod redakcją pod redakcją

Krzysztofa Fronczyka Krzysztofa Fronczyka
Warszawa 2009 Warszawa 2009


Wyższa Szkoła Finansów i Zarządzania w Warszawie Wyższa Szkoła Finansów i Zarządzania w Warszawie
Recenzent Recenzent
Prof. dr hab. Bogdan Zawadzki Prof. dr hab. Bogdan Zawadzki
Copyright © 2009 by Wyższa Szkoła Finansów i Zarządzania w Warszawie Copyright © 2009 by Wyższa Szkoła Finansów i Zarządzania w Warszawie
Redaktor prowadzący Redaktor prowadzący

Wojciech Żyłko Wojciech Żyłko
Redakcja i korekta Redakcja i korekta

Joanna Dziejowska Joanna Dziejowska
Wydanie I Wydanie I
ISBN: 978-83-61086-31-4 ISBN: 978-83-61086-31-4
VIZJA PRESS & IT VIZJA PRESS & IT

ul. Dzielna 60, 01-029 Warszawa ul. Dzielna 60, 01-029 Warszawa
tel./fax 022 536 54 68 tel./fax 022 536 54 68
e-mail: vizja@vizja.pl e-mail: vizja@vizja.pl
www.oferta.vizja.net.pl www.oferta.vizja.net.pl
Skład i łamanie Skład i łamanie

BEST Stanisław Beczek, tel. 693 650 984 BEST Stanisław Beczek, tel. 693 650 984
Warszawa 2009 Warszawa 2009


Spis treści Spis treści
Wprowadzenie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 Wprowadzenie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1. Zastosowanie testów psychologicznych . . . . . . . . . . . . . . . . . . . . . . 12 1. Zastosowanie testów psychologicznych . . . . . . . . . . . . . . . . . . . . . . 12

Ewa Witkowska Ewa Witkowska
1.1. Pojęcie testu psychologicznego i jego podstawowe własności . . . . . . . 12 1.1. Pojęcie testu psychologicznego i jego podstawowe własności . . . . . . . 12
1.1.1. Rzetelność pomiaru testem . . . . . . . . . . . . . . . . . . . . . . 14 1.1.1. Rzetelność pomiaru testem . . . . . . . . . . . . . . . . . . . . . . 14
1.1.2. Trafność pomiaru testem . . . . . . . . . . . . . . . . . . . . . . . 14 1.1.2. Trafność pomiaru testem . . . . . . . . . . . . . . . . . . . . . . . 14
1.1.3. Standaryzacja . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 1.1.3. Standaryzacja . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.1.4. Normy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 1.1.4. Normy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.1.5. Obiektywność . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 1.1.5. Obiektywność . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.2. Testy jako narzędzia diagnostyczne . . . . . . . . . . . . . . . . . . . . . 17 1.2. Testy jako narzędzia diagnostyczne . . . . . . . . . . . . . . . . . . . . . 17
Pytania sprawdzające . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 Pytania sprawdzające . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2. Przegląd wybranych testów psychologicznych . . . . . . . . . . . . . . . . . . 21 2. Przegląd wybranych testów psychologicznych . . . . . . . . . . . . . . . . . . 21

Krzysztof Fronczyk Krzysztof Fronczyk
2.1. Testy cech intelektu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 2.1. Testy cech intelektu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.1.1. Skale rozwojowe . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 2.1.1. Skale rozwojowe . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.1.2. Testy inteligencji ogólnej i zdolności . . . . . . . . . . . . . . . . . 29 2.1.2. Testy inteligencji ogólnej i zdolności . . . . . . . . . . . . . . . . . 29
2.2. Kwestionariusze osobowości i temperamentu . . . . . . . . . . . . . . . . 39 2.2. Kwestionariusze osobowości i temperamentu . . . . . . . . . . . . . . . . 39
2.2.1. Inwentarze przeznaczone do diagnozy osobowości jako całości . . . 40 2.2.1. Inwentarze przeznaczone do diagnozy osobowości jako całości . . . 40
2.2.2. Inwentarze przeznaczone do diagnozy wybranych wymiarów 2.2.2. Inwentarze przeznaczone do diagnozy wybranych wymiarów
osobowości . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 osobowości . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
2.2.3. Charakter pozycji testowych występujących w kwestionariuszach . 47 2.2.3. Charakter pozycji testowych występujących w kwestionariuszach . 47
2.2.3.1. Treść pozycji testowych w kwestionariuszach . . . . . . . 47 2.2.3.1. Treść pozycji testowych w kwestionariuszach . . . . . . . 47
2.2.3.2. Forma pozycji testowych w kwestionariuszach . . . . . . . 49 2.2.3.2. Forma pozycji testowych w kwestionariuszach . . . . . . . 49
3. Co to jest pomiar psychologiczny? . . . . . . . . . . . . . . . . . . . . . . . . 54 3. Co to jest pomiar psychologiczny? . . . . . . . . . . . . . . . . . . . . . . . . 54

3.1. Założenia dotyczące natury mierzonych właściwości w psychometrii . . . 54 3.1. Założenia dotyczące natury mierzonych właściwości w psychometrii . . . 54
3.2. Pojęcie pomiaru . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 3.2. Pojęcie pomiaru . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
3.3. Wskaźniki . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 3.3. Wskaźniki . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
3.4. Pojęcie pomiaru różnicowego . . . . . . . . . . . . . . . . . . . . . . . . 61 3.4. Pojęcie pomiaru różnicowego . . . . . . . . . . . . . . . . . . . . . . . . 61
3.5. Kwestie problemowe pomiaru psychometrycznego . . . . . . . . . . . . . 63 3.5. Kwestie problemowe pomiaru psychometrycznego . . . . . . . . . . . . . 63
4. Klasyczna teoria rzetelności testów . . . . . . . . . . . . . . . . . . . . . . . . 65 4. Klasyczna teoria rzetelności testów . . . . . . . . . . . . . . . . . . . . . . . . 65

Andrzej Rynkiewicz Andrzej Rynkiewicz
4.1. Wynik prawdziwy i błąd pomiaru . . . . . . . . . . . . . . . . . . . . . . 66 4.1. Wynik prawdziwy i błąd pomiaru . . . . . . . . . . . . . . . . . . . . . . 66
4.2. Podstawowe założenia klasycznej teorii rzetelności testów . . . . . . . . . 69 4.2. Podstawowe założenia klasycznej teorii rzetelności testów . . . . . . . . . 69
4.3. Rozkłady wyników i błędów dla jednej osoby . . . . . . . . . . . . . . . . 74 4.3. Rozkłady wyników i błędów dla jednej osoby . . . . . . . . . . . . . . . . 74
4.4. Rozkłady wyników i błędów dla populacji . . . . . . . . . . . . . . . . . . 76 4.4. Rozkłady wyników i błędów dla populacji . . . . . . . . . . . . . . . . . . 76
4.5. Teoretyczna definicja rzetelności testu . . . . . . . . . . . . . . . . . . . . 77 4.5. Teoretyczna definicja rzetelności testu . . . . . . . . . . . . . . . . . . . . 77
4.6. Korelacja wyników otrzymanych i prawdziwych . . . . . . . . . . . . . . 79 5 4.6. Korelacja wyników otrzymanych i prawdziwych . . . . . . . . . . . . . . 79 5


4.7. Standardowy błąd pomiaru . . . . . . . . . . . . . . . . . . . . . . . . . . 80 4.7. Standardowy błąd pomiaru . . . . . . . . . . . . . . . . . . . . . . . . . . 80

Zalecana literatura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82 Zalecana literatura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
Literatura dla bardziej ambitnych . . . . . . . . . . . . . . . . . . . . . . . . . . . 82 Literatura dla bardziej ambitnych . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
Zadania . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82 Zadania . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
Odpowiedzi do zadań . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83 Odpowiedzi do zadań . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
5. Jakich informacji o teście dostarcza testowanie? . . . . . . . . . . . . . . 84 5. Jakich informacji o teście dostarcza testowanie? . . . . . . . . . . . . . . 84
Konrad Jankowski, Marcin Zajenkowski Konrad Jankowski, Marcin Zajenkowski
5.1. Metody szacowania rzetelności pomiaru testem . . . . . . . . . . . . . . . 84 5.1. Metody szacowania rzetelności pomiaru testem . . . . . . . . . . . . . . . 84
5.1.1. Metoda powtarzanego pomiaru . . . . . . . . . . . . . . . . . . . . 85 5.1.1. Metoda powtarzanego pomiaru . . . . . . . . . . . . . . . . . . . . 85
5.1.1.1. Stabilność czasowa a założenie o równości średnich . . . . 87 5.1.1.1. Stabilność czasowa a założenie o równości średnich . . . . 87
5.1.2. Metoda wersji alternatywnych . . . . . . . . . . . . . . . . . . . . 89 5.1.2. Metoda wersji alternatywnych . . . . . . . . . . . . . . . . . . . . 89
5.1.3. Metoda połówkowa . . . . . . . . . . . . . . . . . . . . . . . . . . 90 5.1.3. Metoda połówkowa . . . . . . . . . . . . . . . . . . . . . . . . . . 90
5.1.4. Zgodność wewnętrzna . . . . . . . . . . . . . . . . . . . . . . . . . 93 5.1.4. Zgodność wewnętrzna . . . . . . . . . . . . . . . . . . . . . . . . . 93
5.1.5. Zgodność ocen sędziów . . . . . . . . . . . . . . . . . . . . . . . . 97 5.1.5. Zgodność ocen sędziów . . . . . . . . . . . . . . . . . . . . . . . . 97
5.1.6. Porównanie metod szacowania rzetelności . . . . . . . . . . . . . . 98 5.1.6. Porównanie metod szacowania rzetelności . . . . . . . . . . . . . . 98
5.1.7. Metody szacowania rzetelności w SPSS . . . . . . . . . . . . . . . 99 5.1.7. Metody szacowania rzetelności w SPSS . . . . . . . . . . . . . . . 99
5.1.7.1. Metody dwukrotnego badania tej samej grupy osób . . . . 99 5.1.7.1. Metody dwukrotnego badania tej samej grupy osób . . . . 99
5.1.7.2. Metoda połówkowa w SPSS . . . . . . . . . . . . . . . . 102 5.1.7.2. Metoda połówkowa w SPSS . . . . . . . . . . . . . . . . 102
5.1.7.3. Alfa Cronbacha w SPSS . . . . . . . . . . . . . . . . . . . 104 5.1.7.3. Alfa Cronbacha w SPSS . . . . . . . . . . . . . . . . . . . 104
5.1.7.4. Rzetelność pomiaru testem jako zgodność sędziów w SPSS 106 5.1.7.4. Rzetelność pomiaru testem jako zgodność sędziów w SPSS 106
Zadania . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109 Zadania . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
Zadania w SPSS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110 Zadania w SPSS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
Adam Tarnowski, Krzysztof Fronczyk Adam Tarnowski, Krzysztof Fronczyk

5.2. Trafność pomiaru testem . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111 5.2. Trafność pomiaru testem . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
5.2.1. Pojęcie trafności i jej związek z innymi właściwościami testu . . . . 111 5.2.1. Pojęcie trafności i jej związek z innymi właściwościami testu . . . . 111
5.2.2. Rodzaje trafności . . . . . . . . . . . . . . . . . . . . . . . . . . . 114 5.2.2. Rodzaje trafności . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
5.2.2.1. Trafność treściowa . . . . . . . . . . . . . . . . . . . . . 114 5.2.2.1. Trafność treściowa . . . . . . . . . . . . . . . . . . . . . 114
5.2.2.2. Trafność teoretyczna . . . . . . . . . . . . . . . . . . . . 118 5.2.2.2. Trafność teoretyczna . . . . . . . . . . . . . . . . . . . . 118
5.2.2.3. Trafność kryterialna . . . . . . . . . . . . . . . . . . . . . 131 5.2.2.3. Trafność kryterialna . . . . . . . . . . . . . . . . . . . . . 131
5.2.2.4. Inne aspekty trafności . . . . . . . . . . . . . . . . . . . . 136 5.2.2.4. Inne aspekty trafności . . . . . . . . . . . . . . . . . . . . 136
5.2.3. Wzajemne relacje pomiędzy poszczególnymi rodzajami trafności . 137 5.2.3. Wzajemne relacje pomiędzy poszczególnymi rodzajami trafności . 137
5.2.4. Trafność pomiaru testowego a odstępstwa od standardowej procedury 5.2.4. Trafność pomiaru testowego a odstępstwa od standardowej procedury
badania . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139 badania . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
5.2.5. Szacowanie trafności . . . . . . . . . . . . . . . . . . . . . . . . . 140 5.2.5. Szacowanie trafności . . . . . . . . . . . . . . . . . . . . . . . . . 140
5.2.5.1. Współczynnik zgodności sędziów . . . . . . . . . . . . . 140 5.2.5.1. Współczynnik zgodności sędziów . . . . . . . . . . . . . 140
5.2.5.2. Współczynnik korelacji . . . . . . . . . . . . . . . . . . . 145 5.2.5.2. Współczynnik korelacji . . . . . . . . . . . . . . . . . . . 145
5.2.5.3. Analiza czynnikowa . . . . . . . . . . . . . . . . . . . . . 147 5.2.5.3. Analiza czynnikowa . . . . . . . . . . . . . . . . . . . . . 147
5.2.5.4. Analiza różnic międzygrupowych . . . . . . . . . . . . . 151 5.2.5.4. Analiza różnic międzygrupowych . . . . . . . . . . . . . 151
5.2.5.4.1. Test t-Studenta . . . . . . . . . . . . . . . . . . 151 5.2.5.4.1. Test t-Studenta . . . . . . . . . . . . . . . . . . 151
5.2.5.4.2. Jednoczynnikowa analiza wariancji . . . . . . . 154 5.2.5.4.2. Jednoczynnikowa analiza wariancji . . . . . . . 154
6 Pytania sprawdzające . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159 6 Pytania sprawdzające . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159

Ewa Witkowska, Krzysztof Fronczyk Ewa Witkowska, Krzysztof Fronczyk
5.3. Analiza właściwości pozycji testowych . . . . . . . . . . . . . . . . . . . 161 5.3. Analiza właściwości pozycji testowych . . . . . . . . . . . . . . . . . . . 161
5.3.1. Trudność pozycji testowych . . . . . . . . . . . . . . . . . . . . . 162 5.3.1. Trudność pozycji testowych . . . . . . . . . . . . . . . . . . . . . 162
5.3.2. Moc dyskryminacyjna pozycji testowych . . . . . . . . . . . . . . 165 5.3.2. Moc dyskryminacyjna pozycji testowych . . . . . . . . . . . . . . 165
5.3.3. Własności pozycji testowych a kształt rozkładu wyników testu . . . 169 5.3.3. Własności pozycji testowych a kształt rozkładu wyników testu . . . 169
5.3.4. Obliczanie właściwości pozycji testowych i rozkładu wyników 5.3.4. Obliczanie właściwości pozycji testowych i rozkładu wyników
w SPSS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172 w SPSS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172
5.3.4.1. Obliczanie trudności i mocy dyskryminacyjnych przy użyciu 5.3.4.1. Obliczanie trudności i mocy dyskryminacyjnych przy użyciu
SPSS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172 SPSS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172
5.3.4.2. Obliczanie podstawowych charakterystyk kształtu rozkładu 5.3.4.2. Obliczanie podstawowych charakterystyk kształtu rozkładu
wyników testu przy zastosowaniu SPSS . . . . . . . . . . 174 wyników testu przy zastosowaniu SPSS . . . . . . . . . . 174
5.3.5. Forma pozycji testowych . . . . . . . . . . . . . . . . . . . . . . . 176 5.3.5. Forma pozycji testowych . . . . . . . . . . . . . . . . . . . . . . . 176
Zadania . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177 Zadania . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177
6. Jakich informacji o osobie badanej dostarcza testowanie? . . . . . . . . 180 6. Jakich informacji o osobie badanej dostarcza testowanie? . . . . . . . . 180
6.1. Błędy standardowe i przedziały ufności . . . . . . . . . . . . . . . . . . . 180 6.1. Błędy standardowe i przedziały ufności . . . . . . . . . . . . . . . . . . . 180
6.1.1. Standardowy błąd pomiaru . . . . . . . . . . . . . . . . . . . . . . 181 6.1.1. Standardowy błąd pomiaru . . . . . . . . . . . . . . . . . . . . . . 181
6.1.2. Przedział ufności dla wyniku otrzymanego . . . . . . . . . . . . . . 182 6.1.2. Przedział ufności dla wyniku otrzymanego . . . . . . . . . . . . . . 182
6.1.2.1. Obliczanie przedziału ufności dla wyniku otrzymanego . . 185 6.1.2.1. Obliczanie przedziału ufności dla wyniku otrzymanego . . 185
6.1.2.2. Interpretacja przedziału ufności dla wyniku otrzymanego . 186 6.1.2.2. Interpretacja przedziału ufności dla wyniku otrzymanego . 186
6.1.3. Standardowy błąd różnicy między wynikami otrzymanymi . . . . . 187 6.1.3. Standardowy błąd różnicy między wynikami otrzymanymi . . . . . 187
6.1.4. Przedział ufności dla różnicy między wynikami otrzymanymi . . . 190 6.1.4. Przedział ufności dla różnicy między wynikami otrzymanymi . . . 190
6.1.4.1. Obliczanie przedziału ufności dla różnicy między wynikami 6.1.4.1. Obliczanie przedziału ufności dla różnicy między wynikami
otrzymanymi . . . . . . . . . . . . . . . . . . . . . . . . . 192 otrzymanymi . . . . . . . . . . . . . . . . . . . . . . . . . 192
6.1.4.2. Istotność różnicy między wynikami otrzymanymi . . . . . 193 6.1.4.2. Istotność różnicy między wynikami otrzymanymi . . . . . 193
6.1.5. Estymowany wynik prawdziwy . . . . . . . . . . . . . . . . . . . 194 6.1.5. Estymowany wynik prawdziwy . . . . . . . . . . . . . . . . . . . 194
6.1.6. Standardowy błąd estymacji wyniku prawdziwego . . . . . . . . . 197 6.1.6. Standardowy błąd estymacji wyniku prawdziwego . . . . . . . . . 197
6.1.7. Przedział ufności dla estymowanego wyniku prawdziwego . . . . . 199 6.1.7. Przedział ufności dla estymowanego wyniku prawdziwego . . . . . 199
6.1.7.1. Obliczanie przedziału ufności dla estymowanego wyniku 6.1.7.1. Obliczanie przedziału ufności dla estymowanego wyniku
prawdziwego . . . . . . . . . . . . . . . . . . . . . . . . 200 prawdziwego . . . . . . . . . . . . . . . . . . . . . . . . 200
Literatura zalecana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201 Literatura zalecana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201
Zadania . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201 Zadania . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201

6.2. Normy i normalizacja . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205 6.2. Normy i normalizacja . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205
6.2.1. Norma i normy . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205 6.2.1. Norma i normy . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205
6.2.2. Standaryzacja . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207 6.2.2. Standaryzacja . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207
6.2.3. Normalizacja . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209 6.2.3. Normalizacja . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209
6.2.4. Skale znormalizowane . . . . . . . . . . . . . . . . . . . . . . . . 215 6.2.4. Skale znormalizowane . . . . . . . . . . . . . . . . . . . . . . . . 215
6.2.4.1. Skala staninowa . . . . . . . . . . . . . . . . . . . . . . . 216 6.2.4.1. Skala staninowa . . . . . . . . . . . . . . . . . . . . . . . 216
6.2.4.2. Skala stenowa . . . . . . . . . . . . . . . . . . . . . . . . 217 7 6.2.4.2. Skala stenowa . . . . . . . . . . . . . . . . . . . . . . . . 217 7


6.2.4.3. Skala tenowa . . . . . . . . . . . . . . . . . . . . . . . . 217 6.2.4.3. Skala tenowa . . . . . . . . . . . . . . . . . . . . . . . . 217

6.2.4.4. Skala tetronowa . . . . . . . . . . . . . . . . . . . . . . . 218 6.2.4.4. Skala tetronowa . . . . . . . . . . . . . . . . . . . . . . . 218
6.2.4.5. Iloraz inteligencji . . . . . . . . . . . . . . . . . . . . . . 219 6.2.4.5. Iloraz inteligencji . . . . . . . . . . . . . . . . . . . . . . 219
6.2.4.6. Przeliczanie wyników na skale znormalizowane . . . . . . 220 6.2.4.6. Przeliczanie wyników na skale znormalizowane . . . . . . 220
6.2.5. Normy centylowe . . . . . . . . . . . . . . . . . . . . . . . . . . . 222 6.2.5. Normy centylowe . . . . . . . . . . . . . . . . . . . . . . . . . . . 222
Zadania . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 227 Zadania . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 227
7. Etyka badań testowych . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 230 7. Etyka badań testowych . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 230

7.1. Prawa osoby badanej i obowiązki psychologa-diagnosty . . . . . . . . . . 230 7.1. Prawa osoby badanej i obowiązki psychologa-diagnosty . . . . . . . . . . 230
7.2. Przygotowanie się do diagnozowania . . . . . . . . . . . . . . . . . . . . 232 7.2. Przygotowanie się do diagnozowania . . . . . . . . . . . . . . . . . . . . 232
7.3. Zawieranie kontraktu oraz świadoma zgoda na udział w badaniu 7.3. Zawieranie kontraktu oraz świadoma zgoda na udział w badaniu
diagnostycznym . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233 diagnostycznym . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233
7.4. Tajemnica zawodowa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 235 7.4. Tajemnica zawodowa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 235
7.5. Komunikowanie wyników testowych . . . . . . . . . . . . . . . . . . . . 236 7.5. Komunikowanie wyników testowych . . . . . . . . . . . . . . . . . . . . 236
7.6. Ochrona narzędzi diagnostycznych . . . . . . . . . . . . . . . . . . . . . 240 7.6. Ochrona narzędzi diagnostycznych . . . . . . . . . . . . . . . . . . . . . 240
7.7. Podsumowanie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 242 7.7. Podsumowanie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 242
Literatura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 244 Literatura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 244
Indeks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 248 Indeks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 248

Wprowadzenie Wprowadzenie
Niniejszy podręcznik psychometrii zawiera podstawowe informacje, z jakimi Niniejszy podręcznik psychometrii zawiera podstawowe informacje, z jakimi
powinni zapoznać się studenci w trakcie studiów psychologicznych. Studenci powinni zapoznać się studenci w trakcie studiów psychologicznych. Studenci
często odnoszą się z niechęcią do przedmiotów metodologicznych, zwłaszcza do często odnoszą się z niechęcią do przedmiotów metodologicznych, zwłaszcza do
statystyki oraz psychometrii. Spowodowane jest to zwykle przeświadczeniem, że statystyki oraz psychometrii. Spowodowane jest to zwykle przeświadczeniem, że
przedmioty tego typu są bardzo trudne, szczególnie dla studentów psychologii, przedmioty tego typu są bardzo trudne, szczególnie dla studentów psychologii,
których zainteresowania zwykle są dalekie od matematyki. Jest to błędne prze- których zainteresowania zwykle są dalekie od matematyki. Jest to błędne prze-
konanie. W opinii autorów niniejszego podręcznika zrozumienie podstawowych konanie. W opinii autorów niniejszego podręcznika zrozumienie podstawowych
idei psychometrii nie wymaga dogłębnej znajomości matematyki, a zależy przede idei psychometrii nie wymaga dogłębnej znajomości matematyki, a zależy przede
wszystkim od przełamania w sobie poglądu, że psychometria czy statystyka jest wszystkim od przełamania w sobie poglądu, że psychometria czy statystyka jest
trudna i niedostępna dla przeciętnego adepta psychologii. Jest to ważne, ponieważ trudna i niedostępna dla przeciętnego adepta psychologii. Jest to ważne, ponieważ
znajomość podstaw psychometrii jest niezbędna w pracy każdego psychologa. znajomość podstaw psychometrii jest niezbędna w pracy każdego psychologa.
Naszym celem było takie przedstawienie psychometrii, aby ułatwić to zada- Naszym celem było takie przedstawienie psychometrii, aby ułatwić to zada-
nie. Staraliśmy się w możliwie przystępny sposób zaprezentować poszczególne nie. Staraliśmy się w możliwie przystępny sposób zaprezentować poszczególne
zagadnienia, tak aby ułatwiać ich zrozumienie. Osiągniecie tego celu możliwe zagadnienia, tak aby ułatwiać ich zrozumienie. Osiągniecie tego celu możliwe
było nie tylko dzięki odpowiedniej prezentacji materiału, lecz także dzięki jego było nie tylko dzięki odpowiedniej prezentacji materiału, lecz także dzięki jego
selekcji. Współczesna psychometria dysponuje bowiem dość rozbudowanym selekcji. Współczesna psychometria dysponuje bowiem dość rozbudowanym
aparatem statystycznym, którego omawianie nie jest konieczne do zrozumienia aparatem statystycznym, którego omawianie nie jest konieczne do zrozumienia
najbardziej fundamentalnych pojęć psychometrii. Żeby zrozumieć te pojęcia wy- najbardziej fundamentalnych pojęć psychometrii. Żeby zrozumieć te pojęcia wy-
starczy podstawowa znajomość matematyki oraz nieco ogólnej wiedzy ze wstęp- starczy podstawowa znajomość matematyki oraz nieco ogólnej wiedzy ze wstęp-
nego kursu psychologii. nego kursu psychologii.
Rezygnacja z omawiania złożonych zagadnień statystycznych nie ujmuje Rezygnacja z omawiania złożonych zagadnień statystycznych nie ujmuje
w niczym użyteczności podręcznika. Dla większości psychologów-praktyków, w niczym użyteczności podręcznika. Dla większości psychologów-praktyków,
jakimi staną się także obecni studenci psychologii, nie jest bowiem ona koniecz- jakimi staną się także obecni studenci psychologii, nie jest bowiem ona koniecz-
na. Niezbędne jest jednak rozumienie podstawowych pojęć związanych z testa- na. Niezbędne jest jednak rozumienie podstawowych pojęć związanych z testa-
mi psychologicznymi. Nie można bowiem posługiwać się narzędziami tego typu mi psychologicznymi. Nie można bowiem posługiwać się narzędziami tego typu
w sposób przynoszący korzyść osobom badanym bez znajomości takich pojęć, w sposób przynoszący korzyść osobom badanym bez znajomości takich pojęć,
jak np. rzetelność czy trafność pomiaru testem. jak np. rzetelność czy trafność pomiaru testem.
Niniejszy podręcznik został pomyślany jako źródło podstawowych informa- Niniejszy podręcznik został pomyślany jako źródło podstawowych informa-
cji z zakresu psychometrii dla studentów, ale może też służyć za przewodnik cji z zakresu psychometrii dla studentów, ale może też służyć za przewodnik
w przeprowadzaniu prostych analiz danych psychometrycznych przez wszyst- w przeprowadzaniu prostych analiz danych psychometrycznych przez wszyst-
kich zainteresowanych tą problematyką, szczególnie magistrantów, którzy stają kich zainteresowanych tą problematyką, szczególnie magistrantów, którzy stają
przed koniecznością dokonania analizy danych pochodzących z badań przepro- 9 przed koniecznością dokonania analizy danych pochodzących z badań przepro- 9

wadzonych do własnych prac magisterskich. Zadanie to mają ułatwić przykłady wadzonych do własnych prac magisterskich. Zadanie to mają ułatwić przykłady
analiz przeprowadzone w programie SPSS. Dołączona do podręcznika płyta CD analiz przeprowadzone w programie SPSS. Dołączona do podręcznika płyta CD
zawiera pliki danych wykorzystane w opisanych przykładach. Dzięki nim każdy zawiera pliki danych wykorzystane w opisanych przykładach. Dzięki nim każdy
posiadacz programu SPPS może dokonać takich samych analiz, co powinno uła- posiadacz programu SPPS może dokonać takich samych analiz, co powinno uła-
twić planowanie i przeprowadzanie analiz własnych danych. twić planowanie i przeprowadzanie analiz własnych danych.
Podręcznik Psychometria – podstawowe zagadnienia ma następujący układ. Podręcznik Psychometria – podstawowe zagadnienia ma następujący układ.
Rozdział pierwszy, autorstwa Ewy Witkowskiej, jest wprowadzeniem w proble- Rozdział pierwszy, autorstwa Ewy Witkowskiej, jest wprowadzeniem w proble-
matykę książki. Zawiera on omówienie podstawowych terminów psychometrii. matykę książki. Zawiera on omówienie podstawowych terminów psychometrii.
Rozdział drugi, napisany przez Krzysztofa Fronczyka, jest prezentacją wybra- Rozdział drugi, napisany przez Krzysztofa Fronczyka, jest prezentacją wybra-
nych narzędzi psychometrycznych. Oczywiście z konieczności ograniczono się nych narzędzi psychometrycznych. Oczywiście z konieczności ograniczono się
w nim do opisania jedynie niewielkiej liczby testów. Starano się je dobrać w spo- w nim do opisania jedynie niewielkiej liczby testów. Starano się je dobrać w spo-
sób maksymalnie reprezentatywny dla ogromnej liczby narzędzi stosowanych na sób maksymalnie reprezentatywny dla ogromnej liczby narzędzi stosowanych na
świecie, tak aby Czytelnik uzyskał choć pobieżną wiedzę na temat różnorodności świecie, tak aby Czytelnik uzyskał choć pobieżną wiedzę na temat różnorodności
tego typu technik badawczych. Kolejny rozdział, również autorstwa Krzysztofa tego typu technik badawczych. Kolejny rozdział, również autorstwa Krzysztofa
Fronczyka, jest wprowadzeniem do zagadnień pomiaru w psychometrii. Pomiar Fronczyka, jest wprowadzeniem do zagadnień pomiaru w psychometrii. Pomiar
cech psychicznych nie jest bowiem tak oczywisty, jak pomiar właściwości fi- cech psychicznych nie jest bowiem tak oczywisty, jak pomiar właściwości fi-
zycznych, stąd konieczność nieco szerszego potraktowania tego zagadnienia. zycznych, stąd konieczność nieco szerszego potraktowania tego zagadnienia.
Andrzej Rynkiewicz w rozdziale czwartym wprowadza Czytelnika w zagadnie- Andrzej Rynkiewicz w rozdziale czwartym wprowadza Czytelnika w zagadnie-
nia klasycznej teorii testów. Teoria ta definiuje, jak należy rozumieć wyniki testo- nia klasycznej teorii testów. Teoria ta definiuje, jak należy rozumieć wyniki testo-
we. Dzięki niej możliwe jest także szacowanie rzetelności testów oraz obliczanie we. Dzięki niej możliwe jest także szacowanie rzetelności testów oraz obliczanie
przedziałów ufności. przedziałów ufności.
Kolejne rozdziały dotyczą dwóch zasadniczych funkcji, jakie pełnią wyniki. Kolejne rozdziały dotyczą dwóch zasadniczych funkcji, jakie pełnią wyniki.
Z jednej strony dane uzyskane z badania określonym testem pewnej grupy osób Z jednej strony dane uzyskane z badania określonym testem pewnej grupy osób
dostarczają informacji o samym teście i jego właściwościach. Z drugiej – wyniki dostarczają informacji o samym teście i jego właściwościach. Z drugiej – wyniki
poszczególnych osób badanych informują o właściwościach psychicznych tych- poszczególnych osób badanych informują o właściwościach psychicznych tych-
że osób. że osób.
Pierwsza z wymienionych funkcji wyników testowych jest omówiona w roz- Pierwsza z wymienionych funkcji wyników testowych jest omówiona w roz-
dziale piątym składającym się z trzech części. Pierwsza część, autorstwa Konrada dziale piątym składającym się z trzech części. Pierwsza część, autorstwa Konrada
Jankowskiego i Marcina Zajenkowskiego, poświęcona jest sposobom szacowa- Jankowskiego i Marcina Zajenkowskiego, poświęcona jest sposobom szacowa-
nia rzetelności pomiarów dokonywanych przy pomocy testów. Natomiast w dru- nia rzetelności pomiarów dokonywanych przy pomocy testów. Natomiast w dru-
giej części, napisanej przez Adama Tarnowskiego i Krzysztofa Fronczyka, omó- giej części, napisanej przez Adama Tarnowskiego i Krzysztofa Fronczyka, omó-
wiono sposoby szacowania trafności pomiarów dokonywane przy użyciu testów. wiono sposoby szacowania trafności pomiarów dokonywane przy użyciu testów.
W części trzeciej Ewa Witkowska i Krzysztof Fronczyk omawiają właściwości W części trzeciej Ewa Witkowska i Krzysztof Fronczyk omawiają właściwości
psychometryczne pozycji testowych. psychometryczne pozycji testowych.
Druga funkcja wyników testowych, jaką jest informowanie o właściwościach Druga funkcja wyników testowych, jaką jest informowanie o właściwościach
psychicznych osób badanych, została poruszona w rozdziale szóstym, napisanym psychicznych osób badanych, została poruszona w rozdziale szóstym, napisanym
przez Andrzeja Rynkiewicza. Opisano w nim tworzenie przedziałów ufności dla przez Andrzeja Rynkiewicza. Opisano w nim tworzenie przedziałów ufności dla
indywidualnych wyników osób badanych oraz konstruowanie układu odniesienia indywidualnych wyników osób badanych oraz konstruowanie układu odniesienia
dla tychże wyników, jakim są normy empiryczne. dla tychże wyników, jakim są normy empiryczne.
Podręcznik kończy rozdział poświęcony etycznym aspektom stosowania te- Podręcznik kończy rozdział poświęcony etycznym aspektom stosowania te-
stów psychologicznych zarówno w praktyce badań naukowych, jak i w bada- stów psychologicznych zarówno w praktyce badań naukowych, jak i w bada-
10 niach stosowanych. Rozdział ten przygotowała Ewa Witkowska. 10 niach stosowanych. Rozdział ten przygotowała Ewa Witkowska.

Wprowadzenie Wprowadzenie
Autorzy będą wdzięczni za wszelkie uwagi dotyczące treści podręcznika oraz Autorzy będą wdzięczni za wszelkie uwagi dotyczące treści podręcznika oraz
sposobu prezentacji materiału, a także stopnia jego przystępności. Czytelnicy sposobu prezentacji materiału, a także stopnia jego przystępności. Czytelnicy
mogą kierować swe komentarze za pomocą poczty elektronicznej na adres: mogą kierować swe komentarze za pomocą poczty elektronicznej na adres:
fronczyk@vizja.pl. Spostrzeżenia Czytelników dotyczące tekstu niniejszego fronczyk@vizja.pl. Spostrzeżenia Czytelników dotyczące tekstu niniejszego
podręcznika z pewnością przyczynią się do stworzenia udoskonalonej kolejnej podręcznika z pewnością przyczynią się do stworzenia udoskonalonej kolejnej
wersji książki. wersji książki.
Warszawa, wrzesień 2008 Krzysztof Fronczyk Warszawa, wrzesień 2008 Krzysztof Fronczyk
11 11

1. Zastosowanie testów psychologicznych 1. Zastosowanie testów psychologicznych

Wydział Psychologii Wydział Psychologii
Uniwersytet Warszawski Uniwersytet Warszawski
1.1. Pojęcie testu psychologicznego 1.1. Pojęcie testu psychologicznego

i jego podstawowe własności i jego podstawowe własności
Testy psychologiczne, tworzone na podstawie wiedzy psychometrycznej, są Testy psychologiczne, tworzone na podstawie wiedzy psychometrycznej, są
narzędziami w zamyśle przeznaczonymi do pomiaru cech lub stanów psychicz- narzędziami w zamyśle przeznaczonymi do pomiaru cech lub stanów psychicz-
nych. Dzięki nim możliwe staje się lepsze zrozumienie i przewidywanie ludzkich nych. Dzięki nim możliwe staje się lepsze zrozumienie i przewidywanie ludzkich
zachowań w realnych sytuacjach życiowych. Diagnoza testowa pozwala przykła- zachowań w realnych sytuacjach życiowych. Diagnoza testowa pozwala przykła-
dowo określić, czy dana osoba będzie raczej dobrym czy raczej złym kierowcą, dowo określić, czy dana osoba będzie raczej dobrym czy raczej złym kierowcą,
czy poradzi sobie w określonym typie szkoły, czy proponowany model terapii bę- czy poradzi sobie w określonym typie szkoły, czy proponowany model terapii bę-
dzie w jej przypadku słuszny itp. Zmienne mierzone przez testy psychologiczne dzie w jej przypadku słuszny itp. Zmienne mierzone przez testy psychologiczne
są nieobserwowalne bezpośrednio, a o ich natężeniu wnioskujemy na podstawie są nieobserwowalne bezpośrednio, a o ich natężeniu wnioskujemy na podstawie
zachowania. Niekiedy zmienne tego typu nazywane są konstruktami. Pojęcie zachowania. Niekiedy zmienne tego typu nazywane są konstruktami. Pojęcie
to oznacza, że zmienna mierzona przez test została stworzona w ramach pewnej to oznacza, że zmienna mierzona przez test została stworzona w ramach pewnej
teorii, w celu wyjaśniania ludzkiego zachowania. Przykłady takich zmiennych to teorii, w celu wyjaśniania ludzkiego zachowania. Przykłady takich zmiennych to
cechy psychiczne (na przykład ekstrawersja czy inteligencja), stany emocjonalne cechy psychiczne (na przykład ekstrawersja czy inteligencja), stany emocjonalne
(takie jak lęk) czy postawy (jak chociażby autorytaryzm). (takie jak lęk) czy postawy (jak chociażby autorytaryzm).
Myśląc o testach psychologicznych jako o narzędziach diagnostycznych, na- Myśląc o testach psychologicznych jako o narzędziach diagnostycznych, na-
leży pamiętać, żeby nie redukować ich wyłącznie do materiału testowego (ka- leży pamiętać, żeby nie redukować ich wyłącznie do materiału testowego (ka-
wałka papieru, na którym wydrukowano pytania kwestionariuszowe czy zadań wałka papieru, na którym wydrukowano pytania kwestionariuszowe czy zadań
prezentowanych badanemu przez psychologa). Test to cała procedura zbierania prezentowanych badanemu przez psychologa). Test to cała procedura zbierania
informacji na temat psychologicznych faktów z życia badanego – ważne jest informacji na temat psychologicznych faktów z życia badanego – ważne jest
w niej przestrzeganie odpowiednich zasad opisanych w podręczniku testowym. w niej przestrzeganie odpowiednich zasad opisanych w podręczniku testowym.
Oczywiście, bardzo istotny jest też kontakt psychologa z osobą badaną. Roli dia- Oczywiście, bardzo istotny jest też kontakt psychologa z osobą badaną. Roli dia-
gnosty nie można postrzegać jako sprowadzającej się do funkcji „żywego ro- gnosty nie można postrzegać jako sprowadzającej się do funkcji „żywego ro-
bota”, mechanicznie wdrażającego opisany w podręczniku sposób postępowa- bota”, mechanicznie wdrażającego opisany w podręczniku sposób postępowa-
nia. Można zatem powiedzieć, że w praktyce test psychologiczny jest interakcją nia. Można zatem powiedzieć, że w praktyce test psychologiczny jest interakcją
między badającym a badanym w określonym kontekście czasowym, fizycznym między badającym a badanym w określonym kontekście czasowym, fizycznym
i psychologicznym, przy czym pamiętać należy, że test jest procedurą, w któ- i psychologicznym, przy czym pamiętać należy, że test jest procedurą, w któ-
rej wszystkie czynniki – wewnętrzne (na przykład zmęczenie badanego) i ze- rej wszystkie czynniki – wewnętrzne (na przykład zmęczenie badanego) i ze-
wnętrzne (na przykład hałas towarzyszący badaniu) – wpływają na reakcje oso- wnętrzne (na przykład hałas towarzyszący badaniu) – wpływają na reakcje oso-
by badanej. W sensie metodologicznym test psychologiczny jest zaś określoną by badanej. W sensie metodologicznym test psychologiczny jest zaś określoną
próbką zachowania, zbieraną poprzez zastosowanie standaryzowanych bodźców, próbką zachowania, zbieraną poprzez zastosowanie standaryzowanych bodźców,
będących po prostu zadaniami czy pytaniami testowymi. Reakcje badanych są będących po prostu zadaniami czy pytaniami testowymi. Reakcje badanych są
więc opisem poszczególnych aspektów zachowania charakteryzującego badaną więc opisem poszczególnych aspektów zachowania charakteryzującego badaną
właściwość – na przykład częstość zachowań ekstrawertywnych w różnych sytu- właściwość – na przykład częstość zachowań ekstrawertywnych w różnych sytu-
12 acjach życiowych (Zawadzki, 2006). 12 acjach życiowych (Zawadzki, 2006).

Określenie „testy psychologiczne” odnosi się do dużej grupy metod, różnią- Określenie „testy psychologiczne” odnosi się do dużej grupy metod, różnią-
cych się między sobą pod względem przedmiotu pomiaru i procedury badania. cych się między sobą pod względem przedmiotu pomiaru i procedury badania.
Ze względu na procedurę badania, możemy podzielić testy na indywidualne, Ze względu na procedurę badania, możemy podzielić testy na indywidualne,
czyli takie, gdzie psycholog bada w danym momencie tylko jedną osobę, oraz czyli takie, gdzie psycholog bada w danym momencie tylko jedną osobę, oraz
grupowe, przy pomocy których naraz bada się więcej osób. Ze względu na przed- grupowe, przy pomocy których naraz bada się więcej osób. Ze względu na przed-
miot pomiaru testy najczęściej dzieli się na testy zdolności oraz kwestionariusze miot pomiaru testy najczęściej dzieli się na testy zdolności oraz kwestionariusze
osobowości, zwane też inwentarzami. Specyfika testu zdolności, w porównaniu osobowości, zwane też inwentarzami. Specyfika testu zdolności, w porównaniu
z kwestionariuszem, polega także na tym, że w teście istnieje jedna dobra odpo- z kwestionariuszem, polega także na tym, że w teście istnieje jedna dobra odpo-
wiedź, natomiast w przypadku kwestionariusza każda wybrana przez badanego wiedź, natomiast w przypadku kwestionariusza każda wybrana przez badanego
odpowiedź jest „dobra”, bo każde natężenie mierzonej cechy ma swoje wady odpowiedź jest „dobra”, bo każde natężenie mierzonej cechy ma swoje wady
i zalety. Wśród testów zdolności wyróżnia się testy inteligencji, testy osiągnięć i zalety. Wśród testów zdolności wyróżnia się testy inteligencji, testy osiągnięć
oraz zdolności. Testy inteligencji mierzą potencjał poznawczy, pozwalający na oraz zdolności. Testy inteligencji mierzą potencjał poznawczy, pozwalający na
rozwiązywanie problemów, efektywną adaptację do zmieniającego się środowi- rozwiązywanie problemów, efektywną adaptację do zmieniającego się środowi-
ska oraz korzystanie z własnych doświadczeń życiowych. Testy zdolności mierzą ska oraz korzystanie z własnych doświadczeń życiowych. Testy zdolności mierzą
potencjał potrzebny, aby opanowywać nowe umiejętności, zaś testy osiągnięć potencjał potrzebny, aby opanowywać nowe umiejętności, zaś testy osiągnięć
mierzą efektywność uczenia się. mierzą efektywność uczenia się.
Laicy często postrzegają badania psychologiczne z wykorzystaniem testów Laicy często postrzegają badania psychologiczne z wykorzystaniem testów
jako technokratyczny, abstrakcyjny i tajemniczy obszar pracy psychologa, a tak- jako technokratyczny, abstrakcyjny i tajemniczy obszar pracy psychologa, a tak-
że mają trudności z odróżnieniem profesjonalnego testu psychologicznego od że mają trudności z odróżnieniem profesjonalnego testu psychologicznego od
drukowanych w prasie popularnych psychozabaw albo dostępnych w Internecie drukowanych w prasie popularnych psychozabaw albo dostępnych w Internecie
„testów” i psychozabaw, mających przykładowo mierzyć asertywność czy po- „testów” i psychozabaw, mających przykładowo mierzyć asertywność czy po-
czucie szczęścia. Co zatem czyni z testu psychologicznego test? Co odróżnia test czucie szczęścia. Co zatem czyni z testu psychologicznego test? Co odróżnia test
psychologiczny od psychozabawy? W jaki sposób można odróżnić test dobry od psychologiczny od psychozabawy? W jaki sposób można odróżnić test dobry od
kiepskiego? kiepskiego?
Amerykańskie Towarzystwo Psychologiczne zdefiniowało w 1994 test psy- Amerykańskie Towarzystwo Psychologiczne zdefiniowało w 1994 test psy-
chologiczny jako specyficzną procedurę diagnozowania. Może ona być zbio- chologiczny jako specyficzną procedurę diagnozowania. Może ona być zbio-
rem zadań lub pytań, które – w standardowych warunkach – mają wywołać rem zadań lub pytań, które – w standardowych warunkach – mają wywołać
określone rodzaje zachowań i dostarczać wyników o pożądanych własnościach określone rodzaje zachowań i dostarczać wyników o pożądanych własnościach
psychometrycznych, czyli posiadających wysoką rzetelność i wysoką trafność psychometrycznych, czyli posiadających wysoką rzetelność i wysoką trafność
pomiaru. Wyniki te są interpretowane w odniesieniu do norm opracowanych dla pomiaru. Wyniki te są interpretowane w odniesieniu do norm opracowanych dla
populacji, z której pochodzi osoba badana. Należy podkreślić, że własności psy- populacji, z której pochodzi osoba badana. Należy podkreślić, że własności psy-
chometryczne testu to w istocie własności procedury badania z użyciem testu, chometryczne testu to w istocie własności procedury badania z użyciem testu,
czyli pomiaru testowego, a nie – testu jako takiego. Szczegółowemu omówieniu czyli pomiaru testowego, a nie – testu jako takiego. Szczegółowemu omówieniu
wszystkich własności pomiaru testowego są poświęcone poszczególne rozdziały wszystkich własności pomiaru testowego są poświęcone poszczególne rozdziały
niniejszego podręcznika, dalej opisano pokrótce, co kryje się za poszczególnymi niniejszego podręcznika, dalej opisano pokrótce, co kryje się za poszczególnymi
terminami. terminami.
Należy pamiętać, że na test psychologiczny, oprócz samego materiału testowe- Należy pamiętać, że na test psychologiczny, oprócz samego materiału testowe-
go (arkusza czy książeczki z pytaniami, na które odpowiada badany lub stwier- go (arkusza czy książeczki z pytaniami, na które odpowiada badany lub stwier-
dzeniami, do których się ustosunkowuje), składają się także podręcznik testowy dzeniami, do których się ustosunkowuje), składają się także podręcznik testowy
i klucz. Podręcznik testowy to opracowanie zawierające ważne informacje do- i klucz. Podręcznik testowy to opracowanie zawierające ważne informacje do-
tyczące testu – jego podłoże teoretyczne, dane na temat rzetelności i trafności, tyczące testu – jego podłoże teoretyczne, dane na temat rzetelności i trafności,
opis procedury badania oraz normy. Wnikliwa lektura podręcznika powinna być 13 opis procedury badania oraz normy. Wnikliwa lektura podręcznika powinna być 13

zawsze pierwszym krokiem psychologa, poprzedzającym zastosowanie testu zawsze pierwszym krokiem psychologa, poprzedzającym zastosowanie testu
w diagnozie. Klucz z kolei zawiera precyzującą informację o poprawnych lub w diagnozie. Klucz z kolei zawiera precyzującą informację o poprawnych lub
diagnostycznych (świadczących o natężeniu badanej cechy) odpowiedziach. diagnostycznych (świadczących o natężeniu badanej cechy) odpowiedziach.
1.1.1. Rzetelność pomiaru testem 1.1.1. Rzetelność pomiaru testem

Rzetelność pomiaru testem psychologicznym jest właściwością opisującą do- Rzetelność pomiaru testem psychologicznym jest właściwością opisującą do-
kładność pomiaru (spójność wyników) uzyskanych przy użyciu tego narzędzia. kładność pomiaru (spójność wyników) uzyskanych przy użyciu tego narzędzia.
Test dający rzetelny pomiar to (w pewnym uproszczeniu) taki, który daje takie Test dający rzetelny pomiar to (w pewnym uproszczeniu) taki, który daje takie
same wyniki, gdy przebadamy nim ludzi dwukrotnie, albo jeśli badanie jego al- same wyniki, gdy przebadamy nim ludzi dwukrotnie, albo jeśli badanie jego al-
ternatywnymi formami (testami mierzącymi tę samą cechę, ale przy użyciu in- ternatywnymi formami (testami mierzącymi tę samą cechę, ale przy użyciu in-
nych pytań/zadań testowych) prowadzi do uzyskania takich samych wyników. nych pytań/zadań testowych) prowadzi do uzyskania takich samych wyników.
Dbałość o satysfakcjonujący poziom rzetelności pomiaru testem jest podstawo- Dbałość o satysfakcjonujący poziom rzetelności pomiaru testem jest podstawo-
wym, aczkolwiek niewystarczającym warunkiem, który musi być spełniony, aby wym, aczkolwiek niewystarczającym warunkiem, który musi być spełniony, aby
test mógł być uznany za narzędzie pomiarowe dobrze spełniające swoją funk- test mógł być uznany za narzędzie pomiarowe dobrze spełniające swoją funk-
cję. Informacja o wysokiej precyzji pomiaru, czyli dobrej rzetelności pomiaru cję. Informacja o wysokiej precyzji pomiaru, czyli dobrej rzetelności pomiaru
testem, nie oznacza bowiem, że autorowi testu udało się rzeczywiście stworzyć testem, nie oznacza bowiem, że autorowi testu udało się rzeczywiście stworzyć
instrument mierzący tę zmienną, o którą mu chodziło. Informacją o tym, czy test instrument mierzący tę zmienną, o którą mu chodziło. Informacją o tym, czy test
rzeczywiście mierzy interesującą zmienną (np. inteligencję) czy też inną charak- rzeczywiście mierzy interesującą zmienną (np. inteligencję) czy też inną charak-
terystykę (np. spostrzegawczość osoby badanej) jest trafność pomiaru testem. terystykę (np. spostrzegawczość osoby badanej) jest trafność pomiaru testem.
1.1.2. Trafność pomiaru testem 1.1.2. Trafność pomiaru testem

Trafność pomiaru testem informuje o tym, czy test rzeczywiście mierzy za- Trafność pomiaru testem informuje o tym, czy test rzeczywiście mierzy za-
kładaną zmienną, a w konsekwencji – jak dobrze spełnia on swoją funkcję. Jest kładaną zmienną, a w konsekwencji – jak dobrze spełnia on swoją funkcję. Jest
to kluczowe dla praktycznego wykorzystania testów i wpływa na zakres możli- to kluczowe dla praktycznego wykorzystania testów i wpływa na zakres możli-
wych interpretacji wyników testowych. Przykładowo: trafność informuje o tym, wych interpretacji wyników testowych. Przykładowo: trafność informuje o tym,
czy przy użyciu danego testu inteligencji możemy przywidywać powodzenie ba- czy przy użyciu danego testu inteligencji możemy przywidywać powodzenie ba-
danego na studiach. Jednocześnie, z uwagi na mnogość możliwych zastosowań danego na studiach. Jednocześnie, z uwagi na mnogość możliwych zastosowań
testu, sama „trafność pomiaru testem” może być różnie definiowana (Murphy testu, sama „trafność pomiaru testem” może być różnie definiowana (Murphy
i Davidshofer, 2005). W praktyce trafność pomiaru testem sprowadza się do i Davidshofer, 2005). W praktyce trafność pomiaru testem sprowadza się do
dwóch kwestii – tego, jakie wnioski można wyciągnąć na temat zmiennych mie- dwóch kwestii – tego, jakie wnioski można wyciągnąć na temat zmiennych mie-
rzonych przez test oraz tego, co na podstawie wyników testowych można wnio- rzonych przez test oraz tego, co na podstawie wyników testowych można wnio-
skować o zachowaniach badanego w realnym życiu (Hornowska, 2002). skować o zachowaniach badanego w realnym życiu (Hornowska, 2002).
Jako że testy psychologiczne mają pozwalać na formułowanie wniosków na te- Jako że testy psychologiczne mają pozwalać na formułowanie wniosków na te-
mat rzeczywistego zachowania osób badanych w realnym życiu, a nie ograniczać mat rzeczywistego zachowania osób badanych w realnym życiu, a nie ograniczać
się do diagnozowania, trafność pomiaru testem jest uznawana za najważniejszą się do diagnozowania, trafność pomiaru testem jest uznawana za najważniejszą
charakterystykę testu psychologicznego. Innymi słowy – trafność pomiaru te- charakterystykę testu psychologicznego. Innymi słowy – trafność pomiaru te-
stem jest właściwością opisująca adekwatność pomiaru w porównaniu z funkcjo- stem jest właściwością opisująca adekwatność pomiaru w porównaniu z funkcjo-
nowaniem w życiu, a więc trafność pomiaru testowego to faktyczna sensowność nowaniem w życiu, a więc trafność pomiaru testowego to faktyczna sensowność
14 interpretacji wyników testowych. 14 interpretacji wyników testowych.

1.1.3. Standaryzacja 1.1.3. Standaryzacja
Pojęcie standaryzacji odnosi się do warunków badania testem, a konkretnie – Pojęcie standaryzacji odnosi się do warunków badania testem, a konkretnie –
do zapewnienia, że każdorazowo stosowana procedura jest identyczna z opisaną do zapewnienia, że każdorazowo stosowana procedura jest identyczna z opisaną
w podręczniku testowym. Chodzi tu zarówno o to, żeby badania nie zakłócały w podręczniku testowym. Chodzi tu zarówno o to, żeby badania nie zakłócały
żadne dystraktory (np. hałas, pojawienie się niepożądanych osób trzecich, złe żadne dystraktory (np. hałas, pojawienie się niepożądanych osób trzecich, złe
oświetlenie), jak i o to, aby używany materiał testowy był zawsze taki sam, co oświetlenie), jak i o to, aby używany materiał testowy był zawsze taki sam, co
jest oczywiście najważniejsze w przypadku testów wykonaniowych (na przy- jest oczywiście najważniejsze w przypadku testów wykonaniowych (na przy-
kład, gdy badany ma za zadanie ułożenie układanki, przed badaniem psycholog kład, gdy badany ma za zadanie ułożenie układanki, przed badaniem psycholog
musi upewnić się, że jej elementy nie zostały uszkodzone w dotychczasowych musi upewnić się, że jej elementy nie zostały uszkodzone w dotychczasowych
badaniach). badaniach).
Procedura badania testem jest wyczerpująco opisana w podręczniku do danego Procedura badania testem jest wyczerpująco opisana w podręczniku do danego
testu. Znajdziemy tam informacje o tym, czy badanie ma charakter indywidualny testu. Znajdziemy tam informacje o tym, czy badanie ma charakter indywidualny
czy grupowy, czy ma ono być prowadzone z ograniczeniem czasowym czy też czy grupowy, czy ma ono być prowadzone z ograniczeniem czasowym czy też
bez niego, czy osoba badana ma możliwość powrotu do wcześniejszych zadań, bez niego, czy osoba badana ma możliwość powrotu do wcześniejszych zadań,
w jakim zakresie psycholog jest uprawniony do udzielania pomocy badanemu w jakim zakresie psycholog jest uprawniony do udzielania pomocy badanemu
i inne wskazówki dotyczące przeprowadzania badania danym narzędziem. i inne wskazówki dotyczące przeprowadzania badania danym narzędziem.
Standaryzacja jest ważna z tego względu, że tylko wtedy, gdy przestrzega- Standaryzacja jest ważna z tego względu, że tylko wtedy, gdy przestrzega-
na jest jednolitość warunków testowania badanych, różnice w wynikach można na jest jednolitość warunków testowania badanych, różnice w wynikach można
przypisywać różnicom indywidualnym, a nie warunkom testowania. Aby lepiej przypisywać różnicom indywidualnym, a nie warunkom testowania. Aby lepiej
zrozumieć konsekwencje nieprzestrzegania standardowej procedury badania, zrozumieć konsekwencje nieprzestrzegania standardowej procedury badania,
wyobraźmy sobie następującą, przerysowaną sytuację. Psycholog miał porównać wyobraźmy sobie następującą, przerysowaną sytuację. Psycholog miał porównać
inteligencję Jasia i Małgosi. Jaś był badany około południa, w dobrze oświetlo- inteligencję Jasia i Małgosi. Jaś był badany około południa, w dobrze oświetlo-
nym, cichym pomieszczeniu, natomiast Małgosia – po całym dniu pracy, oko- nym, cichym pomieszczeniu, natomiast Małgosia – po całym dniu pracy, oko-
ło godziny 21.00, w pokoju, gdzie w denerwujący sposób migała jarzeniówka, ło godziny 21.00, w pokoju, gdzie w denerwujący sposób migała jarzeniówka,
a przez cały czas trwania badania zza okna dochodził odgłos alarmu samocho- a przez cały czas trwania badania zza okna dochodził odgłos alarmu samocho-
dowego. Załóżmy, że Małgosia otrzymała wynik wskazujący na niższy poziom dowego. Załóżmy, że Małgosia otrzymała wynik wskazujący na niższy poziom
inteligencji niż Jaś. Czy taki rezultat jest miarodajny? Czy rzeczywiście wskazuje inteligencji niż Jaś. Czy taki rezultat jest miarodajny? Czy rzeczywiście wskazuje
on na niższe zdolności poznawcze Małgosi, czy jedynie na gorsze warunki ba- on na niższe zdolności poznawcze Małgosi, czy jedynie na gorsze warunki ba-
dania? Niestety, w takiej sytuacji nie da się tego rozstrzygnąć i tym samym nie dania? Niestety, w takiej sytuacji nie da się tego rozstrzygnąć i tym samym nie
można porównywać wyników obu badań. Podobny problem występuje w sytu- można porównywać wyników obu badań. Podobny problem występuje w sytu-
acji, gdy sposób badania odbiega od tego, któremu poddana była próba norma- acji, gdy sposób badania odbiega od tego, któremu poddana była próba norma-
lizacyjna (na przykład psycholog podzielił długi test na dwie części i spotkał lizacyjna (na przykład psycholog podzielił długi test na dwie części i spotkał
się z badanym dwukrotnie, zamiast jednorazowo, jak informował podręcznik). się z badanym dwukrotnie, zamiast jednorazowo, jak informował podręcznik).
Tracimy wówczas możliwość odnoszenia wyniku uzyskanego przez osobę bada- Tracimy wówczas możliwość odnoszenia wyniku uzyskanego przez osobę bada-
ną do podanych norm i tym samym – możliwość porównania z grupą odniesienia ną do podanych norm i tym samym – możliwość porównania z grupą odniesienia
(Hornowska, 2002). (Hornowska, 2002).
Aby możliwe było porównywanie wyników różnych osób psycholog-diagno- Aby możliwe było porównywanie wyników różnych osób psycholog-diagno-
sta zobowiązany jest do dokładnego zapoznania się z procedurą badania testem, sta zobowiązany jest do dokładnego zapoznania się z procedurą badania testem,
opisaną w podręczniku testowym i do skrupulatnego jej przestrzegania. 15 opisaną w podręczniku testowym i do skrupulatnego jej przestrzegania. 15

1.1.4. Normy 1.1.4. Normy
Normy dla testu, pozwalają na nadawanie sensu wynikom testowym poszcze- Normy dla testu, pozwalają na nadawanie sensu wynikom testowym poszcze-
gólnych osób badanych, poprzez porównywanie ich z wynikami uzyskanymi gólnych osób badanych, poprzez porównywanie ich z wynikami uzyskanymi
przez populację odniesienia. Wynik surowy uzyskany przez osobę badaną w te- przez populację odniesienia. Wynik surowy uzyskany przez osobę badaną w te-
ście (suma punktów odpowiedzi poprawnych lub diagnostycznych) jest zupełnie ście (suma punktów odpowiedzi poprawnych lub diagnostycznych) jest zupełnie
bezużyteczny, gdyż sam w sobie nie jest możliwy do zinterpretowania. Ilościowa bezużyteczny, gdyż sam w sobie nie jest możliwy do zinterpretowania. Ilościowa
interpretacja wyniku testu psychologicznego odbywa się poprzez porównanie go interpretacja wyniku testu psychologicznego odbywa się poprzez porównanie go
z rozkładem wyników próby normalizacyjnej. Ten sam wynik może być oczy- z rozkładem wyników próby normalizacyjnej. Ten sam wynik może być oczy-
wiście porównywany z różnymi grupami odniesienia, prowadząc do innych in- wiście porównywany z różnymi grupami odniesienia, prowadząc do innych in-
terpretacji. Przykładowo na podstawie danych normalizacyjnych, zamieszczo- terpretacji. Przykładowo na podstawie danych normalizacyjnych, zamieszczo-
nych w podręczniku testowym, wynik pewnego badanego w skali Sumienności nych w podręczniku testowym, wynik pewnego badanego w skali Sumienności
inwentarza NEO-PI-R (Siuta, 2006) może być oceniony jako wynik wysoki na inwentarza NEO-PI-R (Siuta, 2006) może być oceniony jako wynik wysoki na
tle populacji ogólnej. Jednak ten sam wynik może okazać się przeciętny na tle tle populacji ogólnej. Jednak ten sam wynik może okazać się przeciętny na tle
wyników biegłych księgowych. wyników biegłych księgowych.
W celu uniknięcia nieporozumień, należy dobrze zrozumieć pojęcie normy. W celu uniknięcia nieporozumień, należy dobrze zrozumieć pojęcie normy.
W sensie psychometrycznym „norma” opisuje jedynie typowy poziom wykona- W sensie psychometrycznym „norma” opisuje jedynie typowy poziom wykona-
nia, określony albo na podstawie tego, jaki odsetek osób w grupie odniesienia nia, określony albo na podstawie tego, jaki odsetek osób w grupie odniesienia
uzyskał określone wyniki, albo na podstawie średniej wartości oszacowanej dla uzyskał określone wyniki, albo na podstawie średniej wartości oszacowanej dla
przedstawicieli danej grupy. Tak rozumiana norma nie odnosi się do tego, czy przedstawicieli danej grupy. Tak rozumiana norma nie odnosi się do tego, czy
dane natężenie cechy świadczy o zdrowiu czy chorobie, ani nie wyznacza stan- dane natężenie cechy świadczy o zdrowiu czy chorobie, ani nie wyznacza stan-
dardu „prawidłowego” czy „dobrego” wykonania. dardu „prawidłowego” czy „dobrego” wykonania.
1.1.5. Obiektywność 1.1.5. Obiektywność

Pojęcie obiektywności testu sprowadza się do tego, że uzyskany przez bada- Pojęcie obiektywności testu sprowadza się do tego, że uzyskany przez bada-
nego wynik w teście nie zależy w żaden sposób od tego, kto test przeprowadzał. nego wynik w teście nie zależy w żaden sposób od tego, kto test przeprowadzał.
Gdyby zatem dwóch różnych psychologów przeprowadzało badanie tym samym Gdyby zatem dwóch różnych psychologów przeprowadzało badanie tym samym
testem tej samej osoby lub oceniało ten sam protokół z badania testowego, to testem tej samej osoby lub oceniało ten sam protokół z badania testowego, to
powinni oni w dokładnie taki sam sposób wykonać badanie oraz ocenić wyniki powinni oni w dokładnie taki sam sposób wykonać badanie oraz ocenić wyniki
badanego. W konsekwencji powinni oni dojść do takich samych wniosków dia- badanego. W konsekwencji powinni oni dojść do takich samych wniosków dia-
gnostycznych. gnostycznych.
Nie wszystkie powyższe własności są własnościami testu samego w sobie Nie wszystkie powyższe własności są własnościami testu samego w sobie
i niekoniecznie mogą być łatwo ocenione na pierwszy rzut oka. Po czym zatem i niekoniecznie mogą być łatwo ocenione na pierwszy rzut oka. Po czym zatem
poznać profesjonalny test psychologiczny? Po pierwsze, test zawiera informację poznać profesjonalny test psychologiczny? Po pierwsze, test zawiera informację
o tym, kto jest jego autorem, a w przypadku testów adaptowanych do warunków o tym, kto jest jego autorem, a w przypadku testów adaptowanych do warunków
polskich – także kto jest autorem adaptacji. Poza tym test, w odróżnieniu od polskich – także kto jest autorem adaptacji. Poza tym test, w odróżnieniu od
psychozabawy czy quizu, ma, oprócz samego materiału testowego, dodatkowe psychozabawy czy quizu, ma, oprócz samego materiału testowego, dodatkowe
elementy, spośród których najważniejszy jest podręcznik testowy, zawierający elementy, spośród których najważniejszy jest podręcznik testowy, zawierający
informacje, m.in. o teorii leżącej u jego podstaw, oszacowaniach rzetelności informacje, m.in. o teorii leżącej u jego podstaw, oszacowaniach rzetelności
i wielkościach standardowego błędu pomiaru, badaniach trafności narzędzia, i wielkościach standardowego błędu pomiaru, badaniach trafności narzędzia,
16 próbie normalizacyjnej, procedurze badania i obliczania wyników. W przypadku 16 próbie normalizacyjnej, procedurze badania i obliczania wyników. W przypadku

testu psychologicznego użytkownik korzysta z gotowych pomocy testowych – testu psychologicznego użytkownik korzysta z gotowych pomocy testowych –
arkuszy zadań i arkuszy odpowiedzi. Dodatkowo należy pamiętać, że testy psy- arkuszy zadań i arkuszy odpowiedzi. Dodatkowo należy pamiętać, że testy psy-
chologiczne podlegają ochronie prawnej i nie mogą być rozpowszechniane dla chologiczne podlegają ochronie prawnej i nie mogą być rozpowszechniane dla
zabawy, czyli drukowane w prasie czy zamieszczane w Internecie (Standardy, zabawy, czyli drukowane w prasie czy zamieszczane w Internecie (Standardy,
2007). 2007).
Test psychologiczny to specyficzna procedura diagnozowania ukrytych zmiennych Test psychologiczny to specyficzna procedura diagnozowania ukrytych zmiennych
w oparciu o próbki zachowania, która odbywa się w standardowych warunkach, cha- w oparciu o próbki zachowania, która odbywa się w standardowych warunkach, cha-
rakteryzuje ją obiektywność, rzetelność i trafność pomiaru, a otrzymany wynik jest rakteryzuje ją obiektywność, rzetelność i trafność pomiaru, a otrzymany wynik jest
interpretowany w oparciu o normy. interpretowany w oparciu o normy.
1.2. Testy jako narzędzia diagnostyczne 1.2. Testy jako narzędzia diagnostyczne
Test psychologiczny to jedna z metod służących diagnozowaniu psychologicz- Test psychologiczny to jedna z metod służących diagnozowaniu psychologicz-
nemu. Przez diagnozę najczęściej rozumie się proces aktywnego poszukiwania nemu. Przez diagnozę najczęściej rozumie się proces aktywnego poszukiwania
danych potrzebnych do podjęcia decyzji o działaniach, zmierzających do zmia- danych potrzebnych do podjęcia decyzji o działaniach, zmierzających do zmia-
ny aktualnego stanu lub położenia psychospołecznego ludzi, co może nastąpić ny aktualnego stanu lub położenia psychospołecznego ludzi, co może nastąpić
na przykład w efekcie terapii czy porady (Paluchowski, 2006). Użycie testu po- na przykład w efekcie terapii czy porady (Paluchowski, 2006). Użycie testu po-
winno być zatem zawsze postrzegane w szerszym kontekście diagnostycznym. winno być zatem zawsze postrzegane w szerszym kontekście diagnostycznym.
Diagnozowanie na podstawie uzyskanych przez badanego wyników testowych Diagnozowanie na podstawie uzyskanych przez badanego wyników testowych
wymaga zarówno wiedzy z zakresu psychometrii, jak i fachowych umiejętności wymaga zarówno wiedzy z zakresu psychometrii, jak i fachowych umiejętności
zastosowania jej w praktyce. Zbieranie informacji w procesie diagnostycznym to zastosowania jej w praktyce. Zbieranie informacji w procesie diagnostycznym to
żmudny i skomplikowany proces, w którym szczególnie istotne są następujące żmudny i skomplikowany proces, w którym szczególnie istotne są następujące
kroki: kroki:
1. Właściwe zdefiniowanie natury problemu i, co za tym idzie, pytań diagno- 1. Właściwe zdefiniowanie natury problemu i, co za tym idzie, pytań diagno-
stycznych, na które należy znaleźć odpowiedź. stycznych, na które należy znaleźć odpowiedź.
2. Zdecydowanie, jakie informacje są niezbędne, aby udzielić odpowiedzi na 2. Zdecydowanie, jakie informacje są niezbędne, aby udzielić odpowiedzi na
pytania diagnostyczne. pytania diagnostyczne.
3. Wybór odpowiedniej metody zbierania informacji, w tym m.in.: testów psy- 3. Wybór odpowiedniej metody zbierania informacji, w tym m.in.: testów psy-
chologicznych, wywiadów, obserwacji czy ankiet. chologicznych, wywiadów, obserwacji czy ankiet.
4. Odpowiednie przeprowadzenie i ocena wyników procedury testowej. 4. Odpowiednie przeprowadzenie i ocena wyników procedury testowej.
5. Wyczerpująca interpretacja uzyskanych wyników. 5. Wyczerpująca interpretacja uzyskanych wyników.
6. Połączenie interpretacji wyników oraz danych pozatekstowych, tak aby po- 6. Połączenie interpretacji wyników oraz danych pozatekstowych, tak aby po-
wstała pełna diagnoza psychologiczna, odpowiadająca na postawione pytania wstała pełna diagnoza psychologiczna, odpowiadająca na postawione pytania
diagnostyczne. diagnostyczne.
7. Poinformowanie klienta o wynikach (APA, 2000). 7. Poinformowanie klienta o wynikach (APA, 2000).
Testy psychologiczne są narzędziami rejestrującymi fakty psychologiczne Testy psychologiczne są narzędziami rejestrującymi fakty psychologiczne
z życia jednostki, odnoszące się do informacji o zachowaniu – albo typowym, z życia jednostki, odnoszące się do informacji o zachowaniu – albo typowym,
z czym mamy najczęściej do czynienia w sytuacji pomiaru cech lub chwilowym, z czym mamy najczęściej do czynienia w sytuacji pomiaru cech lub chwilowym,
kiedy mierzymy stany. Stwierdzenie, że testy mierzą cechy czy stany jest pew- kiedy mierzymy stany. Stwierdzenie, że testy mierzą cechy czy stany jest pew-
nym skrótem myślowym. W rzeczywistości testy mierzą jedynie zachowanie i na 17 nym skrótem myślowym. W rzeczywistości testy mierzą jedynie zachowanie i na 17

tej podstawie pozwalają wnioskować o ukrytych własnościach psychicznych, tej podstawie pozwalają wnioskować o ukrytych własnościach psychicznych,
czyli właśnie o cechach czy stanach (Zawadzki, 2006). czyli właśnie o cechach czy stanach (Zawadzki, 2006).
Testy mogą być wykorzystywane zarówno do pomiaru „zdrowego” zachowa- Testy mogą być wykorzystywane zarówno do pomiaru „zdrowego” zachowa-
nia, jak i jego zaburzeń. Pomiar testowy dostarcza informacji na temat natężenia nia, jak i jego zaburzeń. Pomiar testowy dostarcza informacji na temat natężenia
mierzonej zmiennej. Mimo to, niekiedy na podstawie wyników badań testowych mierzonej zmiennej. Mimo to, niekiedy na podstawie wyników badań testowych
można pogrupować ludzi, na przykład, pod względem określonych typów, czy- można pogrupować ludzi, na przykład, pod względem określonych typów, czy-
li z uwzględnieniem nie pojedynczych cech, lecz określonej ich konfiguracji. li z uwzględnieniem nie pojedynczych cech, lecz określonej ich konfiguracji.
Ponadto, w niektórych przypadkach, wyniki testu mogą posłużyć diagnozie ja- Ponadto, w niektórych przypadkach, wyniki testu mogą posłużyć diagnozie ja-
kościowej. kościowej.
Idea badania wybranych charakterystyk psychologicznych za pomocą testów Idea badania wybranych charakterystyk psychologicznych za pomocą testów
wywodzi się z obszaru psychologii różnic indywidualnych, zajmującej się zróż- wywodzi się z obszaru psychologii różnic indywidualnych, zajmującej się zróż-
nicowaniem między ludźmi w zakresie takich zmiennych, jak inteligencja czy ce- nicowaniem między ludźmi w zakresie takich zmiennych, jak inteligencja czy ce-
chy osobowościowe. Takie podejście opisuje specyfikę danej osoby na tle innych chy osobowościowe. Takie podejście opisuje specyfikę danej osoby na tle innych
osób pochodzących z populacji, zatem celem pomiaru staje się zbadanie wza- osób pochodzących z populacji, zatem celem pomiaru staje się zbadanie wza-
jemnego zróżnicowania ludzi pod względem interesującej cechy. Istnieją dwa jemnego zróżnicowania ludzi pod względem interesującej cechy. Istnieją dwa
różne podejścia – nomotetyczne i idiograficzne, które na taki opis pozwalają. różne podejścia – nomotetyczne i idiograficzne, które na taki opis pozwalają.
Podejście idiograficzne stawia sobie za cel opisanie jednostki poprzez scharak- Podejście idiograficzne stawia sobie za cel opisanie jednostki poprzez scharak-
teryzowanie cech typowych tylko dla niej i odróżniających ją od innych ludzi. teryzowanie cech typowych tylko dla niej i odróżniających ją od innych ludzi.
Z kolei podejście nomotetyczne odwołuje się przy opisie do cech, które charakte- Z kolei podejście nomotetyczne odwołuje się przy opisie do cech, które charakte-
ryzują wszystkie osoby w określonej populacji, zaś zróżnicowanie istnieje tylko ryzują wszystkie osoby w określonej populacji, zaś zróżnicowanie istnieje tylko
w zakresie ich natężenia. Obydwa te podejścia – nomotetyczne i idiograficzne w zakresie ich natężenia. Obydwa te podejścia – nomotetyczne i idiograficzne
– wypracowały swoje własne narzędzia, które pozwalają na określenie specyfiki – wypracowały swoje własne narzędzia, które pozwalają na określenie specyfiki
jednostki. Narzędziami typowymi dla podejścia nomotetycznego są metody stan- jednostki. Narzędziami typowymi dla podejścia nomotetycznego są metody stan-
dardowe – testy i kwestionariusze (Zawadzki, 2006). To właśnie im poświęcona dardowe – testy i kwestionariusze (Zawadzki, 2006). To właśnie im poświęcona
jest ta książka. Z kolei podejście idiograficzne wykorzystuje techniki projekcyj- jest ta książka. Z kolei podejście idiograficzne wykorzystuje techniki projekcyj-
ne, którymi nie będziemy się dalej zajmowali1. ne, którymi nie będziemy się dalej zajmowali1.
Czasami zdarza się, że testy psychologiczne są błędnie utożsamiane z ankie- Czasami zdarza się, że testy psychologiczne są błędnie utożsamiane z ankie-
tami. Zasadnicza różnica między tymi narzędziami polega na tym, że pozycje tami. Zasadnicza różnica między tymi narzędziami polega na tym, że pozycje
ankiet nie tworzą całych skal, tak jak dzieje się w przypadku testów. Używając ankiet nie tworzą całych skal, tak jak dzieje się w przypadku testów. Używając
testu, wnioskujemy o natężeniu cechy, na przykład ekstrawersji na podstawie testu, wnioskujemy o natężeniu cechy, na przykład ekstrawersji na podstawie
łącznych odpowiedzi na wszystkie pytania, w przypadku ankiety – na podstawie łącznych odpowiedzi na wszystkie pytania, w przypadku ankiety – na podstawie
poszczególnych pytań rozpatrywanych jako miary osobnych zmiennych. Ponadto poszczególnych pytań rozpatrywanych jako miary osobnych zmiennych. Ponadto
najczęściej (choć nie jest to zasadą) ankiety, w odróżnieniu od testów psycholo- najczęściej (choć nie jest to zasadą) ankiety, w odróżnieniu od testów psycholo-
gicznych, dostarczają informacji o populacjach, a nie o jednostkach. gicznych, dostarczają informacji o populacjach, a nie o jednostkach.
Stosując testy w diagnozie, należy pamiętać o ograniczeniach tej metody. Po Stosując testy w diagnozie, należy pamiętać o ograniczeniach tej metody. Po
pierwsze, test psychologiczny nie jest wyczerpującą miarą wszystkich możliwych pierwsze, test psychologiczny nie jest wyczerpującą miarą wszystkich możliwych
zachowań, których zbadanie może być pomocne w ocenie interesującej diagno- zachowań, których zbadanie może być pomocne w ocenie interesującej diagno-
stę zmiennej, jakkolwiek test, jako systematyczna próbka zachowań, z reguły stę zmiennej, jakkolwiek test, jako systematyczna próbka zachowań, z reguły
przynajmniej w przybliżeniu ma rejestrować zachowania składające się na ten przynajmniej w przybliżeniu ma rejestrować zachowania składające się na ten
1 1
O technikach projekcyjnych przeczyta Czytelnik chociażby w podręczniku: Anastasi A., Urbina S. O technikach projekcyjnych przeczyta Czytelnik chociażby w podręczniku: Anastasi A., Urbina S.
(1999); Testy psychologiczne, Warszawa, Pracownia Testów Psychologicznych Polskiego Towarzystwa (1999); Testy psychologiczne, Warszawa, Pracownia Testów Psychologicznych Polskiego Towarzystwa
18 Psychologicznego. 18 Psychologicznego.

konstrukt. Jakość testu jako narzędzia pomiarowego jest w dużej mierze determi- konstrukt. Jakość testu jako narzędzia pomiarowego jest w dużej mierze determi-
nowana przez stopień reprezentatywności użytej przez autora próbki zachowań. nowana przez stopień reprezentatywności użytej przez autora próbki zachowań.
Obecnie obserwuje się szerokie zainteresowanie testami psychologicznymi. Obecnie obserwuje się szerokie zainteresowanie testami psychologicznymi.
Jednocześnie wokół stosowania testów nagromadziło się dość dużo kontrowersji, Jednocześnie wokół stosowania testów nagromadziło się dość dużo kontrowersji,
które wynikają z tego, że na podstawie wyników testowych podejmowanie są które wynikają z tego, że na podstawie wyników testowych podejmowanie są
ważne decyzje dotyczące ludzkiego życia (Murphy i Davidshofer, 2005). Jako ważne decyzje dotyczące ludzkiego życia (Murphy i Davidshofer, 2005). Jako
główne obszary praktycznego wykorzystania testów wymienia się zwykle edu- główne obszary praktycznego wykorzystania testów wymienia się zwykle edu-
kację, rynek pracy, sądownictwo oraz praktykę kliniczną. W szkolnictwie testy kację, rynek pracy, sądownictwo oraz praktykę kliniczną. W szkolnictwie testy
najczęściej wykorzystywane są w celach selekcyjnych (na przykład by orzec, czy najczęściej wykorzystywane są w celach selekcyjnych (na przykład by orzec, czy
zachodzi potrzeba podjęcia przez danego ucznia kształcenia specjalnego, skiero- zachodzi potrzeba podjęcia przez danego ucznia kształcenia specjalnego, skiero-
wania go do programu nauczania indywidualnego lub na zajęcia rewalidacyjno- wania go do programu nauczania indywidualnego lub na zajęcia rewalidacyjno-
wychowawcze), aby określić możliwości rozwojowe i potencjał dziecka, czy też wychowawcze), aby określić możliwości rozwojowe i potencjał dziecka, czy też
ocenić rodzaj zaburzeń i odchyleń rozwojowych oraz sformułować zalecenia do ocenić rodzaj zaburzeń i odchyleń rozwojowych oraz sformułować zalecenia do
dalszej pracy z dzieckiem (Szustrowa, 2003). W sądownictwie testy wykorzysty- dalszej pracy z dzieckiem (Szustrowa, 2003). W sądownictwie testy wykorzysty-
wane są do orzekania o stanie psychicznym oskarżonych czy też o stopniu przy- wane są do orzekania o stanie psychicznym oskarżonych czy też o stopniu przy-
stosowania społecznego. Testy znajdują zastosowanie także w celu określenia, kto stosowania społecznego. Testy znajdują zastosowanie także w celu określenia, kto
będzie najlepszym opiekunem dziecka w przypadku rodziców rozwiedzionych będzie najlepszym opiekunem dziecka w przypadku rodziców rozwiedzionych
lub gdy zachodzi podejrzenie niewłaściwego sprawowania opieki rodzicielskiej. lub gdy zachodzi podejrzenie niewłaściwego sprawowania opieki rodzicielskiej.
Na rynku pracy testy najczęściej wykorzystuje się w selekcji pracowników, przy Na rynku pracy testy najczęściej wykorzystuje się w selekcji pracowników, przy
ocenie efektywności programów szkoleniowych oraz przy ocenie pracowniczej. ocenie efektywności programów szkoleniowych oraz przy ocenie pracowniczej.
Klinicyści korzystają z testów w celu diagnozy zaburzeń, wyboru odpowiedniej Klinicyści korzystają z testów w celu diagnozy zaburzeń, wyboru odpowiedniej
metody terapeutycznej oraz oceny jej skuteczności. metody terapeutycznej oraz oceny jej skuteczności.
Mimo że wymienione powyżej cztery obszary traktuje się jako główne dzie- Mimo że wymienione powyżej cztery obszary traktuje się jako główne dzie-
dziny wykorzystujące testy w praktyce, to w opracowanym przez Szustrową dziny wykorzystujące testy w praktyce, to w opracowanym przez Szustrową
(2003) Raporcie o stanie orzecznictwa psychologicznego w Polsce wymieniono (2003) Raporcie o stanie orzecznictwa psychologicznego w Polsce wymieniono
aż 26 obszarów praktyki psychologicznej, w których spotkać można się z orzecz- aż 26 obszarów praktyki psychologicznej, w których spotkać można się z orzecz-
nictwem psychologicznym, czyli działaniami zawodowymi psychologa, polega- nictwem psychologicznym, czyli działaniami zawodowymi psychologa, polega-
jącymi na formułowaniu – na podstawie wyników badań psychologicznych – sa- jącymi na formułowaniu – na podstawie wyników badań psychologicznych – sa-
modzielnych orzeczeń i opinii psychologicznych, czyli potencjalnie opartych na modzielnych orzeczeń i opinii psychologicznych, czyli potencjalnie opartych na
wynikach badań testowych. wynikach badań testowych.
O czym należy zawsze pamiętać stosując testy psychologiczne: O czym należy zawsze pamiętać stosując testy psychologiczne:
1 Diagnoza ma na celu poznanie i zrozumienie klienta. 1 Diagnoza ma na celu poznanie i zrozumienie klienta.
2 Użycie testu jest jednym z elementów procesu diagnostycznego. 2 Użycie testu jest jednym z elementów procesu diagnostycznego.
3 Diagnozowanie też w jakimś sensie jest interwencją, mogącą mieć konsekwencje 3 Diagnozowanie też w jakimś sensie jest interwencją, mogącą mieć konsekwencje
dla osoby badanej. dla osoby badanej.
4 Testy psychologiczne to nic innego jak metody dostarczające małych próbek zacho- 4 Testy psychologiczne to nic innego jak metody dostarczające małych próbek zacho-
wania, które powinny być adekwatnie dobrane ze względu na przedmiot pomiaru. wania, które powinny być adekwatnie dobrane ze względu na przedmiot pomiaru.
5 Wykorzystanie testu zawsze powinna poprzedzić refleksja „dlaczego” i „kiedy” go 5 Wykorzystanie testu zawsze powinna poprzedzić refleksja „dlaczego” i „kiedy” go
użyć, a nie tylko „jakiego” testu użyć. użyć, a nie tylko „jakiego” testu użyć.
19 19

Pytania sprawdzające Pytania sprawdzające

1. Co to jest test psychologiczny? 1. Co to jest test psychologiczny?
2. Jak odróżnić profesjonalny test psychologiczny od popularnej psychozaba- 2. Jak odróżnić profesjonalny test psychologiczny od popularnej psychozaba-
wy? wy?
3. Wymień podstawowe charakterystyki testu. 3. Wymień podstawowe charakterystyki testu.
4. Co to jest rzetelność pomiaru testem? 4. Co to jest rzetelność pomiaru testem?
5. Dlaczego trafność pomiaru testem jest uznawana za jego najważniejszą cha- 5. Dlaczego trafność pomiaru testem jest uznawana za jego najważniejszą cha-
rakterystykę? rakterystykę?
6. Na czym polega standaryzacja warunków testowania? 6. Na czym polega standaryzacja warunków testowania?
7. Co to jest „obiektywność” diagnozy testowej? 7. Co to jest „obiektywność” diagnozy testowej?
8. Co to jest „norma” w sensie psychometrycznym? 8. Co to jest „norma” w sensie psychometrycznym?
9. Na czym polega diagnozowanie psychologiczne? 9. Na czym polega diagnozowanie psychologiczne?
10. Jakie inne metody, oprócz testów psychometrycznych, mogą być wykorzy- 10. Jakie inne metody, oprócz testów psychometrycznych, mogą być wykorzy-
stane przez psychologa w diagnozie? stane przez psychologa w diagnozie?
11. Jakie informacje zawiera podręcznik testowy? 11. Jakie informacje zawiera podręcznik testowy?
12. Po czym można poznać dobry test psychologiczny? 12. Po czym można poznać dobry test psychologiczny?
13. Opisz podejście idiograficzne i nomotetyczne do diagnozy osobowości. 13. Opisz podejście idiograficzne i nomotetyczne do diagnozy osobowości.
20 20

2. Przegląd wybranych testów psychologicznych 2. Przegląd wybranych testów psychologicznych

Testy psychologiczne, mimo posiadania wspólnych właściwości, stanowią Testy psychologiczne, mimo posiadania wspólnych właściwości, stanowią
bardzo zróżnicowaną wewnętrznie grupę metod, jakimi posługują się psycholo- bardzo zróżnicowaną wewnętrznie grupę metod, jakimi posługują się psycholo-
gowie. Istnieje możliwość poklasyfikowania tych zróżnicowanych metod i wy- gowie. Istnieje możliwość poklasyfikowania tych zróżnicowanych metod i wy-
odrębnienia szeregu grup testów. Niniejszy rozdział ma na celu zaprezentowanie odrębnienia szeregu grup testów. Niniejszy rozdział ma na celu zaprezentowanie
najważniejszych z nich. Przedstawione zostaną także przykładowe pytania i za- najważniejszych z nich. Przedstawione zostaną także przykładowe pytania i za-
dania testowe, dzięki czemu możliwa będzie przynajmniej częściowa prezentacja dania testowe, dzięki czemu możliwa będzie przynajmniej częściowa prezentacja
ogromnej różnorodności testów. ogromnej różnorodności testów.
Testy psychologiczne mogą być poklasyfikowane na podstawie różnych kry- Testy psychologiczne mogą być poklasyfikowane na podstawie różnych kry-
teriów. Jednym z ważniejszych kryteriów klasyfikacji jest podział ze względu na teriów. Jednym z ważniejszych kryteriów klasyfikacji jest podział ze względu na
przedmiot pomiaru. Na jego podstawie wyróżnia się narzędzia przeznaczone do przedmiot pomiaru. Na jego podstawie wyróżnia się narzędzia przeznaczone do
pomiaru cech osobowości oraz narzędzia przeznaczone do pomiaru cech inte- pomiaru cech osobowości oraz narzędzia przeznaczone do pomiaru cech inte-
lektu, takich jak inteligencja czy zdolności. Narzędzia przeznaczone do pomiaru lektu, takich jak inteligencja czy zdolności. Narzędzia przeznaczone do pomiaru
cech osobowości nazywane są kwestionariuszami (lub inaczej inwentarzami), cech osobowości nazywane są kwestionariuszami (lub inaczej inwentarzami),
natomiast narzędzia do pomiaru cech opisujących intelekt to testy we właściwym natomiast narzędzia do pomiaru cech opisujących intelekt to testy we właściwym
znaczeniu tego słowa. znaczeniu tego słowa.
W testach przeznaczonych do pomiaru cech intelektu (np. testy zdolności ma- W testach przeznaczonych do pomiaru cech intelektu (np. testy zdolności ma-
tematycznych, werbalnych, przestrzennych, abstrakcyjno-logicznych, sprawno- tematycznych, werbalnych, przestrzennych, abstrakcyjno-logicznych, sprawno-
ści psychomotorycznej, inteligencji ogólnej) osoba badana wykonuje specyficzne ści psychomotorycznej, inteligencji ogólnej) osoba badana wykonuje specyficzne
zadania. W tych testach istnieje tylko jedna prawidłowa odpowiedź. Natomiast zadania. W tych testach istnieje tylko jedna prawidłowa odpowiedź. Natomiast
w kwestionariuszach nie ma prawidłowych bądź błędnych odpowiedzi. Istnieją w kwestionariuszach nie ma prawidłowych bądź błędnych odpowiedzi. Istnieją
jedynie odpowiedzi wskazujące na intensywność posiadania danej cechy. jedynie odpowiedzi wskazujące na intensywność posiadania danej cechy.
Kwestionariusze wykorzystują odmienne niż testy zdolności i inteligencji źródło Kwestionariusze wykorzystują odmienne niż testy zdolności i inteligencji źródło
informacji o osobach badanych. W testach badani rozwiązują zadania intelektu- informacji o osobach badanych. W testach badani rozwiązują zadania intelektu-
alne, a więc obserwuje się w nich to, czy badany jest w stanie rozwiązać dany alne, a więc obserwuje się w nich to, czy badany jest w stanie rozwiązać dany
problem czy też nie. Mamy więc próbkę rzeczywistego zachowania osoby bada- problem czy też nie. Mamy więc próbkę rzeczywistego zachowania osoby bada-
nej. W kwestionariuszach natomiast wykorzystuje się wiedzę badanego o sobie nej. W kwestionariuszach natomiast wykorzystuje się wiedzę badanego o sobie
samym, zadając mu pytania dotyczące jego zachowania. Kwestionariusze doty- samym, zadając mu pytania dotyczące jego zachowania. Kwestionariusze doty-
czą więc relacji badanego o swoim zachowaniu. czą więc relacji badanego o swoim zachowaniu.
Ze względu na duże znaczenie obu wymienionych grup metod zostaną one Ze względu na duże znaczenie obu wymienionych grup metod zostaną one
nieco dokładniej opisane w dalszej części niniejszego rozdziału wraz z prezenta- nieco dokładniej opisane w dalszej części niniejszego rozdziału wraz z prezenta-
cją najbardziej znanych przykładów testów należących do tych grup. cją najbardziej znanych przykładów testów należących do tych grup.
Inne kryterium klasyfikacji testów dotyczy liczby jednorazowo badanych osób Inne kryterium klasyfikacji testów dotyczy liczby jednorazowo badanych osób
przy pomocy danego narzędzia. Ze względu na to kryterium wyodrębnia się testy przy pomocy danego narzędzia. Ze względu na to kryterium wyodrębnia się testy
indywidualne oraz grupowe. 21 indywidualne oraz grupowe. 21

Testy grupowe, które mogą być wykonywane jednocześnie przez wiele osób, Testy grupowe, które mogą być wykonywane jednocześnie przez wiele osób,
cechują się prostym sposobem badania, ograniczającym się do podania instrukcji cechują się prostym sposobem badania, ograniczającym się do podania instrukcji
i wręczenia badanym arkuszy testowych. Prostota badania sprzyja zachowaniu i wręczenia badanym arkuszy testowych. Prostota badania sprzyja zachowaniu
standardowej procedury badania. Dzięki testom grupowym możliwe jest jedno- standardowej procedury badania. Dzięki testom grupowym możliwe jest jedno-
czesne badanie dużej liczby osób, której wielkość ograniczona jest właściwie czesne badanie dużej liczby osób, której wielkość ograniczona jest właściwie
tylko rozmiarami sali, w jakiej przeprowadza się badanie (z czego wynika liczba tylko rozmiarami sali, w jakiej przeprowadza się badanie (z czego wynika liczba
dostępnych miejsc do siedzenia oraz słyszalność psychologa mówiącego treść dostępnych miejsc do siedzenia oraz słyszalność psychologa mówiącego treść
instrukcji do danego testu), a także możliwością kontroli zachowania osób ba- instrukcji do danego testu), a także możliwością kontroli zachowania osób ba-
danych i prowadzenia badań w zbliżonych warunkach dla wszystkich badanych. danych i prowadzenia badań w zbliżonych warunkach dla wszystkich badanych.
Z powodu jednoczesnego badania wielu osób, pozycje testowe testów grupo- Z powodu jednoczesnego badania wielu osób, pozycje testowe testów grupo-
wych są skonstruowane tak, aby nie było konieczności wchodzenia w indywi- wych są skonstruowane tak, aby nie było konieczności wchodzenia w indywi-
dualny kontakt z badanymi, udzielania im dodatkowych wyjaśnień itp. Testy dualny kontakt z badanymi, udzielania im dodatkowych wyjaśnień itp. Testy
grupowe składają się z zamkniętych pozycji testowych, zawierających kilka go- grupowe składają się z zamkniętych pozycji testowych, zawierających kilka go-
towych odpowiedzi, a badany musi wybrać jedną spośród nich. Pozwala to na towych odpowiedzi, a badany musi wybrać jedną spośród nich. Pozwala to na
szybkie i sprawne przeprowadzenie badania. W testach grupowych nie zdarzają szybkie i sprawne przeprowadzenie badania. W testach grupowych nie zdarzają
się otwarte pozycje testowe, czyli takie, w których osoba badana sama musi sfor- się otwarte pozycje testowe, czyli takie, w których osoba badana sama musi sfor-
mułować odpowiedź. Wydłużałoby to znacznie procedurę badania i obliczania mułować odpowiedź. Wydłużałoby to znacznie procedurę badania i obliczania
wyników. Sposób obliczania wyników jest możliwie uproszczony, tak by spraw- wyników. Sposób obliczania wyników jest możliwie uproszczony, tak by spraw-
dzanie dużej liczby testów zajęło jak najmniej czasu. dzanie dużej liczby testów zajęło jak najmniej czasu.
Testy grupowe wymagają od badanych korzystania z instrukcji udzielanych Testy grupowe wymagają od badanych korzystania z instrukcji udzielanych
całej grupie, samodzielnego czytania ewentualnych, wydrukowanych instrukcji całej grupie, samodzielnego czytania ewentualnych, wydrukowanych instrukcji
oraz samodzielnego wpisywania swoich odpowiedzi. Brak bezpośredniej kon- oraz samodzielnego wpisywania swoich odpowiedzi. Brak bezpośredniej kon-
troli nad tym, czy badani stosują się do instrukcji we właściwy sposób lub czy troli nad tym, czy badani stosują się do instrukcji we właściwy sposób lub czy
odpowiadają na wszystkie pozycje testowe może obniżać rzetelność wyników odpowiadają na wszystkie pozycje testowe może obniżać rzetelność wyników
badań grupowych. badań grupowych.
Testy grupowe są idealne w sytuacji, gdy trzeba szybko przebadać większą Testy grupowe są idealne w sytuacji, gdy trzeba szybko przebadać większą
liczbę osób, np. w celu wstępnej selekcji, gdy chodzi o wyłonienie osób o skraj- liczbę osób, np. w celu wstępnej selekcji, gdy chodzi o wyłonienie osób o skraj-
nym nasileniu jakiejś właściwości psychicznej. nym nasileniu jakiejś właściwości psychicznej.
Natomiast testy indywidualne, ze względu na swoją specyfikę, nie mogą być Natomiast testy indywidualne, ze względu na swoją specyfikę, nie mogą być
wykorzystywane do jednoczesnego badania więcej niż jednej osoby. Specyfika wykorzystywane do jednoczesnego badania więcej niż jednej osoby. Specyfika
ta wynika zwykle ze złożoności procedury badania, wymagającej od psychologa ta wynika zwykle ze złożoności procedury badania, wymagającej od psychologa
jednoczesnego wykonywania wielu czynności (np. mierzenia czasu udzielania jednoczesnego wykonywania wielu czynności (np. mierzenia czasu udzielania
odpowiedzi na poszczególne pozycje testowe, zapisywania odpowiedzi osoby odpowiedzi na poszczególne pozycje testowe, zapisywania odpowiedzi osoby
badanej, prezentowania materiału testowego w odpowiedniej kolejności, punkto- badanej, prezentowania materiału testowego w odpowiedniej kolejności, punkto-
wania odpowiedzi badanego w trakcie przeprowadzania badania itp.). Trudność wania odpowiedzi badanego w trakcie przeprowadzania badania itp.). Trudność
polega nie tylko na uciążliwości procedury testowej, która przez diagnostę musi polega nie tylko na uciążliwości procedury testowej, która przez diagnostę musi
być bardzo dobrze opanowana, ale również na konieczności nawiązania indywi- być bardzo dobrze opanowana, ale również na konieczności nawiązania indywi-
dualnego kontaktu z osobą badaną. Dzięki temu testy indywidualne umożliwia- dualnego kontaktu z osobą badaną. Dzięki temu testy indywidualne umożliwia-
ją dokonywanie szczegółowych obserwacji zachowania osoby badanej podczas ją dokonywanie szczegółowych obserwacji zachowania osoby badanej podczas
udzielania odpowiedzi na pytania testu. Wymienione właściwości testów indy- udzielania odpowiedzi na pytania testu. Wymienione właściwości testów indy-
widualnych przyczyniają się do tego, że są one znacznie bardziej czasochłonne. widualnych przyczyniają się do tego, że są one znacznie bardziej czasochłonne.
22 Najczęściej (choć nie musi być to regułą) testy indywidualne znajdują zasto- 22 Najczęściej (choć nie musi być to regułą) testy indywidualne znajdują zasto-

sowanie w psychologii klinicznej, gdyż pozwalają na dokładniejsze i bardziej sowanie w psychologii klinicznej, gdyż pozwalają na dokładniejsze i bardziej
wszechstronne zdiagnozowanie badanego (np. gdy diagnoza poprzedza terapię, wszechstronne zdiagnozowanie badanego (np. gdy diagnoza poprzedza terapię,
reedukację czy poradę). reedukację czy poradę).
2.1. Testy cech intelektu 2.1. Testy cech intelektu

Wśród testów inteligencji i zdolności wyróżnia się testy mocy i szybkości. Wśród testów inteligencji i zdolności wyróżnia się testy mocy i szybkości.
Testy szybkości składają się z wielu zadań o tej samej bądź podobnej trudności. Testy szybkości składają się z wielu zadań o tej samej bądź podobnej trudności.
Zwykle są to zadania dość łatwe, których wykonanie leży w granicach możli- Zwykle są to zadania dość łatwe, których wykonanie leży w granicach możli-
wości osób, dla których test jest przeznaczony. Czas wykonania testów szyb- wości osób, dla których test jest przeznaczony. Czas wykonania testów szyb-
kości jest jednak ograniczony, a liczba zadań na tyle duża, aby żaden badany kości jest jednak ograniczony, a liczba zadań na tyle duża, aby żaden badany
nie rozwiązał wszystkich w wyznaczonym czasie. Osoby o wyższym poziomie nie rozwiązał wszystkich w wyznaczonym czasie. Osoby o wyższym poziomie
zdolności, do pomiaru której został stworzony dany test, rozwiązują w tym ogra- zdolności, do pomiaru której został stworzony dany test, rozwiązują w tym ogra-
niczonym czasie więcej zadań niż osoby o niższym poziomie zdolności. Tak więc niczonym czasie więcej zadań niż osoby o niższym poziomie zdolności. Tak więc
miarą osiągnięć badanego jest liczba podanych odpowiedzi (z uwzględnieniem miarą osiągnięć badanego jest liczba podanych odpowiedzi (z uwzględnieniem
liczby ewentualnych błędów, choć jest ich zwykle mało ze względu na łatwość liczby ewentualnych błędów, choć jest ich zwykle mało ze względu na łatwość
zadań). Innymi słowy, testy szybkości sprawdzają biegłość w wykonywaniu za- zadań). Innymi słowy, testy szybkości sprawdzają biegłość w wykonywaniu za-
dań testowych. Umożliwia to ocenę sprawności intelektualnej rozumianej jako dań testowych. Umożliwia to ocenę sprawności intelektualnej rozumianej jako
szybkość efektywnej pracy intelektualnej. szybkość efektywnej pracy intelektualnej.
W przeciwieństwie do testów szybkości, w testach mocy o wyniku decyduje W przeciwieństwie do testów szybkości, w testach mocy o wyniku decyduje
nie tyle szybkość, co poprawność ich rozwiązania. Zadania w testach mocy są nie tyle szybkość, co poprawność ich rozwiązania. Zadania w testach mocy są
zwykle trudniejsze i bardziej zróżnicowane niż w testach szybkości. Zadania uło- zwykle trudniejsze i bardziej zróżnicowane niż w testach szybkości. Zadania uło-
żone są w kolejności wzrastającej trudności, a czas wykonania nie jest ograniczo- żone są w kolejności wzrastającej trudności, a czas wykonania nie jest ograniczo-
ny. Badani, rozwiązując kolejne zadania, dochodzą zwykle do takiego, które jest ny. Badani, rozwiązując kolejne zadania, dochodzą zwykle do takiego, które jest
zbyt trudne. Nie wszystkie testy można jednoznacznie zakwalifikować do jednej zbyt trudne. Nie wszystkie testy można jednoznacznie zakwalifikować do jednej
z tych dwu grup. Istnieją bowiem takie testy, które mają cechy zarówno testów z tych dwu grup. Istnieją bowiem takie testy, które mają cechy zarówno testów
mocy, jak i szybkości. mocy, jak i szybkości.
Inny podział testów dotyczy materiału, na jakim zostały one zrealizowane. Inny podział testów dotyczy materiału, na jakim zostały one zrealizowane.
Z tego punktu widzenia wyróżnia się testy werbalne i niewerbalne (zwane też Z tego punktu widzenia wyróżnia się testy werbalne i niewerbalne (zwane też
testami wykonaniowymi czy bezsłownymi). testami wykonaniowymi czy bezsłownymi).
W testach wykonaniowych badany musi wykonać określone działania na kon- W testach wykonaniowych badany musi wykonać określone działania na kon-
kretnym materiale. Zadania tego typu mogą polegać np. na rysowaniu, prowadze- kretnym materiale. Zadania tego typu mogą polegać np. na rysowaniu, prowadze-
niu ołówka przez ścieżki labiryntu, układaniu klocków, rozwiązywaniu łamigłó- niu ołówka przez ścieżki labiryntu, układaniu klocków, rozwiązywaniu łamigłó-
wek, rozwiązywaniu zadań matematycznych, układaniu elementów układanek, wek, rozwiązywaniu zadań matematycznych, układaniu elementów układanek,
odnajdywaniu brakujących części obrazka itp. odnajdywaniu brakujących części obrazka itp.
W testach werbalnych odpowiedź badanego udzielana jest słownie, w formie W testach werbalnych odpowiedź badanego udzielana jest słownie, w formie
pisemnej lub ustnej. W testach tego typu konieczna jest znajomość języka, nawet pisemnej lub ustnej. W testach tego typu konieczna jest znajomość języka, nawet
jeśli badaniu podlega zdolność, która nie musi być powiązana z językiem. jeśli badaniu podlega zdolność, która nie musi być powiązana z językiem.
Ważnym rodzajem testów są skale rozwojowe przeznaczone do diagnozy po- Ważnym rodzajem testów są skale rozwojowe przeznaczone do diagnozy po-
ziomu rozwoju intelektualnego dzieci. W tego typu narzędziach zadania tworzą ziomu rozwoju intelektualnego dzieci. W tego typu narzędziach zadania tworzą
oddzielne zestawy przeznaczone dla różnych poziomów wieku. Jest to zrozu- oddzielne zestawy przeznaczone dla różnych poziomów wieku. Jest to zrozu-
miałe, jeśli weźmie się pod uwagę, że wraz z rozwojem wrastają możliwości 23 miałe, jeśli weźmie się pod uwagę, że wraz z rozwojem wrastają możliwości 23

intelektualne dziecka. Oznacza to, że zadania, które były stosunkowo trudne dla intelektualne dziecka. Oznacza to, że zadania, które były stosunkowo trudne dla
dzieci młodszych, dla dzieci starszych stają się łatwe lub wręcz banalne, a tym dzieci młodszych, dla dzieci starszych stają się łatwe lub wręcz banalne, a tym
samym przestają różnicować badanych, gdyż wszystkie starsze dzieci są w sta- samym przestają różnicować badanych, gdyż wszystkie starsze dzieci są w sta-
nie je prawidłowo rozwiązać. Tak więc w zestawach przeznaczonych dla dzieci, nie je prawidłowo rozwiązać. Tak więc w zestawach przeznaczonych dla dzieci,
w kolejnych grupach wieku, znajdują się co raz trudniejsze zadania. w kolejnych grupach wieku, znajdują się co raz trudniejsze zadania.
Badanie za pomocą skal rozwojowych, które jest indywidualne, rozpoczyna Badanie za pomocą skal rozwojowych, które jest indywidualne, rozpoczyna
się zwykle od zestawu odpowiadającego liczbie lat życia danego dziecka. W wy- się zwykle od zestawu odpowiadającego liczbie lat życia danego dziecka. W wy-
padku, gdy badany nie radzi sobie z zadaniami przeznaczonymi dla jego wieku padku, gdy badany nie radzi sobie z zadaniami przeznaczonymi dla jego wieku
wykonuje się zadania łatwiejsze, przeznaczone dla osób młodszych. Jeśli dziecko wykonuje się zadania łatwiejsze, przeznaczone dla osób młodszych. Jeśli dziecko
rozwiązuje bez problemu zadania dla swojego wieku, to można przejść do zadań rozwiązuje bez problemu zadania dla swojego wieku, to można przejść do zadań
trudniejszych, dochodząc do zadań o takim poziomie trudności, których dziecko trudniejszych, dochodząc do zadań o takim poziomie trudności, których dziecko
nie jest w stanie rozwiązać. nie jest w stanie rozwiązać.
Niektóre z narzędzi przeznaczonych do pomiaru inteligencji i zdolności mają Niektóre z narzędzi przeznaczonych do pomiaru inteligencji i zdolności mają
szczególna formę zwaną bateriami. Baterie składają się z pewnej liczby odręb- szczególna formę zwaną bateriami. Baterie składają się z pewnej liczby odręb-
nych testów. Każdy z nich przeznaczony jest do pomiaru nieco innej zdolności nych testów. Każdy z nich przeznaczony jest do pomiaru nieco innej zdolności
intelektualnej. Oprócz wyników w poszczególnych testach, zazwyczaj oblicza się intelektualnej. Oprócz wyników w poszczególnych testach, zazwyczaj oblicza się
jakiś rodzaj wyniku ogólnego, będącego łącznym rezultatem wszystkich testów. jakiś rodzaj wyniku ogólnego, będącego łącznym rezultatem wszystkich testów.
Procedura badania baterią zakłada zwykle, że wykonuje się kolejno wszystkie Procedura badania baterią zakłada zwykle, że wykonuje się kolejno wszystkie
testy wchodzące w jej skład. testy wchodzące w jej skład.
Za twórcę pierwszego testu inteligencji uważany jest Alfred Binet (1857–1911) Za twórcę pierwszego testu inteligencji uważany jest Alfred Binet (1857–1911)
i jego współpracownik – Theophile Simon. W 1905 roku opracowali oni zestaw i jego współpracownik – Theophile Simon. W 1905 roku opracowali oni zestaw
zadań o wzrastającym poziomie trudności, opartych na treściach nauczania. Tak zadań o wzrastającym poziomie trudności, opartych na treściach nauczania. Tak
utworzony test przeznaczony był do pomiaru bardzo różnych funkcji intelek- utworzony test przeznaczony był do pomiaru bardzo różnych funkcji intelek-
tualnych, ze szczególnym uwzględnieniem oceniania i rozumowania. Skala ta tualnych, ze szczególnym uwzględnieniem oceniania i rozumowania. Skala ta
zawierała także zadania sensoryczne i percepcyjne. Test ten zawierał więc za- zawierała także zadania sensoryczne i percepcyjne. Test ten zawierał więc za-
równo zadania werbalne, jak i wykonaniowe. Ten pierwszy test inteligencji był równo zadania werbalne, jak i wykonaniowe. Ten pierwszy test inteligencji był
jednocześnie narzędziem o charakterze skali rozwojowej przeznaczonej dla dzie- jednocześnie narzędziem o charakterze skali rozwojowej przeznaczonej dla dzie-
ci w wieku od 3 do 13 lat. ci w wieku od 3 do 13 lat.
Opracowany przez siebie test Binet i Simon przekazali pewnej liczbie pary- Opracowany przez siebie test Binet i Simon przekazali pewnej liczbie pary-
skich uczniów. Następnie określono, ilu uczniów danego rocznika odpowiada- skich uczniów. Następnie określono, ilu uczniów danego rocznika odpowiada-
ło prawidłowo na każde zadanie testu. Jeżeli jakieś zadanie zostało rozwiązane ło prawidłowo na każde zadanie testu. Jeżeli jakieś zadanie zostało rozwiązane
przez 70% dzieci w tym samym wieku, uznawano, że większość dzieci w da- przez 70% dzieci w tym samym wieku, uznawano, że większość dzieci w da-
nym wieku powinna je prawidłowo rozwiązać. W ten sposób dla dzieci o różnym nym wieku powinna je prawidłowo rozwiązać. W ten sposób dla dzieci o różnym
poziomie wieku przyporządkowano zadania, które przez dzieci te powinny być poziomie wieku przyporządkowano zadania, które przez dzieci te powinny być
prawidłowo rozwiązywane. Tak więc np. poziomowi 3 lat przypisywano wszyst- prawidłowo rozwiązywane. Tak więc np. poziomowi 3 lat przypisywano wszyst-
kie zadania pomyślnie wykonane przez większość trzylatków, poziomowi 4 lat – kie zadania pomyślnie wykonane przez większość trzylatków, poziomowi 4 lat –
wszystkie zadania prawidłowo wykonane przez większość czterolatków itd., aż wszystkie zadania prawidłowo wykonane przez większość czterolatków itd., aż
do wieku 13 lat. do wieku 13 lat.
Procedura obliczania wyników indywidualnych dzieci była następująca. Jeśli Procedura obliczania wyników indywidualnych dzieci była następująca. Jeśli
jakieś dziecko poprawnie rozwiązało zadania przeznaczone dla pewnej grupy jakieś dziecko poprawnie rozwiązało zadania przeznaczone dla pewnej grupy
wieku, wynik jego określano jako tzw. wiek umysłowy odpowiadający wieko- wieku, wynik jego określano jako tzw. wiek umysłowy odpowiadający wieko-
24 wi dzieci wykonujących poprawnie te same zadania. Przykładowo: jeśli dziecko 24 wi dzieci wykonujących poprawnie te same zadania. Przykładowo: jeśli dziecko

uzyskało w rozmaitych zadaniach testowych wynik charakterystyczny dla pię- uzyskało w rozmaitych zadaniach testowych wynik charakterystyczny dla pię-
ciolatków, to jego wiek umysłowy wynosił 5 lat, bez względu na wiek życia ciolatków, to jego wiek umysłowy wynosił 5 lat, bez względu na wiek życia
(chronologiczny). (chronologiczny).
Metoda Bineta cieszyła się dość dużym zainteresowaniem i doczekała się Metoda Bineta cieszyła się dość dużym zainteresowaniem i doczekała się
wielu zagranicznych adaptacji. Najsłynniejsza jest adaptacja amerykańska wielu zagranicznych adaptacji. Najsłynniejsza jest adaptacja amerykańska
znana pod nazwą Stanfordzkiej Skali Bineta. Test Bineta został zaadaptowany znana pod nazwą Stanfordzkiej Skali Bineta. Test Bineta został zaadaptowany
w 1916 roku do badań dzieci amerykańskich przez Lewisa Termana, wykładowcę w 1916 roku do badań dzieci amerykańskich przez Lewisa Termana, wykładowcę
z Uniwersytetu Stanford w Kalifornii. Terman po raz pierwszy wprowadził po- z Uniwersytetu Stanford w Kalifornii. Terman po raz pierwszy wprowadził po-
jęcie ilorazu inteligencji. Iloraz inteligencji jest to proporcja wieku umysłowego jęcie ilorazu inteligencji. Iloraz inteligencji jest to proporcja wieku umysłowego
do wieku życia, pomnożona przez 100, by wyeliminować części setne (więcej na do wieku życia, pomnożona przez 100, by wyeliminować części setne (więcej na
ten temat znajduje się w rozdziale 6.2.4.5.). ten temat znajduje się w rozdziale 6.2.4.5.).
Nowy test stał się bardzo szybko standardowym narzędziem psychologii kli- Nowy test stał się bardzo szybko standardowym narzędziem psychologii kli-
nicznej, psychiatrii i poradnictwa szkolnego. Obecnie jednak oryginalny test nicznej, psychiatrii i poradnictwa szkolnego. Obecnie jednak oryginalny test
Bineta ma wartość jedynie historyczną i nie jest używany w praktyce psycholo- Bineta ma wartość jedynie historyczną i nie jest używany w praktyce psycholo-
gicznej. Natomiast w USA wciąż stosowana jest uaktualniona wersja tego testu. gicznej. Natomiast w USA wciąż stosowana jest uaktualniona wersja tego testu.
W Polsce nie istnieje aktualna adaptacja testu Bineta, co uniemożliwia jego wy- W Polsce nie istnieje aktualna adaptacja testu Bineta, co uniemożliwia jego wy-
korzystanie w praktyce. korzystanie w praktyce.
Od czasu utworzenia skali Bineta powstała ogromna liczba różnorodnych te- Od czasu utworzenia skali Bineta powstała ogromna liczba różnorodnych te-
stów inteligencji i zdolności. Poniżej omówione zostaną wybrane, najbardziej stów inteligencji i zdolności. Poniżej omówione zostaną wybrane, najbardziej
znane, przykłady narzędzi tego typu. Prezentację rozpoczynamy od przedstawie- znane, przykłady narzędzi tego typu. Prezentację rozpoczynamy od przedstawie-
nia wybranych testów, mających zbliżony charakter do testu Bineta, czyli skal nia wybranych testów, mających zbliżony charakter do testu Bineta, czyli skal
rozwojowych. W dalszej części przedstawione zostaną testy stworzone z myślą rozwojowych. W dalszej części przedstawione zostaną testy stworzone z myślą
o badaniu ludzi dorosłych. o badaniu ludzi dorosłych.
2.1.1. Skale rozwojowe 2.1.1. Skale rozwojowe

Omówienie wybranych skal rozwojowych rozpocznie przedstawienie Skali Omówienie wybranych skal rozwojowych rozpocznie przedstawienie Skali
Dojrzałości Umysłowej Columbia (Ciechanowicz, 1992). Jest to niewerbalny Dojrzałości Umysłowej Columbia (Ciechanowicz, 1992). Jest to niewerbalny
test, służący do oceny poziomu dojrzałości umysłowej dziecka. Columbia składa test, służący do oceny poziomu dojrzałości umysłowej dziecka. Columbia składa
się z 70 tablic z rysunkami (3 tablice przykładowe i 67 tablic stanowiących wła- się z 70 tablic z rysunkami (3 tablice przykładowe i 67 tablic stanowiących wła-
ściwe zadania). Tablice te zawierają zestaw 3, 4 lub 5 kolorowych rysunków, któ- ściwe zadania). Tablice te zawierają zestaw 3, 4 lub 5 kolorowych rysunków, któ-
rymi są figury geometryczne lub rysunki ogólnie znanych przedmiotów. Obiekty rymi są figury geometryczne lub rysunki ogólnie znanych przedmiotów. Obiekty
te, wedle założeń autorów, znane są przeciętnemu dziecku. Każde zadanie przed- te, wedle założeń autorów, znane są przeciętnemu dziecku. Każde zadanie przed-
stawione jest na odrębnej, dość dużej karcie. Na rys. 2.1. przedstawiono przykład stawione jest na odrębnej, dość dużej karcie. Na rys. 2.1. przedstawiono przykład
(łatwy – przeznaczony dla młodszych dzieci) zadania zbliżonego do zadań znaj- (łatwy – przeznaczony dla młodszych dzieci) zadania zbliżonego do zadań znaj-
dujących się w teście Columbia. dujących się w teście Columbia.
Zadaniem osoby badanej jest wskazanie na każdej z tablic rysunku niewią- Zadaniem osoby badanej jest wskazanie na każdej z tablic rysunku niewią-
żącego się z pozostałymi. Oznacza to konieczność wykrycia zasady łączącej żącego się z pozostałymi. Oznacza to konieczność wykrycia zasady łączącej
kilka rysunków i na tej podstawie wykluczenia jednego z nich. Takie zadania kilka rysunków i na tej podstawie wykluczenia jednego z nich. Takie zadania
sprawdzają poprawność tworzenia klas logicznych przez osobę badaną. Zdolność sprawdzają poprawność tworzenia klas logicznych przez osobę badaną. Zdolność
klasyfikowania (rozróżniania elementów podobnych i różnych) jest uważana za klasyfikowania (rozróżniania elementów podobnych i różnych) jest uważana za
jeden z ważniejszych przejawów inteligencji i wykorzystuje się ją w wielu te- 25 jeden z ważniejszych przejawów inteligencji i wykorzystuje się ją w wielu te- 25

stach. Uważa się także, że zdolność tę człowiek zaczyna nabywać dość wcześnie stach. Uważa się także, że zdolność tę człowiek zaczyna nabywać dość wcześnie
w trakcie swojego rozwoju, co umożliwia wykorzystywanie zadań dotyczących w trakcie swojego rozwoju, co umożliwia wykorzystywanie zadań dotyczących
klasyfikacji w testach przeznaczonych dla dzieci. klasyfikacji w testach przeznaczonych dla dzieci.
Rysunek 2.1. Przykład zadania zbliżonego do pozycji testowych Skali Columbia Rysunek 2.1. Przykład zadania zbliżonego do pozycji testowych Skali Columbia
Skala Dojrzałości Umysłowej Columbia jest narzędziem bezsłownym. Skala Dojrzałości Umysłowej Columbia jest narzędziem bezsłownym.
Niepasujący element dziecko pokazuje ręką lub wskazuje ruchem głowy. Niepasujący element dziecko pokazuje ręką lub wskazuje ruchem głowy.
Skala Columbia służy do indywidualnego badania dzieci w wieku od 3,5 do10 Skala Columbia służy do indywidualnego badania dzieci w wieku od 3,5 do10
lat. Jest przeznaczona dla dzieci zarówno o rozwoju prawidłowym, jak i zaburzo- lat. Jest przeznaczona dla dzieci zarówno o rozwoju prawidłowym, jak i zaburzo-
nym. Ze względu na niewerbalny charakter i bardzo prosty sposób udzielania od- nym. Ze względu na niewerbalny charakter i bardzo prosty sposób udzielania od-
powiedzi, umożliwia diagnozowanie dzieci z upośledzoną sprawnością werbalną powiedzi, umożliwia diagnozowanie dzieci z upośledzoną sprawnością werbalną
i motoryczną (np. po porażeniu mózgowym, uszkodzeniach centralnego układu i motoryczną (np. po porażeniu mózgowym, uszkodzeniach centralnego układu
nerwowego, cierpiące na zaburzenia mowy i słuchu). nerwowego, cierpiące na zaburzenia mowy i słuchu).
Skala Columbia ma aktualną, legalną polską adaptację, dzięki czemu może Skala Columbia ma aktualną, legalną polską adaptację, dzięki czemu może
być stosowana w Polsce (Ciechanowicz, 1992). być stosowana w Polsce (Ciechanowicz, 1992).
Innym przykładem skali rozwojowej jest Międzynarodowa Wykonaniowa Innym przykładem skali rozwojowej jest Międzynarodowa Wykonaniowa
Skala Leitera (MWSL), będąca niewerbalnym testem inteligencji dla dzieci, zre- Skala Leitera (MWSL), będąca niewerbalnym testem inteligencji dla dzieci, zre-
alizowanym tylko na materiale percepcyjnym (rysunki kształtów geometrycz- alizowanym tylko na materiale percepcyjnym (rysunki kształtów geometrycz-
nych oraz znanych obiektów). W każdym zadaniu badanemu przedstawia się nych oraz znanych obiektów). W każdym zadaniu badanemu przedstawia się
wzór narysowany na pasku kartonu oraz pewną liczbę drewnianych, niewielkich wzór narysowany na pasku kartonu oraz pewną liczbę drewnianych, niewielkich
sześciennych klocków z odpowiednimi rysunkami (dla każdego zadania są to sześciennych klocków z odpowiednimi rysunkami (dla każdego zadania są to
klocki z innymi rysunkami). Badany ma odtworzyć wzór przy pomocy klocków. klocki z innymi rysunkami). Badany ma odtworzyć wzór przy pomocy klocków.
W niektórych przypadkach wzór jest niepełny, a więc badany sam musi odnaleźć W niektórych przypadkach wzór jest niepełny, a więc badany sam musi odnaleźć
brakujące elementy na podstawie samodzielnie wykrytej zasady. Badany udziela brakujące elementy na podstawie samodzielnie wykrytej zasady. Badany udziela
odpowiedzi, wkładając klocki w wycięcia specjalnej ramki. Skala Leitera skła- odpowiedzi, wkładając klocki w wycięcia specjalnej ramki. Skala Leitera skła-
da się z 52 zadań uporządkowanych według wzrastającego stopnia trudności. da się z 52 zadań uporządkowanych według wzrastającego stopnia trudności.
Zadania pogrupowane są po cztery, tworząc serie od A do M. Zadania pogrupowane są po cztery, tworząc serie od A do M.
Zadania wchodzące w skład tego testu angażują podstawowe operacje inte- Zadania wchodzące w skład tego testu angażują podstawowe operacje inte-
lektualne, takie jak wykrywanie relacji i ich wykorzystanie przy porządkowaniu lektualne, takie jak wykrywanie relacji i ich wykorzystanie przy porządkowaniu
obiektów. Operacje te są w dużej mierze niezależne od wcześniejszych doświad- obiektów. Operacje te są w dużej mierze niezależne od wcześniejszych doświad-
czeń. Również materiał testowy powoduje, że test w ograniczonym zakresie czeń. Również materiał testowy powoduje, że test w ograniczonym zakresie
odwołuje się do posiadanych przez badanego wiadomości. Są to konsekwencje odwołuje się do posiadanych przez badanego wiadomości. Są to konsekwencje
26 celu, jakiemu miała służyć Skala Leitera. Chodziło bowiem o stworzenie uniwer- 26 celu, jakiemu miała służyć Skala Leitera. Chodziło bowiem o stworzenie uniwer-

salnego narzędzia do stosowania wobec badanych pochodzących z różnych grup salnego narzędzia do stosowania wobec badanych pochodzących z różnych grup
społecznych i etnicznych, a więc wolnego od wpływów wcześniejszego uczenia społecznych i etnicznych, a więc wolnego od wpływów wcześniejszego uczenia
się oraz języka. się oraz języka.
Również procedura badania Skalą Leitera podporządkowana jest temu celowi. Również procedura badania Skalą Leitera podporządkowana jest temu celowi.
W trakcie przeprowadzania badania, dziecko nie otrzymuje żadnych instrukcji W trakcie przeprowadzania badania, dziecko nie otrzymuje żadnych instrukcji
słownych czy wyjaśnień dotyczących poszczególnych zadań. Test ten nie wyma- słownych czy wyjaśnień dotyczących poszczególnych zadań. Test ten nie wyma-
ga używania mowy ani jej rozumienia. W niektórych zadaniach badany otrzy- ga używania mowy ani jej rozumienia. W niektórych zadaniach badany otrzy-
muje wskazówki, ale jedynie w sposób niewerbalny (przekazywane za pomocą muje wskazówki, ale jedynie w sposób niewerbalny (przekazywane za pomocą
gestów czy demonstracji). Tak więc badany sam musi wykazywać się większą gestów czy demonstracji). Tak więc badany sam musi wykazywać się większą
niż w innych testach aktywnością w rozpoznawaniu problemów i domyślaniu się niż w innych testach aktywnością w rozpoznawaniu problemów i domyślaniu się
oczekiwań badającego. oczekiwań badającego.
Skala Leitera przeznaczona jest dla dzieci w wieku od 3 do 15 lat. Badanie ma Skala Leitera przeznaczona jest dla dzieci w wieku od 3 do 15 lat. Badanie ma
charakter indywidualny, bez ograniczenia czasu (z wyjątkiem 4 zadań). Badanych charakter indywidualny, bez ograniczenia czasu (z wyjątkiem 4 zadań). Badanych
różnicuje tutaj nie szybkość wykonania, a poprawność wykonania zadań, które różnicuje tutaj nie szybkość wykonania, a poprawność wykonania zadań, które
mają zróżnicowany poziom trudności. Jest to więc test mocy. Liczba zadań, ja- mają zróżnicowany poziom trudności. Jest to więc test mocy. Liczba zadań, ja-
kie dziecko otrzymuje, zależy od odnoszonych sukcesów i porażek, a więc czas kie dziecko otrzymuje, zależy od odnoszonych sukcesów i porażek, a więc czas
badania jest bardzo zróżnicowany. W przypadku dzieci najmłodszych wynosi on badania jest bardzo zróżnicowany. W przypadku dzieci najmłodszych wynosi on
przeciętnie 20 minut, a najstarszych – około 60 minut. przeciętnie 20 minut, a najstarszych – około 60 minut.
Procedura badania może być dość uciążliwa dla psychologa przeprowadza- Procedura badania może być dość uciążliwa dla psychologa przeprowadza-
jącego badanie. Pomoce testowe, na które składają się kartoniki oraz klocki jącego badanie. Pomoce testowe, na które składają się kartoniki oraz klocki
z naniesionymi odpowiednimi rysunkami, zajmują bowiem dość dużej wielkości z naniesionymi odpowiednimi rysunkami, zajmują bowiem dość dużej wielkości
pudełko. W celu zachowania płynności badania, diagnosta musi biegle opano- pudełko. W celu zachowania płynności badania, diagnosta musi biegle opano-
wać procedurę badania, tak aby z łatwością odnajdować pomoce niezbędne do wać procedurę badania, tak aby z łatwością odnajdować pomoce niezbędne do
kolejnych zadań. kolejnych zadań.
Skala Leitera znajduje zastosowanie w praktyce psychologicznej do diagno- Skala Leitera znajduje zastosowanie w praktyce psychologicznej do diagno-
zy intelektu. Skala jest szczególnie przydatna do badania dzieci, z którymi kon- zy intelektu. Skala jest szczególnie przydatna do badania dzieci, z którymi kon-
takt werbalny jest utrudniony lub niemożliwy (dzieci głuche lub z zaburzeniami takt werbalny jest utrudniony lub niemożliwy (dzieci głuche lub z zaburzeniami
mowy czy też z zahamowaniami emocjonalnymi lub nieznające dobrze języka mowy czy też z zahamowaniami emocjonalnymi lub nieznające dobrze języka
polskiego). Nie wymaga bowiem od nich ani używania, ani rozumienia mowy. polskiego). Nie wymaga bowiem od nich ani używania, ani rozumienia mowy.
Umożliwia także badanie dzieci opóźnionych w rozwoju umysłowym. Umożliwia także badanie dzieci opóźnionych w rozwoju umysłowym.
Polska standaryzacja tego narzędzia pochodzi z 1993 roku (Jaworowska, Polska standaryzacja tego narzędzia pochodzi z 1993 roku (Jaworowska,
Matczak, Szustrowa, 1996), a więc Skala Leitera może być stosowana w naszym Matczak, Szustrowa, 1996), a więc Skala Leitera może być stosowana w naszym
kraju. kraju.
Oryginalną polską metodą przeznaczoną do oceny poziomu rozwoju intelektu- Oryginalną polską metodą przeznaczoną do oceny poziomu rozwoju intelektu-
alnego dziecka jest test Diagnoza Możliwości Intelektualnych. Pierwotna wersja alnego dziecka jest test Diagnoza Możliwości Intelektualnych. Pierwotna wersja
tego narzędzia oznaczona skrótem DMI (Matczak, 1992) doczekała się dwóch tego narzędzia oznaczona skrótem DMI (Matczak, 1992) doczekała się dwóch
znacznych modyfikacji w postaci testów DMI-2M i DMI-2S (Matczak, 2001). znacznych modyfikacji w postaci testów DMI-2M i DMI-2S (Matczak, 2001).
Wszystkie testy DMI oparte są na koncepcji Jeana Piageta i odwołują się do Wszystkie testy DMI oparte są na koncepcji Jeana Piageta i odwołują się do
pojęcia myślenia operacyjnego (Piaget, 1966; 1981; 2006). Według Piageta prze- pojęcia myślenia operacyjnego (Piaget, 1966; 1981; 2006). Według Piageta prze-
jawem nabywania przez dziecko zdolności myślenia operacyjnego jest umiejęt- jawem nabywania przez dziecko zdolności myślenia operacyjnego jest umiejęt-
ność klasyfikacji oraz dostrzegania relacji. Przez klasyfikowanie Piaget rozumie ność klasyfikacji oraz dostrzegania relacji. Przez klasyfikowanie Piaget rozumie
grupowanie elementów na zasadzie podobieństwa, natomiast spostrzeganie rela- 27 grupowanie elementów na zasadzie podobieństwa, natomiast spostrzeganie rela- 27

cji możliwe jest dzięki zauważaniu różnic między elementami. Zmieniający się cji możliwe jest dzięki zauważaniu różnic między elementami. Zmieniający się
wraz z rozwojem poziom tych zdolności jest przedmiotem diagnozy przy użyciu wraz z rozwojem poziom tych zdolności jest przedmiotem diagnozy przy użyciu
testów DMI. Tak więc testy te umożliwiają ocenę stopnia rozwojowego zaawan- testów DMI. Tak więc testy te umożliwiają ocenę stopnia rozwojowego zaawan-
sowania myślenia operacyjnego i wykrywania jego deficytów. Każdy z testów sowania myślenia operacyjnego i wykrywania jego deficytów. Każdy z testów
zawiera zadania zrealizowane zarówno na materiale werbalnym, rysunkowym, zawiera zadania zrealizowane zarówno na materiale werbalnym, rysunkowym,
jak i liczbowym. Oprócz oceny ilościowej, testy DMI dostarczają jakościowych jak i liczbowym. Oprócz oceny ilościowej, testy DMI dostarczają jakościowych
informacji o stopniu rozwoju operacji umysłowych. Możliwa jest także analiza informacji o stopniu rozwoju operacji umysłowych. Możliwa jest także analiza
uzasadnień odpowiedzi udzielanych przez dziecko. uzasadnień odpowiedzi udzielanych przez dziecko.
Nieco dokładniej zostanie opisana konstrukcja testów DMI-2. Każdy z nich Nieco dokładniej zostanie opisana konstrukcja testów DMI-2. Każdy z nich
składa się z dwóch podtestów, z których jeden zawiera zadania o strukturze klas, składa się z dwóch podtestów, z których jeden zawiera zadania o strukturze klas,
a drugi – zadania o strukturze relacji. W ramach każdego z podtestów występują a drugi – zadania o strukturze relacji. W ramach każdego z podtestów występują
trzy rodzaje zadań. Pierwszym, i najprostszym z nich, jest Uzupełnianie. Zadania trzy rodzaje zadań. Pierwszym, i najprostszym z nich, jest Uzupełnianie. Zadania
tego typu polegają na uzupełnianiu trójelementowej klasy lub serii czwartym ele- tego typu polegają na uzupełnianiu trójelementowej klasy lub serii czwartym ele-
mentem. Drugi rodzaj pozycji testowych to Analogie. Zadaniem osoby badanej mentem. Drugi rodzaj pozycji testowych to Analogie. Zadaniem osoby badanej
jest dopasowanie do istniejącej pary elementów drugiej pary elementów na wzór jest dopasowanie do istniejącej pary elementów drugiej pary elementów na wzór
pierwszej. Ostatni rodzaj zadań stanowi Mnożenie. Nie chodzi tu oczywiście pierwszej. Ostatni rodzaj zadań stanowi Mnożenie. Nie chodzi tu oczywiście
o mnożenie w sensie algebraicznym, a o mnożenie klas lub relacji, czyli o po- o mnożenie w sensie algebraicznym, a o mnożenie klas lub relacji, czyli o po-
szukiwanie ich części wspólnych. Badany ma tu uzupełnić dwie klasy lub serie szukiwanie ich części wspólnych. Badany ma tu uzupełnić dwie klasy lub serie
wspólnym elementem, spełniającym reguły, wedle których dobrano elementy wspólnym elementem, spełniającym reguły, wedle których dobrano elementy
tych dwóch układów. tych dwóch układów.
Właściwe odpowiedzi badany każdorazowo wybiera spośród czterech (DMI) Właściwe odpowiedzi badany każdorazowo wybiera spośród czterech (DMI)
lub pięciu (DMI-2) podanych. Odpowiedzi punktuje się w skali od 0 do 3 (w za- lub pięciu (DMI-2) podanych. Odpowiedzi punktuje się w skali od 0 do 3 (w za-
leżności od stopnia ich poprawności). leżności od stopnia ich poprawności).
Testy DMI przeznaczone są dla dzieci w wieku szkolnym. Przeprowadza się je Testy DMI przeznaczone są dla dzieci w wieku szkolnym. Przeprowadza się je
indywidualne lub grupowo (zależnie od wersji) w trakcie dwu sesji. Czas badania indywidualne lub grupowo (zależnie od wersji) w trakcie dwu sesji. Czas badania
testami DMI jest nieograniczony. Wersje przeznaczone do badań indywidualnych testami DMI jest nieograniczony. Wersje przeznaczone do badań indywidualnych
tym różnią się od wersji do badań grupowych, że w tych pierwszych przewi- tym różnią się od wersji do badań grupowych, że w tych pierwszych przewi-
dziane jest zbieranie od dzieci uzasadnień odpowiedzi. Wersje przeznaczone do dziane jest zbieranie od dzieci uzasadnień odpowiedzi. Wersje przeznaczone do
badań indywidualnych stanowią próbę połączenia diagnozy psychometrycznej badań indywidualnych stanowią próbę połączenia diagnozy psychometrycznej
z ideami diagnozy dynamicznej. z ideami diagnozy dynamicznej.
Testy DMI można stosować zamiast, lub jako uzupełnienie, testu inteligencji, Testy DMI można stosować zamiast, lub jako uzupełnienie, testu inteligencji,
w celu oceny ogólnego poziomu umysłowego dziecka. Ponadto mogą być one w celu oceny ogólnego poziomu umysłowego dziecka. Ponadto mogą być one
przydatne w diagnozowaniu stopnia rozwojowego zaawansowania myślenia ope- przydatne w diagnozowaniu stopnia rozwojowego zaawansowania myślenia ope-
racyjnego i w określaniu jego deficytów. Są to istotne przesłanki prognozowania racyjnego i w określaniu jego deficytów. Są to istotne przesłanki prognozowania
osiągnięć szkolnych lub wykrywania przyczyn trudności w nauce. Uzyskiwane osiągnięć szkolnych lub wykrywania przyczyn trudności w nauce. Uzyskiwane
informacje jakościowe (zwłaszcza pochodzące z badań indywidualnych) mogą informacje jakościowe (zwłaszcza pochodzące z badań indywidualnych) mogą
być pomocne przy planowaniu oddziaływań korekcyjno‑wychowawczych. być pomocne przy planowaniu oddziaływań korekcyjno‑wychowawczych.
Testy DMI kończą prezentację wybranych, najbardziej znanych w Polsce skal Testy DMI kończą prezentację wybranych, najbardziej znanych w Polsce skal
rozwojowych. rozwojowych.
28 28

2.1.2. Testy inteligencji ogólnej i zdolności 2.1.2. Testy inteligencji ogólnej i zdolności
Testy opisane w niniejszym podrozdziale przeznaczone są głównie dla osób Testy opisane w niniejszym podrozdziale przeznaczone są głównie dla osób
dorosłych, choć mogą być również wykorzystane w badaniach dzieci i młodzie- dorosłych, choć mogą być również wykorzystane w badaniach dzieci i młodzie-
ży. Jednak nie uwzględniają one w swojej konstrukcji specyfiki zmian zachodzą- ży. Jednak nie uwzględniają one w swojej konstrukcji specyfiki zmian zachodzą-
cych wraz z rozwojem człowieka. cych wraz z rozwojem człowieka.
Jednymi z bardziej rozpowszechnionych narzędzi tego typu są Testy Matryc Jednymi z bardziej rozpowszechnionych narzędzi tego typu są Testy Matryc
Ravena, diagnozujące inteligencję niezależną od doświadczenia osoby badanej, Ravena, diagnozujące inteligencję niezależną od doświadczenia osoby badanej,
jej wykształcenia, pochodzenia itp. Sprawdzają one aktualne zdolności spostrze- jej wykształcenia, pochodzenia itp. Sprawdzają one aktualne zdolności spostrze-
gania, a także logicznego myślenia. gania, a także logicznego myślenia.
Testy Matryc Ravena przeznaczone są do badań grupowych, choć można Testy Matryc Ravena przeznaczone są do badań grupowych, choć można
też przy ich pomocy badać pojedyncze osoby. Testy te posiadają kilka wersji. też przy ich pomocy badać pojedyncze osoby. Testy te posiadają kilka wersji.
Niezależnie od wersji testu, podstawowe założenia wszystkich jego odmian są Niezależnie od wersji testu, podstawowe założenia wszystkich jego odmian są
jednakowe. Testy Matryc są testami niewerbalnymi. Zadania mają postać niepeł- jednakowe. Testy Matryc są testami niewerbalnymi. Zadania mają postać niepeł-
nych wzorów (matryc), w których należy uzupełnić brakujący fragment. Osoba nych wzorów (matryc), w których należy uzupełnić brakujący fragment. Osoba
badana musi wychwycić relację łączącą elementy matrycy i wskazać brakujący badana musi wychwycić relację łączącą elementy matrycy i wskazać brakujący
element wzoru z podanych alternatywnych rozwiązań (rys. 2.2.). element wzoru z podanych alternatywnych rozwiązań (rys. 2.2.).
Rysunek 2.2. Przykłady zadań zbliżonych do pozycji testowych Testu Matryc Ravena Rysunek 2.2. Przykłady zadań zbliżonych do pozycji testowych Testu Matryc Ravena
Zadania połączone są w serie. W zależności od wersji, liczba zadań w serii, Zadania połączone są w serie. W zależności od wersji, liczba zadań w serii,
a także samych serii jest różna. Zarówno serie, jak i zadania w seriach ułożone są a także samych serii jest różna. Zarówno serie, jak i zadania w seriach ułożone są
rosnąco, według stopnia trudności. Poszczególne wersje testu matryc różnią się rosnąco, według stopnia trudności. Poszczególne wersje testu matryc różnią się
między sobą poziomem trudności poszczególnych zadań, jak i całych serii. między sobą poziomem trudności poszczególnych zadań, jak i całych serii.
Poszczególne wersje przeznaczone są dla osób o różnym poziomie intelektu- Poszczególne wersje przeznaczone są dla osób o różnym poziomie intelektu-
alnym i w różnym wieku. Najbardziej znana jest wersja Standard, która posiada 29 alnym i w różnym wieku. Najbardziej znana jest wersja Standard, która posiada 29

trzy formy: Klasyczną, Równoległą oraz Plus. Formy Klasyczna i Równoległa trzy formy: Klasyczną, Równoległą oraz Plus. Formy Klasyczna i Równoległa
charakteryzują się tym samym poziomem trudności, podczas gdy forma Plus charakteryzują się tym samym poziomem trudności, podczas gdy forma Plus
jest znacznie od nich trudniejsza. Oprócz wersji Standard, istnieje Test Matryc jest znacznie od nich trudniejsza. Oprócz wersji Standard, istnieje Test Matryc
w wersji Kolorowej oraz Test Matryc w wersji Dla Zaawansowanych. w wersji Kolorowej oraz Test Matryc w wersji Dla Zaawansowanych.
Test Matryc Ravena w wersji Standard – forma Klasyczna (TMS-K) został Test Matryc Ravena w wersji Standard – forma Klasyczna (TMS-K) został
stworzony z myślą o badaniu osób o zróżnicowanym, ale nie skrajnie wysokim stworzony z myślą o badaniu osób o zróżnicowanym, ale nie skrajnie wysokim
lub skrajnie niskim poziomie rozwoju intelektualnego. Na ogół wykorzystuje się lub skrajnie niskim poziomie rozwoju intelektualnego. Na ogół wykorzystuje się
go do badania osób o przeciętnym poziomie zdolności. Dla osób o obniżonej go do badania osób o przeciętnym poziomie zdolności. Dla osób o obniżonej
inteligencji jest on za trudny, zaś dla osób wybitnie zdolnych – za łatwy. Wersja inteligencji jest on za trudny, zaś dla osób wybitnie zdolnych – za łatwy. Wersja
Dla Zaawansowanych może być natomiast szczególnie użyteczna we wszystkich Dla Zaawansowanych może być natomiast szczególnie użyteczna we wszystkich
tych przypadkach, w których chodzi o wybranie osób o ponadprzeciętnej spraw- tych przypadkach, w których chodzi o wybranie osób o ponadprzeciętnej spraw-
ności intelektualnej (Jaworowska i Szustrowa, 1992). ności intelektualnej (Jaworowska i Szustrowa, 1992).
Test Matryc Ravena w wersji Kolorowej (TMK) przeznaczony jest dla dzieci Test Matryc Ravena w wersji Kolorowej (TMK) przeznaczony jest dla dzieci
w wieku 5–10 lat i osób o obniżonych zdolnościach intelektualnych. Zadania w wieku 5–10 lat i osób o obniżonych zdolnościach intelektualnych. Zadania
mają taką samą postać jak w wersji Standard i Dla Zaawansowanych z tym, że mają taką samą postać jak w wersji Standard i Dla Zaawansowanych z tym, że
są znacznie łatwiejsze i wydrukowano je w większości na barwnym tle (w wer- są znacznie łatwiejsze i wydrukowano je w większości na barwnym tle (w wer-
sji Standard i Dla Zawansowanych wszystkie pozycje testowe są czarno-białe). sji Standard i Dla Zawansowanych wszystkie pozycje testowe są czarno-białe).
Badanie tym testem może być przeprowadzane indywidualnie (najmłodsze dzie- Badanie tym testem może być przeprowadzane indywidualnie (najmłodsze dzie-
ci) lub w małych grupach (Jaworowska i Szustrowa, 1992). ci) lub w małych grupach (Jaworowska i Szustrowa, 1992).
Testy Matryc Ravena są jednymi z najbardziej znanych i najczęściej stosowa- Testy Matryc Ravena są jednymi z najbardziej znanych i najczęściej stosowa-
nych testów na świecie w praktyce psychologicznej (Jaworowska i Szustrowa, nych testów na świecie w praktyce psychologicznej (Jaworowska i Szustrowa,
2000). Narzędzia te są dość często wykorzystywane do selekcji kandydatów do 2000). Narzędzia te są dość często wykorzystywane do selekcji kandydatów do
pracy na różnego typu stanowiska, wymagające określonego poziomu intelektu- pracy na różnego typu stanowiska, wymagające określonego poziomu intelektu-
alnego. Testy Ravena umożliwiają także identyfikację osób o obniżonej inteli- alnego. Testy Ravena umożliwiają także identyfikację osób o obniżonej inteli-
gencji. Wszystkie opisane wersje testów Ravena posiadają polskie aktualne ada- gencji. Wszystkie opisane wersje testów Ravena posiadają polskie aktualne ada-
ptacje i mogą być stosowane w diagnozie indywidualnej w naszym kraju. ptacje i mogą być stosowane w diagnozie indywidualnej w naszym kraju.
Innym narzędziem powszechnie używanymi na całym świecie, przeznaczo- Innym narzędziem powszechnie używanymi na całym świecie, przeznaczo-
nym do pomiaru inteligencji są Skale Inteligencji Wechslera. Jest to grupa na- nym do pomiaru inteligencji są Skale Inteligencji Wechslera. Jest to grupa na-
rzędzi przeznaczona dla osób w różnym wieku. Pierwszą z tych skal opracował rzędzi przeznaczona dla osób w różnym wieku. Pierwszą z tych skal opracował
Amerykanin – David Wechsler w 1939 roku. Później powstała także wersja dla Amerykanin – David Wechsler w 1939 roku. Później powstała także wersja dla
dzieci. Skale Wechslera zyskały sobie ogromną popularność i wraz z upływem dzieci. Skale Wechslera zyskały sobie ogromną popularność i wraz z upływem
czasu wielokrotnie były uaktualniane, a także zaadaptowano je do użytku w wie- czasu wielokrotnie były uaktualniane, a także zaadaptowano je do użytku w wie-
lu krajach świata. lu krajach świata.
Skale Inteligencji Wechslera nie są jednorodnymi testami składającymi się Skale Inteligencji Wechslera nie są jednorodnymi testami składającymi się
z zadań o podobnej konstrukcji czy formie. Skonstruowane zostały one jako na- z zadań o podobnej konstrukcji czy formie. Skonstruowane zostały one jako na-
rzędzia składające się z pewnej liczby testów (zależnej od wersji skali) i z tego rzędzia składające się z pewnej liczby testów (zależnej od wersji skali) i z tego
powodu nazywane są bateriami. Testy (zwane także „podtestami”, ze względu na powodu nazywane są bateriami. Testy (zwane także „podtestami”, ze względu na
to, że stanowią część większej całości) wchodzące w skład Skal Wechslera dzielą to, że stanowią część większej całości) wchodzące w skład Skal Wechslera dzielą
się na dwie grupy: testy werbalne oraz testy niewerbalne. Oprócz wyniku, w każ- się na dwie grupy: testy werbalne oraz testy niewerbalne. Oprócz wyniku, w każ-
dym z podtestów, możliwe jest obliczenie łącznego wyniku testów werbalnych dym z podtestów, możliwe jest obliczenie łącznego wyniku testów werbalnych
30 (zwanego werbalnym ilorazem inteligencji), wyniku testów niewerbalnych (zwa- 30 (zwanego werbalnym ilorazem inteligencji), wyniku testów niewerbalnych (zwa-

nego niewerbalnym ilorazem inteligencji), a także ogólnego ilorazu inteligencji nego niewerbalnym ilorazem inteligencji), a także ogólnego ilorazu inteligencji
obliczanego na podstawie wyników wszystkich testów. obliczanego na podstawie wyników wszystkich testów.
Najbardziej znana jest Skala Wechslera przeznaczona do pomiaru inteligen- Najbardziej znana jest Skala Wechslera przeznaczona do pomiaru inteligen-
cji osób dorosłych. Obecna wersja tego testu tzw. WAIS-R (Wechsler Adult cji osób dorosłych. Obecna wersja tego testu tzw. WAIS-R (Wechsler Adult
Intelligence Scale-Revised) zawiera sześć podtestów werbalnych oraz pięć podte- Intelligence Scale-Revised) zawiera sześć podtestów werbalnych oraz pięć podte-
stów niewerbalnych. Do testów werbalnych należą testy o następujących nazwach: stów niewerbalnych. Do testów werbalnych należą testy o następujących nazwach:
Wiadomości, Słownik, Rozumienie, Arytmetyka, Podobieństwa i Powtarzanie Wiadomości, Słownik, Rozumienie, Arytmetyka, Podobieństwa i Powtarzanie
Cyfr. Test Wiadomości bada ogólny zakres zgromadzonych informacji oraz po- Cyfr. Test Wiadomości bada ogólny zakres zgromadzonych informacji oraz po-
sługiwanie się wiadomościami zgromadzonymi w pamięci długotrwałej. Zawiera sługiwanie się wiadomościami zgromadzonymi w pamięci długotrwałej. Zawiera
on pytania dotyczące wiedzy ogólnej na temat ważnych zdarzeń z historii, zna- on pytania dotyczące wiedzy ogólnej na temat ważnych zdarzeń z historii, zna-
nych osób, geografii, literatury czy odkryć naukowych. Pytania te mają charak- nych osób, geografii, literatury czy odkryć naukowych. Pytania te mają charak-
ter otwarty, co czasem stwarza pewną trudność w ocenianiu odpowiedzi. Test ter otwarty, co czasem stwarza pewną trudność w ocenianiu odpowiedzi. Test
Słownik bada używanie języka i zdolność uczenia się słownego. Jest to typowy Słownik bada używanie języka i zdolność uczenia się słownego. Jest to typowy
test stosowany w narzędziach przeznaczonych do badania zdolności werbalnych. test stosowany w narzędziach przeznaczonych do badania zdolności werbalnych.
Jego pozycje testowe składają się z pojedynczych słów (takich, jak np. „rok”, Jego pozycje testowe składają się z pojedynczych słów (takich, jak np. „rok”,
„chleb”, „sen”, „zainstalować”, „wieczny”, „powłóczyście”), a zadaniem osoby „chleb”, „sen”, „zainstalować”, „wieczny”, „powłóczyście”), a zadaniem osoby
badanej jest podawanie własnymi słowami ich znaczeń. Test Rozumienie bada badanej jest podawanie własnymi słowami ich znaczeń. Test Rozumienie bada
wiedzę dotyczącą reguł społecznych i moralnych oraz rozumienie i ocenianie wiedzę dotyczącą reguł społecznych i moralnych oraz rozumienie i ocenianie
sytuacji społecznych. Składa się on z pytań wymagających od badanego uzasad- sytuacji społecznych. Składa się on z pytań wymagających od badanego uzasad-
niania istniejących norm społecznych i zwyczajów, a także rozumienia przysłów. niania istniejących norm społecznych i zwyczajów, a także rozumienia przysłów.
Test Arytmetyka bada rozumowanie liczbowe i tempo manipulacji liczbami, kon- Test Arytmetyka bada rozumowanie liczbowe i tempo manipulacji liczbami, kon-
centrację i uwagę, rozumowanie logiczne, abstrakcyjne. Składa się on z zadań centrację i uwagę, rozumowanie logiczne, abstrakcyjne. Składa się on z zadań
arytmetycznych z treścią, polegających np. na obliczaniu należnej reszty przy arytmetycznych z treścią, polegających np. na obliczaniu należnej reszty przy
płaceniu w sklepie itp. Rozwiązując zadania, badany nie może posługiwać się płaceniu w sklepie itp. Rozwiązując zadania, badany nie może posługiwać się
długopisem ani żadnymi innymi pomocami, czas rozwiązania każdego zadania długopisem ani żadnymi innymi pomocami, czas rozwiązania każdego zadania
jest ograniczony do 60 lub (w przypadku zadań trudniejszych) 120 sekund. Test jest ograniczony do 60 lub (w przypadku zadań trudniejszych) 120 sekund. Test
Podobieństwa bada rozumowanie przez analogię i operowanie pojęciami. Każda Podobieństwa bada rozumowanie przez analogię i operowanie pojęciami. Każda
z pozycji tego testu zawiera parę słów oznaczających przedmioty lub pojęcia. z pozycji tego testu zawiera parę słów oznaczających przedmioty lub pojęcia.
Zadaniem osoby badanej jest znalezienie czegoś, co łączy te słowa. Zwykle Zadaniem osoby badanej jest znalezienie czegoś, co łączy te słowa. Zwykle
chodzi o wskazanie wspólnej kategorii, do której należą przedmioty bądź poję- chodzi o wskazanie wspólnej kategorii, do której należą przedmioty bądź poję-
cia nadrzędnego, czy też dostrzeżenie jakiejś wspólnej właściwości. W testach cia nadrzędnego, czy też dostrzeżenie jakiejś wspólnej właściwości. W testach
Słownik, Rozumienie i Podobieństwa pozycje testowe mają charakter otwarty, Słownik, Rozumienie i Podobieństwa pozycje testowe mają charakter otwarty,
a odpowiedzi badanego oceniane są na trzpunktowej skali, w której 0 oznacza a odpowiedzi badanego oceniane są na trzpunktowej skali, w której 0 oznacza
odpowiedź niepoprawną, 1 – odpowiedź częściowo poprawną, a 2 – odpowiedź odpowiedź niepoprawną, 1 – odpowiedź częściowo poprawną, a 2 – odpowiedź
całkowicie poprawną. Test Powtarzanie Cyfr bada zdolność do koncentracji uwa- całkowicie poprawną. Test Powtarzanie Cyfr bada zdolność do koncentracji uwa-
gi i możliwości uczenia się. Pozycje testowe składają się z szeregu cyfr, któ- gi i możliwości uczenia się. Pozycje testowe składają się z szeregu cyfr, któ-
re odczytywane są na głos badanemu przez psychologa (badany nie widzi tych re odczytywane są na głos badanemu przez psychologa (badany nie widzi tych
cyfr). Zadaniem badanego jest powtarzanie ciągów tych liczb wprost jak i wspak. cyfr). Zadaniem badanego jest powtarzanie ciągów tych liczb wprost jak i wspak.
Początkowe pozycje są proste i składają się z małej liczby cyfr (np. 5 – 3 – 9), Początkowe pozycje są proste i składają się z małej liczby cyfr (np. 5 – 3 – 9),
jednak ciągu 9 cyfr nie jest w stanie powtórzyć już prawie nikt. jednak ciągu 9 cyfr nie jest w stanie powtórzyć już prawie nikt.
Testami niewerbalnymi w WAIS-R są: Braki w obrazkach, Porządkowanie ob- Testami niewerbalnymi w WAIS-R są: Braki w obrazkach, Porządkowanie ob-
razków, Klocki, Układanki i Symbole cyfr. Test Braki w obrazkach bada percep- 31 razków, Klocki, Układanki i Symbole cyfr. Test Braki w obrazkach bada percep- 31

cję związku całości z częściami figur, zdolność rozróżniania detali istotnych od cję związku całości z częściami figur, zdolność rozróżniania detali istotnych od
nieistotnych oraz zdolność spostrzegania. W teście tym badanemu prezentowane nieistotnych oraz zdolność spostrzegania. W teście tym badanemu prezentowane
są rysunki przedstawiające znane przedmioty czy sytuacje. Na każdym z rysun- są rysunki przedstawiające znane przedmioty czy sytuacje. Na każdym z rysun-
ków opuszczono jakiś szczegół. Zadaniem osoby badanej jest wskazanie braku- ków opuszczono jakiś szczegół. Zadaniem osoby badanej jest wskazanie braku-
jącego elementu. Przykładowe zadanie tego testu prezentuje rys. 2.3. jącego elementu. Przykładowe zadanie tego testu prezentuje rys. 2.3.
Rysunek 2.3. Przykład zadania zbliżonego do pozycji testowych testu Braki w obrazkach Rysunek 2.3. Przykład zadania zbliżonego do pozycji testowych testu Braki w obrazkach
ze Skali Wechslera ze Skali Wechslera
Test Porządkowanie obrazków (rys. 2.4.) bada rozumienie sytuacji interperso- Test Porządkowanie obrazków (rys. 2.4.) bada rozumienie sytuacji interperso-
nalnych i umiejętność przewidywania konsekwencji. Zadania tego testu zawie- nalnych i umiejętność przewidywania konsekwencji. Zadania tego testu zawie-
rają po kilka obrazków wydrukowanych na odrębnych kartonikach. Obrazki te rają po kilka obrazków wydrukowanych na odrębnych kartonikach. Obrazki te
należy uporządkować w taki sposób, aby zachowana została kolejność czasowa należy uporządkować w taki sposób, aby zachowana została kolejność czasowa
następowania po sobie kolejnych zdarzeń. następowania po sobie kolejnych zdarzeń.
Rysunek 2.4. Przykład zadania zbliżonego do pozycji testowych testu Porządkowanie Rysunek 2.4. Przykład zadania zbliżonego do pozycji testowych testu Porządkowanie
obrazków ze Skali Wechslera obrazków ze Skali Wechslera
Test Klocki bada koordynację wzrokowo-ruchową oraz zdolności analizy Test Klocki bada koordynację wzrokowo-ruchową oraz zdolności analizy
i syntezy. Składa się on z dziewięciu sześciennych klocków, których dwie ścian- i syntezy. Składa się on z dziewięciu sześciennych klocków, których dwie ścian-
ki pomalowano na biało, dwie na czerwono, a dwie są w połowie pomalowane ki pomalowano na biało, dwie na czerwono, a dwie są w połowie pomalowane
na biało i czerwono w ten sposób, że linia podziału ścianki na część czerwoną na biało i czerwono w ten sposób, że linia podziału ścianki na część czerwoną
i część białą jest przekątną ścianki (rys. 2.5.). i część białą jest przekątną ścianki (rys. 2.5.).
32 32

Rysunek. 2.5. Elementy testu Klocki ze Skali Wechslera Rysunek. 2.5. Elementy testu Klocki ze Skali Wechslera
Poszczególne pozycje testowe składają się z kartoników na których wydru- Poszczególne pozycje testowe składają się z kartoników na których wydru-
kowano róże kombinacje ułożenia klocków. Są to układy dwuwymiarowe (rys. kowano róże kombinacje ułożenia klocków. Są to układy dwuwymiarowe (rys.
2.6.). Zadaniem osoby badanej jest odwzorowanie poszczególnych układów za 2.6.). Zadaniem osoby badanej jest odwzorowanie poszczególnych układów za
pomocą klocków. pomocą klocków.
Rysunek. 2.6. Wzór zbliżony do układów klocków, jakie należy odtworzyć w teście Klocki Rysunek. 2.6. Wzór zbliżony do układów klocków, jakie należy odtworzyć w teście Klocki
ze Skali Wechslera ze Skali Wechslera
Test Układanki bada zdolność rozróżniania podobnych konfiguracji, umiejęt- Test Układanki bada zdolność rozróżniania podobnych konfiguracji, umiejęt-
ność analizy i syntezy, koordynację wzrokowo-ruchową, a także szybkość ma- ność analizy i syntezy, koordynację wzrokowo-ruchową, a także szybkość ma-
nipulacji. Zadania tego testu polegają na układaniu pewnych całości (np. twarzy nipulacji. Zadania tego testu polegają na układaniu pewnych całości (np. twarzy
człowieka) z pociętych fragmentów obrazka (rys. 2.7. i 2.8.). człowieka) z pociętych fragmentów obrazka (rys. 2.7. i 2.8.).
Rysunek 2.7. Elementy pozycji testowej zbliżonej do zadań testu Układanki ze Skali Rysunek 2.7. Elementy pozycji testowej zbliżonej do zadań testu Układanki ze Skali
Wechslera 33 Wechslera 33

Rysunek 2.8. Prawidłowo ułożone elementy pozycji testowej z rys. 2.7. Rysunek 2.8. Prawidłowo ułożone elementy pozycji testowej z rys. 2.7.
Test Symbole cyfr bada zdolności uczenia się, koncentrację i pamięć krót- Test Symbole cyfr bada zdolności uczenia się, koncentrację i pamięć krót-
kotrwałą. Test ten składa się ze swego rodzaju szyfru przyporządkowującego kotrwałą. Test ten składa się ze swego rodzaju szyfru przyporządkowującego
każdej z dziesięciu cyfr pewne symbole graficzne. Zadaniem osoby badanej jest każdej z dziesięciu cyfr pewne symbole graficzne. Zadaniem osoby badanej jest
zakodowanie długiego ciągu cyfr przy użyciu podanego szyfru. Czas wykonania zakodowanie długiego ciągu cyfr przy użyciu podanego szyfru. Czas wykonania
jest ograniczony tak, aby żaden badany nie zdążył zakodować wszystkich cyfr jest ograniczony tak, aby żaden badany nie zdążył zakodować wszystkich cyfr
(których jest 100) w wyznaczonym czasie (rys. 2.8.). Oczywiście poszczególne (których jest 100) w wyznaczonym czasie (rys. 2.8.). Oczywiście poszczególne
osoby różnią się tym, jak dużo cyfr udało im się zakodować w określonym czasie osoby różnią się tym, jak dużo cyfr udało im się zakodować w określonym czasie
(Hornowska, 2004). (Hornowska, 2004).
Rysunek 2.9. Przykład zadania zbliżonego do pozycji testowych testu Symbole cyfr ze Rysunek 2.9. Przykład zadania zbliżonego do pozycji testowych testu Symbole cyfr ze
Skali Wechslera Skali Wechslera
Oprócz WAIS-R, przeznaczonego dla osób powyżej 18 lat, stworzono też wer- Oprócz WAIS-R, przeznaczonego dla osób powyżej 18 lat, stworzono też wer-
sję dla dzieci od 6 do 17 lat (WICS-R – Wechsler Intelligence Scale for Chidren- sję dla dzieci od 6 do 17 lat (WICS-R – Wechsler Intelligence Scale for Chidren-
Revised) oraz wersję dla małych dzieci od 4 lat do 6,5 roku (WPSSI – Wechsler Revised) oraz wersję dla małych dzieci od 4 lat do 6,5 roku (WPSSI – Wechsler
Preschool and Primary Scale of Intelligence). Wersja dla dzieci składa się z ta- Preschool and Primary Scale of Intelligence). Wersja dla dzieci składa się z ta-
kich samych testów słownych i bezsłownych jak wersja dla dorosłych (oczywi- kich samych testów słownych i bezsłownych jak wersja dla dorosłych (oczywi-
ście o innym poziomie trudności). Dodatkowo WISC-R zawiera test Labirynty ście o innym poziomie trudności). Dodatkowo WISC-R zawiera test Labirynty
(rys. 2.10.) przeznaczony do badania koordynacji wzrokowo-ruchowej i orienta- (rys. 2.10.) przeznaczony do badania koordynacji wzrokowo-ruchowej i orienta-
cji w przestrzeni. Zadania tego testu polegają na znalezieniu wyjścia z labiryntu, cji w przestrzeni. Zadania tego testu polegają na znalezieniu wyjścia z labiryntu,
przy czym poszukiwanie drogi wyjścia rozpoczyna się od środka labiryntu. Test przy czym poszukiwanie drogi wyjścia rozpoczyna się od środka labiryntu. Test
składa się z szeregu labiryntów o wzrastającym poziomie złożoności. składa się z szeregu labiryntów o wzrastającym poziomie złożoności.
34 34

Rysunek 2.10. Przykład zadania zbliżonego do pozycji testowych testu Labirynt ze Skali Rysunek 2.10. Przykład zadania zbliżonego do pozycji testowych testu Labirynt ze Skali
Wechslera dla dzieci Wechslera dla dzieci
Skale Wechslera służą do pomiaru poziomu inteligencji ogólnej przede wszyst- Skale Wechslera służą do pomiaru poziomu inteligencji ogólnej przede wszyst-
kim w praktyce psychologicznej np. w poradnictwie szkolnym i zawodowym, kim w praktyce psychologicznej np. w poradnictwie szkolnym i zawodowym,
a także w psychologii klinicznej. Badanie Skalą Wechslera dostarcza informacji a także w psychologii klinicznej. Badanie Skalą Wechslera dostarcza informacji
dotyczących wszechstronnego opisu funkcjonowania poznawczego człowieka. dotyczących wszechstronnego opisu funkcjonowania poznawczego człowieka.
Dzięki temu możliwa jest diagnoza szczególnych uzdolnień i możliwości intelek- Dzięki temu możliwa jest diagnoza szczególnych uzdolnień i możliwości intelek-
tualnych oraz zaniedbanych, słabo rozwiniętych sfer funkcjonowania poznaw- tualnych oraz zaniedbanych, słabo rozwiniętych sfer funkcjonowania poznaw-
czego. Jest to ważne zwłaszcza u dzieci, gdyż umożliwia określenie obszarów, czego. Jest to ważne zwłaszcza u dzieci, gdyż umożliwia określenie obszarów,
w których dziecko powinno być szczególnie stymulowane, by osiągnęło pełniej- w których dziecko powinno być szczególnie stymulowane, by osiągnęło pełniej-
szy rozwój swojego intelektu. Możliwe jest także zdiagnozowanie sfer funkcjo- szy rozwój swojego intelektu. Możliwe jest także zdiagnozowanie sfer funkcjo-
nowania intelektualnego, w których zaszły szczególnie niekorzystne zmiany np. nowania intelektualnego, w których zaszły szczególnie niekorzystne zmiany np.
w wyniku uszkodzenia mózgu czy też innego procesu chorobowego. w wyniku uszkodzenia mózgu czy też innego procesu chorobowego.
Skale Wechslera są narzędziami przeznaczonymi do badań indywidualnych Skale Wechslera są narzędziami przeznaczonymi do badań indywidualnych
i nie mogą być stosowane w badaniach grupowych. Wynika to ze złożonej pro- i nie mogą być stosowane w badaniach grupowych. Wynika to ze złożonej pro-
cedury badania, wymagającej od diagnosty zarówno prezentowania materiału cedury badania, wymagającej od diagnosty zarówno prezentowania materiału
testowego (rozkładania pomocy testowych, ustnego zadawania pytań itp), zapi- testowego (rozkładania pomocy testowych, ustnego zadawania pytań itp), zapi-
sywania odpowiedzi badanego, jak też jednoczesnego rejestrowania czasu wy- sywania odpowiedzi badanego, jak też jednoczesnego rejestrowania czasu wy-
konania poszczególnych zadań. WAIS-R i WICS-R mają aktualne polskie ada- konania poszczególnych zadań. WAIS-R i WICS-R mają aktualne polskie ada-
ptacje i mogą być stosowane w naszym kraju (Brzeziński, Gaul, Hornowska, ptacje i mogą być stosowane w naszym kraju (Brzeziński, Gaul, Hornowska,
Machowski, Zakrzewska, 2005; Matczak, Piotrowska, Ciarkowska, 1998). Machowski, Zakrzewska, 2005; Matczak, Piotrowska, Ciarkowska, 1998).
Oryginalnymi narzędziami polskimi przeznaczonymi do pomiaru zarówno in- Oryginalnymi narzędziami polskimi przeznaczonymi do pomiaru zarówno in-
teligencji ogólnej, jak i wybranych zdolności są baterie testów APIS-Z i APIS-P teligencji ogólnej, jak i wybranych zdolności są baterie testów APIS-Z i APIS-P
(Matczak, Jaworowska, Ciechanowicz, Stańczak, 2006; Matczak, Jaworowska, (Matczak, Jaworowska, Ciechanowicz, Stańczak, 2006; Matczak, Jaworowska,
Ciechanowicz, Stańczak, Zalewska, 2005). Ciechanowicz, Stańczak, Zalewska, 2005).
Bateria Testów APIS-Z przeznaczona jest dla młodzieży kończącej szkołę Bateria Testów APIS-Z przeznaczona jest dla młodzieży kończącej szkołę
średnią, studentów i dorosłych, natomiast APIS-P jest narzędziem stworzonym średnią, studentów i dorosłych, natomiast APIS-P jest narzędziem stworzonym
z myślą o uczniach kończących naukę w szkole podstawowej, uczęszczających 35 z myślą o uczniach kończących naukę w szkole podstawowej, uczęszczających 35

do gimnazjum i rozpoczynających naukę w szkole ponadgimnazjalnej. Jak więc do gimnazjum i rozpoczynających naukę w szkole ponadgimnazjalnej. Jak więc
nietrudno się domyślić, pozycje testowe, wchodzące w skład baterii testów nietrudno się domyślić, pozycje testowe, wchodzące w skład baterii testów
APIS-Z, przeciętnie są trudniejsze niż te znajdujące się w APIS-P. APIS-Z, przeciętnie są trudniejsze niż te znajdujące się w APIS-P.
Podobnie jak Skale Wechslera, również baterie APIS składają się z pewnej Podobnie jak Skale Wechslera, również baterie APIS składają się z pewnej
liczby testów. Konstruując je, uwzględniono cztery typy zdolności: abstrakcyjno- liczby testów. Konstruując je, uwzględniono cztery typy zdolności: abstrakcyjno-
-logiczne, werbalne, wzrokowo-przestrzenne i społeczne. Każdą z tych zdolności -logiczne, werbalne, wzrokowo-przestrzenne i społeczne. Każdą z tych zdolności
reprezentują dwa testy. Tak więc APIS-P i APIS-Z składają się z ośmiu testów: reprezentują dwa testy. Tak więc APIS-P i APIS-Z składają się z ośmiu testów:
Klasyfikacja, Przekształcenia liczb (zdolności abstrakcyjno-logiczne), Synonimy, Klasyfikacja, Przekształcenia liczb (zdolności abstrakcyjno-logiczne), Synonimy,
Nowe słowa (zdolności werbalne), Kwadraty, Klocki (zdolności wzrokowo-prze- Nowe słowa (zdolności werbalne), Kwadraty, Klocki (zdolności wzrokowo-prze-
strzenne), Zachowania, Historyjki (zdolności społeczne). Pięć testów składa się strzenne), Zachowania, Historyjki (zdolności społeczne). Pięć testów składa się
z 15 zadań, a trzy – z 10. W dwóch testach zadania mają charakter zamknięty, z 15 zadań, a trzy – z 10. W dwóch testach zadania mają charakter zamknięty,
w pozostałych – otwarty. w pozostałych – otwarty.
W celu bliższego przedstawienia baterii APIS omówiony zostanie charak- W celu bliższego przedstawienia baterii APIS omówiony zostanie charak-
ter pozycji testowych poszczególnych testów wchodzących w jej skład. Test ter pozycji testowych poszczególnych testów wchodzących w jej skład. Test
Klasyfikacja składa się z zadań, w których podano kilka nazw obiektów nale- Klasyfikacja składa się z zadań, w których podano kilka nazw obiektów nale-
żących do tej samej kategorii. Zadaniem badanego jest wybranie spośród pię- żących do tej samej kategorii. Zadaniem badanego jest wybranie spośród pię-
ciu innych obiektów takiego, który należy do tej samej kategorii co obiekty ciu innych obiektów takiego, który należy do tej samej kategorii co obiekty
podane. Przykładowo: pozycja testowa zawiera słowa: słoń, jeż, krowa. Do wy- podane. Przykładowo: pozycja testowa zawiera słowa: słoń, jeż, krowa. Do wy-
boru natomiast mamy: wróbel, krokodyl, węgorz, mysz, żaba. Drugi z testów boru natomiast mamy: wróbel, krokodyl, węgorz, mysz, żaba. Drugi z testów
przeznaczonych do pomiaru zdolności abstrakcyjno-logicznych, jakim jest test przeznaczonych do pomiaru zdolności abstrakcyjno-logicznych, jakim jest test
Przekształcenia liczb, zawiera pozycje testowe składające się z trzech par liczb, Przekształcenia liczb, zawiera pozycje testowe składające się z trzech par liczb,
z tym, że trzecia para jest niepełna i składa się tylko z pierwszej liczby. W każdej z tym, że trzecia para jest niepełna i składa się tylko z pierwszej liczby. W każdej
parze druga liczba jest wynikiem pewnego działania matematycznego na liczbie parze druga liczba jest wynikiem pewnego działania matematycznego na liczbie
pierwszej. Analizując pierwsze dwie pary, należy domyślić się, jakie jest to dzia- pierwszej. Analizując pierwsze dwie pary, należy domyślić się, jakie jest to dzia-
łanie i odpowiednio uzupełnić parę trzecią (rys. 2.11.). łanie i odpowiednio uzupełnić parę trzecią (rys. 2.11.).
15 5 0,3 0,1 9 15 5 0,3 0,1 9
Rysunek 2.11. Przykład zadania zbliżonego do pozycji testowych testu Przekształcenia Rysunek 2.11. Przykład zadania zbliżonego do pozycji testowych testu Przekształcenia
liczb baterii APIS liczb baterii APIS
W teście Synonimy zadania polegają na dopisywaniu synonimów podanych W teście Synonimy zadania polegają na dopisywaniu synonimów podanych
słów. Za każdym razem podano też pierwszą literę, na którą ma się rozpoczynać słów. Za każdym razem podano też pierwszą literę, na którą ma się rozpoczynać
wyraz bliskoznaczny oraz pewną liczbą kropek, odpowiadającą liczbie jego liter wyraz bliskoznaczny oraz pewną liczbą kropek, odpowiadającą liczbie jego liter
(np. kartofel – z…….). W teście Nowe słowa każda z pozycji testowych składa (np. kartofel – z…….). W teście Nowe słowa każda z pozycji testowych składa
się z końcówek trzech wyrazów, mających ten sam początek. Początek ten nie się z końcówek trzech wyrazów, mających ten sam początek. Początek ten nie
jest wydrukowany, a zadaniem osoby badanej jest jego znalezienie tak, jak zapre- jest wydrukowany, a zadaniem osoby badanej jest jego znalezienie tak, jak zapre-
zentowano to na rys. 2.12. zentowano to na rys. 2.12.
36 36

Rysunek 2.12. Przykład zadania zbliżonego do pozycji testowych testu Nowe słowa ba Rysunek 2.12. Przykład zadania zbliżonego do pozycji testowych testu Nowe słowa ba
terii APIS terii APIS
Test Kwadraty składa się z wielobocznych figur. Każdą z takich figur należy Test Kwadraty składa się z wielobocznych figur. Każdą z takich figur należy
tak przeciąć w wyobraźni na dwie części za pomocą jednej linii prostej, aby po tak przeciąć w wyobraźni na dwie części za pomocą jednej linii prostej, aby po
odpowiednim obróceniu powstałych elementów utworzyć kwadrat. Zadaniem odpowiednim obróceniu powstałych elementów utworzyć kwadrat. Zadaniem
osoby badanej jest znalezienie takiego przecięcia (rys. 2.13.). Linię taką należy osoby badanej jest znalezienie takiego przecięcia (rys. 2.13.). Linię taką należy
narysować między parą wybranych liczb znajdujących się na bokach figury. narysować między parą wybranych liczb znajdujących się na bokach figury.
Rysunek 2.13. Przykład zadania zbliżonego do pozycji testowych testu Kwadraty baterii Rysunek 2.13. Przykład zadania zbliżonego do pozycji testowych testu Kwadraty baterii
APIS APIS
Test Klocki ma wprawdzie taką samą nazwę jak jeden z testów Skali Wechslera, Test Klocki ma wprawdzie taką samą nazwę jak jeden z testów Skali Wechslera,
jednak zadania tego testu mają zupełnie inny charakter. Polegają one na zliczaniu jednak zadania tego testu mają zupełnie inny charakter. Polegają one na zliczaniu
prostopadłościennych klocków, z jakich zbudowano przedstawione na rysunkach prostopadłościennych klocków, z jakich zbudowano przedstawione na rysunkach
przestrzenne konstrukcje (rys. 2.14.). Oczywiście trudność polega na tym, że na- przestrzenne konstrukcje (rys. 2.14.). Oczywiście trudność polega na tym, że na-
leży zliczyć także te klocki, które są niewidoczne, a więc badany musi sobie je leży zliczyć także te klocki, które są niewidoczne, a więc badany musi sobie je
wyobrazić wyobrazić
37 37

Rysunek 2.14. Przykład zadania zbliżonego do pozycji testowych testu Klocki baterii Rysunek 2.14. Przykład zadania zbliżonego do pozycji testowych testu Klocki baterii
APIS APIS
W teście Zachowania wymaga się od badanego podawania uzasadnień różnych W teście Zachowania wymaga się od badanego podawania uzasadnień różnych
norm społecznych. Jest to test podobny do testu Rozumienia ze Skali Wechslera norm społecznych. Jest to test podobny do testu Rozumienia ze Skali Wechslera
z tą różnicą, że w teście Zachowania pytania mają charakter zamknięty. Warto z tą różnicą, że w teście Zachowania pytania mają charakter zamknięty. Warto
podkreślić, że nie chodzi tu o znajomość reguł społecznych, lecz o rozumienie podkreślić, że nie chodzi tu o znajomość reguł społecznych, lecz o rozumienie
ich sensu. Test Historyjki również przypomina jeden z testów Skali Wechslera, ich sensu. Test Historyjki również przypomina jeden z testów Skali Wechslera,
a mianowicie – Porządkowanie obrazków. Główna różnica polega na tym, że a mianowicie – Porządkowanie obrazków. Główna różnica polega na tym, że
w teście Porządkowanie obrazków poszczególne obrazki wydrukowane są na od- w teście Porządkowanie obrazków poszczególne obrazki wydrukowane są na od-
dzielnych kartonikach, a w teście Historyjki – na kilku stronach zeszytu, w jakim dzielnych kartonikach, a w teście Historyjki – na kilku stronach zeszytu, w jakim
umieszczono pozostałe testy skali APIS. W teście Historyjki badany nie ma więc umieszczono pozostałe testy skali APIS. W teście Historyjki badany nie ma więc
możliwości swobodnego przesuwania obrazków tak, jak w teście Porządkowanie możliwości swobodnego przesuwania obrazków tak, jak w teście Porządkowanie
obrazków. obrazków.
W baterii APIS, oprócz wyniku, w każdym z testów możliwe jest oblicze- W baterii APIS, oprócz wyniku, w każdym z testów możliwe jest oblicze-
nie wyniku łącznego wszystkich testów interpretowanego jako miara inteligencji nie wyniku łącznego wszystkich testów interpretowanego jako miara inteligencji
ogólnej. ogólnej.
Baterie APIS znajdują zastosowanie w selekcji kandydatów do pracy, a także Baterie APIS znajdują zastosowanie w selekcji kandydatów do pracy, a także
doradztwie zawodowym oraz poradnictwie szkolnym. APIS-P może pozwalać na doradztwie zawodowym oraz poradnictwie szkolnym. APIS-P może pozwalać na
trafne prognozowanie osiągnięć szkolnych. trafne prognozowanie osiągnięć szkolnych.
Baterie APIS mogą być wykorzystywane zarówno w badaniach grupowych, Baterie APIS mogą być wykorzystywane zarówno w badaniach grupowych,
jak i indywidualnych. Czas wykonywania każdego testu jest ściśle ograniczony, jak i indywidualnych. Czas wykonywania każdego testu jest ściśle ograniczony,
co oznacza konieczność posługiwania się stoperem przez osobę przeprowadzają- co oznacza konieczność posługiwania się stoperem przez osobę przeprowadzają-
cą badanie. Po upływie czasu przeznaczonego na wykonanie danego testu, prze- cą badanie. Po upływie czasu przeznaczonego na wykonanie danego testu, prze-
rywa się badanemu pracę nad wykonywaniem dalszych jego zadań i poleca mu rywa się badanemu pracę nad wykonywaniem dalszych jego zadań i poleca mu
się przejście do kolejnego testu. Łączny czas rozwiązywania wszystkich testów się przejście do kolejnego testu. Łączny czas rozwiązywania wszystkich testów
baterii APIS- Z wynosi 60 minut, a APIS- P – 58 minut. baterii APIS- Z wynosi 60 minut, a APIS- P – 58 minut.
Oprócz baterii testów, takich jak skale Wechslera czy APIS, które przezna- Oprócz baterii testów, takich jak skale Wechslera czy APIS, które przezna-
czone są do pomiaru różnych zdolności, istnieją także testy, służące do pomiaru czone są do pomiaru różnych zdolności, istnieją także testy, służące do pomiaru
pojedynczych zdolności. pojedynczych zdolności.
Jednym z tego typu testów jest polski test Leksykon (Jurkowski, 1997). Jest Jednym z tego typu testów jest polski test Leksykon (Jurkowski, 1997). Jest
38 on przeznaczony do pomiaru zdolności werbalnych. Dzięki niemu możliwa jest 38 on przeznaczony do pomiaru zdolności werbalnych. Dzięki niemu możliwa jest

ocena zasobu słownictwa i sprawności korzystania z tego zasobu stosownie do ocena zasobu słownictwa i sprawności korzystania z tego zasobu stosownie do
kontekstu. Skonstruowany on został z myślą o grupowych badaniach młodzieży kontekstu. Skonstruowany on został z myślą o grupowych badaniach młodzieży
w wieku 12–17 lat. Czas badania nie jest ograniczony, ale przeciętnie jego wypeł- w wieku 12–17 lat. Czas badania nie jest ograniczony, ale przeciętnie jego wypeł-
nienie zajmuje badanemu około 50 minut. nienie zajmuje badanemu około 50 minut.
Leksykon składa się z 60 pozycji, zgrupowanych w dziewięć zadań jednorod- Leksykon składa się z 60 pozycji, zgrupowanych w dziewięć zadań jednorod-
nych pod względem formy i sposobu pracy. Test podzielony jest na dwie części. nych pod względem formy i sposobu pracy. Test podzielony jest na dwie części.
Pierwsza z nich przeznaczona jest do oceny biernego posługiwania się językiem, Pierwsza z nich przeznaczona jest do oceny biernego posługiwania się językiem,
a druga – czynnego. a druga – czynnego.
Połowa pozycji testowych wchodzi w skład zadań typu zamkniętego, a połowa Połowa pozycji testowych wchodzi w skład zadań typu zamkniętego, a połowa
– w skład zadań typu otwartego. Zadania zamknięte testu Leksykon polegają na – w skład zadań typu otwartego. Zadania zamknięte testu Leksykon polegają na
odnajdywaniu synonimów określonych wyrazów (jest to więc test podobny do odnajdywaniu synonimów określonych wyrazów (jest to więc test podobny do
testu Synonimy z baterii APIS z tą różnicą, że wyrazy bliskoznaczne wyszukuje testu Synonimy z baterii APIS z tą różnicą, że wyrazy bliskoznaczne wyszukuje
się spośród podanych), sensownym uzupełnianiu zdań podanymi wyrazami, usta- się spośród podanych), sensownym uzupełnianiu zdań podanymi wyrazami, usta-
laniu nazw dla rzeczy zdefiniowanych lub opisanych oraz znajdowaniu typowych laniu nazw dla rzeczy zdefiniowanych lub opisanych oraz znajdowaniu typowych
określeń przymiotnikowych dla danych rzeczowników. określeń przymiotnikowych dla danych rzeczowników.
Zadania otwarte wymagają zastępowania słów użytych w zdaniach synonima- Zadania otwarte wymagają zastępowania słów użytych w zdaniach synonima-
mi, uzupełniania luk w zdaniach i znajdywania słów odpowiadającym podanym mi, uzupełniania luk w zdaniach i znajdywania słów odpowiadającym podanym
definicjom. definicjom.
Wszystkie zadania wydrukowane są w jednym zeszycie testowym. Wyniki te- Wszystkie zadania wydrukowane są w jednym zeszycie testowym. Wyniki te-
stu Leksykon zależą nie tylko od posiadanego przez badanego zasobu słów, lecz stu Leksykon zależą nie tylko od posiadanego przez badanego zasobu słów, lecz
również od łatwości korzystania z niego, a także – w mniejszym stopniu – od również od łatwości korzystania z niego, a także – w mniejszym stopniu – od
kompetencji gramatycznych i ortograficznych. kompetencji gramatycznych i ortograficznych.
Test Leksykon znajduje zastosowanie w badaniach naukowych, poradnictwie Test Leksykon znajduje zastosowanie w badaniach naukowych, poradnictwie
szkolnym i zawodowym. szkolnym i zawodowym.
Oprócz testu Leksykon, istnieje oczywiście ogromna liczba innych narzędzi Oprócz testu Leksykon, istnieje oczywiście ogromna liczba innych narzędzi
przeznaczonych do diagnozy poszczególnych zdolności. W Polsce jednak nie po- przeznaczonych do diagnozy poszczególnych zdolności. W Polsce jednak nie po-
siadamy aktualnie stosowanych testów tego typu przeznaczonych do powszech- siadamy aktualnie stosowanych testów tego typu przeznaczonych do powszech-
nego użytku. nego użytku.
2.2. Kwestionariusze osobowości i temperamentu 2.2. Kwestionariusze osobowości i temperamentu

Kwestionariusze, w przeciwieństwie do testów inteligencji i zdolności, od- Kwestionariusze, w przeciwieństwie do testów inteligencji i zdolności, od-
wołują się do wiedzy osób badanych na własny temat. Pozycje testowe zawarte wołują się do wiedzy osób badanych na własny temat. Pozycje testowe zawarte
w kwestionariuszach opierają się więc na samoopisie. Nie rejestruje się w nich w kwestionariuszach opierają się więc na samoopisie. Nie rejestruje się w nich
bezpośrednio zachowania osoby badanej, a jej relację o własnym zachowaniu. bezpośrednio zachowania osoby badanej, a jej relację o własnym zachowaniu.
Można powiedzieć, że kwestionariusz to ustrukturowany wywiad, z tą różnicą, Można powiedzieć, że kwestionariusz to ustrukturowany wywiad, z tą różnicą,
że sam badany prezentuje sobie poszczególne pozycje testowe (zwykle odczytuje że sam badany prezentuje sobie poszczególne pozycje testowe (zwykle odczytuje
je z wydrukowanego formularza). je z wydrukowanego formularza).
Istnieje też odmiana kwestionariuszy oparta nie na relacji na temat własnego Istnieje też odmiana kwestionariuszy oparta nie na relacji na temat własnego
zachowania, a na relacji osoby badanej na temat zachowania osób trzecich. Tego zachowania, a na relacji osoby badanej na temat zachowania osób trzecich. Tego
typu kwestionariusze wykorzystuje się zwykle w badaniu dzieci, które nie umieją typu kwestionariusze wykorzystuje się zwykle w badaniu dzieci, które nie umieją
jeszcze pisać lub ich samowiedza jest zbyt słabo rozwinięta, aby umożliwiała 39 jeszcze pisać lub ich samowiedza jest zbyt słabo rozwinięta, aby umożliwiała 39

wypełnienie narzędzia odwołującego się do samoopisu. Przykładem takiego in- wypełnienie narzędzia odwołującego się do samoopisu. Przykładem takiego in-
wentarza jest kwestionariusz temperamentu EAS. Kwestionariusz ten wypełniany wentarza jest kwestionariusz temperamentu EAS. Kwestionariusz ten wypełniany
jest przez jednego z rodziców lub nauczyciela badanego dziecka. Z tego powodu jest przez jednego z rodziców lub nauczyciela badanego dziecka. Z tego powodu
jego pozycje testowe zostały sformułowane w trzeciej osobie liczby pojedynczej jego pozycje testowe zostały sformułowane w trzeciej osobie liczby pojedynczej
np. „Często płacze”, „Lubi przebywać z ludźmi”. np. „Często płacze”, „Lubi przebywać z ludźmi”.
Narzędzie należące do tego specyficznego rodzaju inwentarzy było jednocze- Narzędzie należące do tego specyficznego rodzaju inwentarzy było jednocze-
śnie pierwszym kwestionariuszem, jaki opracowano. Dokonali tego holenderscy śnie pierwszym kwestionariuszem, jaki opracowano. Dokonali tego holenderscy
badacze – Gerard Heymans i Enno D. Wiersma, którzy w 1905 roku opracowali badacze – Gerard Heymans i Enno D. Wiersma, którzy w 1905 roku opracowali
pierwszy inwentarz temperamentu. W kwestionariuszu tym, wypełnianym przez pierwszy inwentarz temperamentu. W kwestionariuszu tym, wypełnianym przez
lekarzy, znalazły się pytania dotyczące różnych aspektów zachowania człowie- lekarzy, znalazły się pytania dotyczące różnych aspektów zachowania człowie-
ka. Pytania tego kwestionariusza nie dotyczyły osoby go wypełniającej, a ludzi ka. Pytania tego kwestionariusza nie dotyczyły osoby go wypełniającej, a ludzi
dobrze znanych osobom odpowiadającym na pytania inwentarza. Osiągnięcia dobrze znanych osobom odpowiadającym na pytania inwentarza. Osiągnięcia
Heymansa i Wiersmy wykorzystał w USA Woodworth, który w 1917 roku opu- Heymansa i Wiersmy wykorzystał w USA Woodworth, który w 1917 roku opu-
blikował Arkusz Danych Osobistych składający się ze 116 pytań dotyczących blikował Arkusz Danych Osobistych składający się ze 116 pytań dotyczących
różnych aspektów przystosowania, uznanych przez autora za symptomy nerwi- różnych aspektów przystosowania, uznanych przez autora za symptomy nerwi-
cowe. Inwentarz stworzony przez Woodwortha przeznaczony był do wychwyty- cowe. Inwentarz stworzony przez Woodwortha przeznaczony był do wychwyty-
wania osób neurotycznych przy kwalifikacji poborowych do armii amerykańskiej wania osób neurotycznych przy kwalifikacji poborowych do armii amerykańskiej
(Zawadzki, 2006). Od tego czasu rozpoczął się rozwój różnego rodzaju kwestio- (Zawadzki, 2006). Od tego czasu rozpoczął się rozwój różnego rodzaju kwestio-
nariuszy. W chwili obecnej na całym świecie istnieje ogromna liczba inwentarzy nariuszy. W chwili obecnej na całym świecie istnieje ogromna liczba inwentarzy
przeznaczonych do pomiaru najrozmaitszych cech osobowości, stosowanych we przeznaczonych do pomiaru najrozmaitszych cech osobowości, stosowanych we
wszystkich dziedzinach praktyki psychologicznej. Poniżej zaprezentowano naj- wszystkich dziedzinach praktyki psychologicznej. Poniżej zaprezentowano naj-
ważniejsze kategorie kwestionariuszy oraz wybrane ich przykłady. ważniejsze kategorie kwestionariuszy oraz wybrane ich przykłady.
Wśród kwestionariuszy można wyodrębnić dwie duże grupy. Pierwszą z nich Wśród kwestionariuszy można wyodrębnić dwie duże grupy. Pierwszą z nich
są narzędzia dotyczące wielu różnych właściwości psychicznych. Ich autorzy są narzędzia dotyczące wielu różnych właściwości psychicznych. Ich autorzy
mieli zwykle na celu ujęcie „całości psychiki” człowieka lub, przynajmniej, ca- mieli zwykle na celu ujęcie „całości psychiki” człowieka lub, przynajmniej, ca-
łości jakiejś ważnej sfery psychicznej, np. osobowości czy temperamentu. Do łości jakiejś ważnej sfery psychicznej, np. osobowości czy temperamentu. Do
drugiej grupy można zaliczyć inwentarze przeznaczone do diagnozy pojedyn- drugiej grupy można zaliczyć inwentarze przeznaczone do diagnozy pojedyn-
czych wybranych właściwości psychicznych, np. lęku, zainteresowań czy stylu czych wybranych właściwości psychicznych, np. lęku, zainteresowań czy stylu
funkcjonowania psychicznego w określonym aspekcie. Dalej opisane zostaną funkcjonowania psychicznego w określonym aspekcie. Dalej opisane zostaną
przykłady narzędzi należących do obu tych grup. przykłady narzędzi należących do obu tych grup.
2.2.1. Inwentarze przeznaczone do diagnozy osobowości jako całości 2.2.1. Inwentarze przeznaczone do diagnozy osobowości jako całości
Ważną grupę kwestionariuszy osobowości stanowią takie narzędzia, które Ważną grupę kwestionariuszy osobowości stanowią takie narzędzia, które
w zamierzeniu swoich twórców opisują całość struktury osobowości człowie- w zamierzeniu swoich twórców opisują całość struktury osobowości człowie-
ka. Do inwentarzy tego typu należy np. MMPI, Kwestionariusz Guilforda- ka. Do inwentarzy tego typu należy np. MMPI, Kwestionariusz Guilforda-
Zimmermana, Kwestionariusz Osobowości Cattella (16PF), Inwentarz Psycho Zimmermana, Kwestionariusz Osobowości Cattella (16PF), Inwentarz Psycho
logiczny Gougha (CPI), kwestionariusze Eysencka (MPI, EPQ, EPQ-R), logiczny Gougha (CPI), kwestionariusze Eysencka (MPI, EPQ, EPQ-R),
Formalna Charakterystyka Zachowania – Kwestionariusz Temperamentu Formalna Charakterystyka Zachowania – Kwestionariusz Temperamentu
(FCZ-KT), Kwestionariusz Temperamentu EAS, kwestionariusze przeznaczo- (FCZ-KT), Kwestionariusz Temperamentu EAS, kwestionariusze przeznaczo-
ne do pomiaru pięciu wielkich czynników osobowości (NEO-Pl, NEO-FFI, ne do pomiaru pięciu wielkich czynników osobowości (NEO-Pl, NEO-FFI,
40 NEO-PI-R). 40 NEO-PI-R).

Jednym z pierwszych narzędzi tej grupy, cieszącym się ogromną popular- Jednym z pierwszych narzędzi tej grupy, cieszącym się ogromną popular-
nością na świecie, jest Minnesota Multiphasic Personality Inventory (MMPI). nością na świecie, jest Minnesota Multiphasic Personality Inventory (MMPI).
Inwentarz ten został skonstruowany w latach czterdziestych XX wieku w USA Inwentarz ten został skonstruowany w latach czterdziestych XX wieku w USA
przez Hathawaya i McKinleya (Anastasi i Urbina, 1999). Pierwotnie był on prze- przez Hathawaya i McKinleya (Anastasi i Urbina, 1999). Pierwotnie był on prze-
znaczony do diagnozy różnego rodzaju zaburzeń psychicznych. Jednak bardzo znaczony do diagnozy różnego rodzaju zaburzeń psychicznych. Jednak bardzo
szybko zaczęto stosować go do co raz to nowych celów, wykraczających poza szybko zaczęto stosować go do co raz to nowych celów, wykraczających poza
pierwotne zastosowanie. MMPI był szeroko stosowany do diagnozy osobowo- pierwotne zastosowanie. MMPI był szeroko stosowany do diagnozy osobowo-
ści osób normalnych w badaniach selekcyjnych i kwalifikacyjnych do różnych ści osób normalnych w badaniach selekcyjnych i kwalifikacyjnych do różnych
miejsc pracy, wykorzystywano go także w wojsku oraz sądownictwie. miejsc pracy, wykorzystywano go także w wojsku oraz sądownictwie.
MMPI zawiera 566 pytań, na które osoba badana może odpowiedzieć: „praw- MMPI zawiera 566 pytań, na które osoba badana może odpowiedzieć: „praw-
da”, „fałsz”, „to pytanie mnie nie dotyczy” bądź „nie mogę się zdecydować”. da”, „fałsz”, „to pytanie mnie nie dotyczy” bądź „nie mogę się zdecydować”.
Pytania dotyczą m.in. ogólnego stanu zdrowia, spraw rodzinnych, problemów Pytania dotyczą m.in. ogólnego stanu zdrowia, spraw rodzinnych, problemów
szkolnych, poglądów politycznych i społecznych, postaw wobec religii, postaw szkolnych, poglądów politycznych i społecznych, postaw wobec religii, postaw
wobec życia seksualnego, nawyków, nastroju, zaburzeń psychopatologicznych. wobec życia seksualnego, nawyków, nastroju, zaburzeń psychopatologicznych.
MMPI składa się z 10 skal: Hipochondrii, Depresji, Histerii, Psychopatii, MMPI składa się z 10 skal: Hipochondrii, Depresji, Histerii, Psychopatii,
Męskości-Kobiecości, Paranoi, Psychastenii, Schizofrenii oraz Hipomanii. Męskości-Kobiecości, Paranoi, Psychastenii, Schizofrenii oraz Hipomanii.
Dodatkowo kwestionariusz ten zawiera tzw. skale kontrolne, przeznaczone do Dodatkowo kwestionariusz ten zawiera tzw. skale kontrolne, przeznaczone do
pomiaru tendencji osoby badanej do zniekształcania udzielanych odpowiedzi. pomiaru tendencji osoby badanej do zniekształcania udzielanych odpowiedzi.
MMPI odegrał ogromną rolę w rozwoju psychometrii. Wielu badaczy wyko- MMPI odegrał ogromną rolę w rozwoju psychometrii. Wielu badaczy wyko-
rzystując pozycje testowe tego kwestionariusza, konstruowało skale przeznaczo- rzystując pozycje testowe tego kwestionariusza, konstruowało skale przeznaczo-
ne do pomiaru różnego rodzaju cech psychicznych. Wraz z rozwojem psycho- ne do pomiaru różnego rodzaju cech psychicznych. Wraz z rozwojem psycho-
metrii wykorzystywano odmienne rodzaje strategii w tworzeniu tego typu skal. metrii wykorzystywano odmienne rodzaje strategii w tworzeniu tego typu skal.
Powstała także jego polska wersja. Powstała także jego polska wersja.
Mimo ogromnego znaczenia MMPI dziś jest już narzędziem o charakterze hi- Mimo ogromnego znaczenia MMPI dziś jest już narzędziem o charakterze hi-
storycznym. Ogromna liczba badań naukowych z wykorzystaniem MMPI wy- storycznym. Ogromna liczba badań naukowych z wykorzystaniem MMPI wy-
kazała jego liczne słabości psychometryczne (Anastasi i Urbina, 1999). Ponadto kazała jego liczne słabości psychometryczne (Anastasi i Urbina, 1999). Ponadto
w ciągu minionego półwiecza znacznie wzrosła wiedza na temat osobowości w ciągu minionego półwiecza znacznie wzrosła wiedza na temat osobowości
człowieka oraz jej zaburzeń. Co więcej, w ciągu długiego czasu, jaki upłynął człowieka oraz jej zaburzeń. Co więcej, w ciągu długiego czasu, jaki upłynął
od stworzenia MMPI, zaszły rozmaite zmiany kulturowe powodujące, że treść od stworzenia MMPI, zaszły rozmaite zmiany kulturowe powodujące, że treść
pozycji MMPI nie odzwierciedla dobrze właściwości psychicznych, do pomiaru pozycji MMPI nie odzwierciedla dobrze właściwości psychicznych, do pomiaru
których zostały stworzone. Polska adaptacja MMPI też jest już dość stara, a do- których zostały stworzone. Polska adaptacja MMPI też jest już dość stara, a do-
datkowo wykonana została ona bez zgody właścicieli praw autorskich (szerzej datkowo wykonana została ona bez zgody właścicieli praw autorskich (szerzej
rozdział 7.6.). Te wszystkie fakty powodują, że MMPI obecnie nie powinien być rozdział 7.6.). Te wszystkie fakty powodują, że MMPI obecnie nie powinien być
stosowany w praktyce psychologicznej. stosowany w praktyce psychologicznej.
Ze względu na przestarzały charakter MMPI opracowano jego nową wersję – Ze względu na przestarzały charakter MMPI opracowano jego nową wersję –
MMPI–2. Obecnie trwają prace nad jego polską autoryzowaną adaptacją. MMPI–2. Obecnie trwają prace nad jego polską autoryzowaną adaptacją.
MMPI zainspirował wielu twórców znanych obecnie inwentarzy osobowo- MMPI zainspirował wielu twórców znanych obecnie inwentarzy osobowo-
ści. Jednym z narzędzi, w którym wykorzystano znaczną część pozycji kwestio- ści. Jednym z narzędzi, w którym wykorzystano znaczną część pozycji kwestio-
nariuszowych MMPI jest California Psychological Inventory (CPI) (Anastasi nariuszowych MMPI jest California Psychological Inventory (CPI) (Anastasi
i Urbina, 1999). W przeciwieństwie do MMPI został on skonstruowany z myślą i Urbina, 1999). W przeciwieństwie do MMPI został on skonstruowany z myślą
o różnicowaniu osobowości ludzi normalnych. W najnowszej wersji składa się o różnicowaniu osobowości ludzi normalnych. W najnowszej wersji składa się
on z 20 następujących skal: Dominacja, Tolerancja, Ambicja, Chęć podobania 41 on z 20 następujących skal: Dominacja, Tolerancja, Ambicja, Chęć podobania 41

się, Towarzyskość, Typowość, Swoboda towarzyska, Powodzenie przez konfor- się, Towarzyskość, Typowość, Swoboda towarzyska, Powodzenie przez konfor-
mizm, Poczucie własnej wartości, Powodzenie przez niezależność, Dobre samo- mizm, Poczucie własnej wartości, Powodzenie przez niezależność, Dobre samo-
poczucie, Wydajność umysłowa, Odpowiedzialność, Wnikliwość psychologicz- poczucie, Wydajność umysłowa, Odpowiedzialność, Wnikliwość psychologicz-
na, Uspołecznienie, Rzutkość, Opanowanie oraz Kobiecość. W 1987 roku ten na, Uspołecznienie, Rzutkość, Opanowanie oraz Kobiecość. W 1987 roku ten
zestaw uzupełniono jeszcze dwiema skalami Empatii i Niezależności (Anastasi zestaw uzupełniono jeszcze dwiema skalami Empatii i Niezależności (Anastasi
i Urbina, 1999). i Urbina, 1999).
CPI jest wykorzystywany do wielu celów. Znajduje on zastosowanie m.in. CPI jest wykorzystywany do wielu celów. Znajduje on zastosowanie m.in.
w selekcji pracowników i planowaniu kariery zawodowej, a także w psychologii w selekcji pracowników i planowaniu kariery zawodowej, a także w psychologii
klinicznej. klinicznej.
Innym inwentarzem czerpiącym częściowo z doświadczeń związanych z MMPI Innym inwentarzem czerpiącym częściowo z doświadczeń związanych z MMPI
jest 16-czynnikowy kwestionariusz osobowości Cattella (16PF) (Sanocki, 1986). jest 16-czynnikowy kwestionariusz osobowości Cattella (16PF) (Sanocki, 1986).
Obecnie istnieje już piąte wydanie tego kwestionariusza. Kwestionariusz ten Obecnie istnieje już piąte wydanie tego kwestionariusza. Kwestionariusz ten
przeznaczony jest do badania 16 wymiarów osobowości, które składają się na przeznaczony jest do badania 16 wymiarów osobowości, które składają się na
pięć czynników wyższego rzędu. pięć czynników wyższego rzędu.
W najnowszym wydaniu kwestionariusza osobowości Cattella, oprócz wyni- W najnowszym wydaniu kwestionariusza osobowości Cattella, oprócz wyni-
ków poszczególnych skal, oblicza się także trzy wskaźniki stylu odpowiadania, ków poszczególnych skal, oblicza się także trzy wskaźniki stylu odpowiadania,
pozwalające ocenić tendencję do zgadzania się, przypadkowości odpowiedzi pozwalające ocenić tendencję do zgadzania się, przypadkowości odpowiedzi
oraz dążenia do przedstawiania się w nadmiernie korzystnym lub niekorzystnym oraz dążenia do przedstawiania się w nadmiernie korzystnym lub niekorzystnym
świetle. świetle.
Główny problem ze stosowaniem zarówno CPI, jak i 16 PF polega na tym, że Główny problem ze stosowaniem zarówno CPI, jak i 16 PF polega na tym, że
nie istnieją aktualne, legalne, polskie adaptacje tych kwestionariuszy. Dla obu nie istnieją aktualne, legalne, polskie adaptacje tych kwestionariuszy. Dla obu
tych kwestionariuszy nie ma także aktualnych polskich norm. Istniejące adapta- tych kwestionariuszy nie ma także aktualnych polskich norm. Istniejące adapta-
cje (Kotas, Markowska, 1971; Nowakowska, 1970) wymienionych narzędzi zo- cje (Kotas, Markowska, 1971; Nowakowska, 1970) wymienionych narzędzi zo-
stały opracowane już kilkadziesiąt lat temu i dawno uległy dezaktualizacji. stały opracowane już kilkadziesiąt lat temu i dawno uległy dezaktualizacji.
Ważnym twórcą kwestionariuszy osobowości był Hans Jurgen Eysenck. Swoje Ważnym twórcą kwestionariuszy osobowości był Hans Jurgen Eysenck. Swoje
inwentarze zaczął tworzyć w latach czterdziestych XX wieku. Jeden z pierwszych inwentarze zaczął tworzyć w latach czterdziestych XX wieku. Jeden z pierwszych
kwestionariuszy Eysencka – Maudsley Medical Questionnaire (MMQ) – służył kwestionariuszy Eysencka – Maudsley Medical Questionnaire (MMQ) – służył
jedynie do diagnozy zaburzeń nerwicowych. Wraz z rozwojem swojej teorii oso- jedynie do diagnozy zaburzeń nerwicowych. Wraz z rozwojem swojej teorii oso-
bowości stopniowo Eysenck dodawał nowe wymiary oraz rozszerzał zastoso- bowości stopniowo Eysenck dodawał nowe wymiary oraz rozszerzał zastoso-
wania swoich inwentarzy. Kolejno powstawały: Maudsley Personality Inventory wania swoich inwentarzy. Kolejno powstawały: Maudsley Personality Inventory
(MPI) (w którym dołączono intro-ekstrawersję), Eysenck Personality Inventory (MPI) (w którym dołączono intro-ekstrawersję), Eysenck Personality Inventory
(EPI), Eysenck Personality Questionnaire (EPQ) (w którym dodano psychotyzm) (EPI), Eysenck Personality Questionnaire (EPQ) (w którym dodano psychotyzm)
i jego zmodyfikowana wersja – Eysenck Personality Questionnaire – Revised i jego zmodyfikowana wersja – Eysenck Personality Questionnaire – Revised
(EPQ-R), która ma polską aktualną adaptację (Brzozowski, Drwal, 1995) i jest (EPQ-R), która ma polską aktualną adaptację (Brzozowski, Drwal, 1995) i jest
powszechnie stosowana w Polsce. Z tego też powodu zostanie on omówiony nie- powszechnie stosowana w Polsce. Z tego też powodu zostanie on omówiony nie-
co dokładniej. co dokładniej.
Kwestionariusz EPQ-R został opublikowany w 1985 roku (Eysenck, Eysenck, Kwestionariusz EPQ-R został opublikowany w 1985 roku (Eysenck, Eysenck,
Barrett, 1985). Kwestionariusz ten oparty jest na koncepcji osobowości Eysencka Barrett, 1985). Kwestionariusz ten oparty jest na koncepcji osobowości Eysencka
i zawiera skale odpowiadające podstawowym wymiarom osobowości według i zawiera skale odpowiadające podstawowym wymiarom osobowości według
tej koncepcji: ekstrawersja – introwersja, neurotyzm (chwiejność / wrażliwość tej koncepcji: ekstrawersja – introwersja, neurotyzm (chwiejność / wrażliwość
emocjonalna) i psychotyzm (skłonność do zachowań dziwnych, nietypowych emocjonalna) i psychotyzm (skłonność do zachowań dziwnych, nietypowych
42 czy nawet antyspołecznych). Dodatkową skalą jest skala kłamstwa, która mierzy 42 czy nawet antyspołecznych). Dodatkową skalą jest skala kłamstwa, która mierzy

potrzebę uzyskiwania aprobaty społecznej lub tendencję do przedstawiania się potrzebę uzyskiwania aprobaty społecznej lub tendencję do przedstawiania się
w korzystnym świetle. w korzystnym świetle.
Kwestionariusz EPQ-R składa się ze 100 pytań, odpowiadając na które oso- Kwestionariusz EPQ-R składa się ze 100 pytań, odpowiadając na które oso-
by badane zakreślają kółkiem jedną z dwóch odpowiedzi „tak” lub „nie”. Jeśli by badane zakreślają kółkiem jedną z dwóch odpowiedzi „tak” lub „nie”. Jeśli
badany nie może zdecydować się na żadną z podanych, musi wybrać tę, która badany nie może zdecydować się na żadną z podanych, musi wybrać tę, która
jest najbliższa prawdy. Badanie kwestionariuszem EPQ-R można przeprowa- jest najbliższa prawdy. Badanie kwestionariuszem EPQ-R można przeprowa-
dzić zarówno indywidualnie, jak i grupowo. Czas badania nie jest ograniczony. dzić zarówno indywidualnie, jak i grupowo. Czas badania nie jest ograniczony.
Przeważnie średni czas, potrzebny na wypełnienie kwestionariusza, wynosi oko- Przeważnie średni czas, potrzebny na wypełnienie kwestionariusza, wynosi oko-
ło 20–25 minut. ło 20–25 minut.
Kwestionariusz przeznaczony jest do badania osób dorosłych i młodzieży od Kwestionariusz przeznaczony jest do badania osób dorosłych i młodzieży od
16. roku życia. Aby odpowiedzieć na pytania, wystarczy mieć wykształcenie pod- 16. roku życia. Aby odpowiedzieć na pytania, wystarczy mieć wykształcenie pod-
stawowe. EPQ-R wykorzystywany jest do prognozowania powodzenia w nauce stawowe. EPQ-R wykorzystywany jest do prognozowania powodzenia w nauce
szkolnej i na studiach, w poradnictwie zawodowym jako metoda prognozowania szkolnej i na studiach, w poradnictwie zawodowym jako metoda prognozowania
dostosowania jednostki do charakteru pracy na określonym stanowisku, a także dostosowania jednostki do charakteru pracy na określonym stanowisku, a także
przy dokonywaniu wyboru przyszłego zawodu. EPQ-R stosowany bywa również przy dokonywaniu wyboru przyszłego zawodu. EPQ-R stosowany bywa również
w bardziej szczegółowych zagadnieniach diagnostycznych, np. przy prognozo- w bardziej szczegółowych zagadnieniach diagnostycznych, np. przy prognozo-
waniu powodzenia w wybranej dyscyplinie sportowej czy też w poradnictwie waniu powodzenia w wybranej dyscyplinie sportowej czy też w poradnictwie
przedmałżeńskim i rodzinnym. przedmałżeńskim i rodzinnym.
Bardzo popularne we współczesnej psychologii są inwentarze osobowości Bardzo popularne we współczesnej psychologii są inwentarze osobowości
opierające się na modelu pięciu wielkich czynników osobowości, tzw. „Wielkiej opierające się na modelu pięciu wielkich czynników osobowości, tzw. „Wielkiej
Piątki” (McCrae i Costa, 2005). Do grupy tej należą między innymi kwestio- Piątki” (McCrae i Costa, 2005). Do grupy tej należą między innymi kwestio-
nariusze NEO-FFI i NEO-PI-R, mające swoje polskie adaptacje. Podobnie jak nariusze NEO-FFI i NEO-PI-R, mające swoje polskie adaptacje. Podobnie jak
w teorii Eysencka, w modelu „Wielkiej Piątki” uwzględniona jest neurotyczność w teorii Eysencka, w modelu „Wielkiej Piątki” uwzględniona jest neurotyczność
i ekstrawersja. Psychotyzm natomiast rozbity jest na dwie cechy: ugodowość i ekstrawersja. Psychotyzm natomiast rozbity jest na dwie cechy: ugodowość
i sumienność. Dodatkowo wprowadzony jest nowy wymiar: otwartość na do- i sumienność. Dodatkowo wprowadzony jest nowy wymiar: otwartość na do-
świadczenie. Na każdy czynnik składa się sześć składników o niższym poziomie świadczenie. Na każdy czynnik składa się sześć składników o niższym poziomie
ogólności. Łącznie daje to więc 30 podwymiarów. ogólności. Łącznie daje to więc 30 podwymiarów.
Kwestionariusz NEO-PI-R daje możliwość pomiaru w zakresie każdego z tych Kwestionariusz NEO-PI-R daje możliwość pomiaru w zakresie każdego z tych
30 podwymiarów, w przeciwieństwie do NEO-FFI, dzięki któremu można uzy- 30 podwymiarów, w przeciwieństwie do NEO-FFI, dzięki któremu można uzy-
skać dane dotyczące tylko ogólnych wyników pięciu superczynników osobowo- skać dane dotyczące tylko ogólnych wyników pięciu superczynników osobowo-
ści. Istotne jest także to, iż wszystkie skale kwestionariuszy NEO dotyczą nor- ści. Istotne jest także to, iż wszystkie skale kwestionariuszy NEO dotyczą nor-
malnej osobowości, w przeciwieństwie do kwestionariuszy Eysencka czy MMPI malnej osobowości, w przeciwieństwie do kwestionariuszy Eysencka czy MMPI
(Zawadzki, Strelau, Szczepanik i Śliwińska, 1998). (Zawadzki, Strelau, Szczepanik i Śliwińska, 1998).
Pozycje kwestionariuszy NEO-FFI oraz NEO-PI-R stanowi odpowiednio 60 Pozycje kwestionariuszy NEO-FFI oraz NEO-PI-R stanowi odpowiednio 60
oraz 240 twierdzeń o charakterze samoopisowym, których prawdziwość w sto- oraz 240 twierdzeń o charakterze samoopisowym, których prawdziwość w sto-
sunku do własnej osoby badany ocenia na skali pięciostopniowej (od „całkowicie sunku do własnej osoby badany ocenia na skali pięciostopniowej (od „całkowicie
się nie zgadzam” do „całkowicie się zgadzam”). się nie zgadzam” do „całkowicie się zgadzam”).
Kwestionariusze NEO rekomendowane są do badań naukowych, a w przy- Kwestionariusze NEO rekomendowane są do badań naukowych, a w przy-
padku NEO-FFI także do stosowania w diagnozie indywidualnej dokonywanej padku NEO-FFI także do stosowania w diagnozie indywidualnej dokonywanej
na potrzeby praktyki, w tym w obszarze edukacji oraz doradztwa zawodowego na potrzeby praktyki, w tym w obszarze edukacji oraz doradztwa zawodowego
i selekcji (np. prognozowanie możliwości adaptacyjnych do środowiska szkol- i selekcji (np. prognozowanie możliwości adaptacyjnych do środowiska szkol-
nego lub zawodowego) oraz psychologii zdrowia. Choć kwestionariusze NEO 43 nego lub zawodowego) oraz psychologii zdrowia. Choć kwestionariusze NEO 43

z założenia mają służyć poznawaniu zdrowej osobowości, to czasem znajdują z założenia mają służyć poznawaniu zdrowej osobowości, to czasem znajdują
one zastosowanie także w psychologii klinicznej (Siuta, 2006; Zawadzki, Strelau, one zastosowanie także w psychologii klinicznej (Siuta, 2006; Zawadzki, Strelau,
Szczepanik i Śliwińska, 1998). Szczepanik i Śliwińska, 1998).
Do grupy kwestionariuszy dotyczących całości wybranego ważnego obszaru Do grupy kwestionariuszy dotyczących całości wybranego ważnego obszaru
ludzkich zachowań należy zaliczyć także inwentarze temperamentu. Większość ludzkich zachowań należy zaliczyć także inwentarze temperamentu. Większość
takich inwentarzy dotyczy specyficznych teorii temperamentu. Z tego powo- takich inwentarzy dotyczy specyficznych teorii temperamentu. Z tego powo-
du zawierają one takie wymiary, jakie uwzględnione zostały w danej teorii. du zawierają one takie wymiary, jakie uwzględnione zostały w danej teorii.
Przykładem kwestionariuszy temperamentu jest opracowany przez Zawadzkiego Przykładem kwestionariuszy temperamentu jest opracowany przez Zawadzkiego
i Strelaua (1997) inwentarz pod nazwą Formalna Charakterystyka Zachowania – i Strelaua (1997) inwentarz pod nazwą Formalna Charakterystyka Zachowania –
Kwestionariusz Temperamentu (FCZ-KT). Kwestionariusz Temperamentu (FCZ-KT).
Teoretyczną podstawę kwestionariusza FCZ-KT stanowi Regulacyjna Teoretyczną podstawę kwestionariusza FCZ-KT stanowi Regulacyjna
Teoria Temperamentu Strelaua (2001). Składa się on ze 120 pozycji, które są Teoria Temperamentu Strelaua (2001). Składa się on ze 120 pozycji, które są
stwierdzeniami wymagającymi od badanego ustosunkowania się w formie od- stwierdzeniami wymagającymi od badanego ustosunkowania się w formie od-
powiedzi „tak” lub „nie”. Pozycje tworzą 6 skal, dotyczących: Żwawości, powiedzi „tak” lub „nie”. Pozycje tworzą 6 skal, dotyczących: Żwawości,
Perseweratywności, Wrażliwości sensorycznej, Reaktywności emocjonalnej, Perseweratywności, Wrażliwości sensorycznej, Reaktywności emocjonalnej,
Wytrzymałości i Aktywności. Wytrzymałości i Aktywności.
FCZ-KT przeznaczony jest do badań indywidualnych lub grupowych osób FCZ-KT przeznaczony jest do badań indywidualnych lub grupowych osób
w wieku 15–80 lat. Czas badania jest nieograniczony, przeciętnie zajmuje 30 w wieku 15–80 lat. Czas badania jest nieograniczony, przeciętnie zajmuje 30
minut. Kwestionariusz znajduje praktyczne zastosowanie w poradnictwie za- minut. Kwestionariusz znajduje praktyczne zastosowanie w poradnictwie za-
wodowym i wychowawczym, a także w badaniach naukowych i klinicznych. wodowym i wychowawczym, a także w badaniach naukowych i klinicznych.
Narzędzie to jest obecnie szeroko stosowane w Polsce. Narzędzie to jest obecnie szeroko stosowane w Polsce.
Poszczególne inwentarze wymienione w tym krótkim przeglądzie posiadają Poszczególne inwentarze wymienione w tym krótkim przeglądzie posiadają
wiele wspólnego, mimo że powstawały w różnych momentach historycznych wiele wspólnego, mimo że powstawały w różnych momentach historycznych
i odzwierciedlały aktualny, w danym momencie, stan rozwoju wiedzy psycho- i odzwierciedlały aktualny, w danym momencie, stan rozwoju wiedzy psycho-
logicznej oraz metod psychometrycznych. Różnorodność cech ujętych w wy- logicznej oraz metod psychometrycznych. Różnorodność cech ujętych w wy-
mienionych inwentarzach jest po części pozorna. Mimo że posiadają one różne mienionych inwentarzach jest po części pozorna. Mimo że posiadają one różne
nazwy, dość często wymiary zawarte w niektórych kwestionariuszach można nazwy, dość często wymiary zawarte w niektórych kwestionariuszach można
traktować jak odpowiedniki skal zawartych w innych inwentarzach lub jako skła- traktować jak odpowiedniki skal zawartych w innych inwentarzach lub jako skła-
dowe części innych wymiarów. dowe części innych wymiarów.
2.2.2. Inwentarze przeznaczone do diagnozy wybranych wymiarów 2.2.2. Inwentarze przeznaczone do diagnozy wybranych wymiarów
osobowości osobowości
Inną grupą kwestionariuszy są inwentarze dotyczące wybranych właściwości Inną grupą kwestionariuszy są inwentarze dotyczące wybranych właściwości
psychicznych, których autorzy nie mieli na celu ujmowania całości osobowości psychicznych, których autorzy nie mieli na celu ujmowania całości osobowości
czy temperamentu. Dotyczą one zwykle pojedynczych charakterystyk zachowa- czy temperamentu. Dotyczą one zwykle pojedynczych charakterystyk zachowa-
nia lub aspektów osobowości czy temperamentu, takich jak np. lęk, depresyj- nia lub aspektów osobowości czy temperamentu, takich jak np. lęk, depresyj-
ność, umiejscowienie poczucia kontroli, style radzenia sobie ze stresem, zainte- ność, umiejscowienie poczucia kontroli, style radzenia sobie ze stresem, zainte-
resowania itd. resowania itd.
Jako pierwszy przykład narzędzi tej grupy przedstawiona zostanie, powstała Jako pierwszy przykład narzędzi tej grupy przedstawiona zostanie, powstała
w 1961 roku, Skala Depresji Becka (BDI). Służy ona do oceny obecności i nasi- w 1961 roku, Skala Depresji Becka (BDI). Służy ona do oceny obecności i nasi-
44 lenia objawów depresji. Ze względu na swoją prostotę jest bardzo często stoso- 44 lenia objawów depresji. Ze względu na swoją prostotę jest bardzo często stoso-

wana w badaniach psychologicznych. Wypełnienie jej zajmuje około 10 minut. wana w badaniach psychologicznych. Wypełnienie jej zajmuje około 10 minut.
Skala składa się z 21 pytań. Ustosunkowując się do kolejnych pozycji kwestio- Skala składa się z 21 pytań. Ustosunkowując się do kolejnych pozycji kwestio-
nariuszowych, badany powinien wybrać jedną odpowiedź, która, jego zdaniem, nariuszowych, badany powinien wybrać jedną odpowiedź, która, jego zdaniem,
w najlepszy sposób opisuje jego stan. Za odpowiedź na każde pytanie badany w najlepszy sposób opisuje jego stan. Za odpowiedź na każde pytanie badany
może otrzymać, w zależności od intensywności objawów, od 0 do 3 punktów, może otrzymać, w zależności od intensywności objawów, od 0 do 3 punktów,
przy czym większe liczby wskazują na wyższe nasilenie depresji. przy czym większe liczby wskazują na wyższe nasilenie depresji.
Niestety, mimo wielkiej popularności w praktyce klinicznej i badawczej, BDI Niestety, mimo wielkiej popularności w praktyce klinicznej i badawczej, BDI
nie ma aktualnej legalnej polskiej adaptacji, w związku z czym nie powinien być nie ma aktualnej legalnej polskiej adaptacji, w związku z czym nie powinien być
stosowany w Polsce (Parnowski i Jernajczyk, 1977). Korzystanie z kwestionariu- stosowany w Polsce (Parnowski i Jernajczyk, 1977). Korzystanie z kwestionariu-
sza Becka będzie możliwe, gdy zakończą się aktualnie trwające prace nad polską sza Becka będzie możliwe, gdy zakończą się aktualnie trwające prace nad polską
adaptacją nowej wersji tego narzędzia – BDI-II. adaptacją nowej wersji tego narzędzia – BDI-II.
Przykładem innego kwestionariusza z omawianej grupy jest Inwentarz Przykładem innego kwestionariusza z omawianej grupy jest Inwentarz
Stanu i Cechy Lęku (STAI) autorstwa C.D. Spielbergera, R.L. Gorsucha i R.E. Stanu i Cechy Lęku (STAI) autorstwa C.D. Spielbergera, R.L. Gorsucha i R.E.
Lushene’a. Jego budowa opiera się na rozróżnieniu między lękiem rozumianym Lushene’a. Jego budowa opiera się na rozróżnieniu między lękiem rozumianym
jako przejściowy i uwarunkowany sytuacyjnie stan jednostki a lękiem rozumia- jako przejściowy i uwarunkowany sytuacyjnie stan jednostki a lękiem rozumia-
nym jako względnie stała cecha osobowości. „Lęk jako stan” odpowiedzialny nym jako względnie stała cecha osobowości. „Lęk jako stan” odpowiedzialny
jest za zmienność wyników z sytuacji na sytuację. „Lęk jako cecha” dotyczy na- jest za zmienność wyników z sytuacji na sytuację. „Lęk jako cecha” dotyczy na-
tomiast niezależnych od sytuacji różnic indywidualnych pod względem różnych tomiast niezależnych od sytuacji różnic indywidualnych pod względem różnych
przejawów lęku. przejawów lęku.
Kwestionariusz STAI składa się z dwóch niezależnych części zawierających Kwestionariusz STAI składa się z dwóch niezależnych części zawierających
po 20 stwierdzeń każda. Za pomocą pierwszej części STAI (X–1) można badać po 20 stwierdzeń każda. Za pomocą pierwszej części STAI (X–1) można badać
poziom lęku traktowanego jako aktualny stan emocjonalny. Ta część kwestio- poziom lęku traktowanego jako aktualny stan emocjonalny. Ta część kwestio-
nariusza pozwala śledzić dynamikę lęku nawet w niewielkich odstępach czaso- nariusza pozwala śledzić dynamikę lęku nawet w niewielkich odstępach czaso-
wych. Część druga STAI (X–2) dotyczy lęku rozumianego jako cecha osobowo- wych. Część druga STAI (X–2) dotyczy lęku rozumianego jako cecha osobowo-
ści. W obu częściach osoba badana ustosunkowuje się do każdego stwierdzenia, ści. W obu częściach osoba badana ustosunkowuje się do każdego stwierdzenia,
wybierając jedną z czterech możliwości. Wysokie wartości punktowe oznaczają wybierając jedną z czterech możliwości. Wysokie wartości punktowe oznaczają
wyższy poziom lęku. wyższy poziom lęku.
Kwestionariusz ten znajduje zastosowanie głównie w psychologii klinicznej Kwestionariusz ten znajduje zastosowanie głównie w psychologii klinicznej
(np. do badania chorych somatycznie, w celu określenia poziomu aktualnego lęku (np. do badania chorych somatycznie, w celu określenia poziomu aktualnego lęku
związanego z chorobą lub czekających pacjenta zabiegami), a także w selekcji związanego z chorobą lub czekających pacjenta zabiegami), a także w selekcji
pracowników do zawodów wymagających niskiego poziomu lęku. STAI posiada pracowników do zawodów wymagających niskiego poziomu lęku. STAI posiada
polską aktualną adaptację, a więc może być stosowany w praktyce w naszym polską aktualną adaptację, a więc może być stosowany w praktyce w naszym
kraju (Wrześniewski, Sosnowski i Matusik, 2002). kraju (Wrześniewski, Sosnowski i Matusik, 2002).
Innym inwentarzem przeznaczonym do pomiaru specyficznego wymiaru oso- Innym inwentarzem przeznaczonym do pomiaru specyficznego wymiaru oso-
bowości jest Kwestionariusz do Badania Poczucia Kontroli (KBPK) (Krasowicz bowości jest Kwestionariusz do Badania Poczucia Kontroli (KBPK) (Krasowicz
i Kurzyp-Wojnarska, 1990). Kwestionariusz ten służy do pomiaru zmiennej oso- i Kurzyp-Wojnarska, 1990). Kwestionariusz ten służy do pomiaru zmiennej oso-
bowościowej zwanej poczuciem kontroli następstw zachowania, opisanej w teorii bowościowej zwanej poczuciem kontroli następstw zachowania, opisanej w teorii
społecznego uczenia się Rottera (Reykowski, 1992). Pytania KBPK, które doty- społecznego uczenia się Rottera (Reykowski, 1992). Pytania KBPK, które doty-
czą zdarzeń pozytywnych tworzą Skalę Sukcesów, natomiast pytania dotyczące czą zdarzeń pozytywnych tworzą Skalę Sukcesów, natomiast pytania dotyczące
zdarzeń negatywnych tworzą Skalę Porażek. Niskie wyniki świadczą o poczuciu zdarzeń negatywnych tworzą Skalę Porażek. Niskie wyniki świadczą o poczuciu
kontroli zewnętrznej, a wysokie – o poczuciu kontroli wewnętrznej. Inwentarz kontroli zewnętrznej, a wysokie – o poczuciu kontroli wewnętrznej. Inwentarz
przeznaczony jest do badania młodzieży w wieku 13–17 lat. Kwestionariusz ma 45 przeznaczony jest do badania młodzieży w wieku 13–17 lat. Kwestionariusz ma 45

dwie wersje, dla dziewcząt i chłopców, różniące się wyłącznie formą gramatycz- dwie wersje, dla dziewcząt i chłopców, różniące się wyłącznie formą gramatycz-
ną pytań. Zawiera pytania dotyczące różnych sytuacji występujących w życiu ną pytań. Zawiera pytania dotyczące różnych sytuacji występujących w życiu
młodzieży (kontakty w grupie rówieśniczej, życie rodzinne, osiągnięcia szkolne, młodzieży (kontakty w grupie rówieśniczej, życie rodzinne, osiągnięcia szkolne,
spędzanie wolnego czasu itp.). KBPK stosowany jest przede wszystkim do ce- spędzanie wolnego czasu itp.). KBPK stosowany jest przede wszystkim do ce-
lów badawczych, ewentualnie jako metoda wspomagająca diagnozę osobowości lów badawczych, ewentualnie jako metoda wspomagająca diagnozę osobowości
w praktyce psychologicznej. w praktyce psychologicznej.
Kwestionariusz Radzenia Sobie w Sytuacjach Stresowych (CISS) Endlera Kwestionariusz Radzenia Sobie w Sytuacjach Stresowych (CISS) Endlera
i Parkera (Strelau, Jaworowska, Wrześniewski, Szczepaniak, 2005) przeznaczo- i Parkera (Strelau, Jaworowska, Wrześniewski, Szczepaniak, 2005) przeznaczo-
ny jest do badania zachowań, jakie ludzie mogą przejawiać w sytuacjach stre- ny jest do badania zachowań, jakie ludzie mogą przejawiać w sytuacjach stre-
sowych, ujętych w trzy style radzenia sobie ze stresem: styl skoncentrowany na sowych, ujętych w trzy style radzenia sobie ze stresem: styl skoncentrowany na
zadaniu, styl skoncentrowany na emocjach oraz styl skoncentrowany na unika- zadaniu, styl skoncentrowany na emocjach oraz styl skoncentrowany na unika-
niu. Ten ostatni styl może przyjmować dwie formy: angażowanie się w czynności niu. Ten ostatni styl może przyjmować dwie formy: angażowanie się w czynności
zastępcze i poszukiwanie kontaktów towarzyskich. zastępcze i poszukiwanie kontaktów towarzyskich.
CISS składa się z 48 stwierdzeń dotyczących różnych zachowań, jakie ludzie CISS składa się z 48 stwierdzeń dotyczących różnych zachowań, jakie ludzie
mogą podejmować w sytuacjach trudnych. Badany określa na 5-stopniowej skali mogą podejmować w sytuacjach trudnych. Badany określa na 5-stopniowej skali
częstotliwość tego typu zachowań. częstotliwość tego typu zachowań.
Jeszcze innym przykładem wykorzystania kwestionariuszy jest Inwentarz Jeszcze innym przykładem wykorzystania kwestionariuszy jest Inwentarz
Zainteresowań opracowany przez Frydrychowicz, Jaworską, Woynarowską, Zainteresowań opracowany przez Frydrychowicz, Jaworską, Woynarowską,
Matuszewskiego (1994), który pozwala na ocenę 9 grup zainteresowań tworzą- Matuszewskiego (1994), który pozwala na ocenę 9 grup zainteresowań tworzą-
cych odpowiednie skale (Handlowo-Biurowe, Techniczne, Literackie, Rolnicze, cych odpowiednie skale (Handlowo-Biurowe, Techniczne, Literackie, Rolnicze,
Opiekuńcze, Wojskowe, Plastyczne, Naukowe, Muzyczne). Kwestionariusz ten Opiekuńcze, Wojskowe, Plastyczne, Naukowe, Muzyczne). Kwestionariusz ten
przeznaczony jest do badań młodzieży przygotowującej się do wyboru kierun- przeznaczony jest do badań młodzieży przygotowującej się do wyboru kierun-
ku dalszego kształcenia. Narzędzie to może być wykorzystywane w praktyce ku dalszego kształcenia. Narzędzie to może być wykorzystywane w praktyce
psychologicznej, chociaż przy interpretacji wyników należy zachować pewną psychologicznej, chociaż przy interpretacji wyników należy zachować pewną
ostrożność, gdyż normy zostały opracowane w 1991 roku, czyli już dość dawno. ostrożność, gdyż normy zostały opracowane w 1991 roku, czyli już dość dawno.
Inwentarz Zainteresowań, mimo że przeznaczony do diagnozy jednego aspektu Inwentarz Zainteresowań, mimo że przeznaczony do diagnozy jednego aspektu
osobowości, jakim są zainteresowania, posiada wiele wymiarów. Podobną wie- osobowości, jakim są zainteresowania, posiada wiele wymiarów. Podobną wie-
lowymiarową strukturę ma Skala Agresji Buss Durkee (Drwal, 1995). Struktura lowymiarową strukturę ma Skala Agresji Buss Durkee (Drwal, 1995). Struktura
ta wynika z tego, że w psychologii rozróżnia się wiele rodzajów agresji. Skala ta wynika z tego, że w psychologii rozróżnia się wiele rodzajów agresji. Skala
Agresji Buss Durkee zawiera siedem skal odnoszących się do różnych form za- Agresji Buss Durkee zawiera siedem skal odnoszących się do różnych form za-
chowania agresywnego (Atak, Wrogość pośrednia, Drażliwość, Negatywizm, chowania agresywnego (Atak, Wrogość pośrednia, Drażliwość, Negatywizm,
Uraza, Podejrzliwość, Agresja słowna). Jest to o tyle ważne, o ile inne istnieją- Uraza, Podejrzliwość, Agresja słowna). Jest to o tyle ważne, o ile inne istnieją-
ce na świecie kwestionariusze agresywności dostarczają jedynie ogólnej miary ce na świecie kwestionariusze agresywności dostarczają jedynie ogólnej miary
agresywności, bez uwzględniania różnorodnych przejawów tej cechy. Wyniki agresywności, bez uwzględniania różnorodnych przejawów tej cechy. Wyniki
wszystkich siedmiu skal, po zsumowaniu, dają wskaźnik ogólnego poziomu wszystkich siedmiu skal, po zsumowaniu, dają wskaźnik ogólnego poziomu
agresji. Dodatkowo, w inwentarzu zawarta jest skala poczucia winy. agresji. Dodatkowo, w inwentarzu zawarta jest skala poczucia winy.
Skala Agresji Buss Durkee bywa stosowana w praktyce sądowej do badania Skala Agresji Buss Durkee bywa stosowana w praktyce sądowej do badania
więźniów i oskarżonych, a także w praktyce klinicznej przy diagnozie agresyw- więźniów i oskarżonych, a także w praktyce klinicznej przy diagnozie agresyw-
ności pacjentów psychiatrycznych. Inwentarz ten nie służy do badania przyczyn ności pacjentów psychiatrycznych. Inwentarz ten nie służy do badania przyczyn
i intencji agresywnego zachowania, a jedynie umożliwia diagnozę poziomu po- i intencji agresywnego zachowania, a jedynie umożliwia diagnozę poziomu po-
46 szczególnych rodzajów agresywności. 46 szczególnych rodzajów agresywności.

Najpopularniejszą polską wersję tego narzędzia opracował Choynowski (1972) Najpopularniejszą polską wersję tego narzędzia opracował Choynowski (1972)
pod nazwą Nastroje i Humory. Obecnie jest to jednak adaptacja przestarzała, co pod nazwą Nastroje i Humory. Obecnie jest to jednak adaptacja przestarzała, co
uniemożliwia stosowanie jej w praktyce psychologicznej w Polsce. uniemożliwia stosowanie jej w praktyce psychologicznej w Polsce.
Kofta, Brzeziński i Ignaczak (1977) opracowali narzędzie do pomiaru ostat- Kofta, Brzeziński i Ignaczak (1977) opracowali narzędzie do pomiaru ostat-
niego z wymiarów uwzględnionych w Kwestionariuszu Nastroje i Humory, jakim niego z wymiarów uwzględnionych w Kwestionariuszu Nastroje i Humory, jakim
jest poczucie winy. Celem Kwestionariusza Poczucia Winy (KPW) wspomnia- jest poczucie winy. Celem Kwestionariusza Poczucia Winy (KPW) wspomnia-
nych autorów jest zbadanie częstotliwości, natężenia i długości czasu przeżywa- nych autorów jest zbadanie częstotliwości, natężenia i długości czasu przeżywa-
nia poczucia winy. W kwestionariuszu tym przedstawiony jest badanemu szereg nia poczucia winy. W kwestionariuszu tym przedstawiony jest badanemu szereg
niedokończonych zdań, zawierających opisy różnych sytuacji. Zadaniem bada- niedokończonych zdań, zawierających opisy różnych sytuacji. Zadaniem bada-
nego jest ich uzupełnianie za pomocą przedstawionych do wyboru dwuwarian- nego jest ich uzupełnianie za pomocą przedstawionych do wyboru dwuwarian-
towych odpowiedzi. Decyzja o ich wyborze jest odzwierciedleniem przekonań, towych odpowiedzi. Decyzja o ich wyborze jest odzwierciedleniem przekonań,
odczuć i reakcji osoby badanej, wskazujących na przeżywanie poczucia winy odczuć i reakcji osoby badanej, wskazujących na przeżywanie poczucia winy
bądź też jego brak. bądź też jego brak.
Kwestionariusz Poczucia Winy nie może być stosowany w praktyce psycholo- Kwestionariusz Poczucia Winy nie może być stosowany w praktyce psycholo-
gicznej ze względu na brak aktualnych norm, choć można stosować go w bada- gicznej ze względu na brak aktualnych norm, choć można stosować go w bada-
niach naukowych. Więcej na ten temat znaleźć można w rozdziale 6.2. niach naukowych. Więcej na ten temat znaleźć można w rozdziale 6.2.
2.2.3. Charakter pozycji testowych występujących 2.2.3. Charakter pozycji testowych występujących

w kwestionariuszach w kwestionariuszach
2.2.3.1. Treść pozycji testowych w kwestionariuszach 2.2.3.1. Treść pozycji testowych w kwestionariuszach
Po krótkim przeglądzie wybranych kwestionariuszy przejdziemy do opisu ty- Po krótkim przeglądzie wybranych kwestionariuszy przejdziemy do opisu ty-
powych pozycji testowych, z jakich są one budowane. powych pozycji testowych, z jakich są one budowane.
Pozycje testowe w kwestionariuszach mogą dotyczyć najrozmaitszych zagad- Pozycje testowe w kwestionariuszach mogą dotyczyć najrozmaitszych zagad-
nień. Ogromna różnorodność treściowa zawartości kwestionariuszy jest zrozu- nień. Ogromna różnorodność treściowa zawartości kwestionariuszy jest zrozu-
miała, jeśli uwzględni się, że właściwości psychiczne człowieka mają bardzo miała, jeśli uwzględni się, że właściwości psychiczne człowieka mają bardzo
zróżnicowane przejawy. Według Wernera i Pervina (1986) możliwe jest scha- zróżnicowane przejawy. Według Wernera i Pervina (1986) możliwe jest scha-
rakteryzowanie każdej pozycji testowej ze względu na obszar funkcjonowania rakteryzowanie każdej pozycji testowej ze względu na obszar funkcjonowania
psychicznego, sytuację, a także częstość oraz czas występowania zagadnień, któ- psychicznego, sytuację, a także częstość oraz czas występowania zagadnień, któ-
rego dana pozycja testowa dotyczy. Opierając się na tych kryteriach klasyfikacji, rego dana pozycja testowa dotyczy. Opierając się na tych kryteriach klasyfikacji,
w dalszej części przedstawione zostaną różne rodzaje pozycji testowych oraz ich w dalszej części przedstawione zostaną różne rodzaje pozycji testowych oraz ich
przykłady zaczerpnięte z istniejących inwentarzy. przykłady zaczerpnięte z istniejących inwentarzy.
Biorąc pod uwagę obszar funkcjonowania psychicznego człowieka, treść Biorąc pod uwagę obszar funkcjonowania psychicznego człowieka, treść
pozycji testowych wchodzących w skład inwentarzy można podzielić na trzy pozycji testowych wchodzących w skład inwentarzy można podzielić na trzy
główne kategorie: przekonania, emocje oraz zachowania (Marody, 1976). W ob- główne kategorie: przekonania, emocje oraz zachowania (Marody, 1976). W ob-
rębie każdej z tych kategorii można wyodrębnić podkategorie. I tak wśród po- rębie każdej z tych kategorii można wyodrębnić podkategorie. I tak wśród po-
zycji testowych dotyczących przekonań można wyróżnić dwie grupy. Pierwszą zycji testowych dotyczących przekonań można wyróżnić dwie grupy. Pierwszą
z nich są pozycje testowe, których treść wiąże się z przekonaniami osoby ba- z nich są pozycje testowe, których treść wiąże się z przekonaniami osoby ba-
danej na własny temat, czyli z takimi zagadnieniami, jak stosunek do samego danej na własny temat, czyli z takimi zagadnieniami, jak stosunek do samego
siebie („Myślę czasem o rzeczach, o których nie wypada mówić”, „Jestem ważną siebie („Myślę czasem o rzeczach, o których nie wypada mówić”, „Jestem ważną
osobą”; MMPI), przypisywanie sobie pewnych cech („Czy masz żywe usposo- 47 osobą”; MMPI), przypisywanie sobie pewnych cech („Czy masz żywe usposo- 47

bienie?”; EPQ‑R) czy zdolności („Czy potrafisz pracować w niesprzyjających bienie?”; EPQ‑R) czy zdolności („Czy potrafisz pracować w niesprzyjających
warunkach?”; KTS). Drugą grupą pozycji testowych dotyczących przekonań są warunkach?”; KTS). Drugą grupą pozycji testowych dotyczących przekonań są
takie, które nie odnoszą się bezpośrednio do osoby badanej, lecz do ogólnych takie, które nie odnoszą się bezpośrednio do osoby badanej, lecz do ogólnych
przekonań na temat świata („Wierzę w życie pozagrobowe”; MMPI), wartości przekonań na temat świata („Wierzę w życie pozagrobowe”; MMPI), wartości
czy też opinii wobec określonych kwestii („Czy lepiej jest postępować według czy też opinii wobec określonych kwestii („Czy lepiej jest postępować według
reguł przyjętych w społeczeństwie niż chodzić własnymi drogami?”; EPQ-R) reguł przyjętych w społeczeństwie niż chodzić własnymi drogami?”; EPQ-R)
oraz przekonań dotyczących innych ludzi („Większość ludzi, których znam, lubi oraz przekonań dotyczących innych ludzi („Większość ludzi, których znam, lubi
mnie”; NEO-FFI), a także spostrzegania zachowań innych ludzi wobec osoby mnie”; NEO-FFI), a także spostrzegania zachowań innych ludzi wobec osoby
badanej. badanej.
Wśród pozycji testowych dotyczących emocji można wyróżnić dwie grupy. Wśród pozycji testowych dotyczących emocji można wyróżnić dwie grupy.
Do pierwszej z nich zaliczają się takie pozycje testowe, które dotyczą upodobań Do pierwszej z nich zaliczają się takie pozycje testowe, które dotyczą upodobań
(„Czy lubisz życie towarzyskie?”; MPI) czy też pragnień. Drugą grupę stanowią („Czy lubisz życie towarzyskie?”; MPI) czy też pragnień. Drugą grupę stanowią
natomiast pozycje testowe, których treść koncentruje się na uczuciach przeży- natomiast pozycje testowe, których treść koncentruje się na uczuciach przeży-
wanych przez osobę badaną („Czy czasem czujesz się „podle” bez powodu?”; wanych przez osobę badaną („Czy czasem czujesz się „podle” bez powodu?”;
EPQ-R). EPQ-R).
Pozycje, których treść koncentruje się wokół zachowań odnoszą się do jakiej- Pozycje, których treść koncentruje się wokół zachowań odnoszą się do jakiej-
kolwiek obserwowalnej aktywności badanego („Często odwiedzam swoich zna- kolwiek obserwowalnej aktywności badanego („Często odwiedzam swoich zna-
jomych”; FCZ-KT). Do kategorii tej należy zaliczyć także reakcje fizjologiczne jomych”; FCZ-KT). Do kategorii tej należy zaliczyć także reakcje fizjologiczne
i zachowania, które znajdują się poza kontrolą wolicjonalną człowieka („Bardzo i zachowania, które znajdują się poza kontrolą wolicjonalną człowieka („Bardzo
się kręcę w łóżku”; DOTS-R). się kręcę w łóżku”; DOTS-R).
Oprócz tych trzech głównych (przekonania, emocje, zachowania) kategorii Oprócz tych trzech głównych (przekonania, emocje, zachowania) kategorii
pozycji Angleitner i Riemann (1991) zwracają uwagę na pozycje kwestionariu- pozycji Angleitner i Riemann (1991) zwracają uwagę na pozycje kwestionariu-
szowe, które dotyczą wewnętrznych reakcji człowieka, trudnych do zaobserwo- szowe, które dotyczą wewnętrznych reakcji człowieka, trudnych do zaobserwo-
wania przez innych („W nocy dostrzegam płynące po niebie chmury”; FCZ-KT, wania przez innych („W nocy dostrzegam płynące po niebie chmury”; FCZ-KT,
„Czy budzisz się na ogół szybko i bez trudności?”; KTS). „Czy budzisz się na ogół szybko i bez trudności?”; KTS).
Niezależnie od tego, do jakiej kategorii należą pozycje testowe inwentarzy Niezależnie od tego, do jakiej kategorii należą pozycje testowe inwentarzy
(przekonania, emocje, zachowania), to ich treść może charakteryzować zarówno (przekonania, emocje, zachowania), to ich treść może charakteryzować zarówno
zdrową, jak i zaburzoną osobowości („Słyszę głosy, których nie słyszą inni”; zdrową, jak i zaburzoną osobowości („Słyszę głosy, których nie słyszą inni”;
SCL–90). Pozycje dotyczące symptomów najczęściej można znaleźć w inwenta- SCL–90). Pozycje dotyczące symptomów najczęściej można znaleźć w inwenta-
rzach przeznaczonych do diagnozy zaburzeń czy trudności psychicznych. rzach przeznaczonych do diagnozy zaburzeń czy trudności psychicznych.
Omawiając różną zawartość treściową kwestionariuszy, należy zwrócić uwa- Omawiając różną zawartość treściową kwestionariuszy, należy zwrócić uwa-
gę, że istnieją takie pozycje testowe, które dotyczą sposobu zachowania się, gę, że istnieją takie pozycje testowe, które dotyczą sposobu zachowania się,
czyli formalnych aspektów zachowania („Czy zwykle mówisz szybko?”; KTS). czyli formalnych aspektów zachowania („Czy zwykle mówisz szybko?”; KTS).
Pozycje testowe tego typu nie opisują specyficznych przejawów wybranego ob- Pozycje testowe tego typu nie opisują specyficznych przejawów wybranego ob-
szaru funkcjonowania psychicznego (przekonania, emocje, zachowania). Częściej szaru funkcjonowania psychicznego (przekonania, emocje, zachowania). Częściej
natomiast koncentrują się one np. na natężeniu, tempie czy czasie trwania. Takie natomiast koncentrują się one np. na natężeniu, tempie czy czasie trwania. Takie
pozycje charakterystyczne są dla kwestionariuszy temperamentu (Angleitner pozycje charakterystyczne są dla kwestionariuszy temperamentu (Angleitner
i Riemann, 1991). i Riemann, 1991).
Pozycje testowe w kwestionariuszach mogą być analizowane nie tylko pod Pozycje testowe w kwestionariuszach mogą być analizowane nie tylko pod
względem obszaru funkcjonowania psychicznego, lecz także sytuacji, jakiej do- względem obszaru funkcjonowania psychicznego, lecz także sytuacji, jakiej do-
tyczą. Z tego względu wyodrębnia się trzy grupy pozycji testowych. Po pierwsze, tyczą. Z tego względu wyodrębnia się trzy grupy pozycji testowych. Po pierwsze,
48 w kwestionariuszach spotyka się pozycje testowe, w których nie sprecyzowano, 48 w kwestionariuszach spotyka się pozycje testowe, w których nie sprecyzowano,

do jakiej odnoszą się sytuacji. Tego typu pozycje testowe to wszystkie przytoczo- do jakiej odnoszą się sytuacji. Tego typu pozycje testowe to wszystkie przytoczo-
ne dotychczas przykłady. Po drugie, istnieją pozycje testowe, w których w ogól- ne dotychczas przykłady. Po drugie, istnieją pozycje testowe, w których w ogól-
nikowy sposób określono, jakiej sytuacji dotyczą („Zrobiłbym chyba wszystko, nikowy sposób określono, jakiej sytuacji dotyczą („Zrobiłbym chyba wszystko,
gdyby mnie sprowokowano”; IPSA, „Zwraca moją uwagę zmiana smaku wody, gdyby mnie sprowokowano”; IPSA, „Zwraca moją uwagę zmiana smaku wody,
gdy przebywam w nowym miejscu”; FCZ-KT). Trzecią grupę stanowią takie po- gdy przebywam w nowym miejscu”; FCZ-KT). Trzecią grupę stanowią takie po-
zycje testowe, w których w dość jasny sposób określono sytuację („W karnawale, zycje testowe, w których w dość jasny sposób określono sytuację („W karnawale,
jeśli tylko mam taką możliwość, uczestniczę w wielu zabawach, prywatkach”; jeśli tylko mam taką możliwość, uczestniczę w wielu zabawach, prywatkach”;
„Jeśli śpię krócej niż zwykle, to następnego dnia czuję się rozbity (rozbita) i zmę- „Jeśli śpię krócej niż zwykle, to następnego dnia czuję się rozbity (rozbita) i zmę-
czony (zmęczona)”; FCZ-KT). Dwie ostatnie kategorie stanowią około połowy czony (zmęczona)”; FCZ-KT). Dwie ostatnie kategorie stanowią około połowy
pozycji testowych, znajdujących się w najczęściej stosowanych kwestionariu- pozycji testowych, znajdujących się w najczęściej stosowanych kwestionariu-
szach osobowości (Werner i Pervin, 1986). szach osobowości (Werner i Pervin, 1986).
Oprócz treści oraz sytuacji można także analizować aspekt czasowy, jakiego Oprócz treści oraz sytuacji można także analizować aspekt czasowy, jakiego
dotyczą pozycje testowe. Generalnie pozycje testowe mogą odnosić się do prze- dotyczą pozycje testowe. Generalnie pozycje testowe mogą odnosić się do prze-
szłości, przyszłości lub teraźniejszości, co wyrażone jest najczęściej odpowied- szłości, przyszłości lub teraźniejszości, co wyrażone jest najczęściej odpowied-
nim czasem gramatycznym czasowników. Oprócz tego w kwestionariuszach spo- nim czasem gramatycznym czasowników. Oprócz tego w kwestionariuszach spo-
tyka się pozycje testowe wyrażone w trybie przypuszczającym (np. „Najchętniej tyka się pozycje testowe wyrażone w trybie przypuszczającym (np. „Najchętniej
bym siedział przez większość czasu i marzył, zamiast coś robić”, „Chciałbym bym siedział przez większość czasu i marzył, zamiast coś robić”, „Chciałbym
być śpiewakiem”; MMPI). Najczęściej jednak w kwestionariuszach osobowości być śpiewakiem”; MMPI). Najczęściej jednak w kwestionariuszach osobowości
spotyka się pozycje testowe dotyczące teraźniejszości (Werner i Pervin, 1986). spotyka się pozycje testowe dotyczące teraźniejszości (Werner i Pervin, 1986).
Poruszając zagadnienie aspektu czasowego, jakiego dotyczą pozycje testowe, Poruszając zagadnienie aspektu czasowego, jakiego dotyczą pozycje testowe,
należy także wspomnieć o częstości wykonywania czynności. W niektórych po- należy także wspomnieć o częstości wykonywania czynności. W niektórych po-
zycjach testowych stosuje się określniki częstości w rodzaju: „często”, „czasa- zycjach testowych stosuje się określniki częstości w rodzaju: „często”, „czasa-
mi”, „rzadko”, „bywa, że”, „przez większość czasu” itp. Inne pozycje testowe mi”, „rzadko”, „bywa, że”, „przez większość czasu” itp. Inne pozycje testowe
w ogóle nie precyzują częstości. Oprócz pozycji testowych, należących do tych w ogóle nie precyzują częstości. Oprócz pozycji testowych, należących do tych
dwóch przeciwstawnych grup, bywają także takie, których treść nie całkowicie dwóch przeciwstawnych grup, bywają także takie, których treść nie całkowicie
jest jasna co do częstości występowania danej czynności. Niejasność ta wynika jest jasna co do częstości występowania danej czynności. Niejasność ta wynika
niekiedy z trudności w takim sformułowaniu pytań, aby dotyczyły one jedynie niekiedy z trudności w takim sformułowaniu pytań, aby dotyczyły one jedynie
częstości a nie innych aspektów danego zachowania np. intensywności. Jako częstości a nie innych aspektów danego zachowania np. intensywności. Jako
przykład takiej pozycji testowej może posłużyć stwierdzenie pochodzące z kwe- przykład takiej pozycji testowej może posłużyć stwierdzenie pochodzące z kwe-
stionariusza MMPI – „Ludzie łatwo mnie niecierpliwią”. W zdaniu tym nie do stionariusza MMPI – „Ludzie łatwo mnie niecierpliwią”. W zdaniu tym nie do
końca wiadomo, czy zniecierpliwienie ludźmi następuje u badanej osoby dość końca wiadomo, czy zniecierpliwienie ludźmi następuje u badanej osoby dość
szybko czy też badany często obserwuje u siebie takie zniecierpliwienie. szybko czy też badany często obserwuje u siebie takie zniecierpliwienie.
2.2.3.2. Forma pozycji testowych w kwestionariuszach 2.2.3.2. Forma pozycji testowych w kwestionariuszach
Pozycje testowe w kwestionariuszach, choć zróżnicowane treściowo, powinny Pozycje testowe w kwestionariuszach, choć zróżnicowane treściowo, powinny
być ujednolicone pod względem swej formy, dzięki czemu możliwy jest jedna- być ujednolicone pod względem swej formy, dzięki czemu możliwy jest jedna-
kowy sposób udzielania odpowiedzi w danym inwentarzu. Ustosunkowanie się kowy sposób udzielania odpowiedzi w danym inwentarzu. Ustosunkowanie się
badanego do poszczególnych pozycji testowych polega zwykle na wyborze jed- badanego do poszczególnych pozycji testowych polega zwykle na wyborze jed-
nej z opcji odpowiedzi, jakie są zawarte w każdej pozycji testowej. Liczba opcji nej z opcji odpowiedzi, jakie są zawarte w każdej pozycji testowej. Liczba opcji
odpowiedzi bywa nazywana formatem odpowiedzi. Każdej z opcji odpowiedzi odpowiedzi bywa nazywana formatem odpowiedzi. Każdej z opcji odpowiedzi
przyporządkowana jest pewna wartość liczbowa, wskazująca stopień, w jakim 49 przyporządkowana jest pewna wartość liczbowa, wskazująca stopień, w jakim 49

dana odpowiedź odzwierciedla badaną cechę. W przypadku najprostszych dwu- dana odpowiedź odzwierciedla badaną cechę. W przypadku najprostszych dwu-
kategorialnych formatów odpowiedzi jedna z odpowiedzi wskazuje na posiadanie kategorialnych formatów odpowiedzi jedna z odpowiedzi wskazuje na posiadanie
danej właściwości, a druga – na jej brak. Odpowiedź wskazująca na posiadanie danej właściwości, a druga – na jej brak. Odpowiedź wskazująca na posiadanie
danej cechy nazywana jest odpowiedzią diagnostyczną. Jako przykład może po- danej cechy nazywana jest odpowiedzią diagnostyczną. Jako przykład może po-
służyć pytanie „Czy masz trudności w zaprzyjaźnianiu się z ludźmi?”, zaczerp- służyć pytanie „Czy masz trudności w zaprzyjaźnianiu się z ludźmi?”, zaczerp-
nięte ze skali intro-ekstrawersji kwestionariusza EPQ-R Eysencka. Odpowiedzią nięte ze skali intro-ekstrawersji kwestionariusza EPQ-R Eysencka. Odpowiedzią
diagnostyczną jest tu odpowiedź „nie”, gdyż łatwość nawiązywania przyjaźni diagnostyczną jest tu odpowiedź „nie”, gdyż łatwość nawiązywania przyjaźni
z innymi ludźmi jest charakterystyczna dla osób o wysokim nasileniu ekstra- z innymi ludźmi jest charakterystyczna dla osób o wysokim nasileniu ekstra-
wersji. Podobnie w innych pytaniach, składających się na tę skalę, odpowiedzia- wersji. Podobnie w innych pytaniach, składających się na tę skalę, odpowiedzia-
mi diagnostycznymi są takie, które wskazują na bycie osobą ekstrawertywną. mi diagnostycznymi są takie, które wskazują na bycie osobą ekstrawertywną.
Mogą to być, zależnie od treści pytania, zarówno odpowiedzi „tak”, jak i „nie”. Mogą to być, zależnie od treści pytania, zarówno odpowiedzi „tak”, jak i „nie”.
W związku z tym, że odpowiedziom diagnostycznym przypisywany jest jeden W związku z tym, że odpowiedziom diagnostycznym przypisywany jest jeden
punkt, a odpowiedziom niediagnostycznym zero punktów to im wyższa suma punkt, a odpowiedziom niediagnostycznym zero punktów to im wyższa suma
uzyskanych punktów za udzielone odpowiedzi na pytania skali intro-ekstrawersji uzyskanych punktów za udzielone odpowiedzi na pytania skali intro-ekstrawersji
kwestionariusza EPQ-R, tym wyższe nasilenie ekstrawersji. kwestionariusza EPQ-R, tym wyższe nasilenie ekstrawersji.
Można wyobrazić sobie taką sytuację, w której kwestionariusz EPQ-R byłby Można wyobrazić sobie taką sytuację, w której kwestionariusz EPQ-R byłby
skonstruowany w odwrotny sposób, tj. wyższe wartości sumy uzyskanych punk- skonstruowany w odwrotny sposób, tj. wyższe wartości sumy uzyskanych punk-
tów za udzielone odpowiedzi na pytania skali intro-ekstrawersji wskazywałby na tów za udzielone odpowiedzi na pytania skali intro-ekstrawersji wskazywałby na
wyższe nasilenie introwersji. Jednak w tej sytuacji odpowiedzią diagnostyczną wyższe nasilenie introwersji. Jednak w tej sytuacji odpowiedzią diagnostyczną
(czyli punktowaną) musiałaby być odpowiedź „tak” w powyżej przytoczonej po- (czyli punktowaną) musiałaby być odpowiedź „tak” w powyżej przytoczonej po-
zycji testowej. Podobnie we wszystkich pozostałych pozycjach testowych odpo- zycji testowej. Podobnie we wszystkich pozostałych pozycjach testowych odpo-
wiedziami diagnostycznymi stałyby się odpowiedzi odwrotne do tych, jakie są wiedziami diagnostycznymi stałyby się odpowiedzi odwrotne do tych, jakie są
diagnostyczne w sytuacji, gdy większa suma wyników skali odpowiada wyższe- diagnostyczne w sytuacji, gdy większa suma wyników skali odpowiada wyższe-
mu nasileniu ekstrawersji. mu nasileniu ekstrawersji.
Podsumowując: w podanym przykładzie odpowiedź „nie” jest diagnostyczna Podsumowując: w podanym przykładzie odpowiedź „nie” jest diagnostyczna
dla ekstrawersji, a odpowiedź „tak” – dla introwersji. Są to przeciwne bieguny tej dla ekstrawersji, a odpowiedź „tak” – dla introwersji. Są to przeciwne bieguny tej
samej cechy psychicznej. Ponieważ w kwestionariuszu EPQ-R uzyskanie wyż- samej cechy psychicznej. Ponieważ w kwestionariuszu EPQ-R uzyskanie wyż-
szych wyników miało, z założenia, oznaczać wyższe nasilenie ekstrawersji, więc szych wyników miało, z założenia, oznaczać wyższe nasilenie ekstrawersji, więc
jako odpowiedź diagnostyczną wybrano „nie”. jako odpowiedź diagnostyczną wybrano „nie”.
Jak więc widać to, co zostanie nazwane odpowiedzią diagnostyczną jest Jak więc widać to, co zostanie nazwane odpowiedzią diagnostyczną jest
umowne i zależy od celu oraz założeń przyjętych przez twórcę danego narzędzia umowne i zależy od celu oraz założeń przyjętych przez twórcę danego narzędzia
dotyczących tego, na co mają wskazywać niskie wyniki uzyskiwane w kwestio- dotyczących tego, na co mają wskazywać niskie wyniki uzyskiwane w kwestio-
nariuszu, a na co – wysokie wyniki. W inwentarzach nie ma jednej prawidłowej nariuszu, a na co – wysokie wyniki. W inwentarzach nie ma jednej prawidłowej
odpowiedzi tak, jak jest to w testach inteligencji i zdolności. odpowiedzi tak, jak jest to w testach inteligencji i zdolności.
Pozycje testowe mogą mieć postać pytań, tak jak przedstawiono to w po- Pozycje testowe mogą mieć postać pytań, tak jak przedstawiono to w po-
wyższym przykładzie, lub stwierdzeń. Niezależnie jednak od formy, zadaniem wyższym przykładzie, lub stwierdzeń. Niezależnie jednak od formy, zadaniem
badanego jest zawsze ustosunkowanie się do treści pozycji testowej przez wy- badanego jest zawsze ustosunkowanie się do treści pozycji testowej przez wy-
branie jednej z opcji odpowiedzi dołączonych do niego. Opisany powyżej dwu- branie jednej z opcji odpowiedzi dołączonych do niego. Opisany powyżej dwu-
kategorialny („tak” – „nie” czy też „prawda” – „fałsz”) format odpowiedzi to kategorialny („tak” – „nie” czy też „prawda” – „fałsz”) format odpowiedzi to
jeden z najprostszych sposobów występujących w kwestionariuszach. Może być jeden z najprostszych sposobów występujących w kwestionariuszach. Może być
on uzupełniony opcją pośrednią, mającą formę stwierdzeń: „nie wiem”, „trud- on uzupełniony opcją pośrednią, mającą formę stwierdzeń: „nie wiem”, „trud-
50 no powiedzieć”, „?” itp. Bardziej rozbudowane formaty odpowiedzi przybierają 50 no powiedzieć”, „?” itp. Bardziej rozbudowane formaty odpowiedzi przybierają

postać wielokategorialnych zestawów opcji odpowiedzi. Dość często spotyka- postać wielokategorialnych zestawów opcji odpowiedzi. Dość często spotyka-
ny jest format czterokategorialny, który może składać się z następujących opcji: ny jest format czterokategorialny, który może składać się z następujących opcji:
„Zdecydowanie zgadzam się”, „Raczej zgadzam się”, „Raczej nie zgadzam się”, „Zdecydowanie zgadzam się”, „Raczej zgadzam się”, „Raczej nie zgadzam się”,
„Zdecydowanie nie zgadzam się”. Podobnie jak w przypadku formatów dwuka- „Zdecydowanie nie zgadzam się”. Podobnie jak w przypadku formatów dwuka-
tegorialnych, również formaty wielokategorialne uzupełnia się czasem dodatko- tegorialnych, również formaty wielokategorialne uzupełnia się czasem dodatko-
wo opcją pośrednią, np. „ani się nie zgadzam, ani zgadzam” czy też „nie mam wo opcją pośrednią, np. „ani się nie zgadzam, ani zgadzam” czy też „nie mam
zdania”. zdania”.
W przypadku formatów wielokategorialnych nie można jednoznacznie okre- W przypadku formatów wielokategorialnych nie można jednoznacznie okre-
ślić, która z odpowiedzi jest diagnostyczna. Poszczególne opcje różnią się bo- ślić, która z odpowiedzi jest diagnostyczna. Poszczególne opcje różnią się bo-
wiem stopniem, w jakim wskazują na posiadanie danej cechy, a więc stopniem wiem stopniem, w jakim wskazują na posiadanie danej cechy, a więc stopniem
swojej diagnostyczności. Np. w przypadku pozycji testowej: „Często czuję się swojej diagnostyczności. Np. w przypadku pozycji testowej: „Często czuję się
gorszy od innych”, pochodzącej ze skali neurotyzmu kwestionariusza NEO- gorszy od innych”, pochodzącej ze skali neurotyzmu kwestionariusza NEO-
FFI, odpowiedź „Zdecydowanie zgadzam się” świadczy o większym nasileniu FFI, odpowiedź „Zdecydowanie zgadzam się” świadczy o większym nasileniu
neurotyzmu (przyporządkowano jej większą liczbę punktów) niż odpowiedź neurotyzmu (przyporządkowano jej większą liczbę punktów) niż odpowiedź
„Raczej zgadzam się” (przyporządkowano jej nieco mniejszą liczbę punktów). „Raczej zgadzam się” (przyporządkowano jej nieco mniejszą liczbę punktów).
Oczywiście odpowiedzi „Raczej nie zgadzam się”, a szczególnie „Zdecydowanie Oczywiście odpowiedzi „Raczej nie zgadzam się”, a szczególnie „Zdecydowanie
nie zgadzam się” w minimalnym stopniu wskazują na neurotyzm i punktowane nie zgadzam się” w minimalnym stopniu wskazują na neurotyzm i punktowane
są najniżej. są najniżej.
Oprócz opisanych powyżej rodzajów pozycji testowych, występujących w kwe- Oprócz opisanych powyżej rodzajów pozycji testowych, występujących w kwe-
stionariuszach, istnieją różne inne ich typy i związane z nimi rozmaite procedury stionariuszach, istnieją różne inne ich typy i związane z nimi rozmaite procedury
wyboru odpowiedzi przez osobę badaną. Niektóre inwentarze zawierają pozycje wyboru odpowiedzi przez osobę badaną. Niektóre inwentarze zawierają pozycje
składające się z dwóch stwierdzeń. Zadaniem badanego jest wybranie jednego składające się z dwóch stwierdzeń. Zadaniem badanego jest wybranie jednego
z nich. Inną wersją takiego sposobu udzielania odpowiedzi są pozycje testowe z nich. Inną wersją takiego sposobu udzielania odpowiedzi są pozycje testowe
składające się z niedokończonego zdania oraz dwóch lub więcej opcji odpowie- składające się z niedokończonego zdania oraz dwóch lub więcej opcji odpowie-
dzi, będących różnymi możliwościami zakończenia tego zdania. Przykładem dzi, będących różnymi możliwościami zakończenia tego zdania. Przykładem
inwentarza zawierającego tego typu pozycje testowe jest Kwestionariusz do inwentarza zawierającego tego typu pozycje testowe jest Kwestionariusz do
Badania Poczucia Kontroli Krasowicz i Kurzyp-Wojnarskiej (1990). W przypad- Badania Poczucia Kontroli Krasowicz i Kurzyp-Wojnarskiej (1990). W przypad-
ku każdej pozycji testowej tego kwestionariusza jedna z odpowiedzi reprezentuje ku każdej pozycji testowej tego kwestionariusza jedna z odpowiedzi reprezentuje
wewnętrzne poczcie kontroli, a druga – zewnętrzne. Oto przykład pozycji testo- wewnętrzne poczcie kontroli, a druga – zewnętrzne. Oto przykład pozycji testo-
wej pochodzącej z omawianego kwestionariusza: wej pochodzącej z omawianego kwestionariusza:
Jeżeli czekają cię jakieś trudne zadania, to: Jeżeli czekają cię jakieś trudne zadania, to:
a) przygotowujesz się do ich pokonania, a) przygotowujesz się do ich pokonania,
b) czekasz, bo to co ma być, to będzie. b) czekasz, bo to co ma być, to będzie.
Niskie wyniki w tym kwestionariuszu świadczą o poczuciu kontroli zewnętrz- Niskie wyniki w tym kwestionariuszu świadczą o poczuciu kontroli zewnętrz-
nej, a wysokie – o poczuciu kontroli wewnętrznej. Oznacza to, że odpowiedzią nej, a wysokie – o poczuciu kontroli wewnętrznej. Oznacza to, że odpowiedzią
diagnostyczną jest tu odpowiedź a), gdyż wskazuje ona na wewnętrzne umiejsco- diagnostyczną jest tu odpowiedź a), gdyż wskazuje ona na wewnętrzne umiejsco-
wienie poczucia kontroli. wienie poczucia kontroli.
Jeszcze inną odmianę pozycji testowych zawierają tak zwane listy przymiot- Jeszcze inną odmianę pozycji testowych zawierają tak zwane listy przymiot-
nikowe (np. ACL, UMACL). Mają one relatywnie prosty charakter, gdyż każdą nikowe (np. ACL, UMACL). Mają one relatywnie prosty charakter, gdyż każdą
pozycję testową stanowi pojedynczy przymiotnik, będący określeniem pewnej pozycję testową stanowi pojedynczy przymiotnik, będący określeniem pewnej
właściwości zachowania człowieka. Listy przymiotnikowe składają się z szeregu właściwości zachowania człowieka. Listy przymiotnikowe składają się z szeregu
takich przymiotników, a zadaniem badanego jest wybranie dowolnej ich liczby 51 takich przymiotników, a zadaniem badanego jest wybranie dowolnej ich liczby 51

w ten sposób, aby najlepiej opisywały one badanego. Każdy z przymiotników w ten sposób, aby najlepiej opisywały one badanego. Każdy z przymiotników
jest diagnostyczny dla pewnej cechy psychicznej, do pomiaru której (lub któ- jest diagnostyczny dla pewnej cechy psychicznej, do pomiaru której (lub któ-
rych) została stworzona dana lista przymiotnikowa. Tak więc np. wybranie przy- rych) została stworzona dana lista przymiotnikowa. Tak więc np. wybranie przy-
miotnika „ambitny” (w kwestionariuszu ACL) jest diagnostyczne dla potrzeby miotnika „ambitny” (w kwestionariuszu ACL) jest diagnostyczne dla potrzeby
wytrwałości, gdyż świadczy o wyższym nasileniu tej potrzeby, a więc za jego wytrwałości, gdyż świadczy o wyższym nasileniu tej potrzeby, a więc za jego
wybranie badany otrzymuje punkt. W omawianym typie kwestionariuszy moż- wybranie badany otrzymuje punkt. W omawianym typie kwestionariuszy moż-
na spotkać się także z przymiotnikami, które świadczą o niskim nasileniu dana spotkać się także z przymiotnikami, które świadczą o niskim nasileniu da-
nej cechy. Takim przykładem może być przymiotnik „niecierpliwy”. Świadczy nej cechy. Takim przykładem może być przymiotnik „niecierpliwy”. Świadczy
on o niskim nasileniu potrzeby wytrwałości. Jego wybranie przez osobę badaną on o niskim nasileniu potrzeby wytrwałości. Jego wybranie przez osobę badaną
związane jest z uzyskaniem punktu ujemnego. Wyższa łączna suma wszystkich związane jest z uzyskaniem punktu ujemnego. Wyższa łączna suma wszystkich
punktów uzyskanych przez osobę badaną w skali potrzeby wytrwałości wskazuje punktów uzyskanych przez osobę badaną w skali potrzeby wytrwałości wskazuje
na jej większe nasilenie. na jej większe nasilenie.
Z innych sposobów udzielania odpowiedzi w kwestionariuszach warto wymie- Z innych sposobów udzielania odpowiedzi w kwestionariuszach warto wymie-
nić rangowanie polegające na przypisaniu rang poszczególnym stwierdzeniom nić rangowanie polegające na przypisaniu rang poszczególnym stwierdzeniom
znajdującym się w kwestionariuszu według założonego kryterium. Taki sposób znajdującym się w kwestionariuszu według założonego kryterium. Taki sposób
postępowania wykorzystany jest np. w Skali Wartości Rokeacha (Brzozowski, postępowania wykorzystany jest np. w Skali Wartości Rokeacha (Brzozowski,
1989). Zawarta jest w niej lista wartości (np. „Odważny”, „Posłuszny”, 1989). Zawarta jest w niej lista wartości (np. „Odważny”, „Posłuszny”,
„Bezpieczeństwo narodowe”, „Szczęście”). Zadaniem badanego jest przypisanie „Bezpieczeństwo narodowe”, „Szczęście”). Zadaniem badanego jest przypisanie
każdej z wartości liczb w taki sposób, aby uporządkować je od najważniejszej do każdej z wartości liczb w taki sposób, aby uporządkować je od najważniejszej do
najmniej ważnej. najmniej ważnej.
Na zakończenie przeglądu różnego rodzaju pozycji testowych występujących Na zakończenie przeglądu różnego rodzaju pozycji testowych występujących
w inwentarzach warto wspomnieć, że uzupełniane są one czasem oznaczenia- w inwentarzach warto wspomnieć, że uzupełniane są one czasem oznaczenia-
mi i symbolami graficznymi, reprezentującymi poszczególne opcje odpowiedzi, mi i symbolami graficznymi, reprezentującymi poszczególne opcje odpowiedzi,
mające na celu ułatwianie odpowiadania. Poniżej przedstawiamy przykład ta- mające na celu ułatwianie odpowiadania. Poniżej przedstawiamy przykład ta-
kiej pozycji testowej pochodzący z Arkusza Opisu Pracy Neuberger i Allerbeck kiej pozycji testowej pochodzący z Arkusza Opisu Pracy Neuberger i Allerbeck
(w polskiej adaptacji Zalewskiej, 2001). (w polskiej adaptacji Zalewskiej, 2001).
„Jeżeli pomyśli Pan/i teraz o tym wszystkim, co odgrywa rolę w Pana/i pracy „Jeżeli pomyśli Pan/i teraz o tym wszystkim, co odgrywa rolę w Pana/i pracy
(np. czynności, warunki pracy, koledzy, czas pracy itd.), to w jakim stopniu jest (np. czynności, warunki pracy, koledzy, czas pracy itd.), to w jakim stopniu jest
Pan/i ogólnie zadowolony/a ze swojej pracy? Pan/i ogólnie zadowolony/a ze swojej pracy?
Proszę zakreślić odpowiednią twarz” Proszę zakreślić odpowiednią twarz”

1. Jak można scharakteryzować kwestionariusze osobowości? 1. Jak można scharakteryzować kwestionariusze osobowości?
2. Co jest źródłem informacji w testach inteligencji? 2. Co jest źródłem informacji w testach inteligencji?
3. Jaki charakter mogą mieć pozycje testowe w kwestionariuszach osobowości? 3. Jaki charakter mogą mieć pozycje testowe w kwestionariuszach osobowości?
52 4. Podaj przykłady znanych Ci testów inteligenci i zdolności. 52 4. Podaj przykłady znanych Ci testów inteligenci i zdolności.

5. Czy testy grupowe można stosować w badaniach indywidualnych oraz czy 5. Czy testy grupowe można stosować w badaniach indywidualnych oraz czy
testy indywidualne można stosować w badaniach grupowych? Odpowiedź testy indywidualne można stosować w badaniach grupowych? Odpowiedź
uzasadnij. uzasadnij.
6. Podaj przykłady znanych Ci testów grupowych i indywidualnych. 6. Podaj przykłady znanych Ci testów grupowych i indywidualnych.
Nie przedstawiamy tu żadnych konkretnych wskazówek dotyczących litera- Nie przedstawiamy tu żadnych konkretnych wskazówek dotyczących litera-
tury. W celu zapoznania się z różnorodnością testów psychologicznych, ogólnie tury. W celu zapoznania się z różnorodnością testów psychologicznych, ogólnie
można polecić lekturę podręczników testowych. można polecić lekturę podręczników testowych.
53 53

3. Co to jest pomiar psychologiczny? 3. Co to jest pomiar psychologiczny?

Niniejszy rozdział poświęcony jest ogólnym podstawom pomiaru psychome- Niniejszy rozdział poświęcony jest ogólnym podstawom pomiaru psychome-
trycznego, czyli pomiaru dokonywanego za pomocą testów i kwestionariuszy. trycznego, czyli pomiaru dokonywanego za pomocą testów i kwestionariuszy.
Może wydawać się, że mierzenie i określanie liczbami zjawisk psychologicz- Może wydawać się, że mierzenie i określanie liczbami zjawisk psychologicz-
nych jest bardzo trudne czy wręcz niemożliwe. Znacznie łatwiej wyobrazić so- nych jest bardzo trudne czy wręcz niemożliwe. Znacznie łatwiej wyobrazić so-
bie mierzenie właściwości fizycznych (np. długości). Zjawiska psychiczne mogą bie mierzenie właściwości fizycznych (np. długości). Zjawiska psychiczne mogą
wydawać się czymś tak nieuchwytnym w porównaniu ze zjawiskami fizycznymi, wydawać się czymś tak nieuchwytnym w porównaniu ze zjawiskami fizycznymi,
że uniemożliwia to jakiekolwiek ujęcia ilościowe. Mimo to już dawno w psycho- że uniemożliwia to jakiekolwiek ujęcia ilościowe. Mimo to już dawno w psycho-
logii podjęto próby mierzenia wielkości psychicznych. logii podjęto próby mierzenia wielkości psychicznych.
3.1. Założenia dotyczące natury mierzonych właściwości 3.1. Założenia dotyczące natury mierzonych właściwości
w psychometrii w psychometrii
Pomiar właściwości człowieka nie jest tak prosty czy oczywisty jak pomiar Pomiar właściwości człowieka nie jest tak prosty czy oczywisty jak pomiar
właściwości fizycznych, takich jak np. wzrost albo waga. W przeciwieństwie właściwości fizycznych, takich jak np. wzrost albo waga. W przeciwieństwie
do właściwości fizycznych, cechy i stany psychiczne człowieka nie podlegają do właściwości fizycznych, cechy i stany psychiczne człowieka nie podlegają
bezpośredniej obserwacji. Nie jest możliwe bezpośrednie zaobserwowanie stanu bezpośredniej obserwacji. Nie jest możliwe bezpośrednie zaobserwowanie stanu
emocjonalnego czy poziomu inteligencji człowieka w taki sam sposób, w jaki emocjonalnego czy poziomu inteligencji człowieka w taki sam sposób, w jaki
można zaobserwować wzrost lub wagę. Z tego powodu wiele zmiennych psy- można zaobserwować wzrost lub wagę. Z tego powodu wiele zmiennych psy-
chologicznych określa się jako zmienne ukryte (bądź latentne), co oznacza brak chologicznych określa się jako zmienne ukryte (bądź latentne), co oznacza brak
możliwości ich bezpośredniej obserwacji (Strelau, 2001). możliwości ich bezpośredniej obserwacji (Strelau, 2001).
Wydaje się, że określenie cech psychicznych jako właściwości ukrytych nie Wydaje się, że określenie cech psychicznych jako właściwości ukrytych nie
ułatwia ich mierzenia. Jak można zmierzyć coś, co nie jest bezpośrednio obser- ułatwia ich mierzenia. Jak można zmierzyć coś, co nie jest bezpośrednio obser-
wowalne? Aby było to możliwe, konieczne jest przyjęcie pewnych założeń co do wowalne? Aby było to możliwe, konieczne jest przyjęcie pewnych założeń co do
natury tych nieobserwowalnych zmiennych. natury tych nieobserwowalnych zmiennych.
I tak w psychometrii zakłada się, że zmienne latentne mogą przybierać roz- I tak w psychometrii zakłada się, że zmienne latentne mogą przybierać roz-
maite stany, różniące się pod względem swego natężenia. Innymi słowy, wła- maite stany, różniące się pod względem swego natężenia. Innymi słowy, wła-
ściwości psychiczne przysługują poszczególnym ludziom w różnym stopniu. ściwości psychiczne przysługują poszczególnym ludziom w różnym stopniu.
Odzwierciedla to pojęcie kontinuum, które można rozumieć jako nieskończenie Odzwierciedla to pojęcie kontinuum, które można rozumieć jako nieskończenie
wielki, uporządkowany pod względem natężenia mierzonej cechy, zbiór ludzi. Na wielki, uporządkowany pod względem natężenia mierzonej cechy, zbiór ludzi. Na
jednym krańcu tego uporządkowania znajdują się osoby o nieskończenie małym jednym krańcu tego uporządkowania znajdują się osoby o nieskończenie małym
nasileniu danej cechy, a na drugim – o nieskończenie dużym nasileniu. Pomiędzy nasileniu danej cechy, a na drugim – o nieskończenie dużym nasileniu. Pomiędzy
tymi skrajnościami znajdują się osoby o różnych nasileniach cechy. Oczywiście tymi skrajnościami znajdują się osoby o różnych nasileniach cechy. Oczywiście
54 takie rozumienie jest założeniem teoretycznym. Trudno sobie wyobrazić np. czło- 54 takie rozumienie jest założeniem teoretycznym. Trudno sobie wyobrazić np. czło-

wieka o nieskończenie wysokim poziomie inteligencji, choć oczywiście istnieją wieka o nieskończenie wysokim poziomie inteligencji, choć oczywiście istnieją
ludzie o bardzo wysokim poziomie inteligencji. Ważne jest to, że istnieje bardzo ludzie o bardzo wysokim poziomie inteligencji. Ważne jest to, że istnieje bardzo
dużo stanów pośrednich, znajdujących się między krańcami kontinuum. Tak więc dużo stanów pośrednich, znajdujących się między krańcami kontinuum. Tak więc
istnieją np. ludzie o różnym stopniu inteligencji: od osób genialnych począwszy, istnieją np. ludzie o różnym stopniu inteligencji: od osób genialnych począwszy,
a na osobach głęboko upośledzonych skończywszy. a na osobach głęboko upośledzonych skończywszy.
Między osobami różniącymi się natężeniem danej właściwości psychicznej Między osobami różniącymi się natężeniem danej właściwości psychicznej
zachodzą określone relacje. Niektóre osoby odznaczają się wyższym nasileniem zachodzą określone relacje. Niektóre osoby odznaczają się wyższym nasileniem
danej właściwości w porównaniu z innymi osobami. Można więc np. mówić, że danej właściwości w porównaniu z innymi osobami. Można więc np. mówić, że
Jan jest bardziej inteligentny od Piotra czy też, że Lech jest mniej neurotyczny Jan jest bardziej inteligentny od Piotra czy też, że Lech jest mniej neurotyczny
od Zbigniewa. Są to przykłady relacji zachodzących pomiędzy natężeniem inteli- od Zbigniewa. Są to przykłady relacji zachodzących pomiędzy natężeniem inteli-
gencji oraz neurotyzmu charakterystycznych dla wymienionych osób. gencji oraz neurotyzmu charakterystycznych dla wymienionych osób.
Różnice między ludźmi pod względem danej cechy psychicznej (np. inteli- Różnice między ludźmi pod względem danej cechy psychicznej (np. inteli-
gencji) sprowadzają się do różnic ilościowych nasilenia tej cechy, a nie jako- gencji) sprowadzają się do różnic ilościowych nasilenia tej cechy, a nie jako-
ściowych. Również o wielu innych właściwościach psychicznych można powie- ściowych. Również o wielu innych właściwościach psychicznych można powie-
dzieć, że są to zmienne ilościowe, a nie jakościowe. Tak więc ludzie mogą różnić dzieć, że są to zmienne ilościowe, a nie jakościowe. Tak więc ludzie mogą różnić
się między sobą nasileniem neurotyzmu, ekstrawersji, lęku i wielu innych cech się między sobą nasileniem neurotyzmu, ekstrawersji, lęku i wielu innych cech
psychicznych, i wszystkie te różnice dotyczącą natężenia wymienionych cech. psychicznych, i wszystkie te różnice dotyczącą natężenia wymienionych cech.
Zmienne jakościowe dotyczą jedynie tego, czy badane obiekty są różne czy też Zmienne jakościowe dotyczą jedynie tego, czy badane obiekty są różne czy też
takie same pod danym względem. W ich przypadku nie można mówić o różnym takie same pod danym względem. W ich przypadku nie można mówić o różnym
nasileniu badanej właściwości. Pomiędzy kategoriami zmiennych jakościowych nasileniu badanej właściwości. Pomiędzy kategoriami zmiennych jakościowych
nie ma żadnych stanów pośrednich. Zmienne te są więc zupełnie czymś innym nie ma żadnych stanów pośrednich. Zmienne te są więc zupełnie czymś innym
niż kontinuum cech psychicznych. Przykładem zmiennej jakościowej jest płeć. niż kontinuum cech psychicznych. Przykładem zmiennej jakościowej jest płeć.
W sensie biologicznym nie można mówić o jakichkolwiek stanach pośrednich W sensie biologicznym nie można mówić o jakichkolwiek stanach pośrednich
między mężczyznami a kobietami. Płeć nie jest więc opisywana przez żadne kon- między mężczyznami a kobietami. Płeć nie jest więc opisywana przez żadne kon-
tinuum, a przez dwie różne kategorie. Ponieważ zmienne jakościowe nie mogą tinuum, a przez dwie różne kategorie. Ponieważ zmienne jakościowe nie mogą
być ujmowane w sposób ilościowy, więc nie są one przedmiotem pomiaru psy- być ujmowane w sposób ilościowy, więc nie są one przedmiotem pomiaru psy-
chometrycznego. chometrycznego.
Wiedząc już, że wiele cech psychicznych ma charakter ilościowy możemy Wiedząc już, że wiele cech psychicznych ma charakter ilościowy możemy
przejść do podania kolejnego założenia leżącego u podstaw pomiaru. Założenie przejść do podania kolejnego założenia leżącego u podstaw pomiaru. Założenie
to dotyczy kształtu rozkładu wartości nieobserwowalnej zmiennej. W psychome- to dotyczy kształtu rozkładu wartości nieobserwowalnej zmiennej. W psychome-
trii przyjmuje się, że wiele cech ma rozkład normalny. Oznacza to, że na kon- trii przyjmuje się, że wiele cech ma rozkład normalny. Oznacza to, że na kon-
tinuum cechy najczęściej występują wartości przeciętne, najrzadziej – skrajne tinuum cechy najczęściej występują wartości przeciętne, najrzadziej – skrajne
(zarówno skrajnie wysokie, jak i skrajnie niskie). (zarówno skrajnie wysokie, jak i skrajnie niskie).
Oprócz ilościowego charakteru zmiennych latentnych, w psychometrii przyj- Oprócz ilościowego charakteru zmiennych latentnych, w psychometrii przyj-
muje się, że wszystkich ludzi można scharakteryzować pod względem wspólnych muje się, że wszystkich ludzi można scharakteryzować pod względem wspólnych
dla nich cech. Podejście takie zwane jest nomotetycznym (Zawadzki, 2006). dla nich cech. Podejście takie zwane jest nomotetycznym (Zawadzki, 2006).
Codzienna obserwacja, a także badania naukowe wskazują na bardzo dużą różno- Codzienna obserwacja, a także badania naukowe wskazują na bardzo dużą różno-
rodność ludzkich zachowań, co pozornie może przeczyć tezie o istnieniu wspól- rodność ludzkich zachowań, co pozornie może przeczyć tezie o istnieniu wspól-
nych dla wszystkich ludzi cech zachowania. Może się bowiem wydawać, że to nych dla wszystkich ludzi cech zachowania. Może się bowiem wydawać, że to
zróżnicowanie ludzkich zachowań wynika z niepowtarzalności każdego człowie- zróżnicowanie ludzkich zachowań wynika z niepowtarzalności każdego człowie-
ka, która jest uwarunkowana odmiennymi cechami psychicznymi w przypadku ka, która jest uwarunkowana odmiennymi cechami psychicznymi w przypadku
każdej osoby. Ten sposób rozumowania charakterystyczny jest dla podejścia 55 każdej osoby. Ten sposób rozumowania charakterystyczny jest dla podejścia 55

idiograficznego. W rzeczywistości podejście nomotetyczne nie przeczy zróżni- idiograficznego. W rzeczywistości podejście nomotetyczne nie przeczy zróżni-
cowaniu ludzkich zachowań, gdyż wskazuje ono, że specyfika jednostki wyraża cowaniu ludzkich zachowań, gdyż wskazuje ono, że specyfika jednostki wyraża
się w unikatowym dla niej nasileniu poszczególnych właściwości (a nie w po- się w unikatowym dla niej nasileniu poszczególnych właściwości (a nie w po-
siadaniu unikatowych, wyłącznie jej przysługujących, cech). Oprócz nasilenia siadaniu unikatowych, wyłącznie jej przysługujących, cech). Oprócz nasilenia
pojedynczych cech ważna jest także konfiguracja natężenia poszczególnych cech pojedynczych cech ważna jest także konfiguracja natężenia poszczególnych cech
rozpatrywana jako całość. Biorąc pod uwagę, że każda cecha może przyjmować rozpatrywana jako całość. Biorąc pod uwagę, że każda cecha może przyjmować
różne wartości oraz to, że można wyodrębnić dużo różnych cech psychicznych różne wartości oraz to, że można wyodrębnić dużo różnych cech psychicznych
człowieka, otrzymuje się bardzo dużą liczbę różnych kombinacji natężeń po- człowieka, otrzymuje się bardzo dużą liczbę różnych kombinacji natężeń po-
szczególnych cech. Te konfiguracje odpowiedzialne są za wspomnianą ogromną szczególnych cech. Te konfiguracje odpowiedzialne są za wspomnianą ogromną
różnorodność zachowań ludzkich. różnorodność zachowań ludzkich.
3.2. Pojęcie pomiaru 3.2. Pojęcie pomiaru

Wiedząc już, że właściwości psychiczne są nieobserwowalnymi zmienny- Wiedząc już, że właściwości psychiczne są nieobserwowalnymi zmienny-
mi, którym przysługuje ilościowy charakter o rozkładzie normalnym, możemy mi, którym przysługuje ilościowy charakter o rozkładzie normalnym, możemy
przejść do zdefiniowania, czym jest pomiar psychologiczny. Pomiar psycholo- przejść do zdefiniowania, czym jest pomiar psychologiczny. Pomiar psycholo-
giczny to przyporządkowanie liczb poszczególnym osobom w taki sposób, giczny to przyporządkowanie liczb poszczególnym osobom w taki sposób,
aby relacje między przyporządkowanymi liczbami odzwierciedlały relacje za- aby relacje między przyporządkowanymi liczbami odzwierciedlały relacje za-
chodzące między różnymi natężeniami mierzonej właściwości (Magnusson, chodzące między różnymi natężeniami mierzonej właściwości (Magnusson,
1991). Tak więc, mamy tu do czynienia, z jednej strony, z nieobserwowalną 1991). Tak więc, mamy tu do czynienia, z jednej strony, z nieobserwowalną
bezpośrednio właściwością psychiczną, a z drugiej – ze zbiorem liczb, które bezpośrednio właściwością psychiczną, a z drugiej – ze zbiorem liczb, które
mają tę właściwość odzwierciedlać. Między poszczególnymi wartościami mie- mają tę właściwość odzwierciedlać. Między poszczególnymi wartościami mie-
rzonej właściwości psychicznej, jak również pomiędzy poszczególnymi liczbami rzonej właściwości psychicznej, jak również pomiędzy poszczególnymi liczbami
mającymi tę właściwość odzwierciedlać, zachodzą określone relacje. O pomiarze mającymi tę właściwość odzwierciedlać, zachodzą określone relacje. O pomiarze
można mówić wtedy, gdy relacje zachodzące między liczbami odzwierciedla- można mówić wtedy, gdy relacje zachodzące między liczbami odzwierciedla-
ją relacje zachodzące między różnymi natężeniami badanej cechy psychicznej. ją relacje zachodzące między różnymi natężeniami badanej cechy psychicznej.
Szczególnie istotne są dwie relacje: różności i równości. Przyporządkowanie Szczególnie istotne są dwie relacje: różności i równości. Przyporządkowanie
dwóm lub więcej osobom tej samej wartości liczbowej opisuje sytuację, w której dwóm lub więcej osobom tej samej wartości liczbowej opisuje sytuację, w której
natężenie badanej cechy u tych osób jest takie samo. Natomiast przyporządko- natężenie badanej cechy u tych osób jest takie samo. Natomiast przyporządko-
wanie dwóch różnych liczb dwóm różnym osobom oznacza, że poziomy badanej wanie dwóch różnych liczb dwóm różnym osobom oznacza, że poziomy badanej
cechy są u tych osób różne. W ramach relacji różności można wyróżnić relację cechy są u tych osób różne. W ramach relacji różności można wyróżnić relację
większości i mniejszości. Jeśli dwóm osobom przyporządkowano różne liczby, to większości i mniejszości. Jeśli dwóm osobom przyporządkowano różne liczby, to
można określić, której z nich przyporządkowano liczbę większą, a której mniej- można określić, której z nich przyporządkowano liczbę większą, a której mniej-
szą. Osoba, której przyporządkowano większą wartość charakteryzuje się więk- szą. Osoba, której przyporządkowano większą wartość charakteryzuje się więk-
szym nasileniem badanej cechy niż osoba, której przyporządkowano wartość szym nasileniem badanej cechy niż osoba, której przyporządkowano wartość
mniejszą. Określenie, że dwie jednostki są różne lub równe pod względem pew- mniejszą. Określenie, że dwie jednostki są różne lub równe pod względem pew-
nej cechy nie wyczerpuje jednak jeszcze pojęcia pomiaru, które dotyczy tego, jak nej cechy nie wyczerpuje jednak jeszcze pojęcia pomiaru, które dotyczy tego, jak
wielka jest ta różnica (Stachowski, 2008). Skoro bowiem badana cecha z zało- wielka jest ta różnica (Stachowski, 2008). Skoro bowiem badana cecha z zało-
żenia ma charakter ilościowy i może przyjmować bardzo dużo różnych wartości, żenia ma charakter ilościowy i może przyjmować bardzo dużo różnych wartości,
to tym samym liczby, które odwzorowują tę cechę powinny także odzwierciedlać to tym samym liczby, które odwzorowują tę cechę powinny także odzwierciedlać
56 różnice ilościowe w natężeniu danej cechy. 56 różnice ilościowe w natężeniu danej cechy.

W celu przyporządkowywania osobom badanym liczb trafnie odzwierciedla- W celu przyporządkowywania osobom badanym liczb trafnie odzwierciedla-
jących zróżnicowanie badanych pod względem mierzonej cechy, psycholog musi jących zróżnicowanie badanych pod względem mierzonej cechy, psycholog musi
dysponować odpowiednimi narzędziami, które umożliwią mu przeprowadzenie dysponować odpowiednimi narzędziami, które umożliwią mu przeprowadzenie
takiego procesu przyporządkowywania. Narzędziami takimi mogą być kwestio- takiego procesu przyporządkowywania. Narzędziami takimi mogą być kwestio-
nariusze czy testy lub inne metody diagnostyczne, które nie są omawiane szcze- nariusze czy testy lub inne metody diagnostyczne, które nie są omawiane szcze-
gółowo w tym podręczniku. Należy podkreślić, że czym innym jest zmienna gółowo w tym podręczniku. Należy podkreślić, że czym innym jest zmienna
psychologiczna, a czym innym jej pomiar. Jedna zmienna psychologiczna psychologiczna, a czym innym jej pomiar. Jedna zmienna psychologiczna
(np. inteligencja) może być zwykle mierzona na wiele różnych sposobów (np. (np. inteligencja) może być zwykle mierzona na wiele różnych sposobów (np.
różnymi testami inteligencji). różnymi testami inteligencji).
Posługiwanie się takimi narzędziami związane jest z główną trudnością po- Posługiwanie się takimi narzędziami związane jest z główną trudnością po-
miaru w psychometrii. Polega ona na tym, że nigdy nie wiadomo, jakie relacje miaru w psychometrii. Polega ona na tym, że nigdy nie wiadomo, jakie relacje
reprezentowane są przez wyniki pomiaru psychometrycznego. Jak dotychczas reprezentowane są przez wyniki pomiaru psychometrycznego. Jak dotychczas
nie opracowano metody pozwalającej sprawdzić, czy relacje między uzyskanymi nie opracowano metody pozwalającej sprawdzić, czy relacje między uzyskanymi
w procesie pomiaru liczbami rzeczywiście odpowiadają relacjom między różnymi w procesie pomiaru liczbami rzeczywiście odpowiadają relacjom między różnymi
natężeniami badanej cechy. Aby więc mówić o pomiarze zmiennych latentnych, natężeniami badanej cechy. Aby więc mówić o pomiarze zmiennych latentnych,
konieczne jest założenie, że taka odpowiedniość istnieje w rzeczywistości. Tak konieczne jest założenie, że taka odpowiedniość istnieje w rzeczywistości. Tak
więc doszliśmy do kolejnego bardzo istotnego założenia głoszącego, że relacje więc doszliśmy do kolejnego bardzo istotnego założenia głoszącego, że relacje
między wartościami zmiennej nieobserwowalnej odzwierciedlone są przez między wartościami zmiennej nieobserwowalnej odzwierciedlone są przez
relacje między liczbami przypisywanymi ludziom w trakcie pomiaru. relacje między liczbami przypisywanymi ludziom w trakcie pomiaru.
W celu lepszego objaśnienia, czym jest pomiar, rozpatrzmy fikcyjny przykład W celu lepszego objaśnienia, czym jest pomiar, rozpatrzmy fikcyjny przykład
dotyczący pomiaru inteligencji. Pomiar inteligencji to przyporządkowanie oso- dotyczący pomiaru inteligencji. Pomiar inteligencji to przyporządkowanie oso-
bom badanym liczb w taki sposób, aby odzwierciedlały poziom inteligencji ba- bom badanym liczb w taki sposób, aby odzwierciedlały poziom inteligencji ba-
danych. Narzędziem, dzięki któremu możliwe będzie takie przyporządkowanie danych. Narzędziem, dzięki któremu możliwe będzie takie przyporządkowanie
może być jeden z wielu testów inteligencji, wystandaryzowana procedura obser- może być jeden z wielu testów inteligencji, wystandaryzowana procedura obser-
wacyjna czy też fizjologiczne wskaźniki inteligencji, takie jak np. częstotliwość wacyjna czy też fizjologiczne wskaźniki inteligencji, takie jak np. częstotliwość
fal alfa czy też latencja potencjałów wywołanych (Matczak, 1994). fal alfa czy też latencja potencjałów wywołanych (Matczak, 1994).
Załóżmy, że do pomiaru inteligencji wybrano pewien test psychologiczny, Załóżmy, że do pomiaru inteligencji wybrano pewien test psychologiczny,
a w badaniu wzięły udział cztery osoby: A, B, C i D, które uzyskały wyniki a w badaniu wzięły udział cztery osoby: A, B, C i D, które uzyskały wyniki
przedstawione w tabeli 3.1. przedstawione w tabeli 3.1.
Tabela 3.1. Hipotetyczne wyniki badania pewnym testem inteligencji Tabela 3.1. Hipotetyczne wyniki badania pewnym testem inteligencji
Osoba Wynik Osoba Wynik

A 100 A 100
B 130 B 130
C 70 C 70
D 100 D 100
Relacje między liczbami uzyskanymi przez poszczególne osoby badane po- Relacje między liczbami uzyskanymi przez poszczególne osoby badane po-
winny odzwierciedlać relacje zachodzące między nimi pod względem badanej winny odzwierciedlać relacje zachodzące między nimi pod względem badanej
cechy. Przyporządkowanie osobie A wartości 100 punktów oraz osobie D rów- cechy. Przyporządkowanie osobie A wartości 100 punktów oraz osobie D rów-
nież wartości 100 punktów odzwierciedla fakt, że ich poziomy inteligencji są so- 57 nież wartości 100 punktów odzwierciedla fakt, że ich poziomy inteligencji są so- 57

bie równe. Przyporządkowanie osobie B wartości 130 punktów w tej samej skali bie równe. Przyporządkowanie osobie B wartości 130 punktów w tej samej skali
inteligencji odzwierciedla sytuację, w której osoby A i D są mniej inteligentne niż inteligencji odzwierciedla sytuację, w której osoby A i D są mniej inteligentne niż
osoba B. Ponadto różnica w poziomie inteligencji między osobą A a osobą B jest osoba B. Ponadto różnica w poziomie inteligencji między osobą A a osobą B jest
dokładnie taka sama, jak różnica między osobą A a osobą C. Podkreślić należy, dokładnie taka sama, jak różnica między osobą A a osobą C. Podkreślić należy,
że nie chodzi tu po prostu o różnice w wynikach zastosowanego testu inteligencji, że nie chodzi tu po prostu o różnice w wynikach zastosowanego testu inteligencji,
który jest tylko jednym z wielu różnych sposobów pomiaru inteligencji, ale o to, który jest tylko jednym z wielu różnych sposobów pomiaru inteligencji, ale o to,
że wyniki te odzwierciedlają poziom inteligencji osób badanych. Jak wspomnia- że wyniki te odzwierciedlają poziom inteligencji osób badanych. Jak wspomnia-
no, inteligencja może być mierzona na wiele różnych sposobów. Gdyby zastoso- no, inteligencja może być mierzona na wiele różnych sposobów. Gdyby zastoso-
wano inne narzędzie pomiarowe, otrzymałoby się oczywiście inne liczby. Jednak wano inne narzędzie pomiarowe, otrzymałoby się oczywiście inne liczby. Jednak
relacje między nimi powinny być takie same, jak w opisanym przykładzie. Tak relacje między nimi powinny być takie same, jak w opisanym przykładzie. Tak
więc, niezależnie od wykorzystanej techniki pomiaru, powinniśmy uzyskać wy- więc, niezależnie od wykorzystanej techniki pomiaru, powinniśmy uzyskać wy-
niki wskazujące, że osoba B jest najbardziej inteligentna, a osoba C – najmniej. niki wskazujące, że osoba B jest najbardziej inteligentna, a osoba C – najmniej.
Poziom inteligencji osób A i D powinien być sobie równy. Dodatkowo osoba B Poziom inteligencji osób A i D powinien być sobie równy. Dodatkowo osoba B
powinna być o tyle samo inteligentniejsza od A (oraz D), o ile A (oraz D) jest powinna być o tyle samo inteligentniejsza od A (oraz D), o ile A (oraz D) jest
inteligentniejsza od C. inteligentniejsza od C.
3.3. Wskaźniki 3.3. Wskaźniki
Aby móc wnioskować o jakichkolwiek ukrytych właściwościach psychicz- Aby móc wnioskować o jakichkolwiek ukrytych właściwościach psychicz-
nych, musimy mieć jakieś obserwowalne zmienne, które pośrednio świadczą nych, musimy mieć jakieś obserwowalne zmienne, które pośrednio świadczą
o zmiennych nieobserwowalnych. To, co psycholog może zaobserwować to za- o zmiennych nieobserwowalnych. To, co psycholog może zaobserwować to za-
chowanie człowieka. Na jego podstawie można wnioskować o cechach psychicz- chowanie człowieka. Na jego podstawie można wnioskować o cechach psychicz-
nych, przysługującym poszczególnym osobom. Przy czym zachowanie jest tu nych, przysługującym poszczególnym osobom. Przy czym zachowanie jest tu
rozumiane dość szeroko. Mogą to być konkretne gesty, słowa, mimika twarzy rozumiane dość szeroko. Mogą to być konkretne gesty, słowa, mimika twarzy
czy zmiany fizjologiczne (np. pocenie się rąk). Widzimy, że ktoś płacze i na tej czy zmiany fizjologiczne (np. pocenie się rąk). Widzimy, że ktoś płacze i na tej
podstawie przypuszczamy, że przeżywa głęboki smutek lub rozpacz. Możemy podstawie przypuszczamy, że przeżywa głęboki smutek lub rozpacz. Możemy
również zaobserwować, że ktoś rozwiązał trudne zadanie matematyczne i na również zaobserwować, że ktoś rozwiązał trudne zadanie matematyczne i na
tej podstawie przypuszczać, że jest inteligentny. Te obserwowalne zachowania tej podstawie przypuszczać, że jest inteligentny. Te obserwowalne zachowania
świadczące o stanach czy cechach psychicznych nazywane są wskaźnikami. świadczące o stanach czy cechach psychicznych nazywane są wskaźnikami.
Dzięki nim możliwe jest wnioskowanie o zmiennych ukrytych. Dzięki nim możliwe jest wnioskowanie o zmiennych ukrytych.
Każda właściwość psychiczna może mieć różnorodne wskaźniki. I tak np. Każda właściwość psychiczna może mieć różnorodne wskaźniki. I tak np.
o inteligencji świadczy nie tylko poprawne rozwiązywanie złożonych zadań o inteligencji świadczy nie tylko poprawne rozwiązywanie złożonych zadań
matematycznych, ale także np. szybkość podawania rozwiązań, umiejętność ra- matematycznych, ale także np. szybkość podawania rozwiązań, umiejętność ra-
dzenia sobie w nowych sytuacjach życiowych, szybkość uczenia się i wiele in- dzenia sobie w nowych sytuacjach życiowych, szybkość uczenia się i wiele in-
nych. Problem doboru odpowiednich wskaźników komplikuje to, że jeden i ten nych. Problem doboru odpowiednich wskaźników komplikuje to, że jeden i ten
sam wskaźnik może oznaczać różne właściwości. Szybkie rozwiązanie zadania sam wskaźnik może oznaczać różne właściwości. Szybkie rozwiązanie zadania
matematycznego nie musi przecież wynikać z inteligencji, lecz np. ze spostrze- matematycznego nie musi przecież wynikać z inteligencji, lecz np. ze spostrze-
gawczości i dobrego wzroku, które to właściwości umożliwiają łatwe ściąganie gawczości i dobrego wzroku, które to właściwości umożliwiają łatwe ściąganie
rozwiązań od kolegów. rozwiązań od kolegów.
Skoro więc jedna właściwość psychiczna ma wiele wskaźników, a jeden Skoro więc jedna właściwość psychiczna ma wiele wskaźników, a jeden
wskaźnik może być powiązany z wieloma właściwościami, to większość wskaź- wskaźnik może być powiązany z wieloma właściwościami, to większość wskaź-
58 ników jest niejednoznaczna. Dzieje się tak, gdyż zwykle ludzkie zachowanie jest 58 ników jest niejednoznaczna. Dzieje się tak, gdyż zwykle ludzkie zachowanie jest

wypadkową wielu cech oraz sytuacji, w jakiej człowiek się aktualnie znajduje. wypadkową wielu cech oraz sytuacji, w jakiej człowiek się aktualnie znajduje.
Jeżeli więc widzimy mężczyznę i kobietę w eleganckiej restauracji przy jednym Jeżeli więc widzimy mężczyznę i kobietę w eleganckiej restauracji przy jednym
stoliku zajętych rozmową i spożywaniem obiadu, to możemy domyślać się przy- stoliku zajętych rozmową i spożywaniem obiadu, to możemy domyślać się przy-
najmniej kilku powodów, dla których się tam znaleźli. Po pierwsze, być może najmniej kilku powodów, dla których się tam znaleźli. Po pierwsze, być może
obserwujemy pracowników jednej firmy, którzy właśnie wyszli na przerwę obia- obserwujemy pracowników jednej firmy, którzy właśnie wyszli na przerwę obia-
dową. Być może są to osoby bardzo towarzyskie, które nigdy nie jadają obiadów dową. Być może są to osoby bardzo towarzyskie, które nigdy nie jadają obiadów
samotnie i zawsze udają się do restauracji z kimś ze znajomych z pracy. Możliwe samotnie i zawsze udają się do restauracji z kimś ze znajomych z pracy. Możliwe
jest nawet, że są to przyjaciele, którzy często jadają wspólnie obiad. Po drugie jest nawet, że są to przyjaciele, którzy często jadają wspólnie obiad. Po drugie
możliwe jest, że ta para jest wzajemnie sobą zainteresowana i obserwujemy ich możliwe jest, że ta para jest wzajemnie sobą zainteresowana i obserwujemy ich
właśnie podczas randki. I wreszcie, ostatnia interpretacja to taka, według której właśnie podczas randki. I wreszcie, ostatnia interpretacja to taka, według której
obie osoby są bardzo głodne a to, że siedzą przy jednym stoliku jest czystym obie osoby są bardzo głodne a to, że siedzą przy jednym stoliku jest czystym
przypadkiem. przypadkiem.
Jak widać, wszystkie podane interpretacje odwołują się do takich zmiennych Jak widać, wszystkie podane interpretacje odwołują się do takich zmiennych
psychologicznych, jak towarzyskość, stan głodu czy uczucie zakochania lub miło- psychologicznych, jak towarzyskość, stan głodu czy uczucie zakochania lub miło-
ści. Wszystkie te zmienne nie są bezpośrednio obserwowalne, mają więc charak- ści. Wszystkie te zmienne nie są bezpośrednio obserwowalne, mają więc charak-
ter latentny. W celu wnioskowania o którejkolwiek z wymienionych zmiennych, ter latentny. W celu wnioskowania o którejkolwiek z wymienionych zmiennych,
konieczne jest znalezienie odpowiednich wskaźników. Jak pokazano w opisa- konieczne jest znalezienie odpowiednich wskaźników. Jak pokazano w opisa-
nym przykładzie, jeden wskaźnik, jakim jest zjedzenie wspólnego obiadu może nym przykładzie, jeden wskaźnik, jakim jest zjedzenie wspólnego obiadu może
dotyczyć różnych zmiennych. Tak więc obserwując tylko to jedno zachowanie dotyczyć różnych zmiennych. Tak więc obserwując tylko to jedno zachowanie
nie można jednoznacznie określić jego psychologicznych przyczyn. Konieczne nie można jednoznacznie określić jego psychologicznych przyczyn. Konieczne
jest zatem zaobserwowanie jeszcze innych dodatkowych wskaźników. Żaden bo- jest zatem zaobserwowanie jeszcze innych dodatkowych wskaźników. Żaden bo-
wiem pojedynczy wskaźnik nie jest całkowicie jednoznaczny. W przytoczonym wiem pojedynczy wskaźnik nie jest całkowicie jednoznaczny. W przytoczonym
przykładzie należałoby np. obserwować, czy obie osoby patrzą sobie w oczy, jak przykładzie należałoby np. obserwować, czy obie osoby patrzą sobie w oczy, jak
szybko jedzą, czy rozmawiają ze sobą i wiele innych. Gdyby okazało się, że obie szybko jedzą, czy rozmawiają ze sobą i wiele innych. Gdyby okazało się, że obie
osoby z opisanej scenki dość szybko jedzą i nie rozmawiają ze sobą zbyt dużo osoby z opisanej scenki dość szybko jedzą i nie rozmawiają ze sobą zbyt dużo
moglibyśmy uznać, że ich zachowanie podyktowane jest stanem głodu. Gdyby moglibyśmy uznać, że ich zachowanie podyktowane jest stanem głodu. Gdyby
natomiast opisane osoby z ożywieniem dyskutowały i nie przejawiały zbytniej natomiast opisane osoby z ożywieniem dyskutowały i nie przejawiały zbytniej
bliskości, skłonni bylibyśmy sądzić, że osoby te są rozmowne i być może towa- bliskości, skłonni bylibyśmy sądzić, że osoby te są rozmowne i być może towa-
rzyskie. Oczywiście nie wyklucza to motywacji głodu. Z łatwością można by rzyskie. Oczywiście nie wyklucza to motywacji głodu. Z łatwością można by
znaleźć także takie wskaźniki, które będą świadczyć o tym, że opisana para jest znaleźć także takie wskaźniki, które będą świadczyć o tym, że opisana para jest
w trakcie randki. w trakcie randki.
Warto zauważyć, że im częściej lub więcej razy zaobserwujemy u danej oso- Warto zauważyć, że im częściej lub więcej razy zaobserwujemy u danej oso-
by zachowania wskazujące na posiadanie danej cechy, tym bardziej będziemy by zachowania wskazujące na posiadanie danej cechy, tym bardziej będziemy
skłonni przypisywać jej tę cechę. Tak więc z dość dużą łatwością uznamy, że Jaś skłonni przypisywać jej tę cechę. Tak więc z dość dużą łatwością uznamy, że Jaś
cechuje się wysokim poziomem inteligencji, jeśli zaobserwujemy, że potrafi on cechuje się wysokim poziomem inteligencji, jeśli zaobserwujemy, że potrafi on
nie tylko szybko i poprawnie rozwiązywać zadania matematyczne, lecz także nie tylko szybko i poprawnie rozwiązywać zadania matematyczne, lecz także
obserwowaliśmy to wielokrotnie w trakcie lekcji, a co więcej Jaś łatwo przyswa- obserwowaliśmy to wielokrotnie w trakcie lekcji, a co więcej Jaś łatwo przyswa-
ja sobie nową wiedzę oraz posługuje się bogatym słownictwem. Dużo trudniej ja sobie nową wiedzę oraz posługuje się bogatym słownictwem. Dużo trudniej
byłoby przypisać Jasiowi wysoką inteligencję, gdybyśmy jednorazowo zaobser- byłoby przypisać Jasiowi wysoką inteligencję, gdybyśmy jednorazowo zaobser-
wowali poprawne rozwiązanie zadania przez Jasia. wowali poprawne rozwiązanie zadania przez Jasia.
Wcześniej powiedziano, że pomiar psychologiczny polega na przyporządko- Wcześniej powiedziano, że pomiar psychologiczny polega na przyporządko-
waniu liczb osobom badanym. Z omówionego przykładu widać, że w psycho- 59 waniu liczb osobom badanym. Z omówionego przykładu widać, że w psycho- 59

metrii przyporządkowanie to polega na zliczaniu poszczególnych wskaźników metrii przyporządkowanie to polega na zliczaniu poszczególnych wskaźników
danej cechy. Im więcej wskaźników danej cechy można zaobserwować u osoby danej cechy. Im więcej wskaźników danej cechy można zaobserwować u osoby
badanej, tym wyższy poziom tej cechy. badanej, tym wyższy poziom tej cechy.
Zliczanie wskaźników danej właściwości psychicznej jest jej mierzeniem (Stachowski, Zliczanie wskaźników danej właściwości psychicznej jest jej mierzeniem (Stachowski,
2008). 2008).
Podsumowując wszystko to co do tej pory zostało napisane o wskaźnikach, Podsumowując wszystko to co do tej pory zostało napisane o wskaźnikach,
można stwierdzić, że im więcej bierze się pod uwagę różnych wskaźników, tym można stwierdzić, że im więcej bierze się pod uwagę różnych wskaźników, tym
lepiej można wnioskować o właściwościach psychicznych. Pojedyncze wskaź- lepiej można wnioskować o właściwościach psychicznych. Pojedyncze wskaź-
niki są bowiem niejednoznaczne, gdyż mogą oznaczać wiele właściwości psy- niki są bowiem niejednoznaczne, gdyż mogą oznaczać wiele właściwości psy-
chicznych. Z tego powodu testy psychologiczne zbudowane są z wielu wskaźni- chicznych. Z tego powodu testy psychologiczne zbudowane są z wielu wskaźni-
ków, z których każdy tworzy odrębną pozycję testową. ków, z których każdy tworzy odrębną pozycję testową.
Uwzględnienie w teście więcej niż jednego wskaźnika nie oznacza, że w celu Uwzględnienie w teście więcej niż jednego wskaźnika nie oznacza, że w celu
zdiagnozowania danej właściwości psychicznej konieczne jest zaobserwowanie zdiagnozowania danej właściwości psychicznej konieczne jest zaobserwowanie
u konkretnej osoby wszystkich wskaźników. W przypadku różnych badanych u konkretnej osoby wszystkich wskaźników. W przypadku różnych badanych
występują oczywiście różne wskaźniki spośród wszystkich wskaźników zawar- występują oczywiście różne wskaźniki spośród wszystkich wskaźników zawar-
tych w danym teście. Im więcej występuje w przypadku danej osoby wskaźników tych w danym teście. Im więcej występuje w przypadku danej osoby wskaźników
pewnej właściwości psychicznej, tym wyższy poziom tej właściwości psychicz- pewnej właściwości psychicznej, tym wyższy poziom tej właściwości psychicz-
nej dana osoba posiada. Suma wskaźników występujących w przypadku każdej nej dana osoba posiada. Suma wskaźników występujących w przypadku każdej
osoby badanej, czyli suma wyników poszczególnych pozycji testowych, jest wy- osoby badanej, czyli suma wyników poszczególnych pozycji testowych, jest wy-
nikiem ogólnym testu. nikiem ogólnym testu.
Wynik testu jest uogólnieniem pozycji testowych. Operacyjnie jest to zwykle suma Wynik testu jest uogólnieniem pozycji testowych. Operacyjnie jest to zwykle suma
punktów uzyskanych w poszczególnych pozycjach testowych. punktów uzyskanych w poszczególnych pozycjach testowych.
Niejednoznaczność zachowań traktowanych w testach jak wskaźniki cech lub Niejednoznaczność zachowań traktowanych w testach jak wskaźniki cech lub
stanów jest jedną z przyczyn, dla której testy psychologiczne składają się z dużej stanów jest jedną z przyczyn, dla której testy psychologiczne składają się z dużej
liczby pozycji testowych. Inną przyczyną jest to, że odpowiedzi na pojedyncze liczby pozycji testowych. Inną przyczyną jest to, że odpowiedzi na pojedyncze
pozycje testowe mogą być przypadkowe. Wprowadzenie wielu pozycji pozwala pozycje testowe mogą być przypadkowe. Wprowadzenie wielu pozycji pozwala
na ograniczenie (ale nie na pełną eliminację) losowości odpowiedzi przez to, że na ograniczenie (ale nie na pełną eliminację) losowości odpowiedzi przez to, że
wynik danego testu jest uogólnieniem wielu różnych wskaźników. Jeśli więc tyl- wynik danego testu jest uogólnieniem wielu różnych wskaźników. Jeśli więc tyl-
ko w przypadku jednego z nich uzyskano wynik przypadkowy, to nie wpłynie on ko w przypadku jednego z nich uzyskano wynik przypadkowy, to nie wpłynie on
w tak istotny sposób na wynik ogólny składający się z wielu pozycji testowych, w tak istotny sposób na wynik ogólny składający się z wielu pozycji testowych,
w porównaniu do testu składającego się z bardzo małej liczby pozycji np. jednej w porównaniu do testu składającego się z bardzo małej liczby pozycji np. jednej
czy dwóch. czy dwóch.
Testy składają się z wielu pozycji testowych także dlatego, że większa ich licz- Testy składają się z wielu pozycji testowych także dlatego, że większa ich licz-
ba umożliwia precyzyjniejsze różnicowanie badanych między sobą. Gdyby pe- ba umożliwia precyzyjniejsze różnicowanie badanych między sobą. Gdyby pe-
wien test składał się tylko z jednej pozycji testowej o formacie odpowiedzi „tak” wien test składał się tylko z jednej pozycji testowej o formacie odpowiedzi „tak”
i „nie”, to badani zostaliby podzieleni jedynie na dwie grupy. Nie chodzi jednak i „nie”, to badani zostaliby podzieleni jedynie na dwie grupy. Nie chodzi jednak
tylko o pokategoryzowanie ludzi, np. na dwie grupy ekstrawertyków i intrower- tylko o pokategoryzowanie ludzi, np. na dwie grupy ekstrawertyków i intrower-
60 tyków, gdyż cechom latentnym, do pomiaru których stosuje się testy, przysługuje 60 tyków, gdyż cechom latentnym, do pomiaru których stosuje się testy, przysługuje

ilościowy charakter. Rzeczywistość psychologiczna jest bowiem dość złożona ilościowy charakter. Rzeczywistość psychologiczna jest bowiem dość złożona
i wyodrębnianie prostych kategorii ludzi nie opisuje jej w sposób wystarczający. i wyodrębnianie prostych kategorii ludzi nie opisuje jej w sposób wystarczający.
Testy mają służyć precyzyjnemu różnicowaniu badanych, odzwierciedlającemu Testy mają służyć precyzyjnemu różnicowaniu badanych, odzwierciedlającemu
tę złożoną rzeczywistość. Aby było to możliwie, test powinien posiadać wiele ka- tę złożoną rzeczywistość. Aby było to możliwie, test powinien posiadać wiele ka-
tegorii liczbowych. Zakłada się, że różnorodny poziom badanej cechy czy stanu tegorii liczbowych. Zakłada się, że różnorodny poziom badanej cechy czy stanu
psychicznego powinien znajdować swoje odzwierciedlenie w zróżnicowanych psychicznego powinien znajdować swoje odzwierciedlenie w zróżnicowanych
wynikach testowych (Zawadzki, 2006). wynikach testowych (Zawadzki, 2006).
3.4. Pojęcie pomiaru różnicowego 3.4. Pojęcie pomiaru różnicowego

Ostatnie zagadnienie, jakie zostanie omówione w niniejszym rozdziale, to pro- Ostatnie zagadnienie, jakie zostanie omówione w niniejszym rozdziale, to pro-
blem układu odniesienia dla wyników testowych. Mówiąc o pomiarze, powie- blem układu odniesienia dla wyników testowych. Mówiąc o pomiarze, powie-
dzieliśmy, że polega on na przyporządkowywaniu liczb. Mając zliczoną liczbę dzieliśmy, że polega on na przyporządkowywaniu liczb. Mając zliczoną liczbę
wskaźników dla danej osoby, nie wiemy nadal, o jak dużym nasileniu badanej wskaźników dla danej osoby, nie wiemy nadal, o jak dużym nasileniu badanej
cechy ona świadczy. Musimy mieć więc jakiś punkt odniesienia, czyli wartość, cechy ona świadczy. Musimy mieć więc jakiś punkt odniesienia, czyli wartość,
z którą będziemy mogli porównywać uzyskane wyniki. z którą będziemy mogli porównywać uzyskane wyniki.
Może wydawać się, że takim punktem odniesienia mógłby być maksymalny Może wydawać się, że takim punktem odniesienia mógłby być maksymalny
wynik w teście. Skoro ktoś uzyskał maksymalny wynik, to być może ma maksy- wynik w teście. Skoro ktoś uzyskał maksymalny wynik, to być może ma maksy-
malny poziom badanej cechy. Dokładniejsza analiza skłania jednak do stwierdze- malny poziom badanej cechy. Dokładniejsza analiza skłania jednak do stwierdze-
nia, że maksymalny wynik w danym teście nie musi odpowiadać maksymalnemu nia, że maksymalny wynik w danym teście nie musi odpowiadać maksymalnemu
nasileniu badanej cechy. Wyobraźmy sobie następujący przykład. W pewnym nasileniu badanej cechy. Wyobraźmy sobie następujący przykład. W pewnym
teście inteligencji maksymalny wynik wynosi 50 punktów. W grupie tysiąca teście inteligencji maksymalny wynik wynosi 50 punktów. W grupie tysiąca
studentów dziewięćset osób uzyskało wynik maksymalny. Czy oznacza to, że studentów dziewięćset osób uzyskało wynik maksymalny. Czy oznacza to, że
te dziewięćset osób ma maksymalny możliwy poziom inteligencji? Oczywiście te dziewięćset osób ma maksymalny możliwy poziom inteligencji? Oczywiście
tak być nie może. Z założenia o rozkładzie normalnym cech psychicznych, do tak być nie może. Z założenia o rozkładzie normalnym cech psychicznych, do
których należy również inteligencja, wiadomo bowiem, że osób bardzo inteli- których należy również inteligencja, wiadomo bowiem, że osób bardzo inteli-
gentnych jest niewiele. Skoro tak dużo osób uzyskuje bardzo wysoki wynik, to gentnych jest niewiele. Skoro tak dużo osób uzyskuje bardzo wysoki wynik, to
prawdopodobnie dany test jest raczej łatwy i dlatego tak dużo badanych osiągnę- prawdopodobnie dany test jest raczej łatwy i dlatego tak dużo badanych osiągnę-
ło największy możliwy wynik. Oznacza to, że nie można zbyt dużo powiedzieć ło największy możliwy wynik. Oznacza to, że nie można zbyt dużo powiedzieć
o poziomie inteligencji badanych studentów, a jedynie o prawdopodobnej przy- o poziomie inteligencji badanych studentów, a jedynie o prawdopodobnej przy-
czynie osiągnięcia tak wysokich wyników, jaką jest łatwość testu. czynie osiągnięcia tak wysokich wyników, jaką jest łatwość testu.
Konieczne jest znalezienie jakiejś wartości, z którą można by porównywać Konieczne jest znalezienie jakiejś wartości, z którą można by porównywać
wyniki uzyskane przez poszczególne osoby badane. Wyżej opisany przykład wyniki uzyskane przez poszczególne osoby badane. Wyżej opisany przykład
miał uzmysłowić, że maksymalny wynik w teście nie może pełnić takiej funk- miał uzmysłowić, że maksymalny wynik w teście nie może pełnić takiej funk-
cji. Może więc wynik minimalny mógłby być wartością, z którą porównywałoby cji. Może więc wynik minimalny mógłby być wartością, z którą porównywałoby
się wartości uzyskane przez badanych? W takiej sytuacji należałoby zastanowić się wartości uzyskane przez badanych? W takiej sytuacji należałoby zastanowić
się nad interpretacją następującego przykładu. Czy jeśli np. w teście inteligencji się nad interpretacją następującego przykładu. Czy jeśli np. w teście inteligencji
badany nie rozwiąże żadnego zadania i tym samym osiągnie wynik równy zero, badany nie rozwiąże żadnego zadania i tym samym osiągnie wynik równy zero,
to czy oznacza to, że osoba ta jest całkowicie pozbawiona inteligencji? Taka in- to czy oznacza to, że osoba ta jest całkowicie pozbawiona inteligencji? Taka in-
terpretacja wydaje się absurdalna. Przecież każdy człowiek ma pewien poziom terpretacja wydaje się absurdalna. Przecież każdy człowiek ma pewien poziom
inteligencji. Nawet jeśli weźmie się pod uwagę to, że istnieją ludzie o bardzo inteligencji. Nawet jeśli weźmie się pod uwagę to, że istnieją ludzie o bardzo
niskim jej poziomie (osoby upośledzone), to nie istnieją ludzie, którym nie przy- 61 niskim jej poziomie (osoby upośledzone), to nie istnieją ludzie, którym nie przy- 61

sługiwałaby taka cecha. Mówi o tym nomotetyczne podejście do diagnozowania sługiwałaby taka cecha. Mówi o tym nomotetyczne podejście do diagnozowania
ludzi zakładające, że istnieją uniwersalne cechy (do których należy inteligencja) ludzi zakładające, że istnieją uniwersalne cechy (do których należy inteligencja)
opisujące wszystkich ludzi. W omówionym przykładzie wynik zero oznacza tyle, opisujące wszystkich ludzi. W omówionym przykładzie wynik zero oznacza tyle,
że w przypadku osoby, która osiągnęła taki wynik, test okazał się zbyt trudny. że w przypadku osoby, która osiągnęła taki wynik, test okazał się zbyt trudny.
Gdyby ta sama osoba rozwiązywała jakiś łatwiejszy test, prawdopodobnie uzy- Gdyby ta sama osoba rozwiązywała jakiś łatwiejszy test, prawdopodobnie uzy-
skałaby wynik niezerowy. skałaby wynik niezerowy.
Jak więc widać, porównywanie wyników osób badanych zarówno z wynikiem Jak więc widać, porównywanie wyników osób badanych zarówno z wynikiem
maksymalnym, jak i z wynikiem minimalnym w danym teście, nie ma sensu. maksymalnym, jak i z wynikiem minimalnym w danym teście, nie ma sensu.
W psychologii przyjęto, że wartością, z jaką się porównuje wyniki poszczegól- W psychologii przyjęto, że wartością, z jaką się porównuje wyniki poszczegól-
nych badanych jest średnia rozkładu wyników danego testu. Tak więc pomiar nych badanych jest średnia rozkładu wyników danego testu. Tak więc pomiar
psychologiczny dokonywany jest na skali co najwyżej przedziałowej. Nie ma psychologiczny dokonywany jest na skali co najwyżej przedziałowej. Nie ma
tu bowiem zera absolutnego, czyli wartości oznaczającej brak cechy. Miarą na- tu bowiem zera absolutnego, czyli wartości oznaczającej brak cechy. Miarą na-
silenia cechy u danej jednostki jest różnica między uzyskanym przez nią wy- silenia cechy u danej jednostki jest różnica między uzyskanym przez nią wy-
nikiem a średnią rozkładu wyników badanej populacji. Zwykle różnica ta nikiem a średnią rozkładu wyników badanej populacji. Zwykle różnica ta
wyrażana jest w jednostkach odchylenia standardowego. wyrażana jest w jednostkach odchylenia standardowego.
Pomiar polegający na porównywaniu wartości uzyskanej przez daną osobę z war- Pomiar polegający na porównywaniu wartości uzyskanej przez daną osobę z war-
tością średnią (czy też z wartościami przypisanymi innym badanym) nazywany jest tością średnią (czy też z wartościami przypisanymi innym badanym) nazywany jest
pomiarem różnicowym. pomiarem różnicowym.
Pomiar psychologiczny nie ma więc charakteru bezwzględnego, a jedynie Pomiar psychologiczny nie ma więc charakteru bezwzględnego, a jedynie
względny, oznaczający porównywania wyniku konkretnej osoby badanej ze śred- względny, oznaczający porównywania wyniku konkretnej osoby badanej ze śred-
nią populacji. Sam pojedynczy wynik osoby badanej bez odniesienia go do śred- nią populacji. Sam pojedynczy wynik osoby badanej bez odniesienia go do śred-
niej populacji nie ma żadnego znaczenia. niej populacji nie ma żadnego znaczenia.
Aby lepiej zrozumieć, na czym polega specyfika pomiaru w psychometrii, war- Aby lepiej zrozumieć, na czym polega specyfika pomiaru w psychometrii, war-
to rozpatrzyć następujący przykład. Jan właśnie rozpoczął pracę w pewnej firmie. to rozpatrzyć następujący przykład. Jan właśnie rozpoczął pracę w pewnej firmie.
Po pierwszym miesiącu pracy zarobił 2000 złotych. Ponieważ jest to pierwsza Po pierwszym miesiącu pracy zarobił 2000 złotych. Ponieważ jest to pierwsza
praca Jana, więc są to po raz pierwszy zarobione przez Jana pieniądze. Z pie- praca Jana, więc są to po raz pierwszy zarobione przez Jana pieniądze. Z pie-
niędzy tych Jan musi się utrzymać w ciągu kolejnego miesiąca. Po kilku dniach niędzy tych Jan musi się utrzymać w ciągu kolejnego miesiąca. Po kilku dniach
okazało się, że Janowi pozostało już tylko 1000 zł. Można więc powiedzieć, że okazało się, że Janowi pozostało już tylko 1000 zł. Można więc powiedzieć, że
Jan ma obecnie o 1000 zł mniej. Można także stwierdzić, że ma dwa razy mniej Jan ma obecnie o 1000 zł mniej. Można także stwierdzić, że ma dwa razy mniej
pieniędzy niż na początku miesiąca. W ciągu kolejnych kilkunastu dni Jan wydał pieniędzy niż na początku miesiąca. W ciągu kolejnych kilkunastu dni Jan wydał
pozostałą mu kwotę. Okazało się, że na pięć dni przed końcem miesiąca Janowi pozostałą mu kwotę. Okazało się, że na pięć dni przed końcem miesiąca Janowi
pozostała jedna złotówka. W chwili obecnej ma on 2000 razy mniej pieniędzy pozostała jedna złotówka. W chwili obecnej ma on 2000 razy mniej pieniędzy
niż na początku miesiąca i o 1999 zł mniej niż na początku. Wracając do domu, niż na początku miesiąca i o 1999 zł mniej niż na początku. Wracając do domu,
Jan zgubił pozostałą mu złotówkę, a więc pozostało mu 0 zł czyli Jan nie ma już Jan zgubił pozostałą mu złotówkę, a więc pozostało mu 0 zł czyli Jan nie ma już
pieniędzy. W przypadku pieniędzy możliwe jest porównywanie różnych kwot pieniędzy. W przypadku pieniędzy możliwe jest porównywanie różnych kwot
zarówno ze względu na to, o ile złotych się one różnią, jak i ile razy się róż- zarówno ze względu na to, o ile złotych się one różnią, jak i ile razy się róż-
nią. Możliwe jest więc przeprowadzanie operacji dodawania i odejmowania oraz nią. Możliwe jest więc przeprowadzanie operacji dodawania i odejmowania oraz
mnożenia i dzielenia. Ponadto istnieje tzw. zero absolutne, czyli taka wartość, mnożenia i dzielenia. Ponadto istnieje tzw. zero absolutne, czyli taka wartość,
62 poniżej której nie można już mieć żadnych pieniędzy. 62 poniżej której nie można już mieć żadnych pieniędzy.

Inaczej wygląda mierzenie właściwości psychicznych. W przypadku pienię- Inaczej wygląda mierzenie właściwości psychicznych. W przypadku pienię-
dzy jednostki są równe, a więc np. różnica między 10 zł a 11 zł jest taka sama dzy jednostki są równe, a więc np. różnica między 10 zł a 11 zł jest taka sama
jak między 1000 zł a 1001 zł. W przypadku punków zliczonych z jakiegoś testu jak między 1000 zł a 1001 zł. W przypadku punków zliczonych z jakiegoś testu
psychologicznego tak być nie musi. Poszczególne pozycje testowe w niejedna- psychologicznego tak być nie musi. Poszczególne pozycje testowe w niejedna-
kowy sposób mierzą badaną cechę. Jedne z nich są lepszymi wskaźnikami, a inne kowy sposób mierzą badaną cechę. Jedne z nich są lepszymi wskaźnikami, a inne
gorszymi. Nie istnieje też naturalny punkt zerowy, jak w przypadku pieniędzy. gorszymi. Nie istnieje też naturalny punkt zerowy, jak w przypadku pieniędzy.
3.5. Kwestie problemowe pomiaru psychometrycznego 3.5. Kwestie problemowe pomiaru psychometrycznego
Jak już wspomniano, w psychometrii nie ma pewności, czy liczby uzyskane Jak już wspomniano, w psychometrii nie ma pewności, czy liczby uzyskane
w trakcie pomiaru rzeczywiście odzwierciedlają relacje zachodzące pomiędzy w trakcie pomiaru rzeczywiście odzwierciedlają relacje zachodzące pomiędzy
wartościami badanej cechy. Aby jakikolwiek pomiar miał sens, konieczne jest wartościami badanej cechy. Aby jakikolwiek pomiar miał sens, konieczne jest
jednak przyjęcie założenia o tym, że rzeczywiście odzwierciedla on badaną ce- jednak przyjęcie założenia o tym, że rzeczywiście odzwierciedla on badaną ce-
chę. Warto jednak zdawać sobie sprawę z przyczyn trudności przyjęcia takiego chę. Warto jednak zdawać sobie sprawę z przyczyn trudności przyjęcia takiego
założenia. założenia.
Główny problem dotyczy odzwierciedlenia relacji między wartościami bada- Główny problem dotyczy odzwierciedlenia relacji między wartościami bada-
nej cechy przez liczby przypisane w procesie pomiaru. Wyniki poszczególnych nej cechy przez liczby przypisane w procesie pomiaru. Wyniki poszczególnych
osób badanych porównuje się ze średnią, a ostateczny rezultat testu wyraża jako osób badanych porównuje się ze średnią, a ostateczny rezultat testu wyraża jako
odległość od średniej w jednostkach odchylenia standardowego. Przyjmuje się odległość od średniej w jednostkach odchylenia standardowego. Przyjmuje się
przy tym założenie, że odchylenie standardowe jest jednostką odpowiadającą przy tym założenie, że odchylenie standardowe jest jednostką odpowiadającą
równym przyrostom latentnej zmiennej psychologicznej, czyli, że zachowane są równym przyrostom latentnej zmiennej psychologicznej, czyli, że zachowane są
relacje pomiędzy wartościami zmiennej latetnej a liczbami przyporządkowanymi relacje pomiędzy wartościami zmiennej latetnej a liczbami przyporządkowanymi
w trakcie pomiaru. Nie ma jednak dowodu, że w ten sposób otrzymuje się ska- w trakcie pomiaru. Nie ma jednak dowodu, że w ten sposób otrzymuje się ska-
le przedziałowe, czyli składające się z równych jednostek. Zwykle bowiem nie le przedziałowe, czyli składające się z równych jednostek. Zwykle bowiem nie
można wykazać normalności rozkładu w populacji. Przyjmowanie normalności można wykazać normalności rozkładu w populacji. Przyjmowanie normalności
rozkładu jest jedynie założeniem, a nie udowodnioną prawidłowością. Trudność rozkładu jest jedynie założeniem, a nie udowodnioną prawidłowością. Trudność
ta wynika z dwóch powodów. Po pierwsze, wykazanie normalności rozkładu ta wynika z dwóch powodów. Po pierwsze, wykazanie normalności rozkładu
w populacji oznaczałoby konieczność przebadania całej populacji, a to jest nie- w populacji oznaczałoby konieczność przebadania całej populacji, a to jest nie-
możliwe. Zawsze w każdym badaniu badacz ma do czynienia jedynie z pewną możliwe. Zawsze w każdym badaniu badacz ma do czynienia jedynie z pewną
próbą osób. Rozkład normalny w próbie pewnej zmiennej nie oznacza, że w po- próbą osób. Rozkład normalny w próbie pewnej zmiennej nie oznacza, że w po-
pulacji ma ona również rozkład normalny. Po drugie, wykazanie, że dana ce- pulacji ma ona również rozkład normalny. Po drugie, wykazanie, że dana ce-
cha ma rozkład normalny w populacji wymagałoby posiadania innego narzędzia cha ma rozkład normalny w populacji wymagałoby posiadania innego narzędzia
pomiarowego. Jego konstrukcja napotkałaby takie same trudności, jak obecnie pomiarowego. Jego konstrukcja napotkałaby takie same trudności, jak obecnie
opisywany problem równości jednostek pomiaru. opisywany problem równości jednostek pomiaru.
Głębszą trudnością jest to, że nie wiadomo, czy zachodzi jednoznaczne przy- Głębszą trudnością jest to, że nie wiadomo, czy zachodzi jednoznaczne przy-
porządkowanie między zmienną psychologiczną a określoną skalą wyników porządkowanie między zmienną psychologiczną a określoną skalą wyników
testowych. Cecha ludzka stanowi zmienną niezależnie od jednostek, w jakich testowych. Cecha ludzka stanowi zmienną niezależnie od jednostek, w jakich
wyrażone są wyniki jej pomiaru. Nie ma pewności, że różnica jednej poprawnej wyrażone są wyniki jej pomiaru. Nie ma pewności, że różnica jednej poprawnej
odpowiedzi, jako wyraz przyrostu zmiennej psychologicznej, na obszarze całej odpowiedzi, jako wyraz przyrostu zmiennej psychologicznej, na obszarze całej
skali ma tę samą wartość. Nie ma też pewności, że jednostka odchylenia stan- skali ma tę samą wartość. Nie ma też pewności, że jednostka odchylenia stan-
dardowego w różnych częściach krzywej normalnej odpowiada takim samym dardowego w różnych częściach krzywej normalnej odpowiada takim samym
przyrostom zmiennej psychologicznej. 63 przyrostom zmiennej psychologicznej. 63

Aby określić, czy jakiś zbiór jednostek na skali testowej odpowiada równo- Aby określić, czy jakiś zbiór jednostek na skali testowej odpowiada równo-
miernym jednostkom na kontinuum odpowiedniej zmiennej psychologicznej, miernym jednostkom na kontinuum odpowiedniej zmiennej psychologicznej,
należałoby ustalić istotę funkcjonalnego związku między nimi. Aby poznać ten należałoby ustalić istotę funkcjonalnego związku między nimi. Aby poznać ten
związek, trzeba by posiadać jakąś niezależną miarę zmiennej psychologicznej związek, trzeba by posiadać jakąś niezależną miarę zmiennej psychologicznej
(Guilford i Comrey, 1961). (Guilford i Comrey, 1961).

1. Co to jest cecha latentna? 1. Co to jest cecha latentna?
2. Jakie czynniki utrudniają pomiar w psychologii? 2. Jakie czynniki utrudniają pomiar w psychologii?
3. Co to jest pomiar różnicowy? 3. Co to jest pomiar różnicowy?
4. Dlaczego podejście idiograficzne nie znajduje zastosowania w psychometrii? 4. Dlaczego podejście idiograficzne nie znajduje zastosowania w psychometrii?
5. Podaj przykładowe wskaźniki zdolności werbalnych, zdolności muzycznych, 5. Podaj przykładowe wskaźniki zdolności werbalnych, zdolności muzycznych,
pamięci operacyjnej, poczucia kontroli, autorytaryzmu, towarzyskości. pamięci operacyjnej, poczucia kontroli, autorytaryzmu, towarzyskości.
6. Czy każdy z wymienionych przez Ciebie w punkcie 5. wskaźników może 6. Czy każdy z wymienionych przez Ciebie w punkcie 5. wskaźników może
zostać użyty w kwestionariuszu lub teście? zostać użyty w kwestionariuszu lub teście?
7. Jakie założenia przyjmuje się, aby możliwe było mierzenie cech psychicz- 7. Jakie założenia przyjmuje się, aby możliwe było mierzenie cech psychicz-
nych? nych?
8. Jak wyjaśniłbyś, czym jest wskaźnik? 8. Jak wyjaśniłbyś, czym jest wskaźnik?
9. Na czym polegają różnice miedzy podejściem nomotetycznym a idiograficz- 9. Na czym polegają różnice miedzy podejściem nomotetycznym a idiograficz-
nym? nym?
64 64

4. Klasyczna teoria rzetelności testów1 4. Klasyczna teoria rzetelności testów1

Rzetelność to parametr każdego narzędzia pomiarowego, określający względ- Rzetelność to parametr każdego narzędzia pomiarowego, określający względ-
ną wielkość popełnianych błędów, czyli dokładność pomiaru. Istnieją narzę- ną wielkość popełnianych błędów, czyli dokładność pomiaru. Istnieją narzę-
dzia o stosunkowo dużej dokładności oraz takie, których stosowanie wiąże się dzia o stosunkowo dużej dokładności oraz takie, których stosowanie wiąże się
ze znacznym błędem. Testy psychologiczne należą raczej do tej drugiej grupy. ze znacznym błędem. Testy psychologiczne należą raczej do tej drugiej grupy.
O ile w przypadku typowych narzędzi służących do pomiaru wielkości fizycz- O ile w przypadku typowych narzędzi służących do pomiaru wielkości fizycz-
nych zagadnienie rzetelności można czasem pominąć (bo rzetelność jest bardzo nych zagadnienie rzetelności można czasem pominąć (bo rzetelność jest bardzo
duża), o tyle użytkownik testu psychologicznego na taki luksus sobie pozwolić duża), o tyle użytkownik testu psychologicznego na taki luksus sobie pozwolić
nie może. Z tego względu pojęcie rzetelności testu jest jednym z ważniejszych nie może. Z tego względu pojęcie rzetelności testu jest jednym z ważniejszych
zagadnień w psychometrii. zagadnień w psychometrii.
Do tej pory najczęściej brana pod uwagę operacjonalizacja pojęcia rzetelności Do tej pory najczęściej brana pod uwagę operacjonalizacja pojęcia rzetelności
testów jest konsekwencją założeń klasycznej teorii Harolda Gulliksena. Mimo testów jest konsekwencją założeń klasycznej teorii Harolda Gulliksena. Mimo
swojego wieku, teoria ta nie jest przestarzała, bo wciąż wiele nowo powstających swojego wieku, teoria ta nie jest przestarzała, bo wciąż wiele nowo powstających
technik psychometrycznych w mniejszym lub większym stopniu tworzonych jest technik psychometrycznych w mniejszym lub większym stopniu tworzonych jest
na podstawie teorii Gulliksena. na podstawie teorii Gulliksena.
Klasyczna teoria rzetelności testów jest modelem matematycznym. Jak każdy Klasyczna teoria rzetelności testów jest modelem matematycznym. Jak każdy
model, została sformułowana na fundamencie pewnych podstawowych założeń, model, została sformułowana na fundamencie pewnych podstawowych założeń,
tzw. aksjomatów. Aksjomaty to zdania, które w obrębie danej teorii uznaje się tzw. aksjomatów. Aksjomaty to zdania, które w obrębie danej teorii uznaje się
zawsze za prawdziwe. Zatem aksjomaty nie podlegają weryfikacji. To na ich pod- zawsze za prawdziwe. Zatem aksjomaty nie podlegają weryfikacji. To na ich pod-
stawie weryfikuje się kolejne twierdzenia teorii. Zwykle więc aksjomaty dotyczą stawie weryfikuje się kolejne twierdzenia teorii. Zwykle więc aksjomaty dotyczą
zjawisk o charakterze czysto teoretycznym (np. definicja punktu w geometrii), zjawisk o charakterze czysto teoretycznym (np. definicja punktu w geometrii),
bo tylko takich zjawisk nie da się sprawdzić empirycznie. Czasami jednak przy bo tylko takich zjawisk nie da się sprawdzić empirycznie. Czasami jednak przy
pomocy aksjomatów charakteryzuje się również pewne obszary rzeczywistości. pomocy aksjomatów charakteryzuje się również pewne obszary rzeczywistości.
Robi się tak wtedy, gdy są to obszary trudne lub niemożliwe do bezpośredniego Robi się tak wtedy, gdy są to obszary trudne lub niemożliwe do bezpośredniego
zbadania. Poprzez aksjomaty nadaje się im modelowy, czyli matematyczny, cha- zbadania. Poprzez aksjomaty nadaje się im modelowy, czyli matematyczny, cha-
rakter (np. normalny rozkład cech psychicznych), który, jak można się domyślać, rakter (np. normalny rozkład cech psychicznych), który, jak można się domyślać,
nieco upraszcza rzeczywisty obraz zjawiska. Bezpośredni zysk, jaki płynie z za- nieco upraszcza rzeczywisty obraz zjawiska. Bezpośredni zysk, jaki płynie z za-
stosowania aksjomatów to możliwość opisu rzeczywistości przy pomocy bardzo stosowania aksjomatów to możliwość opisu rzeczywistości przy pomocy bardzo
użytecznych modeli matematycznych. Właściwości takiego modelowego świata użytecznych modeli matematycznych. Właściwości takiego modelowego świata
(czyli np. cechy psychiczne opisujące ludzi) nazywane są zmiennymi, a ich cha- (czyli np. cechy psychiczne opisujące ludzi) nazywane są zmiennymi, a ich cha-
rakterystyczne wartości to parametry. rakterystyczne wartości to parametry.
1 1
Praca nad rozdziałem była finansowana ze środków na badania statutowe Wydziału Psychologii Praca nad rozdziałem była finansowana ze środków na badania statutowe Wydziału Psychologii
UW w 2008 roku. 65 UW w 2008 roku. 65

Parametr – wielkość (liczba), która opisuje strukturę (tzw. rozkład) zmiennej w teore- Parametr – wielkość (liczba), która opisuje strukturę (tzw. rozkład) zmiennej w teore-
tycznej populacji o liczebności nieskończenie wielkiej. Parametry są wartościami tzw. tycznej populacji o liczebności nieskończenie wielkiej. Parametry są wartościami tzw.
oczekiwanymi i na podstawie założeń teorii uznawane są za wielkości prawdziwe. oczekiwanymi i na podstawie założeń teorii uznawane są za wielkości prawdziwe.
Estymator – wielkość (liczba), która opisuje strukturę zmiennej w realnej (empirycz- Estymator – wielkość (liczba), która opisuje strukturę zmiennej w realnej (empirycz-
nej) zbiorowości o określonej liczebności. Jeśli przyjmiemy, że ta zbiorowość została nej) zbiorowości o określonej liczebności. Jeśli przyjmiemy, że ta zbiorowość została
wylosowana z określonej populacji oraz że jej liczebność jest dostatecznie duża, to wylosowana z określonej populacji oraz że jej liczebność jest dostatecznie duża, to
wtedy nazywamy ją próbą reprezentatywną. Estymator z próby reprezentatywnej dla wtedy nazywamy ją próbą reprezentatywną. Estymator z próby reprezentatywnej dla
jakiejś populacji może stanowić podstawę do przewidywania opisującego ją parame- jakiejś populacji może stanowić podstawę do przewidywania opisującego ją parame-
tru. tru.
Oznaczenia najpopularniejszych parametrów i odpowiadających im estymatorów Oznaczenia najpopularniejszych parametrów i odpowiadających im estymatorów
parametr estymator parametr estymator

średnia μ średnia μ
x x
wariancja σ 2
s2
wariancja σ 2
s2
odchylenie standardowe σ s odchylenie standardowe σ s
korelacja ρ r korelacja ρ r
Założenia sformułowane przez Gulliksena zostały częściowo przejęte z teorii Założenia sformułowane przez Gulliksena zostały częściowo przejęte z teorii
pomiaru wielkości fizycznych. Prawie wszystkie dotyczą pojęcia błędu pomiaru pomiaru wielkości fizycznych. Prawie wszystkie dotyczą pojęcia błędu pomiaru
i tzw. wyniku prawdziwego. i tzw. wyniku prawdziwego.
4.1. Wynik prawdziwy i błąd pomiaru 4.1. Wynik prawdziwy i błąd pomiaru

Gdy planowany jest pomiar natężenia jakiejś właściwości psychicznej, zakła- Gdy planowany jest pomiar natężenia jakiejś właściwości psychicznej, zakła-
da się, że natężenie to jest dla osoby stabilne – przynajmniej w krótkim okresie da się, że natężenie to jest dla osoby stabilne – przynajmniej w krótkim okresie
czasu. Założenie to nie dotyczy wyłącznie cech psychicznych, których poziom czasu. Założenie to nie dotyczy wyłącznie cech psychicznych, których poziom
wykazuje względną stałość nawet w dość długim czasie, ale także wszelkich wła- wykazuje względną stałość nawet w dość długim czasie, ale także wszelkich wła-
ściwości, które są niezmienne co najmniej przez krótki okres wystarczający na ściwości, które są niezmienne co najmniej przez krótki okres wystarczający na
dokonanie pomiaru. Opisywana tu teoria charakteryzuje więc również pomia- dokonanie pomiaru. Opisywana tu teoria charakteryzuje więc również pomia-
ry takich właściwości psychicznych, które określamy jako stany – właściwości ry takich właściwości psychicznych, które określamy jako stany – właściwości
z definicji zmienne w czasie i zależne od sytuacji. W dalszej części rozdziału dla z definicji zmienne w czasie i zależne od sytuacji. W dalszej części rozdziału dla
uproszczenia zdań będę jednak sukcesywnie używał słowa cecha na określenie uproszczenia zdań będę jednak sukcesywnie używał słowa cecha na określenie
przedmiotu pomiaru testem psychologicznym. przedmiotu pomiaru testem psychologicznym.
Diagnoza testowa ma na celu określenie rzeczywistego nasilenia cechy. Diagnoza testowa ma na celu określenie rzeczywistego nasilenia cechy.
Psychometrycznym wskaźnikiem tego nasilenia jest wynik w adekwatnym teście Psychometrycznym wskaźnikiem tego nasilenia jest wynik w adekwatnym teście
psychologicznym. Gdyby istniał idealny test, czyli taki, który nie popełnia błędu, psychologicznym. Gdyby istniał idealny test, czyli taki, który nie popełnia błędu,
to wynik pomiaru wskazywałby dokładnie na prawdziwe nasilenie cechy. Taki to wynik pomiaru wskazywałby dokładnie na prawdziwe nasilenie cechy. Taki
wynik nieobciążony błędem nazywa się wynikiem prawdziwym. wynik nieobciążony błędem nazywa się wynikiem prawdziwym.
66 66

4. Klasyczna teoria rzetelności testów 4. Klasyczna teoria rzetelności testów
Wynik prawdziwy – wynik hipotetycznego pomiaru, wskazujący na rzeczywiste na- Wynik prawdziwy – wynik hipotetycznego pomiaru, wskazujący na rzeczywiste na-
tężenie właściwości danego obiektu (np. nasilenie cechy u człowieka). Wynik praw- tężenie właściwości danego obiektu (np. nasilenie cechy u człowieka). Wynik praw-
dziwy uzyskalibyśmy, stosując idealnie dokładne narzędzie pomiarowe. Jest on więc dziwy uzyskalibyśmy, stosując idealnie dokładne narzędzie pomiarowe. Jest on więc
bezpośrednio związany z zastosowanym narzędziem, a więc ma jednostkę charakte- bezpośrednio związany z zastosowanym narzędziem, a więc ma jednostkę charakte-
ryzującą to narzędzie. Gdybyśmy do pomiaru tej samej właściwości zastosowali inne ryzującą to narzędzie. Gdybyśmy do pomiaru tej samej właściwości zastosowali inne
narzędzie, o innej jednostce, to charakteryzowałby je inny wynik prawdziwy. narzędzie, o innej jednostce, to charakteryzowałby je inny wynik prawdziwy.
Wynik otrzymany – wynik faktycznego pomiaru, który może być obciążony błę- Wynik otrzymany – wynik faktycznego pomiaru, który może być obciążony błę-
dem. dem.
W rzeczywistości jednak idealne narzędzia pomiarowe nie istnieją, a wynik W rzeczywistości jednak idealne narzędzia pomiarowe nie istnieją, a wynik
w teście psychologicznym raczej nie jest wynikiem prawdziwym. Jest to tzw. w teście psychologicznym raczej nie jest wynikiem prawdziwym. Jest to tzw.
wynik otrzymany. Przyjmuje się, że wynik otrzymany może być obciążony błę- wynik otrzymany. Przyjmuje się, że wynik otrzymany może być obciążony błę-
dem pomiaru, a więc wynik otrzymany jest sumą wyniku prawdziwego i błę- dem pomiaru, a więc wynik otrzymany jest sumą wyniku prawdziwego i błę-
du pomiaru. Ta podstawowa dla teorii pomiaru zależność została przedstawiona du pomiaru. Ta podstawowa dla teorii pomiaru zależność została przedstawiona
w równaniu 1. w równaniu 1.
X =T +E (1) X =T +E (1)
Charakterystyka błędu pomiaru to jedno z najważniejszych zadań teorii Charakterystyka błędu pomiaru to jedno z najważniejszych zadań teorii
Gulliksena i w ogóle teorii pomiaru. Z równania 1. wynika, że błąd pomiaru to Gulliksena i w ogóle teorii pomiaru. Z równania 1. wynika, że błąd pomiaru to
po prostu różnica pomiędzy wynikiem otrzymanym a wynikiem prawdziwym. po prostu różnica pomiędzy wynikiem otrzymanym a wynikiem prawdziwym.
Zostało to matematycznie zapisane w równaniu 2. Zostało to matematycznie zapisane w równaniu 2.
E = X −T (2) E = X −T (2)
Wykonując pomiar, badacz chce poznać wynik prawdziwy. Jest to jednak nie- Wykonując pomiar, badacz chce poznać wynik prawdziwy. Jest to jednak nie-
wykonalne, bo żadne narzędzie pomiarowe nie jest idealnie dokładne. Narzędzie wykonalne, bo żadne narzędzie pomiarowe nie jest idealnie dokładne. Narzędzie
pomiarowe zwykle pokaże więc wynik mniej lub bardziej odległy od wyniku pomiarowe zwykle pokaże więc wynik mniej lub bardziej odległy od wyniku
prawdziwego. Ta różnica to właśnie błąd pomiaru (rys. 4.1.). prawdziwego. Ta różnica to właśnie błąd pomiaru (rys. 4.1.).
Błąd pomiaru może być dodatni, gdy wynik otrzymany jest wyższy od praw- Błąd pomiaru może być dodatni, gdy wynik otrzymany jest wyższy od praw-
dziwego, lub ujemny, gdy wynik otrzymany jest niższy od prawdziwego. Błąd dziwego, lub ujemny, gdy wynik otrzymany jest niższy od prawdziwego. Błąd
pomiaru może też być znaczny, gdy wynik otrzymany jest bardzo oddalony od pomiaru może też być znaczny, gdy wynik otrzymany jest bardzo oddalony od
wyniku prawdziwego, lub nieznaczny, gdy ta odległość jest mała. Może się też wyniku prawdziwego, lub nieznaczny, gdy ta odległość jest mała. Może się też
zdarzyć, że w konkretnym pomiarze nie będzie błędu (błąd pomiaru będzie rów- zdarzyć, że w konkretnym pomiarze nie będzie błędu (błąd pomiaru będzie rów-
ny zero), ale diagnosta nigdy nie będzie tego wiedział, bo najważniejszą cechą ny zero), ale diagnosta nigdy nie będzie tego wiedział, bo najważniejszą cechą
błędu pomiaru jest jego nieprzewidywalność. błędu pomiaru jest jego nieprzewidywalność.
67 67

Rysunek 4.1. Hipotetyczny wynik prawdziwy osoby (T) oraz przykładowe wyniki otrzyma Rysunek 4.1. Hipotetyczny wynik prawdziwy osoby (T) oraz przykładowe wyniki otrzyma
ne tej osoby z trzech badań tym samym testem (X1, X2, X3) i błędy pomiaru (E1, E2, E3). ne tej osoby z trzech badań tym samym testem (X1, X2, X3) i błędy pomiaru (E1, E2, E3).
Błąd pomiaru dla wyniku X2 (E2 = X2 – T) wynosi zero Błąd pomiaru dla wyniku X2 (E2 = X2 – T) wynosi zero
Błędy pomiaru można ogólnie podzielić na systematyczne i losowe. Błąd sys- Błędy pomiaru można ogólnie podzielić na systematyczne i losowe. Błąd sys-
tematyczny bierze się zwykle z oddziaływania pojedynczego, ale za to bardzo tematyczny bierze się zwykle z oddziaływania pojedynczego, ale za to bardzo
znaczącego czynnika zakłócającego. Może on powodować np. równomierne znaczącego czynnika zakłócającego. Może on powodować np. równomierne
zmniejszanie się wyników pomiaru u wszystkich osób badanych. Takim czynni- zmniejszanie się wyników pomiaru u wszystkich osób badanych. Takim czynni-
kiem może być np. złej jakości druk w teście szybkości. Jeśli będzie to utrudniało kiem może być np. złej jakości druk w teście szybkości. Jeśli będzie to utrudniało
odczytywanie pozycji testowych, to osoby będą uzyskiwały systematycznie niż- odczytywanie pozycji testowych, to osoby będą uzyskiwały systematycznie niż-
sze wyniki otrzymane od innych osób, które wykonują ten sam test wydrukowa- sze wyniki otrzymane od innych osób, które wykonują ten sam test wydrukowa-
ny staranniej. Będzie to oczywiście efekt błędu pomiaru, bo jakość druku nie ma ny staranniej. Będzie to oczywiście efekt błędu pomiaru, bo jakość druku nie ma
wpływu na rzeczywiste natężenie cechy. wpływu na rzeczywiste natężenie cechy.
W kontekście rzetelności testów psychologicznych systematyczny błąd po- W kontekście rzetelności testów psychologicznych systematyczny błąd po-
miaru ma znaczenie tylko wtedy, gdy jest efektem naruszenia standardowej pro- miaru ma znaczenie tylko wtedy, gdy jest efektem naruszenia standardowej pro-
cedury badania. W innej sytuacji, gdy standardowa procedura jest zachowana cedury badania. W innej sytuacji, gdy standardowa procedura jest zachowana
i wszystkie osoby badane wykonują test pod wpływem tego samego czynnika za- i wszystkie osoby badane wykonują test pod wpływem tego samego czynnika za-
kłócającego (np. wszystkie osoby wypełniają test wydrukowany w ten sam spo- kłócającego (np. wszystkie osoby wypełniają test wydrukowany w ten sam spo-
sób), wtedy błąd systematyczny jest nieistotny. Wynika to z faktu, że jak na razie sób), wtedy błąd systematyczny jest nieistotny. Wynika to z faktu, że jak na razie
pomiar psychologiczny to pomiar na skali najwyżej przedziałowej i nie są ważne pomiar psychologiczny to pomiar na skali najwyżej przedziałowej i nie są ważne
bezwzględne wyniki tylko odległości między nimi. W przypadku błędu syste- bezwzględne wyniki tylko odległości między nimi. W przypadku błędu syste-
matycznego wyniki wszystkich osób przesuną się na skali o tę sama wartość, ale matycznego wyniki wszystkich osób przesuną się na skali o tę sama wartość, ale
różnice między nimi pozostaną bez zmian. Warto jednak wspomnieć, że czynniki różnice między nimi pozostaną bez zmian. Warto jednak wspomnieć, że czynniki
powodujące błąd systematyczny mogą wpływać na obniżenie trafności testu, np. powodujące błąd systematyczny mogą wpływać na obniżenie trafności testu, np.
wynik testu zdolności wydrukowanego niestarannie będzie w większym stopniu wynik testu zdolności wydrukowanego niestarannie będzie w większym stopniu
zależał od sprawności wzrokowej. zależał od sprawności wzrokowej.
Dużo ważniejszy w teorii rzetelności jest błąd losowy. Ogólnie można powie- Dużo ważniejszy w teorii rzetelności jest błąd losowy. Ogólnie można powie-
dzieć, że jest to błąd nieprzewidywalny, a więc diagnosta nigdy nie wie, czy błąd dzieć, że jest to błąd nieprzewidywalny, a więc diagnosta nigdy nie wie, czy błąd
się pojawi oraz jaki będzie miał znak i jaką wielkość. Jest to błąd z założenia nie- się pojawi oraz jaki będzie miał znak i jaką wielkość. Jest to błąd z założenia nie-
zależny od niczego – od testu, od osoby badanej i od warunków badania. Innymi zależny od niczego – od testu, od osoby badanej i od warunków badania. Innymi
słowy, losowy błąd pomiaru może się pojawić zawsze i może mieć jakąkolwiek słowy, losowy błąd pomiaru może się pojawić zawsze i może mieć jakąkolwiek
wartość. wartość.
Losowość błędu pomiaru jest teoretycznym założeniem. W rzeczywistości Losowość błędu pomiaru jest teoretycznym założeniem. W rzeczywistości
68 błąd ten jest najprawdopodobniej konsekwencją oddziaływania olbrzymiej licz- 68 błąd ten jest najprawdopodobniej konsekwencją oddziaływania olbrzymiej licz-

by czynników zakłócających. Każdy z nich powoduje nieznaczne zniekształ- by czynników zakłócających. Każdy z nich powoduje nieznaczne zniekształ-
cenie pomiaru, ale wszystkie razem dają efekt, którego nie można zignorować. cenie pomiaru, ale wszystkie razem dają efekt, którego nie można zignorować.
Te czynniki, to np. warunki fizyczne badania (oświetlenie, poziom hałasu itp.), Te czynniki, to np. warunki fizyczne badania (oświetlenie, poziom hałasu itp.),
meteorologiczne (ciśnienie atmosferyczne, poziom nasłonecznienia), stan osoby meteorologiczne (ciśnienie atmosferyczne, poziom nasłonecznienia), stan osoby
badanej (nastrój, poziom zmęczenia, chęć do współpracy), cechy diagnosty (płeć, badanej (nastrój, poziom zmęczenia, chęć do współpracy), cechy diagnosty (płeć,
nastawienie), jakość papieru, na którym został wydrukowany test, jakość pisaka nastawienie), jakość papieru, na którym został wydrukowany test, jakość pisaka
itp. Czynników tych jest bardzo dużo i prawdopodobnie tylko część można ziden- itp. Czynników tych jest bardzo dużo i prawdopodobnie tylko część można ziden-
tyfikować, a jeszcze mniej można kontrolować. Zwykle jest to jednak nieopłacal- tyfikować, a jeszcze mniej można kontrolować. Zwykle jest to jednak nieopłacal-
ne, bo wyeliminowanie jednego czynnika zakłócającego pomiar może znacznie ne, bo wyeliminowanie jednego czynnika zakłócającego pomiar może znacznie
skomplikować procedurę badania, a tylko odrobinę podnieść jego dokładność. skomplikować procedurę badania, a tylko odrobinę podnieść jego dokładność.
Uśredniony wpływ dużej liczby nielosowych czynników zakłócających jest nie- Uśredniony wpływ dużej liczby nielosowych czynników zakłócających jest nie-
przewidywalny i dlatego daje w efekcie błąd uznawany za losowy. przewidywalny i dlatego daje w efekcie błąd uznawany za losowy.
Systematyczny błąd pomiaru – błąd, który zawsze ma taką samą wartość albo jego Systematyczny błąd pomiaru – błąd, który zawsze ma taką samą wartość albo jego
wartość jest proporcjonalna do siły oddziaływania czynnika zakłócającego pomiar. wartość jest proporcjonalna do siły oddziaływania czynnika zakłócającego pomiar.
W psychometrii ten rodzaj błędu ma zwykle znikome znaczenie, bo powoduje równo- W psychometrii ten rodzaj błędu ma zwykle znikome znaczenie, bo powoduje równo-
ległe przesunięcie wyników wszystkich osób. ległe przesunięcie wyników wszystkich osób.
Losowy błąd pomiaru – błąd, którego wartość i znak nie są znane. Jest to błąd nie- Losowy błąd pomiaru – błąd, którego wartość i znak nie są znane. Jest to błąd nie-
przewidywalny, przypadkowy. przewidywalny, przypadkowy.
4.2. Podstawowe założenia klasycznej teorii rzetelności testów 4.2. Podstawowe założenia klasycznej teorii rzetelności testów
Właściwie założenia te definiują losowy charakter błędu pomiaru. Losowość Właściwie założenia te definiują losowy charakter błędu pomiaru. Losowość
w tym przypadku oznacza niezależność od rodzaju narzędzia pomiarowego, od w tym przypadku oznacza niezależność od rodzaju narzędzia pomiarowego, od
osoby badanej i od właściwości sytuacji diagnostycznej. Ten ostatni czynnik osoby badanej i od właściwości sytuacji diagnostycznej. Ten ostatni czynnik
obejmuje również osobę diagnosty i jego zachowanie podczas badania. Dalej obejmuje również osobę diagnosty i jego zachowanie podczas badania. Dalej
dokładniej przedstawię te założenia oraz ich implikacje. dokładniej przedstawię te założenia oraz ich implikacje.
Założenie 1.: Średnia arytmetyczna nieskończenie wielu błędów losowych wynosi Założenie 1.: Średnia arytmetyczna nieskończenie wielu błędów losowych wynosi
zero. zero.
Założenie to informuje nas o nieprzewidywalnym charakterze błędów pomia- Założenie to informuje nas o nieprzewidywalnym charakterze błędów pomia-
ru. Gdyby można było przeprowadzić nieskończenie wiele badań testem, to błędy ru. Gdyby można było przeprowadzić nieskończenie wiele badań testem, to błędy
uzyskane w tych badaniach mogłyby być albo dodatnie, albo ujemne. Jedne z nich uzyskane w tych badaniach mogłyby być albo dodatnie, albo ujemne. Jedne z nich
byłyby znaczne, gdy wynik otrzymany ulokowałby się daleko od prawdziwego, byłyby znaczne, gdy wynik otrzymany ulokowałby się daleko od prawdziwego,
a inne nieznaczne. Przy nieskończenie wielu pomiarach waga błędów dodatnich, a inne nieznaczne. Przy nieskończenie wielu pomiarach waga błędów dodatnich,
a więc takich, gdy wynik otrzymany jest wyższy od prawdziwego, oraz błędów a więc takich, gdy wynik otrzymany jest wyższy od prawdziwego, oraz błędów
ujemnych, gdy wynik otrzymany jest niższy od prawdziwego, byłaby taka sama. ujemnych, gdy wynik otrzymany jest niższy od prawdziwego, byłaby taka sama.
Z racji różnych znaków suma błędów, a więc również ich średnia, wyniosłaby Z racji różnych znaków suma błędów, a więc również ich średnia, wyniosłaby
zero. Byłoby tak niezależnie od tego, czy pomiarów dokonano tym samym te- zero. Byłoby tak niezależnie od tego, czy pomiarów dokonano tym samym te-
69 69

stem czy różnymi. Znaczenia też nie miałoby to, czy wyniki pochodziłyby od stem czy różnymi. Znaczenia też nie miałoby to, czy wyniki pochodziłyby od
jednej osoby czy od różnych osób. jednej osoby czy od różnych osób.
Najprościej matematycznie można to założenie zapisać jako wartość parame- Najprościej matematycznie można to założenie zapisać jako wartość parame-
tru średniej rozkładu nieskończenie wielu błędów pomiaru (równanie 3). tru średniej rozkładu nieskończenie wielu błędów pomiaru (równanie 3).
µ =0 (3) µ =0 (3)
E E
Jednak równanie 3 podkreśla tylko teoretyczną wartość średniej błędów, która Jednak równanie 3 podkreśla tylko teoretyczną wartość średniej błędów, która
w warunkach praktycznych może zostać jedynie oszacowana. Z pewnych wzglę- w warunkach praktycznych może zostać jedynie oszacowana. Z pewnych wzglę-
dów warto tutaj podkreślić właściwości graniczne tego założenia (równanie 4). dów warto tutaj podkreślić właściwości graniczne tego założenia (równanie 4).
lim
∑E = 0 (4) lim
∑E = 0 (4)
n→∞ n n→∞ n
Można wtedy to założenie odczytać w sposób następujący: średnia arytme- Można wtedy to założenie odczytać w sposób następujący: średnia arytme-
tyczna losowych błędów pomiaru zmierza do zera wraz ze wzrostem liczby po- tyczna losowych błędów pomiaru zmierza do zera wraz ze wzrostem liczby po-
miarów. Z równania 4 wynika więc, że im więcej pomiarów zostanie wykona- miarów. Z równania 4 wynika więc, że im więcej pomiarów zostanie wykona-
nych, tym bliższa zeru będzie średnia arytmetyczna błędów. nych, tym bliższa zeru będzie średnia arytmetyczna błędów.
Z założenia tego bezpośrednio wynika bardzo korzystna dla badaczy konklu- Z założenia tego bezpośrednio wynika bardzo korzystna dla badaczy konklu-
zja. Wcześniej w równaniu 1 zostało zapisane, że wynik otrzymany jest sumą zja. Wcześniej w równaniu 1 zostało zapisane, że wynik otrzymany jest sumą
wyniku prawdziwego i błędu. Stąd można stwierdzić, że średnia wyników otrzy- wyniku prawdziwego i błędu. Stąd można stwierdzić, że średnia wyników otrzy-
manych przez grupę osób musi być równa sumie średniej wyników prawdziwych manych przez grupę osób musi być równa sumie średniej wyników prawdziwych
tych osób i średniej błędów (równanie 5). tych osób i średniej błędów (równanie 5).
x =x +x (5) x =x +x (5)
X T E X T E
To równanie można zapisać nie tylko dla wszystkich osób z konkretnej próby, To równanie można zapisać nie tylko dla wszystkich osób z konkretnej próby,
ale także dla nieskończenie wielu osób z hipotetycznej populacji (równanie 6). ale także dla nieskończenie wielu osób z hipotetycznej populacji (równanie 6).
µ =µ +µ (6) µ =µ +µ (6)
X T E X T E
I dalej, wiedząc, że średnia nieskończenie wielu błędów losowych wynosi zero I dalej, wiedząc, że średnia nieskończenie wielu błędów losowych wynosi zero
(równanie 3) można wykreślić ostatni składnik równania 6. Zatem średnia nie- (równanie 3) można wykreślić ostatni składnik równania 6. Zatem średnia nie-
skończenie wielu wyników otrzymanych będzie równa średniej nieskończenie skończenie wielu wyników otrzymanych będzie równa średniej nieskończenie
wielu wyników prawdziwych (równanie 7), a posługując się pojęciem granicy wielu wyników prawdziwych (równanie 7), a posługując się pojęciem granicy
i równaniem 4 można ten wniosek sformułować nieco inaczej: im więcej wy- i równaniem 4 można ten wniosek sformułować nieco inaczej: im więcej wy-
70 70

ników otrzymanych, tym bardziej średnia z nich będzie zbliżała się do średniej ników otrzymanych, tym bardziej średnia z nich będzie zbliżała się do średniej
wyników prawdziwych (równanie 8). wyników prawdziwych (równanie 8).
µ =µ (7) µ =µ (7)
X T X T
lim
∑X = µ (8) lim
∑X = µ (8)
n→∞ n T n→∞ n T
Założenie to uzasadnia więc powszechnie znane wśród badaczy zalecenie doty- Założenie to uzasadnia więc powszechnie znane wśród badaczy zalecenie doty-
czące wielkości prób. Im większe będą próby osób biorących udział w badaniach, czące wielkości prób. Im większe będą próby osób biorących udział w badaniach,
tym mniejszym błędem pomiaru obciążone będą średnie wyników otrzymanych tym mniejszym błędem pomiaru obciążone będą średnie wyników otrzymanych
z zastosowanych testów. Ta konkluzja dotyczy wyłącznie średniej, a nie pojedyn- z zastosowanych testów. Ta konkluzja dotyczy wyłącznie średniej, a nie pojedyn-
czego wyniku, ponieważ pojedynczy wynik otrzymany będzie obciążony błędem czego wyniku, ponieważ pojedynczy wynik otrzymany będzie obciążony błędem
tak samo nieprzewidywalnym w pomiarze pierwszym, jak i każdym kolejnym. tak samo nieprzewidywalnym w pomiarze pierwszym, jak i każdym kolejnym.
Założenie 2.: Nie ma związku pomiędzy błędami pomiaru a wynikami Założenie 2.: Nie ma związku pomiędzy błędami pomiaru a wynikami
prawdziwymi. prawdziwymi.
Wynik prawdziwy to taki wynik w teście, który bezbłędnie wskazuje na rze- Wynik prawdziwy to taki wynik w teście, który bezbłędnie wskazuje na rze-
czywiste nasilenie cechy u osoby badanej. Jeśli więc błędy pomiaru nie zależą czywiste nasilenie cechy u osoby badanej. Jeśli więc błędy pomiaru nie zależą
od wyników prawdziwych, to nie zależą również od rzeczywistego nasilenia ce- od wyników prawdziwych, to nie zależą również od rzeczywistego nasilenia ce-
chy. Zatem założenie to definiuje błąd losowy jako niezwiązany z osobą badaną. chy. Zatem założenie to definiuje błąd losowy jako niezwiązany z osobą badaną.
U osób z wysokim poziomem mierzonej cechy błąd jest tak samo nieprzewi- U osób z wysokim poziomem mierzonej cechy błąd jest tak samo nieprzewi-
dywalny, jak u osób z nasileniem przeciętnym, czy niskim. Oznacza to, że dla dywalny, jak u osób z nasileniem przeciętnym, czy niskim. Oznacza to, że dla
dowolnego nasilenia mierzonej cechy błąd pomiaru może przyjąć dowolną war- dowolnego nasilenia mierzonej cechy błąd pomiaru może przyjąć dowolną war-
tość. tość.
Matematycznie założenie to można zapisać jako teoretyczną korelację między Matematycznie założenie to można zapisać jako teoretyczną korelację między
dwiema zmiennymi: wynikiem prawdziwym i wynikiem otrzymanym (równanie dwiema zmiennymi: wynikiem prawdziwym i wynikiem otrzymanym (równanie
9). Korelację taką można by wyznaczyć, gdyby tym samym testem zbadać nie- 9). Korelację taką można by wyznaczyć, gdyby tym samym testem zbadać nie-
skończenie wielką populacje osób. Rezultatem takiej hipotetycznej operacji był- skończenie wielką populacje osób. Rezultatem takiej hipotetycznej operacji był-
by nieskończenie wielki zbiór wyników prawdziwych tych osób oraz tak samo by nieskończenie wielki zbiór wyników prawdziwych tych osób oraz tak samo
duży zbiór wyników otrzymanych. duży zbiór wyników otrzymanych.
ρTE = 0 (9) ρTE = 0 (9)
Z założenia 2. wynika ważny dla klasycznej teorii rzetelności wniosek. Aby go Z założenia 2. wynika ważny dla klasycznej teorii rzetelności wniosek. Aby go
przedstawić, zacząć należy od znanej formuły, pozwalającej wyznaczyć warian- przedstawić, zacząć należy od znanej formuły, pozwalającej wyznaczyć warian-
cję zmiennej A stanowiącej sumę dwóch innych zmiennych B i C (A=B+C). Na cję zmiennej A stanowiącej sumę dwóch innych zmiennych B i C (A=B+C). Na
przykład, jeśli grupa osób wypełnia test składający się tylko z dwóch pozycji, to 71 przykład, jeśli grupa osób wypełnia test składający się tylko z dwóch pozycji, to 71

rezultatem takiego badania będzie zbiór odpowiedzi na pozycję pierwszą, zbiór rezultatem takiego badania będzie zbiór odpowiedzi na pozycję pierwszą, zbiór
odpowiedzi na pozycję drugą oraz zbiór wyników całkowitych, czyli sum wyni- odpowiedzi na pozycję drugą oraz zbiór wyników całkowitych, czyli sum wyni-
ków z pozycji pierwszej i drugiej. Każdy z tych zbiorów będzie miał prawdopo- ków z pozycji pierwszej i drugiej. Każdy z tych zbiorów będzie miał prawdopo-
dobnie nieco inną wariancję. Największą z nich będzie wariancja w zbiorze wy- dobnie nieco inną wariancję. Największą z nich będzie wariancja w zbiorze wy-
ników całkowitych, bo wariancja ta to suma wariancji w każdej z dwóch pozycji ników całkowitych, bo wariancja ta to suma wariancji w każdej z dwóch pozycji
powiększona jeszcze dodatkowo o pewien składnik. Ten składnik to specyficzny powiększona jeszcze dodatkowo o pewien składnik. Ten składnik to specyficzny
rodzaj wariancji, która wynika z korelacji między pozycją pierwszą i drugą. Jest rodzaj wariancji, która wynika z korelacji między pozycją pierwszą i drugą. Jest
to tak zwana kowariancja. to tak zwana kowariancja.
Kowariancja to wielkość wariancji dwóch zmiennych, wynikająca z korelacji mię- Kowariancja to wielkość wariancji dwóch zmiennych, wynikająca z korelacji mię-
dzy nimi. Najprościej definiuje się ją poprzez iloczyn korelacji dwóch zmiennych i ich dzy nimi. Najprościej definiuje się ją poprzez iloczyn korelacji dwóch zmiennych i ich
odchyleń standardowych cov( x, y ) = ρ xyσ xσ y . Jeśli pomiędzy zmiennymi nie ma odchyleń standardowych cov( x, y ) = ρ xyσ xσ y . Jeśli pomiędzy zmiennymi nie ma
związku, to ich kowariancja jest równa zero. związku, to ich kowariancja jest równa zero.
Licząc całkowitą wariancję wyniku testowego, będącego sumą odpowiedzi na Licząc całkowitą wariancję wyniku testowego, będącego sumą odpowiedzi na
dwie pozycje, należy uwzględnić wariancję w pozycji pierwszej, wariancję w po- dwie pozycje, należy uwzględnić wariancję w pozycji pierwszej, wariancję w po-
zycji drugiej, oraz podwojoną kowariancję między nimi (równanie 10). zycji drugiej, oraz podwojoną kowariancję między nimi (równanie 10).
σ 12+ 2 = σ 12 + σ 22 + 2 ⋅ ρ12σ 1σ 2 (10) σ 12+ 2 = σ 12 + σ 22 + 2 ⋅ ρ12σ 1σ 2 (10)
W analogiczny sposób można sobie wyobrazić wariancję wyników otrzyma- W analogiczny sposób można sobie wyobrazić wariancję wyników otrzyma-
nych z badania nieskończenie wielkiej populacji osób. Wiadomo, że każdy wynik nych z badania nieskończenie wielkiej populacji osób. Wiadomo, że każdy wynik
otrzymany jest sumą wyniku prawdziwego i błędu (równanie 1). Zatem warian- otrzymany jest sumą wyniku prawdziwego i błędu (równanie 1). Zatem warian-
cja wyników otrzymanych to wariancja sum wyników prawdziwych i błędów. cja wyników otrzymanych to wariancja sum wyników prawdziwych i błędów.
Według schematu opisanego powyżej, taką wariancję należy rozumieć jako sumę Według schematu opisanego powyżej, taką wariancję należy rozumieć jako sumę
wariancji wyników prawdziwych, wariancji wyników otrzymanych i podwojonej wariancji wyników prawdziwych, wariancji wyników otrzymanych i podwojonej
kowariancji między nimi (równanie 11). kowariancji między nimi (równanie 11).
σ X2 = σ T2 + E = σ T2 + σ E2 + 2 ρTEσ T σ E (11) σ X2 = σ T2 + E = σ T2 + σ E2 + 2 ρTEσ T σ E (11)
W równaniu 11 cały ostatni składnik sumy wynosi 0, bo zgodnie z założeniem W równaniu 11 cały ostatni składnik sumy wynosi 0, bo zgodnie z założeniem
2 i równaniem 9 korelacja między błędami pomiaru a wynikami prawdziwymi 2 i równaniem 9 korelacja między błędami pomiaru a wynikami prawdziwymi
wynosi zero. A więc, jak to zapisano w równaniu 12, wariancja wyników otrzy- wynosi zero. A więc, jak to zapisano w równaniu 12, wariancja wyników otrzy-
manych jest równa po prostu sumie wariancji wyników prawdziwych i wariancji manych jest równa po prostu sumie wariancji wyników prawdziwych i wariancji
błędów. błędów.
σ X2 = σ T2 + σ E2 (12) σ X2 = σ T2 + σ E2 (12)
72 72

Równanie 12 opisuje zależność, która jest bardzo ważna w dyskusji nad ogól- Równanie 12 opisuje zależność, która jest bardzo ważna w dyskusji nad ogól-
nym pojęciem rzetelności testu. Powrócę więc do niego w jednym z kolejnych nym pojęciem rzetelności testu. Powrócę więc do niego w jednym z kolejnych
rozdziałów. rozdziałów.
Założenie 3.: Nie ma związku pomiędzy błędami pomiaru. Założenie 3.: Nie ma związku pomiędzy błędami pomiaru.
Założenie to brzmi może trochę lakonicznie, ale chodzi w nim o to, że jeśli Założenie to brzmi może trochę lakonicznie, ale chodzi w nim o to, że jeśli
w jakikolwiek sposób moglibyśmy uzyskać dwa nieskończenie wielkie zbiory w jakikolwiek sposób moglibyśmy uzyskać dwa nieskończenie wielkie zbiory
błędów pomiaru, to nie wystąpi pomiędzy nimi żadna zgodność. Nie ma znacze- błędów pomiaru, to nie wystąpi pomiędzy nimi żadna zgodność. Nie ma znacze-
nia, w jaki sposób te dwa zbiory powstaną. Mogą to być błędy z hipotetycznych nia, w jaki sposób te dwa zbiory powstaną. Mogą to być błędy z hipotetycznych
pomiarów dla tej samej osoby lub różnych osób, błędy przy zastosowaniu jed- pomiarów dla tej samej osoby lub różnych osób, błędy przy zastosowaniu jed-
nego testu lub dwóch testów, lub nawet za każdym razem innego testu. Zatem nego testu lub dwóch testów, lub nawet za każdym razem innego testu. Zatem
nigdy dwa zbiory błędów nie będą skorelowane. Każde dwa błędy pomiaru będą nigdy dwa zbiory błędów nie będą skorelowane. Każde dwa błędy pomiaru będą
niezależne, ponieważ są losowe. Jest to kolejne założenie podkreślające nieprze- niezależne, ponieważ są losowe. Jest to kolejne założenie podkreślające nieprze-
widywalny charakter błędu pomiaru. widywalny charakter błędu pomiaru.
Matematyczny zapis tego założenia przedstawiony został w równaniu 13. Matematyczny zapis tego założenia przedstawiony został w równaniu 13.
ρ E1E 2 = 0 (13) ρ E1E 2 = 0 (13)
Formułując wnioski wynikające z tego założenia, trzeba wrócić do opisanego Formułując wnioski wynikające z tego założenia, trzeba wrócić do opisanego
wcześniej schematu wyznaczania wariancji zmiennej, będącej sumą dwóch in- wcześniej schematu wyznaczania wariancji zmiennej, będącej sumą dwóch in-
nych zmiennych (równanie 10). Tym razem chodzi o sumę dwóch błędów pomia- nych zmiennych (równanie 10). Tym razem chodzi o sumę dwóch błędów pomia-
ru. Sposób obliczenia wariancji dla takiej sumy zapisany jest w równaniu 14. ru. Sposób obliczenia wariancji dla takiej sumy zapisany jest w równaniu 14.
σ E21+ E 2 = σ E21 + σ E2 2 + 2 ρ E1E 2σ E1σ E 2 (14) σ E21+ E 2 = σ E21 + σ E2 2 + 2 ρ E1E 2σ E1σ E 2 (14)
Po nieznacznych tylko modyfikacjach powstaje analogiczny wzór, służący do Po nieznacznych tylko modyfikacjach powstaje analogiczny wzór, służący do
wyznaczania wariancji dla różnicy dwóch błędów pomiaru (równanie 15). wyznaczania wariancji dla różnicy dwóch błędów pomiaru (równanie 15).
σ E21− E 2 = σ E21 + σ E2 2 − 2 ρ E1E 2σ E1σ E 2 (15) σ E21− E 2 = σ E21 + σ E2 2 − 2 ρ E1E 2σ E1σ E 2 (15)
Równania 14 i 15 można oczywiście uprościć, wymazując cały ich ostatni Równania 14 i 15 można oczywiście uprościć, wymazując cały ich ostatni
składnik, czyli kowariancję. Będzie ona równa zero, bo jak wynika z równania składnik, czyli kowariancję. Będzie ona równa zero, bo jak wynika z równania
13 korelacja między dwoma różnymi błędami jest równa zero. Na tej podstawie 13 korelacja między dwoma różnymi błędami jest równa zero. Na tej podstawie
powstały równania 16 i 17. powstały równania 16 i 17.
σ E21+ E 2 = σ E21 + σ E2 2 (16) σ E21+ E 2 = σ E21 + σ E2 2 (16)
73 73

σ E21− E 2 = σ E21 + σ E2 2 (17) σ E21− E 2 = σ E21 + σ E2 2 (17)
Tak więc wariancja sumy oraz różnicy dwóch różnych błędów jest równa po Tak więc wariancja sumy oraz różnicy dwóch różnych błędów jest równa po
prostu sumie wariancji tych błędów. Te równania będą istotne przy rozważaniu prostu sumie wariancji tych błędów. Te równania będą istotne przy rozważaniu
tzw. błędów standardowych. tzw. błędów standardowych.
4.3. Rozkłady wyników i błędów dla jednej osoby 4.3. Rozkłady wyników i błędów dla jednej osoby
Zwykle rezultatem diagnoz jest pojedynczy wynik otrzymany z badania kon- Zwykle rezultatem diagnoz jest pojedynczy wynik otrzymany z badania kon-
kretnej osoby konkretnym testem. Czasem w badaniach o szerszym zakresie kretnej osoby konkretnym testem. Czasem w badaniach o szerszym zakresie
pojawia się większa liczba wyników otrzymanych od różnych osób badanych pojawia się większa liczba wyników otrzymanych od różnych osób badanych
tym samym testem. Jednak żeby pojęcia wyniku prawdziwego i losowego błędu tym samym testem. Jednak żeby pojęcia wyniku prawdziwego i losowego błędu
pomiaru stały się zrozumiałe, trzeba wyobrazić sobie hipotetyczną sytuację, gdy pomiaru stały się zrozumiałe, trzeba wyobrazić sobie hipotetyczną sytuację, gdy
tym samym testem lub jego wersjami równoważnymi badana jest wielokrotnie tym samym testem lub jego wersjami równoważnymi badana jest wielokrotnie
w sposób niezależny ta sama osoba. Dwa pomiary można uznać za niezależne, w sposób niezależny ta sama osoba. Dwa pomiary można uznać za niezależne,
gdy jeden z nich nie wpływa na wynik otrzymany z drugiego. Tak dzieje się dość gdy jeden z nich nie wpływa na wynik otrzymany z drugiego. Tak dzieje się dość
często przy ocenie wielkości fizycznych, np. dwa pomiary szerokości tej samej często przy ocenie wielkości fizycznych, np. dwa pomiary szerokości tej samej
stalowej kostki tą samą suwmiarką najprawdopodobniej będą w dużym stopniu stalowej kostki tą samą suwmiarką najprawdopodobniej będą w dużym stopniu
niezależne. Natomiast dwa pomiary nasilenia ekstrawersji u tej samej osoby wy- niezależne. Natomiast dwa pomiary nasilenia ekstrawersji u tej samej osoby wy-
konane tym samym testem raczej nie będą niezależne, bo osoba, przystępując konane tym samym testem raczej nie będą niezależne, bo osoba, przystępując
do drugiego pomiaru, będzie pamiętała swoje odpowiedzi z pierwszego, będzie do drugiego pomiaru, będzie pamiętała swoje odpowiedzi z pierwszego, będzie
czuła się trochę bardziej znudzona czy zmęczona, będzie mogła przejawiać nieco czuła się trochę bardziej znudzona czy zmęczona, będzie mogła przejawiać nieco
inny poziom motywacji do współpracy z diagnostą itp. Zatem wyobrażona sytu- inny poziom motywacji do współpracy z diagnostą itp. Zatem wyobrażona sytu-
acja, w której wykonujemy wielokrotne niezależne pomiary nasilenia cechy u tej acja, w której wykonujemy wielokrotne niezależne pomiary nasilenia cechy u tej
samej osoby tym samym testem jest całkowicie teoretyczna i najprawdopodob- samej osoby tym samym testem jest całkowicie teoretyczna i najprawdopodob-
niej nigdy nie będzie miała miejsca w realnych warunkach. niej nigdy nie będzie miała miejsca w realnych warunkach.
Wyniki otrzymane z wielu pomiarów tym samym testem realizowanych na tej Wyniki otrzymane z wielu pomiarów tym samym testem realizowanych na tej
samej osobie najprawdopodobniej nie będą takie same. Przyjmuje się, że wynik samej osobie najprawdopodobniej nie będą takie same. Przyjmuje się, że wynik
prawdziwy tej osoby nie zmienia się z pomiaru na pomiar, ale za każdym razem prawdziwy tej osoby nie zmienia się z pomiaru na pomiar, ale za każdym razem
różny może być błąd pomiaru. Wyniki otrzymane w takiej sytuacji będą więc różny może być błąd pomiaru. Wyniki otrzymane w takiej sytuacji będą więc
czasem wyższe od wyniku prawdziwego, a czasem niższe, czasem będą one od- czasem wyższe od wyniku prawdziwego, a czasem niższe, czasem będą one od-
ległe od wyniku prawdziwego, a czasem będą leżały blisko niego lub nawet będą ległe od wyniku prawdziwego, a czasem będą leżały blisko niego lub nawet będą
mu równe. Gdyby wykonać takich pomiarów nieskończenie wiele, to uzyskane mu równe. Gdyby wykonać takich pomiarów nieskończenie wiele, to uzyskane
z nich wyniki otrzymane utworzyłyby rozkład normalny (krzywa Gaussa) przed- z nich wyniki otrzymane utworzyłyby rozkład normalny (krzywa Gaussa) przed-
stawiony na rys. 4.2., część a). Średnia takiego rozkładu, czyli wartość, którą stawiony na rys. 4.2., część a). Średnia takiego rozkładu, czyli wartość, którą
wyniki otrzymane będą przyjmowały najczęściej, to wynik prawdziwy osoby. wyniki otrzymane będą przyjmowały najczęściej, to wynik prawdziwy osoby.
Można więc powiedzieć, że wyniki otrzymane od tej samej osoby przy zastoso- Można więc powiedzieć, że wyniki otrzymane od tej samej osoby przy zastoso-
waniu tego samego testu będą oscylowały wokół wyniku prawdziwego tej osoby. waniu tego samego testu będą oscylowały wokół wyniku prawdziwego tej osoby.
Pierwiastek z wariancji takiego rozkładu, a więc jego odchylenie standardowe, to Pierwiastek z wariancji takiego rozkładu, a więc jego odchylenie standardowe, to
tzw. standardowy błąd pomiaru, o którym będzie jeszcze mowa. tzw. standardowy błąd pomiaru, o którym będzie jeszcze mowa.
74 74

Rysunek 4.2. Rozkład nieskończenie wielu wyników otrzymanych (a) oraz błędów po Rysunek 4.2. Rozkład nieskończenie wielu wyników otrzymanych (a) oraz błędów po
miaru (b) z niezależnych pomiarów tym samym testem nasilenia cechy u tej samej osoby. miaru (b) z niezależnych pomiarów tym samym testem nasilenia cechy u tej samej osoby.
Średnia górnego rozkładu to wynik prawdziwy osoby (T). Średnia dolnego rozkładu wyno Średnia górnego rozkładu to wynik prawdziwy osoby (T). Średnia dolnego rozkładu wyno
si zero. Odchylenie standardowe w obu rozkładach to standardowy błąd pomiaru (SEM). si zero. Odchylenie standardowe w obu rozkładach to standardowy błąd pomiaru (SEM).
Wartości X1 i X2 to przykładowe wyniki otrzymane, wybrane z nieskończenie wielu poten Wartości X1 i X2 to przykładowe wyniki otrzymane, wybrane z nieskończenie wielu poten
cjalnych wyników tej osoby. E1 i E2 to błędy pomiaru rozumiane jako różnice między X i T cjalnych wyników tej osoby. E1 i E2 to błędy pomiaru rozumiane jako różnice między X i T
Wynik prawdziwy – średnia wyników otrzymanych w nieskończenie wielu nieza- Wynik prawdziwy – średnia wyników otrzymanych w nieskończenie wielu nieza-
leżnych pomiarach cechy określonym testem u jednej osoby. Inaczej mówiąc, jest to leżnych pomiarach cechy określonym testem u jednej osoby. Inaczej mówiąc, jest to
średnia wszystkich potencjalnych wyników otrzymanych osoby przy pomiarze okre- średnia wszystkich potencjalnych wyników otrzymanych osoby przy pomiarze okre-
ślonym testem. ślonym testem.
Część a) na rys. 4.2. przedstawia rozkład wyników otrzymanych od jednej oso- Część a) na rys. 4.2. przedstawia rozkład wyników otrzymanych od jednej oso-
by, na którym bardzo łatwo można odczytać wartości błędów pomiaru. Będą to by, na którym bardzo łatwo można odczytać wartości błędów pomiaru. Będą to
odległości konkretnych wyników otrzymanych od wyniku prawdziwego. Rozkład odległości konkretnych wyników otrzymanych od wyniku prawdziwego. Rozkład
z rys. 4.2. a) można więc potraktować jak rozkład względnych błędów (błędy z rys. 4.2. a) można więc potraktować jak rozkład względnych błędów (błędy
względem wyniku prawdziwego). Gdyby przesunąć cały ten rozkład równolegle, względem wyniku prawdziwego). Gdyby przesunąć cały ten rozkład równolegle,
tak żeby w miejscu średniej znajdowało się zero, powstałby rozkład bezwzględ- tak żeby w miejscu średniej znajdowało się zero, powstałby rozkład bezwzględ-
nych błędów, a więc po prostu rozkład błędów pomiaru (rys. 4.2., część b)). Ten nych błędów, a więc po prostu rozkład błędów pomiaru (rys. 4.2., część b)). Ten
nowy rozkład ma dokładnie taki sam kształt jak rozkład wyników otrzymanych nowy rozkład ma dokładnie taki sam kształt jak rozkład wyników otrzymanych
z rys. 4.2. a), ale różnią się one średnią. Średnia rozkładu nieskończenie wie- z rys. 4.2. a), ale różnią się one średnią. Średnia rozkładu nieskończenie wie-
lu losowych błędów pomiaru zawsze wynosi zero, a odchylenie standardowe to lu losowych błędów pomiaru zawsze wynosi zero, a odchylenie standardowe to
standardowy błąd pomiaru. 75 standardowy błąd pomiaru. 75

4.4. Rozkłady wyników i błędów dla populacji 4.4. Rozkłady wyników i błędów dla populacji
Druga grupa teoretycznych rozkładów wynikających z założeń klasycznej Druga grupa teoretycznych rozkładów wynikających z założeń klasycznej
teorii rzetelności dotyczy sytuacji, gdy tym samym testem badane są wszyst- teorii rzetelności dotyczy sytuacji, gdy tym samym testem badane są wszyst-
kie osoby z nieskończenie wielkiej populacji. Rozkłady te również da się opisać kie osoby z nieskończenie wielkiej populacji. Rozkłady te również da się opisać
przy użyciu funkcji Gaussa (rozkład normalny), ale będą one miały nieco inne przy użyciu funkcji Gaussa (rozkład normalny), ale będą one miały nieco inne
parametry niż opisywane wcześniej rozkłady dla jednej osoby. W tym przypad- parametry niż opisywane wcześniej rozkłady dla jednej osoby. W tym przypad-
ku, oprócz rozkładu wyników otrzymanych i błędów, uwzględnić należy także ku, oprócz rozkładu wyników otrzymanych i błędów, uwzględnić należy także
rozkład wyników prawdziwych. Gdy wykonywane są pomiary tym samym te- rozkład wyników prawdziwych. Gdy wykonywane są pomiary tym samym te-
stem na jednej osobie, nie ma rozkładu wyników prawdziwych, bo jedna osoba stem na jednej osobie, nie ma rozkładu wyników prawdziwych, bo jedna osoba
ma tylko jeden wynik prawdziwy. Natomiast, gdy badanie dotyczy teoretycz- ma tylko jeden wynik prawdziwy. Natomiast, gdy badanie dotyczy teoretycz-
nej populacji osób, to rozpatrujemy nieskończenie wiele wyników prawdziwych nej populacji osób, to rozpatrujemy nieskończenie wiele wyników prawdziwych
(rys. 4.3., część b)), których średnia charakteryzuje przeciętne nasilenie cechy (rys. 4.3., część b)), których średnia charakteryzuje przeciętne nasilenie cechy
w tej populacji. Wariancja natomiast informuje nas o stopniu zróżnicowania osób w tej populacji. Wariancja natomiast informuje nas o stopniu zróżnicowania osób
pod względem badanej cechy, a więc opisuje rzeczywiste różnice indywidualne. pod względem badanej cechy, a więc opisuje rzeczywiste różnice indywidualne.
Rozkład wyników otrzymanych od wszystkich osób z teoretycznej populacji Rozkład wyników otrzymanych od wszystkich osób z teoretycznej populacji
(rys. 4.3., część a)) będzie miał średnią równą średniej wyników prawdziwych (rys. 4.3., część a)) będzie miał średnią równą średniej wyników prawdziwych
tych osób, co wynika z założenia 1 klasycznej teorii rzetelności i zostało wcze- tych osób, co wynika z założenia 1 klasycznej teorii rzetelności i zostało wcze-
śniej zapisane w równaniu 7. Wariancja takiego rozkładu jest zwykle większa od śniej zapisane w równaniu 7. Wariancja takiego rozkładu jest zwykle większa od
wariancji w rozkładzie wyników prawdziwych, bo oprócz rzeczywistych róż- wariancji w rozkładzie wyników prawdziwych, bo oprócz rzeczywistych róż-
nic indywidualnych w zakresie mierzonej właściwości obejmuje również zróż- nic indywidualnych w zakresie mierzonej właściwości obejmuje również zróż-
nicowanie losowe wprowadzane przez błąd pomiaru. Watro więc pamiętać, że nicowanie losowe wprowadzane przez błąd pomiaru. Watro więc pamiętać, że
analizując zróżnicowanie międzyosobnicze na podstawie wyników otrzymanych analizując zróżnicowanie międzyosobnicze na podstawie wyników otrzymanych
z testu ulegamy pewnemu złudzeniu, bo rzeczywiste zróżnicowanie w zakresie z testu ulegamy pewnemu złudzeniu, bo rzeczywiste zróżnicowanie w zakresie
mierzonej cechy jest zwykle nieco mniejsze. Jest to konsekwencja założenia 2 mierzonej cechy jest zwykle nieco mniejsze. Jest to konsekwencja założenia 2
klasycznej teorii rzetelności, które zostało wcześniej zapisane w równaniu 12. klasycznej teorii rzetelności, które zostało wcześniej zapisane w równaniu 12.
Wariancja rozkładu wyników otrzymanych (rys. 4.3., część a)) jest sumą warian- Wariancja rozkładu wyników otrzymanych (rys. 4.3., część a)) jest sumą warian-
cji z dwóch pozostałych rozkładów – wyników prawdziwych (rys. 4.3., część b)) cji z dwóch pozostałych rozkładów – wyników prawdziwych (rys. 4.3., część b))
i błędów (rys. 4.3., część c)). i błędów (rys. 4.3., część c)).
Rozkład błędów pomiaru dla teoretycznej populacji osób będzie miał dokład- Rozkład błędów pomiaru dla teoretycznej populacji osób będzie miał dokład-
nie taki sam kształt i parametry, jak rozkład nieskończonej liczby błędów pocho- nie taki sam kształt i parametry, jak rozkład nieskończonej liczby błędów pocho-
dzących z pomiaru tym samym testem nasilenia cechy u jakiejkolwiek pojedyn- dzących z pomiaru tym samym testem nasilenia cechy u jakiejkolwiek pojedyn-
czej osoby. W klasycznej teorii rzetelności przyjmuje się, że nieskończenie wiele czej osoby. W klasycznej teorii rzetelności przyjmuje się, że nieskończenie wiele
losowych błędów pomiaru zawsze ma średnią arytmetyczną równą zero – opisuje losowych błędów pomiaru zawsze ma średnią arytmetyczną równą zero – opisuje
to równanie 3. Natomiast odchylenie standardowe takich błędów jest niezależne to równanie 3. Natomiast odchylenie standardowe takich błędów jest niezależne
od osoby czy od populacji, a zależne od narzędzia pomiarowego. Można więc od osoby czy od populacji, a zależne od narzędzia pomiarowego. Można więc
zakładać, że różne osoby badane tym samym testem będą miały taki sam rozkład zakładać, że różne osoby badane tym samym testem będą miały taki sam rozkład
błędów, ale będzie on różny dla różnych testów. Tak więc rozkład błędów dla błędów, ale będzie on różny dla różnych testów. Tak więc rozkład błędów dla
populacji osób z rys. 4.3., część c) będzie dokładnie taki sam, jak rozkład błędów populacji osób z rys. 4.3., część c) będzie dokładnie taki sam, jak rozkład błędów
dla pojedynczej osoby z rys. 4.2., część b). dla pojedynczej osoby z rys. 4.2., część b).
76 76

Rysunek 4.3. Rozkłady wyników i błędów z pomiarów tym samym testem nasilenia cechy Rysunek 4.3. Rozkłady wyników i błędów z pomiarów tym samym testem nasilenia cechy
u wszystkich osób z nieskończenie wielkiej populacji. u wszystkich osób z nieskończenie wielkiej populacji.
a) Rozkład wyników otrzymanych. Średnia rozkładu jest wskaźnikiem przeciętnego nasi a) Rozkład wyników otrzymanych. Średnia rozkładu jest wskaźnikiem przeciętnego nasi
lenia cechy w populacji, a odchylenie standardowe informuje o wielkości obserwowa lenia cechy w populacji, a odchylenie standardowe informuje o wielkości obserwowa
nych różnic indywidualnych. nych różnic indywidualnych.
b) Rozkład wyników prawdziwych. Średnia rozkładu jest wskaźnikiem przeciętnego nasi b) Rozkład wyników prawdziwych. Średnia rozkładu jest wskaźnikiem przeciętnego nasi
lenia cechy w populacji, a odchylenie standardowe informuje o wielkości rzeczywistych lenia cechy w populacji, a odchylenie standardowe informuje o wielkości rzeczywistych
różnic indywidualnych. różnic indywidualnych.
c) Rozkład losowych błędów pomiaru. Średnia rozkładu wynosi zero, a odchylenie stan c) Rozkład losowych błędów pomiaru. Średnia rozkładu wynosi zero, a odchylenie stan
dardowe to standardowy błąd pomiaru. Kształt i parametry tego rozkładu są dokładnie dardowe to standardowy błąd pomiaru. Kształt i parametry tego rozkładu są dokładnie
takie same, jak w rozkładzie błędów dla jednej osoby przedstawionym na rys. 4.2., takie same, jak w rozkładzie błędów dla jednej osoby przedstawionym na rys. 4.2.,
część b). część b).
4.5. Teoretyczna definicja rzetelności testu 4.5. Teoretyczna definicja rzetelności testu
Rzetelność testu to pewna wielkość, która odzwierciedla dokładność pomia- Rzetelność testu to pewna wielkość, która odzwierciedla dokładność pomia-
ru narzędziem. Im większa rzetelność, tym dokładniejszy pomiar. Gdy test jest ru narzędziem. Im większa rzetelność, tym dokładniejszy pomiar. Gdy test jest
bardzo rzetelny (ma wysoką rzetelność), można się spodziewać, że zwykle wy- bardzo rzetelny (ma wysoką rzetelność), można się spodziewać, że zwykle wy-
77 77

niki otrzymane z pomiaru będą leżały bardzo blisko wyników prawdziwych. Nie niki otrzymane z pomiaru będą leżały bardzo blisko wyników prawdziwych. Nie
oznacza to jednak, że w konkretnym pomiarze błąd będzie mały, bo ma on losowy oznacza to jednak, że w konkretnym pomiarze błąd będzie mały, bo ma on losowy
charakter i teoretycznie może przyjąć każdą wartość. Nawet testy o bardzo wyso- charakter i teoretycznie może przyjąć każdą wartość. Nawet testy o bardzo wyso-
kiej rzetelności mogą od czasu do czasu wprowadzać duże błędy, jednak im wyż- kiej rzetelności mogą od czasu do czasu wprowadzać duże błędy, jednak im wyż-
sza rzetelność testu, tym większe prawdopodobieństwo, że błąd w konkretnym sza rzetelność testu, tym większe prawdopodobieństwo, że błąd w konkretnym
pomiarze będzie jednak stosunkowo mały. Jest to prawdopodobieństwo związane pomiarze będzie jednak stosunkowo mały. Jest to prawdopodobieństwo związane
z tzw. przedziałem ufności, o którym jest mowa w innej części tej książki (por. z tzw. przedziałem ufności, o którym jest mowa w innej części tej książki (por.
rozdział 6.1.2.). rozdział 6.1.2.).
W klasycznej teorii testów rzetelność definiuje się jako proporcję wariancji W klasycznej teorii testów rzetelność definiuje się jako proporcję wariancji
wyników prawdziwych do wariancji wyników otrzymanych od osób z nieskoń- wyników prawdziwych do wariancji wyników otrzymanych od osób z nieskoń-
czenie wielkiej populacji (równanie 18). czenie wielkiej populacji (równanie 18).
σ T2 σ T2
ρtt = (18) ρtt = (18)
σ X2 σ X2
Rzetelność testu – proporcja wariancji wyników prawdziwych do wariancji wyników Rzetelność testu – proporcja wariancji wyników prawdziwych do wariancji wyników
otrzymanych. Np. rzetelność równa 0,80 oznacza, że 80% zróżnicowania wyników otrzymanych. Np. rzetelność równa 0,80 oznacza, że 80% zróżnicowania wyników
uzyskanych z badania testem spowodowana została rzeczywistymi różnicami między uzyskanych z badania testem spowodowana została rzeczywistymi różnicami między
ludźmi, a pozostałe 20%, to efekt błędu pomiaru. ludźmi, a pozostałe 20%, to efekt błędu pomiaru.
Wariancja prawdziwa może być tu rozumiana jako odzwierciedlenie rzeczy- Wariancja prawdziwa może być tu rozumiana jako odzwierciedlenie rzeczy-
wistego zróżnicowania mierzonej cechy w populacji. Wariancja otrzymana na- wistego zróżnicowania mierzonej cechy w populacji. Wariancja otrzymana na-
tomiast może być traktowana jak wariancja całkowita obejmująca i wariancję tomiast może być traktowana jak wariancja całkowita obejmująca i wariancję
prawdziwą, i wariancję błędu (równanie 12), czyli wszystkie możliwe źródła zróż- prawdziwą, i wariancję błędu (równanie 12), czyli wszystkie możliwe źródła zróż-
nicowania wyników pomiaru. Rzetelność oznacza zatem proporcję, jaką stanowią nicowania wyników pomiaru. Rzetelność oznacza zatem proporcję, jaką stanowią
rzeczywiste różnice indywidualne w obserwowanym zróżnicowaniu całkowitym rzeczywiste różnice indywidualne w obserwowanym zróżnicowaniu całkowitym
wyników testowych. Uzupełniająca wobec niej będzie proporcja zróżnicowania wyników testowych. Uzupełniająca wobec niej będzie proporcja zróżnicowania
wynikającego z błędu w obserwowanym zróżnicowaniu całkowitym. Jeśli pierw- wynikającego z błędu w obserwowanym zróżnicowaniu całkowitym. Jeśli pierw-
sza z nich będzie duża, druga będzie mała. Jeśli duża jest rzetelność testu, to zróż- sza z nich będzie duża, druga będzie mała. Jeśli duża jest rzetelność testu, to zróż-
nicowanie całkowite wyników otrzymanych w znacznym stopniu spowodowane nicowanie całkowite wyników otrzymanych w znacznym stopniu spowodowane
będzie rzeczywistymi różnicami indywidualnymi, a w małym stopniu błędem będzie rzeczywistymi różnicami indywidualnymi, a w małym stopniu błędem
pomiaru. Proporcję wariancji błędów do wariancji otrzymanej nazwać można pomiaru. Proporcję wariancji błędów do wariancji otrzymanej nazwać można
„przeciwrzetelnością”, bo im jest większa, tym mniej rzetelny test. Pozwala ona „przeciwrzetelnością”, bo im jest większa, tym mniej rzetelny test. Pozwala ona
sformułować alternatywną definicję rzetelności (równanie 19). sformułować alternatywną definicję rzetelności (równanie 19).
σ E2 σ E2
ρtt = 1 − (19) ρtt = 1 − (19)
σ X2 σ X2
78 78

Jeśli test jest idealnie dokładny, jego rzetelność wynosi 1. Oznacza to, że cał- Jeśli test jest idealnie dokładny, jego rzetelność wynosi 1. Oznacza to, że cał-
kowite zróżnicowanie wyników pomiaru testem (mianownik równania 18) spo- kowite zróżnicowanie wyników pomiaru testem (mianownik równania 18) spo-
wodowane jest wyłącznie rzeczywistymi różnicami indywidualnymi w zakresie wodowane jest wyłącznie rzeczywistymi różnicami indywidualnymi w zakresie
mierzonej cechy (licznik równania 18). Tym samym zróżnicowanie wyników mierzonej cechy (licznik równania 18). Tym samym zróżnicowanie wyników
spowodowane błędami całkowicie znika. W takim przypadku można też powie- spowodowane błędami całkowicie znika. W takim przypadku można też powie-
dzieć, że każdy wynik otrzymany jest równy prawdziwemu. dzieć, że każdy wynik otrzymany jest równy prawdziwemu.
Jeśli test jest całkowicie niedokładny, jego rzetelność wynosi 0. Wtedy ob- Jeśli test jest całkowicie niedokładny, jego rzetelność wynosi 0. Wtedy ob-
serwowane zróżnicowanie wyników otrzymanych spowodowane jest wyłącznie serwowane zróżnicowanie wyników otrzymanych spowodowane jest wyłącznie
błędem pomiaru. W żadnym stopniu nie oddaje ono zróżnicowania pod wzglę- błędem pomiaru. W żadnym stopniu nie oddaje ono zróżnicowania pod wzglę-
dem mierzonej cechy. Pomiar takim testem można porównać do przypisywania dem mierzonej cechy. Pomiar takim testem można porównać do przypisywania
osobom liczb uzyskiwanych z rzutów kostką do gry, czyli wynik pomiaru byłby osobom liczb uzyskiwanych z rzutów kostką do gry, czyli wynik pomiaru byłby
całkowicie przypadkowy. całkowicie przypadkowy.
Jeśli test jest umiarkowanie dokładny, to jego rzetelność może wynosić np. Jeśli test jest umiarkowanie dokładny, to jego rzetelność może wynosić np.
0,80. Oznacza to, że 80% całkowitego zróżnicowania wyników uzyskiwanych 0,80. Oznacza to, że 80% całkowitego zróżnicowania wyników uzyskiwanych
przy pomiarze tym testem można wyjaśnić rzeczywistymi różnicami między przy pomiarze tym testem można wyjaśnić rzeczywistymi różnicami między
ludźmi, a 20% tego zróżnicowania spowodowane jest błędem pomiaru. Te pro- ludźmi, a 20% tego zróżnicowania spowodowane jest błędem pomiaru. Te pro-
porcje dotyczą wyłącznie wariancji i nieuzasadnione jest stwierdzenie, że 80% porcje dotyczą wyłącznie wariancji i nieuzasadnione jest stwierdzenie, że 80%
wyników otrzymanych równe jest wynikom prawdziwym. wyników otrzymanych równe jest wynikom prawdziwym.
Z równania 18 wynika dość ważna praktyczna konkluzja. Rzetelność testu bę- Z równania 18 wynika dość ważna praktyczna konkluzja. Rzetelność testu bę-
dzie większa w populacji o dużej wariancji wyników prawdziwych (populacja dzie większa w populacji o dużej wariancji wyników prawdziwych (populacja
heterogeniczna) niż w populacji o małej wariancji wyników prawdziwych (popu- heterogeniczna) niż w populacji o małej wariancji wyników prawdziwych (popu-
lacja homogeniczna). Jest tak dlatego, że zgodnie z założeniami teorii Gulliksena lacja homogeniczna). Jest tak dlatego, że zgodnie z założeniami teorii Gulliksena
te dwie populacje będą miały taką samą wariancję błędu. Wariancja błędu nie za- te dwie populacje będą miały taką samą wariancję błędu. Wariancja błędu nie za-
leży od populacji. Zatem spadek wariancji wyników prawdziwych pociągnie za leży od populacji. Zatem spadek wariancji wyników prawdziwych pociągnie za
sobą oczywiście spadek wariancji wyników otrzymanych, ale nieproporcjonalnie sobą oczywiście spadek wariancji wyników otrzymanych, ale nieproporcjonalnie
mniejszy. W konsekwencji obniżenia wariancji wyników prawdziwych licznik mniejszy. W konsekwencji obniżenia wariancji wyników prawdziwych licznik
równania 18 zmniejszy się bardziej niż mianownik. równania 18 zmniejszy się bardziej niż mianownik.
Jeszcze wyraźniej widać to na podstawie równania 19. W populacji o dużej Jeszcze wyraźniej widać to na podstawie równania 19. W populacji o dużej
wariancji wyników prawdziwych (heterogenicznej) mianownik w równaniu (wa- wariancji wyników prawdziwych (heterogenicznej) mianownik w równaniu (wa-
riancja wyników otrzymanych) będzie duży. W populacji homogenicznej ten riancja wyników otrzymanych) będzie duży. W populacji homogenicznej ten
mianownik będzie mały. Natomiast w obu tych populacjach licznik (wariancja mianownik będzie mały. Natomiast w obu tych populacjach licznik (wariancja
błędu) pozostanie bez zmian. Tak więc rzetelność będzie większa w populacji he- błędu) pozostanie bez zmian. Tak więc rzetelność będzie większa w populacji he-
terogenicznej niż w populacji homogenicznej. Badacze i autorzy testów psycho- terogenicznej niż w populacji homogenicznej. Badacze i autorzy testów psycho-
logicznych powinni starać się więc o to, by próbki na podstawie których szacuje logicznych powinni starać się więc o to, by próbki na podstawie których szacuje
się rzetelność były możliwie zróżnicowane. się rzetelność były możliwie zróżnicowane.
Rzetelność testu empirycznie określa się na podstawie tzw. współczynnika Rzetelność testu empirycznie określa się na podstawie tzw. współczynnika
rzetelności (rtt) opisywanego w innej części tej książki. rzetelności (rtt) opisywanego w innej części tej książki.
4.6. Korelacja wyników otrzymanych i prawdziwych 4.6. Korelacja wyników otrzymanych i prawdziwych
Sposób rozumienia rzetelności testu przedstawiony w poprzednim podrozdzia- Sposób rozumienia rzetelności testu przedstawiony w poprzednim podrozdzia-
le bliski jest typowej definicji tzw. współczynnika determinacji. Pojęcie to w ana- 79 le bliski jest typowej definicji tzw. współczynnika determinacji. Pojęcie to w ana- 79

lizie regresji określa proporcję wariancji z jakichś względów ważnej do całkowi- lizie regresji określa proporcję wariancji z jakichś względów ważnej do całkowi-
tej wariancji wyników. W kontekście rzetelności za wariancję ważną uznaje się tej wariancji wyników. W kontekście rzetelności za wariancję ważną uznaje się
wariancję wyników prawdziwych, a za wariancję całkowitą wariancję wyników wariancję wyników prawdziwych, a za wariancję całkowitą wariancję wyników
otrzymanych. Rzetelność jest więc współczynnikiem determinacji dla wyników otrzymanych. Rzetelność jest więc współczynnikiem determinacji dla wyników
prawdziwych i otrzymanych. Pierwiastek ze współczynnika determinacji pozwa- prawdziwych i otrzymanych. Pierwiastek ze współczynnika determinacji pozwa-
la wyznaczyć korelację. Zatem pierwiastek z rzetelności testu daje korelację mię- la wyznaczyć korelację. Zatem pierwiastek z rzetelności testu daje korelację mię-
dzy wynikami prawdziwymi i otrzymanymi (równanie 20). Interpretacja takiej dzy wynikami prawdziwymi i otrzymanymi (równanie 20). Interpretacja takiej
korelacji powinna być jasna – im jest ona większa, im większa zgodność między korelacji powinna być jasna – im jest ona większa, im większa zgodność między
wynikami prawdziwymi i otrzymanymi, tym większa dokładność testu. wynikami prawdziwymi i otrzymanymi, tym większa dokładność testu.
Czasami zastosowanie znajduje estymator omawianej tu korelacji oznaczany Czasami zastosowanie znajduje estymator omawianej tu korelacji oznaczany
symbolem rTX. Jest to tzw. wskaźnik rzetelności. symbolem rTX. Jest to tzw. wskaźnik rzetelności.
σ T2 σ T2
ρTX = ρtt = (20) ρTX = ρtt = (20)
σ X2 σ X2
4.7. Standardowy błąd pomiaru 4.7. Standardowy błąd pomiaru

Wariancja błędów jest jednym z ważniejszych pojęć w psychometrii. Wariancja błędów jest jednym z ważniejszych pojęć w psychometrii.
Wspominałem wcześniej, że jest ona bezpośrednio związana z rzetelnością te- Wspominałem wcześniej, że jest ona bezpośrednio związana z rzetelnością te-
stu – im większa rzetelność, tym mniejszy udział ma wariancja błędów w wa- stu – im większa rzetelność, tym mniejszy udział ma wariancja błędów w wa-
riancji wyników otrzymanych (wariancji całkowitej). Jeśli test jest rzetelny, to riancji wyników otrzymanych (wariancji całkowitej). Jeśli test jest rzetelny, to
wyniki otrzymane osób leżą zwykle dość blisko wyników prawdziwych. W takim wyniki otrzymane osób leżą zwykle dość blisko wyników prawdziwych. W takim
przypadku błędy pomiaru, rozumiane jako odległości wyników prawdziwych od przypadku błędy pomiaru, rozumiane jako odległości wyników prawdziwych od
otrzymanych, są stosunkowo nieduże. Jeśli błędy są nieduże, oznacza to, że są otrzymanych, są stosunkowo nieduże. Jeśli błędy są nieduże, oznacza to, że są
bliskie zeru, czyli średniej (równanie 3 – średnia nieskończonej liczby błędów bliskie zeru, czyli średniej (równanie 3 – średnia nieskończonej liczby błędów
wynosi zero). To z kolei oznacza, że błędy pomiaru przy wysokiej rzetelności wynosi zero). To z kolei oznacza, że błędy pomiaru przy wysokiej rzetelności
mają małą wariancję. mają małą wariancję.
Jeśli rzetelność testu jest idealna, test jest bezbłędny. Wszystkie błędy pomiaru Jeśli rzetelność testu jest idealna, test jest bezbłędny. Wszystkie błędy pomiaru
są wtedy równe sobie i równe zero. W takich teoretycznych warunkach wariancja są wtedy równe sobie i równe zero. W takich teoretycznych warunkach wariancja
błędów jest oczywiście równa zero, a rzetelność wynosząca jeden informuje nas błędów jest oczywiście równa zero, a rzetelność wynosząca jeden informuje nas
o tym, że całe zróżnicowanie wyników w teście to zróżnicowanie prawdziwe. o tym, że całe zróżnicowanie wyników w teście to zróżnicowanie prawdziwe.
Jeśli rzetelność testu wynosi zero, oznacza to, że całe zróżnicowanie wyników Jeśli rzetelność testu wynosi zero, oznacza to, że całe zróżnicowanie wyników
otrzymanych z badania testem jest spowodowane błędem pomiaru. W takiej hipo- otrzymanych z badania testem jest spowodowane błędem pomiaru. W takiej hipo-
tetycznej sytuacji można powiedzieć, że wariancja błędów jest równa wariancji tetycznej sytuacji można powiedzieć, że wariancja błędów jest równa wariancji
wyników otrzymanych, a wyniki badania w żadnym stopniu nie odzwierciedlają wyników otrzymanych, a wyniki badania w żadnym stopniu nie odzwierciedlają
rzeczywistego nasilenia cechy. rzeczywistego nasilenia cechy.
Wariancję błędów bardzo łatwo zdefiniować za pomocą rzetelności i wariancji Wariancję błędów bardzo łatwo zdefiniować za pomocą rzetelności i wariancji
otrzymanej z równania 19. Powstaje w ten sposób równanie 21. otrzymanej z równania 19. Powstaje w ten sposób równanie 21.
80 80

σ E2 = σ X2 (1 − ρtt ) (21) σ E2 = σ X2 (1 − ρtt ) (21)
W pewnych warunkach łatwiej jest się posługiwać wielkością odchylenia stan- W pewnych warunkach łatwiej jest się posługiwać wielkością odchylenia stan-
dardowego niż wariancji – stąd równanie 22, które stanowi jednocześnie defini- dardowego niż wariancji – stąd równanie 22, które stanowi jednocześnie defini-
cję tzw. standardowego błędu pomiaru. cję tzw. standardowego błędu pomiaru.
σ E = σ X 1 − ρtt (22) σ E = σ X 1 − ρtt (22)
Standardowy błąd pomiaru ma olbrzymie zastosowanie praktyczne np. przy Standardowy błąd pomiaru ma olbrzymie zastosowanie praktyczne np. przy
obliczaniu tzw. przedziałów ufności. Jego wartość empiryczną zwykle wyznacza obliczaniu tzw. przedziałów ufności. Jego wartość empiryczną zwykle wyznacza
się na podstawie wartości odchylenia standardowego wyników i współczynnika się na podstawie wartości odchylenia standardowego wyników i współczynnika
rzetelności, uzyskanych w próbie osób reprezentatywnej dla populacji, do bada- rzetelności, uzyskanych w próbie osób reprezentatywnej dla populacji, do bada-
nia której ma służyć test. Takie wartości zwykle zapisywane są w podręczniku do nia której ma służyć test. Takie wartości zwykle zapisywane są w podręczniku do
każdego testu. Wzór służący do obliczania estymatora standardowego błędu po- każdego testu. Wzór służący do obliczania estymatora standardowego błędu po-
miaru został zapisany w równaniu 23. Często wielkość tę oznacza się jako SEM miaru został zapisany w równaniu 23. Często wielkość tę oznacza się jako SEM
(ang. standard error of measurement). (ang. standard error of measurement).
sE = s X 1 − rtt (23) sE = s X 1 − rtt (23)
Jednostką standardowego błędu pomiaru jest naturalna jednostka wyników Jednostką standardowego błędu pomiaru jest naturalna jednostka wyników
otrzymanych w teście. Jeśli więc przedmiotem pomiaru jest inteligencja, a jed- otrzymanych w teście. Jeśli więc przedmiotem pomiaru jest inteligencja, a jed-
nostką są punkty ilorazu inteligencji, to standardowy błąd pomiaru jest również nostką są punkty ilorazu inteligencji, to standardowy błąd pomiaru jest również
wyrażany w punktach ilorazu inteligencji. Wiedząc, że standardowy błąd pomia- wyrażany w punktach ilorazu inteligencji. Wiedząc, że standardowy błąd pomia-
ru to odchylenie standardowe w rozkładzie błędów [rys. 4.2., część b) i 4.3., ru to odchylenie standardowe w rozkładzie błędów [rys. 4.2., część b) i 4.3.,
część c)] oraz w rozkładzie wszystkich potencjalnych wyników otrzymanych część c)] oraz w rozkładzie wszystkich potencjalnych wyników otrzymanych
jednej osoby [rys. 4.2., część a)] bardzo łatwo nadać mu interpretację – standar- jednej osoby [rys. 4.2., część a)] bardzo łatwo nadać mu interpretację – standar-
dowy błąd pomiaru określa przeciętną odległość błędów od zera lub przecięt- dowy błąd pomiaru określa przeciętną odległość błędów od zera lub przecięt-
ną odległość potencjalnych wyników otrzymanych jednej osoby od jej wyniku ną odległość potencjalnych wyników otrzymanych jednej osoby od jej wyniku
prawdziwego. Im większy standardowy błąd pomiaru, tym bardziej płaskie będą prawdziwego. Im większy standardowy błąd pomiaru, tym bardziej płaskie będą
rozkłady z rys. 4.3., części a) i b) oraz 4.3., część c). rozkłady z rys. 4.3., części a) i b) oraz 4.3., część c).
Standardowy błąd pomiaru (σE, sE lub SEM) – odchylenie standardowe w rozkła- Standardowy błąd pomiaru (σE, sE lub SEM) – odchylenie standardowe w rozkła-
dzie błędów lub w rozkładzie wyników otrzymanych z niezależnych pomiarów od dzie błędów lub w rozkładzie wyników otrzymanych z niezależnych pomiarów od
jednej osoby. Jest to przeciętna odległość błędów pomiaru od zera lub przeciętna odle- jednej osoby. Jest to przeciętna odległość błędów pomiaru od zera lub przeciętna odle-
głość potencjalnych wyników otrzymanych jednej osoby od jej wyniku prawdziwego. głość potencjalnych wyników otrzymanych jednej osoby od jej wyniku prawdziwego.
Wielkość tę opisują równania 22 i 23. Wielkość tę opisują równania 22 i 23.
Z równania 22 wynika, że wielkość standardowego błędu pomiaru zależy od Z równania 22 wynika, że wielkość standardowego błędu pomiaru zależy od
dwóch wartości: rzetelności testu i odchylenia standardowego wyników otrzyma- 81 dwóch wartości: rzetelności testu i odchylenia standardowego wyników otrzyma- 81

nych. Tak więc im bardziej dokładny test oraz im mniejsze zróżnicowanie wy- nych. Tak więc im bardziej dokładny test oraz im mniejsze zróżnicowanie wy-
ników w populacji, tym mniejszy standardowy błąd pomiaru. Jednak rzetelność ników w populacji, tym mniejszy standardowy błąd pomiaru. Jednak rzetelność
testu pozostaje w ścisłym związku z jednolitością populacji i reprezentującej ją testu pozostaje w ścisłym związku z jednolitością populacji i reprezentującej ją
próby. Im mniejsze odchylenie standardowe wyników, tym niższa rzetelność. próby. Im mniejsze odchylenie standardowe wyników, tym niższa rzetelność.
Tak więc obniżanie zróżnicowania w próbie, w celu zredukowania standardo- Tak więc obniżanie zróżnicowania w próbie, w celu zredukowania standardo-
wego błędu pomiaru, nie przyniesie oczekiwanego efektu. Za sprawą obniżonej wego błędu pomiaru, nie przyniesie oczekiwanego efektu. Za sprawą obniżonej
rzetelności testu standardowy błąd pomiaru pozostanie najprawdopodobniej nie- rzetelności testu standardowy błąd pomiaru pozostanie najprawdopodobniej nie-
zmieniony. Jedyny więc pewny i sensowny sposób na zmniejszenie tego błędu to zmieniony. Jedyny więc pewny i sensowny sposób na zmniejszenie tego błędu to
konstruowanie i wykorzystywanie rzetelnych testów. konstruowanie i wykorzystywanie rzetelnych testów.
Zalecana literatura Zalecana literatura

Brzeziński J. (1996). Metodologia badań psychologicznych. Warszawa: PWN. Brzeziński J. (1996). Metodologia badań psychologicznych. Warszawa: PWN.
(Str. 458–461). (Str. 458–461).
Ferguson G.A., Takane, Y. (1999). Analiza statystyczna w psychologii i pedagogice. Ferguson G.A., Takane, Y. (1999). Analiza statystyczna w psychologii i pedagogice.
Warszawa: PWN. (Str. 489–592). Warszawa: PWN. (Str. 489–592).
Hornowska E. (2005). Testy psychologiczne. Teoria i praktyka. Wydawnictwo Scholar. Hornowska E. (2005). Testy psychologiczne. Teoria i praktyka. Wydawnictwo Scholar.
(Str. 41–49). (Str. 41–49).
Magnusson D. (1991). Wprowadzenie do teorii testów. Warszawa: PWN. (Wydanie 2: Magnusson D. (1991). Wprowadzenie do teorii testów. Warszawa: PWN. (Wydanie 2:
str. 92–134). str. 92–134).
Literatura dla bardziej ambitnych Literatura dla bardziej ambitnych

Aranowska E. (2005). Pomiar ilościowy w psychologii. Warszawa: Scholar. (Str. 17–31 Aranowska E. (2005). Pomiar ilościowy w psychologii. Warszawa: Scholar. (Str. 17–31
i 51–54). i 51–54).
Gulliksen H. (1950). Theory of mental tests. New York: John Wiley & Sons. Gulliksen H. (1950). Theory of mental tests. New York: John Wiley & Sons.
Nowakowska M. (1975). Psychologia ilościowa z elementami naukometrii. Warszawa: Nowakowska M. (1975). Psychologia ilościowa z elementami naukometrii. Warszawa:
PWN. (Str. 22–25). PWN. (Str. 22–25).
Zadania Zadania
1. 1.
Wariancja wyników otrzymanych w teoretycznej populacji wynosi 16, a warian- Wariancja wyników otrzymanych w teoretycznej populacji wynosi 16, a warian-
cja błędów 3. Ile wynosi rzetelność testu i jaki procent zróżnicowania wyników cja błędów 3. Ile wynosi rzetelność testu i jaki procent zróżnicowania wyników
otrzymanych to zróżnicowanie prawdziwe między osobami? otrzymanych to zróżnicowanie prawdziwe między osobami?
2. 2.
Rzetelność testu jest równa 0,67. Jaka byłaby wariancja wyników otrzymanych Rzetelność testu jest równa 0,67. Jaka byłaby wariancja wyników otrzymanych
w teoretycznej populacji, gdyby wariancja wyników prawdziwych wynosiła 13? w teoretycznej populacji, gdyby wariancja wyników prawdziwych wynosiła 13?
3. 3.
Nieskończenie wiele niezależnych badań pojedynczej osoby testem o rzetelno- Nieskończenie wiele niezależnych badań pojedynczej osoby testem o rzetelno-
ści 0,79 dało wyniki otrzymane o wariancji 36. Oblicz odchylenie standardowe ści 0,79 dało wyniki otrzymane o wariancji 36. Oblicz odchylenie standardowe
w rozkładzie błędów. w rozkładzie błędów.
82 82

4. 4.
Badanie teoretycznej populacji testem o rzetelności 0,82 dało wyniki otrzymane Badanie teoretycznej populacji testem o rzetelności 0,82 dało wyniki otrzymane
o wariancji 28. Oblicz odchylenie standardowe w rozkładzie błędów. o wariancji 28. Oblicz odchylenie standardowe w rozkładzie błędów.
5. 5.
Hipotetyczny wynik prawdziwy osoby wynosi 24. Badanie teoretycznej popula- Hipotetyczny wynik prawdziwy osoby wynosi 24. Badanie teoretycznej popula-
cji, z której pochodzi ta osoba testem o rzetelności 0,87 dało odchylenie standar- cji, z której pochodzi ta osoba testem o rzetelności 0,87 dało odchylenie standar-
dowe wyników otrzymanych 4,5. Jakie jest prawdopodobieństwo, że w realnym dowe wyników otrzymanych 4,5. Jakie jest prawdopodobieństwo, że w realnym
badaniu tym testem wynik otrzymany tej osoby będzie większy niż 27? badaniu tym testem wynik otrzymany tej osoby będzie większy niż 27?
6. 6.
Rzetelność testu wynosi 0,74. Badanie tym testem osób z teoretycznej populacji Rzetelność testu wynosi 0,74. Badanie tym testem osób z teoretycznej populacji
dało odchylenie standardowe wyników otrzymanych równe 4,8. Jaki procent błę- dało odchylenie standardowe wyników otrzymanych równe 4,8. Jaki procent błę-
dów pomiaru nie będzie wykraczał poza granice przedziału od –2 do +2? dów pomiaru nie będzie wykraczał poza granice przedziału od –2 do +2?
7. 7.
Jaka musi być wariancja wszystkich potencjalnych wyników otrzymanych po- Jaka musi być wariancja wszystkich potencjalnych wyników otrzymanych po-
jedynczej osoby, aby 99% najbardziej typowych dla niej wyników otrzymanych jedynczej osoby, aby 99% najbardziej typowych dla niej wyników otrzymanych
w teście znajdowało się w granicach od 95 do 105 punktów? w teście znajdowało się w granicach od 95 do 105 punktów?
Odpowiedzi do zadań Odpowiedzi do zadań

1. ρtt=0,875. Zróżnicowanie prawdziwe to 87,5% zróżnicowania otrzymanego. 1. ρtt=0,875. Zróżnicowanie prawdziwe to 87,5% zróżnicowania otrzymanego.
2. σX=19,4. 2. σX=19,4.
3. Pojedyncza osoba, więc σX=σE=6 (pierwiastek z wariancji wyników otrzyma- 3. Pojedyncza osoba, więc σX=σE=6 (pierwiastek z wariancji wyników otrzyma-
nych). nych).
4. Populacja osób, więc σE=2,24 (standardowy błąd pomiaru). 4. Populacja osób, więc σE=2,24 (standardowy błąd pomiaru).
5. σE=1,62; z27=1,85 (wystandaryzowana wartość wyniku 27); P(X>27)=0,032 5. σE=1,62; z27=1,85 (wystandaryzowana wartość wyniku 27); P(X>27)=0,032
(z tablic dystrybuanty rozkładu normalnego). (z tablic dystrybuanty rozkładu normalnego).
6. σE=2,45; z–2 =–0,82 (wystandaryzowana wartość błędu pomiaru –2); z2=0,82 6. σE=2,45; z–2 =–0,82 (wystandaryzowana wartość błędu pomiaru –2); z2=0,82
(wystandaryzowana wartość błędu pomiaru 2); P(–2<E<2)=0,794–0,206=0,588 (wystandaryzowana wartość błędu pomiaru 2); P(–2<E<2)=0,794–0,206=0,588
(z tablic dystrybuanty rozkładu normalnego). (z tablic dystrybuanty rozkładu normalnego).
7. P(zA<X<zB)=0,99; zA=–2,57; zB=2,57 (z tablic dystrybuanty rozkładu normal- 7. P(zA<X<zB)=0,99; zA=–2,57; zB=2,57 (z tablic dystrybuanty rozkładu normal-
nego); pojedyncza osoba, więc σX=σE=1,95. nego); pojedyncza osoba, więc σX=σE=1,95.
83 83

5. Jakich informacji o teście dostarcza 5. Jakich informacji o teście dostarcza
testowanie? testowanie?

Wydział Psychologii, Uniwersytet Warszawski Wydział Psychologii, Uniwersytet Warszawski
5.1. Metody szacowania rzetelności pomiaru testem1 5.1. Metody szacowania rzetelności pomiaru testem1
Z zaprezentowanej w poprzednim rozdziale definicji rzetelności wynika, że Z zaprezentowanej w poprzednim rozdziale definicji rzetelności wynika, że
jest to stosunek wariancji wyników prawdziwych do wariancji wyników otrzy- jest to stosunek wariancji wyników prawdziwych do wariancji wyników otrzy-
manych. Jednakże wynik prawdziwy nie jest wielkością bezpośrednio obserwo- manych. Jednakże wynik prawdziwy nie jest wielkością bezpośrednio obserwo-
walną, więc nie można również obliczyć bezpośrednio wariancji wyników praw- walną, więc nie można również obliczyć bezpośrednio wariancji wyników praw-
dziwych. Oznacza to, że ze wzoru definicyjnego nie da się obliczyć rzetelności dziwych. Oznacza to, że ze wzoru definicyjnego nie da się obliczyć rzetelności
pomiaru konkretnym testem. Aby przezwyciężyć tę trudność, opracowano szereg pomiaru konkretnym testem. Aby przezwyciężyć tę trudność, opracowano szereg
metod, które umożliwiają oszacowanie rzetelności, czyli udziału wariancji wyni- metod, które umożliwiają oszacowanie rzetelności, czyli udziału wariancji wyni-
ków prawdziwych w wariancji wyników otrzymanych. ków prawdziwych w wariancji wyników otrzymanych.
Operacyjnie definiuje się rzetelność jako powtarzalność wyników. Mówiąc Operacyjnie definiuje się rzetelność jako powtarzalność wyników. Mówiąc
inaczej, im wyższa rzetelność pomiaru testem, tym wyniki dwukrotnego badania inaczej, im wyższa rzetelność pomiaru testem, tym wyniki dwukrotnego badania
testem są bardziej zbliżone do siebie, co w praktyce będzie oznaczało wysoką testem są bardziej zbliżone do siebie, co w praktyce będzie oznaczało wysoką
korelację między nimi. Należy zauważyć, że oba pomiary mogą być zależne od korelację między nimi. Należy zauważyć, że oba pomiary mogą być zależne od
siebie, gdyż osoba badana podczas drugiego badania testem będzie już go znała, siebie, gdyż osoba badana podczas drugiego badania testem będzie już go znała,
co może wpływać na rezultaty uzyskane w drugim badaniu, dzięki np. nabyciu co może wpływać na rezultaty uzyskane w drugim badaniu, dzięki np. nabyciu
wprawy lub zapamiętaniu treści pozycji testowych. Aby drugi pomiar był w pełni wprawy lub zapamiętaniu treści pozycji testowych. Aby drugi pomiar był w pełni
niezależnym pomiarem badanej cechy, należałoby zastosować jakąś inną miarę niezależnym pomiarem badanej cechy, należałoby zastosować jakąś inną miarę
tej cechy, tak aby uniknąć efektu zapamiętywania. Miara ta jednak nie może mieć tej cechy, tak aby uniknąć efektu zapamiętywania. Miara ta jednak nie może mieć
całkowicie odrębnej formy lub odwoływać się do innych źródeł informacji, cho- całkowicie odrębnej formy lub odwoływać się do innych źródeł informacji, cho-
dzi przecież o sprawdzenie powtarzalności wyników uzyskanych w konkretny dzi przecież o sprawdzenie powtarzalności wyników uzyskanych w konkretny
sposób. Najlepiej byłoby mieć dwa testy, mierzące ten sam konstrukt teoretycz- sposób. Najlepiej byłoby mieć dwa testy, mierzące ten sam konstrukt teoretycz-
ny, w których treść pozycji testowych jest odmienna. Testy takie nazywane są ny, w których treść pozycji testowych jest odmienna. Testy takie nazywane są
testami równoległymi. Oprócz pomiaru jednakowej cechy, testy takie powin- testami równoległymi. Oprócz pomiaru jednakowej cechy, testy takie powin-
ny spełniać szereg formalnych warunków, aby uzyskany współczynnik korelacji ny spełniać szereg formalnych warunków, aby uzyskany współczynnik korelacji
między pomiarami można było interpretować jako rzetelność testu. między pomiarami można było interpretować jako rzetelność testu.
Dalej opisane są praktyczne metody szacowania rzetelności. W niniejszym Dalej opisane są praktyczne metody szacowania rzetelności. W niniejszym
rozdziale zostaną omówione takie metody, jak: dwukrotne powtarzanie pomiaru rozdziale zostaną omówione takie metody, jak: dwukrotne powtarzanie pomiaru
(wiarygodność testu i stabilność bezwzględna), metoda wersji alternatywnych, (wiarygodność testu i stabilność bezwzględna), metoda wersji alternatywnych,
metoda połówkowa, zgodność wewnętrzna i metoda sędziów kompetentnych. metoda połówkowa, zgodność wewnętrzna i metoda sędziów kompetentnych.
Założenie o równoległości testów dotyczy każdej z nich. W wypadku badania Założenie o równoległości testów dotyczy każdej z nich. W wypadku badania
wiarygodności testu i stabilności bezwzględnej istotne jest, aby założenie rów- wiarygodności testu i stabilności bezwzględnej istotne jest, aby założenie rów-
noległości było spełnione dla obu pomiarów tym samym testem. Przy wykorzy- noległości było spełnione dla obu pomiarów tym samym testem. Przy wykorzy-
staniu wersji alternatywncyh istotne jest, by założenie równoległości spełniały staniu wersji alternatywncyh istotne jest, by założenie równoległości spełniały
1 1
Przygotowanie rozdziału zostało sfinansowane ze środków na badania własne Wydziału Psycholo- Przygotowanie rozdziału zostało sfinansowane ze środków na badania własne Wydziału Psycholo-
84 gii Uniwersytetu Warszawskiego, BW 180620. 84 gii Uniwersytetu Warszawskiego, BW 180620.

5. Jakich informacji o teście dostarcza testowanie? 5. Jakich informacji o teście dostarcza testowanie?
wersje alternatywne testów. Natomiast w badaniu rzetelności metodą połówkową wersje alternatywne testów. Natomiast w badaniu rzetelności metodą połówkową
jako testy równoległe traktowane są połowy testu, a w zgodności wewnętrznej jako testy równoległe traktowane są połowy testu, a w zgodności wewnętrznej
poszczególne jego pozycje. poszczególne jego pozycje.
Testy równoległe to takie, które spełniają następujące założenia: Testy równoległe to takie, które spełniają następujące założenia:
• X A= X B – średnia wyników w teście A równa się średniej wyników w teście B; • X A= X B – średnia wyników w teście A równa się średniej wyników w teście B;
• SA=SB – odchylenie standardowe w teście A jest takie, jak w teście B; • SA=SB – odchylenie standardowe w teście A jest takie, jak w teście B;
• riAjA=r iBjB – interkorelacje pozycji w teście A są takie, jak w teście B; • riAjA=r iBjB – interkorelacje pozycji w teście A są takie, jak w teście B;
• rAZ=rBZ – korelacja wyników testu A z jakąś zmienną Z jest taka, jak korelacja wy- • rAZ=rBZ – korelacja wyników testu A z jakąś zmienną Z jest taka, jak korelacja wy-
ników testu B z tą samą zmienną Z. ników testu B z tą samą zmienną Z.
Należy zauważyć, że na współczynnik rzetelności, uzyskany przez zastosowa- Należy zauważyć, że na współczynnik rzetelności, uzyskany przez zastosowa-
nie każdej z metod, wpływają różne czynniki. Podstawowym czynnikiem, intere- nie każdej z metod, wpływają różne czynniki. Podstawowym czynnikiem, intere-
sującym badacza jest rzetelność pomiaru testem. Ponadto występują dodatkowe sującym badacza jest rzetelność pomiaru testem. Ponadto występują dodatkowe
czynniki, wpływające na wielkość współczynnika rzetelności, które są związane czynniki, wpływające na wielkość współczynnika rzetelności, które są związane
ze specyfiką konkretnej procedury badania rzetelności. Stanowią one dodatkowe ze specyfiką konkretnej procedury badania rzetelności. Stanowią one dodatkowe
źródło błędu pomiaru, zniekształcając tym samym wielkość współczynników rze- źródło błędu pomiaru, zniekształcając tym samym wielkość współczynników rze-
telności. Ważne jest, aby dobierając metodę badania rzetelności, minimalizować telności. Ważne jest, aby dobierając metodę badania rzetelności, minimalizować
wpływ tych dodatkowych czynników, tak by uzyskany współczynnik rzetelności wpływ tych dodatkowych czynników, tak by uzyskany współczynnik rzetelności
związany był przede wszystkim z doskonałością samego testu. związany był przede wszystkim z doskonałością samego testu.
5.1.1. Metoda powtarzanego pomiaru 5.1.1. Metoda powtarzanego pomiaru

Metoda szacowania rzetelności za pomocą powtarzanego pomiaru polega na Metoda szacowania rzetelności za pomocą powtarzanego pomiaru polega na
dwukrotnym badaniu tych samych osób tym samym testem. Miarą rzetelności dwukrotnym badaniu tych samych osób tym samym testem. Miarą rzetelności
jest siła związku pomiędzy wynikami z obu badań. Takie oszacowanie może być jest siła związku pomiędzy wynikami z obu badań. Takie oszacowanie może być
przeprowadzone na dwa sposoby, różniące się odstępem czasu między pierw- przeprowadzone na dwa sposoby, różniące się odstępem czasu między pierw-
szym i drugim badaniem. szym i drugim badaniem.
Pierwszy z nich nazywany jest estymacją wiarygodności testu. Polega na tym, Pierwszy z nich nazywany jest estymacją wiarygodności testu. Polega na tym,
iż badani wykonują ten sam test dwa razy z rzędu, tzn. po skończeniu pierwszego iż badani wykonują ten sam test dwa razy z rzędu, tzn. po skończeniu pierwszego
badania następuje natychmiast drugie. Miarą rzetelności jest tu współczynnik ko- badania następuje natychmiast drugie. Miarą rzetelności jest tu współczynnik ko-
relacji pomiędzy wynikami obu pomiarów testem grupy osób. Badacze wskazują relacji pomiędzy wynikami obu pomiarów testem grupy osób. Badacze wskazują
na szereg możliwych źródeł błędu związanych z tą metodą. Na wyniki pomiaru na szereg możliwych źródeł błędu związanych z tą metodą. Na wyniki pomiaru
mogą bowiem wpływać, oprócz niedoskonałości narzędzia, chwilowe oscylacje mogą bowiem wpływać, oprócz niedoskonałości narzędzia, chwilowe oscylacje
funkcji poznawczych, stanu organizmu, pamięć i nabyta wprawa w wykonaniu funkcji poznawczych, stanu organizmu, pamięć i nabyta wprawa w wykonaniu
testu, a także zmęczenie (Choynowski, 1971). Metoda ta powinna zatem być sto- testu, a także zmęczenie (Choynowski, 1971). Metoda ta powinna zatem być sto-
sowana jedynie w przypadku testów, w których powtarzanie badania nie wpływa sowana jedynie w przypadku testów, w których powtarzanie badania nie wpływa
istotnie na wyniki, np. testów motorycznych czy testów, w których wskaźnikiem istotnie na wyniki, np. testów motorycznych czy testów, w których wskaźnikiem
jest czas reakcji. jest czas reakcji.
Drugi sposób szacowania rzetelności przy pomocy powtarzanego pomiaru tym Drugi sposób szacowania rzetelności przy pomocy powtarzanego pomiaru tym
samym testem polega na tym, iż pomiędzy pierwszym a drugim badaniem tej sa- samym testem polega na tym, iż pomiędzy pierwszym a drugim badaniem tej sa-
mej grupy osób wprowadza się jakiś odstęp czasowy, np. tydzień, dwa miesiące 85 mej grupy osób wprowadza się jakiś odstęp czasowy, np. tydzień, dwa miesiące 85

itp. Metoda ta nazywa się estymacją stabilności bezwzględnej testu lub popular- itp. Metoda ta nazywa się estymacją stabilności bezwzględnej testu lub popular-
nie test-retest (czasem używa się również nazwy stałość testu). Wielkość współ- nie test-retest (czasem używa się również nazwy stałość testu). Wielkość współ-
czynnika korelacji (najczęściej r-Pearsona) pomiędzy dwoma zbiorami wyników czynnika korelacji (najczęściej r-Pearsona) pomiędzy dwoma zbiorami wyników
(z pierwszego i drugiego wykonania testu) jest tu miarą rzetelności. Stabilność (z pierwszego i drugiego wykonania testu) jest tu miarą rzetelności. Stabilność
bezwzględna mówi o tym, na ile wyniki testu są niezależne od losowych czyn- bezwzględna mówi o tym, na ile wyniki testu są niezależne od losowych czyn-
ników związanych z osobą badaną lub sytuacją badania, i na ile są stałe w cza- ników związanych z osobą badaną lub sytuacją badania, i na ile są stałe w cza-
sie. Kwestia interpretacji współczynnika stabilności bezwzględnej jako stałości sie. Kwestia interpretacji współczynnika stabilności bezwzględnej jako stałości
wyników w czasie zostanie bardziej szczegółowo omówiona w dalszej części wyników w czasie zostanie bardziej szczegółowo omówiona w dalszej części
rozdziału. rozdziału.
Psychometrzy wskazują na problemy związane z tą techniką (np. Brzeziński, Psychometrzy wskazują na problemy związane z tą techniką (np. Brzeziński,
1996). Wiążą się one z faktem, iż osoby badane mają do czynienia dwukrot- 1996). Wiążą się one z faktem, iż osoby badane mają do czynienia dwukrot-
nie z tym samym testem. Prezentowany podczas drugiej sesji materiał nie jest nie z tym samym testem. Prezentowany podczas drugiej sesji materiał nie jest
dla nich nowy, tak jak przy pierwszym badaniu. Na wyniki drugiego pomiaru dla nich nowy, tak jak przy pierwszym badaniu. Na wyniki drugiego pomiaru
mogą zatem wpływać takie czynniki, jak pamięć czy uczenie się. Może to być mogą zatem wpływać takie czynniki, jak pamięć czy uczenie się. Może to być
szczególnie widoczne w testach inteligencji, np. takich, w których sprawdza się szczególnie widoczne w testach inteligencji, np. takich, w których sprawdza się
czyjąś wiedzę ogólną (np. w podteście Wiadomości z WAIS-R) lub znajomość czyjąś wiedzę ogólną (np. w podteście Wiadomości z WAIS-R) lub znajomość
synonimów słów (w podteście Synonimy z APIS-Z). Należy zdawać sobie spra- synonimów słów (w podteście Synonimy z APIS-Z). Należy zdawać sobie spra-
wę, iż badając kogoś dwukrotnie tym samym testem, nie możemy wykluczyć, że wę, iż badając kogoś dwukrotnie tym samym testem, nie możemy wykluczyć, że
w przerwie między pomiarami ktoś po prostu posiądzie nową wiedzę i np. dowie w przerwie między pomiarami ktoś po prostu posiądzie nową wiedzę i np. dowie
się, jaki jest synonim słowa prezentowanego we wcześniejszym badaniu. Ważne się, jaki jest synonim słowa prezentowanego we wcześniejszym badaniu. Ważne
jest zatem, aby badana właściwość nie uległa zmianie podczas przerwy między jest zatem, aby badana właściwość nie uległa zmianie podczas przerwy między
pierwszym a drugim badaniem testem. pierwszym a drugim badaniem testem.
W pewnych przypadkach zmiana właściwości jest na tyle wyraźna, że sto- W pewnych przypadkach zmiana właściwości jest na tyle wyraźna, że sto-
sowanie metody test-retest staje się nieuzasadnione. Będzie to szczególnie za- sowanie metody test-retest staje się nieuzasadnione. Będzie to szczególnie za-
uważalne u dzieci, które podlegają dynamicznemu rozwojowi. Dobrym przykła- uważalne u dzieci, które podlegają dynamicznemu rozwojowi. Dobrym przykła-
dem jest tu test DMI (Diagnoza Możliwości Intelektualnych) opracowany przez dem jest tu test DMI (Diagnoza Możliwości Intelektualnych) opracowany przez
Matczak (2001). Zdaniem autorki test ma mierzyć zdolność do operacyjnego Matczak (2001). Zdaniem autorki test ma mierzyć zdolność do operacyjnego
myślenia, zgodnie z koncepcją Piageta. Owa zdolność kształtuje się w stadium myślenia, zgodnie z koncepcją Piageta. Owa zdolność kształtuje się w stadium
operacji konkretnych (czyli w wieku od 6–7 lat do 11–12 lat). Badając zmiany operacji konkretnych (czyli w wieku od 6–7 lat do 11–12 lat). Badając zmiany
rozwojowe, Matczak porównywała poprawność wykonania DMI–2M w różnych rozwojowe, Matczak porównywała poprawność wykonania DMI–2M w różnych
grupach wieku dzieci (od 6 do 10 lat). Okazało się, że poprawność wykonania grupach wieku dzieci (od 6 do 10 lat). Okazało się, że poprawność wykonania
istotnie wzrasta wraz z wiekiem. Pomiar stabilności bezwzględnej byłby w tym istotnie wzrasta wraz z wiekiem. Pomiar stabilności bezwzględnej byłby w tym
przypadku wysoce ryzykowny, gdyż zmiany w wykonaniu zadań mogłyby być przypadku wysoce ryzykowny, gdyż zmiany w wykonaniu zadań mogłyby być
widoczne nawet w krótkim okresie. Oznaczałoby to, że nie zostało spełnione widoczne nawet w krótkim okresie. Oznaczałoby to, że nie zostało spełnione
założenie o równoległości testów, ponieważ średnia w drugim pomiarze byłaby założenie o równoległości testów, ponieważ średnia w drugim pomiarze byłaby
wyższa niż w pierwszym. W związku z tym rzetelność szacowano inną metodą – wyższa niż w pierwszym. W związku z tym rzetelność szacowano inną metodą –
zgodności wewnętrznej (patrz punkt 5.1.4.). zgodności wewnętrznej (patrz punkt 5.1.4.).
Podstawowym problemem staje się długość przerwy pomiędzy pomiarami. Podstawowym problemem staje się długość przerwy pomiędzy pomiarami.
Niestety nie ustalono optymalnego odstępu czasowego. W związku z tym propo- Niestety nie ustalono optymalnego odstępu czasowego. W związku z tym propo-
nuje się, aby przerwa pomiędzy badaniami była na tyle długa, aby badani zdążyli nuje się, aby przerwa pomiędzy badaniami była na tyle długa, aby badani zdążyli
zapomnieć prezentowany wcześniej materiał. Jednakże zbyt długa przerwa może zapomnieć prezentowany wcześniej materiał. Jednakże zbyt długa przerwa może
86 spowodować, iż cecha mierzona przez test zmieni się u badanego. 86 spowodować, iż cecha mierzona przez test zmieni się u badanego.

Biorąc pod uwagę powyższe zastrzeżenia, badacze proponują, aby przerwa Biorąc pod uwagę powyższe zastrzeżenia, badacze proponują, aby przerwa
między pomiarami wahała się od kilku tygodni do kilku miesięcy. Odstęp zale- między pomiarami wahała się od kilku tygodni do kilku miesięcy. Odstęp zale-
ży zazwyczaj od specyfiki przedmiotu pomiaru. Badając styl (np. poznawczy) ży zazwyczaj od specyfiki przedmiotu pomiaru. Badając styl (np. poznawczy)
czy postawę, możemy oczekiwać szybszych zmian (zalecana przerwa krótsza) czy postawę, możemy oczekiwać szybszych zmian (zalecana przerwa krótsza)
niż w przypadku np. cech temperamentu (zalecana przerwa dłuższa). W pol- niż w przypadku np. cech temperamentu (zalecana przerwa dłuższa). W pol-
skiej adaptacji Kwestionariusza Radzenia Sobie w Sytuacjach Stresowych (ang. skiej adaptacji Kwestionariusza Radzenia Sobie w Sytuacjach Stresowych (ang.
Coping Inventory of Stressful Situations, CISS) badano stabilność bezwzględną Coping Inventory of Stressful Situations, CISS) badano stabilność bezwzględną
stylów radzenia sobie ze stresem w odstępie 2–3 tygodni (Strelau, Jaworowska, stylów radzenia sobie ze stresem w odstępie 2–3 tygodni (Strelau, Jaworowska,
Wrześniewski i Szczepaniak, 2005). Korelacje dla poszczególnych skal były dość Wrześniewski i Szczepaniak, 2005). Korelacje dla poszczególnych skal były dość
wysokie i wahały się od 0,73 do 0,80. wysokie i wahały się od 0,73 do 0,80.
Strelau i Zawadzki (1997) w badaniach nad FCZ-KT (Formalna Charakterystyka Strelau i Zawadzki (1997) w badaniach nad FCZ-KT (Formalna Charakterystyka
Zachowania – Kwestionariusz Temperamentu), narzędziem do pomiaru cech Zachowania – Kwestionariusz Temperamentu), narzędziem do pomiaru cech
temperamentu postulowanych przez regulacyjną teorię temperamentu, zdecydo- temperamentu postulowanych przez regulacyjną teorię temperamentu, zdecydo-
wali się oszacować stabilność bezwzględną krótkoterminową (dwutygodniowa wali się oszacować stabilność bezwzględną krótkoterminową (dwutygodniowa
przerwa pomiędzy badaniami) oraz długoterminową (przerwa sześciomiesięcz- przerwa pomiędzy badaniami) oraz długoterminową (przerwa sześciomiesięcz-
na). Współczynniki korelacji dla stałości krótkoterminowej wahały się od 0,68 na). Współczynniki korelacji dla stałości krótkoterminowej wahały się od 0,68
do 0,93, a dla długoterminowej od 0,55 do 0,90 (w zależności od wieku i płci do 0,93, a dla długoterminowej od 0,55 do 0,90 (w zależności od wieku i płci
badanej grupy). badanej grupy).
Warto zwrócić uwagę, że na wyniki badania metodą test-retest, oprócz pamięci Warto zwrócić uwagę, że na wyniki badania metodą test-retest, oprócz pamięci
i uczenia się, mogą wpływać również czynniki związane z konkretną sytuacją, i uczenia się, mogą wpływać również czynniki związane z konkretną sytuacją,
w której dokonywany jest pomiar (np. pora dnia, nastawienie badacza itp.) oraz w której dokonywany jest pomiar (np. pora dnia, nastawienie badacza itp.) oraz
stan osoby badanej (aktualny nastrój, stan fizyczny itp.). Wybierając stabilność stan osoby badanej (aktualny nastrój, stan fizyczny itp.). Wybierając stabilność
bezwzględną do szacowania rzetelności pomiaru testem, należy o tym pamiętać. bezwzględną do szacowania rzetelności pomiaru testem, należy o tym pamiętać.
Ma to szczególne znaczenie w przypadku narzędzi mierzących stan, a nie cechę. Ma to szczególne znaczenie w przypadku narzędzi mierzących stan, a nie cechę.
Przykładem może być Przymiotnikowa Skala Nastroju UMACL (ang. UWIST Przykładem może być Przymiotnikowa Skala Nastroju UMACL (ang. UWIST
Mood Adjective Check List). Goryńska (2005), dokonując polskiej adaptacji, zde- Mood Adjective Check List). Goryńska (2005), dokonując polskiej adaptacji, zde-
cydowała się m.in. oszacować stabilność poszczególnych wymiarów nastroju. cydowała się m.in. oszacować stabilność poszczególnych wymiarów nastroju.
Oczekiwała jednak, że korelacje pomiędzy pomiarami w odstępie jednego tygo- Oczekiwała jednak, że korelacje pomiędzy pomiarami w odstępie jednego tygo-
dnia będą istotne, choć niezbyt wysokie. Okazało się, iż współczynniki korelacji dnia będą istotne, choć niezbyt wysokie. Okazało się, iż współczynniki korelacji
wahały się od 0,28 do 0,47, co w tym przypadku było zgodne z teorią, ponie- wahały się od 0,28 do 0,47, co w tym przypadku było zgodne z teorią, ponie-
waż nastrój, czyli stan, inaczej niż cecha, podlega względnie szybkim zmianom. waż nastrój, czyli stan, inaczej niż cecha, podlega względnie szybkim zmianom.
Zastosowana metoda stabilności bezwzględnej miała w tym wypadku jednak Zastosowana metoda stabilności bezwzględnej miała w tym wypadku jednak
więcej wspólnego z badaniem trafności teoretycznej (patrz punkt 5.2.2.2.) niż więcej wspólnego z badaniem trafności teoretycznej (patrz punkt 5.2.2.2.) niż
rzetelności. rzetelności.
5.1.1.1. Stabilność czasowa a założenie o równości średnich 5.1.1.1. Stabilność czasowa a założenie o równości średnich
W większości testów psychologicznych przy pomiarze stabilności testu, za- W większości testów psychologicznych przy pomiarze stabilności testu, za-
równo bezwzględnej, jak i względnej (por. rozdział 5.1.2.), bierze się pod uwagę równo bezwzględnej, jak i względnej (por. rozdział 5.1.2.), bierze się pod uwagę
współczynnik korelacji, którego wysokie wartości interpretuje się jako wysoką współczynnik korelacji, którego wysokie wartości interpretuje się jako wysoką
stałość wyników testu w czasie. Należy podkreślić, że powyższa interpretacja stałość wyników testu w czasie. Należy podkreślić, że powyższa interpretacja
jest prawdziwa jedynie, jeśli spełnione są założenia równoległości pomiarów 87 jest prawdziwa jedynie, jeśli spełnione są założenia równoległości pomiarów 87

testowych, szczególnie zaś założenie o równości średnich w obu pomiarach. testowych, szczególnie zaś założenie o równości średnich w obu pomiarach.
Korelacja sama w sobie mówi jedynie o powiązaniu wyników w obu pomia- Korelacja sama w sobie mówi jedynie o powiązaniu wyników w obu pomia-
rach, ich względnym uporządkowaniu, tzn. osoby, które miały wyższe wyniki rach, ich względnym uporządkowaniu, tzn. osoby, które miały wyższe wyniki
w pierwszym pomiarze, będą miały też wyższe wyniki w drugim pomiarze. Aby w pierwszym pomiarze, będą miały też wyższe wyniki w drugim pomiarze. Aby
mówić o stałości wyników w czasie, szczególnie istotne jest spełnienie założenia mówić o stałości wyników w czasie, szczególnie istotne jest spełnienie założenia
o równości średnich w obu pomiarach dla danej grupy osób. W praktyce zało- o równości średnich w obu pomiarach dla danej grupy osób. W praktyce zało-
żenie to często jest pomijane, co może prowadzić do poważnych błędów inter- żenie to często jest pomijane, co może prowadzić do poważnych błędów inter-
pretacyjnych współczynnika stabilności. Zilustruje to przykład zawarty w tabeli pretacyjnych współczynnika stabilności. Zilustruje to przykład zawarty w tabeli
5.1. Skonstruowano dwa testy, A i B. Zbadano stabilność bezwzględną każdego 5.1. Skonstruowano dwa testy, A i B. Zbadano stabilność bezwzględną każdego
z nich dla 5 osób. Okazało się, że współczynnik korelacji dla obu pomiarów te- z nich dla 5 osób. Okazało się, że współczynnik korelacji dla obu pomiarów te-
stem A wyniósł 1, i podobnie korelacja dla obu pomiarów testem B również wy- stem A wyniósł 1, i podobnie korelacja dla obu pomiarów testem B również wy-
niosła 1. Interpretując jedynie współczynniki korelacji (bez sprawdzenia założeń niosła 1. Interpretując jedynie współczynniki korelacji (bez sprawdzenia założeń
o równoległości pomiarów), można by stwierdzić, że wyniki w teście A i wyniki o równoległości pomiarów), można by stwierdzić, że wyniki w teście A i wyniki
w teście B są tak samo, idealnie stałe w czasie. Jednak, biorąc pod uwagę śred- w teście B są tak samo, idealnie stałe w czasie. Jednak, biorąc pod uwagę śred-
nie, można zauważyć, że powyższa interpretacja jest słuszna jedynie w wypad- nie, można zauważyć, że powyższa interpretacja jest słuszna jedynie w wypad-
ku testu A, gdzie w pomiarze pierwszym (A1) i drugim (A2) średnie w istocie ku testu A, gdzie w pomiarze pierwszym (A1) i drugim (A2) średnie w istocie
są równe. Dla pomiarów w teście B, choć korelacja również wynosi 1, średnia są równe. Dla pomiarów w teście B, choć korelacja również wynosi 1, średnia
w drugim pomiarze (B2) jest wyższa o dwie jednostki od tej w pierwszym (B1). w drugim pomiarze (B2) jest wyższa o dwie jednostki od tej w pierwszym (B1).
Zatem, wyniki osób w teście B nie były stabilne w czasie, lecz nastąpiło syste- Zatem, wyniki osób w teście B nie były stabilne w czasie, lecz nastąpiło syste-
matyczne ich podwyższenie (może się tak zdarzyć np. przy badaniu stabilności matyczne ich podwyższenie (może się tak zdarzyć np. przy badaniu stabilności
testu inteligencji u dzieci). testu inteligencji u dzieci).
Inną metodą statystyczną możliwą do zastosowania w prezentowanym przy- Inną metodą statystyczną możliwą do zastosowania w prezentowanym przy-
kładzie jest współczynnik korelacji wewnątrzklasowej. Pozwala on na uwzględ- kładzie jest współczynnik korelacji wewnątrzklasowej. Pozwala on na uwzględ-
nienie różnicy w wynikach uzyskanych przez osoby badane w obu pomiarach. nienie różnicy w wynikach uzyskanych przez osoby badane w obu pomiarach.
O ile w wypadku testu A korelacja wewnątrzklasowa będzie wynosiła 1, o tyle O ile w wypadku testu A korelacja wewnątrzklasowa będzie wynosiła 1, o tyle
w teście B będzie mniejsza od 1 (ze względu na wyższe wyniki uzyskane przez w teście B będzie mniejsza od 1 (ze względu na wyższe wyniki uzyskane przez
osoby badane w drugim pomiarze). osoby badane w drugim pomiarze).
Tabela 5.1. Wyniki dwukrotnego badania testem A (A1,A2) i testem B (B1,B2) grupy pięciu Tabela 5.1. Wyniki dwukrotnego badania testem A (A1,A2) i testem B (B1,B2) grupy pięciu
osób osób
Nr osoby A1 A2 B1 B2 Nr osoby A1 A2 B1 B2
1 5 5 5 7 1 5 5 5 7
2 4 4 4 6 2 4 4 4 6
3 3 3 3 5 3 3 3 3 5
4 2 2 2 4 4 2 2 2 4
5 1 1 1 3 5 1 1 1 3
Średnia 3 3 3 5 Średnia 3 3 3 5
Korelacja rA1A2=1 rB1B2=1 Korelacja rA1A2=1 rB1B2=1
Podsumowując, interpretacja współczynnika stabilności testu, jako niezmien- Podsumowując, interpretacja współczynnika stabilności testu, jako niezmien-
ności wyników w czasie, jest uprawniona tylko, jeśli są spełnione założenia ności wyników w czasie, jest uprawniona tylko, jeśli są spełnione założenia
88 o równoległości testów, szczególnie o równości średnich w obu pomiarach. 88 o równoległości testów, szczególnie o równości średnich w obu pomiarach.

Wiarygodność testu służy do badania rzetelności pomiaru testem oraz wskazuje na Wiarygodność testu służy do badania rzetelności pomiaru testem oraz wskazuje na
stopień, w jakim wynik testu jest zależny od chwilowych, przypadkowych zmian. stopień, w jakim wynik testu jest zależny od chwilowych, przypadkowych zmian.
Polega na dwukrotnym badaniu tych samych osób tym samym testem. Polega na dwukrotnym badaniu tych samych osób tym samym testem.
Stabilność bezwzględna służy do badania rzetelności pomiaru testem oraz pokazuje, Stabilność bezwzględna służy do badania rzetelności pomiaru testem oraz pokazuje,
w jakim stopniu wyniki testu są wrażliwe na przypadkowe zmiany związane z dłuż- w jakim stopniu wyniki testu są wrażliwe na przypadkowe zmiany związane z dłuż-
szym upływem czasu. Polega na badaniu dwa razy tych samych osób tym samym szym upływem czasu. Polega na badaniu dwa razy tych samych osób tym samym
testem z przerwą czasową między pomiarami. testem z przerwą czasową między pomiarami.
5.1.2. Metoda wersji alternatywnych 5.1.2. Metoda wersji alternatywnych

W poprzednim paragrafie omówiono metody szacowania rzetelności za po- W poprzednim paragrafie omówiono metody szacowania rzetelności za po-
mocą dwukrotnego badania tej samej grupy osób tym samym testem. Niniejsza mocą dwukrotnego badania tej samej grupy osób tym samym testem. Niniejsza
część poświęcona jest metodom szacowania rzetelności za pomocą dwukrotnego część poświęcona jest metodom szacowania rzetelności za pomocą dwukrotnego
badania tej samej grupy osób wersjami alternatywnymi testu. Można zauważyć badania tej samej grupy osób wersjami alternatywnymi testu. Można zauważyć
spore podobieństwo między szacowaniem rzetelności metodą test-retest a meto- spore podobieństwo między szacowaniem rzetelności metodą test-retest a meto-
dą wersji alternatywnych. Jedyną różnicą między powyższymi dwoma metodami dą wersji alternatywnych. Jedyną różnicą między powyższymi dwoma metodami
w zakresie procedury badania jest posłużenie się tym samym testem albo posłu- w zakresie procedury badania jest posłużenie się tym samym testem albo posłu-
żenie się wersjami alternatywnymi testu. żenie się wersjami alternatywnymi testu.
Badanie rzetelności metodą wersji alternatywnych ma następujący przebieg. Badanie rzetelności metodą wersji alternatywnych ma następujący przebieg.
Po pierwsze, należy skonstruować dwie wersje danego testu. Obie wersje powin- Po pierwsze, należy skonstruować dwie wersje danego testu. Obie wersje powin-
ny różnić się pod względem treści, tzn. składać się z innych treściowo pozycji, ny różnić się pod względem treści, tzn. składać się z innych treściowo pozycji,
ale jednocześnie spełniać założenie równoległości (por. idea testów równoległych ale jednocześnie spełniać założenie równoległości (por. idea testów równoległych
paragraf 5.3.). Następnie należy przebadać tę samą grupę osób najpierw jedną, paragraf 5.3.). Następnie należy przebadać tę samą grupę osób najpierw jedną,
a potem drugą wersją danego testu. a potem drugą wersją danego testu.
Podobnie jak za pomocą metody test-retest, tak poprzez zastosowanie pro- Podobnie jak za pomocą metody test-retest, tak poprzez zastosowanie pro-
cedury testów alternatywnych można uzyskać dwa współczynniki rzetelności, cedury testów alternatywnych można uzyskać dwa współczynniki rzetelności,
w zależności od zastosowanej długości przerwy czasowej między pomiarem w zależności od zastosowanej długości przerwy czasowej między pomiarem
pierwszą i drugą wersją testu. pierwszą i drugą wersją testu.
Współczynnik równoważności międzytestowej pod względem zastosowa- Współczynnik równoważności międzytestowej pod względem zastosowa-
nej przerwy czasowej między pomiarami jest odpowiednikiem współczynnika nej przerwy czasowej między pomiarami jest odpowiednikiem współczynnika
wiarygodności w metodzie test-retest. Inaczej mówiąc, współczynnik równo- wiarygodności w metodzie test-retest. Inaczej mówiąc, współczynnik równo-
ważności międzytestowej uzyskuje się korelując ze sobą wyniki z dwóch testów ważności międzytestowej uzyskuje się korelując ze sobą wyniki z dwóch testów
alternatywnych przeprowadzonych na tej samej grupie osób, przy czym między alternatywnych przeprowadzonych na tej samej grupie osób, przy czym między
badaniem oboma testami nie ma przerwy czasowej. Po zakończeniu rozwiązywa- badaniem oboma testami nie ma przerwy czasowej. Po zakończeniu rozwiązywa-
nia pierwszej wersji, osoby badane natychmiast przystępują do rozwiązywania nia pierwszej wersji, osoby badane natychmiast przystępują do rozwiązywania
drugiej wersji testu. Uzyskany w ten sposób współczynnik korelacji, najczęściej drugiej wersji testu. Uzyskany w ten sposób współczynnik korelacji, najczęściej
r-Pearsona, traktuje się jako współczynnik równoważności międzytestowej. r-Pearsona, traktuje się jako współczynnik równoważności międzytestowej.
Współczynnik stabilności względnej to korelacja między wynikami w dwóch Współczynnik stabilności względnej to korelacja między wynikami w dwóch
testach alternatywnych uzyskanych przez tę samą grupę osób, ale pomiędzy ba- testach alternatywnych uzyskanych przez tę samą grupę osób, ale pomiędzy ba-
daniem testem pierwszym i testem drugim wprowadza się przerwę czasową. 89 daniem testem pierwszym i testem drugim wprowadza się przerwę czasową. 89

Jego długość powinna być dobrana w zależności od tego, co mierzą testy alterna- Jego długość powinna być dobrana w zależności od tego, co mierzą testy alterna-
tywne oraz od specyfiki grupy, dla której chcemy oszacować rzetelność testów. tywne oraz od specyfiki grupy, dla której chcemy oszacować rzetelność testów.
Jeśli testy przeznaczone są do pomiaru względnie stałych czasowo właściwości, Jeśli testy przeznaczone są do pomiaru względnie stałych czasowo właściwości,
jak np. cech temperamentu, to przerwa ta może być dłuższa, np. kilka miesięcy. jak np. cech temperamentu, to przerwa ta może być dłuższa, np. kilka miesięcy.
Dłuższych przerw zazwyczaj nie stosuje się ze względu na potencjalne trudności Dłuższych przerw zazwyczaj nie stosuje się ze względu na potencjalne trudności
badawcze – mogłoby być trudno dotrzeć do tych samych osób np. po upływie badawcze – mogłoby być trudno dotrzeć do tych samych osób np. po upływie
kilku lat. Jeśli istnieje podejrzenie, że badana właściwość psychiczna może szyb- kilku lat. Jeśli istnieje podejrzenie, że badana właściwość psychiczna może szyb-
ko ulegać zmianom, przerwa między oboma pomiarami powinna być krótsza. ko ulegać zmianom, przerwa między oboma pomiarami powinna być krótsza.
Krótkie przerwy czasowe będą również właściwsze w przypadku osób, u któ- Krótkie przerwy czasowe będą również właściwsze w przypadku osób, u któ-
rych badana właściwość może szybko ulec zmianie ze względów rozwojowych. rych badana właściwość może szybko ulec zmianie ze względów rozwojowych.
Grupą taką z pewnością będą dzieci. Łatwo można wyobrazić sobie, że poziom Grupą taką z pewnością będą dzieci. Łatwo można wyobrazić sobie, że poziom
wykonania np. testu inteligencji zmieniłby się znacznie, gdyby przebadano dzieci wykonania np. testu inteligencji zmieniłby się znacznie, gdyby przebadano dzieci
w piątej klasie, a następnie te same dzieci po roku, w szóstej klasie. Zważywszy, w piątej klasie, a następnie te same dzieci po roku, w szóstej klasie. Zważywszy,
że dodatkowo występują różnice w tempie rozwoju dzieci, to uzyskany współ- że dodatkowo występują różnice w tempie rozwoju dzieci, to uzyskany współ-
czynnik korelacji między pomiarami testami alternatywnymi byłby zniekształco- czynnik korelacji między pomiarami testami alternatywnymi byłby zniekształco-
ny. Nie odzwierciedlałby on zatem tego, jak dokładny jest pomiar tymi testami. ny. Nie odzwierciedlałby on zatem tego, jak dokładny jest pomiar tymi testami.
W praktyce ustalanie długości przerwy czasowej między pomiarami podczas W praktyce ustalanie długości przerwy czasowej między pomiarami podczas
szacowania stabilności względnej wiąże się z takimi samymi problemami, jak szacowania stabilności względnej wiąże się z takimi samymi problemami, jak
w wypadku stabilności bezwzględnej (por. rozdział 5.1.1.) w wypadku stabilności bezwzględnej (por. rozdział 5.1.1.)
Współczynnik równoważności międzytestowej służy do badania rzetelności pomia- Współczynnik równoważności międzytestowej służy do badania rzetelności pomia-
ru testem oraz wskazuje na stopień podobieństwa między wersjami alternatywnymi ru testem oraz wskazuje na stopień podobieństwa między wersjami alternatywnymi
testu. Polega na dwukrotnym badaniu tych samych osób, po kolei dwiema wersjami testu. Polega na dwukrotnym badaniu tych samych osób, po kolei dwiema wersjami
testu. testu.
Współczynnik stabilności względnej służy do badania rzetelności pomiaru testem Współczynnik stabilności względnej służy do badania rzetelności pomiaru testem
oraz wskazuje na stopień podobieństwa między wersjami alternatywnymi testu i na oraz wskazuje na stopień podobieństwa między wersjami alternatywnymi testu i na
przypadkowe zmiany wyników związane z upływem czasu. Polega na zbadaniu tych przypadkowe zmiany wyników związane z upływem czasu. Polega na zbadaniu tych
samych osób pierwszą wersją testu, a po upływie pewnego czasu drugą wersją testu. samych osób pierwszą wersją testu, a po upływie pewnego czasu drugą wersją testu.
5.1.3. Metoda połówkowa 5.1.3. Metoda połówkowa

W poprzednich paragrafach omówiono metody szacowania rzetelności na W poprzednich paragrafach omówiono metody szacowania rzetelności na
podstawie dwukrotnego pomiaru. Metoda połówkowa pozwala na oszacowanie podstawie dwukrotnego pomiaru. Metoda połówkowa pozwala na oszacowanie
rzetelności pomiaru testem na podstawie jednokrotnego badania tej samej grupy rzetelności pomiaru testem na podstawie jednokrotnego badania tej samej grupy
osób jednym testem. Jest to jedna z pierwszych metod badania zgodności we- osób jednym testem. Jest to jedna z pierwszych metod badania zgodności we-
wnętrznej, jakie wymyślono. wnętrznej, jakie wymyślono.
Technika ta opiera się na pomyśle wyodrębnienia dwóch testów równoległych Technika ta opiera się na pomyśle wyodrębnienia dwóch testów równoległych
w ramach tego samego testu, a następnie skorelowaniu ze sobą wyników uzy- w ramach tego samego testu, a następnie skorelowaniu ze sobą wyników uzy-
skanych w tych połówkach. Procedura badania polega na tym, że grupa osób skanych w tych połówkach. Procedura badania polega na tym, że grupa osób
wykonuje test, następnie test jest dzielony na dwie połówki, po czym koreluje wykonuje test, następnie test jest dzielony na dwie połówki, po czym koreluje
90 się ze sobą zbiory wyników uzyskanych z pierwszej i drugiej połówki. Tak po- 90 się ze sobą zbiory wyników uzyskanych z pierwszej i drugiej połówki. Tak po-

wstały współczynnik korelacji mówi o rzetelności jedynie połowy testu. Dlatego wstały współczynnik korelacji mówi o rzetelności jedynie połowy testu. Dlatego
też należy skorzystać ze wzoru Spearmana-Browna, który pozwala oszacować też należy skorzystać ze wzoru Spearmana-Browna, który pozwala oszacować
rzetelność całego testu na podstawie rzetelności jego połowy: rzetelność całego testu na podstawie rzetelności jego połowy:
2rpp 2rpp
rtt = (5.1) rtt = (5.1)
1 + rpp 1 + rpp
rtt – rzetelność całego testu; rtt – rzetelność całego testu;
rpp – współczynnik korelacji między połówkami testu. rpp – współczynnik korelacji między połówkami testu.
Podstawiając w miejsce rpp wartość współczynnika korelacji między połowa- Podstawiając w miejsce rpp wartość współczynnika korelacji między połowa-
mi testu, otrzymamy współczynnik rzetelności całego testu. mi testu, otrzymamy współczynnik rzetelności całego testu.
Warto zauważyć, że wzór na rzetelność połówkową jest specjalnym przypad- Warto zauważyć, że wzór na rzetelność połówkową jest specjalnym przypad-
kiem ogólniejszego wzoru Spearmana-Browna na zależność między rzetelnością kiem ogólniejszego wzoru Spearmana-Browna na zależność między rzetelnością
pomiaru testem a zmianą jego długości. pomiaru testem a zmianą jego długości.
nrtti nrtti
rttn = (5.2) rttn = (5.2)
1 + (n − 1)rtti 1 + (n − 1)rtti
rttn – współczynnik rzetelności testu po jego przedłużeniu; rttn – współczynnik rzetelności testu po jego przedłużeniu;
rtti – współczynnik rzetelności testu przed jego przedłużeniem; rtti – współczynnik rzetelności testu przed jego przedłużeniem;
n – współczynnik przedłużenia testu (ile razy należy przedłużyć test). n – współczynnik przedłużenia testu (ile razy należy przedłużyć test).
Powyższy wzór pozwala na oszacowanie rzetelności pomiaru testem (rttn) po Powyższy wzór pozwala na oszacowanie rzetelności pomiaru testem (rttn) po
jego n‑krotnym przedłużeniu, znając rzetelność pomiaru testem przed jego prze- jego n‑krotnym przedłużeniu, znając rzetelność pomiaru testem przed jego prze-
dłużeniem (rtti). Skoro znamy rzetelność połowy testu, rzetelność całego testu dłużeniem (rtti). Skoro znamy rzetelność połowy testu, rzetelność całego testu
to inaczej rzetelność połowy testu po dwukrotnym przedłużeniu. W takim razie, to inaczej rzetelność połowy testu po dwukrotnym przedłużeniu. W takim razie,
gdy wstawimy za n wartość 2, otrzymamy wzór 5.1. Ze wzoru 5.2 wynika, że gdy wstawimy za n wartość 2, otrzymamy wzór 5.1. Ze wzoru 5.2 wynika, że
rzetelność pomiaru testem wzrasta w miarę jego wydłużania, w związku z czym rzetelność pomiaru testem wzrasta w miarę jego wydłużania, w związku z czym
rzetelność całego testu będzie zawsze większa niż rzetelność jego połówek (niż rzetelność całego testu będzie zawsze większa niż rzetelność jego połówek (niż
korelacja miedzy połówkami testu). korelacja miedzy połówkami testu).
Podstawowe pytanie dotyczy tego, w jaki sposób podzielić test na połowy. Podstawowe pytanie dotyczy tego, w jaki sposób podzielić test na połowy.
Podział ten powinien być przeprowadzony tak, aby połówki testu były względem Podział ten powinien być przeprowadzony tak, aby połówki testu były względem
siebie równoległe. Możliwych jest kilka rozwiązań. siebie równoległe. Możliwych jest kilka rozwiązań.
Prosty podział na połowy zachodzi wtedy, gdy m.in. narzędzie zawierające 10 Prosty podział na połowy zachodzi wtedy, gdy m.in. narzędzie zawierające 10
pozycji testowych, podzielonoby w ten sposób, że w pierwszej połowie znajdą pozycji testowych, podzielonoby w ten sposób, że w pierwszej połowie znajdą
się te o numerach 1–5, a w drugiej o numerach 6–10. Podział taki może mieć sens się te o numerach 1–5, a w drugiej o numerach 6–10. Podział taki może mieć sens
w przypadku krótkich testów o podobnych wskaźnikach trudności pozycji (m.in. w przypadku krótkich testów o podobnych wskaźnikach trudności pozycji (m.in.
kwestionariuszy osobowości). Jeśli kolejne pozycje testowe miałyby rosnące kwestionariuszy osobowości). Jeśli kolejne pozycje testowe miałyby rosnące
wskaźniki trudności, to przy takim podziale otrzymanoby połowę łatwą i połowę wskaźniki trudności, to przy takim podziale otrzymanoby połowę łatwą i połowę
trudną, a więc założenie o równoległości połówek testu byłoby złamane. Jeśli 91 trudną, a więc założenie o równoległości połówek testu byłoby złamane. Jeśli 91

test byłby bardzo długi, nastawienie osoby badanej mogłoby być istotnie róż- test byłby bardzo długi, nastawienie osoby badanej mogłoby być istotnie róż-
ne podczas rozwiązywania pierwszej i drugiej połowy testu (m.in. zmęczenie), ne podczas rozwiązywania pierwszej i drugiej połowy testu (m.in. zmęczenie),
a więc różnice w sytuacji badania mogłyby w efekcie doprowadzić do złamania a więc różnice w sytuacji badania mogłyby w efekcie doprowadzić do złamania
założenia o równoległości połówek. założenia o równoległości połówek.
Dobór losowy sprowadza się do podzielenia pozycji do obu połówek w sposób Dobór losowy sprowadza się do podzielenia pozycji do obu połówek w sposób
przypadkowy. Metoda taka jest odpowiednia, jeśli poszczególne pozycje testu przypadkowy. Metoda taka jest odpowiednia, jeśli poszczególne pozycje testu
nie różnią się zbytnio ze względu na ich trudność, zatem może być właściwa dla nie różnią się zbytnio ze względu na ich trudność, zatem może być właściwa dla
kwestionariuszy osobowości. Natomiast, jeśli trudność pozycji wzrasta, tak jak kwestionariuszy osobowości. Natomiast, jeśli trudność pozycji wzrasta, tak jak
to się często zdarza w przypadku testów inteligencji, moglibyśmy otrzymać dwie to się często zdarza w przypadku testów inteligencji, moglibyśmy otrzymać dwie
połowy testu różniące się trudnością. połowy testu różniące się trudnością.
Dobór parzyste–nieparzyste polega na tym, że do jednej połówki testu włącza Dobór parzyste–nieparzyste polega na tym, że do jednej połówki testu włącza
się pozycje testowe o numerach parzystych, a do drugiej – o numerach nieparzy- się pozycje testowe o numerach parzystych, a do drugiej – o numerach nieparzy-
stych. Dzięki temu, przy wzrastającej trudności kolejnych pozycji, zadania łatwe stych. Dzięki temu, przy wzrastającej trudności kolejnych pozycji, zadania łatwe
i trudne rozłożą się do obu połówek równomiernie, dzięki czemu połowy testu i trudne rozłożą się do obu połówek równomiernie, dzięki czemu połowy testu
będą do siebie zbliżone pod względem trudności. będą do siebie zbliżone pod względem trudności.
Dobór uwzględniający właściwości pozycji testowych, polega na tym że do Dobór uwzględniający właściwości pozycji testowych, polega na tym że do
obu połówek przydziela się pozycje, tak aby połówki testu spełniały założenia obu połówek przydziela się pozycje, tak aby połówki testu spełniały założenia
testów równoległych. Kryterium podobieństwa może być też trudność pozycji i, testów równoległych. Kryterium podobieństwa może być też trudność pozycji i,
w efekcie, związana z tym trudność obu połówek testu. Metoda ta będzie odpo- w efekcie, związana z tym trudność obu połówek testu. Metoda ta będzie odpo-
wiednia dla testów, których pozycje nie są równoległe, ale da się utworzyć rów- wiednia dla testów, których pozycje nie są równoległe, ale da się utworzyć rów-
noległe połówki testu. Przykładem mogą być testy, których pozycje mają różny noległe połówki testu. Przykładem mogą być testy, których pozycje mają różny
format odpowiedzi, tzn. w teście znajdują się pozycje posiadające dwu-, trzy-, format odpowiedzi, tzn. w teście znajdują się pozycje posiadające dwu-, trzy-,
czterokategorialny format odpowiedzi. czterokategorialny format odpowiedzi.
Dobór pozycji testowych do obu połówek ma zasadnicze znaczenie dla wiel- Dobór pozycji testowych do obu połówek ma zasadnicze znaczenie dla wiel-
kości współczynnika rzetelności. Najniższa wartość współczynnika rzetelności kości współczynnika rzetelności. Najniższa wartość współczynnika rzetelności
wystąpi, jeśli pozycje testu będą wysoko skorelowane w obrębie swojej połówki wystąpi, jeśli pozycje testu będą wysoko skorelowane w obrębie swojej połówki
testu i nisko między połówkami testu. Przypadek taki otrzymalibyśmy, gdyby testu i nisko między połówkami testu. Przypadek taki otrzymalibyśmy, gdyby
m.in. w teście o rosnącej trudności pozycji zastosować prosty podział na połowy. m.in. w teście o rosnącej trudności pozycji zastosować prosty podział na połowy.
Wtedy odpowiedzi na pozycje w obrębie połówek testu byłyby wysoko skorelo- Wtedy odpowiedzi na pozycje w obrębie połówek testu byłyby wysoko skorelo-
wane ze sobą, natomiast korelacja między połówkami byłaby niska. Natomiast wane ze sobą, natomiast korelacja między połówkami byłaby niska. Natomiast
najwyższa wartość współczynnika rzetelności w metodzie połówkowej wystąpi, najwyższa wartość współczynnika rzetelności w metodzie połówkowej wystąpi,
jeśli wysoko skorelowane pozycje zostaną rozdzielone do oddzielnych połówek jeśli wysoko skorelowane pozycje zostaną rozdzielone do oddzielnych połówek
testu. testu.
Metodę połówkową zastosowano m.in. do analizy rzetelności w Teście Matryc Metodę połówkową zastosowano m.in. do analizy rzetelności w Teście Matryc
Ravena – wersja Dla Zaawansowanych (Jaworowska i Szustrowa, 1992). W na- Ravena – wersja Dla Zaawansowanych (Jaworowska i Szustrowa, 1992). W na-
rzędziu tym mamy do czynienia z rosnącą trudnością zadań, a zatem autorki pol- rzędziu tym mamy do czynienia z rosnącą trudnością zadań, a zatem autorki pol-
skiej adaptacji zdecydowały się podzielić test na dwie połówki ze względu na skiej adaptacji zdecydowały się podzielić test na dwie połówki ze względu na
pozycje parzyste i nieparzyste. Następnie oszacowały rzetelność pomiaru testem pozycje parzyste i nieparzyste. Następnie oszacowały rzetelność pomiaru testem
przy pomocy wzoru Spearmana-Browna, uzyskując wartość bliską 0,80. przy pomocy wzoru Spearmana-Browna, uzyskując wartość bliską 0,80.
92 92

Metoda połówkowa służy do badania rzetelności pomiaru testem oraz wskazuje na Metoda połówkowa służy do badania rzetelności pomiaru testem oraz wskazuje na
stopień podobieństwa między jego połówkami. Polega na jednokrotnym badaniu te- stopień podobieństwa między jego połówkami. Polega na jednokrotnym badaniu te-
stem grupy osób. stem grupy osób.
5.1.4. Zgodność wewnętrzna 5.1.4. Zgodność wewnętrzna

Inną techniką, obok metody połówkowej, oszacowania rzetelności po jedno- Inną techniką, obok metody połówkowej, oszacowania rzetelności po jedno-
krotnym badaniu danym testem jest estymacja zgodności wewnętrznej (ang. krotnym badaniu danym testem jest estymacja zgodności wewnętrznej (ang.
internal consistency). Kuder i Richardson (2005) zwrócili uwagę na niejedno- internal consistency). Kuder i Richardson (2005) zwrócili uwagę na niejedno-
znaczność wyniku procedury dzielenia na połowy. Stwierdzili, iż podział testu na znaczność wyniku procedury dzielenia na połowy. Stwierdzili, iż podział testu na
dwie połówki jest arbitralny i w zależności od sposobu przepołowienia otrzyma- dwie połówki jest arbitralny i w zależności od sposobu przepołowienia otrzyma-
my inne oszacowanie rzetelności. my inne oszacowanie rzetelności.
W celu uniknięcia tego problemu, przyjęli założenie, iż test składający się z n W celu uniknięcia tego problemu, przyjęli założenie, iż test składający się z n
pozycji można podzielić na n części. Wynika z tego, że liczba wszystkich moż- pozycji można podzielić na n części. Wynika z tego, że liczba wszystkich moż-
liwych części testu równa jest liczbie jego pozycji. Aby otrzymać dobre osza- liwych części testu równa jest liczbie jego pozycji. Aby otrzymać dobre osza-
cowanie zgodności wewnętrznej, trzeba również przyjąć, że pozycje testowe są cowanie zgodności wewnętrznej, trzeba również przyjąć, że pozycje testowe są
równoległe (mają równe średnie i wariancje) oraz że wszystkie pozycje w teście równoległe (mają równe średnie i wariancje) oraz że wszystkie pozycje w teście
mierzą ten sam czynnik (cechę). mierzą ten sam czynnik (cechę).
Autorzy opracowali 21 wzorów, z czego najczęściej stosowane są dwa (nazy- Autorzy opracowali 21 wzorów, z czego najczęściej stosowane są dwa (nazy-
wane skrótowo od ich nazwisk KR20 i KR21). Pierwszy z nich odnosi się do przy- wane skrótowo od ich nazwisk KR20 i KR21). Pierwszy z nich odnosi się do przy-
padków, w których bierze się pod uwagę średnią wariancję wszystkich pozycji padków, w których bierze się pod uwagę średnią wariancję wszystkich pozycji
testowych. Wzór ten można przedstawić w następujący sposób: testowych. Wzór ten można przedstawić w następujący sposób:
(5.3) (5.3)
k – liczba pozycji testowych; k – liczba pozycji testowych;

pi – proporcja odpowiedzi diagnostycznych (zgodnych z kluczem) na i-tą pi – proporcja odpowiedzi diagnostycznych (zgodnych z kluczem) na i-tą
pozycję testową; pozycję testową;
qi – proporcja odpowiedzi niediagnostycznych (niezgodnych z kluczem); qi – proporcja odpowiedzi niediagnostycznych (niezgodnych z kluczem);
sc2 – wariancja wyników ogólnych testu; sc2 – wariancja wyników ogólnych testu;
k k
∑i =1
– suma dla k pozycji. ∑
i =1
– suma dla k pozycji.
93 93

Drugi wzór (KR21) wymaga założenia, że pozycje testowe mają taką samą Drugi wzór (KR21) wymaga założenia, że pozycje testowe mają taką samą
trudność (równe proporcje odpowiedzi zgodnych i niezgodnych z kluczem). Ma trudność (równe proporcje odpowiedzi zgodnych i niezgodnych z kluczem). Ma
on postać: on postać:
k sc − kpq k sc − kpq
2 2
KR 21 = KR 21 =
k − 1 sc 2 (5.4) k − 1 sc 2 (5.4)
k – liczba pozycji w teście; k – liczba pozycji w teście;

p – średnia trudność pozycji testowych; p – średnia trudność pozycji testowych;
q=1– p. q=1– p.
Wykazano (Cronbach, 2005), że KR20 jest równy średniej współczynników Wykazano (Cronbach, 2005), że KR20 jest równy średniej współczynników
rzetelności połówkowej, policzonych dla wszystkich możliwych podziałów testu rzetelności połówkowej, policzonych dla wszystkich możliwych podziałów testu
na połówki. W praktyce oznacza to, że niektóre oszacowania rzetelności metodą na połówki. W praktyce oznacza to, że niektóre oszacowania rzetelności metodą
połówkową będą niższe, a niektóre wyższe niż współczynnik KR20. połówkową będą niższe, a niektóre wyższe niż współczynnik KR20.
Wzory Kudera i Richardson przełamały problem metody połówkowej, ale Wzory Kudera i Richardson przełamały problem metody połówkowej, ale
miały pewne ograniczenie. Można je było stosować jedynie do testów z dwukate- miały pewne ograniczenie. Można je było stosować jedynie do testów z dwukate-
gorialnymi odpowiedziami, czyli odpowiedziami typu: tak–nie, zgadzam się–nie gorialnymi odpowiedziami, czyli odpowiedziami typu: tak–nie, zgadzam się–nie
zgadzam się, poprawne–niepoprawne itp. Cronbach (2005) zaproponował wzór, zgadzam się, poprawne–niepoprawne itp. Cronbach (2005) zaproponował wzór,
który da się zastosować do wszelkich testów, a więc nie tylko z dychotomicznym który da się zastosować do wszelkich testów, a więc nie tylko z dychotomicznym
formatem odpowiedzi. Metoda ta, obecnie najczęściej stosowana do szacowania formatem odpowiedzi. Metoda ta, obecnie najczęściej stosowana do szacowania
zgodności wewnętrznej, uznawana jest za najlepszy sposób szacowania rzetelno- zgodności wewnętrznej, uznawana jest za najlepszy sposób szacowania rzetelno-
ści (Hornowska, 2003). Dlatego też poświęcimy jej więcej uwagi. Wzór, o któ- ści (Hornowska, 2003). Dlatego też poświęcimy jej więcej uwagi. Wzór, o któ-
rym mowa, znany jako alfa Cronbacha, przedstawia się następująco: rym mowa, znany jako alfa Cronbacha, przedstawia się następująco:
k k
k ∑s 2
i
k ∑s 2
i
α= ( 1 − i =1 2 ) (5.5) α= ( 1 − i =1 2 ) (5.5)
k −1 sc k −1 sc
k – liczba pozycji testowych; k – liczba pozycji testowych;

sc2 – wariancja wyników ogólnych testu; sc2 – wariancja wyników ogólnych testu;
k k
∑s
i =1
2
i – suma wariancji pozycji testowych. ∑s
i =1
2
i – suma wariancji pozycji testowych.
Rozważmy przykład zastosowania wzoru alfa Cronbacha. W tabeli 5.2. za- Rozważmy przykład zastosowania wzoru alfa Cronbacha. W tabeli 5.2. za-
mieszczono wyniki pięciu osób z pewnego testu, w którym zakres dostępnych mieszczono wyniki pięciu osób z pewnego testu, w którym zakres dostępnych
odpowiedzi wyrażony był na skali Likerta (od 1 do 5). W kolejnych kolumnach odpowiedzi wyrażony był na skali Likerta (od 1 do 5). W kolejnych kolumnach
przedstawiono odpowiedzi każdej osoby, obliczenia wariancji dla całego testu przedstawiono odpowiedzi każdej osoby, obliczenia wariancji dla całego testu
oraz wariancji poszczególnych pozycji testowych. oraz wariancji poszczególnych pozycji testowych.
W celu obliczenia wariancji, należy odjąć każdy wynik od średniej, a następ- W celu obliczenia wariancji, należy odjąć każdy wynik od średniej, a następ-
94 nie uzyskaną wartość podnieść do kwadratu. Wariancję stanowi stosunek sumy 94 nie uzyskaną wartość podnieść do kwadratu. Wariancję stanowi stosunek sumy

odchyleń wyników od średniej podniesionych do kwadratu do liczby osób bada- odchyleń wyników od średniej podniesionych do kwadratu do liczby osób bada-
nych minus jeden. W tabeli 5.2. przedstawiono kolejne kroki obliczania wyników nych minus jeden. W tabeli 5.2. przedstawiono kolejne kroki obliczania wyników
wariancji całego testu i poszczególnych pozycji testowych. wariancji całego testu i poszczególnych pozycji testowych.
Kolejne kroki obliczeń oznaczono jako A, B, C, D w dolnym wierszu tabe- Kolejne kroki obliczeń oznaczono jako A, B, C, D w dolnym wierszu tabe-
li 5.2. Wszystkie obliczenia przebiegają w ten sam sposób, zarówno jeżeli chodzi li 5.2. Wszystkie obliczenia przebiegają w ten sam sposób, zarówno jeżeli chodzi
o wariancję całego testu, jak i poszczególnych pozycji. W kroku A należy zsumo- o wariancję całego testu, jak i poszczególnych pozycji. W kroku A należy zsumo-
wać wszystkie wyniki otrzymane (całego testu i kolejnych pozycji), a następnie wać wszystkie wyniki otrzymane (całego testu i kolejnych pozycji), a następnie
(krok B) policzyć średnią tychże. Znając średnią wartość, możemy odjąć od niej (krok B) policzyć średnią tychże. Znając średnią wartość, możemy odjąć od niej
każdy poszczególny wynik otrzymany, jak też zostało to uczynione w kolumnie każdy poszczególny wynik otrzymany, jak też zostało to uczynione w kolumnie
oznaczonej (X– X ). Otrzymane w ten sposób wartości należy podnieść do kwa- oznaczonej (X– X ). Otrzymane w ten sposób wartości należy podnieść do kwa-
dratu (wynik tego działania przedstawia w tabeli 5.2. kolumna (X– X )2). W kroku dratu (wynik tego działania przedstawia w tabeli 5.2. kolumna (X– X )2). W kroku
C należy zsumować wszystkie wartości podniesione do kwadratu, a następnie C należy zsumować wszystkie wartości podniesione do kwadratu, a następnie
podzielić je przez liczbę osób badanych minus jeden (krok D). W ten sposób uzy- podzielić je przez liczbę osób badanych minus jeden (krok D). W ten sposób uzy-
skano wariancje odpowiednio dla całego testu oraz każdej kolejnej pozycji. skano wariancje odpowiednio dla całego testu oraz każdej kolejnej pozycji.
Tabela 5.2. Wyniki poszczególnych pozycji testowych oraz wyniki ogólne dla 5 osób bada Tabela 5.2. Wyniki poszczególnych pozycji testowych oraz wyniki ogólne dla 5 osób bada
nych w teście składającym się z 4 pozycji nych w teście składającym się z 4 pozycji
Pozycje Pozycje
Osoby Cały test Pozycja 1 Pozycja 2 Pozycja 3 Pozycja 4 Osoby Cały test Pozycja 1 Pozycja 2 Pozycja 3 Pozycja 4
testowe testowe
1234 ΣXc* (Xc– X̄c)** X1* (X1 – X̄ 1)** X2* (X2– X̄ 2)** X3* (X3– X̄ 3)** X4* (X4– X̄ 4)** 1234 ΣXc* (Xc– X̄c)** X1* (X1 – X̄ 1)** X2* (X2– X̄ 2)** X3* (X3– X̄ 3)** X4* (X4– X̄ 4)**
(Xc–X̄c)2*** (X1– X̄ 1)2*** (X2– X̄ 2)2*** (X3– X̄ 3)2*** (X4– X̄ 4)2*** (Xc–X̄c)2*** (X1– X̄ 1)2*** (X2– X̄ 2)2*** (X3– X̄ 3)2*** (X4– X̄ 4)2***
1 3112 7 –5 25 3 0 0 1 –2 4 1 –2 4 2 –1 1 1 3112 7 –5 25 3 0 0 1 –2 4 1 –2 4 2 –1 1
2 2454 15 3 9 2 –1 1 4 1 1 5 2 4 4 1 1 2 2454 15 3 9 2 –1 1 4 1 1 5 2 4 4 1 1
3 5545 19 –7 49 5 2 4 5 2 4 4 1 1 5 2 4 3 5545 19 –7 49 5 2 4 5 2 4 4 1 1 5 2 4
4 4223 11 –1 1 4 1 1 2 –1 1 2 –1 1 3 0 0 4 4223 11 –1 1 4 1 1 2 –1 1 2 –1 1 3 0 0
5 1331 8 –4 16 1 –2 4 3 0 0 3 0 0 1 –2 4 5 1331 8 –4 16 1 –2 4 3 0 0 3 0 0 1 –2 4
Σ Xc = 60 Σ X1 = 15 Σ X2 = 15 Σ X3 = 15 Σ X4 = 15 Σ Xc = 60 Σ X1 = 15 Σ X2 = 15 Σ X3 = 15 Σ X4 = 15
Kolejne kroki A. Kolejne kroki A.
X̄ c = 12 X̄ 1 = 3 X̄ 2 = 3 X̄ 3 = 3 X̄ 4 = 3 X̄ c = 12 X̄ 1 = 3 X̄ 2 = 3 X̄ 3 = 3 X̄ 4 = 3
obliczeń: B. Σ(Xc – X̄ c)2 = Σ(X1– X̄ 1)2 = Σ(X2 – X̄ 2)2 = Σ( X3– X̄ 3)2 = Σ( X4 – X̄ 4)2 = obliczeń: B. Σ(Xc – X̄ c)2 = Σ(X1– X̄ 1)2 = Σ(X2 – X̄ 2)2 = Σ( X3– X̄ 3)2 = Σ( X4 – X̄ 4)2 =
C. = 100 = 10 = 10 = 10 = 10 C. = 100 = 10 = 10 = 10 = 10
sc2 = 100/4 = s12 = 10/4 = s22 = 10/4 = s32 = 10/4 = s42 = 10/4 = sc2 = 100/4 = s12 = 10/4 = s22 = 10/4 = s32 = 10/4 = s42 = 10/4 =
D. D.
= 25 = 2.5 = 2.5 = 2.5 = 2.5 = 25 = 2.5 = 2.5 = 2.5 = 2.5
* 1 kolumna, ** 2 kolumna, *** 3 kolumna. * 1 kolumna, ** 2 kolumna, *** 3 kolumna.
X – wynik otrzymany przez daną osobę; X – wynik otrzymany przez daną osobę;
X̄ – średnia wyników otrzymanych; X̄ – średnia wyników otrzymanych;
ΣX – suma wyników otrzymanych; ΣX – suma wyników otrzymanych;
(X–X̄) – odchylenie wyniku otrzymanego przez daną osobę od średniej; (X–X̄) – odchylenie wyniku otrzymanego przez daną osobę od średniej;
(X– X̄)2 – kwadrat odchylenia wyniku otrzymanego przez daną osobę od średniej; (X– X̄)2 – kwadrat odchylenia wyniku otrzymanego przez daną osobę od średniej;
Σ(X– X̄)2 – suma kwadratów odchyleń wyników otrzymanych od średniej; Σ(X– X̄)2 – suma kwadratów odchyleń wyników otrzymanych od średniej;
s2 – wariancja wyników. s2 – wariancja wyników.
95 95

W przykładzie wariancja każdej pozycji wynosi 2,5, zatem suma wariancji W przykładzie wariancja każdej pozycji wynosi 2,5, zatem suma wariancji
wszystkich pozycji równa się 10. Wariancja całego testu wynosi 25. Podstawiając wszystkich pozycji równa się 10. Wariancja całego testu wynosi 25. Podstawiając
uzyskane dane do wzoru 5.5, otrzymujemy: uzyskane dane do wzoru 5.5, otrzymujemy:
4 10 4 10
α= ( 1− ) = 0,80 α= ( 1− ) = 0,80
4 −1 25 4 −1 25
Zgodność wewnętrzna wskazuje, na ile dany test jest jednorodny (homoge- Zgodność wewnętrzna wskazuje, na ile dany test jest jednorodny (homoge-
niczny), czyli na ile wszystkie pozycje w teście odnoszą się do tej samej cechy niczny), czyli na ile wszystkie pozycje w teście odnoszą się do tej samej cechy
(czynnika). Im bardziej jednorodny zbiór pytań (zadań) tworzących test (tzn. wy- (czynnika). Im bardziej jednorodny zbiór pytań (zadań) tworzących test (tzn. wy-
soko skorelowanych ze sobą), tym wyższą otrzyma się zgodność wewnętrzną. soko skorelowanych ze sobą), tym wyższą otrzyma się zgodność wewnętrzną.
Założenie o jednoczynnikowej strukturze testu może być szczególnie ważne Założenie o jednoczynnikowej strukturze testu może być szczególnie ważne
w przypadku baterii testów. Przykładem takiego testu jest narzędzie do pomiaru w przypadku baterii testów. Przykładem takiego testu jest narzędzie do pomiaru
inteligencji APIS-Z (Matczak, Jaworowska, Szustrowa i Ciechanowicz, 2006), inteligencji APIS-Z (Matczak, Jaworowska, Szustrowa i Ciechanowicz, 2006),
które składa się z ośmiu podtestów. Autorki uznały, że chcąc oszacować rze- które składa się z ośmiu podtestów. Autorki uznały, że chcąc oszacować rze-
telność dla wyniku ogólnego (sumy wyników przeliczonych z poszczególnych telność dla wyniku ogólnego (sumy wyników przeliczonych z poszczególnych
podtestów), należy wybrać inną metodę niż zgodność wewnętrzna, gdyż w przy- podtestów), należy wybrać inną metodę niż zgodność wewnętrzna, gdyż w przy-
padku tej baterii testów trudno mówić o jej jednorodności. padku tej baterii testów trudno mówić o jej jednorodności.
Oszacowanie rzetelności metodą zgodności wewnętrznej stosowano m.in. Oszacowanie rzetelności metodą zgodności wewnętrznej stosowano m.in.
w Inwentarzu Osobowości NEO-FFI Costy i McCrae. Narzędzie to stworzono w Inwentarzu Osobowości NEO-FFI Costy i McCrae. Narzędzie to stworzono
do pomiaru tzw. Wielkiej Piątki, czyli ekstrawersji, neurotyczności, otwarto- do pomiaru tzw. Wielkiej Piątki, czyli ekstrawersji, neurotyczności, otwarto-
ści na doświadczenie, sumienności i ugodowości. Zdaniem autorów są to ce- ści na doświadczenie, sumienności i ugodowości. Zdaniem autorów są to ce-
chy uniwersalne, co oznacza możliwość ich wyodrębnienia, niezależnie od ba- chy uniwersalne, co oznacza możliwość ich wyodrębnienia, niezależnie od ba-
danej kultury, płci i wieku itd. Autorzy polskiej adaptacji (Zawadzki, Strelau, danej kultury, płci i wieku itd. Autorzy polskiej adaptacji (Zawadzki, Strelau,
Szczepaniak i Śliwińska, 1998) zbadali zgodność wewnętrzną przy użyciu wzo- Szczepaniak i Śliwińska, 1998) zbadali zgodność wewnętrzną przy użyciu wzo-
ru alfa Cronbacha. Wyniki, w zależności od skali, wahały się od 0,68 do 0,86. ru alfa Cronbacha. Wyniki, w zależności od skali, wahały się od 0,68 do 0,86.
Dokonano także oszacowania rzetelności w grupach jednorodnych ze względu na Dokonano także oszacowania rzetelności w grupach jednorodnych ze względu na
płeć i wiek. Okazało się, że w grupie kobiet i mężczyzn wartość alfa Cronbacha płeć i wiek. Okazało się, że w grupie kobiet i mężczyzn wartość alfa Cronbacha
jest do siebie zbliżona, ale wykazuje dużą zmienność w zależności od wieku ba- jest do siebie zbliżona, ale wykazuje dużą zmienność w zależności od wieku ba-
danych. Jednorodność skal obniża się wraz z wiekiem i jest najniższa w grupie danych. Jednorodność skal obniża się wraz z wiekiem i jest najniższa w grupie
osób z przedziału wiekowego 50–80. Współczynnik alfa Cronbacha jest szcze- osób z przedziału wiekowego 50–80. Współczynnik alfa Cronbacha jest szcze-
gólnie niski w przypadku skali otwartości i wynosi 0,44 dla kobiet i 0,50 dla męż- gólnie niski w przypadku skali otwartości i wynosi 0,44 dla kobiet i 0,50 dla męż-
czyzn. Przykład ten pokazuje, w jaki sposób współczynnik zgodności wewnętrz- czyzn. Przykład ten pokazuje, w jaki sposób współczynnik zgodności wewnętrz-
nej może być zależny od konkretnej próby. W jednej grupie test może okazać się nej może być zależny od konkretnej próby. W jednej grupie test może okazać się
bardziej jednorodny, a w innej mniej. bardziej jednorodny, a w innej mniej.
Zgodność wewnętrzna służy do badania rzetelności pomiaru testem oraz wskazuje na Zgodność wewnętrzna służy do badania rzetelności pomiaru testem oraz wskazuje na
stopień, w jakim pozycje testowe odnoszą się do tego samego konstruktu. Polega na stopień, w jakim pozycje testowe odnoszą się do tego samego konstruktu. Polega na
jednokrotnym badaniu testem grupy osób. jednokrotnym badaniu testem grupy osób.
96 96

5.1.5. Zgodność ocen sędziów 5.1.5. Zgodność ocen sędziów

Innym sposobem szacowania rzetelności może być stopień zgodności ocen Innym sposobem szacowania rzetelności może być stopień zgodności ocen
wydawanych przez sędziów kompetentnych. Metoda ta stosowana jest najczę- wydawanych przez sędziów kompetentnych. Metoda ta stosowana jest najczę-
ściej w przypadku testów, w których pytania mają charakter otwarty i nie ma ściej w przypadku testów, w których pytania mają charakter otwarty i nie ma
klucza pozwalającego na jednoznaczną ocenę odpowiedzi badanych. Sędziowie klucza pozwalającego na jednoznaczną ocenę odpowiedzi badanych. Sędziowie
przyznają punkty za odpowiedzi na pozycje testowe tych samych osób. W przy- przyznają punkty za odpowiedzi na pozycje testowe tych samych osób. W przy-
padku tej metody ważne jest, aby sędziowie byli dobrze zaznajomieni z przyję- padku tej metody ważne jest, aby sędziowie byli dobrze zaznajomieni z przyję-
tymi kryteriami oceny, a także, by ich oceny były niezależne od siebie. Miarą tymi kryteriami oceny, a także, by ich oceny były niezależne od siebie. Miarą
rzetelności jest tu stopień zgodności między sędziami. Jeżeli test ocenia dwóch rzetelności jest tu stopień zgodności między sędziami. Jeżeli test ocenia dwóch
sędziów, najczęściej oblicza się prosty współczynnik korelacji (np. r-Pearsona), sędziów, najczęściej oblicza się prosty współczynnik korelacji (np. r-Pearsona),
w przypadku większej liczby oceniających wykorzystuje się współczynnik kore- w przypadku większej liczby oceniających wykorzystuje się współczynnik kore-
lacji W-Kendalla (zob. np. Brzeziński, 1996). Wartość (od 0 do 1) współczynnika lacji W-Kendalla (zob. np. Brzeziński, 1996). Wartość (od 0 do 1) współczynnika
wskazuje na stopień zgodności między sędziami – im wyższa wartość, tym wyż- wskazuje na stopień zgodności między sędziami – im wyższa wartość, tym wyż-
sza zbieżność ocen. Warto zauważyć, że w wypadku analizy zgodności sędziów, sza zbieżność ocen. Warto zauważyć, że w wypadku analizy zgodności sędziów,
uzyskany współczynnik w istocie informuje o rzetelności ocen dokonanych przez uzyskany współczynnik w istocie informuje o rzetelności ocen dokonanych przez
sędziów. sędziów.
Źródłem błędu omawianej metody szacowania rzetelności jest subiektywność Źródłem błędu omawianej metody szacowania rzetelności jest subiektywność
ocen sędziów. Na współczynnik zgodności mogą bowiem wpływać różnice po- ocen sędziów. Na współczynnik zgodności mogą bowiem wpływać różnice po-
między sędziami. Duża rozbieżność w ocenach wskazuje na znaczący udział między sędziami. Duża rozbieżność w ocenach wskazuje na znaczący udział
czynników subiektywnych. Przykładem narzędzia, w którym zastosowano oma- czynników subiektywnych. Przykładem narzędzia, w którym zastosowano oma-
wianą metodę jest Test Niedokończonych Zdań Rottera (Jaworowska i Matczak, wianą metodę jest Test Niedokończonych Zdań Rottera (Jaworowska i Matczak,
1998). Test ten składa się z początków zdań, które osoba badana ma uzupełnić 1998). Test ten składa się z początków zdań, które osoba badana ma uzupełnić
zgodnie ze swoimi skojarzeniami i odczuciami. Na podstawie przyjętych kryte- zgodnie ze swoimi skojarzeniami i odczuciami. Na podstawie przyjętych kryte-
riów, diagnosta przyznaje punkty za każde uzupełnienie. Jak zauważają autorki riów, diagnosta przyznaje punkty za każde uzupełnienie. Jak zauważają autorki
polskiego opracowania, przy tego rodzaju procedurze istnieje element subiek- polskiego opracowania, przy tego rodzaju procedurze istnieje element subiek-
tywizmu. Problem rzetelności wiąże się z pytaniem, czy gdyby ten sam arkusz tywizmu. Problem rzetelności wiąże się z pytaniem, czy gdyby ten sam arkusz
odpowiedzi oceniały różne osoby, to wynik ogólny byłby taki sam czy też nie. odpowiedzi oceniały różne osoby, to wynik ogólny byłby taki sam czy też nie.
Badając rzetelność tego testu, wylosowano po 30 protokołów mężczyzn i ko- Badając rzetelność tego testu, wylosowano po 30 protokołów mężczyzn i ko-
biet z każdej z trzech wersji testu. Następnie odpowiedzi osób badanych ocenia- biet z każdej z trzech wersji testu. Następnie odpowiedzi osób badanych ocenia-
ne były przez dwóch sędziów kompetentnych, dysponujących kryteriami oceny. ne były przez dwóch sędziów kompetentnych, dysponujących kryteriami oceny.
W celu ustalenia zbieżności między sędziami, obliczono współczynnik korelacji W celu ustalenia zbieżności między sędziami, obliczono współczynnik korelacji
rangowej ρ Spearmana. Wartości korelacji wahały się od 0,89 do 0,97. rangowej ρ Spearmana. Wartości korelacji wahały się od 0,89 do 0,97.
Zgodność ocen sędziów zastosowano również w Teście Płynności Figuralnej Zgodność ocen sędziów zastosowano również w Teście Płynności Figuralnej
Ruffa (RFFT) (Łojek i Stańczak, 2007). W teście tym osobie badanej prezentuje Ruffa (RFFT) (Łojek i Stańczak, 2007). W teście tym osobie badanej prezentuje
się kwadraty z rozmieszczonym w nich układem kropek oraz bodźców zakłócają- się kwadraty z rozmieszczonym w nich układem kropek oraz bodźców zakłócają-
cych. Zadaniem badanego jest połączenie linią prostą co najmniej dwóch kropek cych. Zadaniem badanego jest połączenie linią prostą co najmniej dwóch kropek
tak, aby powstała nowa figura. Badający zlicza liczbę unikalnych połączeń oraz tak, aby powstała nowa figura. Badający zlicza liczbę unikalnych połączeń oraz
liczbę błędów perseweracyjnych. Autorki polskiej adaptacji zwracają uwagę, że liczbę błędów perseweracyjnych. Autorki polskiej adaptacji zwracają uwagę, że
w RFFT mogą się pojawić rozbieżności w ocenianiu, wynikające z różnorodno- w RFFT mogą się pojawić rozbieżności w ocenianiu, wynikające z różnorodno-
ści możliwych do popełnienia pomyłek perseweracyjnych. Badacz może czasem ści możliwych do popełnienia pomyłek perseweracyjnych. Badacz może czasem
błędnie zakwalifikować jako poprawną figurę powtórzoną lub jako niepoprawny 97 błędnie zakwalifikować jako poprawną figurę powtórzoną lub jako niepoprawny 97

wzór oryginalny. W związku z tym, zdecydowano się oszacować rzetelność me- wzór oryginalny. W związku z tym, zdecydowano się oszacować rzetelność me-
todą zgodności sędziów, aby określić, na ile jednoznaczny jest algorytm ocenia- todą zgodności sędziów, aby określić, na ile jednoznaczny jest algorytm ocenia-
nia. Uzyskany wysoki współczynnik W-Kendalla wskazywał na dużą zbieżność nia. Uzyskany wysoki współczynnik W-Kendalla wskazywał na dużą zbieżność
ocen trzech sędziów oraz mały wpływ czynników subiektywnych. ocen trzech sędziów oraz mały wpływ czynników subiektywnych.
Zgodność ocen sędziów służy do badania rzetelności pomiaru testem oraz wskazuje, Zgodność ocen sędziów służy do badania rzetelności pomiaru testem oraz wskazuje,
na ile obiektywna jest ocena odpowiedzi osób badanych. Polega na tym, że te same na ile obiektywna jest ocena odpowiedzi osób badanych. Polega na tym, że te same
arkusze odpowiedzi są oceniane przez sędziów kompetentnych. arkusze odpowiedzi są oceniane przez sędziów kompetentnych.
5.1.6. Porównanie metod szacowania rzetelności 5.1.6. Porównanie metod szacowania rzetelności
Przed wybraniem metody estymacji rzetelności, należy uwzględnić specyfikę Przed wybraniem metody estymacji rzetelności, należy uwzględnić specyfikę
testu oraz czynniki wpływające na wartość danego współczynnika. Każdy z nich testu oraz czynniki wpływające na wartość danego współczynnika. Każdy z nich
bowiem, mówi o innym, specyficznym źródle błędu. Poniżej prezentujemy skró- bowiem, mówi o innym, specyficznym źródle błędu. Poniżej prezentujemy skró-
towe zestawienie wszystkich metod szacowania rzetelności (tabela 5.3.). towe zestawienie wszystkich metod szacowania rzetelności (tabela 5.3.).
Tabela 5.3. Zestawienie metod szacowania rzetelności Tabela 5.3. Zestawienie metod szacowania rzetelności
1 2 3 4 1 2 3 4
Metoda Źródło błędu specy Informacje o teście Najczęstsze zastoso Metoda Źródło błędu specy Informacje o teście Najczęstsze zastoso
ficzne dla metody wanie ficzne dla metody wanie
Wiarygod Losowe zmiany W jakim stopniu Testy, w których Wiarygod Losowe zmiany W jakim stopniu Testy, w których
ność testu związane ze stanem test jest wrażliwy na uczenie się nie ma ność testu związane ze stanem test jest wrażliwy na uczenie się nie ma
osoby badanej i sytu przypadkowe zmiany wpływu na wyniki np. osoby badanej i sytu przypadkowe zmiany wpływu na wyniki np.
acją badania związane z osobą testy motoryczne; acją badania związane z osobą testy motoryczne;
badaną i sytuacją testy na czas reakcji badaną i sytuacją testy na czas reakcji
testowania testowania
Stabilność Losowe zmiany W jakim stopniu Przy pomiarze cech Stabilność Losowe zmiany W jakim stopniu Przy pomiarze cech
bezwzględna związane z upływem wyniki testu są stałe np. kwestionariusze bezwzględna związane z upływem wyniki testu są stałe np. kwestionariusze
czasu w czasie osobowości, testy czasu w czasie osobowości, testy
inteligencji inteligencji
Równoważ Dobór pozycji do Stopień podobień Rzadko stosowana Równoważ Dobór pozycji do Stopień podobień Rzadko stosowana
ność wersji testu stwa między wersjami metoda ność wersji testu stwa między wersjami metoda
międzytes alternatywnymi testu międzytes alternatywnymi testu
towa towa
Stabilność Dobór pozycji do Stopień podobień Przy pomiarze cech Stabilność Dobór pozycji do Stopień podobień Przy pomiarze cech
względna wersji testu stwa między wersjami np. kwestionariusze względna wersji testu stwa między wersjami np. kwestionariusze
alternatywnymi testu. osobowości, testy alternatywnymi testu. osobowości, testy
W jakim stopniu inteligencji W jakim stopniu inteligencji
pomiar jest stały pomiar jest stały
w czasie w czasie
98 98

Tabela 5.3. c.d. Tabela 5.3. c.d.
1 2 3 4 1 2 3 4
Metoda po Dobór pozycji do W jakim stopniu test Testy, w których Metoda po Dobór pozycji do W jakim stopniu test Testy, w których
łówkowa połówek testu jest jednorodny pozycje mają różną łówkowa połówek testu jest jednorodny pozycje mają różną
trudność np. testy trudność np. testy
inteligencji inteligencji
Zgodność Niejednorodność W jakim stopniu test Testy, w których po Zgodność Niejednorodność W jakim stopniu test Testy, w których po
wewnętrzna pozycji testu jest jednorodny zycje są równoległe wewnętrzna pozycji testu jest jednorodny zycje są równoległe
np. kwestionariusze np. kwestionariusze
osobowości; testy osobowości; testy
mierzące style, stany mierzące style, stany
Zgodność Niejasne kryteria W jakim stopniu na Testy, w których brak Zgodność Niejasne kryteria W jakim stopniu na Testy, w których brak
ocen sędziów oceny odpowiedzi; ocenę odpowiedzi jednoznacznych ocen sędziów oceny odpowiedzi; ocenę odpowiedzi jednoznacznych
rozbieżność ocen osób badanych kryteriów oceny od rozbieżność ocen osób badanych kryteriów oceny od
sędziów wpływają czynniki su powiedzi, np. metody sędziów wpływają czynniki su powiedzi, np. metody
biektywne związane swobodne biektywne związane swobodne
z oceniającymi z oceniającymi
5.1.7. Metody szacowania rzetelności w SPSS 5.1.7. Metody szacowania rzetelności w SPSS

W części tej zostaną zaprezentowane procedury obliczania wcześniej omó- W części tej zostaną zaprezentowane procedury obliczania wcześniej omó-
wionych współczynników rzetelności, za pomocą pakietu statystycznego SPSS. wionych współczynników rzetelności, za pomocą pakietu statystycznego SPSS.
Każda omówiona metoda zawiera przykład, który został policzony na danych Każda omówiona metoda zawiera przykład, który został policzony na danych
znajdujących się na dołączonej do podręcznika płycie. W tekście, w nawiasach, znajdujących się na dołączonej do podręcznika płycie. W tekście, w nawiasach,
znajdują się nazwy plików zawierających dane, na których był liczony konkretny znajdują się nazwy plików zawierających dane, na których był liczony konkretny
przykład. przykład.
5.1.7.1. Metody dwukrotnego badania tej samej grupy osób 5.1.7.1. Metody dwukrotnego badania tej samej grupy osób
W części tej zostanie opisany sposób obliczania wiarygodności testu, stabil- W części tej zostanie opisany sposób obliczania wiarygodności testu, stabil-
ności bezwzględnej, równoważności międzytestowej i stabilności względnej ności bezwzględnej, równoważności międzytestowej i stabilności względnej
w SPSS. W metodach tych jako współczynnik rzetelności traktowana będzie w SPSS. W metodach tych jako współczynnik rzetelności traktowana będzie
wartość korelacji r-Pearsona między pierwszym a drugim pomiarem danym te- wartość korelacji r-Pearsona między pierwszym a drugim pomiarem danym te-
stem (dla wiarygodności testu i stabilności bezwzględnej) albo między pomiarem stem (dla wiarygodności testu i stabilności bezwzględnej) albo między pomiarem
testem pierwszym a drugim (dla równoważności międzytestowej i stabilności testem pierwszym a drugim (dla równoważności międzytestowej i stabilności
względnej). Mówiąc inaczej, miarą rzetelności pomiaru testem będzie wielkość względnej). Mówiąc inaczej, miarą rzetelności pomiaru testem będzie wielkość
korelacji między dwoma zbiorami wyników danej grupy osób. Wymienione me- korelacji między dwoma zbiorami wyników danej grupy osób. Wymienione me-
tody zostaną omówione razem, gdyż sposób postępowania w przypadku każdej tody zostaną omówione razem, gdyż sposób postępowania w przypadku każdej
z nich jest identyczny. Procedura postępowania zostanie omówiona na przykła- z nich jest identyczny. Procedura postępowania zostanie omówiona na przykła-
dzie. dzie.
W pierwszym kroku należy uzyskać dwa zbiory wyników testu na danej gru- W pierwszym kroku należy uzyskać dwa zbiory wyników testu na danej gru-
pie osób i policzyć dla każdej osoby wynik otrzymany (sumaryczny wynik w te- pie osób i policzyć dla każdej osoby wynik otrzymany (sumaryczny wynik w te-
ście). 99 ście). 99

Rysunek 5.1. Okienko arkusza danych z wynikami testu przygotowanymi do analizy sta Rysunek 5.1. Okienko arkusza danych z wynikami testu przygotowanymi do analizy sta
bilności bezwzględnej bilności bezwzględnej
W prezentowanym przykładzie (plik danych: stabilnosc.sav) przebadano 100 W prezentowanym przykładzie (plik danych: stabilnosc.sav) przebadano 100
osób dwa razy tym samym testem z tygodniową przerwą między pomiarami osób dwa razy tym samym testem z tygodniową przerwą między pomiarami
(czyli przeprowadzono badanie stabilności bezwzględnej). Test, którego rze- (czyli przeprowadzono badanie stabilności bezwzględnej). Test, którego rze-
telność sprawdzono, składa się z 10 pozycji. W sumie można było uzyskać od telność sprawdzono, składa się z 10 pozycji. W sumie można było uzyskać od
10 do 20 punktów. Obliczono wyniki całkowite dla każdej osoby, w pierwszym 10 do 20 punktów. Obliczono wyniki całkowite dla każdej osoby, w pierwszym
i drugim pomiarze tym testem, które następnie wprowadzono do arkusza danych i drugim pomiarze tym testem, które następnie wprowadzono do arkusza danych
SPSS. Wiersze reprezentują kolejne osoby badane, a kolumny – wyniki otrzyma- SPSS. Wiersze reprezentują kolejne osoby badane, a kolumny – wyniki otrzyma-
ne w pierwszym i drugim badaniu (rys. 5.1.). W następnej kolejności należy obli- ne w pierwszym i drugim badaniu (rys. 5.1.). W następnej kolejności należy obli-
czyć korelację między oboma zbiorami wyników. Jak wspomnieliśmy wcześniej, czyć korelację między oboma zbiorami wyników. Jak wspomnieliśmy wcześniej,
istotne jest również sprawdzenie równości średnich z obu pomiarów. W tym celu istotne jest również sprawdzenie równości średnich z obu pomiarów. W tym celu
należy wejść w: Analiza -> Porównywanie średnich -> Test t dla prób zależnych należy wejść w: Analiza -> Porównywanie średnich -> Test t dla prób zależnych
(rys. 5.2.). (rys. 5.2.).
Rysunek 5.2. Okienko wyboru testu t dla prób zależnych Rysunek 5.2. Okienko wyboru testu t dla prób zależnych
100 100

Rysunek 5.3. Okienko testu t dla prób zależnych Rysunek 5.3. Okienko testu t dla prób zależnych
Po przerzuceniu zmiennych pomiar1 i pomiar2, należy kliknąć OK (rys. 5.3.). Po przerzuceniu zmiennych pomiar1 i pomiar2, należy kliknąć OK (rys. 5.3.).
Rysunek 5.4. Wydruk analizy testu t dla prób zależnych Rysunek 5.4. Wydruk analizy testu t dla prób zależnych
Ukaże się wydruk analizy (rys. 5.4.). Z tabeli dolnej „Test dla prób zależ- Ukaże się wydruk analizy (rys. 5.4.). Z tabeli dolnej „Test dla prób zależ-
nych” można odczytać istotność dwustronną, która wskazuje, czy wystąpiły róż- nych” można odczytać istotność dwustronną, która wskazuje, czy wystąpiły róż-
nice między średnimi pomiaru 1 i pomiaru 2. W prezentowanym przykładzie nice między średnimi pomiaru 1 i pomiaru 2. W prezentowanym przykładzie
różnice nie wystąpiły, gdyż istotność dwustronna jest większa od wartości 0,05. różnice nie wystąpiły, gdyż istotność dwustronna jest większa od wartości 0,05.
Skoro spełnione jest założenie o równości średnich między pomiarami, możemy Skoro spełnione jest założenie o równości średnich między pomiarami, możemy
odczytać wartość korelacji r-Pearsona z tabeli „Korelacje dla prób zależnych”. odczytać wartość korelacji r-Pearsona z tabeli „Korelacje dla prób zależnych”.
Wynosi ona 0,982 przy poziomie istotności p<0,001. Zatem rzetelność naszego Wynosi ona 0,982 przy poziomie istotności p<0,001. Zatem rzetelność naszego
testu badana metodą stabilności bezwzględnej wynosi 0,982. Ponieważ nie wy- testu badana metodą stabilności bezwzględnej wynosi 0,982. Ponieważ nie wy-
stąpił żaden efekt, który powodowałby podwyższenie lub obniżenie wyników stąpił żaden efekt, który powodowałby podwyższenie lub obniżenie wyników
(średnie pomiarów nie różnią się), uprawnione jest stwierdzenie, że wyniki tego (średnie pomiarów nie różnią się), uprawnione jest stwierdzenie, że wyniki tego
testu są stałe w czasie. testu są stałe w czasie.
101 101

5.1.7.2. Metoda połówkowa w SPSS 5.1.7.2. Metoda połówkowa w SPSS

W części tej zostanie przedstawiony sposób obliczania rzetelności metodą po- W części tej zostanie przedstawiony sposób obliczania rzetelności metodą po-
łówkową Spearmana-Browna w SPSS na poniższym przykładzie. łówkową Spearmana-Browna w SPSS na poniższym przykładzie.
Skonstruowano kwestionariusz osobowości, składający się z 20 pytań. Zbadano Skonstruowano kwestionariusz osobowości, składający się z 20 pytań. Zbadano
jego rzetelność za pomocą metody połówkowej. Przebadano w tym celu 60 stu- jego rzetelność za pomocą metody połówkowej. Przebadano w tym celu 60 stu-
dentów. Ich wyniki zapisano w arkuszu danych programu SPSS (plik danych: dentów. Ich wyniki zapisano w arkuszu danych programu SPSS (plik danych:
połówkowa.sav). W wierszach znajdują się wyniki kolejnych osób, a w kolum- połówkowa.sav). W wierszach znajdują się wyniki kolejnych osób, a w kolum-
nach o nagłówkach p1, p2,..., p20 znajdują się odpowiedzi na kolejne pytania nach o nagłówkach p1, p2,..., p20 znajdują się odpowiedzi na kolejne pytania
(rys. 5.5.). (rys. 5.5.).
Rysunek 5.5. Okienko arkusza danych z wynikami testu przygotowanymi do analizy rze Rysunek 5.5. Okienko arkusza danych z wynikami testu przygotowanymi do analizy rze
telności metodą połówkową telności metodą połówkową
Aby obliczyć rzetelność należy wejść do: Analiza->Skalowanie->Analiza rze- Aby obliczyć rzetelność należy wejść do: Analiza->Skalowanie->Analiza rze-
telności (rys. 5.6.). Następnie należy zaznaczyć model połówkowy oraz przerzu- telności (rys. 5.6.). Następnie należy zaznaczyć model połówkowy oraz przerzu-
cić wszystkie pozycje testu do okna „Elementy” (rys. 5.7.). cić wszystkie pozycje testu do okna „Elementy” (rys. 5.7.).
Rysunek 5.6. Okienko wyboru analizy rzetelności Rysunek 5.6. Okienko wyboru analizy rzetelności
102 102

Rysunek 5.7. Okienko analizy rzetelności z zaznaczonym modelem połówkowym Rysunek 5.7. Okienko analizy rzetelności z zaznaczonym modelem połówkowym
Wydruk analizy rzetelności metodą połówkową prezentuje rys. 5.8. Wydruk analizy rzetelności metodą połówkową prezentuje rys. 5.8.
Rysunek 5.8. Wydruk analizy rzetelności metodą połówkową Rysunek 5.8. Wydruk analizy rzetelności metodą połówkową
Rzetelność powyższego testu zbadana metodą połówkową wynosi 0,703. Rzetelność powyższego testu zbadana metodą połówkową wynosi 0,703.
Współczynnik Spearmana-Browna w tym przykładzie jest taki sam przy zało- Współczynnik Spearmana-Browna w tym przykładzie jest taki sam przy zało-
żeniu równej i nierównej długości testu. Wartości te różniłyby się nieznacznie, żeniu równej i nierównej długości testu. Wartości te różniłyby się nieznacznie,
gdyby test składał się, inaczej niż w powyższym przykładzie, z nieparzystej licz- gdyby test składał się, inaczej niż w powyższym przykładzie, z nieparzystej licz-
by pozycji. by pozycji.
Korelacja międzypołówkowa to współczynnik korelacji r-Pearsona między Korelacja międzypołówkowa to współczynnik korelacji r-Pearsona między
wyodrębnionymi połowami testu. Po podstawieniu tej wartości (0,542) do wzoru wyodrębnionymi połowami testu. Po podstawieniu tej wartości (0,542) do wzoru
5.1, w miejsce rpp uzyskalibyśmy wyliczoną wartość współczynnika Spearmana- 5.1, w miejsce rpp uzyskalibyśmy wyliczoną wartość współczynnika Spearmana-
-Browna przy założeniu o równej długości. -Browna przy założeniu o równej długości.
103 103

Poniżej znajduje się wiersz poleceń do wykonania analizy rzetelności metodą Poniżej znajduje się wiersz poleceń do wykonania analizy rzetelności metodą
połówkową dla wcześniejszego przykładu. połówkową dla wcześniejszego przykładu.
RELIABILITY RELIABILITY
/VARIABLES=p1 p2 p3 p4 p5 p6 p7 p8 p9 p10 p11 p12 p13 p14 p15 p16 p17 /VARIABLES=p1 p2 p3 p4 p5 p6 p7 p8 p9 p10 p11 p12 p13 p14 p15 p16 p17
p18 p19 p20 p18 p19 p20
/SCALE(‘ALL VARIABLES’) ALL/MODEL=SPLIT. /SCALE(‘ALL VARIABLES’) ALL/MODEL=SPLIT.
Podział na połowy dokonuje się w taki sposób, że do pierwszej części zalicza Podział na połowy dokonuje się w taki sposób, że do pierwszej części zalicza
się pozycje od p1 do p10 a do drugiej pozostałe. Aby zbadać rzetelność połówko- się pozycje od p1 do p10 a do drugiej pozostałe. Aby zbadać rzetelność połówko-
wą przy innym podziale testu na połowy, np. dzieląc go na pozycje parzyste i nie- wą przy innym podziale testu na połowy, np. dzieląc go na pozycje parzyste i nie-
parzyste, należałoby w polu „Elementy” (rys. 5.7.) wprowadzić najpierw pozycje parzyste, należałoby w polu „Elementy” (rys. 5.7.) wprowadzić najpierw pozycje
o numerach nieparzystych (czyli 1, 3, 5 itd.), a następnie o numerach parzystych o numerach nieparzystych (czyli 1, 3, 5 itd.), a następnie o numerach parzystych
(czyli 2, 4, 6 itd.). Wiersz poleceń wyglądałby wtedy następująco: (czyli 2, 4, 6 itd.). Wiersz poleceń wyglądałby wtedy następująco:
p16 p18 p20 p16 p18 p20
/SCALE(‘ALL VARIABLES’) ALL/MODEL=SPLIT. /SCALE(‘ALL VARIABLES’) ALL/MODEL=SPLIT.
5.1.7.3. Alfa Cronbacha w SPSS 5.1.7.3. Alfa Cronbacha w SPSS

W części tej zostanie przedstawiony sposób obliczania zgodności wewnętrznej W części tej zostanie przedstawiony sposób obliczania zgodności wewnętrznej
za pomocą alfy Cronbacha w SPSS na poniższym przykładzie. za pomocą alfy Cronbacha w SPSS na poniższym przykładzie.
Skonstruowano kwestionariusz osobowości, składający się z 20 pytań, i za- Skonstruowano kwestionariusz osobowości, składający się z 20 pytań, i za-
planowano zbadać jego zgodność wewnętrzną. Przebadano w tym celu 60 osób, planowano zbadać jego zgodność wewnętrzną. Przebadano w tym celu 60 osób,
a ich wyniki zapisano w arkuszu danych programu SPSS (alfa.sav). W wierszach a ich wyniki zapisano w arkuszu danych programu SPSS (alfa.sav). W wierszach
znajdują się wyniki kolejnych osób, a w kolumnach o nagłówkach p1,p2,...,p20 znajdują się wyniki kolejnych osób, a w kolumnach o nagłówkach p1,p2,...,p20
znajdują się odpowiedzi na kolejne pytania. Aby policzyć alfę Cronbacha, należy znajdują się odpowiedzi na kolejne pytania. Aby policzyć alfę Cronbacha, należy
wejść do: Analiza-> Skalowanie-> Analiza rzetelności (rys. 5.6.). wejść do: Analiza-> Skalowanie-> Analiza rzetelności (rys. 5.6.).
Wszystkie pozycje, składające się na skalę, której zgodność będzie badana, Wszystkie pozycje, składające się na skalę, której zgodność będzie badana,
należy przerzucić do okna „Elementy:” (rys. 5.9.). Należy zwrócić uwagę, czy należy przerzucić do okna „Elementy:” (rys. 5.9.). Należy zwrócić uwagę, czy
w okienku „Model:” zaznaczona jest „Alfa”. Po kliknięciu przycisku „Statystyki”, w okienku „Model:” zaznaczona jest „Alfa”. Po kliknięciu przycisku „Statystyki”,
pokaże się okno (rys. 5.10.), w którym warto zaznaczyć opcję „Skala przy wy- pokaże się okno (rys. 5.10.), w którym warto zaznaczyć opcję „Skala przy wy-
kluczeniu pozycji”. Opcja ta umożliwia przewidzenie wartości alfy, jeśli usunięto kluczeniu pozycji”. Opcja ta umożliwia przewidzenie wartości alfy, jeśli usunięto
by daną pozycję z analizy rzetelności. Po kliknięciu „Dalej” i „OK”, pojawią się by daną pozycję z analizy rzetelności. Po kliknięciu „Dalej” i „OK”, pojawią się
wydruki przeprowadzonej analizy (rys. 5.11.). wydruki przeprowadzonej analizy (rys. 5.11.).
Wartość alfy należy odczytać z okna „Alfa Cronbacha”. Dla analizowanego Wartość alfy należy odczytać z okna „Alfa Cronbacha”. Dla analizowanego
kwestionariusza wynosi ona 0,715. Z tabeli „Statystyki pozycji Ogółem” można kwestionariusza wynosi ona 0,715. Z tabeli „Statystyki pozycji Ogółem” można
odczytać, że zgodność wewnętrzna tego kwestionariusza wzrosłaby najbardziej, odczytać, że zgodność wewnętrzna tego kwestionariusza wzrosłaby najbardziej,
104 gdyby usunąć pozycję p13, i wyniosłaby wtedy 0,728. Zatem, można zwiększać 104 gdyby usunąć pozycję p13, i wyniosłaby wtedy 0,728. Zatem, można zwiększać

zgodność wewnętrzną poprzez eliminowanie pozycji testu, które zmniejszają zgodność wewnętrzną poprzez eliminowanie pozycji testu, które zmniejszają
jego rzetelność. jego rzetelność.
Poniżej znajduje się wiersz poleceń do wykonania analizy rzetelności metodą Poniżej znajduje się wiersz poleceń do wykonania analizy rzetelności metodą
alfy Cronbacha dla powyższego przykładu. alfy Cronbacha dla powyższego przykładu.
p18 p19 p20 p18 p19 p20
/SCALE(‘ALL VARIABLES’) ALL/MODEL=ALPHA /SCALE(‘ALL VARIABLES’) ALL/MODEL=ALPHA
/SUMMARY=TOTAL . /SUMMARY=TOTAL .
Rysunek 5.9. Okienko analizy rzetelności z zaznaczoną alfą Cronbacha Rysunek 5.9. Okienko analizy rzetelności z zaznaczoną alfą Cronbacha
Rysunek 5.10. Okienko statystyki w analizie rzetelności Rysunek 5.10. Okienko statystyki w analizie rzetelności
105 105

Rysunek 5.11. Wydruk analizy rzetelności metodą alfy Cronbacha Rysunek 5.11. Wydruk analizy rzetelności metodą alfy Cronbacha
5.1.7.4. Rzetelność pomiaru testem jako zgodność sędziów w SPSS 5.1.7.4. Rzetelność pomiaru testem jako zgodność sędziów w SPSS
W części tej zostanie przedstawiony sposób obliczania zgodności sędziów W części tej zostanie przedstawiony sposób obliczania zgodności sędziów
w SPSS na poniższym przykładzie. w SPSS na poniższym przykładzie.
Skonstruowano test rysunkowy do badania nasilenia depresyjności u dzieci. Skonstruowano test rysunkowy do badania nasilenia depresyjności u dzieci.
Polega on na poproszeniu dziecka o narysowanie domu na czystej kartce A4, stan- Polega on na poproszeniu dziecka o narysowanie domu na czystej kartce A4, stan-
dardowym, dwunastokolorowym zestawem kredek. Przebadano nim dziesięcioro dardowym, dwunastokolorowym zestawem kredek. Przebadano nim dziesięcioro
dzieci. Ponieważ nie ma prostego klucza przyznawania punktów za wykonanie dzieci. Ponieważ nie ma prostego klucza przyznawania punktów za wykonanie
tego testu (tzn. nie ma szablonu, który można by przyłożyć do rysunku i zliczyć tego testu (tzn. nie ma szablonu, który można by przyłożyć do rysunku i zliczyć
punkty), poproszono trzech sędziów o ocenę wykonania każdego testu i przyznanie punkty), poproszono trzech sędziów o ocenę wykonania każdego testu i przyznanie
odpowiedniej liczby punktów w zależności od nasilenia depresyjności. Sędziowie odpowiedniej liczby punktów w zależności od nasilenia depresyjności. Sędziowie
dysponują kryteriami do przyznawania punktów, gdzie 0 oznacza brak depresji, dysponują kryteriami do przyznawania punktów, gdzie 0 oznacza brak depresji,
a 10 – jej wysokie nasilenie. Oceny testów zostały przedstawione na rys. 5.12. a 10 – jej wysokie nasilenie. Oceny testów zostały przedstawione na rys. 5.12.
Rysunek 5.12. Okienko arkusza danych z wynikami przygotowanymi do analizy zgodno Rysunek 5.12. Okienko arkusza danych z wynikami przygotowanymi do analizy zgodno
106 ści sędziów 106 ści sędziów

Każdy wiersz reprezentuje sędziego, a kolumny – kolejne dzieci, których testy Każdy wiersz reprezentuje sędziego, a kolumny – kolejne dzieci, których testy
były oceniane. Zaznaczona komórka reprezentuje ocenę przeprowadzoną przez były oceniane. Zaznaczona komórka reprezentuje ocenę przeprowadzoną przez
trzeciego sędziego testu wykonanego przez dziecko numer 10. Tak przygotowane trzeciego sędziego testu wykonanego przez dziecko numer 10. Tak przygotowane
dane można podać analizie zgodności sędziów (zgodnosc_sedziow.sav). W tym dane można podać analizie zgodności sędziów (zgodnosc_sedziow.sav). W tym
celu należy wejść do: Analiza-> Testy nieparametryczne-> K prób zależnych celu należy wejść do: Analiza-> Testy nieparametryczne-> K prób zależnych
(rys. 5.13.) i przenieść wszystkie zmienne do okna „Zmienne testowane” oraz (rys. 5.13.) i przenieść wszystkie zmienne do okna „Zmienne testowane” oraz
zaznaczyć na dole test „W Kendalla” (jednocześnie odznaczając „Friedman”, dla zaznaczyć na dole test „W Kendalla” (jednocześnie odznaczając „Friedman”, dla
przejrzystości wydruku analiz) (rys. 5.14.). przejrzystości wydruku analiz) (rys. 5.14.).
Rysunek 5.13. Okienko wyboru analizy zgodności sędziów Rysunek 5.13. Okienko wyboru analizy zgodności sędziów
Rysunek 5.14. Okienko testów dla kilku prób zależnych z zaznaczonym W-Kendalla Rysunek 5.14. Okienko testów dla kilku prób zależnych z zaznaczonym W-Kendalla
107 107

Rysunek 5.15. Wydruk analizy W-Kendalla Rysunek 5.15. Wydruk analizy W-Kendalla
Rys. 5.15. przedstawia wydruk analiz. Najbardziej interesujący jest współ- Rys. 5.15. przedstawia wydruk analiz. Najbardziej interesujący jest współ-
czynnik W-Kendalla, który wynosi 0,919, przy poziomie istotności 0,003 czynnik W-Kendalla, który wynosi 0,919, przy poziomie istotności 0,003
(W = 0,913; chi2(9) = 24,811; p<0,01). Oznacza to, że sędziowie dość zgodnie (W = 0,913; chi2(9) = 24,811; p<0,01). Oznacza to, że sędziowie dość zgodnie
ocenili testy wykonane przez poszczególne dzieci, co oznacza wysoką rzetel- ocenili testy wykonane przez poszczególne dzieci, co oznacza wysoką rzetel-
ność tego testu. ność tego testu.
Poniżej znajduje się wiersz poleceń do obliczenia współczynnika W-Kendalla Poniżej znajduje się wiersz poleceń do obliczenia współczynnika W-Kendalla
dla zaprezentowanego przykładu. dla zaprezentowanego przykładu.
NPAR TESTS NPAR TESTS

/KENDALL = os1 os2 os3 os4 os5 os6 os7 os8 os9 os10 /KENDALL = os1 os2 os3 os4 os5 os6 os7 os8 os9 os10
/MISSING LISTWISE. /MISSING LISTWISE.

1. Wyjaśnij, w jaki sposób założenie o równoległości testów odnosi się do 1. Wyjaśnij, w jaki sposób założenie o równoległości testów odnosi się do
wszystkich omówionych metod szacowania rzetelności. wszystkich omówionych metod szacowania rzetelności.
2. Wskaż podobieństwa i różnice między współczynnikiem stabilności bez- 2. Wskaż podobieństwa i różnice między współczynnikiem stabilności bez-
względnej a współczynnikiem stabilności względnej. względnej a współczynnikiem stabilności względnej.
3. Zbadano dwukrotnie 100 osób pewnym kwestionariuszem osobowości w od- 3. Zbadano dwukrotnie 100 osób pewnym kwestionariuszem osobowości w od-
stępie 2 tygodni. Uzyskano korelację pomiędzy pomiarami równą 0,8 oraz stępie 2 tygodni. Uzyskano korelację pomiędzy pomiarami równą 0,8 oraz
108 istotne statystycznie różnice w średnich w obu badaniach. Czy na podstawie 108 istotne statystycznie różnice w średnich w obu badaniach. Czy na podstawie

uzyskanych wyników możemy powiedzieć, że kwestionariusz ten jest stabil- uzyskanych wyników możemy powiedzieć, że kwestionariusz ten jest stabil-
ny czasowo? Uzasadnij odpowiedź. ny czasowo? Uzasadnij odpowiedź.
4. Od czego zależy długość przerwy czasowej w badaniu stabilności względnej? 4. Od czego zależy długość przerwy czasowej w badaniu stabilności względnej?
5. Skonstruowano test inteligencji płynnej, w którym poziom trudności zadań 5. Skonstruowano test inteligencji płynnej, w którym poziom trudności zadań
wzrasta stopniowo. Jakiej metody szacowania rzetelności w grupie dzieci na- wzrasta stopniowo. Jakiej metody szacowania rzetelności w grupie dzieci na-
leżałoby użyć w tym przypadku? Uzasadnij wybór. leżałoby użyć w tym przypadku? Uzasadnij wybór.
6. W pewnym teście ocenia się osobowość osób badanych na podstawie ich 6. W pewnym teście ocenia się osobowość osób badanych na podstawie ich
skojarzeń z określonymi słowami. Badani mają zapisywać wszystkie skoja- skojarzeń z określonymi słowami. Badani mają zapisywać wszystkie skoja-
rzenia, jakie przychodzą im do głowy w związku z danym słowem. W celu rzenia, jakie przychodzą im do głowy w związku z danym słowem. W celu
oszacowania rzetelności tego testu, arkusze odpowiedzi osób badanych przed- oszacowania rzetelności tego testu, arkusze odpowiedzi osób badanych przed-
stawiono trzem kompetentnym psychologom. Poproszono ich, aby na pod- stawiono trzem kompetentnym psychologom. Poproszono ich, aby na pod-
stawie określonych kryteriów ocenili każdą odpowiedź badanych na skali stawie określonych kryteriów ocenili każdą odpowiedź badanych na skali
od 1 do 3. Następnie obliczono współczynnik W-Kendalla i uzyskano war- od 1 do 3. Następnie obliczono współczynnik W-Kendalla i uzyskano war-
tość 0,1. O czym świadczy ten wynik? tość 0,1. O czym świadczy ten wynik?
Zadania Zadania
1. W pewnym teście inteligencji postanowiono obliczyć rzetelność metodą po- 1. W pewnym teście inteligencji postanowiono obliczyć rzetelność metodą po-
łówkową. Po zbadaniu odpowiedniej grupy osób, podzielono test na dwie łówkową. Po zbadaniu odpowiedniej grupy osób, podzielono test na dwie
połówki. W jednej znajdowały się pozycje parzyste a w drugiej nieparzyste. połówki. W jednej znajdowały się pozycje parzyste a w drugiej nieparzyste.
Następnie obliczono współczynnik korelacji między połówkami, który wyno- Następnie obliczono współczynnik korelacji między połówkami, który wyno-
sił 0,6. Oblicz rzetelność tego testu. sił 0,6. Oblicz rzetelność tego testu.
2. Poniżej, w tabeli 5.4., przedstawiono wyniki pięciu osób uzyskane w pewnym 2. Poniżej, w tabeli 5.4., przedstawiono wyniki pięciu osób uzyskane w pewnym
kwestionariuszu osobowości. Kwestionariusz składał się z czterech pozycji, kwestionariuszu osobowości. Kwestionariusz składał się z czterech pozycji,
a zakres możliwych odpowiedzi wyrażony był na trójstopniowej skali (od 1 a zakres możliwych odpowiedzi wyrażony był na trójstopniowej skali (od 1
do 3). Oblicz jego zgodność wewnętrzną przy użyciu wzoru alfa Cronbacha do 3). Oblicz jego zgodność wewnętrzną przy użyciu wzoru alfa Cronbacha
na podstawie przedstawionych danych. na podstawie przedstawionych danych.
Tabela 5.4. Wyniki pięciu osób w kolejnych, czterech pozycjach testowych Tabela 5.4. Wyniki pięciu osób w kolejnych, czterech pozycjach testowych
Pozycje testowe Pozycje testowe

Osoby Osoby
1234 1234
1 2211 1 2211
2 2122 2 2122
3 3323 3 3323
4 2222 4 2222
5 1232 5 1232
109 109

Zadania w SPSS Zadania w SPSS

Poniżej prezentujemy zadania do obliczenia w SPSS. Dane zawarte są na pły- Poniżej prezentujemy zadania do obliczenia w SPSS. Dane zawarte są na pły-
cie dołączonej do podręcznika. cie dołączonej do podręcznika.
1. Skonstruowano kwestionariusz mierzący pewną cechę osobowości. 1. Skonstruowano kwestionariusz mierzący pewną cechę osobowości.
Przebadano nim dwukrotnie 100 osób w odstępie 3 tygodni. Uzyskane dane Przebadano nim dwukrotnie 100 osób w odstępie 3 tygodni. Uzyskane dane
zawiera zbiór o nazwie „rzetelnosc1.sav”. Wybierz odpowiednią metodę i zin- zawiera zbiór o nazwie „rzetelnosc1.sav”. Wybierz odpowiednią metodę i zin-
terpretuj uzyskany współczynnik rzetelności. terpretuj uzyskany współczynnik rzetelności.
2. Pewnym kwestionariuszem osobowości, składającym się z 20 pytań, zbadano 2. Pewnym kwestionariuszem osobowości, składającym się z 20 pytań, zbadano
120 osób. W zbiorze danych o nazwie „rzetelnosc2.sav” przedstawiono od- 120 osób. W zbiorze danych o nazwie „rzetelnosc2.sav” przedstawiono od-
powiedzi badanych na każde pytanie. Założono, że wszystkie pozycje mają powiedzi badanych na każde pytanie. Założono, że wszystkie pozycje mają
podobne wskaźniki trudności i są względem siebie równoległe. Wybierz naj- podobne wskaźniki trudności i są względem siebie równoległe. Wybierz naj-
odpowiedniejszą metodę i zinterpretuj uzyskany współczynnik rzetelności. odpowiedniejszą metodę i zinterpretuj uzyskany współczynnik rzetelności.
3. W zbiorze danych „rzetelnosc3.sav” zawarto wyniki 60 osób uzyskanych 3. W zbiorze danych „rzetelnosc3.sav” zawarto wyniki 60 osób uzyskanych
w pewnym teście inteligencji. Test składał się z 20 zadań. W każdym z nich w pewnym teście inteligencji. Test składał się z 20 zadań. W każdym z nich
badani mogli uzyskać 1 punkt za poprawne rozwiązanie lub 0 za odpowiedź badani mogli uzyskać 1 punkt za poprawne rozwiązanie lub 0 za odpowiedź
niepoprawną. Zadania miały rosnący stopień trudności. Wybierz odpowiednią niepoprawną. Zadania miały rosnący stopień trudności. Wybierz odpowiednią
metodę i zinterpretuj uzyskany współczynnik rzetelności. metodę i zinterpretuj uzyskany współczynnik rzetelności.
4. Skonstruowano pewien test do badania pamięci wzrokowej. Polega on na 4. Skonstruowano pewien test do badania pamięci wzrokowej. Polega on na
tym, że osobie badanej prezentuje się pewną figurę przez 3 minuty, po czym, tym, że osobie badanej prezentuje się pewną figurę przez 3 minuty, po czym,
po 10 minutach, prosi się osobę, aby odtworzyła ją z pamięci. Diagnosta, na po 10 minutach, prosi się osobę, aby odtworzyła ją z pamięci. Diagnosta, na
podstawie przyjętych kryteriów, ocenia wykonanie zadania na skali od 1 do podstawie przyjętych kryteriów, ocenia wykonanie zadania na skali od 1 do
10. W celu zbadania rzetelności tego testu poproszono trzech kompetentnych 10. W celu zbadania rzetelności tego testu poproszono trzech kompetentnych
psychologów o ocenienie rysunków 20 osób. Dane z tego badania zawiera psychologów o ocenienie rysunków 20 osób. Dane z tego badania zawiera
zbiór o nazwie „rzetelnosc4.sav”. Wybierz odpowiednią metodę i zinterpretuj zbiór o nazwie „rzetelnosc4.sav”. Wybierz odpowiednią metodę i zinterpretuj
uzyskany współczynnik rzetelności. uzyskany współczynnik rzetelności.
110 110

5.2. Trafność pomiaru testem 5.2. Trafność pomiaru testem

W niniejszym rozdziale przedstawione zostaną najważniejsze informacje doty- W niniejszym rozdziale przedstawione zostaną najważniejsze informacje doty-
czące trafności pomiarów dokonywanych przy użyciu testów psychologicznych. czące trafności pomiarów dokonywanych przy użyciu testów psychologicznych.
Omówione zostaną trzy główne rodzaje trafności oraz sposoby ich szacowania. Omówione zostaną trzy główne rodzaje trafności oraz sposoby ich szacowania.
5.2.1. Pojęcie trafności i jej związek z innymi właściwościami testu 5.2.1. Pojęcie trafności i jej związek z innymi właściwościami testu
Tradycyjnie trafność pomiaru testem rozumiana jest jako właściwość wskazu- Tradycyjnie trafność pomiaru testem rozumiana jest jako właściwość wskazu-
jąca, czy test istotnie mierzy to, do mierzenia czego został skonstruowany. Innymi jąca, czy test istotnie mierzy to, do mierzenia czego został skonstruowany. Innymi
słowy, trafność pomiaru testem to stopień, w jakim interpretacja jego wyników słowy, trafność pomiaru testem to stopień, w jakim interpretacja jego wyników
jest zgodna ze stanem faktycznym. Jednak bardziej ogólnie można powiedzieć, jest zgodna ze stanem faktycznym. Jednak bardziej ogólnie można powiedzieć,
że trafność pomiaru testem informuje o tym, jakie wnioski mogą być wyciąga- że trafność pomiaru testem informuje o tym, jakie wnioski mogą być wyciąga-
ne na jego podstawie. Przykładowo trafność może dotyczyć takich zagadnień, ne na jego podstawie. Przykładowo trafność może dotyczyć takich zagadnień,
jak: W jakim stopniu wyniki testu A mierzą zdolności matematyczne?; W jakim jak: W jakim stopniu wyniki testu A mierzą zdolności matematyczne?; W jakim
stopniu można przewidywać powodzenie na studiach na podstawie wyników stopniu można przewidywać powodzenie na studiach na podstawie wyników
testu B?; Czy kwestionariusz C dobrze diagnozuje chorobę alkoholową?; Czy testu B?; Czy kwestionariusz C dobrze diagnozuje chorobę alkoholową?; Czy
test D mierzy jedynie inteligencję czy też jakieś inne właściwości psychiczne test D mierzy jedynie inteligencję czy też jakieś inne właściwości psychiczne
człowieka?. Jak widać we wszystkich tych przykładach chodziło o konkretne człowieka?. Jak widać we wszystkich tych przykładach chodziło o konkretne
zastosowanie testu, a także o możliwości interpretacyjne uzyskanych wyników. zastosowanie testu, a także o możliwości interpretacyjne uzyskanych wyników.
Zatem np. trafny test inteligencji informuje wiernie o poziomie inteligencji czło- Zatem np. trafny test inteligencji informuje wiernie o poziomie inteligencji czło-
wieka, a decyzje podjęte na jego podstawie, takie jak np. skierowanie dziecka do wieka, a decyzje podjęte na jego podstawie, takie jak np. skierowanie dziecka do
szkoły specjalnej, są słuszne i zgodne ze stanem rzeczywistym. W poruszonym szkoły specjalnej, są słuszne i zgodne ze stanem rzeczywistym. W poruszonym
przykładzie oznaczałoby to, że dziecko wymaga specjalnego toku nauczania ze przykładzie oznaczałoby to, że dziecko wymaga specjalnego toku nauczania ze
względu na upośledzenie. Co więcej, w toku badań nad trafnością może okazać względu na upośledzenie. Co więcej, w toku badań nad trafnością może okazać
się, że możliwości interpretacyjne wyników danego testu mogą być szersze nić się, że możliwości interpretacyjne wyników danego testu mogą być szersze nić
początkowo zakładano. początkowo zakładano.
Zmienne, takie jak inteligencja, czy też ekstrawersja wykazały swoją użytecz- Zmienne, takie jak inteligencja, czy też ekstrawersja wykazały swoją użytecz-
ność w wielu badaniach naukowych i praktyce psychologicznej. Za ich pomocą ność w wielu badaniach naukowych i praktyce psychologicznej. Za ich pomocą
można wyjaśniać, opisywać i przewidywać zachowanie ludzi. Takie wewnętrzne można wyjaśniać, opisywać i przewidywać zachowanie ludzi. Takie wewnętrzne
ukryte właściwości człowieka nazywamy zmiennymi latentnymi (nieobserwo- ukryte właściwości człowieka nazywamy zmiennymi latentnymi (nieobserwo-
walnymi), natomiast odzwierciedlające je wyniki testowe – zmiennymi mani- walnymi), natomiast odzwierciedlające je wyniki testowe – zmiennymi mani-
festowanymi. W psychologii, podobnie jak w wielu innych naukach, istnienie festowanymi. W psychologii, podobnie jak w wielu innych naukach, istnienie
tego typu zmiennych postulują określone teorie naukowe. Historia psychologii tego typu zmiennych postulują określone teorie naukowe. Historia psychologii
111 111

dostarcza jednak również przykładów pojęć, których użyteczność okazała się dostarcza jednak również przykładów pojęć, których użyteczność okazała się
bardzo niska. Dlatego badanie trafności pomiaru testem dobrze jest zacząć od bardzo niska. Dlatego badanie trafności pomiaru testem dobrze jest zacząć od
refleksji dotyczącej tego, co w zasadzie chcemy mierzyć oraz czy cecha, którą refleksji dotyczącej tego, co w zasadzie chcemy mierzyć oraz czy cecha, którą
test mierzy, jest rzeczywiście wymiarem pomagającym zrozumieć zachowanie test mierzy, jest rzeczywiście wymiarem pomagającym zrozumieć zachowanie
człowieka. Budując test inteligencji zakładamy, że taka zmienna, jak „inteligen- człowieka. Budując test inteligencji zakładamy, że taka zmienna, jak „inteligen-
cja” istnieje naprawdę, niezależnie od konkretnego testu, czyli że jest ona czymś cja” istnieje naprawdę, niezależnie od konkretnego testu, czyli że jest ona czymś
więcej niż tylko wynikiem testu. Co więcej, na podstawie wyniku testu inteligen- więcej niż tylko wynikiem testu. Co więcej, na podstawie wyniku testu inteligen-
cji chcemy wyciągać niekiedy daleko idące wnioski, np. o przydatności osoby do cji chcemy wyciągać niekiedy daleko idące wnioski, np. o przydatności osoby do
pracy, szansach na ukończenie szkoły itd. pracy, szansach na ukończenie szkoły itd.
To założenie o istnieniu danej cechy wynika z konkretnej teorii psycholo- To założenie o istnieniu danej cechy wynika z konkretnej teorii psycholo-
gicznej, a pośrednio potwierdzone jest przez wyniki badań empirycznych. Sama gicznej, a pośrednio potwierdzone jest przez wyniki badań empirycznych. Sama
cecha jest jednak nieobserwowalna, a jej istnienie założone jest jedynie przez cecha jest jednak nieobserwowalna, a jej istnienie założone jest jedynie przez
teorię. Oznacza to, że trudno jest zbudować dobry test na podstawie złej teorii teorię. Oznacza to, że trudno jest zbudować dobry test na podstawie złej teorii
psychologicznej, która np. w mało jasno sposób definiuje daną cechę czy też nie psychologicznej, która np. w mało jasno sposób definiuje daną cechę czy też nie
precyzuje jej przejawów. Pewnym wyjątkiem od powyższej zasady są testy ukie- precyzuje jej przejawów. Pewnym wyjątkiem od powyższej zasady są testy ukie-
runkowane na przewidywanie kryteriów. Dokładniej będzie o nich mowa w czę- runkowane na przewidywanie kryteriów. Dokładniej będzie o nich mowa w czę-
ści poświęconej trafności kryterialnej (patrz punkt 5.2.2.3.). ści poświęconej trafności kryterialnej (patrz punkt 5.2.2.3.).
Trafność jest najważniejszą własnością testu. Zależy ona od innych właści- Trafność jest najważniejszą własnością testu. Zależy ona od innych właści-
wości, na które autorowi testu łatwiej jest wpływać. Aby test był trafny, musi wości, na które autorowi testu łatwiej jest wpływać. Aby test był trafny, musi
spełniać warunki: rzetelności, normalizacji, standaryzacji i obiektywizmu (oczy- spełniać warunki: rzetelności, normalizacji, standaryzacji i obiektywizmu (oczy-
wiście są to warunki wzajemnie powiązane). Są to warunki konieczne trafności wiście są to warunki wzajemnie powiązane). Są to warunki konieczne trafności
pomiaru testem, jednak nie są one wystarczające. Aby pomiar testowy był trafny, pomiaru testem, jednak nie są one wystarczające. Aby pomiar testowy był trafny,
musi on dodatkowo być dobrym wskaźnikiem badanej zmiennej latentnej. Zanim musi on dodatkowo być dobrym wskaźnikiem badanej zmiennej latentnej. Zanim
jednak zajmiemy się sposobami dowodzenia związku między wynikami testu jednak zajmiemy się sposobami dowodzenia związku między wynikami testu
a nieobserwowalną bezpośrednio cechą psychologiczną, przekonajmy się, w jaki a nieobserwowalną bezpośrednio cechą psychologiczną, przekonajmy się, w jaki
sposób trafność zależy od pozostałych cech testu. sposób trafność zależy od pozostałych cech testu.
Test o nieustalonej standaryzacji nie może być trafny, ponieważ jego wynik Test o nieustalonej standaryzacji nie może być trafny, ponieważ jego wynik
będzie zależał od niesystematycznych wpływów odmiennie podawanej instrukcji będzie zależał od niesystematycznych wpływów odmiennie podawanej instrukcji
i różnego zachowania się badającego psychologa w stosunku do różnych osób i różnego zachowania się badającego psychologa w stosunku do różnych osób
badanych. Niewłaściwa instrukcja może nie wzbudzić należytej motywacji do badanych. Niewłaściwa instrukcja może nie wzbudzić należytej motywacji do
poprawnego wykonywania zadań lub też po prostu nie wyjaśnić ich w dostatecz- poprawnego wykonywania zadań lub też po prostu nie wyjaśnić ich w dostatecz-
nym stopniu. Uzyskany wynik będzie zafałszowany, a więc wnioski wyciągnięte nym stopniu. Uzyskany wynik będzie zafałszowany, a więc wnioski wyciągnięte
na jego podstawie z pewnością nie będą prawidłowe. na jego podstawie z pewnością nie będą prawidłowe.
Jeśli nie będą ustalone w sposób jasny zasady interpretacji wyników, a więc Jeśli nie będą ustalone w sposób jasny zasady interpretacji wyników, a więc
test nie będzie obiektywny, wnioski wyciągane na jego podstawie będą niepra- test nie będzie obiektywny, wnioski wyciągane na jego podstawie będą niepra-
widłowe. Psycholog musi zdawać sobie sprawę z tego, do jakich wniosków test widłowe. Psycholog musi zdawać sobie sprawę z tego, do jakich wniosków test
go upoważnia, do jakich zaś nie. Częstym błędem jest wnioskowanie na pod- go upoważnia, do jakich zaś nie. Częstym błędem jest wnioskowanie na pod-
stawie testu o cechach, do których odnosi się on pośrednio. Badanie trafności stawie testu o cechach, do których odnosi się on pośrednio. Badanie trafności
musi dotyczyć nie tylko testu jako jednej całości, lecz także każdego rodzaju musi dotyczyć nie tylko testu jako jednej całości, lecz także każdego rodzaju
wniosków, które mogą być wysnuwane na podstawie jego wyników. Tak więc wniosków, które mogą być wysnuwane na podstawie jego wyników. Tak więc
112 wnioski z testu muszą być ograniczone do sytuacji, w których został on spraw- 112 wnioski z testu muszą być ograniczone do sytuacji, w których został on spraw-

dzony. Obiektywizm testu, a więc zbiór reguł dochodzenia od wyników testu do dzony. Obiektywizm testu, a więc zbiór reguł dochodzenia od wyników testu do
wniosków diagnostycznych, jest warunkiem jego trafności. wniosków diagnostycznych, jest warunkiem jego trafności.
Normalizacja (zagadnienie to szerzej opisano w rozdziale 6.2.) oznacza za- Normalizacja (zagadnienie to szerzej opisano w rozdziale 6.2.) oznacza za-
opatrzenie testu w pewien układ odniesienia. Dzięki normom testowym możemy opatrzenie testu w pewien układ odniesienia. Dzięki normom testowym możemy
wiedzieć, że dany wynik jest niski, przeciętny lub też wysoki na tle populacji. wiedzieć, że dany wynik jest niski, przeciętny lub też wysoki na tle populacji.
Oznacza to, że jeśli chcemy wyciągać z testu poprawne wnioski, musimy posia- Oznacza to, że jeśli chcemy wyciągać z testu poprawne wnioski, musimy posia-
dać odpowiedni dla danej sytuacji układ odniesienia. Dobrym przykładem ilu- dać odpowiedni dla danej sytuacji układ odniesienia. Dobrym przykładem ilu-
strującym ten problem są testy koordynacji, wykorzystywane w badaniach kie- strującym ten problem są testy koordynacji, wykorzystywane w badaniach kie-
rowców. Normy do tych testów zostały ułożone na podstawie badań mężczyzn. rowców. Normy do tych testów zostały ułożone na podstawie badań mężczyzn.
Kobiety z reguły uzyskują w podobnych zadaniach niższe wyniki niż mężczyźni. Kobiety z reguły uzyskują w podobnych zadaniach niższe wyniki niż mężczyźni.
Zatem kobieta badana tego typu testem, uzyskująca wynik przeciętny w grupie Zatem kobieta badana tego typu testem, uzyskująca wynik przeciętny w grupie
kobiet może zostać oceniona jako osoba o obniżonym poziomie badanej cechy, kobiet może zostać oceniona jako osoba o obniżonym poziomie badanej cechy,
gdyż jej wynik został porównany z normami opracowanymi dla mężczyzn. Brak gdyż jej wynik został porównany z normami opracowanymi dla mężczyzn. Brak
adekwatnej normalizacji powoduje błędne wnioski, a zatem zakłóca również traf- adekwatnej normalizacji powoduje błędne wnioski, a zatem zakłóca również traf-
ność pomiaru testem. Oczywiście próg nakazujący uznanie osoby za niezdolną do ność pomiaru testem. Oczywiście próg nakazujący uznanie osoby za niezdolną do
prowadzenia pojazdu powinien być ustalony obiektywnie i niezależnie od płci, prowadzenia pojazdu powinien być ustalony obiektywnie i niezależnie od płci,
jednak trzeba pamiętać, że kobieta uzyskująca w teście wynik przeciętny według jednak trzeba pamiętać, że kobieta uzyskująca w teście wynik przeciętny według
norm dla mężczyzn charakteryzuje się koordynacją powyżej średniej dla kobiet. norm dla mężczyzn charakteryzuje się koordynacją powyżej średniej dla kobiet.
Powyższe uwagi dotyczą sytuacji diagnozy indywidualnej, nie zaś badań na- Powyższe uwagi dotyczą sytuacji diagnozy indywidualnej, nie zaś badań na-
ukowych, w których dopuszcza się wykorzystywanie nieznormalizowanych wy- ukowych, w których dopuszcza się wykorzystywanie nieznormalizowanych wy-
ników testowych. W badaniach naukowych nie formułuje się zwykle wniosków ników testowych. W badaniach naukowych nie formułuje się zwykle wniosków
dotyczących pojedynczych osób, a jedynie całych grup badanych. W takiej sy- dotyczących pojedynczych osób, a jedynie całych grup badanych. W takiej sy-
tuacji nie są więc potrzebne normy, a tym samym nie wpływają one na trafność tuacji nie są więc potrzebne normy, a tym samym nie wpływają one na trafność
formułowanych wniosków. formułowanych wniosków.
W szczególny sposób powiązane są pojęcia trafności i rzetelności. Rzetelność, W szczególny sposób powiązane są pojęcia trafności i rzetelności. Rzetelność,
przypomnijmy, oznacza dokładność, precyzję pomiaru. Test rzetelny to test przypomnijmy, oznacza dokładność, precyzję pomiaru. Test rzetelny to test
obarczony małym błędem. Nierzetelny test nie może być trafny, gdyż duży błąd obarczony małym błędem. Nierzetelny test nie może być trafny, gdyż duży błąd
pomiaru uniemożliwia sformułowanie jakichkolwiek wniosków. Mówimy, że pomiaru uniemożliwia sformułowanie jakichkolwiek wniosków. Mówimy, że
rzetelność jest granicą trafności pomiaru testem, warunkiem koniecznym po- rzetelność jest granicą trafności pomiaru testem, warunkiem koniecznym po-
prawnego wnioskowania. prawnego wnioskowania.
Warunek ten nie jest jednak wystarczający, gdyż dokładność pomiaru nie gwa- Warunek ten nie jest jednak wystarczający, gdyż dokładność pomiaru nie gwa-
rantuje sensowności wniosków. Najdokładniejszy test, czyli test o bardzo wy- rantuje sensowności wniosków. Najdokładniejszy test, czyli test o bardzo wy-
sokiej rzetelności, nie musi mierzyć założonej zmiennej. W celu wykazania, że sokiej rzetelności, nie musi mierzyć założonej zmiennej. W celu wykazania, że
tak jest rzeczywiście konieczne są szczegółowe badania trafności, co opisano tak jest rzeczywiście konieczne są szczegółowe badania trafności, co opisano
w dalszej części. w dalszej części.
Warto zasygnalizować również odwrotny problem. Jedna z metod szaco- Warto zasygnalizować również odwrotny problem. Jedna z metod szaco-
wania rzetelności pomiaru testem polega na badaniu jego jednorodności (roz- wania rzetelności pomiaru testem polega na badaniu jego jednorodności (roz-
dział 5.1.4.). Może zdarzyć się tak, że test o skrajnie wysokim współczynniku dział 5.1.4.). Może zdarzyć się tak, że test o skrajnie wysokim współczynniku
rzetelności, rozumianej jako zgodność wewnętrzna, narażony jest na obniżenie rzetelności, rozumianej jako zgodność wewnętrzna, narażony jest na obniżenie
trafności ze względu na nadmierną jednorodność i jednostronność treści pytań trafności ze względu na nadmierną jednorodność i jednostronność treści pytań
lub zadań testowych. Wysoka rzetelność wyznaczona w inny sposób, np. za po- 113 lub zadań testowych. Wysoka rzetelność wyznaczona w inny sposób, np. za po- 113

mocą analizy stabilności testu, nie jest powiązana w żaden sposób z trafnością mocą analizy stabilności testu, nie jest powiązana w żaden sposób z trafnością
pomiaru testem. pomiaru testem.
Tak więc, aby można było zastanawiać nad trafnością pomiaru testem, należy Tak więc, aby można było zastanawiać nad trafnością pomiaru testem, należy
w pierwszej kolejności zapewnić, by był on rzetelny, obiektywny, wystandaryzo- w pierwszej kolejności zapewnić, by był on rzetelny, obiektywny, wystandaryzo-
wany i znormalizowany. wany i znormalizowany.
5.2.2. Rodzaje trafności 5.2.2. Rodzaje trafności

Testy psychologiczne stosowane są w bardzo różnych sytuacjach np. w psy- Testy psychologiczne stosowane są w bardzo różnych sytuacjach np. w psy-
chologii pracy, w diagnostyce klinicznej, w poradnictwie szkolnym i zawodo- chologii pracy, w diagnostyce klinicznej, w poradnictwie szkolnym i zawodo-
wym oraz w badaniach naukowych. Wnioski wyciągane z wyników testów i ich wym oraz w badaniach naukowych. Wnioski wyciągane z wyników testów i ich
interpretacja muszą więc być trafne w bardzo różnych sytuacjach i aspektach. interpretacja muszą więc być trafne w bardzo różnych sytuacjach i aspektach.
Dlatego, między innymi, wyróżnia się kilka rodzajów trafności. Tradycyjnie Dlatego, między innymi, wyróżnia się kilka rodzajów trafności. Tradycyjnie
wyodrębnia się trafność teoretyczną, kryterialną i treściową. Taką też klasyfika- wyodrębnia się trafność teoretyczną, kryterialną i treściową. Taką też klasyfika-
cję rodzajów trafności przedstawiamy w niniejszym podręczniku. Każdy z tych cję rodzajów trafności przedstawiamy w niniejszym podręczniku. Każdy z tych
trzech rodzajów trafności ważny jest w innych zastosowaniach testu. Dalej zosta- trzech rodzajów trafności ważny jest w innych zastosowaniach testu. Dalej zosta-
ną omówione sposoby szacowania poszczególnych rodzajów trafności, a także ną omówione sposoby szacowania poszczególnych rodzajów trafności, a także
zastosowania, w których są one szczególnie istotne. zastosowania, w których są one szczególnie istotne.
5.2.2.1. Trafność treściowa 5.2.2.1. Trafność treściowa

Trafność treściowa (zwana czasem także wewnętrzną) to stopień, w jakim Trafność treściowa (zwana czasem także wewnętrzną) to stopień, w jakim
treść pozycji testowych jest reprezentatywna dla definicji badanej cechy. Badanie treść pozycji testowych jest reprezentatywna dla definicji badanej cechy. Badanie
zgodności pomiędzy definicją zmiennej badanej przez test a zawartością treścio- zgodności pomiędzy definicją zmiennej badanej przez test a zawartością treścio-
wą pozycji jest w zasadzie równoznaczne z oceną trafności treściowej testu. wą pozycji jest w zasadzie równoznaczne z oceną trafności treściowej testu.
Najprostszym przykładem ilustrującym zagadnienie trafności treściowej jest Najprostszym przykładem ilustrującym zagadnienie trafności treściowej jest
test wiadomości szkolnych, którego pytania powinny dotyczyć w jednakowym test wiadomości szkolnych, którego pytania powinny dotyczyć w jednakowym
stopniu wszystkich zagadnień omawianych w ramach danego przedmiotu i jedno- stopniu wszystkich zagadnień omawianych w ramach danego przedmiotu i jedno-
cześnie nie dotyczyć treści nauczanych w ramach innych przedmiotów. Jeśli test cześnie nie dotyczyć treści nauczanych w ramach innych przedmiotów. Jeśli test
ma służyć badaniu zmiennych psychologicznych, sytuacja nieco się komplikuje. ma służyć badaniu zmiennych psychologicznych, sytuacja nieco się komplikuje.
Należy, korzystając z definicji zmiennej, jaką ma mierzyć dany test, określić, z ja- Należy, korzystając z definicji zmiennej, jaką ma mierzyć dany test, określić, z ja-
kich obszarów powinny pochodzić poszczególne elementy materiału testowego. kich obszarów powinny pochodzić poszczególne elementy materiału testowego.
Przykładowo, jeśli postawa wobec pewnego zagadnienia powinna z definicji Przykładowo, jeśli postawa wobec pewnego zagadnienia powinna z definicji
zawierać w sobie komponent poznawczy (wiedzę o tym zagadnieniu), emocjo- zawierać w sobie komponent poznawczy (wiedzę o tym zagadnieniu), emocjo-
nalny (emocje z nim związane) oraz behawioralny (gotowość do podejmowania nalny (emocje z nim związane) oraz behawioralny (gotowość do podejmowania
pewnych zachowań związanych z tym zagadnieniem), to pozycje testu mierzące- pewnych zachowań związanych z tym zagadnieniem), to pozycje testu mierzące-
go ową postawę powinny również zawierać wszystkie powyższe elementy w po- go ową postawę powinny również zawierać wszystkie powyższe elementy w po-
dobnych proporcjach. dobnych proporcjach.
Podobnie, jeśli przyjmie się, że pamięć robocza obejmuje pamięć wzrokowo- Podobnie, jeśli przyjmie się, że pamięć robocza obejmuje pamięć wzrokowo-
przestrzenną oraz werbalną, to test oceniający sprawność pamięci roboczej wi- przestrzenną oraz werbalną, to test oceniający sprawność pamięci roboczej wi-
nien zawierać zadania dotyczące operacji angażujących procesy pamięci realizo- nien zawierać zadania dotyczące operacji angażujących procesy pamięci realizo-
114 wane zarówno na materiale wzrokowo-przestrzennym, jak i werbalnym. 114 wane zarówno na materiale wzrokowo-przestrzennym, jak i werbalnym.

Bardzo ważny jest wybór definicji badanej zmiennej. Analiza definicji umożli- Bardzo ważny jest wybór definicji badanej zmiennej. Analiza definicji umożli-
wia określenie zakresu treściowego mierzonej zmiennej. Istotne jest to, że w psy- wia określenie zakresu treściowego mierzonej zmiennej. Istotne jest to, że w psy-
chologii istnieje niejednokrotnie wiele koncepcji dotyczących zbliżonych za- chologii istnieje niejednokrotnie wiele koncepcji dotyczących zbliżonych za-
gadnień. Z tego powodu możliwe jest znalezienie różnych definicji tych samych gadnień. Z tego powodu możliwe jest znalezienie różnych definicji tych samych
zmiennych. Zależnie od wyboru określonej definicji, test może okazać się trafny zmiennych. Zależnie od wyboru określonej definicji, test może okazać się trafny
bądź też nie. Oceniając trafność treściową, należy sprawdzić, czy wszystkie po- bądź też nie. Oceniając trafność treściową, należy sprawdzić, czy wszystkie po-
zycje testowe należą do zakresu wybranej definicji. zycje testowe należą do zakresu wybranej definicji.
Jako przykład może posłużyć tu teoria osobowości Eysencka. Według tego Jako przykład może posłużyć tu teoria osobowości Eysencka. Według tego
autora (Strelau, 2001) osobowość składa się z trzech wymiarów: ekstrawersji, autora (Strelau, 2001) osobowość składa się z trzech wymiarów: ekstrawersji,
neurotyzmu i psychotyzmu. Załóżmy, że chcemy sprawdzić trafność treściową neurotyzmu i psychotyzmu. Załóżmy, że chcemy sprawdzić trafność treściową
skali przeznaczonej do pomiaru ekstrawersji. W myśl Eysencka na wymiar eks- skali przeznaczonej do pomiaru ekstrawersji. W myśl Eysencka na wymiar eks-
trawersji składają się takie składniki, jak: towarzyskość, żywość, aktywność, trawersji składają się takie składniki, jak: towarzyskość, żywość, aktywność,
asertywność, poszukiwanie doznań, beztroska, dominacja, wybuchowość oraz asertywność, poszukiwanie doznań, beztroska, dominacja, wybuchowość oraz
śmiałość. Oznacza to, że w kwestionariuszu przeznaczonym do pomiaru ekstra- śmiałość. Oznacza to, że w kwestionariuszu przeznaczonym do pomiaru ekstra-
wersji powinny znaleźć się pytania będące reprezentatywną próbką wszystkich wersji powinny znaleźć się pytania będące reprezentatywną próbką wszystkich
tych składników. Nie powinny się tam znaleźć pytania dotyczące np. lęku, gdyż tych składników. Nie powinny się tam znaleźć pytania dotyczące np. lęku, gdyż
jest to składnik innego wymiaru osobowości według Eysencka – neurotyzmu. jest to składnik innego wymiaru osobowości według Eysencka – neurotyzmu.
Wykazanie trafności treściowej skali ekstrawersji na podstawie definicji Wykazanie trafności treściowej skali ekstrawersji na podstawie definicji
Eysencka nie oznacza, że skala ta jest również trafna, jeśli pod uwagę weźmie Eysencka nie oznacza, że skala ta jest również trafna, jeśli pod uwagę weźmie
się jakąś inną definicję. Tak mogłoby się zdarzyć, jeśli odwołalibyśmy się do de- się jakąś inną definicję. Tak mogłoby się zdarzyć, jeśli odwołalibyśmy się do de-
finicji ekstrawersji, np. zaczerpniętej z koncepcji McCrae i Costy (2005). Mimo finicji ekstrawersji, np. zaczerpniętej z koncepcji McCrae i Costy (2005). Mimo
że teorie Eysencka oraz Costy i McCrae są dość zbieżne, to jednak treść pojęć że teorie Eysencka oraz Costy i McCrae są dość zbieżne, to jednak treść pojęć
ekstrawersji jest nieco odmienna. ekstrawersji jest nieco odmienna.
Przyjęta definicja określa nie tylko elementy składowe danego pojęcia, ale tak- Przyjęta definicja określa nie tylko elementy składowe danego pojęcia, ale tak-
że proporcje, w jakich powinny być one uwzględnione w narzędziu. Trafność tre- że proporcje, w jakich powinny być one uwzględnione w narzędziu. Trafność tre-
ściowa dotyczy także tego, czy test proporcjonalnie reprezentuje definiowany ściowa dotyczy także tego, czy test proporcjonalnie reprezentuje definiowany
konstrukt. konstrukt.
Proporcje te są szczególnie istotne w przypadku testów wiadomości stosowa- Proporcje te są szczególnie istotne w przypadku testów wiadomości stosowa-
nych w dydaktyce. Na przykład w teście sprawdzającym z psychometrii znacznych w dydaktyce. Na przykład w teście sprawdzającym z psychometrii znacz-
nie więcej powinno znaleźć się pytań dotyczących zagadnień trafności pomiaru nie więcej powinno znaleźć się pytań dotyczących zagadnień trafności pomiaru
testem niż etyki badań testowych, gdyż tej pierwszej problematyce poświęca testem niż etyki badań testowych, gdyż tej pierwszej problematyce poświęca
się znacznie więcej uwagi w trakcie zajęć. W przypadku pomiaru właściwości się znacznie więcej uwagi w trakcie zajęć. W przypadku pomiaru właściwości
psychicznych kwestia proporcjonalności uwzględnienia poszczególnych składni- psychicznych kwestia proporcjonalności uwzględnienia poszczególnych składni-
ków mierzonej zmiennej jest rozwiązywana w ten sposób, że najczęściej wszyst- ków mierzonej zmiennej jest rozwiązywana w ten sposób, że najczęściej wszyst-
kie składniki uwzględnione są w jednakowym stopniu. Rzadko bowiem można kie składniki uwzględnione są w jednakowym stopniu. Rzadko bowiem można
wskazać, który ze składników jest bardziej istotny. wskazać, który ze składników jest bardziej istotny.
Zbudowanie testu trafnego treściowo powinno zatem polegać na zgromadzeniu Zbudowanie testu trafnego treściowo powinno zatem polegać na zgromadzeniu
pozycji testowych reprezentatywnych dla badanej zmiennej na podstawie przyję- pozycji testowych reprezentatywnych dla badanej zmiennej na podstawie przyję-
tej definicji. Problemem do rozstrzygnięcia jest to, na ile zebrane pozycje testowe tej definicji. Problemem do rozstrzygnięcia jest to, na ile zebrane pozycje testowe
rzeczywiście są reprezentatywne dla definicji badanej cechy. Zagadnienie to roz- rzeczywiście są reprezentatywne dla definicji badanej cechy. Zagadnienie to roz-
wiązuje się najczęściej przy pomocy kilku tzw. sędziów kompetentnych, którymi 115 wiązuje się najczęściej przy pomocy kilku tzw. sędziów kompetentnych, którymi 115

są niezależni eksperci w danej dziedzinie. Sędziowie ci oceniają stopień, w jakim są niezależni eksperci w danej dziedzinie. Sędziowie ci oceniają stopień, w jakim
każda z pozycji testowych odpowiada definicji cechy, którą ma mierzyć test. każda z pozycji testowych odpowiada definicji cechy, którą ma mierzyć test.
Należy pamiętać, że sędziowie powinni być zgodni w opiniach, co do stopnia Należy pamiętać, że sędziowie powinni być zgodni w opiniach, co do stopnia
reprezentatywności poszczególnych pozycji testowych dla badanej cechy, a ich reprezentatywności poszczególnych pozycji testowych dla badanej cechy, a ich
oceny powinny wskazywać, że pozycje testowe odpowiadają definicji skali. Oba oceny powinny wskazywać, że pozycje testowe odpowiadają definicji skali. Oba
te kryteria muszą być sprawdzone statystycznie. W celu sprawdzenia zgodności te kryteria muszą być sprawdzone statystycznie. W celu sprawdzenia zgodności
sędziów można wykorzystać współczynnik W-Kendalla. Wartość tego współ- sędziów można wykorzystać współczynnik W-Kendalla. Wartość tego współ-
czynnika zmienia się w przedziale od 0 do 1. Im wyższa jego wartość, tym wyż- czynnika zmienia się w przedziale od 0 do 1. Im wyższa jego wartość, tym wyż-
sza zbieżność ocen sędziów. Wysoki współczynnik W-Kendalla nie oznacza jesz- sza zbieżność ocen sędziów. Wysoki współczynnik W-Kendalla nie oznacza jesz-
cze, że test jest trafny treściowo, a jedynie, że sędziowie podobnie oceniają jego cze, że test jest trafny treściowo, a jedynie, że sędziowie podobnie oceniają jego
pozycje testowe. Konieczne jest jeszcze przyjrzenie się ocenom wystawionym pozycje testowe. Konieczne jest jeszcze przyjrzenie się ocenom wystawionym
przez sędziów. Tylko jeśli sędziowie są zgodni i wystawiali wysokie oceny poprzez sędziów. Tylko jeśli sędziowie są zgodni i wystawiali wysokie oceny po-
szczególnym pozycjom testowym, test jest trafny. Oczywiście może się zdarzyć, szczególnym pozycjom testowym, test jest trafny. Oczywiście może się zdarzyć,
że sędziowie są zgodni, ale wystawiali niskie oceny. Oznacza to, że test nie jest że sędziowie są zgodni, ale wystawiali niskie oceny. Oznacza to, że test nie jest
trafny. Może się zdarzyć także, że niektóre pozycje testowe uzyskały oceny wy- trafny. Może się zdarzyć także, że niektóre pozycje testowe uzyskały oceny wy-
sokie, a niektóre – niskie. Przy dużej zgodności sędziów oznacza to, że te pozycje sokie, a niektóre – niskie. Przy dużej zgodności sędziów oznacza to, że te pozycje
testowe, które uzyskały niskie oceny są nietrafne, pozostałe zaś – trafne. testowe, które uzyskały niskie oceny są nietrafne, pozostałe zaś – trafne.
Wykorzystanie sędziów kompetentnych w szacowaniu trafności treściowej Wykorzystanie sędziów kompetentnych w szacowaniu trafności treściowej
ilustruje następujący fikcyjny przykład. Załóżmy, że zbudowano skalę postawy ilustruje następujący fikcyjny przykład. Załóżmy, że zbudowano skalę postawy
wobec zasad bezpieczeństwa ruchu drogowego, rozumianej jako stosunek do for- wobec zasad bezpieczeństwa ruchu drogowego, rozumianej jako stosunek do for-
malnych i nieformalnych norm regulujących poruszanie się po drogach, wyraża- malnych i nieformalnych norm regulujących poruszanie się po drogach, wyraża-
jący się w poszukiwaniu informacji, przeżywaniu emocji i stosowaniu się do tych jący się w poszukiwaniu informacji, przeżywaniu emocji i stosowaniu się do tych
zasad. Sformułowano 6 pytań dotyczących komponentu poznawczego (pytania 1 zasad. Sformułowano 6 pytań dotyczących komponentu poznawczego (pytania 1
i 2), emocjonalnego (pytania 3 i 4) i behawioralnego (pytania 5 i 6) tej postawy. i 2), emocjonalnego (pytania 3 i 4) i behawioralnego (pytania 5 i 6) tej postawy.
Poproszono trzech sędziów, psychologów społecznych i wojskowych o ocenę, Poproszono trzech sędziów, psychologów społecznych i wojskowych o ocenę,
czy treść każdej z pozycji skali jest zgodna z definicją postawy wobec bezpie- czy treść każdej z pozycji skali jest zgodna z definicją postawy wobec bezpie-
czeństwa ruchu drogowego. Sędziowie ustosunkowywali się do treści każdego czeństwa ruchu drogowego. Sędziowie ustosunkowywali się do treści każdego
pytania skali, oceniając je na pięciostopniowej skali: 5 – Całkowicie zgodna z de- pytania skali, oceniając je na pięciostopniowej skali: 5 – Całkowicie zgodna z de-
finicją, 4 – Zasadniczo zgodna z definicją, 3 – Zgodna w przeciętnym stopniu finicją, 4 – Zasadniczo zgodna z definicją, 3 – Zgodna w przeciętnym stopniu
z definicją, 2 – W niewielkim stopniu zgodna z definicją, 1 – Niezgodna z defini- z definicją, 2 – W niewielkim stopniu zgodna z definicją, 1 – Niezgodna z defini-
cją. cją.
Treść pytań i oceny sędziów zawiera Tabela 5.5. Treść pytań i oceny sędziów zawiera Tabela 5.5.
Korzystając z komputera lub kalkulatora i kartki papieru, można wyliczyć śred- Korzystając z komputera lub kalkulatora i kartki papieru, można wyliczyć śred-
nie ocen przypisanych poszczególnym pozycjom testowym przez sędziów oraz nie ocen przypisanych poszczególnym pozycjom testowym przez sędziów oraz
wartość współczynnika zgodności sędziów W-Kendalla. W powyższym przykła- wartość współczynnika zgodności sędziów W-Kendalla. W powyższym przykła-
dzie wynosi on 0,765 (sposób obliczania przedstawiono w rozdziale 5.2.5.1.) i jest dzie wynosi on 0,765 (sposób obliczania przedstawiono w rozdziale 5.2.5.1.) i jest
istotny statystycznie. Świadczy to o dość dużej zgodności sędziów. Zauważmy, istotny statystycznie. Świadczy to o dość dużej zgodności sędziów. Zauważmy,
że sędziowie najgorzej ocenili pozycje 5 i 6, a więc jeśli mamy zamiar skrócić że sędziowie najgorzej ocenili pozycje 5 i 6, a więc jeśli mamy zamiar skrócić
kwestionariusz, to właśnie te pozycje winny być wyeliminowane. kwestionariusz, to właśnie te pozycje winny być wyeliminowane.
116 116

Tabela 5.5. Oceny stwierdzeń tworzących skalę postaw, dokonane przez 3 sędziów kom Tabela 5.5. Oceny stwierdzeń tworzących skalę postaw, dokonane przez 3 sędziów kom
petentnych (przykład fikcyjny) petentnych (przykład fikcyjny)
Sędzia Sędzia Sędzia Średnia Sędzia Sędzia Sędzia Średnia

Stwierdzenie Stwierdzenie
I II III ocen I II III ocen
1. Czytając opis samochodu w prasie moto 5 4 5 4,67 1. Czytając opis samochodu w prasie moto 5 4 5 4,67
ryzacyjnej, szukam wyników testów zde ryzacyjnej, szukam wyników testów zde
rzeniowych rzeniowych
2. Jadąc samochodem, słucham w radio in 5 3 5 4,33 2. Jadąc samochodem, słucham w radio in 5 3 5 4,33
formacji pozwalających uniknąć ryzykow formacji pozwalających uniknąć ryzykow
nych miejsc nych miejsc
3. Bezmyślność kierowców ryzykujących na 5 4 4 4,33 3. Bezmyślność kierowców ryzykujących na 5 4 4 4,33
drodze budzi we mnie gniew drodze budzi we mnie gniew
4. Czuję się bezpiecznie, kiedy jadę zgodnie 5 4 5 4,67 4. Czuję się bezpiecznie, kiedy jadę zgodnie 5 4 5 4,67
z przepisami z przepisami
5. Zawsze jeżdżę w zapiętych pasach 3 2 4 3,00 5. Zawsze jeżdżę w zapiętych pasach 3 2 4 3,00
6. W nieznanej okolicy zawsze stosuję się 4 3 3 3,33 6. W nieznanej okolicy zawsze stosuję się 4 3 3 3,33
do znaków drogowych do znaków drogowych
Warto zwrócić uwagę na jeszcze jedno istotne zagadnienie dla zachowania Warto zwrócić uwagę na jeszcze jedno istotne zagadnienie dla zachowania
trafności treściowej testu w procesie ustalania ostatecznego zestawu pytań lub trafności treściowej testu w procesie ustalania ostatecznego zestawu pytań lub
zadań testowych. Autor testu nastawiony na optymalizację rzetelności może mieć zadań testowych. Autor testu nastawiony na optymalizację rzetelności może mieć
tendencję tworzenia zestawu pytań bardzo jednorodnych, wybierając np. pozy- tendencję tworzenia zestawu pytań bardzo jednorodnych, wybierając np. pozy-
cje charakteryzujące się wysokimi wskaźnikami mocy dyskryminacyjnej (patrz cje charakteryzujące się wysokimi wskaźnikami mocy dyskryminacyjnej (patrz
rozdział 5.3.2.). W ten sposób łatwo wyeliminować wszystkie pozycje dotyczące rozdział 5.3.2.). W ten sposób łatwo wyeliminować wszystkie pozycje dotyczące
pewnego aspektu treściowego badanej cechy, a pozostawić pozycje dotyczące pewnego aspektu treściowego badanej cechy, a pozostawić pozycje dotyczące
innych aspektów badanej cechy. Wynika to z tego, że pozycje testowe dotyczące innych aspektów badanej cechy. Wynika to z tego, że pozycje testowe dotyczące
zbliżonych zagadnień są zwykle silniej skorelowane ze sobą niż z pozycjami do- zbliżonych zagadnień są zwykle silniej skorelowane ze sobą niż z pozycjami do-
tyczącymi innych aspektów badanej cechy. Tak więc, jeśli w teście znajdzie się tyczącymi innych aspektów badanej cechy. Tak więc, jeśli w teście znajdzie się
kilka specyficznych pozycji dotyczących jakiegoś ważnego z treściowego punktu kilka specyficznych pozycji dotyczących jakiegoś ważnego z treściowego punktu
widzenia zagadnienia, a jednocześnie będą one słabo skorelowane z innymi po- widzenia zagadnienia, a jednocześnie będą one słabo skorelowane z innymi po-
zycjami testowymi, będą one miały także niskie moce dyskryminacyjne. Jak wia- zycjami testowymi, będą one miały także niskie moce dyskryminacyjne. Jak wia-
domo (rozdział 5.3.2.), pozycje o niskich mocach dyskryminacyjnych są zwykle domo (rozdział 5.3.2.), pozycje o niskich mocach dyskryminacyjnych są zwykle
eliminowane. W tym jednak wypadku usunięcie takich pozycji może pozbawić eliminowane. W tym jednak wypadku usunięcie takich pozycji może pozbawić
test pewnego istotnego aspektu treściowego. W skalach postaw często ofiarą ta- test pewnego istotnego aspektu treściowego. W skalach postaw często ofiarą ta-
kiego postępowania padają pozycje dotyczące czynnika behawioralnego posta- kiego postępowania padają pozycje dotyczące czynnika behawioralnego posta-
wy. Z pewnych powodów, które nie będą tu bliżej charakteryzowane (być może wy. Z pewnych powodów, które nie będą tu bliżej charakteryzowane (być może
dlatego, że trudno znaleźć dobre wskaźniki, być może po prostu badani mają ten- dlatego, że trudno znaleźć dobre wskaźniki, być może po prostu badani mają ten-
dencję do zachowań nie zawsze zgodnych z deklarowanymi poglądami), pozycje dencję do zachowań nie zawsze zgodnych z deklarowanymi poglądami), pozycje
tego typu słabo korelują z innymi pozycjami. W efekcie wyeliminowania pozycji tego typu słabo korelują z innymi pozycjami. W efekcie wyeliminowania pozycji
badających aspekt behawioralny powstaje test mierzący cechę, którą można za- badających aspekt behawioralny powstaje test mierzący cechę, którą można za-
pewne nazwać ustosunkowaniem emocjonalno-poznawczym, ale nie postawą. pewne nazwać ustosunkowaniem emocjonalno-poznawczym, ale nie postawą.
117 117

5.2.2.2. Trafność teoretyczna 5.2.2.2. Trafność teoretyczna

Najważniejszym, podstawowym i koniecznym rodzajem trafności jest traf- Najważniejszym, podstawowym i koniecznym rodzajem trafności jest traf-
ność teoretyczna. Ten rodzaj trafności jest to zgodność pomiędzy wynikiem te- ność teoretyczna. Ten rodzaj trafności jest to zgodność pomiędzy wynikiem te-
stowym a wartością latentnej cechy, do pomiaru której test został skonstruowa- stowym a wartością latentnej cechy, do pomiaru której test został skonstruowa-
ny. Ponieważ zmienne latentne nie są bezpośrednio obserwowalne, sprawdzenie ny. Ponieważ zmienne latentne nie są bezpośrednio obserwowalne, sprawdzenie
trafności teoretycznej musi opierać się na metodach pośrednich (Nowakowska, trafności teoretycznej musi opierać się na metodach pośrednich (Nowakowska,
1975). 1975).
Możemy ją badać, oceniając stopień, w jakim wyniki badań naukowych da- Możemy ją badać, oceniając stopień, w jakim wyniki badań naukowych da-
nym testem pokrywają się z oczekiwaniami teoretycznymi. Oszacowanie trafno- nym testem pokrywają się z oczekiwaniami teoretycznymi. Oszacowanie trafno-
ści teoretycznej polega na formułowaniu hipotez wyprowadzonych z teorii psy- ści teoretycznej polega na formułowaniu hipotez wyprowadzonych z teorii psy-
chologicznej i weryfikowaniu ich w badaniach empirycznych z zastosowaniem chologicznej i weryfikowaniu ich w badaniach empirycznych z zastosowaniem
testu, którego trafność teoretyczną chcemy oszacować. Jeżeli więc pewna teoria testu, którego trafność teoretyczną chcemy oszacować. Jeżeli więc pewna teoria
przewiduje, że zmienna A powiązana jest ze zmienną B, należy oczekiwać, że przewiduje, że zmienna A powiązana jest ze zmienną B, należy oczekiwać, że
wyniki testu przeznaczonego do pomiaru zmiennej A są skorelowane z wynikami wyniki testu przeznaczonego do pomiaru zmiennej A są skorelowane z wynikami
testu przeznaczonego do pomiaru zmiennej B. Przewidywanie to można spraw- testu przeznaczonego do pomiaru zmiennej B. Przewidywanie to można spraw-
dzić w odpowiednim badaniu. Wynik potwierdzający istnienie takiej korelacji dzić w odpowiednim badaniu. Wynik potwierdzający istnienie takiej korelacji
będzie potwierdzał także trafność teoretyczną obu testów. Wynik niepotwier- będzie potwierdzał także trafność teoretyczną obu testów. Wynik niepotwier-
dzający istnienia wspomnianej korelacji – nie potwierdzi także trafności teore- dzający istnienia wspomnianej korelacji – nie potwierdzi także trafności teore-
tycznej pomiarów testowych. Oczywiście wskaźnikiem trafności nie musi być tycznej pomiarów testowych. Oczywiście wskaźnikiem trafności nie musi być
współczynnik korelacji, tak jak w opisanym przykładzie. Weryfikowanie hipotez współczynnik korelacji, tak jak w opisanym przykładzie. Weryfikowanie hipotez
wyprowadzonych z teorii psychologicznej może odbywać się w różny sposób. wyprowadzonych z teorii psychologicznej może odbywać się w różny sposób.
Cronbach i Meehl (2005) wyodrębniają pięć podstawowych sposobów umożli- Cronbach i Meehl (2005) wyodrębniają pięć podstawowych sposobów umożli-
wiających oszacowanie trafności teoretycznej. Są to: wiających oszacowanie trafności teoretycznej. Są to:
• analiza korelacji z innymi testami lub zmiennymi, • analiza korelacji z innymi testami lub zmiennymi,
• badanie wewnętrznej struktury testu, • badanie wewnętrznej struktury testu,
• oceny różnic międzygrupowych, • oceny różnic międzygrupowych,
• metoda zmian nieprzypadkowych, • metoda zmian nieprzypadkowych,
• analiza procesu rozwiązywania testu. • analiza procesu rozwiązywania testu.
Główna idea każdego z wymienionych sposobów polega na przeprowadze- Główna idea każdego z wymienionych sposobów polega na przeprowadze-
niu badania empirycznego, którego wynik i stopień zgodności z oczekiwaniami niu badania empirycznego, którego wynik i stopień zgodności z oczekiwaniami
teoretycznymi są wskaźnikami trafności teoretycznej. Badanie potwierdzające teoretycznymi są wskaźnikami trafności teoretycznej. Badanie potwierdzające
przewidywania teoretyczne świadczy o trafności teoretycznej testu. Brak takiego przewidywania teoretyczne świadczy o trafności teoretycznej testu. Brak takiego
potwierdzenia uważany również jest za wskaźnik braku trafności teoretycznej potwierdzenia uważany również jest za wskaźnik braku trafności teoretycznej
testu. testu.
Pierwszym z wyróżnionych przez Cronbacha i Meehla (2005) sposobów jest Pierwszym z wyróżnionych przez Cronbacha i Meehla (2005) sposobów jest
wspomniana już metoda analizy korelacji z innymi testami lub zmiennymi. wspomniana już metoda analizy korelacji z innymi testami lub zmiennymi.
Ważne jest, że pomiar wielkości korelacji wynika z założonej teorii psycholo- Ważne jest, że pomiar wielkości korelacji wynika z założonej teorii psycholo-
gicznej. Chodzi więc o korelowanie testu z takimi zmiennymi, co do których gicznej. Chodzi więc o korelowanie testu z takimi zmiennymi, co do których
istnieje uzasadnione teoretyczne przewidywanie, że powinny być one powiązane istnieje uzasadnione teoretyczne przewidywanie, że powinny być one powiązane
ze zmienną mierzoną przez test. ze zmienną mierzoną przez test.
118 118

Dość prosty przykład zastosowania korelacji w analizie trafności dotyczy sy- Dość prosty przykład zastosowania korelacji w analizie trafności dotyczy sy-
tuacji, kiedy wyniki testu, którego trafność badamy, koreluje się z wynikami in- tuacji, kiedy wyniki testu, którego trafność badamy, koreluje się z wynikami in-
nego testu przeznaczonego do pomiaru takiej samej zmiennej. Innymi słowy, te nego testu przeznaczonego do pomiaru takiej samej zmiennej. Innymi słowy, te
dwa testy muszą być skonstruowane na podstawie tej samej teorii zakładającej dwa testy muszą być skonstruowane na podstawie tej samej teorii zakładającej
istnienie danej zmiennej i definiującej tę zmienną. Przykładem może być korela- istnienie danej zmiennej i definiującej tę zmienną. Przykładem może być korela-
cja wyników Kwestionariusza Aprobaty Społecznej (Wilczyńska i Drwal, 1995) cja wyników Kwestionariusza Aprobaty Społecznej (Wilczyńska i Drwal, 1995)
i skali K, pochodzącej z kwestionariusza EPQ-R. Oba narzędzia przeznaczone i skali K, pochodzącej z kwestionariusza EPQ-R. Oba narzędzia przeznaczone
są do pomiaru tendencji do udzielania odpowiedzi zgodnych z oczekiwaniami są do pomiaru tendencji do udzielania odpowiedzi zgodnych z oczekiwaniami
i normami społecznymi. Nie są to więc narzędzia mierzące konkretne cechy psy- i normami społecznymi. Nie są to więc narzędzia mierzące konkretne cechy psy-
chiczne, ale raczej skale kontrolne. W podręczniku do kwestionariusza EPQ-R chiczne, ale raczej skale kontrolne. W podręczniku do kwestionariusza EPQ-R
(Brzozowski i Drwal, 1995) można znaleźć informację wskazującą, że te dwie (Brzozowski i Drwal, 1995) można znaleźć informację wskazującą, że te dwie
skale rzeczywiście są ze sobą skorelowane, co potwierdza ich trafność. skale rzeczywiście są ze sobą skorelowane, co potwierdza ich trafność.
Bardziej złożona sytuacja to taka, w której między zmienną badaną przez test Bardziej złożona sytuacja to taka, w której między zmienną badaną przez test
a inną zmienną zachodzi zależność postulowana przez wybraną teorię psycholo- a inną zmienną zachodzi zależność postulowana przez wybraną teorię psycholo-
giczną. Jako przykład posłuży wspomniana w rozdziale 5.2.2.1. postawa wobec giczną. Jako przykład posłuży wspomniana w rozdziale 5.2.2.1. postawa wobec
bezpieczeństwa ruchu drogowego. Na podstawie istniejących teorii psycholo- bezpieczeństwa ruchu drogowego. Na podstawie istniejących teorii psycholo-
gicznych można sformułować niejedno twierdzenie na temat tej postawy. Można gicznych można sformułować niejedno twierdzenie na temat tej postawy. Można
między innymi oczekiwać, że postawa charakteryzująca się mniejszą akceptacją między innymi oczekiwać, że postawa charakteryzująca się mniejszą akceptacją
zasad ruchu drogowego współwystępuje z większym zapotrzebowaniem na sty- zasad ruchu drogowego współwystępuje z większym zapotrzebowaniem na sty-
mulację i poszukiwaniem doznań. Wynika to z niektórych teorii temperamen- mulację i poszukiwaniem doznań. Wynika to z niektórych teorii temperamen-
tu odwołujących się do konstruktu optymalnego poziomu pobudzenia (Strelau, tu odwołujących się do konstruktu optymalnego poziomu pobudzenia (Strelau,
2001). Upraszczając nieco to zagadnienie, można powiedzieć, że ludzie różnią 2001). Upraszczając nieco to zagadnienie, można powiedzieć, że ludzie różnią
się między sobą poziomem zapotrzebowania na stymulację wynikającą z różnic się między sobą poziomem zapotrzebowania na stymulację wynikającą z różnic
pod względem optymalnego poziomu pobudzenia. W celu utrzymania optimum pod względem optymalnego poziomu pobudzenia. W celu utrzymania optimum
pobudzenia (które jest różne dla różnych osób), niektórzy ludzie poszukują ze- pobudzenia (które jest różne dla różnych osób), niektórzy ludzie poszukują ze-
wnętrznej stymulacji, inni – wręcz przeciwnie – unikają jej. Zapotrzebowanie na wnętrznej stymulacji, inni – wręcz przeciwnie – unikają jej. Zapotrzebowanie na
stymulację jest jednym z uwarunkowań podejmowania różnego rodzaju zacho- stymulację jest jednym z uwarunkowań podejmowania różnego rodzaju zacho-
wań, mających na celu podniesienie poziomu pobudzenia. Do zachowań tego ro- wań, mających na celu podniesienie poziomu pobudzenia. Do zachowań tego ro-
dzaju należy m.in. łamanie norm społecznych, podejmowanie ryzyka, zażywanie dzaju należy m.in. łamanie norm społecznych, podejmowanie ryzyka, zażywanie
środków psychoaktywnych i wiele innych. Jednym z zachowań tego typu jest środków psychoaktywnych i wiele innych. Jednym z zachowań tego typu jest
również łamanie zasad ruchu drogowego, związane z brakiem akceptacji przy- również łamanie zasad ruchu drogowego, związane z brakiem akceptacji przy-
najmniej niektórych przepisów drogowych. Można więc przypuszczać, że zapo- najmniej niektórych przepisów drogowych. Można więc przypuszczać, że zapo-
trzebowanie na stymulację jest jednym (ale nie jedynym!) z uwarunkowań posta- trzebowanie na stymulację jest jednym (ale nie jedynym!) z uwarunkowań posta-
wy wobec bezpieczeństwa ruchu drogowego. Tak więc, z teoretycznego punktu wy wobec bezpieczeństwa ruchu drogowego. Tak więc, z teoretycznego punktu
widzenia, wyniki Skali Postawy Wobec Bezpieczeństwa Ruchu Drogowego widzenia, wyniki Skali Postawy Wobec Bezpieczeństwa Ruchu Drogowego
świadczące o nieakceptowaniu zasad ruchu drogowego powinny współwystę- świadczące o nieakceptowaniu zasad ruchu drogowego powinny współwystę-
pować z innymi miarami świadczącymi o zapotrzebowaniu na stymulację. Aby pować z innymi miarami świadczącymi o zapotrzebowaniu na stymulację. Aby
sprawdzić to przypuszczenie, można wyliczyć korelację pomiędzy wynikami sprawdzić to przypuszczenie, można wyliczyć korelację pomiędzy wynikami
Skali Postawy Wobec Bezpieczeństwa Ruchu Drogowego a Skalą Poszukiwania Skali Postawy Wobec Bezpieczeństwa Ruchu Drogowego a Skalą Poszukiwania
Wrażeń Zuckermanna. Prawdopodobnie można też oczekiwać związku pomię- Wrażeń Zuckermanna. Prawdopodobnie można też oczekiwać związku pomię-
dzy wynikami Skali Postawy Wobec Bezpieczeństwa Ruchu Drogowego a inny- dzy wynikami Skali Postawy Wobec Bezpieczeństwa Ruchu Drogowego a inny-
mi wymiarami temperamentu (np. Aktywność czy Reaktywność Emocjonalna) 119 mi wymiarami temperamentu (np. Aktywność czy Reaktywność Emocjonalna) 119

ujętymi w inwentarzu Formalna Charakterystyka Zachowania – Kwestionariusz ujętymi w inwentarzu Formalna Charakterystyka Zachowania – Kwestionariusz
Temperamentu (FCZ-KT), gdyż odnoszą się one do konstruktu optymalnego po- Temperamentu (FCZ-KT), gdyż odnoszą się one do konstruktu optymalnego po-
ziomu pobudzenia. Przedstawiliśmy tu więc pewne rozumowanie teoretyczne, na ziomu pobudzenia. Przedstawiliśmy tu więc pewne rozumowanie teoretyczne, na
podstawie którego należy oczekiwać skorelowania skal. Korelacje powinny być podstawie którego należy oczekiwać skorelowania skal. Korelacje powinny być
nie tylko istotne statystycznie, ale też odpowiednio wysokie. nie tylko istotne statystycznie, ale też odpowiednio wysokie.
Rzeczywistym przykładem ilustrującym zastosowanie korelacji testu z innymi Rzeczywistym przykładem ilustrującym zastosowanie korelacji testu z innymi
testami lub zmiennymi, jako metody badania trafności teoretycznej jest korelacja testami lub zmiennymi, jako metody badania trafności teoretycznej jest korelacja
Skali Psychotyczności kwestionariusza EPQ-R i Skali Mach przeznaczonej do Skali Psychotyczności kwestionariusza EPQ-R i Skali Mach przeznaczonej do
pomiaru makiawelizmu. Według koncepcji osobowości Eysencka (Strelau, 2001) pomiaru makiawelizmu. Według koncepcji osobowości Eysencka (Strelau, 2001)
osoby o wysokim poziomie psychotyczności charakteryzują się między innymi osoby o wysokim poziomie psychotyczności charakteryzują się między innymi
łamaniem norm społecznych i dziwacznym zachowaniem, chłodem emocjonal- łamaniem norm społecznych i dziwacznym zachowaniem, chłodem emocjonal-
nym oraz bezosobowym traktowaniem innych ludzi. Natomiast makiawelizm nym oraz bezosobowym traktowaniem innych ludzi. Natomiast makiawelizm
to cecha osobowości przejawiająca się między innymi instrumentalnym trakto- to cecha osobowości przejawiająca się między innymi instrumentalnym trakto-
waniem innych ludzi. Osoby z tą cechą osobowości często manipulują innymi, waniem innych ludzi. Osoby z tą cechą osobowości często manipulują innymi,
chcąc osiągnąć zyski tylko dla siebie. Nie liczą się z potrzebami partnerów inte- chcąc osiągnąć zyski tylko dla siebie. Nie liczą się z potrzebami partnerów inte-
rakcji. Nie trudno zauważyć, że te dwa opisy mają ze sobą dość dużo wspólnego. rakcji. Nie trudno zauważyć, że te dwa opisy mają ze sobą dość dużo wspólnego.
Można więc oczekiwać, że wyniki Skali Psychotyczności powinny korelować Można więc oczekiwać, że wyniki Skali Psychotyczności powinny korelować
z wynikami Skali Mach, o czym można przekonać się czytając podręcznik do z wynikami Skali Mach, o czym można przekonać się czytając podręcznik do
kwestionariusza EPQ-R (Brzozowski i Drwal, 1995). kwestionariusza EPQ-R (Brzozowski i Drwal, 1995).
Trafność można oszacować za pomocą analizy korelacyjnej tylko, jeśli wybra- Trafność można oszacować za pomocą analizy korelacyjnej tylko, jeśli wybra-
na zmienna ma charakter ilościowy. Miarą trafności w tym wypadku jest współ- na zmienna ma charakter ilościowy. Miarą trafności w tym wypadku jest współ-
czynnik korelacji (najczęściej stosuje się r-Pearsona, lub tau Kendalla, jeśli zało- czynnik korelacji (najczęściej stosuje się r-Pearsona, lub tau Kendalla, jeśli zało-
żenia nie są spełnione). W przypadku zmiennych mających charakter nominalny żenia nie są spełnione). W przypadku zmiennych mających charakter nominalny
możliwe jest zastosowanie innych miar związku, takich jak np. współczynnik możliwe jest zastosowanie innych miar związku, takich jak np. współczynnik
korelacji punktowo-dwuseryjnej. korelacji punktowo-dwuseryjnej.
Po to, aby dowieść trafności pomiaru testem nie wystarczy wykazać, że kore- Po to, aby dowieść trafności pomiaru testem nie wystarczy wykazać, że kore-
luje on z innymi zmiennymi, z którymi teoretycznie korelować powinien. Ważne luje on z innymi zmiennymi, z którymi teoretycznie korelować powinien. Ważne
jest także udowodnienie, że test nie koreluje ze zmiennymi, z którymi korelować jest także udowodnienie, że test nie koreluje ze zmiennymi, z którymi korelować
nie powinien. Do tego pierwszego rodzaju korelacji odnosi się pojęcie trafności nie powinien. Do tego pierwszego rodzaju korelacji odnosi się pojęcie trafności
zbieżnej (zwanej także konwergencyjną), a do drugiego – różnicowej (zwanej zbieżnej (zwanej także konwergencyjną), a do drugiego – różnicowej (zwanej
także dywergencyjną). W celu sprawdzenia obu tych rodzajów trafności, ko- także dywergencyjną). W celu sprawdzenia obu tych rodzajów trafności, ko-
nieczne jest takie zaplanowanie badania, aby oprócz danego testu użyto w nim nieczne jest takie zaplanowanie badania, aby oprócz danego testu użyto w nim
także takich miar, z którymi powinien on korelować oraz innych, z którymi nie także takich miar, z którymi powinien on korelować oraz innych, z którymi nie
powinien korelować. Jeśli, przykładowo, badamy trafność Skali Ekstrawersji po- powinien korelować. Jeśli, przykładowo, badamy trafność Skali Ekstrawersji po-
chodzącą z kwestionariusza EPQ-R, możemy zbadać jej korelację z kwestiona- chodzącą z kwestionariusza EPQ-R, możemy zbadać jej korelację z kwestiona-
riuszem NEO-FFI, który również zawiera podobną skalę. Wskaźnikiem trafności riuszem NEO-FFI, który również zawiera podobną skalę. Wskaźnikiem trafności
w aspekcie zbieżnym jest wysoka korelacja Skali Ekstrawersji kwestionariusza w aspekcie zbieżnym jest wysoka korelacja Skali Ekstrawersji kwestionariusza
EPQ-R z wynikiem odpowiedniej skali NEO-FFI, badającej tę samą zmienną. EPQ-R z wynikiem odpowiedniej skali NEO-FFI, badającej tę samą zmienną.
Natomiast wskaźnikiem trafności w aspekcie różnicowym są niskie korelacje Natomiast wskaźnikiem trafności w aspekcie różnicowym są niskie korelacje
Skali Ekstrawersji ze skalami mierzącymi odrębne konstrukty, czyli z pozostały- Skali Ekstrawersji ze skalami mierzącymi odrębne konstrukty, czyli z pozostały-
120 mi skalami obu kwestionariuszy. 120 mi skalami obu kwestionariuszy.

Przykładem jednoczesnej analizy trafności zbieżnej i różnicowej jest badanie Przykładem jednoczesnej analizy trafności zbieżnej i różnicowej jest badanie
trafności Skali Depresji Zunga (Terelak, Tarnowski i Kwasucki 1993). Skala ta trafności Skali Depresji Zunga (Terelak, Tarnowski i Kwasucki 1993). Skala ta
zadowalająco korelowała z innymi testami depresji, natomiast jeszcze silniej ze zadowalająco korelowała z innymi testami depresji, natomiast jeszcze silniej ze
Skalą Aprobaty Społecznej. Skala Zunga nie była zatem trafna, gdyż mierzyła Skalą Aprobaty Społecznej. Skala Zunga nie była zatem trafna, gdyż mierzyła
w większym stopniu postawę obronną i wrażliwość na aprobatę społeczną niż w większym stopniu postawę obronną i wrażliwość na aprobatę społeczną niż
rzeczywistą depresję. Wysokie wyniki w tym inwentarzu uzyskiwali prawdopo- rzeczywistą depresję. Wysokie wyniki w tym inwentarzu uzyskiwali prawdopo-
dobnie ludzie lubiący ponarzekać, a nie cierpiący na rzeczywiste objawy zabu- dobnie ludzie lubiący ponarzekać, a nie cierpiący na rzeczywiste objawy zabu-
rzeń nastroju. rzeń nastroju.
Często opisywaną i wyrafinowaną metodologicznie procedurą korelacyjną, po- Często opisywaną i wyrafinowaną metodologicznie procedurą korelacyjną, po-
zwalającą na jednoczesną ocenę trafności zbieżnej i różnicowej jest tzw. macierz zwalającą na jednoczesną ocenę trafności zbieżnej i różnicowej jest tzw. macierz
wielu cech – wielu metod (Campbell i Fiske, 2005). Polega ona na wyliczeniu ko- wielu cech – wielu metod (Campbell i Fiske, 2005). Polega ona na wyliczeniu ko-
relacji pomiędzy kilkoma (przynajmniej dwoma) wieloskalowymi narzędziami, relacji pomiędzy kilkoma (przynajmniej dwoma) wieloskalowymi narzędziami,
badającymi te same cechy (przynajmniej dwie). Przez pojęcie narzędzia rozumie badającymi te same cechy (przynajmniej dwie). Przez pojęcie narzędzia rozumie
się tu nie tylko kwestionariusze czy testy, ale także np. wywiad czy obserwację. się tu nie tylko kwestionariusze czy testy, ale także np. wywiad czy obserwację.
Żeby przybliżyć nieco tę metodę, wyobraźmy sobie, że wykonujemy badanie, Żeby przybliżyć nieco tę metodę, wyobraźmy sobie, że wykonujemy badanie,
w którym zastosowano kwestionariusz przeznaczony do pomiaru dwóch cech w którym zastosowano kwestionariusz przeznaczony do pomiaru dwóch cech
A i B. Jednocześnie dokonujemy pomiaru tych samych cech przy pomocy sędziów A i B. Jednocześnie dokonujemy pomiaru tych samych cech przy pomocy sędziów
kompetentnych, którzy szacują natężenie cech A i B u osób badanych na podsta- kompetentnych, którzy szacują natężenie cech A i B u osób badanych na podsta-
wie obserwacji. Oczywiście w obu badaniach bierze udział ta sama grupa osób. wie obserwacji. Oczywiście w obu badaniach bierze udział ta sama grupa osób.
Na podstawie uzyskanych danych możemy wyliczyć następujące korelacje: Na podstawie uzyskanych danych możemy wyliczyć następujące korelacje:
a) dla tej samej cechy uzyskane za pomocą różnych metod (np. dla cechy A mie- a) dla tej samej cechy uzyskane za pomocą różnych metod (np. dla cechy A mie-
rzonej za pomocą kwestionariusza oraz za pomocą ocen sędziów), rzonej za pomocą kwestionariusza oraz za pomocą ocen sędziów),
b) dla różnych cech uzyskane za pomocą różnych metod (np. dla cechy A mie- b) dla różnych cech uzyskane za pomocą różnych metod (np. dla cechy A mie-
rzonej za pomocą kwestionariusza oraz cechy B mierzonej za pomocą ocen rzonej za pomocą kwestionariusza oraz cechy B mierzonej za pomocą ocen
sędziów), sędziów),
c) dla różnych cech uzyskane za pomocą tych samych metod (np. dla cechy c) dla różnych cech uzyskane za pomocą tych samych metod (np. dla cechy
A i cechy B mierzonej za pomocą kwestionariusza). A i cechy B mierzonej za pomocą kwestionariusza).
Korelacje wymienione w punkcie a) są miarami trafności zbieżnej. Natomiast Korelacje wymienione w punkcie a) są miarami trafności zbieżnej. Natomiast
korelacje wymienione w punkcie b) są miarami trafności różnicowej. Również korelacje wymienione w punkcie b) są miarami trafności różnicowej. Również
korelacje z punku c) informują o trafności różnicowej, choć nie są one najlep- korelacje z punku c) informują o trafności różnicowej, choć nie są one najlep-
szymi wskaźnikami tego aspektu trafności, gdyż ewentualne skorelowanie może szymi wskaźnikami tego aspektu trafności, gdyż ewentualne skorelowanie może
wynikać z zastosowania tej samej metody. wynikać z zastosowania tej samej metody.
Campbell i Fiske sformułowali klika warunków, które muszą spełniać kore- Campbell i Fiske sformułowali klika warunków, które muszą spełniać kore-
lacje zawarte w macierzy wielu cech wielu metod, aby można było mówić, że lacje zawarte w macierzy wielu cech wielu metod, aby można było mówić, że
analizowane narzędzia są trafne. Po pierwsze, wszystkie korelacje powinny być analizowane narzędzia są trafne. Po pierwsze, wszystkie korelacje powinny być
istotne statystycznie. Po drugie, korelacje dotyczące trafności zbieżnej powinny istotne statystycznie. Po drugie, korelacje dotyczące trafności zbieżnej powinny
być większe niż korelacje dotyczące trafności różnicowej. być większe niż korelacje dotyczące trafności różnicowej.
Poniżej przedstawiony zostanie przykład wykorzystania macierzy wielu cech Poniżej przedstawiony zostanie przykład wykorzystania macierzy wielu cech
wielu metod zaczerpnięty z pracy Drwala (1995), a dotyczący badania nad traf- wielu metod zaczerpnięty z pracy Drwala (1995), a dotyczący badania nad traf-
nością kilku kwestionariuszy agresji. Dla potrzeb niniejszej książki wykorzystane nością kilku kwestionariuszy agresji. Dla potrzeb niniejszej książki wykorzystane
zostaną dane dotyczące jedynie dwóch kwestionariuszy, jakimi są Skala Agresji zostaną dane dotyczące jedynie dwóch kwestionariuszy, jakimi są Skala Agresji
Buss-Durkee (SABD) i Inwentarz Psychologiczny Syndromu Agresji (IPSA). 121 Buss-Durkee (SABD) i Inwentarz Psychologiczny Syndromu Agresji (IPSA). 121

Oba narzędzia posiadają wiele skal do pomiaru różnych aspektów agresywno- Oba narzędzia posiadają wiele skal do pomiaru różnych aspektów agresywno-
ści, jednak dla uproszczenia zaprezentowane zostaną dane dotyczące wyłącznie ści, jednak dla uproszczenia zaprezentowane zostaną dane dotyczące wyłącznie
agresji fizycznej i agresji słownej. Jeśli oba narzędzia są trafne, to ich skale prze- agresji fizycznej i agresji słownej. Jeśli oba narzędzia są trafne, to ich skale prze-
znaczone do pomiaru tych samych aspektów agresywności powinny być ze sobą znaczone do pomiaru tych samych aspektów agresywności powinny być ze sobą
skorelowane. Tak więc, skale agresji fizycznej obu narzędzi powinny być dość skorelowane. Tak więc, skale agresji fizycznej obu narzędzi powinny być dość
mocno ze sobą skorelowane, podobnie jak skale przeznaczone do pomiaru agresji mocno ze sobą skorelowane, podobnie jak skale przeznaczone do pomiaru agresji
słownej. Natomiast pomiędzy sobą skale mierzące różne aspekty agresywności słownej. Natomiast pomiędzy sobą skale mierzące różne aspekty agresywności
nie powinny zbyt wysoko korelować, choć oczywiście nie należy oczekiwać, że nie powinny zbyt wysoko korelować, choć oczywiście nie należy oczekiwać, że
nie będą one w ogóle ze sobą korelować. Po prostu można przypuszczać, że te nie będą one w ogóle ze sobą korelować. Po prostu można przypuszczać, że te
dwa aspekty agresywności, ze względu na to, że dotyczą ogólnie zjawiska agre- dwa aspekty agresywności, ze względu na to, że dotyczą ogólnie zjawiska agre-
sywności, mogą ze sobą korelować, lecz na niższym poziomie niż skale przezna- sywności, mogą ze sobą korelować, lecz na niższym poziomie niż skale przezna-
czone do pomiaru tych samych aspektów agresywności. Korelacje tych dwóch czone do pomiaru tych samych aspektów agresywności. Korelacje tych dwóch
narzędzi, uzyskane na podstawie badania 150 uczniów w wieku 14–18 lat, przed- narzędzi, uzyskane na podstawie badania 150 uczniów w wieku 14–18 lat, przed-
stawione zostały w tabeli 5.6. Tabela przedstawia więc macierz dwóch cech – stawione zostały w tabeli 5.6. Tabela przedstawia więc macierz dwóch cech –
dwóch metod. dwóch metod.
Tabela 5.6. Związek skal agresji fizycznej i agresji słownej kwestionariuszy SABD i IPSA Tabela 5.6. Związek skal agresji fizycznej i agresji słownej kwestionariuszy SABD i IPSA
SABD IPSA SABD IPSA

Agresja Agresja Agresja Agresja Agresja Agresja Agresja Agresja
fizyczna słowna fizyczna słowna fizyczna słowna fizyczna słowna
SABD Agresja SABD Agresja
fizyczna fizyczna
Agresja 0,32 Agresja 0,32
słowna słowna
IPSA Agresja 0,67 0,32 IPSA Agresja 0,67 0,32
fizyczna fizyczna
Agresja 0,24 0,54 0,42 Agresja 0,24 0,54 0,42
słowna słowna
Dane zaprezentowane w tabeli pochodzą z pracy Drwala (1995). Dane zaprezentowane w tabeli pochodzą z pracy Drwala (1995).
W tabeli 5.6., dla wyróżnienia, zostały podkreślone korelacje dotyczące traf- W tabeli 5.6., dla wyróżnienia, zostały podkreślone korelacje dotyczące traf-
ności zbieżnej. Są to korelacje dotyczące tych samych cech, ale mierzonych za ności zbieżnej. Są to korelacje dotyczące tych samych cech, ale mierzonych za
pomocą różnych metod. Natomiast korelacje dotyczące trafności różnicowej są pomocą różnych metod. Natomiast korelacje dotyczące trafności różnicowej są
to korelacje między różnymi metodami i różnymi cechami. Tabela ta zawiera to korelacje między różnymi metodami i różnymi cechami. Tabela ta zawiera
także współczynniki korelacji dotyczące różnych cech, ale mierzone za pomocą także współczynniki korelacji dotyczące różnych cech, ale mierzone za pomocą
tych samych metod. tych samych metod.
Wszystkie zaprezentowane korelacje w tabeli 5.6. są istotne statystycznie, Wszystkie zaprezentowane korelacje w tabeli 5.6. są istotne statystycznie,
czyli różne od zera. Dodatkowo korelacje dotyczące trafności zbieżnej są dość czyli różne od zera. Dodatkowo korelacje dotyczące trafności zbieżnej są dość
wysokie. Pierwszy warunek postawiony przez Campbella i Fiskego jest więc wysokie. Pierwszy warunek postawiony przez Campbella i Fiskego jest więc
spełniony. Korelacje dotyczące trafności zbieżnej są wyższe zarówno od kore- spełniony. Korelacje dotyczące trafności zbieżnej są wyższe zarówno od kore-
122 lacji różnych cech różnych metod, jak i od korelacji dotyczących różnych cech 122 lacji różnych cech różnych metod, jak i od korelacji dotyczących różnych cech

mierzonych tymi samymi metodami. Oznacza to, że warunek drugi jest także mierzonych tymi samymi metodami. Oznacza to, że warunek drugi jest także
spełniony. spełniony.
Wadą opisywanej procedury jest przede wszystkim trudność w znalezieniu ze- Wadą opisywanej procedury jest przede wszystkim trudność w znalezieniu ze-
stawów testów zawierających skale umożliwiające jednocześnie pomiar trafności stawów testów zawierających skale umożliwiające jednocześnie pomiar trafności
zbieżnej i różnicowej. Zestawy takie muszą bowiem zawierać dwa rodzaje skal. zbieżnej i różnicowej. Zestawy takie muszą bowiem zawierać dwa rodzaje skal.
Pierwszy z nich to takie skale, które z teoretycznego punktu widzenia powinny Pierwszy z nich to takie skale, które z teoretycznego punktu widzenia powinny
korelować ze sobą, a drugi to takie, które ze sobą korelować nie powinny. korelować ze sobą, a drugi to takie, które ze sobą korelować nie powinny.
Szczególnym przykładem skorelowania wyników testów są korelacje skal Szczególnym przykładem skorelowania wyników testów są korelacje skal
wchodzących w skład jednego testu. Jako przykład można wymienić podte- wchodzących w skład jednego testu. Jako przykład można wymienić podte-
sty wchodzące w skład baterii APIS. W podręczniku (Matczak, Jaworowska, sty wchodzące w skład baterii APIS. W podręczniku (Matczak, Jaworowska,
Szustrowa, Ciechanowicz, 2006) do tej baterii testów można przeczytać, że Szustrowa, Ciechanowicz, 2006) do tej baterii testów można przeczytać, że
podtesty Synonimy i Nowe Słowa są dość silnie ze sobą skorelowane. Jest to podtesty Synonimy i Nowe Słowa są dość silnie ze sobą skorelowane. Jest to
całkowicie zrozumiałe, gdyż oba mierzą ten sam rodzaj zdolności – zdolności całkowicie zrozumiałe, gdyż oba mierzą ten sam rodzaj zdolności – zdolności
werbalne. Podobnie podtesty Kwadraty i Klocki, jako mierzące zdolności wzro- werbalne. Podobnie podtesty Kwadraty i Klocki, jako mierzące zdolności wzro-
kowo-przestrzenne, również są dość silnie skorelowane. Istotne jest, że podtesty kowo-przestrzenne, również są dość silnie skorelowane. Istotne jest, że podtesty
Kwadraty i Klocki znacznie silniej skorelowane są między sobą niż z podtestami Kwadraty i Klocki znacznie silniej skorelowane są między sobą niż z podtestami
Synonimy i Nowe Słowa. Te dwa ostatnie także znacznie silniej korelują między Synonimy i Nowe Słowa. Te dwa ostatnie także znacznie silniej korelują między
sobą niż z podtestami Kwadraty i Klocki. Można więc mówić o pewnych gru- sobą niż z podtestami Kwadraty i Klocki. Można więc mówić o pewnych gru-
pach podtestów silnie skorelowanych ze sobą w obrębie grupy, a słabiej z testami pach podtestów silnie skorelowanych ze sobą w obrębie grupy, a słabiej z testami
z innych grup. Taki układ korelacji potwierdza trafność teoretyczną baterii APIS, z innych grup. Taki układ korelacji potwierdza trafność teoretyczną baterii APIS,
gdyż testy mierzące te same zdolności są silnie ze sobą skorelowane, a z testami gdyż testy mierzące te same zdolności są silnie ze sobą skorelowane, a z testami
mierzącymi inne zdolności – słabiej. mierzącymi inne zdolności – słabiej.
Możliwość wyodrębnienia w ramach jednego narzędzia składającego się Możliwość wyodrębnienia w ramach jednego narzędzia składającego się
z wielu takich grup wzajemnie skorelowanych skal, które jednocześnie słabiej z wielu takich grup wzajemnie skorelowanych skal, które jednocześnie słabiej
korelują z innymi grupami skal istnieje nie tylko w przypadku baterii APIS, lecz korelują z innymi grupami skal istnieje nie tylko w przypadku baterii APIS, lecz
także w przypadku wielu innych narzędzi. Zwykle takie grupy interpretowane także w przypadku wielu innych narzędzi. Zwykle takie grupy interpretowane
są jako mierzące podobne cechy. Niekiedy można wręcz uznać, że grupa silnie są jako mierzące podobne cechy. Niekiedy można wręcz uznać, że grupa silnie
skorelowanych ze sobą skal danego testu mierzy tę samą cechę. Istnienie takich skorelowanych ze sobą skal danego testu mierzy tę samą cechę. Istnienie takich
grup może być interpretowane jako wskaźnik trafności teoretycznej, szczególnie grup może być interpretowane jako wskaźnik trafności teoretycznej, szczególnie
gdy w jakimś teście można wyodrębnić grupy skal silnie skorelowanych, przy gdy w jakimś teście można wyodrębnić grupy skal silnie skorelowanych, przy
czym można uznać, że każda z tych grup mierzy cechę postulowaną przez teorię, czym można uznać, że każda z tych grup mierzy cechę postulowaną przez teorię,
na podstawie której tworzono dane narzędzie. na podstawie której tworzono dane narzędzie.
Warto zauważyć, że obecnie rozpatrywane korelacje dotyczą wewnętrznej Warto zauważyć, że obecnie rozpatrywane korelacje dotyczą wewnętrznej
struktury testu. Są to bowiem grupy skorelowanych skal składających się na struktury testu. Są to bowiem grupy skorelowanych skal składających się na
dane narzędzie. Wcześniej opisywane wskaźniki trafności dotyczące korelacji dane narzędzie. Wcześniej opisywane wskaźniki trafności dotyczące korelacji
między wynikami danego testu a innymi zmiennymi czy innymi testami. między wynikami danego testu a innymi zmiennymi czy innymi testami.
Rozpatrując wewnętrzną strukturę testu, warto zauważyć, że można mówić nie Rozpatrując wewnętrzną strukturę testu, warto zauważyć, że można mówić nie
tylko o grupach wzajemnie skorelowanych skal danego testu, lecz także o gru- tylko o grupach wzajemnie skorelowanych skal danego testu, lecz także o gru-
pach wzajemnie skorelowanych pozycji testowych. Podobnie jak w przypadku pach wzajemnie skorelowanych pozycji testowych. Podobnie jak w przypadku
skal, tak i w przypadku pojedynczych pozycji testowych można wyróżnić ich skal, tak i w przypadku pojedynczych pozycji testowych można wyróżnić ich
większe grupy relatywnie silnie skorelowane między sobą, a dość słabo skore- większe grupy relatywnie silnie skorelowane między sobą, a dość słabo skore-
lowane z innymi grupami pozycji. Takie grupy pozycji testowych odpowiadają 123 lowane z innymi grupami pozycji. Takie grupy pozycji testowych odpowiadają 123

zwykle poszczególnym skalom w narzędziach składających się z dużej liczby zwykle poszczególnym skalom w narzędziach składających się z dużej liczby
skal. Jeśli pozycje testowe są wzajemnie skorelowane, to powinny mieć także skal. Jeśli pozycje testowe są wzajemnie skorelowane, to powinny mieć także
wysokie moce dyskryminacyjne (por. rozdział 5.3.2.) w obrębie swojej grupy. wysokie moce dyskryminacyjne (por. rozdział 5.3.2.) w obrębie swojej grupy.
Jeśli któraś z pozycji testowych ma niską moc dyskryminacyjną, to prawdopo- Jeśli któraś z pozycji testowych ma niską moc dyskryminacyjną, to prawdopo-
dobnie mierzy ona jakąś inną cechę niż pozostałe pozycje, a więc jest nietrafna. dobnie mierzy ona jakąś inną cechę niż pozostałe pozycje, a więc jest nietrafna.
Tego typu pozycje usuwa się zwykle w czasie tworzenia testu. Dzięki eliminacji Tego typu pozycje usuwa się zwykle w czasie tworzenia testu. Dzięki eliminacji
pozycji testowych słabo korelujących z pozostałymi itemami, uzyskuje się wy- pozycji testowych słabo korelujących z pozostałymi itemami, uzyskuje się wy-
soką zgodność wewnętrzną (homogeniczność) narzędzia. Test o dużej zgodności soką zgodność wewnętrzną (homogeniczność) narzędzia. Test o dużej zgodności
wewnętrznej można uznać za miarę jednej zmiennej, gdyż nie występują w nim wewnętrznej można uznać za miarę jednej zmiennej, gdyż nie występują w nim
pozycje nietrafne o niskich mocach dyskryminacyjnych. pozycje nietrafne o niskich mocach dyskryminacyjnych.
W przypadku dużej liczby pozycji testowych analiza wszystkich korelacji jest W przypadku dużej liczby pozycji testowych analiza wszystkich korelacji jest
dość trudna. Dość kłopotliwe byłoby rozpatrzenie wszystkich korelacji np. 100 dość trudna. Dość kłopotliwe byłoby rozpatrzenie wszystkich korelacji np. 100
pozycji testowych każdej z każdą. W celu ułatwienia wyodrębniania wzajem- pozycji testowych każdej z każdą. W celu ułatwienia wyodrębniania wzajem-
nie skorelowanych grup pozycji testowych bądź skal, można zastosować metodę nie skorelowanych grup pozycji testowych bądź skal, można zastosować metodę
zwaną analizą czynnikową. Jest to dość skomplikowana matematycznie metoda zwaną analizą czynnikową. Jest to dość skomplikowana matematycznie metoda
analizy danych. W niniejszym podręczniku przedstawione zostaną jedynie główne analizy danych. W niniejszym podręczniku przedstawione zostaną jedynie główne
jej zastosowania w psychometrii. Omawianie bardziej szczegółowych zagadnień jej zastosowania w psychometrii. Omawianie bardziej szczegółowych zagadnień
matematycznych z nią związanych wykraczałoby poza ramy niniejszej książki. matematycznych z nią związanych wykraczałoby poza ramy niniejszej książki.
Zainteresowany Czytelnik znajdzie dokładne omówienie analizy czynnikowej Zainteresowany Czytelnik znajdzie dokładne omówienie analizy czynnikowej
w pracach Okonia (1964), Nowakowskiej (1975) czy Zakrzewskiej (1994). w pracach Okonia (1964), Nowakowskiej (1975) czy Zakrzewskiej (1994).
Analiza czynnikowa umożliwia wyodrębnienie grup pozycji testowych bądź Analiza czynnikowa umożliwia wyodrębnienie grup pozycji testowych bądź
skal silnie skorelowanych między sobą wewnątrz grupy i relatywnie słabo mię- skal silnie skorelowanych między sobą wewnątrz grupy i relatywnie słabo mię-
dzy grupami. Grupy pozycji testowych bądź skal, wyróżnione dzięki tej meto- dzy grupami. Grupy pozycji testowych bądź skal, wyróżnione dzięki tej meto-
dzie, noszą nazwę czynników. Czynniki interpretowane są jako najważniejsze dzie, noszą nazwę czynników. Czynniki interpretowane są jako najważniejsze
zmienne odpowiedzialne za zróżnicowanie wyników poszczególnych skal bądź zmienne odpowiedzialne za zróżnicowanie wyników poszczególnych skal bądź
pozycji testowych, składających się na dany czynnik. Główna zaleta wyodrębnia- pozycji testowych, składających się na dany czynnik. Główna zaleta wyodrębnia-
nia czynników polega na tym, że zamiast dużej liczby pozycji testowych otrzy- nia czynników polega na tym, że zamiast dużej liczby pozycji testowych otrzy-
mujemy relatywnie niewielką liczbę zmiennych. Jest to więc łatwy sposób zna- mujemy relatywnie niewielką liczbę zmiennych. Jest to więc łatwy sposób zna-
lezienia najważniejszych zmiennych ujmowanych przez dany test. Skoro więc lezienia najważniejszych zmiennych ujmowanych przez dany test. Skoro więc
analiza czynnikowa umożliwia identyfikację zmiennych mierzonych przez dany analiza czynnikowa umożliwia identyfikację zmiennych mierzonych przez dany
test, jest ona dogodną metodą badania jego trafności. test, jest ona dogodną metodą badania jego trafności.
Zasadniczo wyodrębnia się dwie odmiany analizy czynnikowej. Jedną z nich jest Zasadniczo wyodrębnia się dwie odmiany analizy czynnikowej. Jedną z nich jest
eksploracyjna analiza czynnikowa, a drugą – konfirmacyjna analiza czynniko- eksploracyjna analiza czynnikowa, a drugą – konfirmacyjna analiza czynniko-
wa. Konfirmacyjna analiza czynnikowa ma na celu sprawdzenie, czy dany test skła- wa. Konfirmacyjna analiza czynnikowa ma na celu sprawdzenie, czy dany test skła-
da się z określonej, na podstawie teorii psychologicznej, liczby czynników. Pozwala da się z określonej, na podstawie teorii psychologicznej, liczby czynników. Pozwala
więc ona sprawdzić, czy wyniki danego testu są zgodne z zakładaną teoretyczną więc ona sprawdzić, czy wyniki danego testu są zgodne z zakładaną teoretyczną
strukturą testu. Konfirmacyjna analiza czynnikowa dostarcza specjalnych wskaźni- strukturą testu. Konfirmacyjna analiza czynnikowa dostarcza specjalnych wskaźni-
ków dopasowania modelu zakładającego istnienie określonej liczby czynników, na ków dopasowania modelu zakładającego istnienie określonej liczby czynników, na
podstawie których można zweryfikować słuszność takiego modelu teoretycznego. podstawie których można zweryfikować słuszność takiego modelu teoretycznego.
Dla przykładu załóżmy, że chcemy sprawdzić, czy kwestionariusz osobowości NEO- Dla przykładu załóżmy, że chcemy sprawdzić, czy kwestionariusz osobowości NEO-
FFI rzeczywiście składa się z pięciu wymiarów. Na to pytanie może odpowiedzieć FFI rzeczywiście składa się z pięciu wymiarów. Na to pytanie może odpowiedzieć
124 konfirmacyjna analiza czynnikowa, dzięki której możliwe jest nie tylko sprawdzenie, 124 konfirmacyjna analiza czynnikowa, dzięki której możliwe jest nie tylko sprawdzenie,

że za zmienność wyników wspomnianego narzędzia odpowiada pięć czynników, ale że za zmienność wyników wspomnianego narzędzia odpowiada pięć czynników, ale
także można sprawdzić, jakie pytania tworzą poszczególne czynniki. Tak więc, jeżeli także można sprawdzić, jakie pytania tworzą poszczególne czynniki. Tak więc, jeżeli
przy tworzeniu tego kwestionariusza założono, że pewne pytanie jest wskaźnikiem przy tworzeniu tego kwestionariusza założono, że pewne pytanie jest wskaźnikiem
ekstrawersji i wchodzi do skali ekstrawersji, a w analizie czynnikowej okazałoby ekstrawersji i wchodzi do skali ekstrawersji, a w analizie czynnikowej okazałoby
się, że wchodzi ono do czynnika neurotyzmu, a nie ekstrawersji, oznaczałoby to, że się, że wchodzi ono do czynnika neurotyzmu, a nie ekstrawersji, oznaczałoby to, że
pytanie jest nietrafnym wskaźnikiem ekstrawersji i źle zostało dobrane. Najlepszym pytanie jest nietrafnym wskaźnikiem ekstrawersji i źle zostało dobrane. Najlepszym
rozwiązaniem byłaby w opisanej sytuacji eliminacja tego pytania. rozwiązaniem byłaby w opisanej sytuacji eliminacja tego pytania.
W przypadku eksploracyjnej analizy czynnikowej badacz początkowo nie za- W przypadku eksploracyjnej analizy czynnikowej badacz początkowo nie za-
kłada liczby i struktury czynników mierzonych przez dany test. Celem tego typu kłada liczby i struktury czynników mierzonych przez dany test. Celem tego typu
analizy jest poznanie tych czynników. Analiza ta ma zastosowanie w sytuacji, analizy jest poznanie tych czynników. Analiza ta ma zastosowanie w sytuacji,
gdy bardzo mało wiadomo na temat badanego zjawiska psychicznego i celem jest gdy bardzo mało wiadomo na temat badanego zjawiska psychicznego i celem jest
identyfikacja jego podstawowych wymiarów. Zastosowanie eksploracyjnej ana- identyfikacja jego podstawowych wymiarów. Zastosowanie eksploracyjnej ana-
lizy czynnikowej w badaniu trafności testu przedstawione zostanie przy wyko- lizy czynnikowej w badaniu trafności testu przedstawione zostanie przy wyko-
rzystaniu danych dotyczących przytaczanej już wcześniej fikcyjnej Skali Postaw rzystaniu danych dotyczących przytaczanej już wcześniej fikcyjnej Skali Postaw
Wobec Bezpieczeństwa Ruchu Drogowego (BRD). Wobec Bezpieczeństwa Ruchu Drogowego (BRD).
Tabela 5.7. Struktura czynnikowa pozycji Skali Postawy Wobec BRD (przykład fikcyjny) Tabela 5.7. Struktura czynnikowa pozycji Skali Postawy Wobec BRD (przykład fikcyjny)
Stwierdzenie Czynnik I Czynnik II Czynnik III Stwierdzenie Czynnik I Czynnik II Czynnik III
1. Czytając opis samochodu w prasie motory 0,79 –0,15 0,22 1. Czytając opis samochodu w prasie motory 0,79 –0,15 0,22
zacyjnej, szukam wyników testów zderze zacyjnej, szukam wyników testów zderze
niowych niowych
2. Jadąc samochodem, słucham w radio infor 0,70 0,22 2. Jadąc samochodem, słucham w radio infor 0,70 0,22
macji pozwalających uniknąć ryzykownych macji pozwalających uniknąć ryzykownych
miejsc miejsc
3. Bezmyślność kierowców ryzykujących na 0,90 0,14 3. Bezmyślność kierowców ryzykujących na 0,90 0,14
drodze budzi we mnie gniew drodze budzi we mnie gniew
4. Czuję się bezpiecznie, kiedy jadę zgodnie 0,41 4. Czuję się bezpiecznie, kiedy jadę zgodnie 0,41
z przepisami z przepisami
5. Zawsze jeżdżę w zapiętych pasach 0,17 0,17 0,66 5. Zawsze jeżdżę w zapiętych pasach 0,17 0,17 0,66
6. W nieznanej okolicy zawsze stosuję się do 0,24 0,56 6. W nieznanej okolicy zawsze stosuję się do 0,24 0,56
znaków drogowych znaków drogowych
W tabeli pominięto ładunki czynnikowe mniejsze niż 0,1 jako mało istotne. W tabeli pominięto ładunki czynnikowe mniejsze niż 0,1 jako mało istotne.
Hipotetyczne wyniki analizy czynnikowej Skali Postaw Wobec Bezpieczeństwa Hipotetyczne wyniki analizy czynnikowej Skali Postaw Wobec Bezpieczeństwa
Ruchu Drogowego zaprezentowano w tabeli 5.7. Wyniki analizy wskazują, że Ruchu Drogowego zaprezentowano w tabeli 5.7. Wyniki analizy wskazują, że
struktura tej skali składa się z trzech czynników. W tabeli 5.7. zawarte są tzw. struktura tej skali składa się z trzech czynników. W tabeli 5.7. zawarte są tzw.
ładunki czynnikowe, czyli korelacje pomiędzy poszczególnymi stwierdzeniami ładunki czynnikowe, czyli korelacje pomiędzy poszczególnymi stwierdzeniami
a utworzonymi w drodze analizy czynnikami. Przyglądając się tym wartościom, a utworzonymi w drodze analizy czynnikami. Przyglądając się tym wartościom,
można wybrać dla każdego czynnika te z nich, które są najwyższe. I tak w przy- można wybrać dla każdego czynnika te z nich, które są najwyższe. I tak w przy-
padku czynnika I, najwyższe wartości ładunków czynnikowych mają dwa pierw- padku czynnika I, najwyższe wartości ładunków czynnikowych mają dwa pierw-
sze stwierdzenia. Na tej podstawie można przypuszczać, że mierzą one bardzo 125 sze stwierdzenia. Na tej podstawie można przypuszczać, że mierzą one bardzo 125

zbliżoną zmienną psychologiczną. O jaką zmienną może chodzić? Jej identyfika- zbliżoną zmienną psychologiczną. O jaką zmienną może chodzić? Jej identyfika-
cja następuje zwykle na podstawie treści stwierdzeń o najwyższych ładunkach. cja następuje zwykle na podstawie treści stwierdzeń o najwyższych ładunkach.
Analizując ich treść w omawianym przykładzie, można dojść do wniosku, że Analizując ich treść w omawianym przykładzie, można dojść do wniosku, że
w dużej mierze dotyczą one poszukiwania informacji związanych z bezpieczeń- w dużej mierze dotyczą one poszukiwania informacji związanych z bezpieczeń-
stwem ruchu drogowego, czyli poznawczy komponent postawy wobec bezpie- stwem ruchu drogowego, czyli poznawczy komponent postawy wobec bezpie-
czeństwa na drodze. W podobny sposób można przeanalizować pozostałe czyn- czeństwa na drodze. W podobny sposób można przeanalizować pozostałe czyn-
niki. Wydaje się, że czynnik II mierzy komponent emocjonalny, a czynnik III niki. Wydaje się, że czynnik II mierzy komponent emocjonalny, a czynnik III
– behawioralny. W ten sposób dokonano analizy trafności przez identyfikację – behawioralny. W ten sposób dokonano analizy trafności przez identyfikację
wymiarów mierzonych przez omawianą skalę. wymiarów mierzonych przez omawianą skalę.
Taki rezultat jest zrozumiały z teoretycznego punktu widzenia. Można było Taki rezultat jest zrozumiały z teoretycznego punktu widzenia. Można było
bowiem spodziewać się, że pozycje testowe dotyczące jednego z komponentów bowiem spodziewać się, że pozycje testowe dotyczące jednego z komponentów
postawy będą silniej ze sobą skorelowane niż ze stwierdzeniami dotyczącymi in- postawy będą silniej ze sobą skorelowane niż ze stwierdzeniami dotyczącymi in-
nych komponentów. Z tego też powodu każdy z komponentów postawy utworzył nych komponentów. Z tego też powodu każdy z komponentów postawy utworzył
własny czynnik. własny czynnik.
Pewna odmiana tego eksploracyjnego podejścia polega (szerzej pisze o tym Pewna odmiana tego eksploracyjnego podejścia polega (szerzej pisze o tym
Magnusson, 1991) na zbadaniu grupy ludzi wieloma testami mierzącymi różne Magnusson, 1991) na zbadaniu grupy ludzi wieloma testami mierzącymi różne
zmienne (w tym testem, którego trafność sprawdzamy). Następnie sprawdza się, zmienne (w tym testem, którego trafność sprawdzamy). Następnie sprawdza się,
z którymi zmiennymi nasz test „tworzy czynnik”, czyli do jakiej grupy właści- z którymi zmiennymi nasz test „tworzy czynnik”, czyli do jakiej grupy właści-
wości psychologicznych należy. Powracając do wcześniejszego przykładu Skali wości psychologicznych należy. Powracając do wcześniejszego przykładu Skali
Postawy Wobec Bezpieczeństwa Ruchu Drogowego, prześledźmy wyniki wspól- Postawy Wobec Bezpieczeństwa Ruchu Drogowego, prześledźmy wyniki wspól-
nej analizy czynnikowej omawianej skali wymiarów kwestionariusza FCZ-KT nej analizy czynnikowej omawianej skali wymiarów kwestionariusza FCZ-KT
i skali badającej nieuwagę na drodze. i skali badającej nieuwagę na drodze.
Tabela 5.8. Struktura czynnikowa skal FCZ-KT oraz Skal Postawy Wobec BRD i Skali Tabela 5.8. Struktura czynnikowa skal FCZ-KT oraz Skal Postawy Wobec BRD i Skali
Nieuwagi na drodze (zmodyfikowane dane z badań własnych) Nieuwagi na drodze (zmodyfikowane dane z badań własnych)
Składowa Składowa
Wymiar Wymiar
1 2 3 1 2 3
Reaktywność (FCZ-KT) 0,87 –0,18 Reaktywność (FCZ-KT) 0,87 –0,18
Perseweratywność (FCZ-KT) 0,84 0,19 0,15 Perseweratywność (FCZ-KT) 0,84 0,19 0,15
Wytrzymałość (FCZ-KT) –0,72 0,45 Wytrzymałość (FCZ-KT) –0,72 0,45
Skala BRD (FCZ-KT) –0,88 Skala BRD (FCZ-KT) –0,88
Nieuwaga (FCZ-KT) 0,14 0,62 –0,31 Nieuwaga (FCZ-KT) 0,14 0,62 –0,31
Aktywność (FCZ-KT) –0,49 0,62 0,11 Aktywność (FCZ-KT) –0,49 0,62 0,11
Wrażliwość sensoryczna (FCZ-KT) –0,17 0,81 Wrażliwość sensoryczna (FCZ-KT) –0,17 0,81
Żwawość (FCZ-KT) –0,40 0,71 Żwawość (FCZ-KT) –0,40 0,71
W tabeli pominięto ładunki czynnikowe mniejsze niż 0,1, jako mało istotne. W tabeli pominięto ładunki czynnikowe mniejsze niż 0,1, jako mało istotne.
Skalę BRD uznamy za trafną, jeżeli jej umiejscowienie w strukturze pozosta- Skalę BRD uznamy za trafną, jeżeli jej umiejscowienie w strukturze pozosta-
łych zmiennych daje się przekonująco zinterpretować w świetle wiedzy o związ- łych zmiennych daje się przekonująco zinterpretować w świetle wiedzy o związ-
126 kach temperamentu z zachowaniem. 126 kach temperamentu z zachowaniem.

Podobnie jak w poprzednim przykładzie czynniki nie są wcześniej znane, Podobnie jak w poprzednim przykładzie czynniki nie są wcześniej znane,
a identyfikacji czynnika dokonuje się na podstawie treści skal, które go utwo- a identyfikacji czynnika dokonuje się na podstawie treści skal, które go utwo-
rzyły. Pierwszym jednak krokiem jest interpretacja uzyskanych czynników, dla rzyły. Pierwszym jednak krokiem jest interpretacja uzyskanych czynników, dla
których uzyskane ładunki czynnikowe zawarto w tabeli 5.8. których uzyskane ładunki czynnikowe zawarto w tabeli 5.8.
Przeanalizujmy uzyskane czynniki. Czynnik pierwszy (składowa 1) powią- Przeanalizujmy uzyskane czynniki. Czynnik pierwszy (składowa 1) powią-
zany jest najsilniej z wysoką Reaktywnością i Perseweratywnością oraz z niską zany jest najsilniej z wysoką Reaktywnością i Perseweratywnością oraz z niską
Wytrzymałością. Wszystkie te składniki wiążą się z nieadekwatną regulacją emo- Wytrzymałością. Wszystkie te składniki wiążą się z nieadekwatną regulacją emo-
cji czy też słabym typem układu nerwowego (według Pawłowa) i właśnie w ten cji czy też słabym typem układu nerwowego (według Pawłowa) i właśnie w ten
sposób można interpretować uzyskany czynnik. sposób można interpretować uzyskany czynnik.
Drugi z czynników wiąże się z negatywną postawą wobec bezpieczeństwa Drugi z czynników wiąże się z negatywną postawą wobec bezpieczeństwa
ruchu drogowego, nieuwagą i aktywnością. Czynnik ten, zauważmy, obejmuje ruchu drogowego, nieuwagą i aktywnością. Czynnik ten, zauważmy, obejmuje
dwie zmienne opisujące zachowanie na drodze (Skala BRD i Skala Nieuwagi) dwie zmienne opisujące zachowanie na drodze (Skala BRD i Skala Nieuwagi)
oraz zmienną temperamentalną związaną z poszukiwaniem stymulacji. Czynnik oraz zmienną temperamentalną związaną z poszukiwaniem stymulacji. Czynnik
ten można zatem określić jako agresywność na drodze. ten można zatem określić jako agresywność na drodze.
Trzeci czynnik, czysto temperamentalny, powiązany jest z wysokimi wynika- Trzeci czynnik, czysto temperamentalny, powiązany jest z wysokimi wynika-
mi skali Wrażliwości Sensorycznej i Żwawości. Wysokie wyniki w tym czynniku mi skali Wrażliwości Sensorycznej i Żwawości. Wysokie wyniki w tym czynniku
uzyskują zatem ludzie reagujący nawet na słabe bodźce, równocześnie energicz- uzyskują zatem ludzie reagujący nawet na słabe bodźce, równocześnie energicz-
ni. Możemy nadać mu roboczą nazwę „energii życiowej”. ni. Możemy nadać mu roboczą nazwę „energii życiowej”.
Powyższe fakty potwierdzają trafność Skali BRD. Po pierwsze, jest ona rela- Powyższe fakty potwierdzają trafność Skali BRD. Po pierwsze, jest ona rela-
tywnie niezależna od zmiennych temperamentalnych. Zauważmy, że wchodzi ona tywnie niezależna od zmiennych temperamentalnych. Zauważmy, że wchodzi ona
w skład wyłącznie jednego czynnika. Ponadto w czynniku tym ma dość wysoki w skład wyłącznie jednego czynnika. Ponadto w czynniku tym ma dość wysoki
ładunek inna zmienna opisująca zachowania na drodze jaką, jest nieuwaga i tylko ładunek inna zmienna opisująca zachowania na drodze jaką, jest nieuwaga i tylko
jedna zmienna temperamentalna. Po drugie, istnienie takiego jednego czynnika jedna zmienna temperamentalna. Po drugie, istnienie takiego jednego czynnika
wskazuje na silny związek między Skalą BRD i Skalą Nieuwagi. Po trzecie duży wskazuje na silny związek między Skalą BRD i Skalą Nieuwagi. Po trzecie duży
ładunek czynnikowy w czynniku 2 Skali Aktywności wskazuje na znaczne po- ładunek czynnikowy w czynniku 2 Skali Aktywności wskazuje na znaczne po-
wiązanie negatywnej postawy wobec bezpieczeństwa na drodze i podejmowania wiązanie negatywnej postawy wobec bezpieczeństwa na drodze i podejmowania
działań o wysokiej wartości stymulacyjnej, co jest teoretycznie uzasadnione, po- działań o wysokiej wartości stymulacyjnej, co jest teoretycznie uzasadnione, po-
nieważ zachowania tego typu zwykle współwystępują z negatywnymi postawami nieważ zachowania tego typu zwykle współwystępują z negatywnymi postawami
wobec wielu norm i przepisów. wobec wielu norm i przepisów.
Zastosowanie analizy czynnikowej, w celu oceny trafności teoretycznej nazy- Zastosowanie analizy czynnikowej, w celu oceny trafności teoretycznej nazy-
wane niekiedy bywa „trafnością czynnikową”. Używanie takiego terminu nie wy- wane niekiedy bywa „trafnością czynnikową”. Używanie takiego terminu nie wy-
daje się szczególnie trafne, gdyż jest on wieloznaczny. Wieloznaczność wynika daje się szczególnie trafne, gdyż jest on wieloznaczny. Wieloznaczność wynika
stąd, że dwa sposoby analizy (konfirmacyjna i eksploracyjna) różnią się znacznie stąd, że dwa sposoby analizy (konfirmacyjna i eksploracyjna) różnią się znacznie
między sobą. Ponadto analiza czynnikowa może być przeprowadzona zarówno między sobą. Ponadto analiza czynnikowa może być przeprowadzona zarówno
na wynikach poszczególnych pozycji testowych, jak i całych skal. Wykorzystuje na wynikach poszczególnych pozycji testowych, jak i całych skal. Wykorzystuje
się też w niej, w niektórych sytuacjach, wyniki wielu różnych testów. Ta dość się też w niej, w niektórych sytuacjach, wyniki wielu różnych testów. Ta dość
duża różnorodność zastosowań analizy czynnikowej nie powinna być określana duża różnorodność zastosowań analizy czynnikowej nie powinna być określana
tym samym terminem. tym samym terminem.
Kolejna metoda badania trafności teoretycznej to ocena różnic międzygrupo- Kolejna metoda badania trafności teoretycznej to ocena różnic międzygrupo-
wych. Dotyczy ona porównywania wyników testowych grup osób, co do których wych. Dotyczy ona porównywania wyników testowych grup osób, co do których
istnieje teoretyczne przewidywanie, że powinny się one różnić pod względem istnieje teoretyczne przewidywanie, że powinny się one różnić pod względem
zmiennej mierzonej przez test. Jeśli test jest trafny, czyli dobrze mierzy założoną 127 zmiennej mierzonej przez test. Jeśli test jest trafny, czyli dobrze mierzy założoną 127

zmienną, to wyodrębnione grupy powinny się różnić między sobą pod względem zmienną, to wyodrębnione grupy powinny się różnić między sobą pod względem
wyników testowych. Badane grupy mogą być wyodrębnione w dowolny sposób wyników testowych. Badane grupy mogą być wyodrębnione w dowolny sposób
(w inny sposób niż na podstawie wyników testu, np. na podstawie zmiennych (w inny sposób niż na podstawie wyników testu, np. na podstawie zmiennych
demograficznych czy innych). Jedynym ograniczeniem jest teoretyczne uzasad- demograficznych czy innych). Jedynym ograniczeniem jest teoretyczne uzasad-
nienie wyboru określonych grup badanych. nienie wyboru określonych grup badanych.
W celu oceny istotności różnic pomiędzy średnimi dwóch grup należy wyko- W celu oceny istotności różnic pomiędzy średnimi dwóch grup należy wyko-
nać test t-Studenta dla prób niezależnych lub test Manna-Whitneya jeśli zało- nać test t-Studenta dla prób niezależnych lub test Manna-Whitneya jeśli zało-
żenia testu t-Studenta nie są spełnione. Oczywiście wynik istotny statystycznie żenia testu t-Studenta nie są spełnione. Oczywiście wynik istotny statystycznie
świadczy o tym, że porównywane średnie się różnią. Jeśli średnie te różnią się świadczy o tym, że porównywane średnie się różnią. Jeśli średnie te różnią się
w oczekiwanym z teoretycznego punktu widzenia kierunku, to jest to argument w oczekiwanym z teoretycznego punktu widzenia kierunku, to jest to argument
potwierdzający trafność teoretyczną testu. Siła związku łączącego wyniki testu potwierdzający trafność teoretyczną testu. Siła związku łączącego wyniki testu
oraz zmienną, na podstawie której wyodrębniono grupy może być oceniona na oraz zmienną, na podstawie której wyodrębniono grupy może być oceniona na
podstawie współczynnika korelacji eta. podstawie współczynnika korelacji eta.
Jednym z prostszych przykładów zastosowania tej metody mogą być wy- Jednym z prostszych przykładów zastosowania tej metody mogą być wy-
niki badań dotyczące testu inteligencji Ravena. W podręczniku do tego testu niki badań dotyczące testu inteligencji Ravena. W podręczniku do tego testu
(Jaworowska, Szustrowa, 2000) znaleźć można informację, o zróżnicowaniu jego (Jaworowska, Szustrowa, 2000) znaleźć można informację, o zróżnicowaniu jego
wyników w zależności od wieku badanych. Dorastająca młodzież osiąga prze- wyników w zależności od wieku badanych. Dorastająca młodzież osiąga prze-
ciętnie wyższe wyniki w tym teście niż dzieci z grup młodszych. W późniejszym ciętnie wyższe wyniki w tym teście niż dzieci z grup młodszych. W późniejszym
wieku nie obserwuje się już takiego wzrostu. Wynik ten jest całkowicie zgodny wieku nie obserwuje się już takiego wzrostu. Wynik ten jest całkowicie zgodny
z teorią inteligencji, na podstawie której powstał test Ravena. Teoria ta zakłada z teorią inteligencji, na podstawie której powstał test Ravena. Teoria ta zakłada
bowiem, że rozwój inteligencji przebiega od urodzenia do wczesnej dorosłości. bowiem, że rozwój inteligencji przebiega od urodzenia do wczesnej dorosłości.
Jeśli test jest trafny, podobny wzrost powinny wskazywać także wyniki testowe, Jeśli test jest trafny, podobny wzrost powinny wskazywać także wyniki testowe,
co rzeczywiście zostało stwierdzone w badaniach. Zgodność przewidywań teo- co rzeczywiście zostało stwierdzone w badaniach. Zgodność przewidywań teo-
retycznych dotyczących zmian rozwojowych i wyników badań z zastosowaniem retycznych dotyczących zmian rozwojowych i wyników badań z zastosowaniem
testu Ravena jest jednym z przejawów jego trafności. testu Ravena jest jednym z przejawów jego trafności.
Jako inny przykład wykorzystania oceny różnic międzygrupowych mogą po- Jako inny przykład wykorzystania oceny różnic międzygrupowych mogą po-
służyć wynik badań nad trafnością baterii testów APIS. Na podstawie teorii zdol- służyć wynik badań nad trafnością baterii testów APIS. Na podstawie teorii zdol-
ności (Matczak, 1994) można przypuszczać, że badani różnią się poziomem po- ności (Matczak, 1994) można przypuszczać, że badani różnią się poziomem po-
szczególnych zdolności w zależności od obranego kierunku studiów lub rodzaju szczególnych zdolności w zależności od obranego kierunku studiów lub rodzaju
szkoły. Hipoteza ta wynika stąd, że ludzie wybierają taki rodzaj edukacji, który szkoły. Hipoteza ta wynika stąd, że ludzie wybierają taki rodzaj edukacji, który
odpowiada ich zdolnościom, a jednocześnie kształcenie w danym kierunku przy- odpowiada ich zdolnościom, a jednocześnie kształcenie w danym kierunku przy-
czynia się do rozwoju specyficznych dla tego kierunku zdolności. czynia się do rozwoju specyficznych dla tego kierunku zdolności.
W jednym z badań trafności baterii APIS wzięli udział studenci różnego typu W jednym z badań trafności baterii APIS wzięli udział studenci różnego typu
wyższych uczelni. Określenie trafności polegało w tym wypadku na sprawdzeniu, wyższych uczelni. Określenie trafności polegało w tym wypadku na sprawdzeniu,
czy te grupy studentów różnią się między sobą w oczekiwany sposób, tzn. czy czy te grupy studentów różnią się między sobą w oczekiwany sposób, tzn. czy
studenci poszczególnych rodzajów kierunków osiągają wyższe wyniki w testach studenci poszczególnych rodzajów kierunków osiągają wyższe wyniki w testach
mierzących te zdolności intelektualne, które są szczególnie potrzebne w studio- mierzących te zdolności intelektualne, które są szczególnie potrzebne w studio-
waniu danego kierunku studiów (np. studenci studiów humanistycznych powinni waniu danego kierunku studiów (np. studenci studiów humanistycznych powinni
osiągać wyższe wyniki w testach mierzących zdolności werbalne). Wyniki prze- osiągać wyższe wyniki w testach mierzących zdolności werbalne). Wyniki prze-
prowadzonych badań zamieszczone w podręczniku do baterii APIS (Matczak, prowadzonych badań zamieszczone w podręczniku do baterii APIS (Matczak,
Jaworowska, Ciechanowicz i Stańczak, 2006) wskazują, że hipoteza ta została Jaworowska, Ciechanowicz i Stańczak, 2006) wskazują, że hipoteza ta została
128 potwierdzona, co przemawia za trafnością tej baterii. 128 potwierdzona, co przemawia za trafnością tej baterii.

W omówionych przykładach grupy były wyodrębnione ze względu na pew- W omówionych przykładach grupy były wyodrębnione ze względu na pew-
ną zmienną i porównywano je pod względem wyników testu, którego traf- ną zmienną i porównywano je pod względem wyników testu, którego traf-
ność teoretyczna jest analizowana. Procedura może być także nieco odmienna. ność teoretyczna jest analizowana. Procedura może być także nieco odmienna.
Porównywane grupy mogą być wyodrębnione ze względu na wyniki w teście, Porównywane grupy mogą być wyodrębnione ze względu na wyniki w teście,
a następnie analizowane pod względem jakiejś innej zmiennej. Możliwe jest więc a następnie analizowane pod względem jakiejś innej zmiennej. Możliwe jest więc
wyodrębnienie tzw. grup skrajnych, to jest grup o niskich oraz wysokich wyni- wyodrębnienie tzw. grup skrajnych, to jest grup o niskich oraz wysokich wyni-
kach w teście. kach w teście.
Kolejna metoda oceny trafności teoretycznej to metoda zmian nieprzypad- Kolejna metoda oceny trafności teoretycznej to metoda zmian nieprzypad-
kowych. Polega ona na dwukrotnym badaniu pewnej grupy osób danym testem. kowych. Polega ona na dwukrotnym badaniu pewnej grupy osób danym testem.
Pomiędzy pierwszym a drugim badaniem wprowadza się jakąś manipulację Pomiędzy pierwszym a drugim badaniem wprowadza się jakąś manipulację
eksperymentalną, która zgodnie z teorią psychologiczną powinna wpłynąć na eksperymentalną, która zgodnie z teorią psychologiczną powinna wpłynąć na
zmienną mierzoną przez test. Jeśli test ten jest trafną miarą badanej zmiennej zmienną mierzoną przez test. Jeśli test ten jest trafną miarą badanej zmiennej
i jednocześnie oczekiwano zmiany jej nasilenia pod wpływem wprowadzonej i jednocześnie oczekiwano zmiany jej nasilenia pod wpływem wprowadzonej
manipulacji, to również powinny się zmienić wyniki testu. manipulacji, to również powinny się zmienić wyniki testu.
Bardzo ciekawym przykładem badania trafności teoretycznej przy wykorzysta- Bardzo ciekawym przykładem badania trafności teoretycznej przy wykorzysta-
niu zmian pod wpływem oddziaływania eksperymentalnego jest analiza trafno- niu zmian pod wpływem oddziaływania eksperymentalnego jest analiza trafno-
ści Skali Lęku-Stan kwestionariusza STAI (Wrześniewski, Sosnowski, Matusik, ści Skali Lęku-Stan kwestionariusza STAI (Wrześniewski, Sosnowski, Matusik,
2002). Jeden ze sposobów określania trafności tego narzędzia polegał na porów- 2002). Jeden ze sposobów określania trafności tego narzędzia polegał na porów-
naniu wyników Skali Lęku-Stan uzyskanych przez pewną grupę osób badanych naniu wyników Skali Lęku-Stan uzyskanych przez pewną grupę osób badanych
w trzech różnych sytuacjach. Pierwsza sytuacja była neutralna, czyli niewywo- w trzech różnych sytuacjach. Pierwsza sytuacja była neutralna, czyli niewywo-
łująca lęku. Drugi pomiar został dokonany w sytuacji oczekiwania na wejście do łująca lęku. Drugi pomiar został dokonany w sytuacji oczekiwania na wejście do
komory niskich ciśnień. Oczekiwano, że sytuacja ta jako zagrażająca (np. moż- komory niskich ciśnień. Oczekiwano, że sytuacja ta jako zagrażająca (np. moż-
liwość utraty przytomności) powinna spowodować podniesienie poziomu lęku, liwość utraty przytomności) powinna spowodować podniesienie poziomu lęku,
co powinno znaleźć swoje odzwierciedlenie w wynikach kwestionariusza, o ile co powinno znaleźć swoje odzwierciedlenie w wynikach kwestionariusza, o ile
oczywiście jest on trafną miarą stanu lęku. Trzeci pomiar został dokonany po oczywiście jest on trafną miarą stanu lęku. Trzeci pomiar został dokonany po
wyjściu z komory niskich ciśnień. Przypuszczano, że wynik w nim uzyskany wyjściu z komory niskich ciśnień. Przypuszczano, że wynik w nim uzyskany
powinien być nieco niższy niż przed wejściem do komory, jednak wciąż wyż- powinien być nieco niższy niż przed wejściem do komory, jednak wciąż wyż-
szy niż w sytuacji neutralnej ze względu na utrzymujące się jeszcze napięcie. szy niż w sytuacji neutralnej ze względu na utrzymujące się jeszcze napięcie.
Przypuszczenia te zostały całkowicie potwierdzone przez uzyskane wyniki. Przypuszczenia te zostały całkowicie potwierdzone przez uzyskane wyniki.
Inną sytuacją zagrażającą, którą wykorzystano w badaniach nad trafnością Inną sytuacją zagrażającą, którą wykorzystano w badaniach nad trafnością
STAI jest sytuacja egzaminowania. Podobnie jak zagrożenie fizyczne związane STAI jest sytuacja egzaminowania. Podobnie jak zagrożenie fizyczne związane
z pobytem w komorze niskich ciśnień, powinna ona wywoływać lęk ujawniają- z pobytem w komorze niskich ciśnień, powinna ona wywoływać lęk ujawniają-
cy się w kwestionariuszu STAI. Hipotezę tę sprawdzono, badając pewną grupę cy się w kwestionariuszu STAI. Hipotezę tę sprawdzono, badając pewną grupę
uczniów w trakcie zwykłej lekcji oraz drugi raz w momencie przed pisaniem uczniów w trakcie zwykłej lekcji oraz drugi raz w momencie przed pisaniem
klasówki. Oczekiwanie na sprawdzian spowodowało znaczne podniesienie wyni- klasówki. Oczekiwanie na sprawdzian spowodowało znaczne podniesienie wyni-
ków Skali Lęk-Stan, co było zgodne z hipotezą. Tak więc różne sytuacje zagroże- ków Skali Lęk-Stan, co było zgodne z hipotezą. Tak więc różne sytuacje zagroże-
nia wywołują lęk, co znajduje swój wyraz w wynikach kwestionariusza. nia wywołują lęk, co znajduje swój wyraz w wynikach kwestionariusza.
W opisanych przykładach oddziaływanie eksperymentalne polegało na odpo- W opisanych przykładach oddziaływanie eksperymentalne polegało na odpo-
wiednim doborze sytuacji tak, aby wywoływały one określone zmiany w prze- wiednim doborze sytuacji tak, aby wywoływały one określone zmiany w prze-
życiach osób badanych. Inny rodzaj manipulacji eksperymentalnej może polegać życiach osób badanych. Inny rodzaj manipulacji eksperymentalnej może polegać
na wprowadzeniu jakiegoś celowego oddziaływania w czasie między pierwszym na wprowadzeniu jakiegoś celowego oddziaływania w czasie między pierwszym
a drugim pomiarem testem. W celu zaprezentowania przykładu tego typu ponow- 129 a drugim pomiarem testem. W celu zaprezentowania przykładu tego typu ponow- 129

niewykorzystana zostanie hipotetyczna Skala Postaw Wobec Bezpieczeństwa niewykorzystana zostanie hipotetyczna Skala Postaw Wobec Bezpieczeństwa
Ruchu Drogowego. Badanie jej trafności można zaplanować następująco. Ruchu Drogowego. Badanie jej trafności można zaplanować następująco.
Sprawcy wypadków, zbadani omawianą skalą, mogą wziąć udział w szkoleniu Sprawcy wypadków, zbadani omawianą skalą, mogą wziąć udział w szkoleniu
dotyczącym zagrożeń na drodze. Należy oczekiwać, że po takim szkoleniu posta- dotyczącym zagrożeń na drodze. Należy oczekiwać, że po takim szkoleniu posta-
wa wobec bezpieczeństwa ruchu drogowego ulegnie poprawie. Jeśli więc skala wa wobec bezpieczeństwa ruchu drogowego ulegnie poprawie. Jeśli więc skala
jest istotnie wskaźnikiem takiej postawy, to w opisanej sytuacji jej wyniki powin- jest istotnie wskaźnikiem takiej postawy, to w opisanej sytuacji jej wyniki powin-
ny wzrosnąć po odbytym szkoleniu. ny wzrosnąć po odbytym szkoleniu.
Warto przypomnieć, że wyniki dwukrotnie badanej grupy osób można porów- Warto przypomnieć, że wyniki dwukrotnie badanej grupy osób można porów-
nać stosując test t-Studenta dla prób zależnych lub, jeśli jego założenia nie są nać stosując test t-Studenta dla prób zależnych lub, jeśli jego założenia nie są
spełnione – test Wilcoxona lub test znaków. Nieistotny statystycznie wynik testu spełnione – test Wilcoxona lub test znaków. Nieistotny statystycznie wynik testu
świadczy o braku różnic między porównywanymi średnimi. Oznacza to, że wpro- świadczy o braku różnic między porównywanymi średnimi. Oznacza to, że wpro-
wadzone oddziaływanie eksperymentalne nie wpłynęło w oczekiwany sposób na wadzone oddziaływanie eksperymentalne nie wpłynęło w oczekiwany sposób na
wyniki testu. wyniki testu.
Ostatni ze sposobów oceny trafności teoretycznej nosi nazwę analizy procesu Ostatni ze sposobów oceny trafności teoretycznej nosi nazwę analizy procesu
rozwiązywania testu. Jak sama nazwa wskazuje, polega on na badaniu sposobu, rozwiązywania testu. Jak sama nazwa wskazuje, polega on na badaniu sposobu,
w jaki badani wypełniają dany test. Metoda ta dotyczy zwykle procesów psy- w jaki badani wypełniają dany test. Metoda ta dotyczy zwykle procesów psy-
chicznych zaangażowanych w rozwiązywanie danego testu. O procesach tych chicznych zaangażowanych w rozwiązywanie danego testu. O procesach tych
wnioskuje się na podstawie kolejności wykonywanych czynności, składników wnioskuje się na podstawie kolejności wykonywanych czynności, składników
zadań sprawiających najwięcej trudności, rodzaju popełnianych błędów czy też zadań sprawiających najwięcej trudności, rodzaju popełnianych błędów czy też
pomijanych elementów lub pozycji testowych itp. Informacje tego typu można pomijanych elementów lub pozycji testowych itp. Informacje tego typu można
zebrać dzięki dokładnej obserwacji badanych podczas rozwiązywania zadań lub zebrać dzięki dokładnej obserwacji badanych podczas rozwiązywania zadań lub
odpowiadania na pytania. Pomocne bywa także notowanie subiektywnych ocen odpowiadania na pytania. Pomocne bywa także notowanie subiektywnych ocen
osób badanych oraz ich introspekcyjnych relacji na temat sposobu dochodzenia osób badanych oraz ich introspekcyjnych relacji na temat sposobu dochodzenia
do odpowiedzi. Często badani zwracają uwagę na niejednoznaczność pytań, opo- do odpowiedzi. Często badani zwracają uwagę na niejednoznaczność pytań, opo-
wiadają też, jakie mieli skojarzenia związane z treścią pozycji testowych. wiadają też, jakie mieli skojarzenia związane z treścią pozycji testowych.
Rozważmy stwierdzenie w jednej ze skal badających depresję „mam tylu przy- Rozważmy stwierdzenie w jednej ze skal badających depresję „mam tylu przy-
jaciół, na ilu zasługuję”. W intencji autora osoby depresyjne, czujące się osamot- jaciół, na ilu zasługuję”. W intencji autora osoby depresyjne, czujące się osamot-
nione miały odpowiadać przecząco. W rzeczywistości wielu z nich odpowiada nione miały odpowiadać przecząco. W rzeczywistości wielu z nich odpowiada
twierdząco, wyjaśniając „nie mam przyjaciół, bo na nich nie zasługuję”. Przykład twierdząco, wyjaśniając „nie mam przyjaciół, bo na nich nie zasługuję”. Przykład
ten ilustruje, że analiza uzasadnień wybranych odpowiedzi może rzucić pewne ten ilustruje, że analiza uzasadnień wybranych odpowiedzi może rzucić pewne
światło na to, jak poszczególne pozycje testowe rozumiane są przez badanych. światło na to, jak poszczególne pozycje testowe rozumiane są przez badanych.
W badaniach nad trafnością niektórych testów badających procesy poznaw- W badaniach nad trafnością niektórych testów badających procesy poznaw-
cze i sprawność intelektualną można niekiedy wykorzystać tzw. komponento- cze i sprawność intelektualną można niekiedy wykorzystać tzw. komponento-
wą teorię Sternberga. Dokładne jej omówienie wykracza poza ramy niniejszej wą teorię Sternberga. Dokładne jej omówienie wykracza poza ramy niniejszej
książki. Szczegółowe informacje znaleźć można w pracach Matczak (1994) książki. Szczegółowe informacje znaleźć można w pracach Matczak (1994)
i Nęckiego (2003). W skrócie teoria ta zakłada, że procesy intelektualne składają i Nęckiego (2003). W skrócie teoria ta zakłada, że procesy intelektualne składają
się z pewnych komponentów zróżnicowanych pod względem funkcji, jaką peł- się z pewnych komponentów zróżnicowanych pod względem funkcji, jaką peł-
nią. Wyodrębnienie tych komponentów w procesie rozwiązywania zadań intelek- nią. Wyodrębnienie tych komponentów w procesie rozwiązywania zadań intelek-
tualnych jest możliwe, dzięki dekompozycji tych zadań, polegającej na takim ich tualnych jest możliwe, dzięki dekompozycji tych zadań, polegającej na takim ich
modyfikowaniu, by zmieniać liczbę potrzebnych przy ich wykonywaniu kom- modyfikowaniu, by zmieniać liczbę potrzebnych przy ich wykonywaniu kom-
ponentów. Śledząc, jak zmiany te wpływają na rozwiązanie zadań przez osobę ponentów. Śledząc, jak zmiany te wpływają na rozwiązanie zadań przez osobę
130 badaną (szybkość i poprawność odpowiedzi), można oceniać funkcjonowanie 130 badaną (szybkość i poprawność odpowiedzi), można oceniać funkcjonowanie

poszczególnych komponentów. Sternberg zakłada, że łączny czas wykonania poszczególnych komponentów. Sternberg zakłada, że łączny czas wykonania
zadania jest sumą czasów trwania procesów każdego z komponentów. Pomiaru zadania jest sumą czasów trwania procesów każdego z komponentów. Pomiaru
szybkości przebiegu procesu danego komponentu można dokonać tak modyfiku- szybkości przebiegu procesu danego komponentu można dokonać tak modyfiku-
jąc zadanie, by proces ten został wyeliminowany lub dodany do zadania prost- jąc zadanie, by proces ten został wyeliminowany lub dodany do zadania prost-
szego. Rozpatrzmy następujący przykład. Pierwotne zadanie składa się z czyn- szego. Rozpatrzmy następujący przykład. Pierwotne zadanie składa się z czyn-
ności bardzo elementarnej, np. naciskanie klawisza w odpowiedzi na światło. ności bardzo elementarnej, np. naciskanie klawisza w odpowiedzi na światło.
Kolejne zadanie zawiera jeden dodany element, np. wybór reakcji w zależności Kolejne zadanie zawiera jeden dodany element, np. wybór reakcji w zależności
od działającego bodźca. Następne zadania polegają na zwiększaniu obciążenia od działającego bodźca. Następne zadania polegają na zwiększaniu obciążenia
o dodatkowe elementy, np. pamiętanie zestawu bodźców, na które należy reago- o dodatkowe elementy, np. pamiętanie zestawu bodźców, na które należy reago-
wać itd. Jeśli uzyskane czasy reakcji są zgodne z przewidywaniami oraz danymi wać itd. Jeśli uzyskane czasy reakcji są zgodne z przewidywaniami oraz danymi
pochodzącymi z eksperymentów laboratoryjnych – test jest narzędziem trafnym. pochodzącymi z eksperymentów laboratoryjnych – test jest narzędziem trafnym.
Procedury dekompozycji zadań nie są jeszcze powszechnie stosowane i wymaga- Procedury dekompozycji zadań nie są jeszcze powszechnie stosowane i wymaga-
ją dalszego doskonalenia. Wydaje się jednak, że może być to interesujący kieru- ją dalszego doskonalenia. Wydaje się jednak, że może być to interesujący kieru-
nek badań, umożliwiający identyfikację zmiennych mierzonych przez testy. nek badań, umożliwiający identyfikację zmiennych mierzonych przez testy.
5.2.2.3. Trafność kryterialna 5.2.2.3. Trafność kryterialna

Trafność kryterialna (zwana niekiedy zewnętrzną) to zgodność wyników te- Trafność kryterialna (zwana niekiedy zewnętrzną) to zgodność wyników te-
stowych z kryterium zewnętrznym. Pewnego wyjaśnienia wymaga pojęcie „ze- stowych z kryterium zewnętrznym. Pewnego wyjaśnienia wymaga pojęcie „ze-
wnętrznego kryterium”. Przez pojęcie to rozumie się inną niż test, którego traf- wnętrznego kryterium”. Przez pojęcie to rozumie się inną niż test, którego traf-
ność chce się określić, miarę badanej zmiennej. Słowo „zewnętrzny” podkreśla, ność chce się określić, miarę badanej zmiennej. Słowo „zewnętrzny” podkreśla,
że chodzi o taką miarę, która jest całkowicie różna od testu, którego trafność się że chodzi o taką miarę, która jest całkowicie różna od testu, którego trafność się
szacuje. Pojęcie trafności kryterialnej najczęściej odnosi się do sytuacji, w któ- szacuje. Pojęcie trafności kryterialnej najczęściej odnosi się do sytuacji, w któ-
rej badaczowi zależy na opracowaniu stosunkowo prostego narzędzia pozwa- rej badaczowi zależy na opracowaniu stosunkowo prostego narzędzia pozwa-
lającego wnioskować o wystąpieniu realnego empirycznego zjawiska, którego lającego wnioskować o wystąpieniu realnego empirycznego zjawiska, którego
stwierdzenie jest stosunkowo trudne. Przykładem mogą być testy psychologicz- stwierdzenie jest stosunkowo trudne. Przykładem mogą być testy psychologicz-
ne pozwalające wnioskować o uszkodzeniach mózgu, powodujące zaburzenia ne pozwalające wnioskować o uszkodzeniach mózgu, powodujące zaburzenia
w funkcjonowaniu psychicznym, zanim jeszcze mogą zostać wykryte w badaniu w funkcjonowaniu psychicznym, zanim jeszcze mogą zostać wykryte w badaniu
neurologicznym. Podobnie, niekiedy proste testy psychologiczne ułatwiają szyb- neurologicznym. Podobnie, niekiedy proste testy psychologiczne ułatwiają szyb-
ką diagnozę, np. depresji lub uzależnienia od alkoholu. Bez użycia takich metod ką diagnozę, np. depresji lub uzależnienia od alkoholu. Bez użycia takich metod
stwierdzenie wymienionych zaburzeń wymagałoby pracochłonnej obserwacji stwierdzenie wymienionych zaburzeń wymagałoby pracochłonnej obserwacji
i badania. i badania.
Ogólnie rzecz ujmując, kryterium jest to zachowanie czy właściwość, o której Ogólnie rzecz ujmując, kryterium jest to zachowanie czy właściwość, o której
chcemy wnioskować z wyniku ocenianego testu. Tak więc, jeśli chcielibyśmy chcemy wnioskować z wyniku ocenianego testu. Tak więc, jeśli chcielibyśmy
sprawdzić trafność testu przeznaczonego do diagnozowania depresji, musimy sprawdzić trafność testu przeznaczonego do diagnozowania depresji, musimy
znaleźć pewne kryterium, które byłoby inną miarą depresji. Taką zmienną może znaleźć pewne kryterium, które byłoby inną miarą depresji. Taką zmienną może
być np. diagnoza psychologiczna lub psychiatryczna. Korelacja (mówiąc w tym być np. diagnoza psychologiczna lub psychiatryczna. Korelacja (mówiąc w tym
miejscu o korelacji, mamy na myśli współwystępowanie zjawisk, a nie współ- miejscu o korelacji, mamy na myśli współwystępowanie zjawisk, a nie współ-
czynnik korelacji) między tym kryterium a wynikiem testu jest wskaźnikiem czynnik korelacji) między tym kryterium a wynikiem testu jest wskaźnikiem
trafności. Jeżeli więc osoby, które zostały zdiagnozowane przez psychiatrę jako trafności. Jeżeli więc osoby, które zostały zdiagnozowane przez psychiatrę jako
chore na depresję, uzyskują w teście wyniki wskazujące na depresję, a osoby, chore na depresję, uzyskują w teście wyniki wskazujące na depresję, a osoby,
które zostały zdiagnozowane jako zdrowe, uzyskują w teście wyniki wskazujące 131 które zostały zdiagnozowane jako zdrowe, uzyskują w teście wyniki wskazujące 131

na brak zaburzeń, to test jest trafny ze względu na kryterium, jakim jest diagno- na brak zaburzeń, to test jest trafny ze względu na kryterium, jakim jest diagno-
za psychiatryczna depresji. Mogłoby się również zdarzyć, że nie ma żadnego za psychiatryczna depresji. Mogłoby się również zdarzyć, że nie ma żadnego
związku między kryterium a wynikami testu. Stałoby się tak w sytuacji, gdy np. związku między kryterium a wynikami testu. Stałoby się tak w sytuacji, gdy np.
połowa osób, które zostały zdiagnozowane przez psychiatrę jako chore na depre- połowa osób, które zostały zdiagnozowane przez psychiatrę jako chore na depre-
sję, uzyskuje w teście wyniki wskazujące na depresję, a druga połowa – wyniki sję, uzyskuje w teście wyniki wskazujące na depresję, a druga połowa – wyniki
wskazujące na brak zaburzeń. Oczywiście, świadczy to o braku trafności testu. wskazujące na brak zaburzeń. Oczywiście, świadczy to o braku trafności testu.
Wyniki testowe wykorzystywane są czasem w celu przewidywania jakiegoś Wyniki testowe wykorzystywane są czasem w celu przewidywania jakiegoś
przyszłego stanu osoby badanej, np. powodzenia zawodowego w danym miej- przyszłego stanu osoby badanej, np. powodzenia zawodowego w danym miej-
scu pracy czy też skutków podjętej terapii. Oczywiście, aby takie przewidywanie scu pracy czy też skutków podjętej terapii. Oczywiście, aby takie przewidywanie
było możliwe, nie wystarczy przeświadczenie konstruktora testu, że stworzone było możliwe, nie wystarczy przeświadczenie konstruktora testu, że stworzone
przez niego narzędzie nadaje się do tego celu. Konieczne jest posiadanie odpo- przez niego narzędzie nadaje się do tego celu. Konieczne jest posiadanie odpo-
wiednich danych stwierdzających, że rzeczywiście wyniki testu korelują z pożą- wiednich danych stwierdzających, że rzeczywiście wyniki testu korelują z pożą-
danym stanem w przyszłości. Są to dane dotyczące także trafności kryterialnej danym stanem w przyszłości. Są to dane dotyczące także trafności kryterialnej
z tą różnicą, że w obecnie omawianym przypadku interesuje nas kryterium istnie- z tą różnicą, że w obecnie omawianym przypadku interesuje nas kryterium istnie-
jące w przyszłości. Tak więc, aby sprawdzić trafność w tym przypadku musimy jące w przyszłości. Tak więc, aby sprawdzić trafność w tym przypadku musimy
przeprowadzić badanie, w którym pewna liczba osób (np. kandydatów do pracy) przeprowadzić badanie, w którym pewna liczba osób (np. kandydatów do pracy)
wykona dany test, a po upływie określonego czasu dokonany zostanie pomiar wykona dany test, a po upływie określonego czasu dokonany zostanie pomiar
kryterium (np. efektywności pracy zawodowej ocenianej przez przełożonych). kryterium (np. efektywności pracy zawodowej ocenianej przez przełożonych).
Jeżeli wyniki testu korelują z tym kryterium zmierzonym po upływie danego Jeżeli wyniki testu korelują z tym kryterium zmierzonym po upływie danego
czasu, można uznać, że na podstawie wyników testu możliwe jest przewidywanie czasu, można uznać, że na podstawie wyników testu możliwe jest przewidywanie
przyszłego stanu osoby badanej. przyszłego stanu osoby badanej.
Opisane dwie sytuacje dotyczą dwóch rodzajów trafności kryterialnej, jakimi Opisane dwie sytuacje dotyczą dwóch rodzajów trafności kryterialnej, jakimi
są trafność diagnostyczna i trafność prognostyczna. W pierwszym z opisanych są trafność diagnostyczna i trafność prognostyczna. W pierwszym z opisanych
przykładów, kiedy na podstawie wyników danego testu można wnioskować o ak- przykładów, kiedy na podstawie wyników danego testu można wnioskować o ak-
tualnie istniejącym kryterium, mówimy o trafności diagnostycznej. Natomiast tualnie istniejącym kryterium, mówimy o trafności diagnostycznej. Natomiast
trafność prognostyczna interesuje nas wtedy, gdy zadaniem testu jest przewidy- trafność prognostyczna interesuje nas wtedy, gdy zadaniem testu jest przewidy-
wanie kryterium w przyszłości. wanie kryterium w przyszłości.
Bardzo istotnym zagadnieniem jest wybór właściwego kryterium. Kryterium Bardzo istotnym zagadnieniem jest wybór właściwego kryterium. Kryterium
to musi być wybrane tak, aby odpowiadało konkretnemu zapotrzebowaniu sto- to musi być wybrane tak, aby odpowiadało konkretnemu zapotrzebowaniu sto-
sowania danego testu. Jeśli np. chcemy stosować dane narzędzie do prognozo- sowania danego testu. Jeśli np. chcemy stosować dane narzędzie do prognozo-
wania skuteczności pracy w zawodzie strażaka, to musimy wykazać, że wyniki wania skuteczności pracy w zawodzie strażaka, to musimy wykazać, że wyniki
naszego testu pozytywnie korelują z powodzeniem w tym zawodzie. Pojawia naszego testu pozytywnie korelują z powodzeniem w tym zawodzie. Pojawia
się więc problem dobrego zdefiniowania, czym jest kryterium, jakim w naszym się więc problem dobrego zdefiniowania, czym jest kryterium, jakim w naszym
przykładzie jest „powodzenie w zawodzie strażaka”. Może chodzić np. o szyb- przykładzie jest „powodzenie w zawodzie strażaka”. Może chodzić np. o szyb-
kość gaszenia pożaru albo o szybkość wykonywania pewnych czynności zwią- kość gaszenia pożaru albo o szybkość wykonywania pewnych czynności zwią-
zanych z gaszeniem (np. rozwijania węża strażackiego). Specjaliści z zakresu zanych z gaszeniem (np. rozwijania węża strażackiego). Specjaliści z zakresu
pożarnictwa mogliby prawdopodobnie wskazać jeszcze inne bardziej użyteczne pożarnictwa mogliby prawdopodobnie wskazać jeszcze inne bardziej użyteczne
kryteria powodzenia w zawodzie strażaka. Kryterium to może być też kombi- kryteria powodzenia w zawodzie strażaka. Kryterium to może być też kombi-
nacją różnych umiejętności z zakresu gaszenia pożarów. Jeśli zdecydujemy się nacją różnych umiejętności z zakresu gaszenia pożarów. Jeśli zdecydujemy się
na jakąś definicję kryterium, przeprowadzimy odpowiednie badanie, które do- na jakąś definicję kryterium, przeprowadzimy odpowiednie badanie, które do-
prowadzi nas do wniosku, że wyniki testu rzeczywiście korelują z kryterium, prowadzi nas do wniosku, że wyniki testu rzeczywiście korelują z kryterium,
132 to udowodnimy trafność prognostyczną testu. Istotne jest jednak, że w ten spo- 132 to udowodnimy trafność prognostyczną testu. Istotne jest jednak, że w ten spo-

sób sprawdzona trafność dotyczy tylko możliwości przewidywania tego jednego sób sprawdzona trafność dotyczy tylko możliwości przewidywania tego jednego
określonego kryterium. Jeśli za kryterium wybraliśmy szybkość rozwijania węża określonego kryterium. Jeśli za kryterium wybraliśmy szybkość rozwijania węża
strażackiego i wyniki testu z nim korelują, to na podstawie tych samych wyników strażackiego i wyniki testu z nim korelują, to na podstawie tych samych wyników
nic nie można powiedzieć np. o biegłości w posługiwaniu się sprzętem gaśni- nic nie można powiedzieć np. o biegłości w posługiwaniu się sprzętem gaśni-
czym. Oczywiście nie można też nic powiedzieć na temat przydatności do pracy czym. Oczywiście nie można też nic powiedzieć na temat przydatności do pracy
w innych zawodach np. w policji. w innych zawodach np. w policji.
Ogólnie wybór kryterium zależy od planowanego zastosowania danego testu Ogólnie wybór kryterium zależy od planowanego zastosowania danego testu
i wniosków, jakie na jakiego podstawie mają być formułowane. Jako kryterium i wniosków, jakie na jakiego podstawie mają być formułowane. Jako kryterium
może posłużyć nie tylko wymieniona wcześniej diagnoza psychiatryczna lub może posłużyć nie tylko wymieniona wcześniej diagnoza psychiatryczna lub
psychologiczna, czy też powodzenie zawodowe. Psychologa może interesować psychologiczna, czy też powodzenie zawodowe. Psychologa może interesować
diagnozowanie bądź przewidywanie bardzo wielu zachowań lub stanów czło- diagnozowanie bądź przewidywanie bardzo wielu zachowań lub stanów czło-
wieka. Dlatego jako kryterium może być wykorzystane bardzo wiele zmiennych. wieka. Dlatego jako kryterium może być wykorzystane bardzo wiele zmiennych.
Przykładami takich kryteriów mogą być np. ukończenie szkoły lub uzyskiwa- Przykładami takich kryteriów mogą być np. ukończenie szkoły lub uzyskiwa-
ne stopnie szkolne (kryterium powodzenia w nauce szkolnej lub akademickiej). ne stopnie szkolne (kryterium powodzenia w nauce szkolnej lub akademickiej).
Oczywiście wybór takiego kryterium ma sens tylko wtedy, jeśli celem stosowania Oczywiście wybór takiego kryterium ma sens tylko wtedy, jeśli celem stosowania
danego testu jest przewidywanie lub ocenianie osiągnięć szkolnych. W szczegól- danego testu jest przewidywanie lub ocenianie osiągnięć szkolnych. W szczegól-
ności można wyobrazić sobie sytuację, w której psycholog zainteresowany jest np. ności można wyobrazić sobie sytuację, w której psycholog zainteresowany jest np.
przewidywaniem osiągnięć z danego przedmiotu, np. z psychometrii. W tym celu przewidywaniem osiągnięć z danego przedmiotu, np. z psychometrii. W tym celu
można opracować odpowiedni test, a trafność przewidywań sprawdzić przez sko- można opracować odpowiedni test, a trafność przewidywań sprawdzić przez sko-
relowanie jego wyników z ocenami z egzaminu z psychometrii. Oczywiście lepiej relowanie jego wyników z ocenami z egzaminu z psychometrii. Oczywiście lepiej
byłoby przeprowadzić ten test na początku semestru, a dopiero po przeprowadze- byłoby przeprowadzić ten test na początku semestru, a dopiero po przeprowadze-
niu egzaminu obliczyć jego korelację ze stopniami. W ten sposób można spraw- niu egzaminu obliczyć jego korelację ze stopniami. W ten sposób można spraw-
dzić trafność prognostyczną testu. Jeśli okazałoby się, że wyniki testu korelują ze dzić trafność prognostyczną testu. Jeśli okazałoby się, że wyniki testu korelują ze
stopniami egzaminacyjnymi, możliwe byłoby stosowanie tego testu na początku stopniami egzaminacyjnymi, możliwe byłoby stosowanie tego testu na początku
semestru do przewidywania osiągnięć studentów pod względem psychometrii. semestru do przewidywania osiągnięć studentów pod względem psychometrii.
W niektórych przypadkach możliwe jest zaangażowanie sędziów kompetent- W niektórych przypadkach możliwe jest zaangażowanie sędziów kompetent-
nych, którzy oszacują (np. na podstawie obserwacji badanych w konkretnych nych, którzy oszacują (np. na podstawie obserwacji badanych w konkretnych
sytuacjach) interesujące badacza kryterium. W ten sposób np. możliwe jest sytuacjach) interesujące badacza kryterium. W ten sposób np. możliwe jest
określenie poziomu przystosowania społecznego uczestników terapii grupowej. określenie poziomu przystosowania społecznego uczestników terapii grupowej.
Hipotetyczna procedura mogłaby wyglądać w ten sposób, że przeszkoleni sę- Hipotetyczna procedura mogłaby wyglądać w ten sposób, że przeszkoleni sę-
dziowie kompetentni (którymi w tym przypadku mogli być terapeuci) oglądaliby dziowie kompetentni (którymi w tym przypadku mogli być terapeuci) oglądaliby
filmy z nagranymi sesjami terapeutycznymi. Na podstawie zaobserwowanych filmy z nagranymi sesjami terapeutycznymi. Na podstawie zaobserwowanych
zachowań pacjentów dokonywaliby oni oszacowania poziomu przystosowania zachowań pacjentów dokonywaliby oni oszacowania poziomu przystosowania
społecznego. W ten sposób uzyskuje się zmienną, którą można uznać za kryte- społecznego. W ten sposób uzyskuje się zmienną, którą można uznać za kryte-
rium trafności. Oczywiście konieczne jest jeszcze przebadanie pacjentów testem, rium trafności. Oczywiście konieczne jest jeszcze przebadanie pacjentów testem,
służącym do diagnozy poziomu przystosowania społecznego i skorelowanie jego służącym do diagnozy poziomu przystosowania społecznego i skorelowanie jego
wyników z ocenami sędziów. wyników z ocenami sędziów.
Wybór jednego kryterium nie musi oznaczać, że dany test nadaje się tylko do Wybór jednego kryterium nie musi oznaczać, że dany test nadaje się tylko do
diagnozowania lub przewidywania tegoż kryterium. Każdy test może być spraw- diagnozowania lub przewidywania tegoż kryterium. Każdy test może być spraw-
dzony w stosunku do wielu różnych kryteriów. Mogą to być zarówno kryteria dzony w stosunku do wielu różnych kryteriów. Mogą to być zarówno kryteria
dotyczące tej samej zmiennej (np. różne kryteria depresji), jak i kryteria dotyczą- dotyczące tej samej zmiennej (np. różne kryteria depresji), jak i kryteria dotyczą-
ce różnych zmiennych (np. powodzenie w zawodzie strażaka oraz powodzenie 133 ce różnych zmiennych (np. powodzenie w zawodzie strażaka oraz powodzenie 133

w zawodzie policjanta). Skorelowanie wyników testu z jednym kryterium nie w zawodzie policjanta). Skorelowanie wyników testu z jednym kryterium nie
oznacza, że będą one również skorelowane z innym kryterium. W szczególno- oznacza, że będą one również skorelowane z innym kryterium. W szczególno-
ści wysoka trafność diagnostyczna nie gwarantuje jego trafności prognostycznej ści wysoka trafność diagnostyczna nie gwarantuje jego trafności prognostycznej
i odwrotnie. Sprawdzenie trafności pomiaru testem pod względem innego kryte- i odwrotnie. Sprawdzenie trafności pomiaru testem pod względem innego kryte-
rium związane jest z rozszerzeniem jego zastosowania. rium związane jest z rozszerzeniem jego zastosowania.
W przypadku trafności kryterialnej można mówić, podobnie jak w przypad- W przypadku trafności kryterialnej można mówić, podobnie jak w przypad-
ku trafności teoretycznej, o trafności zbieżnej i różnicowej. Jest to szczegól- ku trafności teoretycznej, o trafności zbieżnej i różnicowej. Jest to szczegól-
nie ważne w sytuacji, gdy badacz chce mieć pewność, że jego narzędzie dobrze nie ważne w sytuacji, gdy badacz chce mieć pewność, że jego narzędzie dobrze
diagnozuje określone kryterium i tylko to kryterium. Sytuacja taka może wy- diagnozuje określone kryterium i tylko to kryterium. Sytuacja taka może wy-
stąpić np. w przypadku kwestionariusza przeznaczonego do diagnozy depresji. stąpić np. w przypadku kwestionariusza przeznaczonego do diagnozy depresji.
Jak wiemy, kryterium dla tego typu narzędzia może stanowić diagnoza depresji Jak wiemy, kryterium dla tego typu narzędzia może stanowić diagnoza depresji
sformułowana przez psychologa lub psychiatrę, czyli powinna ona korelować sformułowana przez psychologa lub psychiatrę, czyli powinna ona korelować
z wynikami kwestionariusza. Jednocześnie twórca kwestionariusza może chcieć, z wynikami kwestionariusza. Jednocześnie twórca kwestionariusza może chcieć,
żeby jego narzędzie było specyficzne dla depresji tzn., żeby nie okazało się, że żeby jego narzędzie było specyficzne dla depresji tzn., żeby nie okazało się, że
osoby cierpiące na inne zaburzenia psychiczne osiągają również wysokie wyniki osoby cierpiące na inne zaburzenia psychiczne osiągają również wysokie wyniki
w kwestionariuszu. Należy to sprawdzić w odpowiednio zaplanowanym badaniu w kwestionariuszu. Należy to sprawdzić w odpowiednio zaplanowanym badaniu
empirycznym. Będziemy oczekiwać, że wyniki inwentarza nie będą korelować empirycznym. Będziemy oczekiwać, że wyniki inwentarza nie będą korelować
z diagnozą schizofrenii czy innych zaburzeń. W omówionym przypadku spraw- z diagnozą schizofrenii czy innych zaburzeń. W omówionym przypadku spraw-
dzanie korelacji z diagnozą depresji dotyczy aspektu zbieżnego trafności kryte- dzanie korelacji z diagnozą depresji dotyczy aspektu zbieżnego trafności kryte-
rialnej, a sprawdzanie korelacji z diagnozą innych chorób – aspektu różnicowego rialnej, a sprawdzanie korelacji z diagnozą innych chorób – aspektu różnicowego
trafności kryterialnej. trafności kryterialnej.
Dobrym sposobem szacowania trafności kryterialnej jest również ocena, na ile Dobrym sposobem szacowania trafności kryterialnej jest również ocena, na ile
wyniki testu wspomagają podejmowanie decyzji diagnostycznych w psycholo- wyniki testu wspomagają podejmowanie decyzji diagnostycznych w psycholo-
gii klinicznej. Procedura postępowania powinna wyglądać następująco. Pacjenci gii klinicznej. Procedura postępowania powinna wyglądać następująco. Pacjenci
byliby badani przez psychologa stawiającego diagnozę kliniczną pewnego typu byliby badani przez psychologa stawiającego diagnozę kliniczną pewnego typu
zaburzeń. Dodatkowo podlegaliby oni badaniu przez niezależnego psychologa, zaburzeń. Dodatkowo podlegaliby oni badaniu przez niezależnego psychologa,
używającego innych technik w tym również skali X, której trafność chcemy używającego innych technik w tym również skali X, której trafność chcemy
określić. Następnie diagnoza byłaby formułowana niezależnie przez dwie grupy określić. Następnie diagnoza byłaby formułowana niezależnie przez dwie grupy
ekspertów. Pierwsza grupa miałaby do dyspozycji materiały zebrane przez nie- ekspertów. Pierwsza grupa miałaby do dyspozycji materiały zebrane przez nie-
zależnego psychologa, w tym również skalę X. Druga grupa posługiwałaby się zależnego psychologa, w tym również skalę X. Druga grupa posługiwałaby się
zebranym materiałem z wyłączeniem skali X. Jeśli wyniki grupy pierwszej by- zebranym materiałem z wyłączeniem skali X. Jeśli wyniki grupy pierwszej by-
łyby istotnie, częściej zbieżne z diagnozą kliniczną, należałoby uznać, że test X łyby istotnie, częściej zbieżne z diagnozą kliniczną, należałoby uznać, że test X
posiada odpowiednią trafność diagnostyczną. W tym przypadku nożna mówić posiada odpowiednią trafność diagnostyczną. W tym przypadku nożna mówić
o tzw. przyroście trafności związanym z zastosowaniem skali X. o tzw. przyroście trafności związanym z zastosowaniem skali X.
Przytoczone przykłady różnych zmiennych kryterialnych miały na celu przy- Przytoczone przykłady różnych zmiennych kryterialnych miały na celu przy-
bliżenie idei trafności kryterialnej. Należy podkreślić, że ten rodzaj trafności do- bliżenie idei trafności kryterialnej. Należy podkreślić, że ten rodzaj trafności do-
tyczy wyłącznie skorelowania testu z kryterium. Orzeka więc ona o tym, jak tyczy wyłącznie skorelowania testu z kryterium. Orzeka więc ona o tym, jak
dobrą miarą kryterium jest test. Przedmiotem pomiaru jest więc tylko zmienna dobrą miarą kryterium jest test. Przedmiotem pomiaru jest więc tylko zmienna
kryterialna, a nie np. wewnętrzne cechy psychiczne odpowiedzialne za skore- kryterialna, a nie np. wewnętrzne cechy psychiczne odpowiedzialne za skore-
lowanie kryterium i wyników testu. Można by bowiem przypuszczać, że skoro lowanie kryterium i wyników testu. Można by bowiem przypuszczać, że skoro
wyniki pewnego testu umożliwiają przewidywanie powodzenia w studiach inży- wyniki pewnego testu umożliwiają przewidywanie powodzenia w studiach inży-
134 nierskich, to prawdopodobnie ten test mierzy pewną cechę psychiczną związaną 134 nierskich, to prawdopodobnie ten test mierzy pewną cechę psychiczną związaną

z tym kierunkiem studiów np. inteligencję ogólną albo zdolności matematyczne z tym kierunkiem studiów np. inteligencję ogólną albo zdolności matematyczne
lub też zdolności logiczno-abstrakcyjne. Takie przypuszczenie jest uzasadnione, lub też zdolności logiczno-abstrakcyjne. Takie przypuszczenie jest uzasadnione,
choć pojedyncza korelacja wyniku testu i powodzenia w studiach inżynierskich choć pojedyncza korelacja wyniku testu i powodzenia w studiach inżynierskich
jednoznacznie nie przesądza o tym, którą z wymienionych zdolności mierzy ten jednoznacznie nie przesądza o tym, którą z wymienionych zdolności mierzy ten
test. W tej sytuacji nie ulega jednak wątpliwości, że jest on trafną miarą powo- test. W tej sytuacji nie ulega jednak wątpliwości, że jest on trafną miarą powo-
dzenia w studiach (Magnusson, 1991). dzenia w studiach (Magnusson, 1991).
Dokonując oceny trafności kryterialnej, należy pamiętać, że zmienne stano- Dokonując oceny trafności kryterialnej, należy pamiętać, że zmienne stano-
wiące kryteria nigdy nie są całkowicie rzetelne i trafne. Jeśli np. jako kryterium wiące kryteria nigdy nie są całkowicie rzetelne i trafne. Jeśli np. jako kryterium
przyjmie się stopnie szkolne to jasne jest, że takie kryterium bywa nierzetelne przyjmie się stopnie szkolne to jasne jest, że takie kryterium bywa nierzetelne
i nietrafne. Zdarzają się bowiem nauczyciele, którzy oceniając uczniów biorą pod i nietrafne. Zdarzają się bowiem nauczyciele, którzy oceniając uczniów biorą pod
uwagę czynniki, które zupełnie nie mają nic wspólnego z przedmiotem oceny uwagę czynniki, które zupełnie nie mają nic wspólnego z przedmiotem oceny
(np. stopnie bywają wystawiane na podstawie opinii, jaką ktoś sobie wyrobił na (np. stopnie bywają wystawiane na podstawie opinii, jaką ktoś sobie wyrobił na
początku nauki, w młodszych klasach lepiej bywają oceniani uczniowie grzeczni, początku nauki, w młodszych klasach lepiej bywają oceniani uczniowie grzeczni,
a nie ci, którzy rzeczywiści lepiej opanowali zagadnienia z danego przedmiotu a nie ci, którzy rzeczywiści lepiej opanowali zagadnienia z danego przedmiotu
itd.). Zrozumiałe jest, że na potrzeby szacowania trafności pomiarów testowych itd.). Zrozumiałe jest, że na potrzeby szacowania trafności pomiarów testowych
należy wybierać kryteria o jak najwyższej rzetelności i trafności. Jest to warunek należy wybierać kryteria o jak najwyższej rzetelności i trafności. Jest to warunek
poprawnego szacowania trafności. poprawnego szacowania trafności.
Poważnym błędem, który może pojawić się w badaniach nad trafnością kryte- Poważnym błędem, który może pojawić się w badaniach nad trafnością kryte-
rialną jest kontaminacja (skażenie) kryterium (Magnusson, 1991). Wyobraźmy rialną jest kontaminacja (skażenie) kryterium (Magnusson, 1991). Wyobraźmy
sobie sytuację, w której psycholog pracujący w klinice bada swoich pacjentów sobie sytuację, w której psycholog pracujący w klinice bada swoich pacjentów
za pomocą skali nastroju X. Zespół leczący na podstawie różnych danych, w tym za pomocą skali nastroju X. Zespół leczący na podstawie różnych danych, w tym
opinii psychologa sformułowanej na podstawie wyniku X, ustala rozpoznanie. opinii psychologa sformułowanej na podstawie wyniku X, ustala rozpoznanie.
Zgromadziwszy odpowiednio dużo danych, psycholog postanawia zbadać traf- Zgromadziwszy odpowiednio dużo danych, psycholog postanawia zbadać traf-
ność kryterialną skali X i w tym celu porównuje grupę pacjentów z rozpoznaniem ność kryterialną skali X i w tym celu porównuje grupę pacjentów z rozpoznaniem
depresji z grupą pozostałych pacjentów. Jak łatwo zauważyć, badanie takie jest depresji z grupą pozostałych pacjentów. Jak łatwo zauważyć, badanie takie jest
nieprawidłowe, badacz popełnił błąd metodologicznego błędnego koła. Na pod- nieprawidłowe, badacz popełnił błąd metodologicznego błędnego koła. Na pod-
stawie (m.in.) skali X ustalił rozpoznanie, które następnie miało stać się kryte- stawie (m.in.) skali X ustalił rozpoznanie, które następnie miało stać się kryte-
rium dla oceny trafności X. rium dla oceny trafności X.
W opisanej sytuacji prawidłowe postępowanie powinno polegać na gromadze- W opisanej sytuacji prawidłowe postępowanie powinno polegać na gromadze-
niu wyników skali X, niezależnie od postawienia rozpoznania. Samo rozpoznanie niu wyników skali X, niezależnie od postawienia rozpoznania. Samo rozpoznanie
natomiast powinno być w całości sformułowane na podstawie innych przesłanek, natomiast powinno być w całości sformułowane na podstawie innych przesłanek,
takich jak wywiad, obserwacja czy inne testy niż test, którego trafność chcemy takich jak wywiad, obserwacja czy inne testy niż test, którego trafność chcemy
określić. Następnie można porównać wyniki skali X z niezależnie ustalonym roz- określić. Następnie można porównać wyniki skali X z niezależnie ustalonym roz-
poznaniem depresji. poznaniem depresji.
Ocena trafności prognostycznej testu wymaga z reguły badań podłużnych, tj. Ocena trafności prognostycznej testu wymaga z reguły badań podłużnych, tj.
obejmujących dłuższy okres czasu. Jeśli wynik skali X miałby stanowić progno- obejmujących dłuższy okres czasu. Jeśli wynik skali X miałby stanowić progno-
zę skuteczności terapii zaburzeń emocjonalnych, należałoby zbadać wszystkich zę skuteczności terapii zaburzeń emocjonalnych, należałoby zbadać wszystkich
pacjentów rozpoczynających terapię. Następnie, po zakończeniu terapii, wyod- pacjentów rozpoczynających terapię. Następnie, po zakończeniu terapii, wyod-
rębniona zostaje grupa pacjentów, u których zaobserwowano pełną poprawę. rębniona zostaje grupa pacjentów, u których zaobserwowano pełną poprawę.
Jeśli stwierdzimy, że wyniki skali X tej grupy przed terapią były inne niż w gru- Jeśli stwierdzimy, że wyniki skali X tej grupy przed terapią były inne niż w gru-
pie pozostałych pacjentów, u których nie wystąpiła poprawa – test należy uznać pie pozostałych pacjentów, u których nie wystąpiła poprawa – test należy uznać
za trafny prognostycznie. 135 za trafny prognostycznie. 135

W przypadku trafności prognostycznej ważny jest nie tylko wybór kryterium, W przypadku trafności prognostycznej ważny jest nie tylko wybór kryterium,
lecz także odstęp czasu upływającego od momentu pomiaru dokonanego za po- lecz także odstęp czasu upływającego od momentu pomiaru dokonanego za po-
mocą testu do chwili pomiaru kryterium. Zwykle czas ten podyktowany jest prze- mocą testu do chwili pomiaru kryterium. Zwykle czas ten podyktowany jest prze-
znaczeniem testu i wybranym kryterium. Jeśli test ma prognozować wyniki tera- znaczeniem testu i wybranym kryterium. Jeśli test ma prognozować wyniki tera-
pii, najrozsądniej jest, aby badanie testem zostało wykonane przed rozpoczęciem pii, najrozsądniej jest, aby badanie testem zostało wykonane przed rozpoczęciem
terapii, a ocena kryterium po jej zakończeniu. Tak więc, czas upływający między terapii, a ocena kryterium po jej zakończeniu. Tak więc, czas upływający między
tymi dwoma pomiarami, to czas trwania leczenia. W przypadku innych zastoso- tymi dwoma pomiarami, to czas trwania leczenia. W przypadku innych zastoso-
wań czas ten może bezpośrednio zależeć od celu stosowania testu. Jeśli chcemy wań czas ten może bezpośrednio zależeć od celu stosowania testu. Jeśli chcemy
na podstawie wyników testu przewidywać powodzenie zawodowe po pół roku od na podstawie wyników testu przewidywać powodzenie zawodowe po pół roku od
momentu przyjęcia do pracy, to oczywiście pomiar kryterium musi nastąpić po momentu przyjęcia do pracy, to oczywiście pomiar kryterium musi nastąpić po
pół roku od przeprowadzenia badania testem i rozpoczęcia pracy. pół roku od przeprowadzenia badania testem i rozpoczęcia pracy.
Rozważmy jeszcze raz hipotetyczną skalę postaw wobec bezpieczeństwa ru- Rozważmy jeszcze raz hipotetyczną skalę postaw wobec bezpieczeństwa ru-
chu drogowego w kontekście trafności kryterialnej. Jeżeli poszukujemy narzędzi chu drogowego w kontekście trafności kryterialnej. Jeżeli poszukujemy narzędzi
umożliwiających przewidywanie, czy badana osoba może stanowić zagrożenie umożliwiających przewidywanie, czy badana osoba może stanowić zagrożenie
jako kierowca2, skala może wykazać swoją trafność kryterialną. O ile jednak do jako kierowca2, skala może wykazać swoją trafność kryterialną. O ile jednak do
oceny trafności teoretycznej zwykle wystarcza uzyskanie odpowiedniej istotnej oceny trafności teoretycznej zwykle wystarcza uzyskanie odpowiedniej istotnej
różnicy między grupami, to badając trafność kryterialną staramy się ustalić i zwe- różnicy między grupami, to badając trafność kryterialną staramy się ustalić i zwe-
ryfikować wartość progu wyników, który umożliwia optymalne podejmowanie ryfikować wartość progu wyników, który umożliwia optymalne podejmowanie
decyzji diagnostycznych. Przez pojęcie progu rozumie się taką wartość testu, po- decyzji diagnostycznych. Przez pojęcie progu rozumie się taką wartość testu, po-
wyżej której można uznać, że badany spełnia kryterium. Wynik testu jest zwykle wyżej której można uznać, że badany spełnia kryterium. Wynik testu jest zwykle
zmienną ciągłą, a kryterium – bardzo często dwukategorialną (np. „chory na de- zmienną ciągłą, a kryterium – bardzo często dwukategorialną (np. „chory na de-
presję” – „zdrowy”). Ustalanie takiego progu jest dość skomplikowaną procedu- presję” – „zdrowy”). Ustalanie takiego progu jest dość skomplikowaną procedu-
rą. Jeśli próg ustalimy zbyt nisko, wiele osób lekceważących przepisy zostanie rą. Jeśli próg ustalimy zbyt nisko, wiele osób lekceważących przepisy zostanie
uznanych za dobrych kierowców (zakładamy, że wysokie wyniki testu świadczą uznanych za dobrych kierowców (zakładamy, że wysokie wyniki testu świadczą
o poprawnej postawie wobec bezpieczeństwa na drodze). W tej sytuacji uniknie- o poprawnej postawie wobec bezpieczeństwa na drodze). W tej sytuacji uniknie-
my także błędnych decyzji niedopuszczenia do prowadzenia samochodów osób my także błędnych decyzji niedopuszczenia do prowadzenia samochodów osób
niesprawiających zagrożenia. Jeśli, przeciwnie, próg zostanie postawiony zbyt niesprawiających zagrożenia. Jeśli, przeciwnie, próg zostanie postawiony zbyt
wysoko, to zidentyfikujemy trafnie większość osób stwarzających zagrożenie, wysoko, to zidentyfikujemy trafnie większość osób stwarzających zagrożenie,
jednak podejmiemy krzywdzące decyzje wobec wielu dobrych kierowców. jednak podejmiemy krzywdzące decyzje wobec wielu dobrych kierowców.
5.2.2.4. Inne aspekty trafności 5.2.2.4. Inne aspekty trafności

Lekceważony często rodzaj trafności to trafność fasadowa. Test jest trafny fa- Lekceważony często rodzaj trafności to trafność fasadowa. Test jest trafny fa-
sadowo, jeśli robi na badanym wrażenie zgodne z oczekiwaniami badacza. Jest sadowo, jeśli robi na badanym wrażenie zgodne z oczekiwaniami badacza. Jest
to ważne, gdyż test powinien sprawiać wrażenie profesjonalnego narzędzia, co to ważne, gdyż test powinien sprawiać wrażenie profesjonalnego narzędzia, co
może zwiększać u badanego motywację do współpracy. Poza tym, jeśli treść testu może zwiększać u badanego motywację do współpracy. Poza tym, jeśli treść testu
wydaje się niemądra, nieodpowiednia lub dziecinna, to może skutkować brakiem wydaje się niemądra, nieodpowiednia lub dziecinna, to może skutkować brakiem
współdziałania ze strony osoby badanej. współdziałania ze strony osoby badanej.
2 2
Według polskich przepisów obowiązkowe badania psychologiczne przechodzą sprawcy poważnych Według polskich przepisów obowiązkowe badania psychologiczne przechodzą sprawcy poważnych
wypadków drogowych, osoby przekraczające 24 pkt karne, zatrzymane z powodu prowadzenia pojazdu wypadków drogowych, osoby przekraczające 24 pkt karne, zatrzymane z powodu prowadzenia pojazdu
po spożyciu alkoholu, skierowane przez lekarza oraz kierowcy zawodowi. Celem badań psychologicz- po spożyciu alkoholu, skierowane przez lekarza oraz kierowcy zawodowi. Celem badań psychologicz-
136 nych jest właśnie ustalenie, czy badany może powodować zagrożenie jako kierowca. 136 nych jest właśnie ustalenie, czy badany może powodować zagrożenie jako kierowca.

Trafność fasadowa właściwie tylko z nazwy jest trafnością. Nie jest to traf- Trafność fasadowa właściwie tylko z nazwy jest trafnością. Nie jest to traf-
ność w sensie definicyjnym, gdyż nie dotyczy tego, co test rzeczywiście mierzy ność w sensie definicyjnym, gdyż nie dotyczy tego, co test rzeczywiście mierzy
(Anastasi i Urbina, 1999). Dotyczy ona bowiem raczej tego, co test „wydaje się (Anastasi i Urbina, 1999). Dotyczy ona bowiem raczej tego, co test „wydaje się
mierzyć” w oczach badanych i wpływa na motywację osób badanych. Jest to mierzyć” w oczach badanych i wpływa na motywację osób badanych. Jest to
istotny aspekt badania testowego, gdyż test funkcjonuje w pewnej rzeczywistości istotny aspekt badania testowego, gdyż test funkcjonuje w pewnej rzeczywistości
społecznej. Psycholog bada klientów na ich życzenie lub na zlecenie instytucji społecznej. Psycholog bada klientów na ich życzenie lub na zlecenie instytucji
(np. pracodawcy) i nie powinien stosować testów budzących np. złość czy sprze- (np. pracodawcy) i nie powinien stosować testów budzących np. złość czy sprze-
ciw klientów lub też zniechęcających do współpracy z psychologiem. ciw klientów lub też zniechęcających do współpracy z psychologiem.
Przykładowo, badając pilotów linii lotniczych, należy m.in. ocenić ich umie- Przykładowo, badając pilotów linii lotniczych, należy m.in. ocenić ich umie-
jętność oceny czasu, pamięć, spostrzegawczość i zdolność wykonywania kilku jętność oceny czasu, pamięć, spostrzegawczość i zdolność wykonywania kilku
czynności równocześnie (reguluje to międzynarodowa metodyka JAR-FCL 3). czynności równocześnie (reguluje to międzynarodowa metodyka JAR-FCL 3).
Dobrym narzędziem mierzącym te zmienne jest austriacki test SIMCAP. Problem Dobrym narzędziem mierzącym te zmienne jest austriacki test SIMCAP. Problem
polega jednak na tym, że treść zadań wykonywanych przez badanego w silnym polega jednak na tym, że treść zadań wykonywanych przez badanego w silnym
stopniu nawiązuje do pracy biurowej (korekta, pamiętanie dat spotkań i telefo- stopniu nawiązuje do pracy biurowej (korekta, pamiętanie dat spotkań i telefo-
nów, wykonywanie obliczeń itd.). Test jest trudny, wymaga chwilami wręcz eks- nów, wykonywanie obliczeń itd.). Test jest trudny, wymaga chwilami wręcz eks-
tremalnej koncentracji. Piloci badani tym testem reagują silnym oporem i zde- tremalnej koncentracji. Piloci badani tym testem reagują silnym oporem i zde-
cydowanie nie akceptują jego formy oraz informacji zwrotnych. W opisywanym cydowanie nie akceptują jego formy oraz informacji zwrotnych. W opisywanym
przypadku również zlecający badania pracodawca, obawiając się negatywnych przypadku również zlecający badania pracodawca, obawiając się negatywnych
reakcji pilotów, poprosił o zastąpienie tego testu innymi technikami, mimo prze- reakcji pilotów, poprosił o zastąpienie tego testu innymi technikami, mimo prze-
konania o wartościowości wniosków. Chociaż więc psycholog ma prawo do swo- konania o wartościowości wniosków. Chociaż więc psycholog ma prawo do swo-
body wyboru narzędzi diagnostycznych i mógłby w takiej sytuacji pozostać przy body wyboru narzędzi diagnostycznych i mógłby w takiej sytuacji pozostać przy
swoim zdaniu, korzystniej ze względu na szerszy kontekst badania jest zmienić swoim zdaniu, korzystniej ze względu na szerszy kontekst badania jest zmienić
test na inny, badający podobne właściwości. test na inny, badający podobne właściwości.
5.2.3. Wzajemne relacje pomiędzy poszczególnymi rodzajami trafności 5.2.3. Wzajemne relacje pomiędzy poszczególnymi rodzajami trafności
Trafność pomiaru testem, jak już przedstawiono, ma wiele aspektów, a każdy Trafność pomiaru testem, jak już przedstawiono, ma wiele aspektów, a każdy
pomiar wykonany przy użyciu testu można opisać za pomocą wielu różnych traf- pomiar wykonany przy użyciu testu można opisać za pomocą wielu różnych traf-
ności. Nie są one wzajemnie niezależne, ale również nie są w jednoznaczny spo- ności. Nie są one wzajemnie niezależne, ale również nie są w jednoznaczny spo-
sób powiązane. Różne rodzaje trafności mogą się okazać konieczne w zależności sób powiązane. Różne rodzaje trafności mogą się okazać konieczne w zależności
od zakresu stosowania testu i zasad jego konstrukcji. od zakresu stosowania testu i zasad jego konstrukcji.
Pojęcie trafności teoretycznej jest często uważane za warunek konieczny dla Pojęcie trafności teoretycznej jest często uważane za warunek konieczny dla
każdego testu (Brzeziński, 2002). Jednak ocena trafności kryterialnej jest zda- każdego testu (Brzeziński, 2002). Jednak ocena trafności kryterialnej jest zda-
niem Nowakowskiej (1975) niezbędna w procesie oceny trafności pomiaru te- niem Nowakowskiej (1975) niezbędna w procesie oceny trafności pomiaru te-
stowego. Chociaż większość autorów (Magnusson, 1991, Hornowska, 2001; stowego. Chociaż większość autorów (Magnusson, 1991, Hornowska, 2001;
Anastasi i Urbina, 1999) dopuszcza także inne metody badania trafności, trudno Anastasi i Urbina, 1999) dopuszcza także inne metody badania trafności, trudno
się nie zgodzić ze stwierdzeniem, że wyniki testu powinny wykazywać spójność się nie zgodzić ze stwierdzeniem, że wyniki testu powinny wykazywać spójność
z zewnętrznymi danymi, czyli mieć dobrą trafność kryterialną. Testy oceniane z zewnętrznymi danymi, czyli mieć dobrą trafność kryterialną. Testy oceniane
wyłącznie poprzez badanie ich wewnętrznej struktury (tj. wzajemnego skorelo- wyłącznie poprzez badanie ich wewnętrznej struktury (tj. wzajemnego skorelo-
wania skal lub struktury czynnikowej) zawsze są narażone na zarzut rozmijania wania skal lub struktury czynnikowej) zawsze są narażone na zarzut rozmijania
się z obiektywną rzeczywistością. 137 się z obiektywną rzeczywistością. 137

Badanie zgodności z zewnętrznym kryterium ma znaczenie nie tylko tam, Badanie zgodności z zewnętrznym kryterium ma znaczenie nie tylko tam,
gdzie konieczne jest określenie trafności kryterialnej. Może to być również waż- gdzie konieczne jest określenie trafności kryterialnej. Może to być również waż-
ny argument w dowodzeniu trafności teoretycznej testu. Załóżmy, że test prze- ny argument w dowodzeniu trafności teoretycznej testu. Załóżmy, że test prze-
znaczony jest do badania sprawności uwagi wzrokowej. Jeśli okaże się, że grupa znaczony jest do badania sprawności uwagi wzrokowej. Jeśli okaże się, że grupa
pacjentów z uszkodzeniem pewnych okolic kory mózgowej (o których wiadomo pacjentów z uszkodzeniem pewnych okolic kory mózgowej (o których wiadomo
z innych badań, że odpowiadają za kontrolę uwagi wzrokowej) osiąga wyraźnie z innych badań, że odpowiadają za kontrolę uwagi wzrokowej) osiąga wyraźnie
niższe wyniki w tym teście w porównaniu do osób zdrowych, świadczy to o tym, niższe wyniki w tym teście w porównaniu do osób zdrowych, świadczy to o tym,
że test jest trafny diagnostycznie w ocenie uszkodzenia mózgu. Jednak wynik że test jest trafny diagnostycznie w ocenie uszkodzenia mózgu. Jednak wynik
taki potwierdza również jego trafność teoretyczną. Skoro bowiem uszkodzenie taki potwierdza również jego trafność teoretyczną. Skoro bowiem uszkodzenie
struktur odpowiedzialnych za uwagę wzrokową wpływa na obniżenie wyników struktur odpowiedzialnych za uwagę wzrokową wpływa na obniżenie wyników
testu, uzasadnia to twierdzenie że test mierzy istotnie tę cechę. testu, uzasadnia to twierdzenie że test mierzy istotnie tę cechę.
Trafność kryterialna może być w dużym stopniu powiązana z trafnością teore- Trafność kryterialna może być w dużym stopniu powiązana z trafnością teore-
tyczną. Jeśli test psychologiczny pozwala na przewidywanie pewnych zewnętrz- tyczną. Jeśli test psychologiczny pozwala na przewidywanie pewnych zewnętrz-
nych zachowań (kryterium), to bardzo prawdopodobne, że istnieje psychologicznych zachowań (kryterium), to bardzo prawdopodobne, że istnieje psychologicz-
na właściwość, która ten związek tłumaczy. Analiza trafności teoretycznej jest na właściwość, która ten związek tłumaczy. Analiza trafności teoretycznej jest
niezbędna, aby wyjaśnić i opisać mechanizm tej zależności. Tak więc np. jeśli niezbędna, aby wyjaśnić i opisać mechanizm tej zależności. Tak więc np. jeśli
wyniki pewnego testu korelują z ocenami szkolnymi, daje to podstawę do stwier- wyniki pewnego testu korelują z ocenami szkolnymi, daje to podstawę do stwier-
dzenia, że test ten ma dobrą trafność diagnostyczną, jeżeli chodzi o możliwość dzenia, że test ten ma dobrą trafność diagnostyczną, jeżeli chodzi o możliwość
oceny postępów szkolnych uczniów. Można jednak zastanawiać się, dlaczego oceny postępów szkolnych uczniów. Można jednak zastanawiać się, dlaczego
wyniki tego testu korelują z ocenami szkolnymi. Przecież w zastosowanym teście wyniki tego testu korelują z ocenami szkolnymi. Przecież w zastosowanym teście
nie ma zadań czy pytań, które bezpośrednio dotyczyłyby programu nauczania. nie ma zadań czy pytań, które bezpośrednio dotyczyłyby programu nauczania.
Jak to więc możliwe, że test ten jest dobrym narzędziem pod względem oceny Jak to więc możliwe, że test ten jest dobrym narzędziem pod względem oceny
uczniów? Prawdopodobnie test ten diagnozuje pewną ważną dla osiągnięć szkol- uczniów? Prawdopodobnie test ten diagnozuje pewną ważną dla osiągnięć szkol-
nych predyspozycję uczniów. Analizując przyczyny sukcesów edukacyjnych, nych predyspozycję uczniów. Analizując przyczyny sukcesów edukacyjnych,
można powiedzieć, że jednym z ich uwarunkowań jest wysoka inteligencja. Z teo- można powiedzieć, że jednym z ich uwarunkowań jest wysoka inteligencja. Z teo-
retycznego punktu widzenia można oczekiwać, że stopnie szkolne powinny kore- retycznego punktu widzenia można oczekiwać, że stopnie szkolne powinny kore-
lować z miarą inteligencji. Skoro więc nasz test koreluje ze stopniami szkolnymi, lować z miarą inteligencji. Skoro więc nasz test koreluje ze stopniami szkolnymi,
to bardzo prawdopodobne, że jest on miarą inteligencji. Podobne rozumowanie to bardzo prawdopodobne, że jest on miarą inteligencji. Podobne rozumowanie
leżało u podstaw sprawdzania trafności takich testów inteligencji, jak np. Skala leżało u podstaw sprawdzania trafności takich testów inteligencji, jak np. Skala
Dojrzałości Umysłowej Columbia (Ciechanowicz, 1992) czy test inteligencji Dojrzałości Umysłowej Columbia (Ciechanowicz, 1992) czy test inteligencji
Ravena (Jaworowska, Szustrowa, 2000). Oczywiście przedstawione rozumowa- Ravena (Jaworowska, Szustrowa, 2000). Oczywiście przedstawione rozumowa-
nie jest pewnym uproszczeniem. Istnieje przecież wiele ważnych uwarunkowań nie jest pewnym uproszczeniem. Istnieje przecież wiele ważnych uwarunkowań
sukcesów szkolnych, a inteligencja jest tylko jednym z nich. Innym uwarunko- sukcesów szkolnych, a inteligencja jest tylko jednym z nich. Innym uwarunko-
waniem jest np. motywacja. Gdyby nic więcej nie było wiadomo o teście Ravena waniem jest np. motywacja. Gdyby nic więcej nie było wiadomo o teście Ravena
lub skali Columbia, można byłoby przypuszczać, że są to miary np. motywacji do lub skali Columbia, można byłoby przypuszczać, że są to miary np. motywacji do
nauki. Jednak inne badania, a także analiza treści w połączeniu z przedstawiony- nauki. Jednak inne badania, a także analiza treści w połączeniu z przedstawiony-
mi danymi wskazują, że wymienione testy są miarami inteligencji. mi danymi wskazują, że wymienione testy są miarami inteligencji.
Nie zawsze musi istnieć teoria wyjaśniająca współwystępowanie kryterium Nie zawsze musi istnieć teoria wyjaśniająca współwystępowanie kryterium
i wyników testu. Zdarza się, że takie współwystępowanie jest po prostu empi- i wyników testu. Zdarza się, że takie współwystępowanie jest po prostu empi-
rycznie obserwowalną prawidłowością niemającą swojego teoretycznego uza- rycznie obserwowalną prawidłowością niemającą swojego teoretycznego uza-
sadnienia. Szczególnym przypadkiem wykorzystującym współwystępowanie sadnienia. Szczególnym przypadkiem wykorzystującym współwystępowanie
138 danych testowych i zewnętrznych kryteriów w sytuacji, gdy nie istnieje teoria 138 danych testowych i zewnętrznych kryteriów w sytuacji, gdy nie istnieje teoria

wyjaśniająca związek jednego z drugim jest kwestionariusz MMPI. W inwenta- wyjaśniająca związek jednego z drugim jest kwestionariusz MMPI. W inwenta-
rzu tym nawet treść pozycji nie ma znaczenia, gdyż ważna jest jedynie korelacja rzu tym nawet treść pozycji nie ma znaczenia, gdyż ważna jest jedynie korelacja
wyników testowych i zewnętrznych kryteriów, jakimi są diagnozy różnych zabu- wyników testowych i zewnętrznych kryteriów, jakimi są diagnozy różnych zabu-
rzeń psychicznych. rzeń psychicznych.
Na wynik każdego testu ma wpływ szereg zmiennych psychologicznych. Na wynik każdego testu ma wpływ szereg zmiennych psychologicznych.
Wyniki kwestionariusza badającego nasilenie lęku w pewnym stopniu zależne Wyniki kwestionariusza badającego nasilenie lęku w pewnym stopniu zależne
są od szeregu innych czynników, takich jak np. sprawność intelektualna (warun- są od szeregu innych czynników, takich jak np. sprawność intelektualna (warun-
kująca zasób słownictwa niezbędny do zrozumienia pytań), szczerość i potrzeba kująca zasób słownictwa niezbędny do zrozumienia pytań), szczerość i potrzeba
aprobaty społecznej (mające wpływ na unikanie pewnych odpowiedzi w teście) aprobaty społecznej (mające wpływ na unikanie pewnych odpowiedzi w teście)
czy też poziom mechanizmów obronnych (które mogą utrudniać adekwatny sa- czy też poziom mechanizmów obronnych (które mogą utrudniać adekwatny sa-
moopis). Niektórzy autorzy (Magnusson, 1991) stwierdzają nawet radykalnie, że moopis). Niektórzy autorzy (Magnusson, 1991) stwierdzają nawet radykalnie, że
każdy test może być wskaźnikiem każdej cechy, ale w różnym stopniu. Podkreślić każdy test może być wskaźnikiem każdej cechy, ale w różnym stopniu. Podkreślić
należy, że pełna analiza trafności teoretycznej powinna obejmować zarówno oce- należy, że pełna analiza trafności teoretycznej powinna obejmować zarówno oce-
nę wpływu zasadniczej badanej zmiennej na wynik testu, jak i analizę wpływu nę wpływu zasadniczej badanej zmiennej na wynik testu, jak i analizę wpływu
pozostałych zmiennych. pozostałych zmiennych.
Niektórzy autorzy (Jakubowski, 1983) zdroworozsądkowo stwierdzają, że je- Niektórzy autorzy (Jakubowski, 1983) zdroworozsądkowo stwierdzają, że je-
śli test jest trafny treściowo oraz należycie spójny wewnętrznie (co oceniamy ba- śli test jest trafny treściowo oraz należycie spójny wewnętrznie (co oceniamy ba-
dając rzetelność), można założyć, że istotnie mierzy on to, co stanowi treść pytań, dając rzetelność), można założyć, że istotnie mierzy on to, co stanowi treść pytań,
a zatem jest trafny teoretycznie. Zasada ta pozwala na potwierdzenie trafności a zatem jest trafny teoretycznie. Zasada ta pozwala na potwierdzenie trafności
pomiaru testem po dość pobieżnym badaniu, bez stosowania kryteriów zewnętrz- pomiaru testem po dość pobieżnym badaniu, bez stosowania kryteriów zewnętrz-
nych i powinna być stosowana z rozwagą. nych i powinna być stosowana z rozwagą.
5.2.4. Trafność pomiaru testowego a odstępstwa od standardowej 5.2.4. Trafność pomiaru testowego a odstępstwa od standardowej
procedury badania procedury badania
Testy są jednym ze sposobów badania psychologicznego. Nigdy nie mogą być Testy są jednym ze sposobów badania psychologicznego. Nigdy nie mogą być
jedynym ani nawet dominującym źródłem wiedzy o badanym. Konieczne jest jedynym ani nawet dominującym źródłem wiedzy o badanym. Konieczne jest
ich uzupełnianie wywiadem, obserwacją, zbieraniem danych środowiskowych ich uzupełnianie wywiadem, obserwacją, zbieraniem danych środowiskowych
i analizą dostępnych dokumentów. Korzystając z testów, należy pamiętać, że ich i analizą dostępnych dokumentów. Korzystając z testów, należy pamiętać, że ich
trafność była badana dla pewnej konkretnej standaryzacji i obiektywizacji, oraz trafność była badana dla pewnej konkretnej standaryzacji i obiektywizacji, oraz
że obejmuje tylko pewien zakres wniosków, poza który nie można wykraczać. że obejmuje tylko pewien zakres wniosków, poza który nie można wykraczać.
Powstaje pytanie o możliwość wnioskowania z testów zastosowanych niezgod- Powstaje pytanie o możliwość wnioskowania z testów zastosowanych niezgod-
nie ze standardem. Przed takim problemem może stanąć psycholog, który zain- nie ze standardem. Przed takim problemem może stanąć psycholog, który zain-
teresowany oceną pamięci u badanego zastosował jedynie podtest Powtarzanie teresowany oceną pamięci u badanego zastosował jedynie podtest Powtarzanie
Cyfr z testu WAIS (choć instrukcja nakazuje zawsze stosować test w całości). Cyfr z testu WAIS (choć instrukcja nakazuje zawsze stosować test w całości).
Załóżmy że wynik jest dramatycznie niski i z pewnością wskazuje na zaburzenia Załóżmy że wynik jest dramatycznie niski i z pewnością wskazuje na zaburzenia
pamięci. Czy psychologowi wolno wykorzystać tę informację? pamięci. Czy psychologowi wolno wykorzystać tę informację?
Wydaje się, że istnieje taka możliwość. Jednak używając takiego wyniku, psy- Wydaje się, że istnieje taka możliwość. Jednak używając takiego wyniku, psy-
cholog nie może powoływać się na test WAIS i jego ustaloną trafność. Naruszając cholog nie może powoływać się na test WAIS i jego ustaloną trafność. Naruszając
standardową procedurę badania, nie może również odnosić się z zaufaniem do standardową procedurę badania, nie może również odnosić się z zaufaniem do
norm testowych. Jego argumentacja w formułowaniu diagnozy musi uwzględ- norm testowych. Jego argumentacja w formułowaniu diagnozy musi uwzględ-
niać fakt nietypowego użycia wyjętego z kontekstu zadania i jest dokonywana na 139 niać fakt nietypowego użycia wyjętego z kontekstu zadania i jest dokonywana na 139

całkowitą odpowiedzialność psychologa. Jeśli stosujemy test całkowicie zgodnie całkowitą odpowiedzialność psychologa. Jeśli stosujemy test całkowicie zgodnie
z instrukcją, odpowiedzialność za wnioski częściowo przenosi się na autora te- z instrukcją, odpowiedzialność za wnioski częściowo przenosi się na autora te-
stu. stu.
Dlatego, dążąc do maksymalizacji trafności metod testowych, nie wolno za- Dlatego, dążąc do maksymalizacji trafności metod testowych, nie wolno za-
pominać o tym, że nawet najdoskonalszy test nie będzie skutecznym narzędziem pominać o tym, że nawet najdoskonalszy test nie będzie skutecznym narzędziem
w rękach psychologa ignorującego zasady diagnostyki. Również przyglądając się w rękach psychologa ignorującego zasady diagnostyki. Również przyglądając się
danym z badań trafności pomiaru testem, nie należy oczekiwać cudownych, bli- danym z badań trafności pomiaru testem, nie należy oczekiwać cudownych, bli-
skich jedności korelacji między testem a kryterium zewnętrznym. Test ma wspo- skich jedności korelacji między testem a kryterium zewnętrznym. Test ma wspo-
magać, a nie zastępować psychologa. magać, a nie zastępować psychologa.
5.2.5. Szacowanie trafności 5.2.5. Szacowanie trafności

Przy szacowaniu trafności pomiarów testowych wykorzystuje się znane me- Przy szacowaniu trafności pomiarów testowych wykorzystuje się znane me-
tody statystyczne używane także w innych celach. Zwykle nie ma potrzeby sto- tody statystyczne używane także w innych celach. Zwykle nie ma potrzeby sto-
sowania specjalnych procedur, tak jak w przypadku szacowania rzetelności po- sowania specjalnych procedur, tak jak w przypadku szacowania rzetelności po-
miaru za pomocą testów, do której wykorzystuje się np. wzory alfa Cronbacha miaru za pomocą testów, do której wykorzystuje się np. wzory alfa Cronbacha
czy Spearmana-Browna. Większość metod stosowanych do szacowania trafności czy Spearmana-Browna. Większość metod stosowanych do szacowania trafności
pomiarów przeprowadzanych przy użyciu testów jest powszechnie znana lub zo- pomiarów przeprowadzanych przy użyciu testów jest powszechnie znana lub zo-
stała opisana przy okazji omawiana szacowania rzetelności (por. rozdział 5.1.). stała opisana przy okazji omawiana szacowania rzetelności (por. rozdział 5.1.).
W rozdziale niniejszym zaprezentowano tylko wybrane, najczęściej stosowa- W rozdziale niniejszym zaprezentowano tylko wybrane, najczęściej stosowa-
ne, metody statystyczne znajdujące zastosowanie przy szacowaniu trafności po- ne, metody statystyczne znajdujące zastosowanie przy szacowaniu trafności po-
miarów testowych. W praktyce badawczej Czytelnik może spotkać się z różny- miarów testowych. W praktyce badawczej Czytelnik może spotkać się z różny-
mi metodami, których tu nie uwzględniono z powodu ograniczonego charakteru mi metodami, których tu nie uwzględniono z powodu ograniczonego charakteru
podręcznika. Przy każdej z metod podano informację o tym, jaki rodzaj trafności podręcznika. Przy każdej z metod podano informację o tym, jaki rodzaj trafności
może być oszacowany przy użyciu danej metody. może być oszacowany przy użyciu danej metody.
5.2.5.1. Współczynnik zgodności sędziów 5.2.5.1. Współczynnik zgodności sędziów

W celu oszacowania trafności treściowej stosuje się metodę sędziów kom- W celu oszacowania trafności treściowej stosuje się metodę sędziów kom-
petentnych. W celu określenie zgodności sędziów, można użyć współczynnika petentnych. W celu określenie zgodności sędziów, można użyć współczynnika
W-Kendalla. Współczynnik ten stosowany jest także jako jedna z metod szaco- W-Kendalla. Współczynnik ten stosowany jest także jako jedna z metod szaco-
wania rzetelności (rozdz. 5.1.7.4.). wania rzetelności (rozdz. 5.1.7.4.).
Zastosowanie metody sędziów kompetentnych oraz obliczanie współczynnika Zastosowanie metody sędziów kompetentnych oraz obliczanie współczynnika
zgodności sędziów zaprezentowane zostanie przy wykorzystaniu danych z przy- zgodności sędziów zaprezentowane zostanie przy wykorzystaniu danych z przy-
kładu omówionego w rozdziale 5.2.2.1. kładu omówionego w rozdziale 5.2.2.1.
W celu obliczenia wartości W-Kendalla konieczne jest, w pierwszej kolejno- W celu obliczenia wartości W-Kendalla konieczne jest, w pierwszej kolejno-
ści, nadanie rang ocenom przypisanym przez sędziów kompetentnych. W tym ści, nadanie rang ocenom przypisanym przez sędziów kompetentnych. W tym
celu należy ułożyć pozycje testowe według ocen przyznanych przed danego sę- celu należy ułożyć pozycje testowe według ocen przyznanych przed danego sę-
dziego w kolejności od najmniejszej do największej i przypisać im kolejne ran- dziego w kolejności od najmniejszej do największej i przypisać im kolejne ran-
gi. Rangami tymi są kolejne liczby całkowite, poczynając od liczby jeden. Jako gi. Rangami tymi są kolejne liczby całkowite, poczynając od liczby jeden. Jako
przykład rozpatrzmy rangowanie ocen przyznanych przez pewnego sędziego. przykład rozpatrzmy rangowanie ocen przyznanych przez pewnego sędziego.
140 Załóżmy, że przypisał on pozycjom testowym następujące oceny: 4, 3, 1, 5. Po 140 Załóżmy, że przypisał on pozycjom testowym następujące oceny: 4, 3, 1, 5. Po

ułożeniu w kolejności rosnącej, otrzymujemy: 1, 3, 4, 5. Teraz można przypisać ułożeniu w kolejności rosnącej, otrzymujemy: 1, 3, 4, 5. Teraz można przypisać
poszczególnym ocenom odpowiednio kolejne rangi, tj.: poszczególnym ocenom odpowiednio kolejne rangi, tj.:
Oceny przyznane przez sędziego 1 3 4 5 Oceny przyznane przez sędziego 1 3 4 5

Rangi 1 2 3 4 Rangi 1 2 3 4
Sposób rangowania nieco bardziej się komplikuje, jeśli więcej niż jednej pozy- Sposób rangowania nieco bardziej się komplikuje, jeśli więcej niż jednej pozy-
cji testowej przyznano tę samą rangę, tak jak w przypadku sędziego I w tabeli 5.5. cji testowej przyznano tę samą rangę, tak jak w przypadku sędziego I w tabeli 5.5.
Jak widać z tej tabeli, sędzia ten aż czterem pozycjom testowym przyznał tę samą Jak widać z tej tabeli, sędzia ten aż czterem pozycjom testowym przyznał tę samą
ocenę: 5. W tej sytuacji sposób postępowania jest następujący. Podobnie jak po- ocenę: 5. W tej sytuacji sposób postępowania jest następujący. Podobnie jak po-
przednio, należy uszeregować oceny od najmniejszej do największej i przypisać przednio, należy uszeregować oceny od najmniejszej do największej i przypisać
im kolejne liczby całkowite. Otrzymujemy więc: im kolejne liczby całkowite. Otrzymujemy więc:
Oceny przyznane przez sędziego I z tabeli 5.5. 3 4 5 5 5 5 Oceny przyznane przez sędziego I z tabeli 5.5. 3 4 5 5 5 5
Liczby 1 2 3 4 5 6 Liczby 1 2 3 4 5 6
Nie są to jednak jeszcze rangi, gdyż sposób ich obliczania w tym przypadku Nie są to jednak jeszcze rangi, gdyż sposób ich obliczania w tym przypadku
wymaga jeszcze następujących przekształceń. Należy zsumować liczby przypi- wymaga jeszcze następujących przekształceń. Należy zsumować liczby przypi-
sane tym samym ocenom przyznanym przez sędziego. W opisywanym przypad- sane tym samym ocenom przyznanym przez sędziego. W opisywanym przypad-
ku należy dodać do siebie następujące liczby 3, 4, 5 i 6, gdyż zostały one nadane ku należy dodać do siebie następujące liczby 3, 4, 5 i 6, gdyż zostały one nadane
ocenom 5. Suma liczb przypisanych tym samym ocenom wynosi 3+4+5+6=18. ocenom 5. Suma liczb przypisanych tym samym ocenom wynosi 3+4+5+6=18.
W celu obliczenia rang należy tę sumę podzielić przez liczbę pozycji testowych, W celu obliczenia rang należy tę sumę podzielić przez liczbę pozycji testowych,
którym sędzia przypisał tę samą ocenę. W naszym przypadku jest to liczba cztery którym sędzia przypisał tę samą ocenę. W naszym przypadku jest to liczba cztery
(czterem pozycjom testowym przypisano ocenę 5). Liczba 18 podzielona na czte- (czterem pozycjom testowym przypisano ocenę 5). Liczba 18 podzielona na czte-
ry daje 4,5. Ostatecznie otrzymujemy: ry daje 4,5. Ostatecznie otrzymujemy:
Oceny przyznane przez sędziego I z tabeli 5.5. 3 4 5 5 5 5 Oceny przyznane przez sędziego I z tabeli 5.5. 3 4 5 5 5 5
Liczby 1 2 3 4 5 6 Liczby 1 2 3 4 5 6
Rangi 1 2 4,5 4,5 4,5 4,5 Rangi 1 2 4,5 4,5 4,5 4,5
Rangi przypisane pozycjom testowym, które otrzymały jednakowe oceny na- Rangi przypisane pozycjom testowym, które otrzymały jednakowe oceny na-
zywane są rangami wiązanymi. W opisany powyżej sposób należy porangować zywane są rangami wiązanymi. W opisany powyżej sposób należy porangować
pozostałe oceny sędziów, gdyż wśród nich występują również rangi wiązane. Po pozostałe oceny sędziów, gdyż wśród nich występują również rangi wiązane. Po
przypisaniu rang ocenom dokonanym przez wszystkim sędziów, otrzymujemy przypisaniu rang ocenom dokonanym przez wszystkim sędziów, otrzymujemy
wyniki zamieszczone w tabeli 5.9 wyniki zamieszczone w tabeli 5.9
141 141

Tabela 5.9. Porangowane dane z tabeli 5.5 Tabela 5.9. Porangowane dane z tabeli 5.5
Pozycja Suma Pozycja Suma

Sędzia I Sędzia II Sędzia III M-Rj (M-Rj)2 Sędzia I Sędzia II Sędzia III M-Rj (M-Rj)2
testowa rang Rj testowa rang Rj
1 4,5 5 5 14,5 –4 16 1 4,5 5 5 14,5 –4 16
2 4,5 2,5 5 12 –1,5 2,25 2 4,5 2,5 5 12 –1,5 2,25
3 4,5 5 2,5 12 –1,5 2,25 3 4,5 5 2,5 12 –1,5 2,25
4 4,5 5 5 14,5 –4 16 4 4,5 5 5 14,5 –4 16
5 1 1 2,5 4,5 6 36 5 1 1 2,5 4,5 6 36
6 2 2,5 1 5,5 5 25 6 2 2,5 1 5,5 5 25
Suma 63 97,5 Suma 63 97,5
Po dokonaniu rangowania, można przystąpić do obliczania wartości Po dokonaniu rangowania, można przystąpić do obliczania wartości
W-Kendalla, korzystając z następującego wzoru: W-Kendalla, korzystając z następującego wzoru:
S S
W= W=
1 2 3 k
1 2 3 k
k ( N − N ) − k ∑ Ti k ( N − N ) − k ∑ Ti
12 i =1 12 i =1
gdzie: gdzie:
k – liczba sędziów; k – liczba sędziów;
N – liczba ocenianych pozycji testowych; N – liczba ocenianych pozycji testowych;
S – suma kwadratów różnic średniej sumy rang i sumy rang j-tej pozycji te- S – suma kwadratów różnic średniej sumy rang i sumy rang j-tej pozycji te-
stowej; stowej;
k k
∑ Ti – poprawka na rangi wiązane.

i =1
∑ T – poprawka na rangi wiązane.
i =1
i
W celu skorzystania z tego wzoru, konieczne jest wykonanie szeregu obliczeń W celu skorzystania z tego wzoru, konieczne jest wykonanie szeregu obliczeń
pomocniczych, które zostaną poniżej opisane. pomocniczych, które zostaną poniżej opisane.
Jak widać, w celu obliczenia W-Kendala potrzebna będzie wartość S. Można Jak widać, w celu obliczenia W-Kendala potrzebna będzie wartość S. Można
ją obliczyć w następujący sposób. Należy dla każdej pozycji testowej obliczyć ją obliczyć w następujący sposób. Należy dla każdej pozycji testowej obliczyć
sumę rang, tak jak uczyniono to w tabeli 5.9. Sumy rang dla j-tej pozycji testo- sumę rang, tak jak uczyniono to w tabeli 5.9. Sumy rang dla j-tej pozycji testo-
wej oznaczone są symbolem Rj (kolumna „Suma rang Rj”). W dalszej kolejności wej oznaczone są symbolem Rj (kolumna „Suma rang Rj”). W dalszej kolejności
należy dodać wszystkie wartości Rj. W omawianym przykładzie suma ta wynosi należy dodać wszystkie wartości Rj. W omawianym przykładzie suma ta wynosi
63. Uzyskaną sumę należy podzielić przez liczbę wszystkich pozycji testowych. 63. Uzyskaną sumę należy podzielić przez liczbę wszystkich pozycji testowych.
Jest to średnia suma rang oznaczana symbolem M: Jest to średnia suma rang oznaczana symbolem M:
k k
∑R j ∑R j
M= i =1
M= i =1
N N
W naszym przypadku M=63/6=10,5. W naszym przypadku M=63/6=10,5.
W następnej kolejności należy obliczyć wartości M-Rj, czyli dla każdej pozy- W następnej kolejności należy obliczyć wartości M-Rj, czyli dla każdej pozy-
142 cji testowej obliczamy różnicę między średnią sumą rang a sumą rang tej pozycji 142 cji testowej obliczamy różnicę między średnią sumą rang a sumą rang tej pozycji

testowej. Dla pierwszej pozycji testowej z tabeli 5.9. obliczenie to polega to na testowej. Dla pierwszej pozycji testowej z tabeli 5.9. obliczenie to polega to na
odjęciu od liczby 10,5 liczby 14,5. Daje to wartość –4. Wartość ta wpisana jest odjęciu od liczby 10,5 liczby 14,5. Daje to wartość –4. Wartość ta wpisana jest
w odpowiedniej kolumnie tabeli 5.9. Podobnie postępujemy z pozostałymi pozy- w odpowiedniej kolumnie tabeli 5.9. Podobnie postępujemy z pozostałymi pozy-
cjami testowymi zawartymi w tabeli 5.9. cjami testowymi zawartymi w tabeli 5.9.
Kolejny krok polega na podniesieniu do kwadratu wartości przed chwilą obli- Kolejny krok polega na podniesieniu do kwadratu wartości przed chwilą obli-
czonych różnic. Tak więc dla pierwszej pozycji testowej podnosimy wartość –4 czonych różnic. Tak więc dla pierwszej pozycji testowej podnosimy wartość –4
do kwadratu i otrzymujemy 16, co wpisujemy do kolejnej kolumny tabeli 5.9. do kwadratu i otrzymujemy 16, co wpisujemy do kolejnej kolumny tabeli 5.9.
Podobnie postępujemy z pozostałymi pozycjami testowymi. Podobnie postępujemy z pozostałymi pozycjami testowymi.
Następnie należy zsumować wszystkie wartości ostatniej kolumny tabe- Następnie należy zsumować wszystkie wartości ostatniej kolumny tabe-
li 5.9. W ten sposób obliczyliśmy wartość S występującą w liczniku wzoru na li 5.9. W ten sposób obliczyliśmy wartość S występującą w liczniku wzoru na
W-Kendalla. W naszym przypadku S=97,5. W-Kendalla. W naszym przypadku S=97,5.
W celu obliczenia wartości W, konieczne jest jeszcze obliczenie wartości W celu obliczenia wartości W, konieczne jest jeszcze obliczenie wartości
k k
∑ Ti . Jest to tzw. poprawka na rangi wiązane. Oblicza się ją jedynie wtedy,

i =1
∑T
i =1
i . Jest to tzw. poprawka na rangi wiązane. Oblicza się ją jedynie wtedy,
gdy występują rangi wiązane. Jeśli takich rang nie ma, to wartość ta równa jest gdy występują rangi wiązane. Jeśli takich rang nie ma, to wartość ta równa jest
0. Wartość Ti należy wyliczyć oddzielnie dla każdego z sędziów z następującego 0. Wartość Ti należy wyliczyć oddzielnie dla każdego z sędziów z następującego
wzoru: wzoru:
Ti =
∑ (t 3
− t)
Ti =
∑ (t 3
− t)
12 12
gdzie gdzie
t – liczba ocen związanych tą samą rangą. t – liczba ocen związanych tą samą rangą.
Posługując się tym wzorem, obliczmy Ti dla poszczególnych sędziów: Posługując się tym wzorem, obliczmy Ti dla poszczególnych sędziów:
(43 − 4) 60 (43 − 4) 60
T1 = = =5 T1 = = =5
12 12 12 12
(33 − 3) + (23 − 2) 30 (33 − 3) + (23 − 2) 30
T2 = = = 2, 5 T2 = = = 2, 5
12 12 12 12
(33 − 3) + (23 − 2) 30 (33 − 3) + (23 − 2) 30
T3 = = = 2, 5 T3 = = = 2, 5
12 12 12 12
W dalszej kolejności sumujemy wszystkie wartości Ti: W dalszej kolejności sumujemy wszystkie wartości Ti:
k k
∑ Ti = 5 + 2, 5 + 2, 5 = 10
i =1
∑ T = 5 + 2, 5 + 2, 5 = 10
i =1
i
Obecnie możemy wszystkie potrzebne wartości podstawić do wzoru. Obecnie możemy wszystkie potrzebne wartości podstawić do wzoru.
143 143

97, 5 97, 5
W= = 0, 765 W= = 0, 765
1 2 3 1 2 3
3 (6 − 6) − 3 *10 3 (6 − 6) − 3 *10
12 12
Te same obliczenia możemy wykonać posługując się programem SPSS. Te same obliczenia możemy wykonać posługując się programem SPSS.
W celu skorzystania z SPSS, należy odpowiednio przygotować zbiór danych. W celu skorzystania z SPSS, należy odpowiednio przygotować zbiór danych.
Dane z tabeli 5.5. należy wprowadzić w komputera tak, aby każdy sędzia wpisa- Dane z tabeli 5.5. należy wprowadzić w komputera tak, aby każdy sędzia wpisa-
ny był w wierszu, a pozycja testowa – w kolumnie, a więc odwrotnie niż w tabeli ny był w wierszu, a pozycja testowa – w kolumnie, a więc odwrotnie niż w tabeli
5.5. Odpowiednio przygotowany plik danych zaprezentowano na rys. 5.16. Dane 5.5. Odpowiednio przygotowany plik danych zaprezentowano na rys. 5.16. Dane
te zawarte są w pliku zgodnosc_sedziow_trafnosc.sav. te zawarte są w pliku zgodnosc_sedziow_trafnosc.sav.
Rysunek 5.16. Sposób organizacji pliku danych do obliczania zgodności sędziów Rysunek 5.16. Sposób organizacji pliku danych do obliczania zgodności sędziów
Następnie z menu „Analiza” wybieramy „Testy nieparametryczne”, dalej „K Następnie z menu „Analiza” wybieramy „Testy nieparametryczne”, dalej „K
prób zależnych”, w okienku dialogowym wprowadzamy zmienne (wszystkie po- prób zależnych”, w okienku dialogowym wprowadzamy zmienne (wszystkie po-
zycje testowe) i zaznaczamy „W-Kendalla” (rys. 5.13. i 5.14.). Po wykonaniu zycje testowe) i zaznaczamy „W-Kendalla” (rys. 5.13. i 5.14.). Po wykonaniu
powyższych operacji, otrzymamy wydruk przedstawiony na rys. 5.17. powyższych operacji, otrzymamy wydruk przedstawiony na rys. 5.17.
Rysunek 5.17. Okno wyników dotyczących współczynnika W-Kedndalla Rysunek 5.17. Okno wyników dotyczących współczynnika W-Kedndalla
Jak widać z wydruku, wartość współczynnika W-Kedndalla jest dokładnie Jak widać z wydruku, wartość współczynnika W-Kedndalla jest dokładnie
taka sama, jak wyliczona wcześniej i wynosi 0,765. Świadczy to o dość znacznej taka sama, jak wyliczona wcześniej i wynosi 0,765. Świadczy to o dość znacznej
zgodności ocen sędziów. zgodności ocen sędziów.
Wartość współczynnika W-Kendalla testowana jest za pomocą statystyki chi2, Wartość współczynnika W-Kendalla testowana jest za pomocą statystyki chi2,
która również zaprezentowana jest na wydruku. W naszym przypadku wynosi która również zaprezentowana jest na wydruku. W naszym przypadku wynosi
ona 11,471 i jest istotna statystycznie (dokładnie p wynosi 0,043). Oznacza to, że ona 11,471 i jest istotna statystycznie (dokładnie p wynosi 0,043). Oznacza to, że
144 144

wartość współczynnika W-Kedndalla jest zbyt duża, by można było uznać ją za wartość współczynnika W-Kedndalla jest zbyt duża, by można było uznać ją za
rezultat czysto losowego oceniania pozycji testowych przez sędziów. rezultat czysto losowego oceniania pozycji testowych przez sędziów.
5.2.5.2. Współczynnik korelacji 5.2.5.2. Współczynnik korelacji

Szacując trafność teoretyczną lub kryterialną, dość często zachodzi koniecz- Szacując trafność teoretyczną lub kryterialną, dość często zachodzi koniecz-
ność obliczenia siły związku między wynikami testu, którego trafność nas inte- ność obliczenia siły związku między wynikami testu, którego trafność nas inte-
resuje i pewnej innej zmiennej będącej albo kryterium trafności, albo teoretyczne resuje i pewnej innej zmiennej będącej albo kryterium trafności, albo teoretyczne
powiązanej z wynikami testu. powiązanej z wynikami testu.
Rozważmy następujący przykład. W pewnym badaniu jego uczestnicy wy- Rozważmy następujący przykład. W pewnym badaniu jego uczestnicy wy-
pełnili kwestionariusz EPQ-R oraz Kwestionariusz Aprobaty Społecznej (KAS). pełnili kwestionariusz EPQ-R oraz Kwestionariusz Aprobaty Społecznej (KAS).
Można oczekiwać (por. rozdział 5.2.2.2.), że wyniki skal P i KAS są ze sobą Można oczekiwać (por. rozdział 5.2.2.2.), że wyniki skal P i KAS są ze sobą
związane. W celu sprawdzenia tej hipotezy, należy obliczyć współczynnik kore- związane. W celu sprawdzenia tej hipotezy, należy obliczyć współczynnik kore-
lacji obu skal. Dane do tego przykładu znajdują się w pliku korelacje.sav. lacji obu skal. Dane do tego przykładu znajdują się w pliku korelacje.sav.
Obecnie przejdziemy do omówienia sposobu obliczania współczynników ko- Obecnie przejdziemy do omówienia sposobu obliczania współczynników ko-
relacji za pomocą programu SPSS. W celu obliczenia interesujących nas kore- relacji za pomocą programu SPSS. W celu obliczenia interesujących nas kore-
lacji, należy wybrać z menu głównego opcję „Analiza”, następnie „Korelacje” lacji, należy wybrać z menu głównego opcję „Analiza”, następnie „Korelacje”
i wreszcie „Parami” (rys. 5.18.). Pojawi się wówczas okno dialogowe ukazane i wreszcie „Parami” (rys. 5.18.). Pojawi się wówczas okno dialogowe ukazane
na rys. 5.19. na rys. 5.19.
Rysunek 5.18. Wybór okna „Korelacja parami” z menu głównego SPSS Rysunek 5.18. Wybór okna „Korelacja parami” z menu głównego SPSS
145 145

Rysunek 5.19. Okno „Korelacja parami” Rysunek 5.19. Okno „Korelacja parami”
Następnie dokonujemy wyboru zmiennych do analizy przez kliknięcie ich Następnie dokonujemy wyboru zmiennych do analizy przez kliknięcie ich
nazw na liście znajdującej się po lewej stronie okna lub zaznaczenie żądanych nazw na liście znajdującej się po lewej stronie okna lub zaznaczenie żądanych
zmiennych, a następnie kliknięcie strzałki znajdującej się po środku okna. zmiennych, a następnie kliknięcie strzałki znajdującej się po środku okna.
Wybranie więcej niż dwóch zmiennych spowoduje obliczenie współczynników Wybranie więcej niż dwóch zmiennych spowoduje obliczenie współczynników
korelacji dla każdej z par zmiennych. Po wybraniu zmiennych do analizy, nale- korelacji dla każdej z par zmiennych. Po wybraniu zmiennych do analizy, nale-
ży zaznaczyć, jaki współczynnik korelacji nas interesuje. Przy wyborze dwóch ży zaznaczyć, jaki współczynnik korelacji nas interesuje. Przy wyborze dwóch
współczynników zostaną utworzone odpowiednio dwie lub trzy macierze współ- współczynników zostaną utworzone odpowiednio dwie lub trzy macierze współ-
czynników. czynników.
W polu „Test istotności” można wybrać opcję dotyczącą testu istotności ko- W polu „Test istotności” można wybrać opcję dotyczącą testu istotności ko-
relacji. Jeżeli mamy jakiekolwiek hipotezy co do kierunku (znaku) korelacji relacji. Jeżeli mamy jakiekolwiek hipotezy co do kierunku (znaku) korelacji
należy wybrać test jednostronny. Z tą sytuacją najczęściej mamy do czynienia należy wybrać test jednostronny. Z tą sytuacją najczęściej mamy do czynienia
w przypadku obliczania trafności, gdyż posiadamy konkretne przypuszczenia co w przypadku obliczania trafności, gdyż posiadamy konkretne przypuszczenia co
do interesującej nas zależności. W przeciwnym wypadku, gdy przeprowadzamy do interesującej nas zależności. W przeciwnym wypadku, gdy przeprowadzamy
np. jakąś wstępną analizę, a naszym celem jest zbadanie, czy między zmiennymi np. jakąś wstępną analizę, a naszym celem jest zbadanie, czy między zmiennymi
zachodzi jakikolwiek związek, wybieramy test dwustronny. zachodzi jakikolwiek związek, wybieramy test dwustronny.
Po wciśnięciu przycisku OK, komputer obliczy żądane wartości korelacji. Ich Po wciśnięciu przycisku OK, komputer obliczy żądane wartości korelacji. Ich
wartości ukażą się w oknie wyników przedstawionym na rys. 5.20. wartości ukażą się w oknie wyników przedstawionym na rys. 5.20.
146 Rysunek 5.20. Okno wyników dotyczących współczynnika korelacji Pearsona 146 Rysunek 5.20. Okno wyników dotyczących współczynnika korelacji Pearsona

Jak widać, utworzona przez komputer tabelka zawiera wartości korelacji po- Jak widać, utworzona przez komputer tabelka zawiera wartości korelacji po-
szczególnych par zmiennych oraz poziomy istotności tychże korelacji, jak rów- szczególnych par zmiennych oraz poziomy istotności tychże korelacji, jak rów-
nież liczebność (N), próby na jakiej obliczono daną korelację. Korelacje istotne nież liczebność (N), próby na jakiej obliczono daną korelację. Korelacje istotne
statystycznie na poziomie p<0,01 zostały wyróżnione gwiazdkami umieszczoną statystycznie na poziomie p<0,01 zostały wyróżnione gwiazdkami umieszczoną
przy wartości korelacji. przy wartości korelacji.
5.2.5.3. Analiza czynnikowa 5.2.5.3. Analiza czynnikowa

Analiza czynnikowa od strony obliczeniowej jest dosyć złożona. Poniżej Analiza czynnikowa od strony obliczeniowej jest dosyć złożona. Poniżej
przedstawionych jest kilka reguł, które w większości przypadków powinny po- przedstawionych jest kilka reguł, które w większości przypadków powinny po-
zwolić na uzyskanie wiarygodnych wyników, jednak przy planowaniu poważ- zwolić na uzyskanie wiarygodnych wyników, jednak przy planowaniu poważ-
nych badań niezbędne jest głębsze zapoznanie się z literaturą przedmiotu (np. nych badań niezbędne jest głębsze zapoznanie się z literaturą przedmiotu (np.
Zakrzewska, 1994). Zakrzewska, 1994).
Jeśli planuje się zastosowanie analizy czynnikowej w pewnym badaniu, to Jeśli planuje się zastosowanie analizy czynnikowej w pewnym badaniu, to
próba osób w nim uczestniczących powinna być możliwie duża. Według niepi- próba osób w nim uczestniczących powinna być możliwie duża. Według niepi-
sanej umowy, aby zapewnić minimalną sensowną liczebność przyjmujemy, że sanej umowy, aby zapewnić minimalną sensowną liczebność przyjmujemy, że
liczba osób powinna być przynajmniej dziesięciokrotnie większa od liczby ba- liczba osób powinna być przynajmniej dziesięciokrotnie większa od liczby ba-
danych zmiennych. Próba powinna być możliwie zróżnicowana pod względem danych zmiennych. Próba powinna być możliwie zróżnicowana pod względem
analizowanych zmiennych i maksymalnie jednorodna pod względem pozosta- analizowanych zmiennych i maksymalnie jednorodna pod względem pozosta-
łych zmiennych ubocznych. łych zmiennych ubocznych.
Przykładowe obliczanie analizy wariancji zaprezentowane zostanie przy wy- Przykładowe obliczanie analizy wariancji zaprezentowane zostanie przy wy-
korzystaniu pliku danych analiza_czynnikowa.sav, zawierającym zmienne wykorzystaniu pliku danych analiza_czynnikowa.sav, zawierającym zmienne wy-
korzystane w tabeli 5.8. W celu przeprowadzenia obliczeń w programie SPSS, korzystane w tabeli 5.8. W celu przeprowadzenia obliczeń w programie SPSS,
wybieramy polecenia „Analiza”, a w dalszej kolejności „Redukcja danych”, na- wybieramy polecenia „Analiza”, a w dalszej kolejności „Redukcja danych”, na-
stępnie „Analiza czynnikowa”. Spowoduje to wyświetlenie okna przedstawione- stępnie „Analiza czynnikowa”. Spowoduje to wyświetlenie okna przedstawione-
go na rys. 5.21. W stosunku do domyślnych ustawień procedury warto wprowa- go na rys. 5.21. W stosunku do domyślnych ustawień procedury warto wprowa-
dzić kilka zmian. dzić kilka zmian.
Rysunek 5.21. Uruchamianie analizy czynnikowej w SPSS Rysunek 5.21. Uruchamianie analizy czynnikowej w SPSS
Po wciśnięciu przycisku „Rotacja” ukaże się okno przedstawione na rys. 5.22. Po wciśnięciu przycisku „Rotacja” ukaże się okno przedstawione na rys. 5.22.
W oknie tym można wybrać jedną z metod rotowania czynników. Jest to za- 147 W oknie tym można wybrać jedną z metod rotowania czynników. Jest to za- 147

bieg zwiększający czytelność uzyskanego rozwiązania. Istota rotacji polega na bieg zwiększający czytelność uzyskanego rozwiązania. Istota rotacji polega na
obrocie układu współrzędnych tworzonego przez czynniki. Sprawia on, że ła- obrocie układu współrzędnych tworzonego przez czynniki. Sprawia on, że ła-
dunki czynnikowe poszczególnych zmiennych stają się bardzo małe lub bardzo dunki czynnikowe poszczególnych zmiennych stają się bardzo małe lub bardzo
duże, co upraszcza przyporządkowanie znanych zmiennych nowym czynnikom. duże, co upraszcza przyporządkowanie znanych zmiennych nowym czynnikom.
Metoda Varimax rotowania czynników jest najczęściej używaną techniką tego Metoda Varimax rotowania czynników jest najczęściej używaną techniką tego
typu i ją też wybieramy w naszym przykładzie. typu i ją też wybieramy w naszym przykładzie.
Rysunek 5.22. Wybór metody rotowania czynników w SPSS Rysunek 5.22. Wybór metody rotowania czynników w SPSS
Po powrocie do okna „Analiza czynnikowa” w „Opcjach” wybieramy sorto- Po powrocie do okna „Analiza czynnikowa” w „Opcjach” wybieramy sorto-
wanie według wielkości ładunków i pomijanie wartości mniejszych niż 0,1 (rys. wanie według wielkości ładunków i pomijanie wartości mniejszych niż 0,1 (rys.
5.23). Są to zabiegi porządkowe, zwiększające czytelność wydruku. 5.23). Są to zabiegi porządkowe, zwiększające czytelność wydruku.
Rysunek 5.23. Wybór opcji w analizie czynnikowej Rysunek 5.23. Wybór opcji w analizie czynnikowej
Zwróćmy uwagę, że w opisie analizy czynnikowej często wymiennie stosuje Zwróćmy uwagę, że w opisie analizy czynnikowej często wymiennie stosuje
się pojęcia „wariancja”, „zmienność” oraz „informacja”. Zróżnicowanie wyni- się pojęcia „wariancja”, „zmienność” oraz „informacja”. Zróżnicowanie wyni-
ków, czyli ich zmienność, jest nośnikiem informacji, która może być wyjaśniana ków, czyli ich zmienność, jest nośnikiem informacji, która może być wyjaśniana
poprzez różne procedury statystyczne. Gdyby wszyscy badani mieli identyczne poprzez różne procedury statystyczne. Gdyby wszyscy badani mieli identyczne
wyniki w pewnej zmiennej (np. postawie), taki zbiór danych nie niósłby żadnej wyniki w pewnej zmiennej (np. postawie), taki zbiór danych nie niósłby żadnej
148 informacji o niej. Nie można by wyjaśnić, co wpływa na tę zmienną (postawę) 148 informacji o niej. Nie można by wyjaśnić, co wpływa na tę zmienną (postawę)

i co jest jej skutkiem. Dlatego im bardziej zróżnicowane są dane, tym więcej i co jest jej skutkiem. Dlatego im bardziej zróżnicowane są dane, tym więcej
informacji o postawie mogą one przynieść. Wariancja oznacza, z jednej strony, informacji o postawie mogą one przynieść. Wariancja oznacza, z jednej strony,
znaną ze statystyki miarę pozwalającą ilościowo ująć zmienność wyników, z dru- znaną ze statystyki miarę pozwalającą ilościowo ująć zmienność wyników, z dru-
giej – niekiedy bywa używana jako synonim takich słów, jak zróżnicowanie czy giej – niekiedy bywa używana jako synonim takich słów, jak zróżnicowanie czy
też zmienność wyników. też zmienność wyników.
Wykonanie opisanej analizy spowoduje uzyskanie wyników przedstawionych Wykonanie opisanej analizy spowoduje uzyskanie wyników przedstawionych
w tabeli 5.8. Na wydruku zwracamy uwagę na pierwszą tabelę (rys. 5.24.) przed- w tabeli 5.8. Na wydruku zwracamy uwagę na pierwszą tabelę (rys. 5.24.) przed-
stawiającą zasoby zmienności wspólnej, które powinny być jak największe dla stawiającą zasoby zmienności wspólnej, które powinny być jak największe dla
każdej ze zmiennych uwzględnionych w analizie. Warto rozważyć pominięcie każdej ze zmiennych uwzględnionych w analizie. Warto rozważyć pominięcie
zmiennych, dla których wartości te są małe. Dla każdej zmiennej zasób zmien- zmiennych, dla których wartości te są małe. Dla każdej zmiennej zasób zmien-
ności wspólnej, to proporcja informacji zawartej w tej zmiennej, która wiąże się ności wspólnej, to proporcja informacji zawartej w tej zmiennej, która wiąże się
z pozostałymi zmiennymi używanymi w analizie. Jeśli wartość ta jest niewielka z pozostałymi zmiennymi używanymi w analizie. Jeśli wartość ta jest niewielka
oznacza to, że zmienna nie ma wiele wspólnego z innymi zmiennymi i prawdo- oznacza to, że zmienna nie ma wiele wspólnego z innymi zmiennymi i prawdo-
podobnie w prowadzonej analizie czynnikowej raczej utrudnia uzyskanie czytel- podobnie w prowadzonej analizie czynnikowej raczej utrudnia uzyskanie czytel-
nego rozwiązania. nego rozwiązania.
Rysunek 5.24. Wyniki analizy czynnikowej Rysunek 5.24. Wyniki analizy czynnikowej
W drugiej tabeli (rys. 5.24.) zwracamy szczególną uwagę na skumulowany W drugiej tabeli (rys. 5.24.) zwracamy szczególną uwagę na skumulowany
procent wariancji wyjaśnionej dla ostatniego czynnika (powinno być jak najwię- procent wariancji wyjaśnionej dla ostatniego czynnika (powinno być jak najwię-
cej, analiza ma mały sens jeśli wartość jest mniejsza od 50). Wartość ta informu- cej, analiza ma mały sens jeśli wartość jest mniejsza od 50). Wartość ta informu-
je, jaka część informacji zawartej w wyjściowych zmiennych tłumaczona jest je, jaka część informacji zawartej w wyjściowych zmiennych tłumaczona jest
przez utworzone czynniki. Jeśli wartość ta jest zbyt mała świadczy to o tym, że 149 przez utworzone czynniki. Jeśli wartość ta jest zbyt mała świadczy to o tym, że 149

nie udało się utworzyć czynników wyjaśniających wprowadzone zmienne i ana- nie udało się utworzyć czynników wyjaśniających wprowadzone zmienne i ana-
lizę należy uznać za nieudaną. lizę należy uznać za nieudaną.
Kolejne tabele wydruku wyników (rys. 5.25.) przedstawiają macierze czynni- Kolejne tabele wydruku wyników (rys. 5.25.) przedstawiają macierze czynni-
ków rozwiązania nierotowanego oraz rotowanego. ków rozwiązania nierotowanego oraz rotowanego.
150 Rysunek 5.25. Wyniki analizy czynnikowej – c.d. 150 Rysunek 5.25. Wyniki analizy czynnikowej – c.d.

W omawianym przykładzie nie interesuje nas macierz czynników nierotowa- W omawianym przykładzie nie interesuje nas macierz czynników nierotowa-
nych. Ostatecznie interpretujemy więc macierz ładunków czynnikowych po ro- nych. Ostatecznie interpretujemy więc macierz ładunków czynnikowych po ro-
tacji. Dla każdego czynnika wyszukujemy zmienne powiązane z nim najsilniej. tacji. Dla każdego czynnika wyszukujemy zmienne powiązane z nim najsilniej.
Wspólna treść tych zmiennych pozwala zinterpretować utworzony czynnik tak, Wspólna treść tych zmiennych pozwala zinterpretować utworzony czynnik tak,
jak uczyniono to w rozdziale 5.2.2.2. jak uczyniono to w rozdziale 5.2.2.2.
5.2.5.4. Analiza różnic międzygrupowych 5.2.5.4. Analiza różnic międzygrupowych

W badaniach nad trafnością teoretyczną lub kryterialną zachodzi niekiedy ko- W badaniach nad trafnością teoretyczną lub kryterialną zachodzi niekiedy ko-
nieczność porównania średnich wyników danego testu uzyskanych w dwóch lub nieczność porównania średnich wyników danego testu uzyskanych w dwóch lub
więcej grupach wyodrębnionych ze względu na kryterium (trafność kryterialna) więcej grupach wyodrębnionych ze względu na kryterium (trafność kryterialna)
bądź zmienną ważną z teoretycznego punktu widzenia (trafność teoretyczna). bądź zmienną ważną z teoretycznego punktu widzenia (trafność teoretyczna).
Do porównywania różnic między średnimi arytmetycznymi dwóch grup służy Do porównywania różnic między średnimi arytmetycznymi dwóch grup służy
test t-Studenta dla prób niezależnych. W przypadku większej liczby grup można test t-Studenta dla prób niezależnych. W przypadku większej liczby grup można
zastosować analizę wariancji. zastosować analizę wariancji.
W celu omówienia zastosowania SPSS do obliczania testu t-Studenta, a także W celu omówienia zastosowania SPSS do obliczania testu t-Studenta, a także
jednoczynnikowej analizy wariancji, posłużymy się następującym przykładem. jednoczynnikowej analizy wariancji, posłużymy się następującym przykładem.
Wyobraźmy sobie, że przebadaliśmy trzy grupy (w wieku 8, 10 i 12 lat) mło- Wyobraźmy sobie, że przebadaliśmy trzy grupy (w wieku 8, 10 i 12 lat) mło-
dzieży pewnym testem inteligencji. Jeśli test ten jest trafny, to należy przypusz- dzieży pewnym testem inteligencji. Jeśli test ten jest trafny, to należy przypusz-
czać, że jego wyniki wzrastają wraz z wiekiem badanych. Naszym zadaniem jest czać, że jego wyniki wzrastają wraz z wiekiem badanych. Naszym zadaniem jest
sprawdzenie tego przypuszczenia. Możemy tego dokonać porównując średnie sprawdzenie tego przypuszczenia. Możemy tego dokonać porównując średnie
wyniki w poszczególnych grupach wieku. wyniki w poszczególnych grupach wieku.
Odpowiednie dane do tego przykładu zawiera plik o nazwie porówny- Odpowiednie dane do tego przykładu zawiera plik o nazwie porówny-
wanie_grup.sav. W pliku tym zmienna „intel” zawiera wyniki testu inteligencji, wanie_grup.sav. W pliku tym zmienna „intel” zawiera wyniki testu inteligencji,
a zmienna „wiek” reprezentuje wiek osób badanych. a zmienna „wiek” reprezentuje wiek osób badanych.
5.2.5.4.1. Test t-Studenta 5.2.5.4.1. Test t-Studenta

Załóżmy na początek, że chcemy porównać pod względem wyników testu in- Załóżmy na początek, że chcemy porównać pod względem wyników testu in-
teligencji tylko dwie grupy: dziesięciolatków i dwunastolatków. Zgodnie z teorią teligencji tylko dwie grupy: dziesięciolatków i dwunastolatków. Zgodnie z teorią
inteligencji należy oczekiwać, że dziesięciolatkowie osiągną niższe wyniki niż inteligencji należy oczekiwać, że dziesięciolatkowie osiągną niższe wyniki niż
dwunastolatkowie. dwunastolatkowie.
W celu przeprowadzenia obliczeń w SPSS, z menu „Analiza” wybieramy po- W celu przeprowadzenia obliczeń w SPSS, z menu „Analiza” wybieramy po-
lecenie „Porównywanie średnich”, a następnie „Test t dla prób niezależnych” lecenie „Porównywanie średnich”, a następnie „Test t dla prób niezależnych”
(rys. 5.26.). (rys. 5.26.).
Spowoduje to wyświetlenie na ekranie monitora okna przedstawionego na Spowoduje to wyświetlenie na ekranie monitora okna przedstawionego na
rys. 5.27. W celu wyboru zmiennej reprezentującej wyniki testu, którego trafność rys. 5.27. W celu wyboru zmiennej reprezentującej wyniki testu, którego trafność
określamy (w naszym przypadku wynik testu inteligencji – intel), klikamy jej określamy (w naszym przypadku wynik testu inteligencji – intel), klikamy jej
nazwę, a następnie odpowiednią strzałkę, tak aby zmienna ta została przeniesiona nazwę, a następnie odpowiednią strzałkę, tak aby zmienna ta została przeniesiona
do okna „Zmienne testowane”. do okna „Zmienne testowane”.
151 151

Rysunek 5.26. Wybór okna „Test t dla prób niezależnych” z menu głównego SPSS Rysunek 5.26. Wybór okna „Test t dla prób niezależnych” z menu głównego SPSS
Rysunek 5.27. Okno „Test t dla prób niezależnych” Rysunek 5.27. Okno „Test t dla prób niezależnych”
W dalszej kolejności musimy wybrać zmienną niezależną. W naszym przy- W dalszej kolejności musimy wybrać zmienną niezależną. W naszym przy-
kładzie jest nią przynależność do grupy wieku. Zmienna niezależna w programie kładzie jest nią przynależność do grupy wieku. Zmienna niezależna w programie
SPSS nosi nazwę tzw. zmiennej grupującej. Musi ona zawierać wartości odpo- SPSS nosi nazwę tzw. zmiennej grupującej. Musi ona zawierać wartości odpo-
wiadające przynależności do porównywanych grup. Jeśli np. porównujemy dwie wiadające przynależności do porównywanych grup. Jeśli np. porównujemy dwie
grupy wyróżnione ze względu na płeć, to zarówno kobietom, jak i mężczyznom grupy wyróżnione ze względu na płeć, to zarówno kobietom, jak i mężczyznom
należy przypisać jakiś kod liczbowy. Może być on zupełnie dowolny. Możemy należy przypisać jakiś kod liczbowy. Może być on zupełnie dowolny. Możemy
np. ustalić, że wszystkim kobietom przypisujemy cyfrę 1, a mężczyznom – 0. np. ustalić, że wszystkim kobietom przypisujemy cyfrę 1, a mężczyznom – 0.
W ten sposób można utworzyć potrzebną zmienną grupującą. W naszym przy- W ten sposób można utworzyć potrzebną zmienną grupującą. W naszym przy-
padku grupom przyporządkowano konkretne wartości oznaczające wiek bada- padku grupom przyporządkowano konkretne wartości oznaczające wiek bada-
nych. nych.
Zdarza się jednak tak, że chcemy wyróżnić dwie grupy na podstawie jakiejś Zdarza się jednak tak, że chcemy wyróżnić dwie grupy na podstawie jakiejś
zmiennej ciągłej czy też porządkowej o wielu wartościach (więcej niż dwóch). zmiennej ciągłej czy też porządkowej o wielu wartościach (więcej niż dwóch).
152 Przypuśćmy, że w naszym przykładzie przebadaliśmy młodzież w bardzo róż- 152 Przypuśćmy, że w naszym przykładzie przebadaliśmy młodzież w bardzo róż-

nym wieku, a więc zmienna wiek przybiera np. następujące wartości: 7, 8, 9, 10, nym wieku, a więc zmienna wiek przybiera np. następujące wartości: 7, 8, 9, 10,
11, 12, 13 i 14. Możemy teraz wybrać, jaka wartość będzie dzieliła wszystkich 11, 12, 13 i 14. Możemy teraz wybrać, jaka wartość będzie dzieliła wszystkich
badanych na dwie grupy. Możemy np. przyjąć, że wszystkich poniżej 10 roku badanych na dwie grupy. Możemy np. przyjąć, że wszystkich poniżej 10 roku
życia zaliczamy do grupy pierwszej (czyli do grupy młodszych), a pozostałych życia zaliczamy do grupy pierwszej (czyli do grupy młodszych), a pozostałych
badanych do grupy drugiej (czyli grupy starszej). badanych do grupy drugiej (czyli grupy starszej).
W oknie z rys. 5.27. zmienną grupującą wzbiera się przez zaznaczenie jej na- W oknie z rys. 5.27. zmienną grupującą wzbiera się przez zaznaczenie jej na-
zwy i kliknięcie odpowiedniej strzałki tak, aby jej nazwa znalazła się w polu zwy i kliknięcie odpowiedniej strzałki tak, aby jej nazwa znalazła się w polu
„Zmienna grupująca”. Teraz możemy zdefiniować, jakie wartości zmiennej „Zmienna grupująca”. Teraz możemy zdefiniować, jakie wartości zmiennej
grupującej określają analizowane grupy, które chcemy porównać. W tym celu grupującej określają analizowane grupy, które chcemy porównać. W tym celu
klikamy przycisk „Definiuj grupy”, po czym ukaże się okno przedstawione na klikamy przycisk „Definiuj grupy”, po czym ukaże się okno przedstawione na
rys. 5.28. W zależności od tego, czy zmienna grupująca ma charakter nominal- rys. 5.28. W zależności od tego, czy zmienna grupująca ma charakter nominal-
ny czy nie, wybieramy potrzebną opcję (odpowiednio: Użyj określonych warto- ny czy nie, wybieramy potrzebną opcję (odpowiednio: Użyj określonych warto-
ści lub Punkt podziału). W naszym przykładzie wpisujemy wartości: dla grupy ści lub Punkt podziału). W naszym przykładzie wpisujemy wartości: dla grupy
1 – liczba 12, a dla grupy 2 – liczba 10. 1 – liczba 12, a dla grupy 2 – liczba 10.
Rysunek 5.28. Okno definiowania grup Rysunek 5.28. Okno definiowania grup
Po wciśnięciu „Dalej”, a następnie „OK”, program wykona analizę, której re- Po wciśnięciu „Dalej”, a następnie „OK”, program wykona analizę, której re-
zultaty zamieszczone zostaną w edytorze wyników (rys. 5.29.). zultaty zamieszczone zostaną w edytorze wyników (rys. 5.29.).
Rysunek 5.29. Okno wyników dotyczących testu t-Studenta Rysunek 5.29. Okno wyników dotyczących testu t-Studenta
153 153

Na wydruku znajdą się dwie tabele. W pierwszej górnej (Statystyki dla grup) Na wydruku znajdą się dwie tabele. W pierwszej górnej (Statystyki dla grup)
znajdują się statystyki opisowe dla porównywanych grup (ich liczebność, śred- znajdują się statystyki opisowe dla porównywanych grup (ich liczebność, śred-
nie, odchylenie standardowe i błąd standardowy pomiaru). Z tabeli tej możemy nie, odchylenie standardowe i błąd standardowy pomiaru). Z tabeli tej możemy
dowiedzieć się, że dwunastolatkowie osiągają przeciętnie wyższe wyniki (52,9) dowiedzieć się, że dwunastolatkowie osiągają przeciętnie wyższe wyniki (52,9)
niż dziesięciolatkowie (50,6). niż dziesięciolatkowie (50,6).
Informacje dotyczące tego, czy różnica ta jest istotna statystycznie zamiesz- Informacje dotyczące tego, czy różnica ta jest istotna statystycznie zamiesz-
czone są w kolejnej tabeli (Test dla prób niezależnych). Dwie pierwsze kolumny czone są w kolejnej tabeli (Test dla prób niezależnych). Dwie pierwsze kolumny
tej tabeli dotyczą testu jednorodności wariancji Levene’a. Jest to sprawdzanie tej tabeli dotyczą testu jednorodności wariancji Levene’a. Jest to sprawdzanie
jednego z założeń testu t-Studenta. Jeżeli test Levene’a jest nieistotny statystycz- jednego z założeń testu t-Studenta. Jeżeli test Levene’a jest nieistotny statystycz-
nie, to wariancje są homogeniczne, a co za tym idzie – można zastosować test nie, to wariancje są homogeniczne, a co za tym idzie – można zastosować test
t. Wyniki dotyczące tego testu znajdują się w pierwszym wierszu tabeli (wiersz t. Wyniki dotyczące tego testu znajdują się w pierwszym wierszu tabeli (wiersz
ten nazwany jest: Założono równość wariancji). W przeciwnym wypadku, gdy ten nazwany jest: Założono równość wariancji). W przeciwnym wypadku, gdy
wariancje nie są jednorodne, patrzymy na dolny wiersz tabeli, zawierający dane wariancje nie są jednorodne, patrzymy na dolny wiersz tabeli, zawierający dane
na temat testu Cochrana-Coxa, który jest odpowiednikiem testu t-Sudenta dla sy- na temat testu Cochrana-Coxa, który jest odpowiednikiem testu t-Sudenta dla sy-
tuacji, w której nie jest spełnione założenie o homogeniczności wariancji (wiersz tuacji, w której nie jest spełnione założenie o homogeniczności wariancji (wiersz
ten nazwany jest: Nie założono równość wariancji). ten nazwany jest: Nie założono równość wariancji).
W naszym przypadku test Levene’a jest nieistotny statycznie (F=1,508; W naszym przypadku test Levene’a jest nieistotny statycznie (F=1,508;
p=0,224). Oznacza to, że wyniki testu t-Studenta odczytamy z pierwszego wier- p=0,224). Oznacza to, że wyniki testu t-Studenta odczytamy z pierwszego wier-
sza tabeli. Jak widzimy, wartość tego testu wynosi t=3,15. Przy 58 stopniach sza tabeli. Jak widzimy, wartość tego testu wynosi t=3,15. Przy 58 stopniach
swobody wynik ten jest istotny statystycznie na poziomie p=0,003. Oznacza to, swobody wynik ten jest istotny statystycznie na poziomie p=0,003. Oznacza to,
że średnie testu inteligencji w dwóch porównywanych grupach wieku istotnie że średnie testu inteligencji w dwóch porównywanych grupach wieku istotnie
różnią się między sobą. różnią się między sobą.
5.2.5.4.2. Jednoczynnikowa analiza wariancji 5.2.5.4.2. Jednoczynnikowa analiza wariancji

W przypadku testu t-Studenta mieliśmy możliwość porównania wyników W przypadku testu t-Studenta mieliśmy możliwość porównania wyników
dwóch grup. Jeśli natomiast chcemy porównać większą liczbę grup, musimy za- dwóch grup. Jeśli natomiast chcemy porównać większą liczbę grup, musimy za-
stosować inne metody analizy danych, np. analizę wariancji. Taka konieczność stosować inne metody analizy danych, np. analizę wariancji. Taka konieczność
zachodzi w naszym przykładzie, jeśli chcemy jednocześnie porównać wyniki nie zachodzi w naszym przykładzie, jeśli chcemy jednocześnie porównać wyniki nie
tylko dziesięciolatków i dwunastolatków, ale także ośmiolatków. tylko dziesięciolatków i dwunastolatków, ale także ośmiolatków.
Istotny statystycznie wynik analizy wariancji oznacza, że przynajmniej dwie Istotny statystycznie wynik analizy wariancji oznacza, że przynajmniej dwie
z porównywanych grup różnią się między sobą. Nie wiemy jednak w dalszym cią- z porównywanych grup różnią się między sobą. Nie wiemy jednak w dalszym cią-
gu, o które dokładnie grupy chodzi. Jak można się tego dowiedzieć? Do tego celu gu, o które dokładnie grupy chodzi. Jak można się tego dowiedzieć? Do tego celu
służą metody posiadające wspólną nazwę porównań wielokrotnych. Wyróżnia się służą metody posiadające wspólną nazwę porównań wielokrotnych. Wyróżnia się
tzw. wielokrotne porównania zaplanowane (czy też analiza kontrastów zaplano- tzw. wielokrotne porównania zaplanowane (czy też analiza kontrastów zaplano-
wanych) oraz porównania post hoc. wanych) oraz porównania post hoc.
Analiza kontrastów zaplanowanych umożliwia testowanie statystycznej istot- Analiza kontrastów zaplanowanych umożliwia testowanie statystycznej istot-
ności prognozowanych szczegółowych różnic. Chodzi tu o takie zróżnicowa- ności prognozowanych szczegółowych różnic. Chodzi tu o takie zróżnicowa-
nie średnich, którego można było oczekiwać przed przeprowadzeniem badania. nie średnich, którego można było oczekiwać przed przeprowadzeniem badania.
W psychologii rzadko zdarza się, że badacz dysponuje na tyle rozwiniętą teorią, W psychologii rzadko zdarza się, że badacz dysponuje na tyle rozwiniętą teorią,
aby móc stawiać tak szczegółowe hipotezy. Zwykle przewidujemy, że tylko dany aby móc stawiać tak szczegółowe hipotezy. Zwykle przewidujemy, że tylko dany
154 czynnik różnicuje wyniki zmiennej zależnej. Nie potrafimy przewidzieć jednak 154 czynnik różnicuje wyniki zmiennej zależnej. Nie potrafimy przewidzieć jednak

dokładnie, w jaki sposób. Z tego powodu porównania zaplanowane mają dla psy- dokładnie, w jaki sposób. Z tego powodu porównania zaplanowane mają dla psy-
chologów mniejsze znaczenie praktyczne. W naszym przypadku właściwie ocze- chologów mniejsze znaczenie praktyczne. W naszym przypadku właściwie ocze-
kiwalibyśmy, że wszystkie trzy grupy wieku będą różniły się między sobą pod kiwalibyśmy, że wszystkie trzy grupy wieku będą różniły się między sobą pod
względem wyników testu inteligencji nie wiemy jednak o jaką wartość. względem wyników testu inteligencji nie wiemy jednak o jaką wartość.
Natomiast dość często w przeprowadzonym badaniu natrafiamy na zależności, Natomiast dość często w przeprowadzonym badaniu natrafiamy na zależności,
których albo się nie spodziewaliśmy, albo nie mieliśmy sprecyzowanych hipo- których albo się nie spodziewaliśmy, albo nie mieliśmy sprecyzowanych hipo-
tez co do ich istnienia. W takim przypadku dokonujemy porównań wszystkich tez co do ich istnienia. W takim przypadku dokonujemy porównań wszystkich
par średnich bez jakichkolwiek przewidywań co do sposoby ich zróżnicowania. par średnich bez jakichkolwiek przewidywań co do sposoby ich zróżnicowania.
Najpopularniejszymi testami post-hoc są testy Bonferoniego oraz Tukeya. Najpopularniejszymi testami post-hoc są testy Bonferoniego oraz Tukeya.
Aby wykonać analizę wariancji w programie SPSS, należy wybrać następują- Aby wykonać analizę wariancji w programie SPSS, należy wybrać następują-
ce polecania. Z menu „Analiza” należy wybrać polecenie „Porównywanie śred- ce polecania. Z menu „Analiza” należy wybrać polecenie „Porównywanie śred-
nich”, a następnie „Jednoczynnikowa Anova” (rys. 5.30.). nich”, a następnie „Jednoczynnikowa Anova” (rys. 5.30.).
Rysunek 5.30. Wybór okna „Jednoczynnikowa Anova” z menu głównego SPSS Rysunek 5.30. Wybór okna „Jednoczynnikowa Anova” z menu głównego SPSS
Spowoduje to ukazanie się okienka dialogowego przedstawionego na rys. 5.31. Spowoduje to ukazanie się okienka dialogowego przedstawionego na rys. 5.31.
W okienku tym musimy zdefiniować zmienną (lub zmienne) zależną oraz zmien- W okienku tym musimy zdefiniować zmienną (lub zmienne) zależną oraz zmien-
na grupującą (czynnik). Wyboru zmiennych dokonujemy z listy znajdującej się na grupującą (czynnik). Wyboru zmiennych dokonujemy z listy znajdującej się
w polu w lewej części okna. Za pomocą odpowiednich strzałek przenosimy wy- w polu w lewej części okna. Za pomocą odpowiednich strzałek przenosimy wy-
brane zmienne do pola „Zmienne zależne” oraz do pola „Czynnik”. W naszym brane zmienne do pola „Zmienne zależne” oraz do pola „Czynnik”. W naszym
przykładzie oczywiście zmienną zależną jest wynik testu inteligencji, a czynni- przykładzie oczywiście zmienną zależną jest wynik testu inteligencji, a czynni-
kiem – wiek badanych. kiem – wiek badanych.
155 155

Rysunek 5.31. Okno „Jednoczynnikowa Anova” Rysunek 5.31. Okno „Jednoczynnikowa Anova”
Po wciśnięciu przycisku „Opcje”, wyświetli się okno przedstawione na Po wciśnięciu przycisku „Opcje”, wyświetli się okno przedstawione na
rys. 5.32. Zaznaczenie odpowiednich opcji w tym oknie umożliwia wyświetlanie rys. 5.32. Zaznaczenie odpowiednich opcji w tym oknie umożliwia wyświetlanie
statystyk opisowych i testu Levene’a równości wariancji (tak jak zaznaczono na statystyk opisowych i testu Levene’a równości wariancji (tak jak zaznaczono na
rys. 5.32.). Możemy także zażądać, aby program wykonał obliczenia dla wielo- rys. 5.32.). Możemy także zażądać, aby program wykonał obliczenia dla wielo-
krotnych porównań zaplanowanych (przycisk „Kontrasty”). Jeżeli okaże się, że krotnych porównań zaplanowanych (przycisk „Kontrasty”). Jeżeli okaże się, że
wynik testu jest istotny statystycznie, możemy przeprowadzić analizę powtórnie, wynik testu jest istotny statystycznie, możemy przeprowadzić analizę powtórnie,
wybierając któryś z testów post-hoc. Do tego celu służy przycisk „Post hoc”. wybierając któryś z testów post-hoc. Do tego celu służy przycisk „Post hoc”.
Rysunek 5.32. Okno opcji analizy wariancji Rysunek 5.32. Okno opcji analizy wariancji
Po wciśnięciu „OK”, program SPSS obliczy wyniki analizy wariancji, a tak- Po wciśnięciu „OK”, program SPSS obliczy wyniki analizy wariancji, a tak-
że inne statystyki, które wybraliśmy w „Opcjach”. Wyniki te przedstawiono na że inne statystyki, które wybraliśmy w „Opcjach”. Wyniki te przedstawiono na
rys. 5.33.–5.35. Tabela z rys. 5.33, przedstawia statystyki opisowe analizowa- rys. 5.33.–5.35. Tabela z rys. 5.33, przedstawia statystyki opisowe analizowa-
nych danych. Oprócz średnich i odchyleń dla dziesięciolatków i dwunastolatków, nych danych. Oprócz średnich i odchyleń dla dziesięciolatków i dwunastolatków,
156 które znamy z rys. 5.29, zaprezentowano tu także dane dotyczące ośmiolatków. 156 które znamy z rys. 5.29, zaprezentowano tu także dane dotyczące ośmiolatków.

Jak widzimy, kolejne grupy wieku charakteryzują się wyższymi wynikami testu Jak widzimy, kolejne grupy wieku charakteryzują się wyższymi wynikami testu
inteligencji. inteligencji.
Rysunek 5.33. Okno wyników analizy wariancji – statystyki opisowe Rysunek 5.33. Okno wyników analizy wariancji – statystyki opisowe
Aby stwierdzić, czy różnice te są istotne statystycznie, musimy sprawdzić Aby stwierdzić, czy różnice te są istotne statystycznie, musimy sprawdzić
wartość testu F oraz poziom jego istotności (rys. 5.34.). Jeżeli jest on niższy niż wartość testu F oraz poziom jego istotności (rys. 5.34.). Jeżeli jest on niższy niż
0,05, to możemy uznać, że analizowany przez nas czynnik wpływa na poziom 0,05, to możemy uznać, że analizowany przez nas czynnik wpływa na poziom
zmiennej zależnej. Tak też jest w naszym przykładzie. zmiennej zależnej. Tak też jest w naszym przykładzie.
Rysunek 5.34. Wyniki analizy wariancji Rysunek 5.34. Wyniki analizy wariancji
Wnioski z analizy wariancji będą całkowicie uprawnione, jeśli sprawdzimy Wnioski z analizy wariancji będą całkowicie uprawnione, jeśli sprawdzimy
jeszcze jedno z założeń analizy wariancji, jakim jest jednorodność wariancji jeszcze jedno z założeń analizy wariancji, jakim jest jednorodność wariancji
w analizowanych grupach. Założenie to weryfikuje test Levene’a (rys. 5.35.). w analizowanych grupach. Założenie to weryfikuje test Levene’a (rys. 5.35.).
W przypadku, gdy wartość testu Levene’a jest istotna statystycznie, to we wnio- W przypadku, gdy wartość testu Levene’a jest istotna statystycznie, to we wnio-
skowaniu nie możemy opierać się na wynikach analizy wariancji. Nie jest bo- skowaniu nie możemy opierać się na wynikach analizy wariancji. Nie jest bo-
wiem spełnione założenie o homogeniczności wariancji. W naszym przypadku wiem spełnione założenie o homogeniczności wariancji. W naszym przypadku
wartość ta jest jednak nieistotna statystycznie, a więc założenie o jednorodności wartość ta jest jednak nieistotna statystycznie, a więc założenie o jednorodności
wariancji jest spełnione. wariancji jest spełnione.
Rysunek 5.35. Wyniki testu Levene’a 157 Rysunek 5.35. Wyniki testu Levene’a 157

Można więc powiedzieć, że średnie testu inteligencji różnią się w porównywa- Można więc powiedzieć, że średnie testu inteligencji różnią się w porównywa-
nych grupach, a różnica ta jest istotna statystycznie. Jednocześnie jest spełnione nych grupach, a różnica ta jest istotna statystycznie. Jednocześnie jest spełnione
założenie analizy wariancji o jednorodności wariancji. Nie wiemy jednak w dal- założenie analizy wariancji o jednorodności wariancji. Nie wiemy jednak w dal-
szym ciągu, która (lub które) ze średnich grupowych różnią się od średniej ogól- szym ciągu, która (lub które) ze średnich grupowych różnią się od średniej ogól-
nej. Można się tego dowiedzieć wykorzystując metody porównania post hoc. nej. Można się tego dowiedzieć wykorzystując metody porównania post hoc.
Jak już wspomniano, w celu obliczenia któregoś z testów post-hoc w SPSS Jak już wspomniano, w celu obliczenia któregoś z testów post-hoc w SPSS
należy kliknąć przycisk „Post hoc” znajdujący się w oknie przedstawionym na należy kliknąć przycisk „Post hoc” znajdujący się w oknie przedstawionym na
rys. 5.30. Przycisk ten wywołuje okno znajdujące się na rys. 5.36. rys. 5.30. Przycisk ten wywołuje okno znajdujące się na rys. 5.36.
Rysunek 5.36. Okno wyboru testów post-hoc Rysunek 5.36. Okno wyboru testów post-hoc
W okienku zaprezentowanym na rys. 5.36. zaznaczono dwa rodzaje testów W okienku zaprezentowanym na rys. 5.36. zaznaczono dwa rodzaje testów
post-hoc. W zależności od rodzaju wybranego testu można otrzymać różne wy- post-hoc. W zależności od rodzaju wybranego testu można otrzymać różne wy-
niki, gdyż każdy z nich opiera się na innym sposobie oceny istotności różnic. Po niki, gdyż każdy z nich opiera się na innym sposobie oceny istotności różnic. Po
kliknięciu przycisku „Dalej”, a następnie „OK”, komputer wykona analizę przed- kliknięciu przycisku „Dalej”, a następnie „OK”, komputer wykona analizę przed-
stawiając wyniki analizy wariancji uzupełnione wynikami testów post-hoc. Dla stawiając wyniki analizy wariancji uzupełnione wynikami testów post-hoc. Dla
omawianego przykładu wyniki testów post-hoc zaprezentowano na rys. 5.37. omawianego przykładu wyniki testów post-hoc zaprezentowano na rys. 5.37.
158 158

Rysunek 5.37. Wyniki testów post-hoc Rysunek 5.37. Wyniki testów post-hoc
Z wyników przedstawionych na rys. 5.37. widać, że każda z porównywanych Z wyników przedstawionych na rys. 5.37. widać, że każda z porównywanych
średnich różni się w porównaniu z każdą inną średnią. Wszystkie bowiem warto- średnich różni się w porównaniu z każdą inną średnią. Wszystkie bowiem warto-
ści testów post-hoc (zarówno Tukeya, jak i Bonferroniego) są istotne statystycz- ści testów post-hoc (zarówno Tukeya, jak i Bonferroniego) są istotne statystycz-
nie. nie.
Podsumowując, można powiedzieć, że średnie testu inteligencji różnią się Podsumowując, można powiedzieć, że średnie testu inteligencji różnią się
w porównywanych grupach, a wszystkie różnice są istotne statystycznie. w porównywanych grupach, a wszystkie różnice są istotne statystycznie.

1. Czym jest trafność pomiaru testem? 1. Czym jest trafność pomiaru testem?
2. W jaki sposób trafność pomiaru testem zależy od wartości teorii psycholo- 2. W jaki sposób trafność pomiaru testem zależy od wartości teorii psycholo-
gicznej, na której jest oparty? gicznej, na której jest oparty?
3. W jaki sposób trafność zależy od rzetelności pomiaru testem? 159 3. W jaki sposób trafność zależy od rzetelności pomiaru testem? 159

4. Dlaczego trafność zależy od standaryzacji, normalizacji i obiektywności te- 4. Dlaczego trafność zależy od standaryzacji, normalizacji i obiektywności te-
stu? stu?
5. W jaki sposób badana jest trafność treściowa? 5. W jaki sposób badana jest trafność treściowa?
6. O czym świadczy zgodność sędziów kompetentnych? 6. O czym świadczy zgodność sędziów kompetentnych?
7. Jakie zagrożenie dla trafności treściowej stanowi optymalizacja zgodności 7. Jakie zagrożenie dla trafności treściowej stanowi optymalizacja zgodności
wewnętrznej? wewnętrznej?
8. Jakie są główne strategie badania trafności teoretycznej? 8. Jakie są główne strategie badania trafności teoretycznej?
9. Jak można zaplanować ocenę trafności teoretycznej skali lęku? 9. Jak można zaplanować ocenę trafności teoretycznej skali lęku?
10. Scharakteryzuj metodę wielu cech – wielu metod. 10. Scharakteryzuj metodę wielu cech – wielu metod.
11. Czy możliwy jest równocześnie wysoki poziom trafności zbieżnej i różnico- 11. Czy możliwy jest równocześnie wysoki poziom trafności zbieżnej i różnico-
wej testu? wej testu?
12. W jaki sposób analiza czynnikowa potwierdza trafność teoretyczną testu? 12. W jaki sposób analiza czynnikowa potwierdza trafność teoretyczną testu?
13. Jakie są rodzaje trafności kryterialnej? 13. Jakie są rodzaje trafności kryterialnej?
14. Na czym polega skażenie (kontaminacja) kryterium? 14. Na czym polega skażenie (kontaminacja) kryterium?
15. Dlaczego ważna jest trafność fasadowa? 15. Dlaczego ważna jest trafność fasadowa?
16. Czy wysoka trafność teoretyczna gwarantuje wysoki poziom trafności w po- 16. Czy wysoka trafność teoretyczna gwarantuje wysoki poziom trafności w po-
zostałych aspektach trafności? zostałych aspektach trafności?
17. W jakiej sytuacji użycie trafnego testu może doprowadzić do nietrafnej dia- 17. W jakiej sytuacji użycie trafnego testu może doprowadzić do nietrafnej dia-
gnozy? gnozy?
18. W jakich sytuacjach poszczególne rodzaje trafności są szczególnie ważne? 18. W jakich sytuacjach poszczególne rodzaje trafności są szczególnie ważne?
19. Omów różne zastosowania analizy czynnikowej jako metody sprawdzania 19. Omów różne zastosowania analizy czynnikowej jako metody sprawdzania
trafności pomiaru testem. trafności pomiaru testem.
160 160

5.3. Analiza właściwości pozycji testowych 5.3. Analiza właściwości pozycji testowych

Rozdział ten będzie poświęcony własnościom psychometrycznych pozycji Rozdział ten będzie poświęcony własnościom psychometrycznych pozycji
testowych oraz zależnościom między własnościami poszczególnych pozycji testowych oraz zależnościom między własnościami poszczególnych pozycji
testowych a właściwościami testu jako całości. Do tej pory zajmowaliśmy się testowych a właściwościami testu jako całości. Do tej pory zajmowaliśmy się
właściwościami pomiaru testem, takimi jak rzetelność i trafność, informującymi właściwościami pomiaru testem, takimi jak rzetelność i trafność, informującymi
o tym, jak „dobry” jest test jako całość. Właściwości pozycji testowych informu- o tym, jak „dobry” jest test jako całość. Właściwości pozycji testowych informu-
ją natomiast o „dobroci” poszczególnych pozycji. ją natomiast o „dobroci” poszczególnych pozycji.
Większość znanych testów psychologicznych zbudowana jest z wielu pozycji Większość znanych testów psychologicznych zbudowana jest z wielu pozycji
testowych, z których każda ma w założeniu badać tę samą własność psychiczną. testowych, z których każda ma w założeniu badać tę samą własność psychiczną.
W typowym teście badającym zdolności, takim jak chociażby Bateria Testów W typowym teście badającym zdolności, takim jak chociażby Bateria Testów
APIS (Matczak, Jaworowska, Szustrowa i Ciechanowicz, 2006) dla każdego za- APIS (Matczak, Jaworowska, Szustrowa i Ciechanowicz, 2006) dla każdego za-
dania testowego istnieje jedna dobra odpowiedź, za udzielenie której przyzna- dania testowego istnieje jedna dobra odpowiedź, za udzielenie której przyzna-
wany jest 1 punkt. Za odpowiedzi nieprawidłowe punkty nie są przyznawane. wany jest 1 punkt. Za odpowiedzi nieprawidłowe punkty nie są przyznawane.
Całkowity wynik w teście jest sumą liczby poprawnych odpowiedzi na poszcze- Całkowity wynik w teście jest sumą liczby poprawnych odpowiedzi na poszcze-
gólne zadania testowe. gólne zadania testowe.
Analiza własności pozycji testowych pozwala lepiej zrozumieć własności te- Analiza własności pozycji testowych pozwala lepiej zrozumieć własności te-
stów psychologicznych. Zbadanie charakterystyk pozycji testu jest kluczowe dla stów psychologicznych. Zbadanie charakterystyk pozycji testu jest kluczowe dla
zrozumienia, dlaczego charakteryzuje go określony poziom rzetelności i trafno- zrozumienia, dlaczego charakteryzuje go określony poziom rzetelności i trafno-
ści pomiaru. Współczynnik rzetelności informuje o wpływie błędów pomiaru na ści pomiaru. Współczynnik rzetelności informuje o wpływie błędów pomiaru na
wyniki w teście pomiaru. Współczynniki trafności pomiaru dają informację o do- wyniki w teście pomiaru. Współczynniki trafności pomiaru dają informację o do-
kładności przewidywań budowanych przez psychologów na podstawie wyników kładności przewidywań budowanych przez psychologów na podstawie wyników
testu. Dobrze przeprowadzona analiza własności pozycji testowych może nie tyl- testu. Dobrze przeprowadzona analiza własności pozycji testowych może nie tyl-
ko pomóc zrozumieć, dlaczego test charakteryzuje się niesatysfakcjonującą rze- ko pomóc zrozumieć, dlaczego test charakteryzuje się niesatysfakcjonującą rze-
telnością lub trafnością pomiaru, ale także – wskazać określone środki zaradcze telnością lub trafnością pomiaru, ale także – wskazać określone środki zaradcze
w takiej sytuacji (Murphy i Davidshofer, 2005). w takiej sytuacji (Murphy i Davidshofer, 2005).
Zdarza się, że słaba rzetelność lub trafność pomiaru testem wynika z nie- Zdarza się, że słaba rzetelność lub trafność pomiaru testem wynika z nie-
precyzyjności językowej pozycji testowych lub ze zbyt skomplikowanej formy. precyzyjności językowej pozycji testowych lub ze zbyt skomplikowanej formy.
Poza tym pozornie dobre pozycje testowe mogą mierzyć coś spoza obszaru za- Poza tym pozornie dobre pozycje testowe mogą mierzyć coś spoza obszaru za-
łożonego przez konstruktora testu. Rzetelność i trafność pomiaru testem z reguły łożonego przez konstruktora testu. Rzetelność i trafność pomiaru testem z reguły
poprawia się, gdy wyeliminuje się takie pozycje. Na pierwszy rzut oka może poprawia się, gdy wyeliminuje się takie pozycje. Na pierwszy rzut oka może
wydawać się, że eliminowanie jakichkolwiek pozycji testowych może obniżać wydawać się, że eliminowanie jakichkolwiek pozycji testowych może obniżać
rzetelność pomiaru testem. Wiadomo bowiem, że im dłuższy test, tym pomiar rzetelność pomiaru testem. Wiadomo bowiem, że im dłuższy test, tym pomiar
dokonany za jego pomocą jest bardziej rzetelny. Oczywiście zależność ta doty- 161 dokonany za jego pomocą jest bardziej rzetelny. Oczywiście zależność ta doty- 161

czy jedynie zgodności wewnętrznej. W rzeczywistości, nie ma żadnej sprzecz- czy jedynie zgodności wewnętrznej. W rzeczywistości, nie ma żadnej sprzecz-
ności między zasadą usuwania z testów wadliwych pozycji a troską o maksyma- ności między zasadą usuwania z testów wadliwych pozycji a troską o maksyma-
lizowanie rzetelności pomiaru testem. Teoria rzetelności zakłada, że wszystkie lizowanie rzetelności pomiaru testem. Teoria rzetelności zakłada, że wszystkie
pozycje w teście mierzą tę samą właściwości psychiczną. Analiza pozycji testo- pozycje w teście mierzą tę samą właściwości psychiczną. Analiza pozycji testo-
wych pozwala zidentyfikować pozycje, które nie spełniają tego warunku, za- wych pozwala zidentyfikować pozycje, które nie spełniają tego warunku, za-
tem dzięki ich usunięciu rzetelność pomiaru testem ulega poprawie (Murphy tem dzięki ich usunięciu rzetelność pomiaru testem ulega poprawie (Murphy
i Davidshofer, 2005). i Davidshofer, 2005).
W sensie metodologicznym, pozycja testowa jest to sformalizowany wskaź- W sensie metodologicznym, pozycja testowa jest to sformalizowany wskaź-
nik danej cechy psychicznej, a więc zdanie (twierdzenie lub pytanie) opisujące nik danej cechy psychicznej, a więc zdanie (twierdzenie lub pytanie) opisujące
określone zachowanie (lub zdanie wyzwalające określone zachowanie) oraz ska- określone zachowanie (lub zdanie wyzwalające określone zachowanie) oraz ska-
la rejestrująca to zachowanie (zawierająca określone opcje odpowiedzi o danym la rejestrująca to zachowanie (zawierająca określone opcje odpowiedzi o danym
formacie oraz reguła przekształcania odpowiedzi w wynik liczbowy). formacie oraz reguła przekształcania odpowiedzi w wynik liczbowy).
5.3.1. Trudność pozycji testowych 5.3.1. Trudność pozycji testowych
Trudność pozycji testowej to po prostu stosunek liczby osób, które udzieliły na tę Trudność pozycji testowej to po prostu stosunek liczby osób, które udzieliły na tę
pozycję prawidłowej (zgodnej z kluczem i diagnostycznej) odpowiedzi, do ogółem pozycję prawidłowej (zgodnej z kluczem i diagnostycznej) odpowiedzi, do ogółem
przebadanej liczby osób, czyli jest to proporcja odpowiedzi poprawnych. przebadanej liczby osób, czyli jest to proporcja odpowiedzi poprawnych.
Trudność pozycji testowej jest zazwyczaj wyrażana jako odsetek osób, które Trudność pozycji testowej jest zazwyczaj wyrażana jako odsetek osób, które
znały prawidłową odpowiedź na pytanie. W sposób sformalizowany matema- znały prawidłową odpowiedź na pytanie. W sposób sformalizowany matema-
tycznie można to zapisać jako: tycznie można to zapisać jako:
ni ni
pi = 100% pi = 100%
N N
gdzie: gdzie:
pi – trudność i-tej pozycji testowej; pi – trudność i-tej pozycji testowej;
ni – liczba osób, które odpowiedziały zgodnie z kluczem na i-tę pozycję te- ni – liczba osób, które odpowiedziały zgodnie z kluczem na i-tę pozycję te-
stową; stową;
N – liczba wszystkich osób wypełniających dany test. N – liczba wszystkich osób wypełniających dany test.
Oczywiście wartość wskaźnika trudności pi zawiera się w przedziale od 0 do 1. Oczywiście wartość wskaźnika trudności pi zawiera się w przedziale od 0 do 1.
Należy zwrócić uwagę na sposób interpretacji wskaźnika trudności. Wysoka jego Należy zwrócić uwagę na sposób interpretacji wskaźnika trudności. Wysoka jego
wartość wskazuje na łatwe pytania, a jego niska wartość – na pytania trudne. wartość wskazuje na łatwe pytania, a jego niska wartość – na pytania trudne.
Należy zwrócić uwagę, że o trudności pozycji testowych mówi się w zasa- Należy zwrócić uwagę, że o trudności pozycji testowych mówi się w zasa-
dzie w przypadku testów zdolności czy inteligencji, w których istnieje jedna pra- dzie w przypadku testów zdolności czy inteligencji, w których istnieje jedna pra-
widłowa odpowiedź. W przypadku kwestionariuszy osobowości właściwie nie widłowa odpowiedź. W przypadku kwestionariuszy osobowości właściwie nie
można mówić o trudności w takim sensie, w jakim tu opisano, gdyż nie istnieją można mówić o trudności w takim sensie, w jakim tu opisano, gdyż nie istnieją
w nich odpowiedzi poprawne i niepoprawne. Oczywiście można obliczać wskaź- w nich odpowiedzi poprawne i niepoprawne. Oczywiście można obliczać wskaź-
niki trudności dla kwestionariuszy o dwukategorialnym formacie odpowiedzi, niki trudności dla kwestionariuszy o dwukategorialnym formacie odpowiedzi,
162 przy czym jest to wtedy proporcja osób udzielających odpowiedzi zgodnych 162 przy czym jest to wtedy proporcja osób udzielających odpowiedzi zgodnych

z kluczem. Dla pozycji kwestionariuszowych o wielu kategoriach, odpowiedzi z kluczem. Dla pozycji kwestionariuszowych o wielu kategoriach, odpowiedzi
odpowiednikiem trudności pozycji jest średnia. odpowiednikiem trudności pozycji jest średnia.
Warto też zauważyć, że trudność pozycji (rozumiana jako proporcja, a nie jako Warto też zauważyć, że trudność pozycji (rozumiana jako proporcja, a nie jako
procent) w testach zdolności czy inteligencji równa się średniej wyników tej po- procent) w testach zdolności czy inteligencji równa się średniej wyników tej po-
zycji pod warunkiem, że odpowiedzi poprawnej przypisze się wartość 1, a odpo- zycji pod warunkiem, że odpowiedzi poprawnej przypisze się wartość 1, a odpo-
wiedzi niepoprawnej – 0. wiedzi niepoprawnej – 0.
Jako przykład obliczania trudności pozycji testowych przyjrzyjmy się wyni- Jako przykład obliczania trudności pozycji testowych przyjrzyjmy się wyni-
kom trzech różnych pozycji składających się na pewien test, którym przebadano kom trzech różnych pozycji składających się na pewien test, którym przebadano
30 osób (tabela 5.10.). Dla każdej z pozycji istnieją cztery możliwe odpowiedzi – 30 osób (tabela 5.10.). Dla każdej z pozycji istnieją cztery możliwe odpowiedzi –
A, B, C i D. W przypadku pierwszej pozycji 24 osoby wybrały prawidłową odpo- A, B, C i D. W przypadku pierwszej pozycji 24 osoby wybrały prawidłową odpo-
wiedź C. Dzielimy zatem 24 (liczba prawidłowych odpowiedzi) przez 30 (liczba wiedź C. Dzielimy zatem 24 (liczba prawidłowych odpowiedzi) przez 30 (liczba
przebadanych osób), co daje nam 0,8=80%. Jest to wynik wysoki, świadczący przebadanych osób), co daje nam 0,8=80%. Jest to wynik wysoki, świadczący
o tym, że pytanie jest łatwe. Zastosowanie tej samej procedury wobec drugiego o tym, że pytanie jest łatwe. Zastosowanie tej samej procedury wobec drugiego
pytania daje nam 12/30=0,4, co pozwala stwierdzić, że pozycję tę charakteryzu- pytania daje nam 12/30=0,4, co pozwala stwierdzić, że pozycję tę charakteryzu-
je przeciętny poziom trudności. Z kolei pytanie trzecie, na które odpowiedziało je przeciętny poziom trudności. Z kolei pytanie trzecie, na które odpowiedziało
prawidłowo tylko 5 spośród przebadanych 30 osób, ma niską wartość wskaźnika prawidłowo tylko 5 spośród przebadanych 30 osób, ma niską wartość wskaźnika
trudności (około 0,17), czyli okazało się trudne. trudności (około 0,17), czyli okazało się trudne.
Tabela 5.10. Rozkład odpowiedzi na trzy pytania fikcyjnego testu Tabela 5.10. Rozkład odpowiedzi na trzy pytania fikcyjnego testu
Odpowiedź Odpowiedź
Pytanie Pytanie
A B C D A B C D
#1 0 3 24* 3 #1 0 3 24* 3
#2 12* 13 3 2 #2 12* 13 3 2
#3 5 5* 17 3 #3 5 5* 17 3
*gwiazdką oznaczono prawidłowe odpowiedzi *gwiazdką oznaczono prawidłowe odpowiedzi
W powyższym przykładzie, a także w przypadku każdego innego testu wskaź- W powyższym przykładzie, a także w przypadku każdego innego testu wskaź-
niki trudności zależne są od poziomu mierzonej cechy charakterystycznego dla niki trudności zależne są od poziomu mierzonej cechy charakterystycznego dla
zbadanej próby. Innymi słowy, to samo zadanie może być bardzo trudne w jednej zbadanej próby. Innymi słowy, to samo zadanie może być bardzo trudne w jednej
grupie badanych i jednocześnie bardzo łatwe w innej grupie badanych. Zależność grupie badanych i jednocześnie bardzo łatwe w innej grupie badanych. Zależność
tę dość łatwo sobie uświadomić na przykładzie zmian rozwojowych wyników te- tę dość łatwo sobie uświadomić na przykładzie zmian rozwojowych wyników te-
stów zdolności czy inteligencji. To samo zdanie (np. matematyczne), które może stów zdolności czy inteligencji. To samo zdanie (np. matematyczne), które może
stanowić dość poważny problem np. dla 10-latków (a więc wskaźnik trudności stanowić dość poważny problem np. dla 10-latków (a więc wskaźnik trudności
jest bardzo niski – niewiele osób potrafi rozwiązać zadanie) może jednocześnie jest bardzo niski – niewiele osób potrafi rozwiązać zadanie) może jednocześnie
być bardzo łatwe dla osób dorosłych (bardzo dużo lub niemal wszyscy rozwiązu- być bardzo łatwe dla osób dorosłych (bardzo dużo lub niemal wszyscy rozwiązu-
ją zadanie prawidłowo – wskaźnik trudności wysoki). ją zadanie prawidłowo – wskaźnik trudności wysoki).
Najlepiej różnicującymi pytaniami są pytania o przeciętnym stopniu trudności, Najlepiej różnicującymi pytaniami są pytania o przeciętnym stopniu trudności,
czyli takie, na które prawidłowo odpowiada około 50% badanych. Są to jedno- czyli takie, na które prawidłowo odpowiada około 50% badanych. Są to jedno-
cześnie pozycje o największej wariancji (Magnusson, 1991). Tego typu pozycje cześnie pozycje o największej wariancji (Magnusson, 1991). Tego typu pozycje
pozwalają na dokonanie największej liczby porównań między osobami w próbie. pozwalają na dokonanie największej liczby porównań między osobami w próbie.
Test powinien więc składać się z pozycji testowych o największych wariancjach 163 Test powinien więc składać się z pozycji testowych o największych wariancjach 163

i jednocześnie przeciętnych trudnościach. Inne rozwiązanie to takie, w którym i jednocześnie przeciętnych trudnościach. Inne rozwiązanie to takie, w którym
test zawiera pozycje testowe o zróżnicowanym poziomie trudności, jednak śred- test zawiera pozycje testowe o zróżnicowanym poziomie trudności, jednak śred-
nia ich trudność powinna wynosić około 50%. Układa je się zwykle w teście nia ich trudność powinna wynosić około 50%. Układa je się zwykle w teście
w kolejności od najłatwiejszego do najtrudniejszego. w kolejności od najłatwiejszego do najtrudniejszego.
Aby zilustrować związek trudności pozycji testowych i ich wariancji, można Aby zilustrować związek trudności pozycji testowych i ich wariancji, można
posłużyć się uproszczonym wzorem na wariancję pozycji testowych: posłużyć się uproszczonym wzorem na wariancję pozycji testowych:
2
Si = pi qi 2
Si = pi qi
gdzie: gdzie:
Si
2
– wariancja i-tej pozycji testowej; 2
Si – wariancja i-tej pozycji testowej;
pi – trudność i-tej pozycji testowej; pi – trudność i-tej pozycji testowej;
qi = 1 − pi . qi = 1 − pi .
Inaczej wariancję pozycji testowej można przedstawić jako funkcję jej trud- Inaczej wariancję pozycji testowej można przedstawić jako funkcję jej trud-
ności: ności:
2
Si = pi (1 − pi ) 2
Si = pi (1 − pi )
Korzystając z ostatniego wzoru, można przedstawić na wykresie zależność Korzystając z ostatniego wzoru, można przedstawić na wykresie zależność
między trudnością pozycji testowej a jej wariancją. Zależność tę ilustruje wy- między trudnością pozycji testowej a jej wariancją. Zależność tę ilustruje wy-
kres 5.1. kres 5.1.
Wykres 5.1. Zależność między trudnością pozycji testowej a wariancją jej wyników Wykres 5.1. Zależność między trudnością pozycji testowej a wariancją jej wyników
Wykres 5.1. wskazuje, że wraz ze spadkiem trudności pozycji testowych Wykres 5.1. wskazuje, że wraz ze spadkiem trudności pozycji testowych
(a więc wzrostem wskaźnika trudności) dość szybko wzrasta wariancja pozycji (a więc wzrostem wskaźnika trudności) dość szybko wzrasta wariancja pozycji
testowych, ale tylko do pewnego momentu. Między wartościami 0,4–0,5 wskaź- testowych, ale tylko do pewnego momentu. Między wartościami 0,4–0,5 wskaź-
nika trudności przyrosty wariancji są już bardzo niewielkie. Od wartości 0,5 nika trudności przyrosty wariancji są już bardzo niewielkie. Od wartości 0,5
zaczyna się stopniowy spadek wariancji pozycji testowych. Początkowo spadki zaczyna się stopniowy spadek wariancji pozycji testowych. Początkowo spadki
wariancji nie są duże, ale od wartości około 0,6 przybierają na znaczeniu. wariancji nie są duże, ale od wartości około 0,6 przybierają na znaczeniu.
164 164

5.3.2. Moc dyskryminacyjna pozycji testowych 5.3.2. Moc dyskryminacyjna pozycji testowych

Podstawowym celem stosowania testów psychologicznych jest uzyskanie in- Podstawowym celem stosowania testów psychologicznych jest uzyskanie in-
formacji o różnicach indywidualnych w zakresie mierzonej zmiennej, którą jest formacji o różnicach indywidualnych w zakresie mierzonej zmiennej, którą jest
najczęściej nieobserwowalny konstrukt lub kryterium zewnętrzne, które chcemy najczęściej nieobserwowalny konstrukt lub kryterium zewnętrzne, które chcemy
przewidywać na podstawie wyników. Z tego powodu test powinien składać się przewidywać na podstawie wyników. Z tego powodu test powinien składać się
z pozycji różnicujących osoby o niskim poziomie mierzonej cechy od osób o wy- z pozycji różnicujących osoby o niskim poziomie mierzonej cechy od osób o wy-
sokim poziomie mierzonej cechy (Hornowska, 2001). Innymi słowy, osoby o ni- sokim poziomie mierzonej cechy (Hornowska, 2001). Innymi słowy, osoby o ni-
skim poziomie mierzonej cechy rzadziej odpowiadają dobrze czy diagnostycz- skim poziomie mierzonej cechy rzadziej odpowiadają dobrze czy diagnostycz-
nie na daną pozycję testową, zaś osoby o wysokim poziomie mierzonej cechy nie na daną pozycję testową, zaś osoby o wysokim poziomie mierzonej cechy
– częściej udzielają takich odpowiedzi. Na przykład: osoby o wyższym poziomie – częściej udzielają takich odpowiedzi. Na przykład: osoby o wyższym poziomie
zdolności matematycznych częściej są w stanie prawidłowo rozwiązać pewne zdolności matematycznych częściej są w stanie prawidłowo rozwiązać pewne
zadanie matematyczne, np. układ dwóch równań z dwiema niewiadomymi, niż zadanie matematyczne, np. układ dwóch równań z dwiema niewiadomymi, niż
osoby o niższym poziomie tych zdolności. osoby o niższym poziomie tych zdolności.
Wskaźnikiem jakości pozycji testowych informującym o tym, w jakim stopniu dana Wskaźnikiem jakości pozycji testowych informującym o tym, w jakim stopniu dana
pozycja różnicuje daną populację, ze względu na mierzoną cechę jest moc dyskrymi- pozycja różnicuje daną populację, ze względu na mierzoną cechę jest moc dyskrymi-
nacyjna (Hornowska, 2001). nacyjna (Hornowska, 2001).
Najczęściej w czasie tworzenia testu, jego autorzy nie mają dostępu do żadnej Najczęściej w czasie tworzenia testu, jego autorzy nie mają dostępu do żadnej
innej miary badanej zmiennej (czyli w powyższym przypadku – zdolności mate- innej miary badanej zmiennej (czyli w powyższym przypadku – zdolności mate-
matycznych) poza samym wynikiem w tymże teście. W konsekwencji, właśnie matycznych) poza samym wynikiem w tymże teście. W konsekwencji, właśnie
ten wynik najczęściej traktujemy jak informację o natężeniu interesującej zmien- ten wynik najczęściej traktujemy jak informację o natężeniu interesującej zmien-
nej u badanego, a współczynniki mocy dyskryminacyjnej oparte są na tym wyni- nej u badanego, a współczynniki mocy dyskryminacyjnej oparte są na tym wyni-
ku. W sensie operacyjnym moc dyskryminacyjna jest to po prostu korelacja linio- ku. W sensie operacyjnym moc dyskryminacyjna jest to po prostu korelacja linio-
wa między pozycją a skalą. Wyniki poszczególnych pozycji mogą być dodatnio wa między pozycją a skalą. Wyniki poszczególnych pozycji mogą być dodatnio
lub ujemnie skorelowane z wynikiem ogólnym testu. W efekcie możemy mieć do lub ujemnie skorelowane z wynikiem ogólnym testu. W efekcie możemy mieć do
czynienia odpowiednio z dwojakiego rodzaju pozycjami – o dodatniej i ujemnej czynienia odpowiednio z dwojakiego rodzaju pozycjami – o dodatniej i ujemnej
mocy dyskryminacyjnej. Pozycje testowe o dodatniej mocy dyskryminacyjnej to mocy dyskryminacyjnej. Pozycje testowe o dodatniej mocy dyskryminacyjnej to
takie, które są częściej poprawnie (diagnostycznie) rozwiązywane przez osoby takie, które są częściej poprawnie (diagnostycznie) rozwiązywane przez osoby
badane o wysokich wynikach ogólnych. Pozycje te zatem różnicują badanych badane o wysokich wynikach ogólnych. Pozycje te zatem różnicują badanych
w zgodzie z innymi pozycjami testu. Jeśli pozycja z naszego przykładu miałaby w zgodzie z innymi pozycjami testu. Jeśli pozycja z naszego przykładu miałaby
dodatnią moc dyskryminacyjną, to częściej rozwiązywaliby ją poprawnie „dobrzy dodatnią moc dyskryminacyjną, to częściej rozwiązywaliby ją poprawnie „dobrzy
matematycy”, czyli działałaby tak, jak byśmy sobie tego życzyli. Z kolei pozycje matematycy”, czyli działałaby tak, jak byśmy sobie tego życzyli. Z kolei pozycje
o ujemnej mocy dyskryminacyjnej są częściej rozwiązywane przez osoby bada- o ujemnej mocy dyskryminacyjnej są częściej rozwiązywane przez osoby bada-
ne o niskich ogólnych wynikach w teście, a więc różnicuje te osoby przeciwnie ne o niskich ogólnych wynikach w teście, a więc różnicuje te osoby przeciwnie
niż inne pozycje testu. W naszym przypadku oznaczałoby, że wspomniany układ niż inne pozycje testu. W naszym przypadku oznaczałoby, że wspomniany układ
równań częściej niż „dobrzy matematycy” rozwiązują poprawnie osoby „mate- równań częściej niż „dobrzy matematycy” rozwiązują poprawnie osoby „mate-
matycznie słabsze”, co z naszej perspektywy jest pozbawione sensu i należałoby matycznie słabsze”, co z naszej perspektywy jest pozbawione sensu i należałoby
się takiego pytania testowego po prostu pozbyć. się takiego pytania testowego po prostu pozbyć.
Dodatkowo zakłada się, że moce dyskryminacyjne powinny być nie tylko Dodatkowo zakłada się, że moce dyskryminacyjne powinny być nie tylko
dodatnie, ale także odpowiednio wysokie. Zwyczajowo przyjmuje się, że moc 165 dodatnie, ale także odpowiednio wysokie. Zwyczajowo przyjmuje się, że moc 165

dyskryminacyjna powinna przekraczać wartość 0,20, aby uzasadnione było włą- dyskryminacyjna powinna przekraczać wartość 0,20, aby uzasadnione było włą-
czenie pozycji do skali. Można powiedzieć, że ostateczna wersja testu powinna czenie pozycji do skali. Można powiedzieć, że ostateczna wersja testu powinna
zawierać te pozycje, które zwiększają wariancję testowania, a więc o dodatniej, zawierać te pozycje, które zwiększają wariancję testowania, a więc o dodatniej,
wysokiej mocy dyskryminacyjnej (Hornowska, 2001). wysokiej mocy dyskryminacyjnej (Hornowska, 2001).
Wysokie moce dyskryminacyjne wszystkich pozycji w teście oznaczają, że Wysokie moce dyskryminacyjne wszystkich pozycji w teście oznaczają, że
pozycje te są dość silnie ze sobą skorelowane. Jeśli więc w teście znajduje się pozycje te są dość silnie ze sobą skorelowane. Jeśli więc w teście znajduje się
dużo pozycji o wysokich mocach dyskryminacyjnych to test cechuje się wysoką dużo pozycji o wysokich mocach dyskryminacyjnych to test cechuje się wysoką
zgodnością wewnętrzną (por. rozdział 5.1.4.). Bowiem wysoka zgodność we- zgodnością wewnętrzną (por. rozdział 5.1.4.). Bowiem wysoka zgodność we-
wnętrzna to nic innego jak wysoki stopień skorelowania poszczególnych pozycji wnętrzna to nic innego jak wysoki stopień skorelowania poszczególnych pozycji
testowych. testowych.
Istnieje kilkadziesiąt różnych współczynników mocy dyskryminacyjnej. Istnieje kilkadziesiąt różnych współczynników mocy dyskryminacyjnej.
Najczęściej stosuje się współczynniki korelacji biseryjnej, współczynnik kore- Najczęściej stosuje się współczynniki korelacji biseryjnej, współczynnik kore-
lacji punktowo-dwuseryjnej i współczynnik korelacji punktowo-czteropolowej. lacji punktowo-dwuseryjnej i współczynnik korelacji punktowo-czteropolowej.
Nie będą one jednak szczegółowo opisywane od strony matematycz- Nie będą one jednak szczegółowo opisywane od strony matematycz-
nej. Zainteresowany Czytelnik znajdzie dokładne ich omówienie pracach nej. Zainteresowany Czytelnik znajdzie dokładne ich omówienie pracach
Brzezińskiego (1999), Hornowskiej (2001) czy Fergusona i Takane (1999). Brzezińskiego (1999), Hornowskiej (2001) czy Fergusona i Takane (1999).
Najbardziej rozpowszechnionym obecnie i najczęściej używanym wskaźni- Najbardziej rozpowszechnionym obecnie i najczęściej używanym wskaźni-
kiem mocy dyskryminacyjnej jest tzw. skorygowany współczynnik korelacji po- kiem mocy dyskryminacyjnej jest tzw. skorygowany współczynnik korelacji po-
zycja – skala. Korekta polega na tym, że wyłącza się interesującą nas w danym zycja – skala. Korekta polega na tym, że wyłącza się interesującą nas w danym
momencie pozycję z wyniku ogólnego dla skali. Tak więc dla danej pozycji te- momencie pozycję z wyniku ogólnego dla skali. Tak więc dla danej pozycji te-
stowej oblicza się korelację między tą pozycją oraz wynikiem testu pomniejszo- stowej oblicza się korelację między tą pozycją oraz wynikiem testu pomniejszo-
nym o tę pozycję. Innymi słowy, obliczając wynik testu sumuje się odpowiedzi nym o tę pozycję. Innymi słowy, obliczając wynik testu sumuje się odpowiedzi
na pozycje testowe z wyłączeniem odpowiedzi na tę pozycję, dla której oblicza na pozycje testowe z wyłączeniem odpowiedzi na tę pozycję, dla której oblicza
się moc dyskryminacyjną. Dzięki takiemu zabiegowi można ocenić, jak bardzo się moc dyskryminacyjną. Dzięki takiemu zabiegowi można ocenić, jak bardzo
konkretna pozycja powiązana jest z pozostałymi pozycjami. Co więcej, wynik konkretna pozycja powiązana jest z pozostałymi pozycjami. Co więcej, wynik
ogólny testu nie jest „zafałszowany” przez udział pozycji testowej, dla której ogólny testu nie jest „zafałszowany” przez udział pozycji testowej, dla której
obliczana jest moc dyskryminacyjna. Sposób obliczania tego typu wskaźników obliczana jest moc dyskryminacyjna. Sposób obliczania tego typu wskaźników
mocy dyskryminacyjnej nie będzie szczegółowo opisywany, a jedynie w dalszej mocy dyskryminacyjnej nie będzie szczegółowo opisywany, a jedynie w dalszej
części niniejszego rozdziału zostanie przedstawione wykorzystanie komputera części niniejszego rozdziału zostanie przedstawione wykorzystanie komputera
w tym celu. w tym celu.
Ograniczymy się do zaprezentowania najprostszego wskaźnika mocy dyskry- Ograniczymy się do zaprezentowania najprostszego wskaźnika mocy dyskry-
minacyjnej, jakim jest tzw. wskaźnik dyskryminacji, który można stosować tylko minacyjnej, jakim jest tzw. wskaźnik dyskryminacji, który można stosować tylko
w wypadku pozycji dwukategorialnych. Zostanie on omówiony nieco dokładniej w wypadku pozycji dwukategorialnych. Zostanie on omówiony nieco dokładniej
ze względu na dość dużą prostotę jego obliczania, która powinna ułatwić lepsze ze względu na dość dużą prostotę jego obliczania, która powinna ułatwić lepsze
zrozumienie istoty mocy dyskryminacyjnej. zrozumienie istoty mocy dyskryminacyjnej.
W celu obliczenia wskaźnika dyskryminacji, należy podzielić wszystkich ba- W celu obliczenia wskaźnika dyskryminacji, należy podzielić wszystkich ba-
danych na dwie grupy ze względu na ogólny wynik testowy. Wyodrębnia się danych na dwie grupy ze względu na ogólny wynik testowy. Wyodrębnia się
więc osoby o wynikach wysokich (górna część) oraz osoby o wynikach niskich więc osoby o wynikach wysokich (górna część) oraz osoby o wynikach niskich
(dolna część). Punktem podziału może być np. mediana. W takiej sytuacji uzyska (dolna część). Punktem podziału może być np. mediana. W takiej sytuacji uzyska
się dwie połowy badanej grupy. Można także zastosować bardziej ostre kryte- się dwie połowy badanej grupy. Można także zastosować bardziej ostre kryte-
ria wyodrębniania tych grup np. 25% osób o najniższych wynikach i 25% osób ria wyodrębniania tych grup np. 25% osób o najniższych wynikach i 25% osób
166 o najwyższych wynikach (Hornowska, 2001). 166 o najwyższych wynikach (Hornowska, 2001).

W dalszej kolejności dla danej pozycji testowej oblicza się osobno w każdej W dalszej kolejności dla danej pozycji testowej oblicza się osobno w każdej
z wyróżnionych części liczbę osób, które udzieliły odpowiedzi zgodnej z klu- z wyróżnionych części liczbę osób, które udzieliły odpowiedzi zgodnej z klu-
czem. Następnie dzieli się liczbę osób odpowiadających zgodnie z kluczem na czem. Następnie dzieli się liczbę osób odpowiadających zgodnie z kluczem na
daną pozycję testową, w górnej części, przez liczbę wszystkich osób w tej części. daną pozycję testową, w górnej części, przez liczbę wszystkich osób w tej części.
W ten sposób uzyskuje się proporcję odpowiedzi zgodnych z kluczem w górnej W ten sposób uzyskuje się proporcję odpowiedzi zgodnych z kluczem w górnej
części. Podobnie, dzieląc liczbę odpowiadających zgodnie z kluczem na daną po- części. Podobnie, dzieląc liczbę odpowiadających zgodnie z kluczem na daną po-
zycję testową w dolnej części przez liczbę wszystkich osób w tej części, uzyskuje zycję testową w dolnej części przez liczbę wszystkich osób w tej części, uzyskuje
się proporcję odpowiedzi zgodnych z kluczem w dolnej części. Teraz pozostaje się proporcję odpowiedzi zgodnych z kluczem w dolnej części. Teraz pozostaje
tylko skorzystać z prostego wzoru umożliwiającego obliczenie wskaźnika dys- tylko skorzystać z prostego wzoru umożliwiającego obliczenie wskaźnika dys-
kryminacji: kryminacji:
D = pu − pl D = pu − pl
gdzie: gdzie:
D – wskaźnik dyskryminacji; D – wskaźnik dyskryminacji;
pu – proporcja odpowiedzi zgodnych z kluczem w górnej części; pu – proporcja odpowiedzi zgodnych z kluczem w górnej części;
pl – proporcja odpowiedzi zgodnych z kluczem w dolnej części. pl – proporcja odpowiedzi zgodnych z kluczem w dolnej części.
Jak już wspomniano, wartość dodatnia wskaźnika dyskryminacji wskazuje, Jak już wspomniano, wartość dodatnia wskaźnika dyskryminacji wskazuje,
że dana pozycja testowa dobrze różnicuje badanych. Ze wzoru tego widać, że że dana pozycja testowa dobrze różnicuje badanych. Ze wzoru tego widać, że
wskaźnik D przybiera wartość dodatnią tylko wtedy, gdy pu>pl. Jest to zrozumia- wskaźnik D przybiera wartość dodatnią tylko wtedy, gdy pu>pl. Jest to zrozumia-
łe, jeśli weźmie się pod uwagę, że oczekujemy, iż w górnej części znajdzie się łe, jeśli weźmie się pod uwagę, że oczekujemy, iż w górnej części znajdzie się
więcej osób odpowiadających zgodnie z kluczem niż w części dolnej. Jeśli na- więcej osób odpowiadających zgodnie z kluczem niż w części dolnej. Jeśli na-
tomiast D miałoby wartość ujemną, to oznaczałoby, że w dolnej części znajduje tomiast D miałoby wartość ujemną, to oznaczałoby, że w dolnej części znajduje
się więcej osób odpowiadających zgodnie z kluczem niż w części górnej. Takiej się więcej osób odpowiadających zgodnie z kluczem niż w części górnej. Takiej
sytuacji chcemy jednak uniknąć. Taką pozycję należy wyeliminować lub zmody- sytuacji chcemy jednak uniknąć. Taką pozycję należy wyeliminować lub zmody-
fikować (np. przez odwrócenie klucza) w taki sposób, aby wskaźnik dyskrymina- fikować (np. przez odwrócenie klucza) w taki sposób, aby wskaźnik dyskrymina-
cji obliczony na podstawie kolejnego badania z zastosowaniem zmodyfikowanej cji obliczony na podstawie kolejnego badania z zastosowaniem zmodyfikowanej
pozycji, był dodatni pozycji, był dodatni
Prześledźmy prosty przykład wyliczania mocy dyskryminacyjnej przy wyko- Prześledźmy prosty przykład wyliczania mocy dyskryminacyjnej przy wyko-
rzystaniu miary D. Obliczenia zostaną wykonane na podstawie porównań dwóch rzystaniu miary D. Obliczenia zostaną wykonane na podstawie porównań dwóch
grup wyróżnionych ze względu na medianę. Tabela 5.11. zawiera wyniki ogólne grup wyróżnionych ze względu na medianę. Tabela 5.11. zawiera wyniki ogólne
10 studentów w pewnym teście oraz informacje o ich odpowiedziach na trzy 10 studentów w pewnym teście oraz informacje o ich odpowiedziach na trzy
przykładowe pytania tego testu. W kolumnach odpowiadających poszczególnym przykładowe pytania tego testu. W kolumnach odpowiadających poszczególnym
pytaniom cyfra 1 oznacza, że badany udzielił odpowiedzi zgodnej z kluczem, pytaniom cyfra 1 oznacza, że badany udzielił odpowiedzi zgodnej z kluczem,
a 0 – niezgodnej. a 0 – niezgodnej.
167 167

Tabela 5.11. Wyniki fikcyjnego badania grupy studentów pewnym testem Tabela 5.11. Wyniki fikcyjnego badania grupy studentów pewnym testem
Pytanie Pytanie
Student Wynik ogólny Student Wynik ogólny
#1 #2 #3 #1 #2 #3
Jan 90 1 0 1 Jan 90 1 0 1
Krzysztof 90 1 0 1 Krzysztof 90 1 0 1
Joanna 80 0 0 1 Joanna 80 0 0 1
Wojtek 80 1 0 1 Wojtek 80 1 0 1
Jacek 70 1 0 1 Jacek 70 1 0 1
Piotr 60 1 0 0 Piotr 60 1 0 0
Julia 60 1 0 1 Julia 60 1 0 1
Agata 50 1 1 0 Agata 50 1 1 0
Matylda 50 1 1 0 Matylda 50 1 1 0
Mateusz 40 0 1 0 Mateusz 40 0 1 0
Proponowana procedura obliczania mocy dyskryminacyjnej przedstawia się Proponowana procedura obliczania mocy dyskryminacyjnej przedstawia się
następująco: następująco:
1. W pierwszej kolejności należy podzielić osoby badane na dwie grupy: osoby 1. W pierwszej kolejności należy podzielić osoby badane na dwie grupy: osoby
o wysokich wynikach i osoby o niskich wynikach. W naszym przykładzie o wysokich wynikach i osoby o niskich wynikach. W naszym przykładzie
podziału takiego dokonamy na podstawie mediany wyników ogólnych testu. podziału takiego dokonamy na podstawie mediany wyników ogólnych testu.
W tym celu wystarczy podzielić badanych na dwie równe połowy po uszere- W tym celu wystarczy podzielić badanych na dwie równe połowy po uszere-
gowaniu wyników studentów od najwyższego do najniższego pod względem gowaniu wyników studentów od najwyższego do najniższego pod względem
wyniku ogólnego (tak jak uczyniono to w tabeli 5.11.). W jednej połowie (tzw. wyniku ogólnego (tak jak uczyniono to w tabeli 5.11.). W jednej połowie (tzw.
górna połowa) znajdą się osoby o wysokich wynikach, a w drugiej (tzw. dolna górna połowa) znajdą się osoby o wysokich wynikach, a w drugiej (tzw. dolna
połowa) – o niskich. W naszym przykładzie do górnej połowy przydzieleni połowa) – o niskich. W naszym przykładzie do górnej połowy przydzieleni
zostali Jan, Krzysztof, Joanna, Wojtek i Jacek, a do dolnej – pozostali. zostali Jan, Krzysztof, Joanna, Wojtek i Jacek, a do dolnej – pozostali.
2. Następnie obliczamy, ilu studentów z wysokimi i ilu z niskimi wynikami wła- 2. Następnie obliczamy, ilu studentów z wysokimi i ilu z niskimi wynikami wła-
ściwie rozwiązało dane zadanie. Np. dla zadania #1 jest to po 4 studentów ściwie rozwiązało dane zadanie. Np. dla zadania #1 jest to po 4 studentów
z obu grup. Dane te zaprezentowano w tabeli 5.12. z obu grup. Dane te zaprezentowano w tabeli 5.12.
3. W każdej połowie obliczamy proporcje osób prawidłowo rozwiązujących 3. W każdej połowie obliczamy proporcje osób prawidłowo rozwiązujących
dane zadanie, czyli wartości pu i pl. Polega to na podzieleniu liczby osób roz- dane zadanie, czyli wartości pu i pl. Polega to na podzieleniu liczby osób roz-
wiązujących prawidłowo dane zadanie przez liczbę wszystkich osób w tej po- wiązujących prawidłowo dane zadanie przez liczbę wszystkich osób w tej po-
łowie. Dla zadania #1 pu = 4/5 = 0,8. łowie. Dla zadania #1 pu = 4/5 = 0,8.
4. Określamy współczynnik mocy dyskryminacyjnej D, odejmując proporcję 4. Określamy współczynnik mocy dyskryminacyjnej D, odejmując proporcję
studentów z niskimi wynikami, którzy rozwiązali zadanie prawidłowo, od studentów z niskimi wynikami, którzy rozwiązali zadanie prawidłowo, od
proporcji studentów z wysokimi wynikami, którzy rozwiązali zadanie prawi- proporcji studentów z wysokimi wynikami, którzy rozwiązali zadanie prawi-
dłowo. Dla zadania #1 oznacza to odjęcie 0,8 od 0,8, co daje współczynnik dłowo. Dla zadania #1 oznacza to odjęcie 0,8 od 0,8, co daje współczynnik
mocy dyskryminacyjnej równy 0. Dla pozostałych zadań Czytelnik zechce mocy dyskryminacyjnej równy 0. Dla pozostałych zadań Czytelnik zechce
sam wyliczyć wartości D i porównać je z już obliczonymi wartościami zapre- sam wyliczyć wartości D i porównać je z już obliczonymi wartościami zapre-
zentowanymi w tabeli 5.12. zentowanymi w tabeli 5.12.
168 168

5. Dodatkowo możemy obliczyć wskaźniki trudności, dzieląc liczbę osób, które 5. Dodatkowo możemy obliczyć wskaźniki trudności, dzieląc liczbę osób, które
rozwiązały zadanie prawidłowo w całej próbie przez liczbę wszystkich bada- rozwiązały zadanie prawidłowo w całej próbie przez liczbę wszystkich bada-
nych. Dla zadania #1 jest to 8/10=0,8 nych. Dla zadania #1 jest to 8/10=0,8
Jak widać z tabeli 5.12. najwyższe moce dyskryminacyjne uzyskujemy dla Jak widać z tabeli 5.12. najwyższe moce dyskryminacyjne uzyskujemy dla
pytań o przeciętnym stopniu trudności. Zagadnienie to opisano już wcześniej. pytań o przeciętnym stopniu trudności. Zagadnienie to opisano już wcześniej.
Tabela 5.12. Trudność i moc dyskryminacyjna hipotetycznych zadań testowych Tabela 5.12. Trudność i moc dyskryminacyjna hipotetycznych zadań testowych
Liczba Liczba Liczba Liczba

poprawnych poprawnych Moc poprawnych poprawnych Moc
Pytanie Trudność Pytanie Trudność
odpowiedzi odpowiedzi dyskryminacyjna odpowiedzi odpowiedzi dyskryminacyjna
(górna połowa) (dolna połowa) (górna połowa) (dolna połowa)
#1 4 4 0,80 0 #1 4 4 0,80 0
#2 0 3 0,30 –0,6 #2 0 3 0,30 –0,6
#3 5 1 0,60 0,8 #3 5 1 0,60 0,8
5.3.3. Własności pozycji testowych a kształt rozkładu wyników testu 5.3.3. Własności pozycji testowych a kształt rozkładu wyników testu
Kształt rozkładu wyników testu, podobnie jak wszystkie inne własności te- Kształt rozkładu wyników testu, podobnie jak wszystkie inne własności te-
stu jako całości, zależy od własności poszczególnych pozycji testowych. stu jako całości, zależy od własności poszczególnych pozycji testowych.
„Modelowym” rozkładem w psychometrii jest rozkład normalny, co wynika „Modelowym” rozkładem w psychometrii jest rozkład normalny, co wynika
z założenia o (teoretycznym) rozkładzie normalnym cech (porównaj rozdział 3). z założenia o (teoretycznym) rozkładzie normalnym cech (porównaj rozdział 3).
Idealny rozkład normalny przedstawiony został na wykresie 5.2. Dąży się zatem Idealny rozkład normalny przedstawiony został na wykresie 5.2. Dąży się zatem
do tego, żeby rozkład empiryczny wyników testowych też był jak najbardziej do tego, żeby rozkład empiryczny wyników testowych też był jak najbardziej
zbliżony do normalnego. Aby to osiągnąć, test powinien być zbudowany z po- zbliżony do normalnego. Aby to osiągnąć, test powinien być zbudowany z po-
zycji o przeciętnych trudnościach i przeciętnie dodatnio ze sobą skorelowanych. zycji o przeciętnych trudnościach i przeciętnie dodatnio ze sobą skorelowanych.
Innym wariantem prowadzącym do tego rozwiązania jest zbudowanie testu z po- Innym wariantem prowadzącym do tego rozwiązania jest zbudowanie testu z po-
zycji o bardzo różnym poziomie trudności (zarówno „łatwych”, „trudnych”, jak zycji o bardzo różnym poziomie trudności (zarówno „łatwych”, „trudnych”, jak
i „przeciętnie trudnych”), które jednocześnie przeciętnie dodatnio są ze sobą sko- i „przeciętnie trudnych”), które jednocześnie przeciętnie dodatnio są ze sobą sko-
relowane. relowane.
Wykres 5.2. Rozkład normalny 169 Wykres 5.2. Rozkład normalny 169

Odstępstwa od tej zasady prowadzą do tego, że otrzymuje się rozkłady wyni- Odstępstwa od tej zasady prowadzą do tego, że otrzymuje się rozkłady wyni-
ków odbiegające kształtem od rozkładu normalnego. Oczywiście w praktyce ba- ków odbiegające kształtem od rozkładu normalnego. Oczywiście w praktyce ba-
dawczej żaden empiryczny rozkład nie ma nigdy kształtu teoretycznego rozkładu dawczej żaden empiryczny rozkład nie ma nigdy kształtu teoretycznego rozkładu
normalnego. Jednak kształt ten może być w różnym stopniu zbliżony do kształtu normalnego. Jednak kształt ten może być w różnym stopniu zbliżony do kształtu
rozkładu normalnego. Skorelowanie pozycji testowych decyduje o stopniu sku- rozkładu normalnego. Skorelowanie pozycji testowych decyduje o stopniu sku-
pienia wyników wokół średniej, czyli tzw. kurtozie rozkładu, zaś średnie pozycje pienia wyników wokół średniej, czyli tzw. kurtozie rozkładu, zaś średnie pozycje
decydują o jego skośności. Przyjmuje się, że wartości kurtozy mieszczące się decydują o jego skośności. Przyjmuje się, że wartości kurtozy mieszczące się
w przedziale od –1 do +1 oraz wartości skośności rozkładu mieszczące się także w przedziale od –1 do +1 oraz wartości skośności rozkładu mieszczące się także
w przedziale od –1 do +1 charakterystyczne są dla rozkładów nieodbiegających w przedziale od –1 do +1 charakterystyczne są dla rozkładów nieodbiegających
w sposób znaczny od rozkładu normalnego. w sposób znaczny od rozkładu normalnego.
Gdy korelacje między poszczególnymi pozycjami są zbyt silne, rozkład wyni- Gdy korelacje między poszczególnymi pozycjami są zbyt silne, rozkład wyni-
ków ulega nadmiernego spłaszczeniu (mówimy, że staje się platokurtyczny), co ków ulega nadmiernego spłaszczeniu (mówimy, że staje się platokurtyczny), co
zaprezentowano na wykresie 5.3. zaprezentowano na wykresie 5.3.
Wykres 5.3. Rozkład platokurtyczny Wykres 5.3. Rozkład platokurtyczny
W przypadkach skrajnie wysokich korelacji rozkład może stać się dwumodal- W przypadkach skrajnie wysokich korelacji rozkład może stać się dwumodal-
ny czy też przyjmować kształt litery „U” (wykres 5.4.). Tę właściwość rozkła- ny czy też przyjmować kształt litery „U” (wykres 5.4.). Tę właściwość rozkła-
du opisuje kurtoza, która w omawianej sytuacji przyjmuje bardzo małe wartości du opisuje kurtoza, która w omawianej sytuacji przyjmuje bardzo małe wartości
i znajduje się poniżej –1. i znajduje się poniżej –1.
170 Wykres 5.4. Rozkład dwumodalny 170 Wykres 5.4. Rozkład dwumodalny

Gdy korelacje pozycji są niskie albo wręcz ujemne, to rozkład wyników za- Gdy korelacje pozycji są niskie albo wręcz ujemne, to rozkład wyników za-
czyna być nadmiernie skoncentrowany wokół średniej (staje się leptokurtyczny), czyna być nadmiernie skoncentrowany wokół średniej (staje się leptokurtyczny),
co przedstawiono na wykresie 5.5. W sytuacji skrajnego braku korelacji pomię- co przedstawiono na wykresie 5.5. W sytuacji skrajnego braku korelacji pomię-
dzy pozycjami testowymi rozkład staje się jednomianowy (wszyscy uczestnicy dzy pozycjami testowymi rozkład staje się jednomianowy (wszyscy uczestnicy
badania uzyskują identyczny wynik). W tej sytuacji wartość kurtozy jest duża, badania uzyskują identyczny wynik). W tej sytuacji wartość kurtozy jest duża,
znacznie przekraczająca 1. znacznie przekraczająca 1.
Wykres 5.5. Rozkład leptokurtyczny Wykres 5.5. Rozkład leptokurtyczny
Jeśli test zawiera zbyt wiele trudnych pytań, czyli trudności wielu pozycji testo- Jeśli test zawiera zbyt wiele trudnych pytań, czyli trudności wielu pozycji testo-
wych są niskie, to otrzymujemy niesymetryczny, prawoskośny rozkład. Rozkład wych są niskie, to otrzymujemy niesymetryczny, prawoskośny rozkład. Rozkład
taki przedstawia wykres 5.6. W tym przypadku stosunkowo mało osób badanych taki przedstawia wykres 5.6. W tym przypadku stosunkowo mało osób badanych
uzyskuje wyniki wysokich, a dość dużo – wyniki niskie. uzyskuje wyniki wysokich, a dość dużo – wyniki niskie.
Wykres 5.6. Rozkład prawoskośny Wykres 5.6. Rozkład prawoskośny
Jeśli zdarzy się sytuacja odwrotna, gdy test zawiera zbyt wiele łatwych pytań, Jeśli zdarzy się sytuacja odwrotna, gdy test zawiera zbyt wiele łatwych pytań,
czyli dużo jest wysokich wyników, a mało – niskich, otrzymujemy niesymetrycz- czyli dużo jest wysokich wyników, a mało – niskich, otrzymujemy niesymetrycz-
ny, lewoskośny rozkład. ny, lewoskośny rozkład.
171 171

Wykres 5.7. Rozkład lewoskośny Wykres 5.7. Rozkład lewoskośny
Wszystkie opisane powyżej anomalie rozkładu wyników powodują, że test Wszystkie opisane powyżej anomalie rozkładu wyników powodują, że test
jako narzędzie pomiarowe nie odzwierciedla badanej cechy na skali. W efekcie jako narzędzie pomiarowe nie odzwierciedla badanej cechy na skali. W efekcie
prowadzi to do braku możliwości różnicowania w określonych obszarach rozkła- prowadzi to do braku możliwości różnicowania w określonych obszarach rozkła-
du cechy: albo zwiększając nadmiernie różnice międzyosobnicze w określonych du cechy: albo zwiększając nadmiernie różnice międzyosobnicze w określonych
obszarach (blisko średniej lub na krańcach), albo wyłącznie w obrębie jednego obszarach (blisko średniej lub na krańcach), albo wyłącznie w obrębie jednego
z krańców. Testy o „zaburzonych” rozkładach mogą mieć co prawda zastoso- z krańców. Testy o „zaburzonych” rozkładach mogą mieć co prawda zastoso-
wanie do specyficznych zadań diagnostycznych, ale w większości przypadków wanie do specyficznych zadań diagnostycznych, ale w większości przypadków
optimum diagnostycznym jest uzyskanie normalnego rozkładu wyników. optimum diagnostycznym jest uzyskanie normalnego rozkładu wyników.
5.3.4. Obliczanie właściwości pozycji testowych i rozkładu wyników 5.3.4. Obliczanie właściwości pozycji testowych i rozkładu wyników
w SPSS w SPSS
5.3.4.1. Obliczanie trudności i mocy dyskryminacyjnych przy użyciu 5.3.4.1. Obliczanie trudności i mocy dyskryminacyjnych przy użyciu
SPSS SPSS
Pakiet statystyczny SPSS, przy okazji szacowania rzetelności pomiaru metodą Pakiet statystyczny SPSS, przy okazji szacowania rzetelności pomiaru metodą
alfy Cronbacha oblicza także skorygowaną korelację pozycja–skala. W niniej- alfy Cronbacha oblicza także skorygowaną korelację pozycja–skala. W niniej-
szym rozdziale opisany zostanie sposób obliczania mocy dyskryminacyjnej na szym rozdziale opisany zostanie sposób obliczania mocy dyskryminacyjnej na
podstawie tego typu wskaźników. W tym celu zostanie wykorzystany przykład podstawie tego typu wskaźników. W tym celu zostanie wykorzystany przykład
opisany w rozdziale 5.1.7.3. Obliczenia zostaną wykonane także na podstawie opisany w rozdziale 5.1.7.3. Obliczenia zostaną wykonane także na podstawie
wykorzystanego w tym rozdziale pliku danych tj. alfa.sav. wykorzystanego w tym rozdziale pliku danych tj. alfa.sav.
W celu obliczenia mocy dyskryminacyjnych, należy postępować tak samo, jak W celu obliczenia mocy dyskryminacyjnych, należy postępować tak samo, jak
wcześniej opisano to w rozdziale 5.1.7.3. z tym, że w oknie „Analiza rzetelno- wcześniej opisano to w rozdziale 5.1.7.3. z tym, że w oknie „Analiza rzetelno-
ści: Statystyki” (rys. 5.10.) należy dodatkowo wybrać opcję „Pozycja testowa”. ści: Statystyki” (rys. 5.10.) należy dodatkowo wybrać opcję „Pozycja testowa”.
Dzięki niej można obliczyć nie tylko moc dyskryminacyjną i alfę Cronbacha, ale Dzięki niej można obliczyć nie tylko moc dyskryminacyjną i alfę Cronbacha, ale
także średnie poszczególnych pozycji. Po kliknięciu „Dalej” i „OK”, pojawią się także średnie poszczególnych pozycji. Po kliknięciu „Dalej” i „OK”, pojawią się
wydruki przeprowadzonej analizy, co przedstawiono na rys. 5.38. wydruki przeprowadzonej analizy, co przedstawiono na rys. 5.38.
172 172

Rysunek 5.38. Okno wyników analizy własności pozycji testowych Rysunek 5.38. Okno wyników analizy własności pozycji testowych
173 173

W tabeli „Statystyki pozycji” przedstawiono średnie i odchylenia standardowe W tabeli „Statystyki pozycji” przedstawiono średnie i odchylenia standardowe
pozycji testu. Gdybyśmy nie mieli do czynienia z kwestionariuszem o wielokate- pozycji testu. Gdybyśmy nie mieli do czynienia z kwestionariuszem o wielokate-
gorialnych odpowiedziach, a z testem inteligencji czy zdolności z jedną prawidło- gorialnych odpowiedziach, a z testem inteligencji czy zdolności z jedną prawidło-
wą odpowiedzią, to średnie byłyby równoważne trudności pozycji testowych. wą odpowiedzią, to średnie byłyby równoważne trudności pozycji testowych.
W tabeli „Statystyki pozycji Ogółem”, w kolumnie „Korelacja pozycji W tabeli „Statystyki pozycji Ogółem”, w kolumnie „Korelacja pozycji
Ogółem”, można odczytać wartości skorygowanych współczynników korelacji Ogółem”, można odczytać wartości skorygowanych współczynników korelacji
pozycja–skala, które są wskaźnikami mocy dyskryminacyjnych. Jak widać jedna pozycja–skala, które są wskaźnikami mocy dyskryminacyjnych. Jak widać jedna
z pozycji (p13) ma ujemną moc dyskryminacyjną i powinna być usunięta z testu. z pozycji (p13) ma ujemną moc dyskryminacyjną i powinna być usunięta z testu.
Oprócz niej niektóre z wartości są stosunkowo niskie i nie przekraczają wartości Oprócz niej niektóre z wartości są stosunkowo niskie i nie przekraczają wartości
0,2. Takimi niskimi mocami dyskryminacyjnymi cechują się pozycje testowe p2, 0,2. Takimi niskimi mocami dyskryminacyjnymi cechują się pozycje testowe p2,
p7, p11, p12, p16 i p19. Te pozycje, podobnie jak pozycja p13, powinny być usu- p7, p11, p12, p16 i p19. Te pozycje, podobnie jak pozycja p13, powinny być usu-
nięte z testu. Łącznie z pozycją p13 daje to siedem pozycji testowych, czyli dość nięte z testu. Łącznie z pozycją p13 daje to siedem pozycji testowych, czyli dość
dużo biorąc pod uwagę, że wszystkich pozycji jest tylko 20. Największą mocą dużo biorąc pod uwagę, że wszystkich pozycji jest tylko 20. Największą mocą
dyskryminacyjną charakteryzuje się natomiast pozycja p6. dyskryminacyjną charakteryzuje się natomiast pozycja p6.
Warto zauważyć, że zgodność wewnętrzna tego kwestionariusza wzrosłaby Warto zauważyć, że zgodność wewnętrzna tego kwestionariusza wzrosłaby
najbardziej, gdyby spośród wymienionych pozycji usunąć p13. Jest to pozycja najbardziej, gdyby spośród wymienionych pozycji usunąć p13. Jest to pozycja
o najmniejszej (ujemnej) mocy dyskryminacyjnej, czyli jest ona najsłabiej sko- o najmniejszej (ujemnej) mocy dyskryminacyjnej, czyli jest ona najsłabiej sko-
relowana z pozostałymi pozycjami. Usunięcie innych pozycji o niskich mocach relowana z pozostałymi pozycjami. Usunięcie innych pozycji o niskich mocach
powinno także podnieść wartość alfy Cronbacha. Można więc zwiększać zgod- powinno także podnieść wartość alfy Cronbacha. Można więc zwiększać zgod-
ność wewnętrzną poprzez eliminowanie kolejnych pozycji o niskich mocach, na- ność wewnętrzną poprzez eliminowanie kolejnych pozycji o niskich mocach, na-
leży jednak pamiętać, aby operację tę przeprowadzać krok po kroku, tzn. usuwać leży jednak pamiętać, aby operację tę przeprowadzać krok po kroku, tzn. usuwać
tylko jedną pozycję za każdym razem, następnie przeprowadzić ponowną analizę tylko jedną pozycję za każdym razem, następnie przeprowadzić ponowną analizę
i znów usunąć pozycję, bez której zgodność skali wzrośnie najbardziej. i znów usunąć pozycję, bez której zgodność skali wzrośnie najbardziej.
5.3.4.2. Obliczanie podstawowych charakterystyk kształtu rozkładu 5.3.4.2. Obliczanie podstawowych charakterystyk kształtu rozkładu
wyników testu przy zastosowaniu SPSS wyników testu przy zastosowaniu SPSS
Przykładowe obliczenia kurtozy oraz skośności rozkładu wyników testu zapre- Przykładowe obliczenia kurtozy oraz skośności rozkładu wyników testu zapre-
zentowane zostaną przy użyciu opisanego w rozdziale 5.2.5.4. pliku porównywa- zentowane zostaną przy użyciu opisanego w rozdziale 5.2.5.4. pliku porównywa-
nie_grup.sav. Interesować nas będzie rozkład wyników testu inteligencji (zmien- nie_grup.sav. Interesować nas będzie rozkład wyników testu inteligencji (zmien-
na o nazwie intel) przeprowadzonego na próbie młodzieży. W celu uzyskania na o nazwie intel) przeprowadzonego na próbie młodzieży. W celu uzyskania
miar skośności oraz kurtozy z głównego menu wybieramy komendę „Analiza”, miar skośności oraz kurtozy z głównego menu wybieramy komendę „Analiza”,
a następnie „Opis statystyczny”, a w jeszcze dalszej kolejności „Statystyki opi- a następnie „Opis statystyczny”, a w jeszcze dalszej kolejności „Statystyki opi-
sowe”. Po wybraniu tego polecenia, na ekranie monitora zobaczymy okno przed- sowe”. Po wybraniu tego polecenia, na ekranie monitora zobaczymy okno przed-
stawione na rys. 5.39. stawione na rys. 5.39.
174 174

Rysunek 5.39. Okno „Statystyki opisowe” Rysunek 5.39. Okno „Statystyki opisowe”
W celu wybrania zmiennych do analizy, należy dwukrotne kliknąć ich nazwy W celu wybrania zmiennych do analizy, należy dwukrotne kliknąć ich nazwy
(w naszym przypadku intel) na liście znajdującej się po lewej stronie okna lub (w naszym przypadku intel) na liście znajdującej się po lewej stronie okna lub
zaznaczyć żądane zmienne, a następnie kliknąć strzałkę znajdującą się po środku zaznaczyć żądane zmienne, a następnie kliknąć strzałkę znajdującą się po środku
okna. Po wykonaniu tej czynności w prawej części okna, nazwanej „Zmienne”, okna. Po wykonaniu tej czynności w prawej części okna, nazwanej „Zmienne”,
znajdą się zmienne, dla których chcemy obliczyć statystyki opisowe. znajdą się zmienne, dla których chcemy obliczyć statystyki opisowe.
Po wciśnięciu przycisku „Opcje” na ekranie ukaże się okno przedstawione na Po wciśnięciu przycisku „Opcje” na ekranie ukaże się okno przedstawione na
rys. 5.40. Umożliwia ono określenie, jakie dokładnie charakterystyki rozkładu rys. 5.40. Umożliwia ono określenie, jakie dokładnie charakterystyki rozkładu
mają być obliczone. Standardowo ustawione jest obliczanie średniej, odchylenia mają być obliczone. Standardowo ustawione jest obliczanie średniej, odchylenia
standardowego oraz najmniejszej i największej wartości. Możliwe jest także obli- standardowego oraz najmniejszej i największej wartości. Możliwe jest także obli-
czenie sumy wszystkich wartości, rozstępu, wariancji i błędu standardowego śred- czenie sumy wszystkich wartości, rozstępu, wariancji i błędu standardowego śred-
niej. Nas oczywiście najbardziej będzie interesować obliczenie kurtozy i skośności. niej. Nas oczywiście najbardziej będzie interesować obliczenie kurtozy i skośności.
Zaznaczamy więc kwadraciki znajdujące się przy tych właściwościach rozkładu. Zaznaczamy więc kwadraciki znajdujące się przy tych właściwościach rozkładu.
Rysunek 5.40. Okno wyboru opcji statystyk opisowych 175 Rysunek 5.40. Okno wyboru opcji statystyk opisowych 175

Po zaznaczeniu żądanych wartości do obliczenia i wciśnięciu przycisku Po zaznaczeniu żądanych wartości do obliczenia i wciśnięciu przycisku
„Dalej”, powrócimy do poprzedniego okna. Teraz wciśnięcie przycisku „OK”. „Dalej”, powrócimy do poprzedniego okna. Teraz wciśnięcie przycisku „OK”.
spowoduje otwarcie okna z interesującymi nas obliczeniami, co zaprezentowano spowoduje otwarcie okna z interesującymi nas obliczeniami, co zaprezentowano
na rys. 5.41. na rys. 5.41.
Rysunek 5.41. Okno arkusza wyników statystyk opisowych rozkładu Rysunek 5.41. Okno arkusza wyników statystyk opisowych rozkładu
Jak widać z wyników, skośność ma wartość –0,114±0,254, a kurtoza Jak widać z wyników, skośność ma wartość –0,114±0,254, a kurtoza
–0,083±0,503. Obie te wartości mieszczą się w przedziale <–1;1>, a więc rozkład –0,083±0,503. Obie te wartości mieszczą się w przedziale <–1;1>, a więc rozkład
wyników testu inteligencji nie odbiega zasadniczo od rozkładu normalnego. wyników testu inteligencji nie odbiega zasadniczo od rozkładu normalnego.
5.3.5. Forma pozycji testowych 5.3.5. Forma pozycji testowych

W dobrym teście psychologicznym pozycje testowe muszą być przede wszyst- W dobrym teście psychologicznym pozycje testowe muszą być przede wszyst-
kim zrozumiałe dla osób badanych. Koniecznym, aczkolwiek niewystarczającym kim zrozumiałe dla osób badanych. Koniecznym, aczkolwiek niewystarczającym
warunkiem, który musi być spełniony, żeby pozycja testowa dobrze pełniła swoją warunkiem, który musi być spełniony, żeby pozycja testowa dobrze pełniła swoją
funkcję jest jej odpowiednia forma językowa, czyli złożoność gramatyczna, dłu- funkcję jest jej odpowiednia forma językowa, czyli złożoność gramatyczna, dłu-
gość czy też użyte słownictwo itp. gość czy też użyte słownictwo itp.
Wykazano (por. Zawadzki, 2006), że pozycje bardziej skomplikowane języ- Wykazano (por. Zawadzki, 2006), że pozycje bardziej skomplikowane języ-
kowo mają słabsze charakterystyki psychometryczne. Na przykład w kwestio- kowo mają słabsze charakterystyki psychometryczne. Na przykład w kwestio-
nariuszu FCZ-KT długość pozycji koreluje ujemnie z mocą dyskryminacyjną nariuszu FCZ-KT długość pozycji koreluje ujemnie z mocą dyskryminacyjną
(r = –0,23). Oznacza to, że im dłuższa pozycja testowa, tym niższa moc dyskry- (r = –0,23). Oznacza to, że im dłuższa pozycja testowa, tym niższa moc dyskry-
minacyjna. Wynika stąd, że pytania czy stwierdzenia w kwestionariuszach nie minacyjna. Wynika stąd, że pytania czy stwierdzenia w kwestionariuszach nie
powinny być zbyt długie. powinny być zbyt długie.
Ponadto zbytnia złożoność gramatyczna nie jest również pożądana w przy- Ponadto zbytnia złożoność gramatyczna nie jest również pożądana w przy-
padku pozycji testowych. W testach należy unikać nadużywania strony biernej, padku pozycji testowych. W testach należy unikać nadużywania strony biernej,
wielokrotnie złożonych zdań, stosowania podwójnych przeczeń czy zbędnych wielokrotnie złożonych zdań, stosowania podwójnych przeczeń czy zbędnych
negacji. Również skomplikowane konstrukcje gramatyczne (takie jak na przy- negacji. Również skomplikowane konstrukcje gramatyczne (takie jak na przy-
kład ojciec brata) utrudniają odczytanie sensu pytania i powodują brak spójności kład ojciec brata) utrudniają odczytanie sensu pytania i powodują brak spójności
w odpowiedziach u różnych badanych. Wymienione złożone konstrukcje grama- w odpowiedziach u różnych badanych. Wymienione złożone konstrukcje grama-
tyczne (np. podwójne negacje) obniżają moc dyskryminacyjną pozycji kwestio- tyczne (np. podwójne negacje) obniżają moc dyskryminacyjną pozycji kwestio-
nariusza (Zawadzki, 2006). nariusza (Zawadzki, 2006).
Stosowany w kwestionariuszach język powinien być możliwie prosty. Należy Stosowany w kwestionariuszach język powinien być możliwie prosty. Należy
bezwzględnie unikać pokusy stosowania języka naukowego czy pseudonauko- bezwzględnie unikać pokusy stosowania języka naukowego czy pseudonauko-
wego, a także rzadko używanych słów. wego, a także rzadko używanych słów.
Ogólność pozycji testowych ma zasadnicze znaczenie dla odnoszenia pozycji Ogólność pozycji testowych ma zasadnicze znaczenie dla odnoszenia pozycji
176 do własnego doświadczenia. Pozycje zbyt ogólne zwiększają zmienność interin- 176 do własnego doświadczenia. Pozycje zbyt ogólne zwiększają zmienność interin-

dywidualną i intraindywidualną w odnoszeniu treści pozycji do własnego do- dywidualną i intraindywidualną w odnoszeniu treści pozycji do własnego do-
świadczenia (Zawadzki, 2006). Innymi słowy, pytania czy stwierdzenia bardzo świadczenia (Zawadzki, 2006). Innymi słowy, pytania czy stwierdzenia bardzo
ogólne powodują, że badani, udzielając odpowiedzi, uwzględniają tylko infor- ogólne powodują, że badani, udzielając odpowiedzi, uwzględniają tylko infor-
macje fragmentaryczne lub odnoszące się wyłącznie do wybranej dowolnie przez macje fragmentaryczne lub odnoszące się wyłącznie do wybranej dowolnie przez
siebie kategorii sytuacji czy czasu nieobejmującej wszystkich znaczeń zawar- siebie kategorii sytuacji czy czasu nieobejmującej wszystkich znaczeń zawar-
tych w ogólnie sformułowanej pozycji testowej. Aby tego uniknąć, należy pytać tych w ogólnie sformułowanej pozycji testowej. Aby tego uniknąć, należy pytać
o zachowania dostępne w doświadczeniu możliwie szerokiej grupie badanych o zachowania dostępne w doświadczeniu możliwie szerokiej grupie badanych
oraz zrezygnować z przesadnych uogólnień i pojęć abstrakcyjnych (Zawadzki, oraz zrezygnować z przesadnych uogólnień i pojęć abstrakcyjnych (Zawadzki,
2006). 2006).
Trzeba pamiętać, że wraz ze wzrostem złożoności pozycji wydłuża się czas od- Trzeba pamiętać, że wraz ze wzrostem złożoności pozycji wydłuża się czas od-
powiedzi i zwiększa liczba błędów. Ma to oczywiście znaczenie jedynie w przy- powiedzi i zwiększa liczba błędów. Ma to oczywiście znaczenie jedynie w przy-
padku kwestionariuszy, gdyż w przypadku testów zdolności (przede wszystkim padku kwestionariuszy, gdyż w przypadku testów zdolności (przede wszystkim
werbalnych), psycholog może celowo zastosować tego typu zadania w celu po- werbalnych), psycholog może celowo zastosować tego typu zadania w celu po-
miaru poziomu zdolności werbalnych. miaru poziomu zdolności werbalnych.

1. Co to jest trudność pozycji testowej? 1. Co to jest trudność pozycji testowej?
2. Jak interpretuje się wskaźnik trudności p? 2. Jak interpretuje się wskaźnik trudności p?
3. Jaka jest optymalna, z punktu widzenia psychometrycznego, wartość współ- 3. Jaka jest optymalna, z punktu widzenia psychometrycznego, wartość współ-
czynnika trudności pozycji testowej? Czy zawsze testy powinny składać się czynnika trudności pozycji testowej? Czy zawsze testy powinny składać się
wyłącznie z pozycji o optymalnej trudności? Odpowiedź uzasadnij. wyłącznie z pozycji o optymalnej trudności? Odpowiedź uzasadnij.
4. Jaka zależność zachodzi między mocą dyskryminacyjną pozycji testowej 4. Jaka zależność zachodzi między mocą dyskryminacyjną pozycji testowej
a jej trudnością? a jej trudnością?
5. Proszę wybrać dowolny aspekt inteligencji psychometrycznej i opracować 5 5. Proszę wybrać dowolny aspekt inteligencji psychometrycznej i opracować 5
przykładowych pozycji testowych go mierzących. przykładowych pozycji testowych go mierzących.
6. Co to jest moc dyskryminacyjna pozycji testowej? 6. Co to jest moc dyskryminacyjna pozycji testowej?
7. Dlaczego na podstawie mocy dyskryminacyjnej eliminuje się niektóre pozy- 7. Dlaczego na podstawie mocy dyskryminacyjnej eliminuje się niektóre pozy-
cje testowe? cje testowe?
8. Czy moc dyskryminacyjna pozycji testowych powiązana jest z rzetelnością 8. Czy moc dyskryminacyjna pozycji testowych powiązana jest z rzetelnością
pomiaru testem? Odpowiedź uzasadnij. pomiaru testem? Odpowiedź uzasadnij.
9. Jaką moc dyskryminacyjną ma zadanie poprawnie rozwiązywane przez 9. Jaką moc dyskryminacyjną ma zadanie poprawnie rozwiązywane przez
wszystkich badanych? wszystkich badanych?
10. Omów związek trudności, wariancji i mocy dyskryminacyjnej pozycji testo- 10. Omów związek trudności, wariancji i mocy dyskryminacyjnej pozycji testo-
wych. wych.
Zadania Zadania
1. Pięć osób wypełniło pewien test składający się z czterech zadań. Uzyskane 1. Pięć osób wypełniło pewien test składający się z czterech zadań. Uzyskane
wyniki znajdują się w tabeli. wyniki znajdują się w tabeli.
177 177

Pozycje testowe Pozycje testowe

Osoby badane Osoby badane
1 2 3 4 1 2 3 4
1 1 0 0 0 1 1 0 0 0
2 0 1 1 1 2 0 1 1 1
3 1 1 1 1 3 1 1 1 1
4 0 0 0 0 4 0 0 0 0
5 0 0 1 1 5 0 0 1 1
Na podstawie wyników zebranych w tabeli oblicz: Na podstawie wyników zebranych w tabeli oblicz:
a) trudność poszczególnych pozycji testowych; a) trudność poszczególnych pozycji testowych;
b) wariacnje poszczególnych pozycji testowych; b) wariacnje poszczególnych pozycji testowych;
c) posługując się wskaźnikiem dyskryminacji D, która z pozycji testowych c) posługując się wskaźnikiem dyskryminacji D, która z pozycji testowych
cechuje się najwyższą mocą dyskryminacyjną. Do obliczenia wskaźnika D cechuje się najwyższą mocą dyskryminacyjną. Do obliczenia wskaźnika D
skonstruuj tak grupy osób o wysokich i niskich wynikach, aby były one rów- skonstruuj tak grupy osób o wysokich i niskich wynikach, aby były one rów-
noliczne. noliczne.
2. Osiem osób uzyskało w teście składającym się z sześciu zadań wyniki przed- 2. Osiem osób uzyskało w teście składającym się z sześciu zadań wyniki przed-
stawione w tabeli. stawione w tabeli.
Osoby Pozycje testowe Osoby Pozycje testowe

badane 1 2 3 4 5 6 badane 1 2 3 4 5 6
A 1 1 1 1 1 1 A 1 1 1 1 1 1
B 1 0 1 1 0 1 B 1 0 1 1 0 1
C 1 1 1 1 0 0 C 1 1 1 1 0 0
D 1 0 1 1 0 1 D 1 0 1 1 0 1
E 1 0 1 1 0 0 E 1 0 1 1 0 0
F 1 1 0 0 1 0 F 1 1 0 0 1 0
G 0 1 0 0 0 1 G 0 1 0 0 0 1
H 0 1 0 0 0 0 H 0 1 0 0 0 0
Na podstawie tych wyników oraz odpowiednich obliczeń odpowiedz na nastę- Na podstawie tych wyników oraz odpowiednich obliczeń odpowiedz na nastę-
pujące pytania: pujące pytania:
a) Czy pozycja testowa nr 2 ma ujemną moc dyskryminacyjną? a) Czy pozycja testowa nr 2 ma ujemną moc dyskryminacyjną?
b) Czy pozycja testowa nr 3 jest trudniejsza niż pozycja testowa nr 6? b) Czy pozycja testowa nr 3 jest trudniejsza niż pozycja testowa nr 6?
c) Ile wynosi trudność zadania 5? c) Ile wynosi trudność zadania 5?
d) Ile wynosi moc dyskryminacyjna pozycji testowej nr 1? d) Ile wynosi moc dyskryminacyjna pozycji testowej nr 1?
e) Ile wynosi moc dyskryminacyjna pozycji testowej nr 3? e) Ile wynosi moc dyskryminacyjna pozycji testowej nr 3?
f) Czy z dwu pozycji testowych o numerach 3 i 4 jedno można by bez szkody f) Czy z dwu pozycji testowych o numerach 3 i 4 jedno można by bez szkody
dla testu usunąć? (F) dla testu usunąć? (F)
178 178


1. 1.
a) a)
0,4 0,4 0,6 0,6 0,4 0,4 0,6 0,6
b) b)
0,24 0,24 0,24 0,24 0,24 0,24 0,24 0,24
c) c)
0 1 0,5 0,5 0 1 0,5 0,5
2. 2.
a) tak a) tak
b) nie b) nie
c) 6/8 c) 6/8
d) 0,5 d) 0,5
e) 0,75 e) 0,75
f) nie f) nie
179 179

6. Jakich informacji o osobie badanej 6. Jakich informacji o osobie badanej
dostarcza testowanie? dostarcza testowanie?

6.1. Błędy standardowe i przedziały ufności1 6.1. Błędy standardowe i przedziały ufności1

Wynik prawdziwy to hipotetyczna wartość opisująca rzeczywiste nasilenie Wynik prawdziwy to hipotetyczna wartość opisująca rzeczywiste nasilenie
mierzonej cechy. Ze względu na ograniczoną dokładność narzędzi pomiarowych mierzonej cechy. Ze względu na ograniczoną dokładność narzędzi pomiarowych
nie można precyzyjnie określić tego wyniku. W praktyce wykorzystuje się więc nie można precyzyjnie określić tego wyniku. W praktyce wykorzystuje się więc
jego estymatory, czyli wartości przybliżone. Wynik w teście, a więc tzw. wynik jego estymatory, czyli wartości przybliżone. Wynik w teście, a więc tzw. wynik
otrzymany, jest pewnego rodzaju estymatorem wyniku prawdziwego. Jego do- otrzymany, jest pewnego rodzaju estymatorem wyniku prawdziwego. Jego do-
kładność jest raczej mała, co oznacza, że czasem wynik otrzymany może leżeć kładność jest raczej mała, co oznacza, że czasem wynik otrzymany może leżeć
trochę powyżej wyniku prawdziwego, a czasem trochę poniżej. Tak więc w sy- trochę powyżej wyniku prawdziwego, a czasem trochę poniżej. Tak więc w sy-
tuacji diagnozy nigdy nie ma pewności, po której stronie i w jakiej odległości od tuacji diagnozy nigdy nie ma pewności, po której stronie i w jakiej odległości od
konkretnego wyniku otrzymanego znajduje się wynik prawdziwy. Oczywiście konkretnego wyniku otrzymanego znajduje się wynik prawdziwy. Oczywiście
teoretycznie możliwe jest, że w określonym pomiarze wynik prawdziwy bę- teoretycznie możliwe jest, że w określonym pomiarze wynik prawdziwy bę-
dzie dokładnie równy wynikowi otrzymanemu, ale jest to bardzo mało prawdo dzie dokładnie równy wynikowi otrzymanemu, ale jest to bardzo mało prawdo
podobne. podobne.
Powyższe uwagi mają bardzo ważne implikacje praktyczne. Załóżmy, że w re- Powyższe uwagi mają bardzo ważne implikacje praktyczne. Załóżmy, że w re-
alnej diagnozie poziomu inteligencji osoba badana uzyskała wynik typowy na tle alnej diagnozie poziomu inteligencji osoba badana uzyskała wynik typowy na tle
mężczyzn w wieku 23 lat. Wynik typowy oznacza, że jest to wynik najbardziej mężczyzn w wieku 23 lat. Wynik typowy oznacza, że jest to wynik najbardziej
powszechny w tej grupie osób, czyli równy średniej. Zatem chcielibyśmy powie- powszechny w tej grupie osób, czyli równy średniej. Zatem chcielibyśmy powie-
dzieć, że jest to osoba o całkowicie typowym poziomie inteligencji. Jednak praw- dzieć, że jest to osoba o całkowicie typowym poziomie inteligencji. Jednak praw-
dopodobieństwo tego, że jest to wniosek prawdziwy jest bardzo małe. Wynik dopodobieństwo tego, że jest to wniosek prawdziwy jest bardzo małe. Wynik
otrzymany równy średniej wyników otrzymanych nie musi oznaczać, że wynik otrzymany równy średniej wyników otrzymanych nie musi oznaczać, że wynik
prawdziwy osoby też byłby równy średniej wyników prawdziwych w tej grupie. prawdziwy osoby też byłby równy średniej wyników prawdziwych w tej grupie.
Ze względu na losowy błąd pomiaru, mogłoby się więc okazać, że rzeczywi- Ze względu na losowy błąd pomiaru, mogłoby się więc okazać, że rzeczywi-
ste nasilenie poziomu inteligencji jest nieco powyżej lub nieco poniżej nasilenia ste nasilenie poziomu inteligencji jest nieco powyżej lub nieco poniżej nasilenia
typowego dla 23-letnich mężczyzn. Błąd pomiaru zatem sprawia, że diagnosta typowego dla 23-letnich mężczyzn. Błąd pomiaru zatem sprawia, że diagnosta
właściwie nigdy nie może być całkowicie pewien wniosków formułowanych na właściwie nigdy nie może być całkowicie pewien wniosków formułowanych na
podstawie wyników badań testowych. podstawie wyników badań testowych.
Aby nieco zwiększyć prawdopodobieństwo wnioskowania i nadać diagnozie Aby nieco zwiększyć prawdopodobieństwo wnioskowania i nadać diagnozie
testowej jakąkolwiek użyteczność, wyznacza się tzw. przedział ufności. Jest to testowej jakąkolwiek użyteczność, wyznacza się tzw. przedział ufności. Jest to
przedział symetryczny względem wyniku testowego i pełni on funkcję estymato- przedział symetryczny względem wyniku testowego i pełni on funkcję estymato-
ra przedziałowego. Na jego podstawie można ze znanym i akceptowalnym praw- ra przedziałowego. Na jego podstawie można ze znanym i akceptowalnym praw-
dopodobieństwem zlokalizować położenie wyniku prawdziwego osoby, a więc dopodobieństwem zlokalizować położenie wyniku prawdziwego osoby, a więc
podać przybliżone nasilenie badanej cechy. Wadą przedziału ufności jest jego podać przybliżone nasilenie badanej cechy. Wadą przedziału ufności jest jego
1 1
180 UW w 2008 roku. 180 UW w 2008 roku.

6. Jakich informacji o osobie badanej dostarcza testowanie? 6. Jakich informacji o osobie badanej dostarcza testowanie?
stosunkowo duży zakres. Posługując się taką właśnie metodą diagnosta jest ska- stosunkowo duży zakres. Posługując się taką właśnie metodą diagnosta jest ska-
zany na formułowanie wniosków przedziałowych, np. poziom inteligencji osoby zany na formułowanie wniosków przedziałowych, np. poziom inteligencji osoby
jest typowy lub nieco powyżej typowego dla 23-letnich mężczyzn. Chociaż dla jest typowy lub nieco powyżej typowego dla 23-letnich mężczyzn. Chociaż dla
osób badanych ten brak precyzji może się okazać zaskakujący, to jednak przy osób badanych ten brak precyzji może się okazać zaskakujący, to jednak przy
obecnym stanie wiedzy psychometria nie oferuje technik bardziej dokładnych. obecnym stanie wiedzy psychometria nie oferuje technik bardziej dokładnych.
W tym rozdziale zostaną omówione dwa najczęściej stosowane sposoby esty- W tym rozdziale zostaną omówione dwa najczęściej stosowane sposoby esty-
macji przedziałowej wyniku prawdziwego, czyli dwa rodzaje przedziałów ufno- macji przedziałowej wyniku prawdziwego, czyli dwa rodzaje przedziałów ufno-
ści – przedział dla wyniku otrzymanego i przedział dla estymowanego wyniku ści – przedział dla wyniku otrzymanego i przedział dla estymowanego wyniku
prawdziwego. Każdy z nich jest konstruowany na bazie nieco inaczej definiowa- prawdziwego. Każdy z nich jest konstruowany na bazie nieco inaczej definiowa-
nego błędu standardowego. Ponadto zaprezentowana zostanie bardzo użyteczna nego błędu standardowego. Ponadto zaprezentowana zostanie bardzo użyteczna
metoda porównywania dwóch wyników testowych przy użyciu przedziału ufno- metoda porównywania dwóch wyników testowych przy użyciu przedziału ufno-
ści dla różnicy między wynikami otrzymanymi. ści dla różnicy między wynikami otrzymanymi.
6.1.1. Standardowy błąd pomiaru 6.1.1. Standardowy błąd pomiaru

Błąd standardowy to określenie szeroko używane w statystyce do oznaczania Błąd standardowy to określenie szeroko używane w statystyce do oznaczania
odchylenia standardowego w rozkładzie dowolnej statystyki. Znaczenie tego po- odchylenia standardowego w rozkładzie dowolnej statystyki. Znaczenie tego po-
jęcia można sobie łatwo wyobrazić na podstawie doświadczenia myślowego. Jeśli jęcia można sobie łatwo wyobrazić na podstawie doświadczenia myślowego. Jeśli
z populacji losować będziemy kolejno próbki o takiej samej liczebności i w każ- z populacji losować będziemy kolejno próbki o takiej samej liczebności i w każ-
dej z nich będziemy wyznaczać średnią arytmetyczną jakiejś zmiennej (np. eks- dej z nich będziemy wyznaczać średnią arytmetyczną jakiejś zmiennej (np. eks-
trawersji), to uzyskamy wiele średnich tworzących pewien rozkład. Najczęściej trawersji), to uzyskamy wiele średnich tworzących pewien rozkład. Najczęściej
średnie w losowanych próbkach będą zbliżone do średniej populacyjnej. Efekt średnie w losowanych próbkach będą zbliżone do średniej populacyjnej. Efekt
ten będzie najlepiej widoczny, gdy z populacji wylosujemy bardzo dużo próbek. ten będzie najlepiej widoczny, gdy z populacji wylosujemy bardzo dużo próbek.
Jeśli będzie ich nieskończenie wiele, powstanie rozkład średniej o kształcie nor- Jeśli będzie ich nieskończenie wiele, powstanie rozkład średniej o kształcie nor-
malnym. Odchylenie standardowe tego rozkładu to standardowy błąd średniej. malnym. Odchylenie standardowe tego rozkładu to standardowy błąd średniej.
Błąd standardowy informuje więc o przeciętnej odległości wartości estymatorów Błąd standardowy informuje więc o przeciętnej odległości wartości estymatorów
(np. średnich w losowanych próbkach) od wartości parametru (np. średniej w po- (np. średnich w losowanych próbkach) od wartości parametru (np. średniej w po-
pulacji). Im większy błąd standardowy, tym dalej od średniej populacyjnej może pulacji). Im większy błąd standardowy, tym dalej od średniej populacyjnej może
być zlokalizowana średnia w próbce wylosowanej z tej populacji. być zlokalizowana średnia w próbce wylosowanej z tej populacji.
Podobnie można rozumieć standardowy błąd pomiaru. Jest to przeciętna Podobnie można rozumieć standardowy błąd pomiaru. Jest to przeciętna
odległość wszystkich potencjalnych wyników otrzymanych przez jedną osobę odległość wszystkich potencjalnych wyników otrzymanych przez jedną osobę
od charakteryzującego tę osobę wyniku prawdziwego. Wynik otrzymany jest tu od charakteryzującego tę osobę wyniku prawdziwego. Wynik otrzymany jest tu
rozumiany jako estymator (wartość przybliżona) wyniku prawdziwego. Im więk- rozumiany jako estymator (wartość przybliżona) wyniku prawdziwego. Im więk-
szy standardowy błąd pomiaru tym dalej od wyniku prawdziwego może leżeć szy standardowy błąd pomiaru tym dalej od wyniku prawdziwego może leżeć
wynik otrzymany przez osobę. wynik otrzymany przez osobę.
Standardowy błąd pomiaru jest wielkością teoretyczną, a więc w praktyce Standardowy błąd pomiaru jest wielkością teoretyczną, a więc w praktyce
posługiwać się będziemy jego estymatorem, czyli wartością przybliżoną. Jego posługiwać się będziemy jego estymatorem, czyli wartością przybliżoną. Jego
wzór zapisany jest w równaniu 6.1. Stosowane tu oznaczenie (sE) sugeruje, że jest wzór zapisany jest w równaniu 6.1. Stosowane tu oznaczenie (sE) sugeruje, że jest
to odchylenie standardowe w rozkładzie błędów, a nie wyników otrzymanych. to odchylenie standardowe w rozkładzie błędów, a nie wyników otrzymanych.
Jednak rozkład wszystkich potencjalnych wyników otrzymanych przez jedną Jednak rozkład wszystkich potencjalnych wyników otrzymanych przez jedną
osobę i charakteryzujący ją rozkład błędów mają taki sam kształt, a więc mają osobę i charakteryzujący ją rozkład błędów mają taki sam kształt, a więc mają
one też takie same odchylenia standardowe. Wyjaśnienie tego zagadnienia i wy- 181 one też takie same odchylenia standardowe. Wyjaśnienie tego zagadnienia i wy- 181

prowadzenie wzoru można znaleźć w rozdziale opisującym założenia klasycznej prowadzenie wzoru można znaleźć w rozdziale opisującym założenia klasycznej
teorii testów (rozdział 4.). teorii testów (rozdział 4.).
Błąd pomiaru (E) – różnica między wynikiem otrzymanym a wynikiem prawdzi- Błąd pomiaru (E) – różnica między wynikiem otrzymanym a wynikiem prawdzi-
wym. wym.
Standardowy błąd pomiaru (sE lub SEM) to przeciętna odległość, w jakiej leżą wy- Standardowy błąd pomiaru (sE lub SEM) to przeciętna odległość, w jakiej leżą wy-
niki otrzymane od wyniku prawdziwego charakteryzującego osobę. Jest to odchylenie niki otrzymane od wyniku prawdziwego charakteryzującego osobę. Jest to odchylenie
standardowe w rozkładzie wszystkich możliwych dla osoby wyników otrzymanych standardowe w rozkładzie wszystkich możliwych dla osoby wyników otrzymanych
lub w rozkładzie błędów pomiaru. lub w rozkładzie błędów pomiaru.
sE = s X 1 − rtt (6.1) sE = s X 1 − rtt (6.1)
Standardowy błąd pomiaru charakteryzuje test, a nie osobę. Wynika to z za- Standardowy błąd pomiaru charakteryzuje test, a nie osobę. Wynika to z za-
łożeń klasycznej teorii Gulliksena. Oznacza to, że przy opisie różnych osób bę- łożeń klasycznej teorii Gulliksena. Oznacza to, że przy opisie różnych osób bę-
dziemy wykorzystywali ten sam standardowy błąd pomiaru, pod warunkiem, że dziemy wykorzystywali ten sam standardowy błąd pomiaru, pod warunkiem, że
pomiarów dokonamy tym samym testem. W praktyce jednak, jeśli te osoby będą pomiarów dokonamy tym samym testem. W praktyce jednak, jeśli te osoby będą
reprezentowały różne populacje – np. mężczyzna i kobieta, to ze względu na reprezentowały różne populacje – np. mężczyzna i kobieta, to ze względu na
możliwą różnicę w wariancji cechy w tych populacjach test może mieć nieco możliwą różnicę w wariancji cechy w tych populacjach test może mieć nieco
inną wartość estymatora standardowego błędu pomiaru w każdej z nich. inną wartość estymatora standardowego błędu pomiaru w każdej z nich.
Test, który charakteryzuje się małym standardowym błędem pomiaru, to test Test, który charakteryzuje się małym standardowym błędem pomiaru, to test
dobry. Jest to związane z jego rzetelnością. Ogólnie mówiąc, mniejszy standar- dobry. Jest to związane z jego rzetelnością. Ogólnie mówiąc, mniejszy standar-
dowy błąd pomiaru zwykle oznacza także większą rzetelność narzędzia. Tak więc dowy błąd pomiaru zwykle oznacza także większą rzetelność narzędzia. Tak więc
im lepsze narzędzie, tym bardziej wyniki otrzymane przy jego użyciu będą zbli- im lepsze narzędzie, tym bardziej wyniki otrzymane przy jego użyciu będą zbli-
żone do wyników prawdziwych. żone do wyników prawdziwych.
6.1.2. Przedział ufności dla wyniku otrzymanego 6.1.2. Przedział ufności dla wyniku otrzymanego
Podstawowym, praktycznym przeznaczeniem standardowych błędów jest Podstawowym, praktycznym przeznaczeniem standardowych błędów jest
konstrukcja przedziałów ufności. W szczególności na podstawie standardowego konstrukcja przedziałów ufności. W szczególności na podstawie standardowego
błędu pomiaru buduje się przedziały ufności dla wyników otrzymanych. błędu pomiaru buduje się przedziały ufności dla wyników otrzymanych.
Ogólnie w statystyce przedział ufności jest zwykle symetryczny względem es- Ogólnie w statystyce przedział ufności jest zwykle symetryczny względem es-
tymatora jakiejś wartości teoretycznej. Uznajemy, że ta wartość teoretyczna (pa- tymatora jakiejś wartości teoretycznej. Uznajemy, że ta wartość teoretyczna (pa-
rametr) z określonym wysokim prawdopodobieństwem znajduje się w granicach rametr) z określonym wysokim prawdopodobieństwem znajduje się w granicach
przedziału ufności. Przedział ufności jest więc formą estymacji parametrów, czyli przedziału ufności. Przedział ufności jest więc formą estymacji parametrów, czyli
wyznaczania ich przybliżonej wartości. Taką formą estymacji posługują się sta- wyznaczania ich przybliżonej wartości. Taką formą estymacji posługują się sta-
tystycy chcąc oszacować np. średnie spożycie cukru przez wszystkich Polaków tystycy chcąc oszacować np. średnie spożycie cukru przez wszystkich Polaków
(jest to wartość parametru) na podstawie średniego spożycia cukru przez małą (jest to wartość parametru) na podstawie średniego spożycia cukru przez małą
próbę Polaków (jest to wartość estymatora). Również taką samą formą estymacji próbę Polaków (jest to wartość estymatora). Również taką samą formą estymacji
posługują się psychometrzy chcąc oszacować wynik prawdziwy opisujący osobę posługują się psychometrzy chcąc oszacować wynik prawdziwy opisujący osobę
(wartość parametru) na podstawie pojedynczego wyniku otrzymanego (wartość (wartość parametru) na podstawie pojedynczego wyniku otrzymanego (wartość
182 estymatora). 182 estymatora).

Zanim przejdę do opisu praktycznego sposobu wyznaczania przedziału ufno- Zanim przejdę do opisu praktycznego sposobu wyznaczania przedziału ufno-
ści, chciałbym opisać teoretyczne podłoże tego rodzaju estymacji. Punktem wyj- ści, chciałbym opisać teoretyczne podłoże tego rodzaju estymacji. Punktem wyj-
ścia powinien tu być teoretyczny rozkład potencjalnych wyników otrzymanych ścia powinien tu być teoretyczny rozkład potencjalnych wyników otrzymanych
dla pojedynczej osoby. Może on powstać tylko w sytuacji hipotetycznej, gdy jed- dla pojedynczej osoby. Może on powstać tylko w sytuacji hipotetycznej, gdy jed-
ną osobę badamy tym samym testem nieskończenie wiele razy. Należy tu przy- ną osobę badamy tym samym testem nieskończenie wiele razy. Należy tu przy-
jąć, że pomiary przebiegają w sposób niezależny, tzn. że osoba ta się nie uczy jąć, że pomiary przebiegają w sposób niezależny, tzn. że osoba ta się nie uczy
rozwiązywania zadań, nie męczy i nie nudzi kolejnymi badaniami. Każde nie- rozwiązywania zadań, nie męczy i nie nudzi kolejnymi badaniami. Każde nie-
zależne badanie traktuje się tak, jakby było wykonane po raz pierwszy. Rozkład zależne badanie traktuje się tak, jakby było wykonane po raz pierwszy. Rozkład
taki przedstawiony jest na rys. 6.1. taki przedstawiony jest na rys. 6.1.
Rysunek 6.1. Rozkład wszystkich potencjalnych wyników otrzymanych dla jednej osoby Rysunek 6.1. Rozkład wszystkich potencjalnych wyników otrzymanych dla jednej osoby
i ilustracja pojęcia przedziału ufności i ilustracja pojęcia przedziału ufności
Pojedyncza osoba o charakteryzującym ją wyniku prawdziwym T może w hi- Pojedyncza osoba o charakteryzującym ją wyniku prawdziwym T może w hi-
potetycznych kolejnych badaniach tym samym testem uzyskiwać różne wyniki potetycznych kolejnych badaniach tym samym testem uzyskiwać różne wyniki
otrzymane, bo w ten sposób ujawniają się losowe błędy pomiaru. W konsekwen- otrzymane, bo w ten sposób ujawniają się losowe błędy pomiaru. W konsekwen-
cji rozkład takich wyników otrzymanych ma niezerową wariancję. Najczęściej cji rozkład takich wyników otrzymanych ma niezerową wariancję. Najczęściej
jednak wyniki otrzymane tej osoby ulokowane byłyby w bezpośredniej blisko- jednak wyniki otrzymane tej osoby ulokowane byłyby w bezpośredniej blisko-
ści jej wyniku prawdziwego, tzn. tam, gdzie na rys. 6.1. linia wykresu przebega ści jej wyniku prawdziwego, tzn. tam, gdzie na rys. 6.1. linia wykresu przebega
najwyżej. Przyjmując, że rozkład z rys. 6.1. jest normalny można wyznaczyć najwyżej. Przyjmując, że rozkład z rys. 6.1. jest normalny można wyznaczyć
hipotetyczny przedział symetryczny względem średniej (czyli względem wyniku hipotetyczny przedział symetryczny względem średniej (czyli względem wyniku
prawdziwego), obejmujący określony procent potencjalnie możliwych do uzy- prawdziwego), obejmujący określony procent potencjalnie możliwych do uzy-
skania przez tę osobę wyników (przedział zaznaczony linią ciągłą w górnej części skania przez tę osobę wyników (przedział zaznaczony linią ciągłą w górnej części
rysunku). Granice takiego przedziału byłyby oddalone od wyniku prawdziwego rysunku). Granice takiego przedziału byłyby oddalone od wyniku prawdziwego
o zα·SEM, bo rys. 6.1. przedstawia rozkład wyników otrzymanych osoby i jego o zα·SEM, bo rys. 6.1. przedstawia rozkład wyników otrzymanych osoby i jego
odchylenie standardowe to standardowy błąd pomiaru. Symbol zα oznacza wy- 183 odchylenie standardowe to standardowy błąd pomiaru. Symbol zα oznacza wy- 183

standaryzowaną wartość, która jest powiązana z proporcją wyników obejmowa- standaryzowaną wartość, która jest powiązana z proporcją wyników obejmowa-
nych przez ten przedział. Wartość zα można oczytać np. z tablic rozkładu normalnych przez ten przedział. Wartość zα można oczytać np. z tablic rozkładu normal-
nego. Jest to wynik wystandaryzowany, dla którego wartość dystrybuanty wynosi nego. Jest to wynik wystandaryzowany, dla którego wartość dystrybuanty wynosi
dokładnie 1-α/2, gdzie α to omówiony poniżej tzw. poziom istotności. Wartości zα dokładnie 1-α/2, gdzie α to omówiony poniżej tzw. poziom istotności. Wartości zα
dla najczęściej stosowanych poziomów istotności podane są w tabeli 6.1. dla najczęściej stosowanych poziomów istotności podane są w tabeli 6.1.
Tab. 6.1. Najczęściej stosowane w psychometrii wystandaryzowane granice przedziałów Tab. 6.1. Najczęściej stosowane w psychometrii wystandaryzowane granice przedziałów
ufności zα. ufności zα.
α 1- α zα α 1- α zα
0,01 0,99 2,58 0,01 0,99 2,58
0,05 0,95 1,96 0,05 0,95 1,96
0,10 0,90 1,64 0,10 0,90 1,64
0,15 0,85 1,44 0,15 0,85 1,44
Przedział zaznaczony w górnej części rys. 6.1. linią ciągłą obejmuje znaczny Przedział zaznaczony w górnej części rys. 6.1. linią ciągłą obejmuje znaczny
procent wyników, które potencjalnie może otrzymać osoba. Zatem ze znacznym procent wyników, które potencjalnie może otrzymać osoba. Zatem ze znacznym
prawdopodobieństwem (ale zawsze mniejszym od 1) każdy wynik, który otrzy- prawdopodobieństwem (ale zawsze mniejszym od 1) każdy wynik, który otrzy-
małaby ta osoba znajdzie się w omawianym przedziale. Jeśli więc przedział sy- małaby ta osoba znajdzie się w omawianym przedziale. Jeśli więc przedział sy-
metryczny względem T ze znacznym prawdopodobieństwem będzie obejmował metryczny względem T ze znacznym prawdopodobieństwem będzie obejmował
każdy możliwy wynik otrzymany X, to jednocześnie tak samo szeroki przedział każdy możliwy wynik otrzymany X, to jednocześnie tak samo szeroki przedział
symetryczny względem dowolnego wyniku X otrzymanego przez tę osobę ze symetryczny względem dowolnego wyniku X otrzymanego przez tę osobę ze
znacznym prawdopodobieństwem będzie obejmował jej wynik prawdziwy T. znacznym prawdopodobieństwem będzie obejmował jej wynik prawdziwy T.
Inaczej mówiąc, jeśli przedział narysowany linią ciągłą obejmuje jakiś wynik Inaczej mówiąc, jeśli przedział narysowany linią ciągłą obejmuje jakiś wynik
X, to tak samo szeroki przedział zbudowany wokół tego wyniku X (narysowany X, to tak samo szeroki przedział zbudowany wokół tego wyniku X (narysowany
linią przerywaną) musi obejmować wynik T. Przedziały zaznaczone w dolnej linią przerywaną) musi obejmować wynik T. Przedziały zaznaczone w dolnej
części rys. 6.1. linią przerywaną to przykładowe przedziały ufności. części rys. 6.1. linią przerywaną to przykładowe przedziały ufności.
PRZYKŁAD 1 PRZYKŁAD 1
Symetryczny względem wyniku prawdziwego T przedział obejmujący 95% poten- Symetryczny względem wyniku prawdziwego T przedział obejmujący 95% poten-
cjalnie możliwych do uzyskania przez osobę wyników (a więc prawie wszystkie cjalnie możliwych do uzyskania przez osobę wyników (a więc prawie wszystkie
możliwe) miałby granice ulokowane w odległości 1,96 odchylenia standardowego możliwe) miałby granice ulokowane w odległości 1,96 odchylenia standardowego
od wyniku prawdziwego (bo z0,05=1,96). Z racji tego, że rozkład na rys. 6.1. jest roz- od wyniku prawdziwego (bo z0,05=1,96). Z racji tego, że rozkład na rys. 6.1. jest roz-
kładem wyników otrzymanych, to jego odchylenie standardowe jest równe standar- kładem wyników otrzymanych, to jego odchylenie standardowe jest równe standar-
dowemu błędowi pomiaru. Zatem granice przedziału, o którym jest tu mowa, byłyby dowemu błędowi pomiaru. Zatem granice przedziału, o którym jest tu mowa, byłyby
oddalone od wyniku prawdziwego o 1,96·SEM. Przedział taki, który nie jest jeszcze oddalone od wyniku prawdziwego o 1,96·SEM. Przedział taki, który nie jest jeszcze
przedziałem ufności, w górnej części rys. 6.1. został zaznaczony linią ciągłą. Obejmie przedziałem ufności, w górnej części rys. 6.1. został zaznaczony linią ciągłą. Obejmie
on z prawdopodobieństwem 0,95 każdy wynik, który może otrzymać dana osoba. on z prawdopodobieństwem 0,95 każdy wynik, który może otrzymać dana osoba.
Tego rodzaju przedział możemy zbudować również wokół wyniku otrzymanego X. Tego rodzaju przedział możemy zbudować również wokół wyniku otrzymanego X.
Jego granice ustalilibyśmy odejmując i dodając do X iloczyn 1,96·SEM. Przedział ten, Jego granice ustalilibyśmy odejmując i dodając do X iloczyn 1,96·SEM. Przedział ten,
zwany przedziałem ufności, został zaznaczony w dolnej części rys. 6.1. linią przery- zwany przedziałem ufności, został zaznaczony w dolnej części rys. 6.1. linią przery-
waną. Z prawdopodobieństwem 0,95 obejmowałby on wynik prawdziwy osoby. waną. Z prawdopodobieństwem 0,95 obejmowałby on wynik prawdziwy osoby.
184 184

Przedstawiona na rys. 6.1. sytuacja ma charakter teoretyczny, ponieważ w real- Przedstawiona na rys. 6.1. sytuacja ma charakter teoretyczny, ponieważ w real-
nych warunkach nigdy nie wiadomo, gdzie znajduje się wynik prawdziwy osoby nych warunkach nigdy nie wiadomo, gdzie znajduje się wynik prawdziwy osoby
badanej. Można jedynie przypuszczać, że leży on w pobliżu wyniku otrzymane- badanej. Można jedynie przypuszczać, że leży on w pobliżu wyniku otrzymane-
go z badania testem. Aby sobie to uzmysłowić, można na chwilę zasłonić górną go z badania testem. Aby sobie to uzmysłowić, można na chwilę zasłonić górną
część rys. 6.1. opisaną jako sytuacja hipotetyczna. To co pozostało na widoku, to część rys. 6.1. opisaną jako sytuacja hipotetyczna. To co pozostało na widoku, to
sytuacja realna, a więc dwa przykładowe wyniki X1 i X2, które mogłaby uzyskać sytuacja realna, a więc dwa przykładowe wyniki X1 i X2, które mogłaby uzyskać
w badaniu omawiana osoba. Gdybyśmy dla każdego z nich zbudowali przedział w badaniu omawiana osoba. Gdybyśmy dla każdego z nich zbudowali przedział
ufności, to zgodnie z przedstawionym wcześniej rozumowaniem, moglibyśmy ufności, to zgodnie z przedstawionym wcześniej rozumowaniem, moglibyśmy
stwierdzić, że ze znacznym prawdopodobieństwem obejmują one wynik praw- stwierdzić, że ze znacznym prawdopodobieństwem obejmują one wynik praw-
dziwy. Po odsłonięciu górnej części rysunku widać, że przedział dla wyniku X1 dziwy. Po odsłonięciu górnej części rysunku widać, że przedział dla wyniku X1
rzeczywiście obejmuje wynik prawdziwy, ale przedział dla wyniku X2 już nie. rzeczywiście obejmuje wynik prawdziwy, ale przedział dla wyniku X2 już nie.
Zatem przy wnioskowaniu na podstawie przedziału ufności zawsze możemy się Zatem przy wnioskowaniu na podstawie przedziału ufności zawsze możemy się
mylić. Prawdopodobieństwo takiej pomyłki to α, czyli poziom istotności. Na mylić. Prawdopodobieństwo takiej pomyłki to α, czyli poziom istotności. Na
szczęście jest to zwykle prawdopodobieństwo małe, znacznie niższe niż tzw. po- szczęście jest to zwykle prawdopodobieństwo małe, znacznie niższe niż tzw. po-
ziom ufności oznaczany przez 1-α. Dla przykładu jeśli α=0,05, to oznacza, że ziom ufności oznaczany przez 1-α. Dla przykładu jeśli α=0,05, to oznacza, że
przeciętnie w 5 diagnozach na 100 diagnosta popełni błąd wnioskowania, czyli przeciętnie w 5 diagnozach na 100 diagnosta popełni błąd wnioskowania, czyli
pomyli się w opisie nasilenia cechy osoby. pomyli się w opisie nasilenia cechy osoby.
Poziom ufności, czyli 1-α, to prawdopodobieństwo tego, że wynik prawdziwy rze- Poziom ufności, czyli 1-α, to prawdopodobieństwo tego, że wynik prawdziwy rze-
czywiście znajduje się w przedziale ufności. czywiście znajduje się w przedziale ufności.
Poziom istotności, czyli α, to prawdopodobieństwo tego, że wynik prawdziwy Poziom istotności, czyli α, to prawdopodobieństwo tego, że wynik prawdziwy
znajduje się poza przedziałem ufności zbudowanym wokół wyniku otrzymanego. znajduje się poza przedziałem ufności zbudowanym wokół wyniku otrzymanego.
Diagnosta zwykle oczekuje, że wynik prawdziwy znajduje się wewnątrz przedziału Diagnosta zwykle oczekuje, że wynik prawdziwy znajduje się wewnątrz przedziału
ufności, więc α jest prawdopodobieństwem błędu wnioskowania. ufności, więc α jest prawdopodobieństwem błędu wnioskowania.
6.1.2.1. Obliczanie przedziału ufności dla wyniku otrzymanego 6.1.2.1. Obliczanie przedziału ufności dla wyniku otrzymanego
Omawiany w tym rozdziale przedział ufności zawsze budujemy symetrycznie Omawiany w tym rozdziale przedział ufności zawsze budujemy symetrycznie
względem wyniku otrzymanego. Wzór opisujący taki przedział przedstawia rów- względem wyniku otrzymanego. Wzór opisujący taki przedział przedstawia rów-
nanie 6.2. nanie 6.2.
P ( X − zα ⋅ SEM ≤ T ≤ X + zα ⋅ SEM ) = 1 − α (6.2) P ( X − zα ⋅ SEM ≤ T ≤ X + zα ⋅ SEM ) = 1 − α (6.2)
Wzór ten należy czytać w następujący sposób: prawdopodobieństwo (litera Wzór ten należy czytać w następujący sposób: prawdopodobieństwo (litera
P) tego, że wynik prawdziwy T znajduje się w przedziale ufności wynosi 1-α. P) tego, że wynik prawdziwy T znajduje się w przedziale ufności wynosi 1-α.
Dolną granicę przedziału budujemy poprzez odjęcie od wyniku otrzymanego X Dolną granicę przedziału budujemy poprzez odjęcie od wyniku otrzymanego X
iloczynu zα·SEM, który nazywany jest półprzedziałem ufności, bo jest równy iloczynu zα·SEM, który nazywany jest półprzedziałem ufności, bo jest równy
dokładnie połowie szerokości całego przedziału. Górna granica powstaje w spo- dokładnie połowie szerokości całego przedziału. Górna granica powstaje w spo-
sób analogiczny – do wyniku otrzymanego dodajemy półprzedział. sób analogiczny – do wyniku otrzymanego dodajemy półprzedział.
185 185

Mężczyzna w wieku 22 lat uzyskał w teście wynik równy 23 punktom. Z podręczni- Mężczyzna w wieku 22 lat uzyskał w teście wynik równy 23 punktom. Z podręczni-
ka do testu możemy się dowiedzieć, że jego współczynnik rzetelności obliczony dla ka do testu możemy się dowiedzieć, że jego współczynnik rzetelności obliczony dla
próby mężczyzn w tym wieku wynosi na przykład 0,81, a odchylenie standardowe próby mężczyzn w tym wieku wynosi na przykład 0,81, a odchylenie standardowe
wyników otrzymanych jest równe 3,5. Na tej podstawie obliczamy standardowy błąd wyników otrzymanych jest równe 3,5. Na tej podstawie obliczamy standardowy błąd
pomiaru (równanie 6.1). pomiaru (równanie 6.1).
SEM = 3, 5 1 − 0, 81= 1, 53 SEM = 3, 5 1 − 0, 81= 1, 53

Zakładamy poziom istotności 0,10. Odpowiada mu wartość wystandaryzowana Zakładamy poziom istotności 0,10. Odpowiada mu wartość wystandaryzowana
zα=1,64. Możemy teraz obliczyć przedział ufności dla wyniku otrzymanego tej oso- zα=1,64. Możemy teraz obliczyć przedział ufności dla wyniku otrzymanego tej oso-
by. by.
P ( 23 − 1, 64 ⋅ 1, 53 ≤ X ∞ ≤ 23 + 1, 64 ⋅ 1, 53) = 0, 90 P ( 23 − 1, 64 ⋅ 1, 53 ≤ X ∞ ≤ 23 + 1, 64 ⋅ 1, 53) = 0, 90
P ( 20, 49 ≤ X ∞ ≤ 25, 51) = 0, 90 P ( 20, 49 ≤ X ∞ ≤ 25, 51) = 0, 90
Granice przedziału ufności zwykle zaokrąglamy do wartości całkowitych, bo najczę- Granice przedziału ufności zwykle zaokrąglamy do wartości całkowitych, bo najczę-
ściej posługujemy się testami, w których ułamki mają wątpliwą interpretację. Zatem ściej posługujemy się testami, w których ułamki mają wątpliwą interpretację. Zatem
wynik prawdziwy osoby będzie znajdował się w przedziale od 20 do 26 punktów wynik prawdziwy osoby będzie znajdował się w przedziale od 20 do 26 punktów
z prawdopodobieństwem 0,90. z prawdopodobieństwem 0,90.
6.1.2.2. Interpretacja przedziału ufności dla wyniku otrzymanego 6.1.2.2. Interpretacja przedziału ufności dla wyniku otrzymanego
Zgodnie z przyjętą konwencją wynik prawdziwy może się znajdować z jed- Zgodnie z przyjętą konwencją wynik prawdziwy może się znajdować z jed-
nakowym prawdopodobieństwem równym 1-α w każdym miejscu przedziału nakowym prawdopodobieństwem równym 1-α w każdym miejscu przedziału
ufności włącznie z jego granicami. Przedział ufności jest więc przedziałem obu- ufności włącznie z jego granicami. Przedział ufności jest więc przedziałem obu-
stronnie domkniętym. Nie jest więc możliwe doraźne zawężanie interpretacji stronnie domkniętym. Nie jest więc możliwe doraźne zawężanie interpretacji
wyniku tylko do środkowej części przedziału ufności. Z tego względu szerokie wyniku tylko do środkowej części przedziału ufności. Z tego względu szerokie
przedziały ufności są raczej niewygodne, bo bardzo utrudniają formułowanie dia- przedziały ufności są raczej niewygodne, bo bardzo utrudniają formułowanie dia-
gnozy. Warto więc zdawać sobie sprawę z czynników, które powodują zwężenie gnozy. Warto więc zdawać sobie sprawę z czynników, które powodują zwężenie
przedziału. Pierwszy z nich to współczynnik rzetelności testu. Im większa jest przedziału. Pierwszy z nich to współczynnik rzetelności testu. Im większa jest
rzetelność, tym mniejsze błędy towarzyszą pomiarom. W konsekwencji zmniej- rzetelność, tym mniejsze błędy towarzyszą pomiarom. W konsekwencji zmniej-
sza się standardowy błąd pomiaru i przedział ufności jest węższy. sza się standardowy błąd pomiaru i przedział ufności jest węższy.
Drugi istotny czynnik to odchylenie standardowe wyników otrzymanych Drugi istotny czynnik to odchylenie standardowe wyników otrzymanych
w próbie. Im jest ono mniejsze tym węższy będzie przedział ufności. Wydawałoby w próbie. Im jest ono mniejsze tym węższy będzie przedział ufności. Wydawałoby
się więc, że próby walidacyjne powinny być jak najbardziej jednolite pod wzglę- się więc, że próby walidacyjne powinny być jak najbardziej jednolite pod wzglę-
dem mierzonej cechy. Jednak dobór takich prób często powoduje obniżanie się dem mierzonej cechy. Jednak dobór takich prób często powoduje obniżanie się
współczynnika rzetelności, a co za tym idzie zwiększanie standardowego błędu współczynnika rzetelności, a co za tym idzie zwiększanie standardowego błędu
pomiaru i rozszerzanie przedziału ufności. Sposobem na utrzymanie stosunkowo pomiaru i rozszerzanie przedziału ufności. Sposobem na utrzymanie stosunkowo
niskiego odchylenia standardowego wyników i jednocześnie satysfakcjonujące- niskiego odchylenia standardowego wyników i jednocześnie satysfakcjonujące-
go współczynnika rzetelności (oczywiście jeśli test jest dobry) jest losowanie go współczynnika rzetelności (oczywiście jeśli test jest dobry) jest losowanie
186 dużych prób reprezentatywnych dla populacji. 186 dużych prób reprezentatywnych dla populacji.

Kolejny czynnik wpływający na szerokość przedziału ufności to przyjęty po- Kolejny czynnik wpływający na szerokość przedziału ufności to przyjęty po-
ziom istotności. Im wyższy poziom α, tym węższy będzie przedział. Jest on usta- ziom istotności. Im wyższy poziom α, tym węższy będzie przedział. Jest on usta-
lany przez diagnostę, ale trzeba pamiętać, że wysoka wartość α oznacza wysokie lany przez diagnostę, ale trzeba pamiętać, że wysoka wartość α oznacza wysokie
prawdopodobieństwo postawienia błędnej diagnozy. Z kolei niska α (np. 0,01) prawdopodobieństwo postawienia błędnej diagnozy. Z kolei niska α (np. 0,01)
daje czasem tak szerokie przedziały, że na podstawie wyników badania bardzo daje czasem tak szerokie przedziały, że na podstawie wyników badania bardzo
trudno jest podejmować jakiekolwiek decyzje np. terapeutyczne. Może się tak trudno jest podejmować jakiekolwiek decyzje np. terapeutyczne. Może się tak
zdarzyć, gdy przedział ufności będzie obejmował wszystkie zakresy od wyników zdarzyć, gdy przedział ufności będzie obejmował wszystkie zakresy od wyników
tzw. obniżonych do podwyższonych na tle populacji. Interpretacja diagnosty, tzw. obniżonych do podwyższonych na tle populacji. Interpretacja diagnosty,
chociaż formalnie poprawna, może wtedy wielu osobom wydać się co najmniej chociaż formalnie poprawna, może wtedy wielu osobom wydać się co najmniej
niesatysfakcjonująca. Z tego względu w diagnozie indywidualnej przyjmuje się niesatysfakcjonująca. Z tego względu w diagnozie indywidualnej przyjmuje się
czasami wartość α=0,15. Jest to poziom niedopuszczalny w badaniach nauko- czasami wartość α=0,15. Jest to poziom niedopuszczalny w badaniach nauko-
wych, ale w badaniach indywidualnych przy użyciu testów o raczej niewysokiej wych, ale w badaniach indywidualnych przy użyciu testów o raczej niewysokiej
rzetelności tylko taki zabieg daje przedziały ufności na tyle wąskie, aby interpre- rzetelności tylko taki zabieg daje przedziały ufności na tyle wąskie, aby interpre-
tacja była możliwie użyteczna. tacja była możliwie użyteczna.
6.1.3. Standardowy błąd różnicy między wynikami otrzymanymi 6.1.3. Standardowy błąd różnicy między wynikami otrzymanymi
W praktyce diagnostycznej często zachodzi potrzeba oceny różnic między wy- W praktyce diagnostycznej często zachodzi potrzeba oceny różnic między wy-
nikami otrzymanymi przez jedna osobę w dwóch testach lub przez dwie osoby nikami otrzymanymi przez jedna osobę w dwóch testach lub przez dwie osoby
w jednym teście. Nie można w takich przypadkach polegać wyłącznie na wyni- w jednym teście. Nie można w takich przypadkach polegać wyłącznie na wyni-
kach otrzymanych, bo każdy z nich może być obarczony błędem. Posłużenie się kach otrzymanych, bo każdy z nich może być obarczony błędem. Posłużenie się
przedziałami ufności dla każdego z nich też nie jest dobrym rozwiązaniem, bo przedziałami ufności dla każdego z nich też nie jest dobrym rozwiązaniem, bo
może prowadzić do błędnych decyzji. Najlepszym sposobem jest zastosowanie może prowadzić do błędnych decyzji. Najlepszym sposobem jest zastosowanie
przedziału ufności wyznaczonego dla różnicy między wynikami otrzymanymi. przedziału ufności wyznaczonego dla różnicy między wynikami otrzymanymi.
Konstruuje się go na podstawie specjalnie definiowanego błędu standardowego, Konstruuje się go na podstawie specjalnie definiowanego błędu standardowego,
który zostanie opisany w tej części rozdziału. który zostanie opisany w tej części rozdziału.
Definicja standardowego błędu różnicy i przedziału ufności dla różnicy do- Definicja standardowego błędu różnicy i przedziału ufności dla różnicy do-
tyczy zarówno sytuacji, gdy badamy dwoma testami jedną osobę, jak i jednym tyczy zarówno sytuacji, gdy badamy dwoma testami jedną osobę, jak i jednym
testem dwie osoby. W obu przypadkach porównujemy dwa wyniki otrzymane. testem dwie osoby. W obu przypadkach porównujemy dwa wyniki otrzymane.
Jednak dla uproszczenia opisu odnosił go będę tylko do sytuacji badania poje- Jednak dla uproszczenia opisu odnosił go będę tylko do sytuacji badania poje-
dynczej osoby. dynczej osoby.
Tak jak każdy standardowy błąd, również standardowy błąd różnicy między Tak jak każdy standardowy błąd, również standardowy błąd różnicy między
wynikami otrzymanymi jest odchyleniem standardowym w rozkładzie pewnej wynikami otrzymanymi jest odchyleniem standardowym w rozkładzie pewnej
statystyki. W tym przypadku chodzi o rozkład różnic otrzymanych, czyli różnic statystyki. W tym przypadku chodzi o rozkład różnic otrzymanych, czyli różnic
między wynikami otrzymanymi (Xd=X1-X2). Taki teoretyczny rozkład powstałby między wynikami otrzymanymi (Xd=X1-X2). Taki teoretyczny rozkład powstałby
w efekcie dla nieskończenie wielu niezależnych badań tej samej osoby dwoma w efekcie dla nieskończenie wielu niezależnych badań tej samej osoby dwoma
różnymi testami. Jeśli rozkłady wyników otrzymanych z każdego z tych pomia- różnymi testami. Jeśli rozkłady wyników otrzymanych z każdego z tych pomia-
rów będą normalne (rys. 6.2., część a)), to różnice między wynikami otrzymany- rów będą normalne (rys. 6.2., część a)), to różnice między wynikami otrzymany-
mi również utworzyłyby rozkład normalny przedstawiony w części b) rys. 6.2. mi również utworzyłyby rozkład normalny przedstawiony w części b) rys. 6.2.
Średnia takiego rozkładu to różnica prawdziwa, czyli różnica między wynikami Średnia takiego rozkładu to różnica prawdziwa, czyli różnica między wynikami
prawdziwymi dla jednej osoby z dwóch testów (Td= T1 -T2). Odchylenie standar- prawdziwymi dla jednej osoby z dwóch testów (Td= T1 -T2). Odchylenie standar-
dowe rozkładu różnic to standardowy błąd różnicy między wynikami otrzymany- 187 dowe rozkładu różnic to standardowy błąd różnicy między wynikami otrzymany- 187

mi (σEd). Jest ono takie samo, jak odchylenie standardowe w rozkładzie błędów mi (σEd). Jest ono takie samo, jak odchylenie standardowe w rozkładzie błędów
różnicy między wynikami otrzymanymi (Ed) dla pojedynczej osoby, co wyjaśnia różnicy między wynikami otrzymanymi (Ed) dla pojedynczej osoby, co wyjaśnia
stosowane oznaczenie (litera E w indeksie sugeruje związek z błędem). stosowane oznaczenie (litera E w indeksie sugeruje związek z błędem).
Rysunek 6.2. Rozkłady wszystkich możliwych wyników otrzymanych jednej osoby z po Rysunek 6.2. Rozkłady wszystkich możliwych wyników otrzymanych jednej osoby z po
miarów dwoma testami (a) oraz rozkład różnic tych wyników (b). T1 i T2 – wyniki prawdziwe miarów dwoma testami (a) oraz rozkład różnic tych wyników (b). T1 i T2 – wyniki prawdziwe
osoby w testach 1 i 2; X11 i X12 – przykładowe wyniki otrzymane przez tę osobę w testach; osoby w testach 1 i 2; X11 i X12 – przykładowe wyniki otrzymane przez tę osobę w testach;
Td – różnica między wynikami prawdziwymi; Xd1 – różnica między wynikami otrzymanymi Td – różnica między wynikami prawdziwymi; Xd1 – różnica między wynikami otrzymanymi
Analogicznie do opisywanego w poprzednich rozdziałach błędu pomiaru, Analogicznie do opisywanego w poprzednich rozdziałach błędu pomiaru,
można sobie wyobrazić błąd różnicy między wynikami otrzymanymi – jest można sobie wyobrazić błąd różnicy między wynikami otrzymanymi – jest
to odległość między różnicą otrzymaną i różnicą prawdziwą (równanie 6.3). to odległość między różnicą otrzymaną i różnicą prawdziwą (równanie 6.3).
Opuszczając nawiasy w równaniu 6.3, można łatwo przejść do prostego rów- Opuszczając nawiasy w równaniu 6.3, można łatwo przejść do prostego rów-
nania 6.4. Wiedząc, że różnica między wynikiem otrzymanym i prawdziwym to nania 6.4. Wiedząc, że różnica między wynikiem otrzymanym i prawdziwym to
błąd pomiaru, można przejść do równania 6.5 stwierdzającego, że błąd różnicy błąd pomiaru, można przejść do równania 6.5 stwierdzającego, że błąd różnicy
między pomiarami to różnica błędów pomiaru. między pomiarami to różnica błędów pomiaru.
Ed = ( X 1 − X 2 ) − (T1 − T2 ) (6.3) Ed = ( X 1 − X 2 ) − (T1 − T2 ) (6.3)
Ed = ( X 1 − T1 ) − ( X 2 − T2 ) (6.4) Ed = ( X 1 − T1 ) − ( X 2 − T2 ) (6.4)
E d = E1 − E 2 (6.5) E d = E1 − E 2 (6.5)
188 188

Błąd różnicy między wynikami otrzymanymi (Ed) – to odległość między różnicą Błąd różnicy między wynikami otrzymanymi (Ed) – to odległość między różnicą
otrzymaną (np. różnicą między wynikami otrzymanymi z dwóch testów) a różnicą otrzymaną (np. różnicą między wynikami otrzymanymi z dwóch testów) a różnicą
prawdziwą (różnicą między wynikami prawdziwymi w tych testach). Błąd różnicy prawdziwą (różnicą między wynikami prawdziwymi w tych testach). Błąd różnicy
można sprowadzić do prostej różnicy między błędami pomiaru w dwóch badaniach. można sprowadzić do prostej różnicy między błędami pomiaru w dwóch badaniach.
Na podstawie równania 6.5 można już skonstruować wzór pokazujący odchy- Na podstawie równania 6.5 można już skonstruować wzór pokazujący odchy-
lenie standardowe w rozkładzie nieskończenie wielu błędów różnicy między wy- lenie standardowe w rozkładzie nieskończenie wielu błędów różnicy między wy-
nikami otrzymanymi, czyli standardowy błąd różnicy między wynikami otrzy- nikami otrzymanymi, czyli standardowy błąd różnicy między wynikami otrzy-
manymi. W równaniu 6.6 wykorzystany został opisywany wcześniej sposób na manymi. W równaniu 6.6 wykorzystany został opisywany wcześniej sposób na
wyliczanie wariancji różnicy dwóch składników. Wariancja błędu różnicy, czyli wyliczanie wariancji różnicy dwóch składników. Wariancja błędu różnicy, czyli
wariancja różnicy błędów pomiaru w dwóch testach to suma wariancji błędów po- wariancja różnicy błędów pomiaru w dwóch testach to suma wariancji błędów po-
miaru w tych testach pomniejszona o podwojoną kowariancję (cov = ρ E1E 2σ E1σ E 2) miaru w tych testach pomniejszona o podwojoną kowariancję (cov = ρ E1E 2σ E1σ E 2)
tych błędów pomiaru. tych błędów pomiaru.
2
σ Ed = σ E21− E 2 = σ E21 + σ E2 2 − 2 ρ E1E 2σ E1σ E 2 (6.6) 2
σ Ed = σ E21− E 2 = σ E21 + σ E2 2 − 2 ρ E1E 2σ E1σ E 2 (6.6)
Z podstawowych założeń koncepcji Gulliksena wynika, że dwa błędy losowe Z podstawowych założeń koncepcji Gulliksena wynika, że dwa błędy losowe
powinny być od siebie całkowicie niezależne. Zatem korelacja między błędami powinny być od siebie całkowicie niezależne. Zatem korelacja między błędami
(ρE1E2) oraz cała kowariancja błędów powinna wynosić zero. W konsekwencji (ρE1E2) oraz cała kowariancja błędów powinna wynosić zero. W konsekwencji
takiego założenia powstaje równanie 6.7. Opisuje ono wariancję w rozkładzie takiego założenia powstaje równanie 6.7. Opisuje ono wariancję w rozkładzie
nieskończenie wielu błędów różnicy między wynikami otrzymanymi. Chcąc nieskończenie wielu błędów różnicy między wynikami otrzymanymi. Chcąc
uzyskać standardowy błąd różnicy między wynikami otrzymanymi trzeba obie uzyskać standardowy błąd różnicy między wynikami otrzymanymi trzeba obie
strony równania 6.7 podstawić pod pierwiastek (równanie 6.8). strony równania 6.7 podstawić pod pierwiastek (równanie 6.8).
2
σ Ed = σ E21 + σ E2 2 (6.7) 2
σ Ed = σ E21 + σ E2 2 (6.7)
σ Ed = σ E21 + σ E2 2 (6.8) σ Ed = σ E21 + σ E2 2 (6.8)
Standardowy błąd różnicy między wynikami otrzymanymi (σEd lub SEMD) – Standardowy błąd różnicy między wynikami otrzymanymi (σEd lub SEMD) –
przeciętna odległość, w jakiej leżą różnice otrzymane od różnicy prawdziwej. Jest to przeciętna odległość, w jakiej leżą różnice otrzymane od różnicy prawdziwej. Jest to
odchylenie standardowe w rozkładzie wszystkich potencjalnych różnic między wyni- odchylenie standardowe w rozkładzie wszystkich potencjalnych różnic między wyni-
kami otrzymanymi przez osobę w dwóch różnych testach lub w rozkładzie nieskoń- kami otrzymanymi przez osobę w dwóch różnych testach lub w rozkładzie nieskoń-
czenie wielu błędów różnicy między wynikami otrzymanymi. czenie wielu błędów różnicy między wynikami otrzymanymi.
Użyteczny w praktyce estymator standardowego błędu różnicy (SEMD) moż- Użyteczny w praktyce estymator standardowego błędu różnicy (SEMD) moż-
na wyliczać według dwóch równoważnych wzorów zapisanych w równaniach na wyliczać według dwóch równoważnych wzorów zapisanych w równaniach
6.9 i 6.10. 6.9 i 6.10.
SEMD = SEM 12 + SEM 22 (6.9) SEMD = SEM 12 + SEM 22 (6.9)

189 189

SEMD = s X2 1 (1 − rtt1 ) + s X2 2 (1 − rtt 2 ) (6.10) SEMD = s X2 1 (1 − rtt1 ) + s X2 2 (1 − rtt 2 ) (6.10)
Wzór 6.10 w niektórych warunkach można nieco uprościć. Wiadomo, że po- Wzór 6.10 w niektórych warunkach można nieco uprościć. Wiadomo, że po-
równując wyniki testów będących elementami jednej baterii (np. podtesty bate- równując wyniki testów będących elementami jednej baterii (np. podtesty bate-
rii Wechslera) wykorzystuje się zwykle tzw. wyniki przeliczone. Stanowią one rii Wechslera) wykorzystuje się zwykle tzw. wyniki przeliczone. Stanowią one
coś w rodzaju skali znormalizowanej i w związku z tym mają jednakowe dla coś w rodzaju skali znormalizowanej i w związku z tym mają jednakowe dla
wszystkich podtestów odchylenie standardowe (odchylenie standardowe wyni- wszystkich podtestów odchylenie standardowe (odchylenie standardowe wyni-
ków przeliczonych w baterii Wechslera wynosi 3). Jeśli więc porównywane są ków przeliczonych w baterii Wechslera wynosi 3). Jeśli więc porównywane są
wyniki jednej osoby uzyskane z dwóch testów takiej baterii to można posłużyć wyniki jednej osoby uzyskane z dwóch testów takiej baterii to można posłużyć
się prostszym od poprzednich wzorem zapisanym w równaniu 6.11. się prostszym od poprzednich wzorem zapisanym w równaniu 6.11.
(6.11) (6.11)
SEMD = s X 2 − rt 1 − rt 2 gdy s X 1 = s X 2 SEMD = s X 2 − rt 1 − rt 2 gdy s X 1 = s X 2
Całe powyższe rozważania dotyczą zarówno sytuacji, gdy porównywane są Całe powyższe rozważania dotyczą zarówno sytuacji, gdy porównywane są
wyniki jednej osoby z badania dwoma testami, jak i dwóch osób z badania jed- wyniki jednej osoby z badania dwoma testami, jak i dwóch osób z badania jed-
nym testem. W obu przypadkach definicja standardowego błędu różnicy będzie nym testem. W obu przypadkach definicja standardowego błędu różnicy będzie
taka sama. Jeśli jednak porównywane są wyniki badania jednym testem dwóch taka sama. Jeśli jednak porównywane są wyniki badania jednym testem dwóch
osób należących do tej samej populacji (np. dwóch studentów w wieku 22 lat) to osób należących do tej samej populacji (np. dwóch studentów w wieku 22 lat) to
wzór na SEMD można jeszcze bardziej uprościć, bo w takim przypadku jedna- wzór na SEMD można jeszcze bardziej uprościć, bo w takim przypadku jedna-
kowe są zarówno odchylenia standardowe, jak i współczynniki rzetelności. Wzór kowe są zarówno odchylenia standardowe, jak i współczynniki rzetelności. Wzór
taki zapisany jest w równaniu 6.12. taki zapisany jest w równaniu 6.12.
SEMD = s X 2 − 2rtt (6.12) SEMD = s X 2 − 2rtt (6.12)

gdy s X 1 = s X 2 oraz rtt1 = rtt 2 gdy s X 1 = s X 2 oraz rtt1 = rtt 2
Jeśli sytuacja jest niejasna i nie wiadomo, którego ze wzorów na SEMD użyć, Jeśli sytuacja jest niejasna i nie wiadomo, którego ze wzorów na SEMD użyć,
to najbezpieczniejszy będzie ogólny wzór zapisany w równaniu 6.10. to najbezpieczniejszy będzie ogólny wzór zapisany w równaniu 6.10.
6.1.4. Przedział ufności dla różnicy między wynikami otrzymanymi 6.1.4. Przedział ufności dla różnicy między wynikami otrzymanymi
Podłoże teoretyczne jest tutaj właściwie takie samo, jak w przypadku prze- Podłoże teoretyczne jest tutaj właściwie takie samo, jak w przypadku prze-
działu ufności dla pojedynczego wyniku otrzymanego. Należy wziąć jednak pod działu ufności dla pojedynczego wyniku otrzymanego. Należy wziąć jednak pod
uwagę nie rozkład wyników otrzymanych dla pojedynczej osoby, ale rozkład róż- uwagę nie rozkład wyników otrzymanych dla pojedynczej osoby, ale rozkład róż-
nic między dwoma wynikami otrzymanymi dla tej osoby, który został przedsta- nic między dwoma wynikami otrzymanymi dla tej osoby, który został przedsta-
wiony na rys. 6.3. wiony na rys. 6.3.
190 190

Rysunek 6.3. Rozkład wszystkich potencjalnych różnic między dwoma wynikami otrzy Rysunek 6.3. Rozkład wszystkich potencjalnych różnic między dwoma wynikami otrzy
manymi przez jedną osobę w dwóch testach i ilustracja pojęcia przedziału ufności dla manymi przez jedną osobę w dwóch testach i ilustracja pojęcia przedziału ufności dla
różnicy wyników różnicy wyników
Dla uproszczenia opisu różnicę między wynikami otrzymanymi (Xd) będę na- Dla uproszczenia opisu różnicę między wynikami otrzymanymi (Xd) będę na-
zywał różnicą otrzymaną, a różnicę między wynikami prawdziwymi (Td) – róż- zywał różnicą otrzymaną, a różnicę między wynikami prawdziwymi (Td) – róż-
nicą prawdziwą. Jeśli przedział symetryczny względem różnicy prawdziwej (na nicą prawdziwą. Jeśli przedział symetryczny względem różnicy prawdziwej (na
rys. 6.3. zaznaczony linią ciągłą) obejmuje znaczny procent wszystkich możliwych rys. 6.3. zaznaczony linią ciągłą) obejmuje znaczny procent wszystkich możliwych
różnic między wynikami dla pojedynczej osoby, to przedział ufności zbudowany różnic między wynikami dla pojedynczej osoby, to przedział ufności zbudowany
symetrycznie względem dowolnej różnicy otrzymanej (na rys. 6.3. zaznaczony li- symetrycznie względem dowolnej różnicy otrzymanej (na rys. 6.3. zaznaczony li-
nią przerywaną) ze znacznym prawdopodobieństwem będzie obejmował różnicę nią przerywaną) ze znacznym prawdopodobieństwem będzie obejmował różnicę
prawdziwą. Tutaj znów należy przyjąć, że rys. 6.3. pokazuje pewną sytuację hi- prawdziwą. Tutaj znów należy przyjąć, że rys. 6.3. pokazuje pewną sytuację hi-
potetyczną. W rzeczywistości diagnosta ma dostęp tylko do tych informacji, które potetyczną. W rzeczywistości diagnosta ma dostęp tylko do tych informacji, które
znajdują się w dolnej części rys. 6.3. Dysponuje dwoma wynikami otrzymanymi, znajdują się w dolnej części rys. 6.3. Dysponuje dwoma wynikami otrzymanymi,
na podstawie których może wyliczyć różnicę otrzymaną (Xd=X1-X2) i zbudować na podstawie których może wyliczyć różnicę otrzymaną (Xd=X1-X2) i zbudować
symetryczny względem niej przedział ufności. Przedział ten ze znacznym praw- symetryczny względem niej przedział ufności. Przedział ten ze znacznym praw-
dopodobieństwem równym poziomowi ufności (1-α) będzie obejmował różnicę dopodobieństwem równym poziomowi ufności (1-α) będzie obejmował różnicę
prawdziwą. Jeśli diagnosta uzyska w konkretnym badaniu dwoma testami róż- prawdziwą. Jeśli diagnosta uzyska w konkretnym badaniu dwoma testami róż-
nicę, taką jak Xd1, to jego przedział ufności będzie w rzeczywistości obejmował nicę, taką jak Xd1, to jego przedział ufności będzie w rzeczywistości obejmował
różnicę prawdziwą. Jeśli jednak w badaniu pojawi się różnica otrzymana, taka różnicę prawdziwą. Jeśli jednak w badaniu pojawi się różnica otrzymana, taka
jak Xd2, to różnica prawdziwa będzie leżała poza przedziałem. Diagnosta jednak jak Xd2, to różnica prawdziwa będzie leżała poza przedziałem. Diagnosta jednak
nigdy nie wie, czy się myli przy wnioskowaniu na podstawie przedziału ufności, nigdy nie wie, czy się myli przy wnioskowaniu na podstawie przedziału ufności,
bo nie zna dokładnej lokalizacji różnicy prawdziwej. Poziom istotności, czyli α, bo nie zna dokładnej lokalizacji różnicy prawdziwej. Poziom istotności, czyli α,
to prawdopodobieństwo tego, że jego wnioski będą błędne, tzn. że różnica praw- to prawdopodobieństwo tego, że jego wnioski będą błędne, tzn. że różnica praw-
dziwa będzie w rzeczywistości leżała poza przedziałem ufności. Poziom α jest dziwa będzie w rzeczywistości leżała poza przedziałem ufności. Poziom α jest
więc prawdopodobieństwem błędnej diagnozy. 191 więc prawdopodobieństwem błędnej diagnozy. 191

6.1.4.1. Obliczanie przedziału ufności dla różnicy między wynikami 6.1.4.1. Obliczanie przedziału ufności dla różnicy między wynikami
otrzymanymi otrzymanymi
Wzór pozwalający obliczyć taki przedział ufności zapisany jest w równaniu Wzór pozwalający obliczyć taki przedział ufności zapisany jest w równaniu
6.13. Konstruujemy go w bardzo podobny sposób, jak inne przedziały ufności – 6.13. Konstruujemy go w bardzo podobny sposób, jak inne przedziały ufności –
symetrycznie względem wartości uzyskanej empirycznie, którą w tym przypadku symetrycznie względem wartości uzyskanej empirycznie, którą w tym przypadku
jest różnica otrzymana. Dolną granicę uzyskujemy odejmując od różnicy otrzy- jest różnica otrzymana. Dolną granicę uzyskujemy odejmując od różnicy otrzy-
manej tzw. półprzedział, który tutaj jest iloczynem wystandaryzowanej wartości manej tzw. półprzedział, który tutaj jest iloczynem wystandaryzowanej wartości
zα i standardowego błędu różnicy między wynikami otrzymanymi SEMD. Górną zα i standardowego błędu różnicy między wynikami otrzymanymi SEMD. Górną
granicę uzyskujemy dodając półprzedział do różnicy otrzymanej. granicę uzyskujemy dodając półprzedział do różnicy otrzymanej.
P(X d − zα ⋅ SEMD ≤ Td ≤ X d + zα ⋅ SEMD ) = 1 − α (6.13) P(X d − zα ⋅ SEMD ≤ Td ≤ X d + zα ⋅ SEMD ) = 1 − α (6.13)
Równanie 6.13 należy czytać w następujący sposób: prawdopodobieństwo Równanie 6.13 należy czytać w następujący sposób: prawdopodobieństwo
tego, że różnica prawdziwa (Td) znajduje się pomiędzy granicami przedziału uf- tego, że różnica prawdziwa (Td) znajduje się pomiędzy granicami przedziału uf-
ności wynosi 1-α. ności wynosi 1-α.
Mężczyzna w wieku 22 lat uzyskał w teście A wynik równy 23 punktom, a w teście Mężczyzna w wieku 22 lat uzyskał w teście A wynik równy 23 punktom, a w teście
B wynik 28 punktów. Zatem różnica otrzymana wynosi 5 punktów. Z podręcznika B wynik 28 punktów. Zatem różnica otrzymana wynosi 5 punktów. Z podręcznika
do testu możemy się dowiedzieć, że współczynnik rzetelności testu A obliczony dla do testu możemy się dowiedzieć, że współczynnik rzetelności testu A obliczony dla
próby mężczyzn w tym wieku wynosi na przykład 0,81, a odchylenie standardowe próby mężczyzn w tym wieku wynosi na przykład 0,81, a odchylenie standardowe
wyników otrzymanych jest równe 3,5. Analogiczne wartości dla testu B to 0,86 i 3,1. wyników otrzymanych jest równe 3,5. Analogiczne wartości dla testu B to 0,86 i 3,1.
Na tej podstawie obliczamy standardowe błędy pomiaru (równanie 6.1). Na tej podstawie obliczamy standardowe błędy pomiaru (równanie 6.1).
SEM A = 3,5 1 − 0,8 1 = 1,5 3 SEM A = 3,5 1 − 0,8 1 = 1,5 3
SEM B = 3,1 1 − 0,8 6 = 1,1 6 SEM B = 3,1 1 − 0,8 6 = 1,1 6

Kolejny krok to obliczenie standardowego błędu różnicy wyników otrzymanych Kolejny krok to obliczenie standardowego błędu różnicy wyników otrzymanych
(równanie 6.9). (równanie 6.9).
SEMD = 1,5 32 + 1,1 62 = 1,9 2 SEMD = 1,5 32 + 1,1 62 = 1,9 2

zα=1,96. Możemy teraz obliczyć przedział ufności dla różnicy wyników otrzymanych zα=1,96. Możemy teraz obliczyć przedział ufności dla różnicy wyników otrzymanych
tej osoby (równanie 6.13). tej osoby (równanie 6.13).
P ( 5 − 1, 96 ⋅ 1, 92 ≤ T ≤ 5 + 1, 96 ⋅ 1, 92) = 0, 95 P ( 5 − 1, 96 ⋅ 1, 92 ≤ T ≤ 5 + 1, 96 ⋅ 1, 92) = 0, 95
P (1, 24 ≤ T ≤ 8, 76) = 0, 95 P (1, 24 ≤ T ≤ 8, 76) = 0, 95

Zatem różnica między wynikami prawdziwymi z dwóch testów znajduje się w prze- Zatem różnica między wynikami prawdziwymi z dwóch testów znajduje się w prze-
dziale od 1,24 do 8,76 punktów z prawdopodobieństwem 0,95. dziale od 1,24 do 8,76 punktów z prawdopodobieństwem 0,95.
192 192

6.1.4.2. Istotność różnicy między wynikami otrzymanymi 6.1.4.2. Istotność różnicy między wynikami otrzymanymi
Przedział ufności dla różnicy między wynikami otrzymanymi wykorzysty- Przedział ufności dla różnicy między wynikami otrzymanymi wykorzysty-
wany jest do oceny tzw. statystycznej istotności różnicy wyników. Z założeń wany jest do oceny tzw. statystycznej istotności różnicy wyników. Z założeń
koncepcji Gulliksena wynika, że dwie osoby o identycznych poziomach cechy koncepcji Gulliksena wynika, że dwie osoby o identycznych poziomach cechy
(czyli o identycznych wynikach prawdziwych) mogą uzyskać w tym samym te- (czyli o identycznych wynikach prawdziwych) mogą uzyskać w tym samym te-
ście różne wyniki otrzymane. Jest to związane z losowym i nieprzewidywalnym ście różne wyniki otrzymane. Jest to związane z losowym i nieprzewidywalnym
błędem pomiaru. Jeśli więc dwie osoby mają różne wyniki otrzymane w teście, błędem pomiaru. Jeśli więc dwie osoby mają różne wyniki otrzymane w teście,
to niekoniecznie oznacza to, że mają różne nasilenie cechy. Aby móc formułować to niekoniecznie oznacza to, że mają różne nasilenie cechy. Aby móc formułować
wnioski o różnym nasileniu cechy u tych osób, różnica między ich wynikami wnioski o różnym nasileniu cechy u tych osób, różnica między ich wynikami
otrzymanymi musi być wystarczająco duża, czyli istotna statystycznie. otrzymanymi musi być wystarczająco duża, czyli istotna statystycznie.
Istotna statystycznie różnica między wynikami otrzymanymi oznacza, że istnieje Istotna statystycznie różnica między wynikami otrzymanymi oznacza, że istnieje
rzeczywista różnica między wynikami prawdziwymi. W takim przypadku można mó- rzeczywista różnica między wynikami prawdziwymi. W takim przypadku można mó-
wić o różnicy w nasileniu cechy lub cech. wić o różnicy w nasileniu cechy lub cech.
Do oceny istotności statystycznej różnicy wyników wykorzystujemy opisany Do oceny istotności statystycznej różnicy wyników wykorzystujemy opisany
wcześniej przedział ufności dla różnicy (równanie 6.13). Wiadomo, że ze znacz- wcześniej przedział ufności dla różnicy (równanie 6.13). Wiadomo, że ze znacz-
nym prawdopodobieństwem przedział taki obejmuje różnicę prawdziwą. Może nym prawdopodobieństwem przedział taki obejmuje różnicę prawdziwą. Może
ona znajdować się w każdym miejscu tego przedziału włącznie z jego granicami. ona znajdować się w każdym miejscu tego przedziału włącznie z jego granicami.
Jeśli taka różnica prawdziwa będzie w rzeczywistości inna niż zero, to zero naj- Jeśli taka różnica prawdziwa będzie w rzeczywistości inna niż zero, to zero naj-
prawdopodobniej będzie leżało poza granicami przedziału ufności (rys. 6.4.). prawdopodobniej będzie leżało poza granicami przedziału ufności (rys. 6.4.).
Rysunek 6.4. Ilustracja istotności statystycznej różnicy między wynikami otrzymanymi. Rysunek 6.4. Ilustracja istotności statystycznej różnicy między wynikami otrzymanymi.
Na górnej osi różnica jest znaczna i zero leży poza przedziałem ufności – różnica otrzy Na górnej osi różnica jest znaczna i zero leży poza przedziałem ufności – różnica otrzy
mana jest istotna statystycznie. Na dolnej osi różnica jest nieznaczna i zero leży wewnątrz mana jest istotna statystycznie. Na dolnej osi różnica jest nieznaczna i zero leży wewnątrz
przedziału – różnica otrzymana nie jest istotna statystycznie przedziału – różnica otrzymana nie jest istotna statystycznie
Chcąc ocenić istotność statystyczną różnicy, można oczywiście wyznaczyć Chcąc ocenić istotność statystyczną różnicy, można oczywiście wyznaczyć
przedział ufności według procedury opisanej wcześniej. Różnicę między wyni- przedział ufności według procedury opisanej wcześniej. Różnicę między wyni-
kami otrzymanymi uznamy za istotną statystycznie, gdy obie granice przedziału kami otrzymanymi uznamy za istotną statystycznie, gdy obie granice przedziału
będą miały taki sam znak, tzn. albo obie będą dodatnie, albo obie ujemne. Tylko będą miały taki sam znak, tzn. albo obie będą dodatnie, albo obie ujemne. Tylko
w takim przypadku przedział nie będzie obejmował zera. W przykładzie 3 różni- w takim przypadku przedział nie będzie obejmował zera. W przykładzie 3 różni-
ca między wynikami otrzymanymi jest istotna statystycznie. ca między wynikami otrzymanymi jest istotna statystycznie.
Przy porównywaniu wyników bardzo często diagności posługują się tylko pół- Przy porównywaniu wyników bardzo często diagności posługują się tylko pół-
przedziałem ufności, czyli iloczynem zα·SEMD. Aby zero leżało poza przedziałem 193 przedziałem ufności, czyli iloczynem zα·SEMD. Aby zero leżało poza przedziałem 193

ufności i aby uznać różnicę dwóch wyników za istotną statystycznie, to jej wartość ufności i aby uznać różnicę dwóch wyników za istotną statystycznie, to jej wartość
bezwzględna musi być większa od półprzedziału ufności (równanie 6.14). bezwzględna musi być większa od półprzedziału ufności (równanie 6.14).
X 1 − X 2 > zα ⋅ SEMD (6.14) X 1 − X 2 > zα ⋅ SEMD (6.14)

to różnica jest istotna statystycznie to różnica jest istotna statystycznie
Jeśli zero leży poza granicami przedziału ufności dla różnicy, to z dużym Jeśli zero leży poza granicami przedziału ufności dla różnicy, to z dużym
prawdopodobieństwem możemy uznać, że różnica między wynikami prawdzi- prawdopodobieństwem możemy uznać, że różnica między wynikami prawdzi-
wymi istnieje. Natomiast w odwrotnej sytuacji, gdy zero leży wewnątrz przedzia- wymi istnieje. Natomiast w odwrotnej sytuacji, gdy zero leży wewnątrz przedzia-
łu ufności, to nie możemy uznać, że różnica między wynikami prawdziwymi nie łu ufności, to nie możemy uznać, że różnica między wynikami prawdziwymi nie
istnieje. Jest to typowy problem z jednostronnym wnioskowaniem na podstawie istnieje. Jest to typowy problem z jednostronnym wnioskowaniem na podstawie
przedziału ufności. Różnica nieistotna statystycznie nie musi oznaczać, że dwa przedziału ufności. Różnica nieistotna statystycznie nie musi oznaczać, że dwa
wyniki prawdziwe są takie same. Prawdopodobieństwo takiego zdarzenia w me- wyniki prawdziwe są takie same. Prawdopodobieństwo takiego zdarzenia w me-
todzie przedziału ufności jest nieznane i raczej małe. todzie przedziału ufności jest nieznane i raczej małe.
6.1.5. Estymowany wynik prawdziwy 6.1.5. Estymowany wynik prawdziwy

Na początku rozdziału przedstawiłem najprostszy i najpopularniejszy sposób Na początku rozdziału przedstawiłem najprostszy i najpopularniejszy sposób
przybliżania wyniku prawdziwego na podstawie przedziału ufności wyznacza- przybliżania wyniku prawdziwego na podstawie przedziału ufności wyznacza-
nego dla wyniku otrzymanego. Ostatnio coraz większe uznanie zdobywa alter- nego dla wyniku otrzymanego. Ostatnio coraz większe uznanie zdobywa alter-
natywna metoda, której podłożem jest estymowany wynik prawdziwy. Na jego natywna metoda, której podłożem jest estymowany wynik prawdziwy. Na jego
podstawie wyznacza się przedział ufności, który jest węższy, a więc wygodniej- podstawie wyznacza się przedział ufności, który jest węższy, a więc wygodniej-
szy niż przedział konstruowany na podstawie wyniku otrzymanego. szy niż przedział konstruowany na podstawie wyniku otrzymanego.
Jeśli test psychologiczny ma jakąś choćby minimalną dokładność, to możemy Jeśli test psychologiczny ma jakąś choćby minimalną dokładność, to możemy
oczekiwać niezerowej korelacji pomiędzy wynikami otrzymanymi i prawdzi- oczekiwać niezerowej korelacji pomiędzy wynikami otrzymanymi i prawdzi-
wymi. Im większa będzie dokładność (rzetelność) takiego testu, tym silniejsza wymi. Im większa będzie dokładność (rzetelność) takiego testu, tym silniejsza
będzie to korelacja. W przypadku testu idealnego pomiar powinien dać wynik będzie to korelacja. W przypadku testu idealnego pomiar powinien dać wynik
otrzymany równy dokładnie wynikowi prawdziwemu. Przy serii pomiarów takim otrzymany równy dokładnie wynikowi prawdziwemu. Przy serii pomiarów takim
testem np. grupy osób wszystkie wyniki otrzymane pokrywałyby się z wynikami testem np. grupy osób wszystkie wyniki otrzymane pokrywałyby się z wynikami
prawdziwymi. Sytuację tę można przedstawić przy pomocy układu współrzęd- prawdziwymi. Sytuację tę można przedstawić przy pomocy układu współrzęd-
nych, na którym oś pozioma odpowiada wynikom otrzymanym, a pionowa – nych, na którym oś pozioma odpowiada wynikom otrzymanym, a pionowa –
prawdziwym. Na rys. 6.5. każdy punkt reprezentuje pojedynczą osobę, która uzy- prawdziwym. Na rys. 6.5. każdy punkt reprezentuje pojedynczą osobę, która uzy-
skała określony wynik otrzymany (współrzędna na osi poziomej) i ma określony skała określony wynik otrzymany (współrzędna na osi poziomej) i ma określony
wynik prawdziwy (współrzędna na osi pionowej). Gdy test ma idealną dokład- wynik prawdziwy (współrzędna na osi pionowej). Gdy test ma idealną dokład-
ność, to wszystkie punkty układają się wzdłuż linii prostej, bo zawsze wyniko- ność, to wszystkie punkty układają się wzdłuż linii prostej, bo zawsze wyniko-
wi otrzymanemu odpowiada taki sam wynik prawdziwy. Ta linia pokazuje trend wi otrzymanemu odpowiada taki sam wynik prawdziwy. Ta linia pokazuje trend
zależności między wynikami – im wyższy wynik otrzymany (X), tym wyższy zależności między wynikami – im wyższy wynik otrzymany (X), tym wyższy
wynik prawdziwy (T) osoby. Jest to linia regresji. Gdy dokładność testu nie jest wynik prawdziwy (T) osoby. Jest to linia regresji. Gdy dokładność testu nie jest
idealna, ale znaczna, to punkty leżą w niezbyt dużej odległości od linii regresji idealna, ale znaczna, to punkty leżą w niezbyt dużej odległości od linii regresji
tak, jak na rysunku 6.5., część a). Przy jeszcze słabszej rzetelności punkty tworzą tak, jak na rysunku 6.5., część a). Przy jeszcze słabszej rzetelności punkty tworzą
194 chmurę dość mocno rozrzuconą wokół linii (rysunek 6.5., część b)). 194 chmurę dość mocno rozrzuconą wokół linii (rysunek 6.5., część b)).

Linię regresji wyznacza się metodami analitycznymi na podstawie układu Linię regresji wyznacza się metodami analitycznymi na podstawie układu
punktów. Dla każdej chmury punktów zwykle istnieje tylko jedna linia regresji. punktów. Dla każdej chmury punktów zwykle istnieje tylko jedna linia regresji.
Można ją przedstawić w postaci równania znanego ze szkoły (równanie 6.15), Można ją przedstawić w postaci równania znanego ze szkoły (równanie 6.15),
gdzie parametry a i b określają dokładny jej przebieg. gdzie parametry a i b określają dokładny jej przebieg.
Rysunek 6.5. Linia regresji dla hipotetycznej zależności pomiędzy wynikami otrzymanymi Rysunek 6.5. Linia regresji dla hipotetycznej zależności pomiędzy wynikami otrzymanymi
(X) i wynikami prawdziwymi (T) w jakiejś grupie osób. Rysunek a) pokazuje silną zależność (X) i wynikami prawdziwymi (T) w jakiejś grupie osób. Rysunek a) pokazuje silną zależność
(test o wysokiej rzetelności), a rysunek b) słabą zależność (test o niskiej rzetelności) (test o wysokiej rzetelności), a rysunek b) słabą zależność (test o niskiej rzetelności)
T ′ = bX + a (6.15) T ′ = bX + a (6.15)
Oczywiście równanie 6.15 i rys. 6.5. mają charakter całkowicie hipotetyczny, Oczywiście równanie 6.15 i rys. 6.5. mają charakter całkowicie hipotetyczny,
bo w realnych warunkach nigdy nie jest znany wynik prawdziwy osoby. Można bo w realnych warunkach nigdy nie jest znany wynik prawdziwy osoby. Można
jednak parametry równania 6.15 obliczyć na podstawie oszacowanych parame- jednak parametry równania 6.15 obliczyć na podstawie oszacowanych parame-
trów testu. Powstaje w ten sposób bardzo użyteczne równanie 6.16 będące przy- trów testu. Powstaje w ten sposób bardzo użyteczne równanie 6.16 będące przy-
bliżeniem teoretycznego równania 6.15. bliżeniem teoretycznego równania 6.15.
T ′ = rt t X + (1 − rt t ) x = x + rt t ( X − x ) (6.16) T ′ = rt t X + (1 − rt t ) x = x + rt t ( X − x ) (6.16)
Posługując się równaniem 6.16 można przewidywać wyniki prawdziwe na Posługując się równaniem 6.16 można przewidywać wyniki prawdziwe na
podstawie wyników otrzymanych. Szacowana w ten sposób wartość wyniku podstawie wyników otrzymanych. Szacowana w ten sposób wartość wyniku
prawdziwego oznaczona została symbolem T’, ponieważ raczej nie będzie to prawdziwego oznaczona została symbolem T’, ponieważ raczej nie będzie to
rzeczywisty wynik prawdziwy, tylko jego przybliżenie. Wartość ta została na- rzeczywisty wynik prawdziwy, tylko jego przybliżenie. Wartość ta została na-
zwana estymowanym wynikiem prawdziwym. Stanowi on tym lepsze przybli- zwana estymowanym wynikiem prawdziwym. Stanowi on tym lepsze przybli-
żenie wyniku prawdziwego im bliżej linii regresji na rys. 6.5. będą leżały punkty. żenie wyniku prawdziwego im bliżej linii regresji na rys. 6.5. będą leżały punkty.
A więc część a) rys. 6.5. przedstawia estymowane wyniki prawdziwe przeciętnie A więc część a) rys. 6.5. przedstawia estymowane wyniki prawdziwe przeciętnie
obarczone mniejszymi błędami niż na części b) rys. 6.5. 195 obarczone mniejszymi błędami niż na części b) rys. 6.5. 195

Estymowany wynik prawdziwy (T’) – to punktowy estymator wyniku prawdziwego Estymowany wynik prawdziwy (T’) – to punktowy estymator wyniku prawdziwego
stosowany czasem w zastępstwie wyniku otrzymanego. Jest to przewidywany wynik stosowany czasem w zastępstwie wyniku otrzymanego. Jest to przewidywany wynik
prawdziwy, który moglibyśmy wyznaczyć na podstawie równania regresji prostoli- prawdziwy, który moglibyśmy wyznaczyć na podstawie równania regresji prostoli-
niowej dla zależności pomiędzy wynikami otrzymanymi i prawdziwymi. niowej dla zależności pomiędzy wynikami otrzymanymi i prawdziwymi.
Osoba uzyskała wynik otrzymany 15 w teście o współczynniku rzetelności 0,81. Osoba uzyskała wynik otrzymany 15 w teście o współczynniku rzetelności 0,81.
Średnia wyników otrzymanych w próbie osób adekwatnej dla osoby badanej wynosi Średnia wyników otrzymanych w próbie osób adekwatnej dla osoby badanej wynosi
20. Zatem estymowany wynik prawdziwy wyznaczamy w następujący sposób: 20. Zatem estymowany wynik prawdziwy wyznaczamy w następujący sposób:
T ′ = rt t X + (1 − rt t ) x = 0,8 1⋅1 5 + (1 − 0,8 1) ⋅ 2 0 = 1 5,9 5 ≈ 1 6 T ′ = rt t X + (1 − rt t ) x = 0,8 1⋅1 5 + (1 − 0,8 1) ⋅ 2 0 = 1 5,9 5 ≈ 1 6
Na podstawie równania 6.16 można dokonać charakterystyki estymowanego Na podstawie równania 6.16 można dokonać charakterystyki estymowanego
wyniku prawdziwego: wyniku prawdziwego:
a) estymowany wynik prawdziwy prawie zawsze znajduje się pomiędzy wyni- a) estymowany wynik prawdziwy prawie zawsze znajduje się pomiędzy wyni-
kiem otrzymanym i średnią wyników otrzymanych; kiem otrzymanym i średnią wyników otrzymanych;
b) im większa rzetelność pomiaru testem, tym bliżej wyniku otrzymanego znaj- b) im większa rzetelność pomiaru testem, tym bliżej wyniku otrzymanego znaj-
duje się estymowany wynik prawdziwy; duje się estymowany wynik prawdziwy;
c) im mniejsza rzetelność pomiaru testem, tym bliżej średniej wyników otrzyma- c) im mniejsza rzetelność pomiaru testem, tym bliżej średniej wyników otrzyma-
nych znajduje się estymowany wynik prawdziwy; nych znajduje się estymowany wynik prawdziwy;
d) jeśli rzetelność pomiaru testem wynosi 1, to estymowany wynik prawdziwy d) jeśli rzetelność pomiaru testem wynosi 1, to estymowany wynik prawdziwy
jest równy wynikowi otrzymanemu (bo pomiar jest bezbłędny); jest równy wynikowi otrzymanemu (bo pomiar jest bezbłędny);
e) jeśli rzetelność pomiaru testem wynosi 0, to estymowany wynik prawdziwy e) jeśli rzetelność pomiaru testem wynosi 0, to estymowany wynik prawdziwy
jest równy średniej wyników otrzymanych (bo pomiar jest całkowicie loso- jest równy średniej wyników otrzymanych (bo pomiar jest całkowicie loso-
wy); wy);
f) im bardziej od średniej odległy jest wynik otrzymany, tym bardziej zwięk- f) im bardziej od średniej odległy jest wynik otrzymany, tym bardziej zwięk-
sza się dystans pomiędzy wynikiem otrzymanym i estymowanym wynikiem sza się dystans pomiędzy wynikiem otrzymanym i estymowanym wynikiem
prawdziwym; prawdziwym;
g) jeśli wynik otrzymany jest równy średniej wyników otrzymanych, to estymo- g) jeśli wynik otrzymany jest równy średniej wyników otrzymanych, to estymo-
wany wynik prawdziwy jest równy wynikowi otrzymanemu. wany wynik prawdziwy jest równy wynikowi otrzymanemu.
Powyższa charakterystyka wynika oczywiście z matematycznego podłoża re- Powyższa charakterystyka wynika oczywiście z matematycznego podłoża re-
gresji prostoliniowej, ale można ją podsumować w dość prosty sposób: estymo- gresji prostoliniowej, ale można ją podsumować w dość prosty sposób: estymo-
wany wynik prawdziwy jest jakby „przyciągany” przez średnią wyników otrzy- wany wynik prawdziwy jest jakby „przyciągany” przez średnią wyników otrzy-
manych. To „przyciąganie” jest tym silniejsze, im słabszą rzetelność ma test i im manych. To „przyciąganie” jest tym silniejsze, im słabszą rzetelność ma test i im
dalej od średniej znajduje się wynik otrzymany. Szczególne znaczenie średniej dalej od średniej znajduje się wynik otrzymany. Szczególne znaczenie średniej
nie powinno zaskakiwać, jeśli przyjmie się założenie o normalnym rozkładzie nie powinno zaskakiwać, jeśli przyjmie się założenie o normalnym rozkładzie
wyników otrzymanych i prawdziwych w populacji. Średnia wyników otrzyma- wyników otrzymanych i prawdziwych w populacji. Średnia wyników otrzyma-
nych to najbardziej prawdopodobny wynik w próbie i w populacji. Oznacza to, nych to najbardziej prawdopodobny wynik w próbie i w populacji. Oznacza to,
że najwięcej osób uzyskuje wyniki leżące blisko średniej. Jeśli więc ktoś uzyskał że najwięcej osób uzyskuje wyniki leżące blisko średniej. Jeśli więc ktoś uzyskał
w badaniu wynik leżący w dużej odległości od średniej, to oczywiście istnie- w badaniu wynik leżący w dużej odległości od średniej, to oczywiście istnie-
196 je pewne prawdopodobieństwo, że jest to osoba mocno nietypowa (o skrajnym 196 je pewne prawdopodobieństwo, że jest to osoba mocno nietypowa (o skrajnym

nasileniu cechy). Możliwe też jest, że wynik otrzymany tej osoby jest w jakimś nasileniu cechy). Możliwe też jest, że wynik otrzymany tej osoby jest w jakimś
stopniu zniekształcony przez błąd pomiaru. Jeśli tak, to jej wynik prawdziwy stopniu zniekształcony przez błąd pomiaru. Jeśli tak, to jej wynik prawdziwy
będzie z większym prawdopodobieństwem leżał po tej stronie wyniku otrzyma- będzie z większym prawdopodobieństwem leżał po tej stronie wyniku otrzyma-
nego, która jest bliższa średniej. Innymi słowy, wyniki skrajne są mało prawdo- nego, która jest bliższa średniej. Innymi słowy, wyniki skrajne są mało prawdo-
podobne w populacji. Jeśli więc uda nam się napotkać osobę o takim wyniku, to podobne w populacji. Jeśli więc uda nam się napotkać osobę o takim wyniku, to
albo jest to niezwykły zbieg okoliczności, albo konsekwencja znacznego błędu albo jest to niezwykły zbieg okoliczności, albo konsekwencja znacznego błędu
pomiaru. Im bardziej skrajny wynik, tym mniejsze budzi zaufanie. Podejście to pomiaru. Im bardziej skrajny wynik, tym mniejsze budzi zaufanie. Podejście to
jest w oczywisty sposób sprzeczne z założeniem Gulliksena o niezależności błę- jest w oczywisty sposób sprzeczne z założeniem Gulliksena o niezależności błę-
du pomiaru od wyniku prawdziwego osoby. du pomiaru od wyniku prawdziwego osoby.
6.1.6. Standardowy błąd estymacji wyniku prawdziwego 6.1.6. Standardowy błąd estymacji wyniku prawdziwego
Standardowy błąd estymacji wyniku prawdziwego (SEE) jest odchyleniem Standardowy błąd estymacji wyniku prawdziwego (SEE) jest odchyleniem
standardowym w rozkładzie wszystkich potencjalnych estymowanych wyników standardowym w rozkładzie wszystkich potencjalnych estymowanych wyników
prawdziwych dla jednej osoby. Średnia takiego rozkładu to wynik prawdziwy, prawdziwych dla jednej osoby. Średnia takiego rozkładu to wynik prawdziwy,
a więc im większy standardowy błąd estymacji, tym większa przeciętna odle- a więc im większy standardowy błąd estymacji, tym większa przeciętna odle-
głość estymowanych wyników prawdziwych od wyniku prawdziwego. głość estymowanych wyników prawdziwych od wyniku prawdziwego.
Standardowy błąd estymacji można też rozumieć jako odchylenie standardowe Standardowy błąd estymacji można też rozumieć jako odchylenie standardowe
w rozkładzie błędów estymacji wyniku prawdziwego. Przez błąd zwykle rozu- w rozkładzie błędów estymacji wyniku prawdziwego. Przez błąd zwykle rozu-
miemy różnicę między wartością otrzymaną i wartością prawdziwą. W tym przy- miemy różnicę między wartością otrzymaną i wartością prawdziwą. W tym przy-
padku błąd estymacji będzie różnicą między estymowanym wynikiem prawdzi- padku błąd estymacji będzie różnicą między estymowanym wynikiem prawdzi-
wym a wynikiem prawdziwym (równanie 6.17). wym a wynikiem prawdziwym (równanie 6.17).
E′ = T ′ − T (6.17) E′ = T ′ − T (6.17)
Błąd estymacji wyniku prawdziwego (E′) – różnica między estymowanym wyni- Błąd estymacji wyniku prawdziwego (E′) – różnica między estymowanym wyni-
kiem prawdziwym i wynikiem prawdziwym. kiem prawdziwym i wynikiem prawdziwym.
Standardowy błąd estymacji wyniku prawdziwego (SEE) – przeciętna odległość, Standardowy błąd estymacji wyniku prawdziwego (SEE) – przeciętna odległość,
w jakiej leżą estymowane wyniki prawdziwe od wyniku prawdziwego. Jest to od- w jakiej leżą estymowane wyniki prawdziwe od wyniku prawdziwego. Jest to od-
chylenie standardowe w rozkładzie wszystkich możliwych dla osoby estymowanych chylenie standardowe w rozkładzie wszystkich możliwych dla osoby estymowanych
wyników prawdziwych lub w rozkładzie błędów estymacji wyniku prawdziwego. wyników prawdziwych lub w rozkładzie błędów estymacji wyniku prawdziwego.
Standardowy błąd estymacji wyznacza się na podstawie aparatu matematycz- Standardowy błąd estymacji wyznacza się na podstawie aparatu matematycz-
nego charakterystycznego dla analizy regresji prostoliniowej. W konsekwencji nego charakterystycznego dla analizy regresji prostoliniowej. W konsekwencji
dostajemy prosty wzór zapisany w równaniu 6.18. dostajemy prosty wzór zapisany w równaniu 6.18.
SEE = rt t SEM (6.18) SEE = rt t SEM (6.18)
Wiedząc, że współczynnik korelacji rtt jest zwykle wartością mniejszą od je- Wiedząc, że współczynnik korelacji rtt jest zwykle wartością mniejszą od je-
dynki, łatwo przewidzieć, że standardowy błąd estymacji (SEE) będzie zwykle dynki, łatwo przewidzieć, że standardowy błąd estymacji (SEE) będzie zwykle
mniejszy niż standardowy błąd pomiaru (SEM). To właśnie sprawia, że w tym 197 mniejszy niż standardowy błąd pomiaru (SEM). To właśnie sprawia, że w tym 197

samym teście i dla tej samej osoby przedział ufności wyznaczony na podstawie samym teście i dla tej samej osoby przedział ufności wyznaczony na podstawie
standardowego błędu estymacji będzie węższy niż przedział wyznaczony na pod- standardowego błędu estymacji będzie węższy niż przedział wyznaczony na pod-
stawie standardowego błędu pomiaru. Zależność obu standardowych błędów od stawie standardowego błędu pomiaru. Zależność obu standardowych błędów od
współczynnika rzetelności została pokazana na rys. 6.6. Widać na nim, że linia współczynnika rzetelności została pokazana na rys. 6.6. Widać na nim, że linia
wykresu dla standardowego błędu estymacji jest prawie zawsze poniżej linii dla wykresu dla standardowego błędu estymacji jest prawie zawsze poniżej linii dla
standardowego błędu pomiaru. standardowego błędu pomiaru.
Intuicyjnie można ten efekt wytłumaczyć charakterystyką estymowanego Intuicyjnie można ten efekt wytłumaczyć charakterystyką estymowanego
wyniku prawdziwego. Zgodnie z jego definicją leży on zwykle bliżej średniej wyniku prawdziwego. Zgodnie z jego definicją leży on zwykle bliżej średniej
niż wynik otrzymany. W rozkładzie wszystkich potencjalnych wyników otrzy- niż wynik otrzymany. W rozkładzie wszystkich potencjalnych wyników otrzy-
manych dla jednej osoby średnia to wynik prawdziwy. Gdybyśmy dla każdego manych dla jednej osoby średnia to wynik prawdziwy. Gdybyśmy dla każdego
z tych wyników otrzymanych obliczyli estymowany wynik prawdziwy, to zwykle z tych wyników otrzymanych obliczyli estymowany wynik prawdziwy, to zwykle
leżałby on bliżej średniej, czyli bliżej wyniku prawdziwego. W efekcie rozkład leżałby on bliżej średniej, czyli bliżej wyniku prawdziwego. W efekcie rozkład
wyników estymowanych miałby mniejsze odchylenie standardowe, czyli mniej- wyników estymowanych miałby mniejsze odchylenie standardowe, czyli mniej-
szy błąd standardowy, niż rozkład wyników otrzymanych. szy błąd standardowy, niż rozkład wyników otrzymanych.
Rysunek 6.6. Standardowy błąd pomiaru (SEM) i standardowy błąd estymacji wyniku Rysunek 6.6. Standardowy błąd pomiaru (SEM) i standardowy błąd estymacji wyniku
prawdziwego (SEE) w funkcji współczynnika rzetelności (rtt) prawdziwego (SEE) w funkcji współczynnika rzetelności (rtt)
Wykres dla standardowego błędu pomiaru (SEM) z rys. 6.6. pokazuje typo- Wykres dla standardowego błędu pomiaru (SEM) z rys. 6.6. pokazuje typo-
wą zależność pomiędzy standardowym błędem a rzetelnością pomiaru testem. wą zależność pomiędzy standardowym błędem a rzetelnością pomiaru testem.
Natomiast zależność pokazywana przez wykres dla standardowego błędu esty- Natomiast zależność pokazywana przez wykres dla standardowego błędu esty-
macji (SEE) jest z pewnych względów nietypowa. Zgodnie z intuicją wielkość macji (SEE) jest z pewnych względów nietypowa. Zgodnie z intuicją wielkość
standardowego błędu wykorzystywanego w psychometrii powinna monotonicz- standardowego błędu wykorzystywanego w psychometrii powinna monotonicz-
nie maleć wraz ze wzrostem rzetelności pomiaru testem – im dokładniejszy test, nie maleć wraz ze wzrostem rzetelności pomiaru testem – im dokładniejszy test,
tym mniejsze błędy popełniamy przy jego użyciu i tym mniejsze odchylenia tym mniejsze błędy popełniamy przy jego użyciu i tym mniejsze odchylenia
wyników otrzymanych od wyniku prawdziwego. W przypadku standardowego wyników otrzymanych od wyniku prawdziwego. W przypadku standardowego
błędu estymacji tego rodzaju zależność widoczna jest tylko w prawej połówce błędu estymacji tego rodzaju zależność widoczna jest tylko w prawej połówce
wykresu dla współczynników rzetelności większych niż 0,50. Gdy rzetelność jest wykresu dla współczynników rzetelności większych niż 0,50. Gdy rzetelność jest
198 mniejsza niż 0,50, wtedy wraz ze wzrostem rzetelności pomiaru testem wzra- 198 mniejsza niż 0,50, wtedy wraz ze wzrostem rzetelności pomiaru testem wzra-

sta również wielkość standardowego błędu. Na szczęście raczej nie stosujemy sta również wielkość standardowego błędu. Na szczęście raczej nie stosujemy
w praktyce testów o rzetelności mniejszej niż 0,50, ale gdybyśmy takim testem w praktyce testów o rzetelności mniejszej niż 0,50, ale gdybyśmy takim testem
dysponowali, to paradoksalnie mógłby on dawać węższe przedziały ufności niż dysponowali, to paradoksalnie mógłby on dawać węższe przedziały ufności niż
lepszy test o współczynniku rzetelności powyżej 0,50. lepszy test o współczynniku rzetelności powyżej 0,50.
6.1.7. Przedział ufności dla estymowanego wyniku prawdziwego 6.1.7. Przedział ufności dla estymowanego wyniku prawdziwego
Przedział ten wyznaczamy według analogicznej metody co inne omawiane wcze- Przedział ten wyznaczamy według analogicznej metody co inne omawiane wcze-
śniej przedziały. Została ona zilustrowana na rys. 6.7. Szczegóły opisane są w czę- śniej przedziały. Została ona zilustrowana na rys. 6.7. Szczegóły opisane są w czę-
ści dotyczącej przedziału ufności dla wyniku otrzymanego (por. rozdział 6.1.2.). ści dotyczącej przedziału ufności dla wyniku otrzymanego (por. rozdział 6.1.2.).
Rysunek 6.7. Rozkład wszystkich potencjalnych estymowanych wyników prawdziwych Rysunek 6.7. Rozkład wszystkich potencjalnych estymowanych wyników prawdziwych
dla jednej osoby i ilustracja pojęcia przedziału ufności dla estymowanego wyniku praw dla jednej osoby i ilustracja pojęcia przedziału ufności dla estymowanego wyniku praw
dziwego dziwego
Jeśli przedział symetryczny względem wyniku prawdziwego (oznaczony na Jeśli przedział symetryczny względem wyniku prawdziwego (oznaczony na
rys. 6.7. linią ciągłą) z określonym prawdopodobieństwem 1-α obejmuje każdy rys. 6.7. linią ciągłą) z określonym prawdopodobieństwem 1-α obejmuje każdy
możliwy do uzyskania przez osobę estymowany wynik prawdziwy, to przedział możliwy do uzyskania przez osobę estymowany wynik prawdziwy, to przedział
ufności o takiej samej szerokości, ale symetryczny względem dowolnego esty- ufności o takiej samej szerokości, ale symetryczny względem dowolnego esty-
mowanego wyniku prawdziwego (oznaczony na rys. 6.7. linią przerywaną) bę- mowanego wyniku prawdziwego (oznaczony na rys. 6.7. linią przerywaną) bę-
dzie z takim samym prawdopodobieństwem 1-α obejmował wynik prawdziwy. dzie z takim samym prawdopodobieństwem 1-α obejmował wynik prawdziwy.
Oczywiście dla diagnosty dostępna jest tylko dolna część rysunku, ale na podsta- Oczywiście dla diagnosty dostępna jest tylko dolna część rysunku, ale na podsta-
wie obu części – dolnej empirycznej i górnej hipotetycznej – widać, że niektóre wie obu części – dolnej empirycznej i górnej hipotetycznej – widać, że niektóre
przedziały ufności będą obejmowały wynik prawdziwy (prawy przedział zazna- przedziały ufności będą obejmowały wynik prawdziwy (prawy przedział zazna-
czony linią przerywaną), a inne nie (lewy przedział zaznaczony linia przerywa- czony linią przerywaną), a inne nie (lewy przedział zaznaczony linia przerywa-
ną). Zatem diagnosta musi się liczyć z tym, że czasem wyznaczony przez niego 199 ną). Zatem diagnosta musi się liczyć z tym, że czasem wyznaczony przez niego 199

przedział ufności nie będzie określał rzeczywistego nasilenia mierzonej cechy. przedział ufności nie będzie określał rzeczywistego nasilenia mierzonej cechy.
Jego wnioski formułowane na podstawie wyników testowych będą wtedy błędne. Jego wnioski formułowane na podstawie wyników testowych będą wtedy błędne.
Prawdopodobieństwo takiego błędu określone jest przez poziom istotności α. Prawdopodobieństwo takiego błędu określone jest przez poziom istotności α.
6.1.7.1. Obliczanie przedziału ufności dla estymowanego wyniku 6.1.7.1. Obliczanie przedziału ufności dla estymowanego wyniku
prawdziwego prawdziwego
Przedział ten oblicza się równie łatwo jak przedział dla wyniku otrzymanego. Przedział ten oblicza się równie łatwo jak przedział dla wyniku otrzymanego.
Należy tylko pamiętać, że jest to przedział symetryczny względem estymowa- Należy tylko pamiętać, że jest to przedział symetryczny względem estymowa-
nego wyniku prawdziwego. Zanim przystąpimy więc do wyznaczania samego nego wyniku prawdziwego. Zanim przystąpimy więc do wyznaczania samego
przedziału należy wcześniej obliczyć estymowany wynik prawdziwy posługując przedziału należy wcześniej obliczyć estymowany wynik prawdziwy posługując
się równaniem 6.16. Następnie obliczamy sam przedział ufności według równa- się równaniem 6.16. Następnie obliczamy sam przedział ufności według równa-
nia 6.19. Przykład obliczeń pokazany jest w ramce. nia 6.19. Przykład obliczeń pokazany jest w ramce.
P (T ′ − zα ⋅ SEE ≤ T ≤ T ′ + zα ⋅ SEE ) = 1 − α (6.19) P (T ′ − zα ⋅ SEE ≤ T ≤ T ′ + zα ⋅ SEE ) = 1 − α (6.19)
Mężczyzna w wieku 22 lat uzyskał w teście wynik równy 39 punktom. Z podręcznika Mężczyzna w wieku 22 lat uzyskał w teście wynik równy 39 punktom. Z podręcznika
do testu możemy się dowiedzieć, że jego współczynnik rzetelności obliczony dla pró- do testu możemy się dowiedzieć, że jego współczynnik rzetelności obliczony dla pró-
by mężczyzn w tym wieku wynosi na przykład 0,69, odchylenie standardowe wyni- by mężczyzn w tym wieku wynosi na przykład 0,69, odchylenie standardowe wyni-
ków otrzymanych jest równe 3,50, a średnia wyników otrzymanych wynosi 25. Na tej ków otrzymanych jest równe 3,50, a średnia wyników otrzymanych wynosi 25. Na tej
podstawie możemy policzyć estymowany wynik prawdziwy osoby (równanie 16) podstawie możemy policzyć estymowany wynik prawdziwy osoby (równanie 16)
T ′ = 0, 69 ⋅ 39 + (1 − 0, 69) ⋅ 25 = 34, 66 T ′ = 0, 69 ⋅ 39 + (1 − 0, 69) ⋅ 25 = 34, 66

standardowy błąd pomiaru (równanie 6.1) standardowy błąd pomiaru (równanie 6.1)
SEM = 3, 50 1 − 0, 69 = 1, 95 SEM = 3, 50 1 − 0, 69 = 1, 95
oraz standardowy błąd estymacji wyniku prawdziwego (równanie 6.18) oraz standardowy błąd estymacji wyniku prawdziwego (równanie 6.18)
SEE = 0, 69 ⋅ 1, 95 = 1, 62 . SEE = 0, 69 ⋅ 1, 95 = 1, 62 .
zα=1,64. Możemy teraz obliczyć przedział ufności dla wyniku otrzymanego tej oso- zα=1,64. Możemy teraz obliczyć przedział ufności dla wyniku otrzymanego tej oso-
by. by.
P ( 34, 66 − 1, 64 ⋅ 1, 62 ≤ X ∞ ≤ 34, 66 + 1, 64 ⋅ 1, 62) = 1 − α P ( 34, 66 − 1, 64 ⋅ 1, 62 ≤ X ∞ ≤ 34, 66 + 1, 64 ⋅ 1, 62) = 1 − α
P ( 32, 00 ≤ X ∞ ≤ 37, 32) = 1 − α P ( 32, 00 ≤ X ∞ ≤ 37, 32) = 1 − α

Granice przedziału ufności zwykle zaokrąglamy do wartości całkowitych. Zatem wy- Granice przedziału ufności zwykle zaokrąglamy do wartości całkowitych. Zatem wy-
nik prawdziwy osoby będzie znajdował się w przedziale od 32 do 37 punktów z praw- nik prawdziwy osoby będzie znajdował się w przedziale od 32 do 37 punktów z praw-
dopodobieństwem 0,90. dopodobieństwem 0,90.
200 200

Przedział ufności dla estymowanego wyniku prawdziwego zwykle nie jest Przedział ufności dla estymowanego wyniku prawdziwego zwykle nie jest
symetryczny względem wyniku otrzymanego, bo jest symetryczny względem symetryczny względem wyniku otrzymanego, bo jest symetryczny względem
estymowanego wyniku prawdziwego. Czasem jednak może się zdarzyć, tak jak estymowanego wyniku prawdziwego. Czasem jednak może się zdarzyć, tak jak
w powyższym przykładzie obliczeń, że tego typu przedział ufności wręcz nie bę- w powyższym przykładzie obliczeń, że tego typu przedział ufności wręcz nie bę-
dzie obejmował wyniku otrzymanego. Taka sytuacja może zachodzić wtedy, gdy dzie obejmował wyniku otrzymanego. Taka sytuacja może zachodzić wtedy, gdy
estymowany wynik prawdziwy będzie bardzo oddalony od wyniku otrzymanego, estymowany wynik prawdziwy będzie bardzo oddalony od wyniku otrzymanego,
a więc wtedy, gdy test ma dość słabą rzetelność oraz wynik otrzymany znajduje a więc wtedy, gdy test ma dość słabą rzetelność oraz wynik otrzymany znajduje
się daleko od średniej wyników otrzymanych. W przykładzie obliczeń oba te się daleko od średniej wyników otrzymanych. W przykładzie obliczeń oba te
warunki są spełnione. warunki są spełnione.
Przedział ufności dla estymowanego wyniku prawdziwego interpretuje się Przedział ufności dla estymowanego wyniku prawdziwego interpretuje się
dokładnie tak samo, jak przedział dla wyniku otrzymanego. Z prawdopodobień- dokładnie tak samo, jak przedział dla wyniku otrzymanego. Z prawdopodobień-
stwem 1-α ufamy, że przedział ten zawiera wynik prawdziwy. stwem 1-α ufamy, że przedział ten zawiera wynik prawdziwy.
Literatura zalecana Literatura zalecana

Anastasi A., Urbina, S. (1999). Testy psychologiczne. Warszawa: Pracownia Testów Anastasi A., Urbina, S. (1999). Testy psychologiczne. Warszawa: Pracownia Testów
Psychologicznych PTP. (Str. 150 – 155). Psychologicznych PTP. (Str. 150 – 155).
(Str. 461–466). (Str. 461–466).
(Str. 63 – 69). (Str. 63 – 69).
str. 119–147). str. 119–147).
Zadania Zadania
1. 1.
Wynik otrzymany osoby w teście o współczynniku rzetelności 0,87 wynosi 48. Wynik otrzymany osoby w teście o współczynniku rzetelności 0,87 wynosi 48.
Oblicz przedział ufności przy α=0,1, gdy wiadomo, że odchylenie standardowe Oblicz przedział ufności przy α=0,1, gdy wiadomo, że odchylenie standardowe
wyników otrzymanych w próbie walidacyjnej wynosiło 11,5. Zinterpretuj wy- wyników otrzymanych w próbie walidacyjnej wynosiło 11,5. Zinterpretuj wy-
nik. nik.
2. 2.
Obliczyć przedziały ufności dla podanych wyników przy α=0,05: Obliczyć przedziały ufności dla podanych wyników przy α=0,05:
a) st=10; rtt=0,90; Xt=55; a) st=10; rtt=0,90; Xt=55;
b) st=15; rtt=0,95; Xt=60; b) st=15; rtt=0,95; Xt=60;
c) st=2; rtt=0,85; Xt=6. c) st=2; rtt=0,85; Xt=6.
3. 3.
Przedział ufności dla wyniku otrzymanego obliczony przy α=0,05 wynosi Przedział ufności dla wyniku otrzymanego obliczony przy α=0,05 wynosi
<11; 19>. <11; 19>.
a) Oblicz wynik otrzymany tej osoby. a) Oblicz wynik otrzymany tej osoby.
201 201

b) Oblicz półprzedział ufności. b) Oblicz półprzedział ufności.

c) Oblicz SEM. c) Oblicz SEM.
d) Oblicz przedział dla tej osoby przy α=0,10. d) Oblicz przedział dla tej osoby przy α=0,10.
e) Oblicz przedział dla innej osoby o wyniku otrzymanym X=17 przy α=0,15. e) Oblicz przedział dla innej osoby o wyniku otrzymanym X=17 przy α=0,15.
4. 4.
Wyniki otrzymane dwóch osób wynoszą XA=12 i XB=17. Dane są też rttA=0,90; Wyniki otrzymane dwóch osób wynoszą XA=12 i XB=17. Dane są też rttA=0,90;
rttB=0,87; sXA=4. Jakie musi być odchylenie standardowe wyników dla osoby B rttB=0,87; sXA=4. Jakie musi być odchylenie standardowe wyników dla osoby B
(sXB), aby górna granica przedziału ufności dla osoby A pokrywała się z dolną (sXB), aby górna granica przedziału ufności dla osoby A pokrywała się z dolną
granicą przedziału ufności dla osoby B, gdyby oba te przedziały zostały wyzna- granicą przedziału ufności dla osoby B, gdyby oba te przedziały zostały wyzna-
czone przy α=0,10? czone przy α=0,10?
5. 5.
Współczynnik rzetelności testu wynosi 0,91. W próbie walidacyjnej średnia Współczynnik rzetelności testu wynosi 0,91. W próbie walidacyjnej średnia
wyników otrzymanych była równa 41, a odchylenie standardowe 9,3. Wyznacz wyników otrzymanych była równa 41, a odchylenie standardowe 9,3. Wyznacz
przedział ufności dla estymowanego wyniku prawdziwego tej osoby przy α=0,10, przedział ufności dla estymowanego wyniku prawdziwego tej osoby przy α=0,10,
gdy wynik otrzymany wynosi 49. Zinterpretuj wynik. gdy wynik otrzymany wynosi 49. Zinterpretuj wynik.
6. 6.
Przedział ufności dla estymowanego wyniku prawdziwego obliczony przy α=0,05 Przedział ufności dla estymowanego wyniku prawdziwego obliczony przy α=0,05
wynosi <24; 36>. wynosi <24; 36>.
a) Oblicz estymowany wynik prawdziwy tej osoby. a) Oblicz estymowany wynik prawdziwy tej osoby.
b) Oblicz półprzedział ufności. b) Oblicz półprzedział ufności.
c) Oblicz SEE. c) Oblicz SEE.
d) Oblicz przedział przy α=0,15. d) Oblicz przedział przy α=0,15.
e) Oblicz przedział dla innej osoby o estymowanym wyniku prawdziwym T’=18 e) Oblicz przedział dla innej osoby o estymowanym wyniku prawdziwym T’=18
przy α=0,10. przy α=0,10.
7. 7.
Estymowany wynik prawdziwy osoby w teście o współczynniku rzetelności 0,88 Estymowany wynik prawdziwy osoby w teście o współczynniku rzetelności 0,88
wynosi 34. Oblicz wynik otrzymany tej osoby, gdy wiadomo, że średnia wyni- wynosi 34. Oblicz wynik otrzymany tej osoby, gdy wiadomo, że średnia wyni-
ków otrzymanych w próbie walidacyjnej była równa 30. ków otrzymanych w próbie walidacyjnej była równa 30.
8. 8.
Wynik otrzymany przy badaniu testem o rzetelności 0,79 wynosi 17. Jaka musi Wynik otrzymany przy badaniu testem o rzetelności 0,79 wynosi 17. Jaka musi
być wartość sX, aby wynik otrzymany leżał poza granicami przedziału ufności dla być wartość sX, aby wynik otrzymany leżał poza granicami przedziału ufności dla
SEE, gdy średnia wyników otrzymanych w próbie była równa 12, a α=0,10? SEE, gdy średnia wyników otrzymanych w próbie była równa 12, a α=0,10?
9. 9.
Przedział ufności zbudowany na podstawie SEM dla α=0,10 wynosi <24,3; Przedział ufności zbudowany na podstawie SEM dla α=0,10 wynosi <24,3;
29,7>. Wiedząc, że współczynnik rzetelności jest równy 0,893, a średnia wyni- 29,7>. Wiedząc, że współczynnik rzetelności jest równy 0,893, a średnia wyni-
202 ków otrzymanych w próbie 31 oblicz przedział ufności dla SEE. 202 ków otrzymanych w próbie 31 oblicz przedział ufności dla SEE.

10. 10.
Dwie kobiety w tym samym wieku uzyskały w teście wyniki 19 i 16. Czy różnią Dwie kobiety w tym samym wieku uzyskały w teście wyniki 19 i 16. Czy różnią
się one pod względem mierzonej cechy na poziomie 0,10, gdy st=3,2; rtt=0,86? się one pod względem mierzonej cechy na poziomie 0,10, gdy st=3,2; rtt=0,86?
Sformułuj poprawną odpowiedź. Sformułuj poprawną odpowiedź.
11. 11.
Standardowy błąd różnicy wynosi 1,7. Ile musi wynosić różnica między wynika- Standardowy błąd różnicy wynosi 1,7. Ile musi wynosić różnica między wynika-
mi otrzymanymi, aby uznać ją za istotną na poziomie 0,15? mi otrzymanymi, aby uznać ją za istotną na poziomie 0,15?

1. <43,85; 52,15>; po zaokrągleniu <44; 52>. Wynik prawdziwy osoby znaj- 1. <43,85; 52,15>; po zaokrągleniu <44; 52>. Wynik prawdziwy osoby znaj-
duje się w przedziale pomiędzy wynikami 44 i 52 z prawdopodobieństwem duje się w przedziale pomiędzy wynikami 44 i 52 z prawdopodobieństwem
0,90. 0,90.
2a. SEM=3,2; <48,73; 61,27>; po zaokrągleniu <49; 61>. 2a. SEM=3,2; <48,73; 61,27>; po zaokrągleniu <49; 61>.
2b. SEM=3,35; <53,43; 66,57>; po zaokrągleniu <53; 67>. 2b. SEM=3,35; <53,43; 66,57>; po zaokrągleniu <53; 67>.
2c. SEM=0,77; <4,49; 7,51>; po zaokrągleniu <4; 8>. 2c. SEM=0,77; <4,49; 7,51>; po zaokrągleniu <4; 8>.
3a. X=15 (środek przedziału ufności). 3a. X=15 (środek przedziału ufności).
3b. zαSEM=4 (połowa przedziału ufności). 3b. zαSEM=4 (połowa przedziału ufności).
3c. SEM=2,04. 3c. SEM=2,04.
3d. <11,65; 18,35>; po zaokrągleniu <12; 18>. 3d. <11,65; 18,35>; po zaokrągleniu <12; 18>.
3e. <14,06; 19,94>; po zaokrągleniu <14; 20>. 3e. <14,06; 19,94>; po zaokrągleniu <14; 20>.
4. sXB=4,96. 4. sXB=4,96.
5. T’=48,28; SEM=2,79; SEE=2,66; <43,92; 52,64>; po zaokrągleniu <44; 5. T’=48,28; SEM=2,79; SEE=2,66; <43,92; 52,64>; po zaokrągleniu <44;
53>. Wynik prawdziwy osoby badanej znajduje się w przedziale pomiędzy 53>. Wynik prawdziwy osoby badanej znajduje się w przedziale pomiędzy
wynikami 44 i 53 z prawdopodobieństwem 0,90. wynikami 44 i 53 z prawdopodobieństwem 0,90.
6a. T’=30 (środek przedziału ufności). 6a. T’=30 (środek przedziału ufności).
6b. zαSEE=6 (połowa przedziału ufności). 6b. zαSEE=6 (połowa przedziału ufności).
6c. SEE=3,06. 6c. SEE=3,06.
6d. <25,59; 34,41>; po zaokrągleniu <26; 34>. 6d. <25,59; 34,41>; po zaokrągleniu <26; 34>.
6e. <12,98; 23,02>; po zaokrągleniu <13; 23>. 6e. <12,98; 23,02>; po zaokrągleniu <13; 23>.
7. X=34,55. 7. X=34,55.
8. sX<1,56. 8. sX<1,56.
9. <24,87; 29,99>; po zaokrągleniu <25; 30>; 203 9. <24,87; 29,99>; po zaokrągleniu <25; 30>; 203

10. SEM1=SEM2=1,2; SEMD=1,69; zαSEMD=2,78; Różnica otrzymana równa 10. SEM1=SEM2=1,2; SEMD=1,69; zαSEMD=2,78; Różnica otrzymana równa
3 jest istotna statystycznie na poziomie 0,10, a więc dwie kobiety różnią się 3 jest istotna statystycznie na poziomie 0,10, a więc dwie kobiety różnią się
pod względem mierzonej cechy z prawdopodobieństwem 0,90. pod względem mierzonej cechy z prawdopodobieństwem 0,90.
11. Wartość bezwzględna różnicy otrzymanej musi być większa niż 2,45. 11. Wartość bezwzględna różnicy otrzymanej musi być większa niż 2,45.
204 204

6.2. Normy i normalizacja1 6.2. Normy i normalizacja1
6.2.1. Norma i normy 6.2.1. Norma i normy

Norma diagnostyczna to nasilenie cechy, które w populacji występuje najczę- Norma diagnostyczna to nasilenie cechy, które w populacji występuje najczę-
ściej. Przyjmując dość powszechne założenie, że większość cech psychicznych ściej. Przyjmując dość powszechne założenie, że większość cech psychicznych
ma w populacji rozkład normalny, można uznać, że normę w psychometrii sta- ma w populacji rozkład normalny, można uznać, że normę w psychometrii sta-
nowi wynik równy średniej lub leżący blisko niej (rys. 6.8.). Zwykle bierze się nowi wynik równy średniej lub leżący blisko niej (rys. 6.8.). Zwykle bierze się
tu pod uwagę przedział wyników, uznając, że norma nie może się ograniczać tu pod uwagę przedział wyników, uznając, że norma nie może się ograniczać
tylko do pojedynczej wartości równej średniej arytmetycznej. Jest to przedział tylko do pojedynczej wartości równej średniej arytmetycznej. Jest to przedział
zawsze symetryczny względem średniej, ale jego szerokość jest raczej uznanio- zawsze symetryczny względem średniej, ale jego szerokość jest raczej uznanio-
wa. W medycynie, dziedzinie zajmującej się wykrywaniem i leczeniem zabu- wa. W medycynie, dziedzinie zajmującej się wykrywaniem i leczeniem zabu-
rzeń, osobę o nasileniu cechy leżącym poza normą często uznaje się za chorą. rzeń, osobę o nasileniu cechy leżącym poza normą często uznaje się za chorą.
Zatem w tym przypadku przedział określany jako norma musi być dostatecznie Zatem w tym przypadku przedział określany jako norma musi być dostatecznie
szeroki i obejmować znaczną część osób z populacji. W obszarach psychologii, szeroki i obejmować znaczną część osób z populacji. W obszarach psychologii,
które nie zajmują się zagadnieniami klinicznymi norma może mieć zakres nieco które nie zajmują się zagadnieniami klinicznymi norma może mieć zakres nieco
węższy. Pełni ona wtedy rolę systematyzującą. Diagnosta może ocenić, że ma do węższy. Pełni ona wtedy rolę systematyzującą. Diagnosta może ocenić, że ma do
czynienia z osobą typową na tle populacji, gdy jej wynik znajduje się w przedzia- czynienia z osobą typową na tle populacji, gdy jej wynik znajduje się w przedzia-
le normy, lub z osobą o nasileniu cechy nieco wyższym lub niższym niż typowe. le normy, lub z osobą o nasileniu cechy nieco wyższym lub niższym niż typowe.
Nie jest to jednak równoznaczne z oceną na wymiarze zdrowy–chory. W tego Nie jest to jednak równoznaczne z oceną na wymiarze zdrowy–chory. W tego
rodzaju sytuacjach często przedział wyników zbliżonych do średniej określa się rodzaju sytuacjach często przedział wyników zbliżonych do średniej określa się
jako „przedział wyników przeciętnych”. Unika się w ten sposób oceniającego jako „przedział wyników przeciętnych”. Unika się w ten sposób oceniającego
charakteru słowa „norma” i skojarzenia z epitetem „nienormalny”. charakteru słowa „norma” i skojarzenia z epitetem „nienormalny”.
W diagnostyce psychologicznej zwykle przyjmuje się, że przedział przecięt- W diagnostyce psychologicznej zwykle przyjmuje się, że przedział przecięt-
ny obejmuje wyniki oddalone od średniej nie bardziej niż o jedno odchylenie ny obejmuje wyniki oddalone od średniej nie bardziej niż o jedno odchylenie
standardowe. Można sobie jednak wyobrazić, że w określonych okolicznościach standardowe. Można sobie jednak wyobrazić, że w określonych okolicznościach
diagnosta przyjmie inne granice przedziału normy. Mogą być one usytuowane diagnosta przyjmie inne granice przedziału normy. Mogą być one usytuowane
nieco dalej od średniej i wtedy norma będzie miała charakter bardziej liberalny. nieco dalej od średniej i wtedy norma będzie miała charakter bardziej liberalny.
W takiej sytuacji więcej osób niż zwykle uznamy za typowe. Natomiast za odbie- W takiej sytuacji więcej osób niż zwykle uznamy za typowe. Natomiast za odbie-
gającą od normy pod jakimś względem uznamy osobę o rzeczywiście skrajnym gającą od normy pod jakimś względem uznamy osobę o rzeczywiście skrajnym
wyniku. wyniku.
Granice normy można też zawęzić. Wtedy powstanie norma elitarna – tylko Granice normy można też zawęzić. Wtedy powstanie norma elitarna – tylko
stosunkowo nieduża grupa osób zostanie uznana za typową. Manipulowanie sze- stosunkowo nieduża grupa osób zostanie uznana za typową. Manipulowanie sze-
rokością przedziału wyników typowych nie jest oczywiście operacją zalecaną, rokością przedziału wyników typowych nie jest oczywiście operacją zalecaną,
ale w różnych okolicznościach może być ona podyktowana przesłankami o cha- ale w różnych okolicznościach może być ona podyktowana przesłankami o cha-
rakterze ekonomicznym, formalnym, politycznym lub innym. rakterze ekonomicznym, formalnym, politycznym lub innym.
1 1
UW w 2008 roku. 205 UW w 2008 roku. 205

Rysunek 6.8. Normalny rozkład hipotetycznej cechy psychicznej i ilustracja pojęcia nor Rysunek 6.8. Normalny rozkład hipotetycznej cechy psychicznej i ilustracja pojęcia nor
my my
Norma – przedział określający nasilenie cechy, które w populacji występuje najczę- Norma – przedział określający nasilenie cechy, które w populacji występuje najczę-
ściej. ściej.
Normy – statystyczny układ odniesienia, który pozwala precyzyjnie określić nasile- Normy – statystyczny układ odniesienia, który pozwala precyzyjnie określić nasile-
nie cechy danej osoby względem innych osób z populacji. Normy zwykle mają postać nie cechy danej osoby względem innych osób z populacji. Normy zwykle mają postać
tabel służących do przeliczania wyników surowych na jednostki specjalnej skali. tabel służących do przeliczania wyników surowych na jednostki specjalnej skali.
Znając granice przedziału uznanego za normę, można powiedzieć na podstawie Znając granice przedziału uznanego za normę, można powiedzieć na podstawie
wyniku testowego, że nasilenie cechy danej osoby jest typowe, niższe lub wyższe wyniku testowego, że nasilenie cechy danej osoby jest typowe, niższe lub wyższe
niż typowe. Czasami jednak zachodzi potrzeba bardziej precyzyjnego różnico- niż typowe. Czasami jednak zachodzi potrzeba bardziej precyzyjnego różnico-
wania. Nie zawsze zadowalające jest stwierdzenie, że nasilenie cechy osoby ba- wania. Nie zawsze zadowalające jest stwierdzenie, że nasilenie cechy osoby ba-
danej jest na przykład wyższe niż typowe. Diagnostę może interesować również danej jest na przykład wyższe niż typowe. Diagnostę może interesować również
to, o ile jest wyższe. Można się tu posłużyć standaryzacją i za jednostkę uznać to, o ile jest wyższe. Można się tu posłużyć standaryzacją i za jednostkę uznać
odchylenie standardowe. Stwierdzenie, że wynik konkretnej osoby jest wyższy odchylenie standardowe. Stwierdzenie, że wynik konkretnej osoby jest wyższy
od średniej o 2 odchylenia standardowe daje możliwość dokładniejszego uchwy- od średniej o 2 odchylenia standardowe daje możliwość dokładniejszego uchwy-
cenia odległości między wynikiem otrzymanym a średnią wyników w próbie czy cenia odległości między wynikiem otrzymanym a średnią wyników w próbie czy
populacji. Jest to informacja dość precyzyjna, ale może też mieć bardziej uży- populacji. Jest to informacja dość precyzyjna, ale może też mieć bardziej uży-
teczną interpretację. Na podstawie charakterystyki rozkładu normalnego można teczną interpretację. Na podstawie charakterystyki rozkładu normalnego można
sprawdzić, że wyniki takie, jak ta osoba lub jeszcze wyższe uzyskuje zaledwie sprawdzić, że wyniki takie, jak ta osoba lub jeszcze wyższe uzyskuje zaledwie
nieco ponad 2,5% osób z populacji. Jest to więc wynik bardzo wysoki na tle nieco ponad 2,5% osób z populacji. Jest to więc wynik bardzo wysoki na tle
tej populacji. Dla takich precyzyjnych diagnoz musimy dysponować normami, tej populacji. Dla takich precyzyjnych diagnoz musimy dysponować normami,
czyli statystycznym układem odniesienia, a proces, który umożliwia stworzenie czyli statystycznym układem odniesienia, a proces, który umożliwia stworzenie
systemu norm, to tak zwana normalizacja. Jest on możliwy tylko wtedy, gdy systemu norm, to tak zwana normalizacja. Jest on możliwy tylko wtedy, gdy
empiryczny rozkład wyników testowych w próbie jest co najmniej podobny do empiryczny rozkład wyników testowych w próbie jest co najmniej podobny do
rozkładu normalnego. Jeśli tak nie jest, to pozostają nam kwantyle, czyli normy rozkładu normalnego. Jeśli tak nie jest, to pozostają nam kwantyle, czyli normy
o charakterze procentowym pokazujące frakcje określonych wyników w próbie. o charakterze procentowym pokazujące frakcje określonych wyników w próbie.
Wszystkie te rodzaje norm zostaną szczegółowo opisane dalej. Wszystkie te rodzaje norm zostaną szczegółowo opisane dalej.
206 206

6.2.2. Standaryzacja 6.2.2. Standaryzacja

Z racji tego, że normy stanowią statystyczny układ odniesienia, przy ich kon- Z racji tego, że normy stanowią statystyczny układ odniesienia, przy ich kon-
strukcji należy odwoływać się do wyników testowych uzyskanych przez próbę strukcji należy odwoływać się do wyników testowych uzyskanych przez próbę
osób reprezentujących populację (próba reprezentatywna). Próba taka powinna osób reprezentujących populację (próba reprezentatywna). Próba taka powinna
obejmować wystarczająco dużo osób wylosowanych z populacji. Tylko czyste obejmować wystarczająco dużo osób wylosowanych z populacji. Tylko czyste
losowanie wystarczająco dużej liczby osób daje próbę reprezentatywną ze wzglę- losowanie wystarczająco dużej liczby osób daje próbę reprezentatywną ze wzglę-
du na wszystkie zmienne. Jednak dość często procedurę losowania zastępuje się du na wszystkie zmienne. Jednak dość często procedurę losowania zastępuje się
tańszymi i mniej czasochłonnymi metodami doboru kwotowego, gdzie z góry tańszymi i mniej czasochłonnymi metodami doboru kwotowego, gdzie z góry
zakłada się określona strukturę próby pod względem najbardziej pożądanych zakłada się określona strukturę próby pod względem najbardziej pożądanych
zmiennych (np. płeć, wykształcenie). W konsekwencji próba taka jest mniejsza zmiennych (np. płeć, wykształcenie). W konsekwencji próba taka jest mniejsza
(a więc wygodniejsza), ale niekoniecznie reprezentatywna ze względu na pomi- (a więc wygodniejsza), ale niekoniecznie reprezentatywna ze względu na pomi-
nięte przy jej planowaniu zmienne. nięte przy jej planowaniu zmienne.
Populacja – zbiorowość wszystkich osób (także osobników lub obiektów), które Populacja – zbiorowość wszystkich osób (także osobników lub obiektów), które
spełniają określone kryterium (np. wszyscy Polacy płci męskiej w wieku 20–40 lat). spełniają określone kryterium (np. wszyscy Polacy płci męskiej w wieku 20–40 lat).
Populacja nie musi być duża (np. wszyscy Polacy w wieku powyżej 110 lat), ale sta- Populacja nie musi być duża (np. wszyscy Polacy w wieku powyżej 110 lat), ale sta-
tystyka właściwie zajmuje się tylko populacjami bardzo dużymi, w których pomiar tystyka właściwie zajmuje się tylko populacjami bardzo dużymi, w których pomiar
bezpośredni jest trudny do realizacji. Dla wygody stosowania modeli matematycz- bezpośredni jest trudny do realizacji. Dla wygody stosowania modeli matematycz-
nych często przyjmuje się, że interesująca nas populacja ma liczebność nieskończenie nych często przyjmuje się, że interesująca nas populacja ma liczebność nieskończenie
wielką. wielką.
Próba – część populacji o ograniczonej i zwykle niedużej liczebności. Próba – część populacji o ograniczonej i zwykle niedużej liczebności.
Próba reprezentatywna – próba, która jest odzwierciedleniem populacji pod wzglę- Próba reprezentatywna – próba, która jest odzwierciedleniem populacji pod wzglę-
dem struktury wszystkich zmiennych. Uzyskujemy ją np. poprzez losowanie określo- dem struktury wszystkich zmiennych. Uzyskujemy ją np. poprzez losowanie określo-
nej liczby osób z populacji. nej liczby osób z populacji.
Próba normalizacyjna – reprezentatywna próba osób, których wyniki testowe są Próba normalizacyjna – reprezentatywna próba osób, których wyniki testowe są
podstawą do sporządzenia norm do testu. podstawą do sporządzenia norm do testu.
Pierwszy etap procedury normalizacyjnej sprowadza się do prostej standary- Pierwszy etap procedury normalizacyjnej sprowadza się do prostej standary-
zacji wszystkich wyników z próby. Każdy wynik otrzymany Xi zamieniamy na zacji wszystkich wyników z próby. Każdy wynik otrzymany Xi zamieniamy na
wynik wystandaryzowany zi według równania 6.20. wynik wystandaryzowany zi według równania 6.20.
Xi − x Xi − x
zi = (6.20) zi = (6.20)
s s
Standaryzacja jest zamianą wyniku surowego na wynik względny pokazujący odle- Standaryzacja jest zamianą wyniku surowego na wynik względny pokazujący odle-
głość od średniej w jednostkach odchylenia standardowego. głość od średniej w jednostkach odchylenia standardowego.
Wynik wystandaryzowany zi pokazuje nam, jak daleko od średniej i w któ- Wynik wystandaryzowany zi pokazuje nam, jak daleko od średniej i w któ-
rym kierunku leży wynik otrzymany osoby. Jako jednostki używamy odchylenia rym kierunku leży wynik otrzymany osoby. Jako jednostki używamy odchylenia
standardowego. Wynik wystandaryzowany z=1 oznacza, że odpowiadający mu standardowego. Wynik wystandaryzowany z=1 oznacza, że odpowiadający mu
207 207

wynik surowy jest wyższy od średniej o wielkość równą 1 odchyleniu standar- wynik surowy jest wyższy od średniej o wielkość równą 1 odchyleniu standar-
dowemu. Analogicznie wynik wystandaryzowany z=–1,5 oznacza, że wynik su- dowemu. Analogicznie wynik wystandaryzowany z=–1,5 oznacza, że wynik su-
rowy znajduje się po lewej stronie względem średniej w odległości równej 1,5 rowy znajduje się po lewej stronie względem średniej w odległości równej 1,5
odchylenia standardowego. Jeśli wynik surowy jest równy średniej, to odpowia- odchylenia standardowego. Jeśli wynik surowy jest równy średniej, to odpowia-
dający mu wynik wystandaryzowany będzie równy 0. Zatem to, jaka jest pozycja dający mu wynik wystandaryzowany będzie równy 0. Zatem to, jaka jest pozycja
wyniku surowego na tle próby zależy zarówno od średniej, jak i od odchylenia wyniku surowego na tle próby zależy zarówno od średniej, jak i od odchylenia
standardowego wyników w tej próbie. Ilustruje to przykład 1. standardowego wyników w tej próbie. Ilustruje to przykład 1.
Porównanie wyników wystandaryzowanych w grupach o różnych średnich Porównanie wyników wystandaryzowanych w grupach o różnych średnich
Mężczyzna i kobieta uzyskali taki sam wynik surowy w teście równy 30. Wśród Mężczyzna i kobieta uzyskali taki sam wynik surowy w teście równy 30. Wśród
wszystkich badanych mężczyzn przeciętny wynik równy był 33, a wśród kobiet wszystkich badanych mężczyzn przeciętny wynik równy był 33, a wśród kobiet
27. Odchylenie standardowe w obu próbach było takie samo równe 3. Żeby ustalić 27. Odchylenie standardowe w obu próbach było takie samo równe 3. Żeby ustalić
względną pozycję obu tych osób na tle ich własnych grup, należy wystandaryzować względną pozycję obu tych osób na tle ich własnych grup, należy wystandaryzować
ich wyniki posługując się równaniem 6.20. ich wyniki posługując się równaniem 6.20.
30 − 33 30 − 27 30 − 33 30 − 27
mężczyzna: zm = = −1 kobieta: z k = = +1 mężczyzna: zm = = −1 kobieta: z k = = +1
3 3 3 3
Wynik mężczyzny jest wyraźnie niższy od przeciętnego dla mężczyzn, a wynik kobie- Wynik mężczyzny jest wyraźnie niższy od przeciętnego dla mężczyzn, a wynik kobie-
ty wyraźnie wyższy od przeciętnego dla kobiet. Pomimo tego, że obie osoby uzyskały ty wyraźnie wyższy od przeciętnego dla kobiet. Pomimo tego, że obie osoby uzyskały
ten sam wynik surowy w teście, to z powodu różnicy w średnich względny poziom ten sam wynik surowy w teście, to z powodu różnicy w średnich względny poziom
cechy mężczyzny jest niższy niż względny poziom cechy kobiety. cechy mężczyzny jest niższy niż względny poziom cechy kobiety.
Porównanie wyników wystandaryzowanych w grupach o różnych odchyleniach Porównanie wyników wystandaryzowanych w grupach o różnych odchyleniach
standardowych standardowych
Mężczyzna i kobieta uzyskali taki sam wynik surowy w teście równy 30. Wśród Mężczyzna i kobieta uzyskali taki sam wynik surowy w teście równy 30. Wśród
wszystkich badanych osób przeciętny wynik równy był 27. Odchylenie standardowe wszystkich badanych osób przeciętny wynik równy był 27. Odchylenie standardowe
w próbie mężczyzn było równe 3, a w próbie kobiet 6. Znów żeby ustalić względną w próbie mężczyzn było równe 3, a w próbie kobiet 6. Znów żeby ustalić względną
pozycję obu tych osób na tle ich własnych grup, należy wystandaryzować ich wyniki. pozycję obu tych osób na tle ich własnych grup, należy wystandaryzować ich wyniki.
30 − 27 30 − 27 30 − 27 30 − 27
mężczyzna: zm = = +1 kobieta: z k = = +0,5 mężczyzna: zm = = +1 kobieta: z k = = +0,5
3 6 3 6
Wynik mężczyzny jest wyraźnie wyższy od przeciętnego dla mężczyzn, a wynik ko- Wynik mężczyzny jest wyraźnie wyższy od przeciętnego dla mężczyzn, a wynik ko-
biety tylko trochę wyższy od przeciętnego dla kobiet. Pomimo tego, że obie osoby biety tylko trochę wyższy od przeciętnego dla kobiet. Pomimo tego, że obie osoby
uzyskały ten sam wynik surowy w teście, to z powodu różnicy w odchyleniach stan- uzyskały ten sam wynik surowy w teście, to z powodu różnicy w odchyleniach stan-
dardowych względny poziom cechy mężczyzny jest wyższy niż względny poziom dardowych względny poziom cechy mężczyzny jest wyższy niż względny poziom
cechy kobiety. cechy kobiety.
Odchylenie standardowe, którym posługujemy się przy ocenie względnej po- Odchylenie standardowe, którym posługujemy się przy ocenie względnej po-
zycji osoby na wymiarze jakiejś cechy jest jednostką całkowicie dla człowieka zycji osoby na wymiarze jakiejś cechy jest jednostką całkowicie dla człowieka
208 naturalną. Niezależnie od tego, czy ktoś zna podstawy statystyki czy nie, to do- 208 naturalną. Niezależnie od tego, czy ktoś zna podstawy statystyki czy nie, to do-

konując porównań między ludźmi intuicyjnie posługuje się jakąś miarą zróżnico- konując porównań między ludźmi intuicyjnie posługuje się jakąś miarą zróżnico-
wania w grupie odniesienia, czyli miarą podobną do odchylenia standardowego. wania w grupie odniesienia, czyli miarą podobną do odchylenia standardowego.
Załóżmy, że obserwujemy dwie grupy osób, w których przeciętny wzrost jest Załóżmy, że obserwujemy dwie grupy osób, w których przeciętny wzrost jest
taki sam, ale różnią się one odchyleniem standardowym – w grupie A osoby mają taki sam, ale różnią się one odchyleniem standardowym – w grupie A osoby mają
wzrost bardzo podobny w granicach od 170 cm do 174 cm, a w grupie B osoby wzrost bardzo podobny w granicach od 170 cm do 174 cm, a w grupie B osoby
różnią się wzrostem wyraźnie w granicach od 164 cm do 180 cm. W tych warun- różnią się wzrostem wyraźnie w granicach od 164 cm do 180 cm. W tych warun-
kach osobę o wzroście 178 cm uznamy na tle grupy A za bardzo wysoką, a na tle kach osobę o wzroście 178 cm uznamy na tle grupy A za bardzo wysoką, a na tle
grupy B po prostu za wysoką. To, czy opiszemy kogoś jako bardzo odstającego grupy B po prostu za wysoką. To, czy opiszemy kogoś jako bardzo odstającego
od reszty osób zależy w dużej mierze od zróżnicowania cechy w grupie, która od reszty osób zależy w dużej mierze od zróżnicowania cechy w grupie, która
stanowi układ odniesienia. stanowi układ odniesienia.
6.2.3. Normalizacja 6.2.3. Normalizacja
Wyniki wystandaryzowane dają już pewną orientację w odległości wyniku Wyniki wystandaryzowane dają już pewną orientację w odległości wyniku
otrzymanego osoby badanej od średniej w próbie. Interpretacja może być jesz- otrzymanego osoby badanej od średniej w próbie. Interpretacja może być jesz-
cze bardziej użyteczna, gdy uwzględni się charakterystykę rozkładu normalnego. cze bardziej użyteczna, gdy uwzględni się charakterystykę rozkładu normalnego.
Pojawia się wtedy możliwość wyznaczenia częstości lub prawdopodobieństwa, Pojawia się wtedy możliwość wyznaczenia częstości lub prawdopodobieństwa,
które precyzyjnie pokazuje pozycję osoby badanej wśród wszystkich osób w po- które precyzyjnie pokazuje pozycję osoby badanej wśród wszystkich osób w po-
pulacji. Należy zatem przyjąć, że wyniki otrzymane z danego testu miałyby w populacji. Należy zatem przyjąć, że wyniki otrzymane z danego testu miałyby w po-
pulacji rozkład normalny. Możliwe jest oczywiście, że w próbie reprezentującej pulacji rozkład normalny. Możliwe jest oczywiście, że w próbie reprezentującej
tę populację rozkład wyników będzie nieco odbiegał od normalnego, ale jeśli to tę populację rozkład wyników będzie nieco odbiegał od normalnego, ale jeśli to
zniekształcenie jest małe, można je przypisać błędowi wynikającemu z niedosko- zniekształcenie jest małe, można je przypisać błędowi wynikającemu z niedosko-
nałego losowania próby. nałego losowania próby.
Normalizacja jest nieliniowym przekształceniem rozkładu wyników. Można ją Normalizacja jest nieliniowym przekształceniem rozkładu wyników. Można ją
sobie wyobrazić graficznie jako „naciąganie” rozkładu empirycznego tak, żeby sobie wyobrazić graficznie jako „naciąganie” rozkładu empirycznego tak, żeby
przyjął kształt rozkładu normalnego. Z tego widać, że aby nie zostać posądzo- przyjął kształt rozkładu normalnego. Z tego widać, że aby nie zostać posądzo-
nym o manipulowanie wynikami nie powinno się dopuścić, by to „naciąganie” nym o manipulowanie wynikami nie powinno się dopuścić, by to „naciąganie”
było zbyt duże. Będzie ono małe, gdy rozkład empiryczny przypomina mode- było zbyt duże. Będzie ono małe, gdy rozkład empiryczny przypomina mode-
lowy rozkład normalny. Nie zaleca się więc wykonywania normalizacji, gdy lowy rozkład normalny. Nie zaleca się więc wykonywania normalizacji, gdy
rozkład empiryczny wyników testowych w próbie normalizacyjnej jest mocno rozkład empiryczny wyników testowych w próbie normalizacyjnej jest mocno
zniekształcony. zniekształcony.
Typowa procedura normalizacji wyników hipotetycznego testu przedstawiona Typowa procedura normalizacji wyników hipotetycznego testu przedstawiona
jest w tabeli 6.2. jest w tabeli 6.2.
W kolumnie (1) tabeli 6.2. zapisano wyniki otrzymane w teście. Na ich podsta- W kolumnie (1) tabeli 6.2. zapisano wyniki otrzymane w teście. Na ich podsta-
wie widać, że przebadane osoby wykazują dość małą wariancję wyników, ponie- wie widać, że przebadane osoby wykazują dość małą wariancję wyników, ponie-
waż nikt w grupie nie rozwiązał mniej niż 24 ani więcej niż 33 zadań. W kolumnie waż nikt w grupie nie rozwiązał mniej niż 24 ani więcej niż 33 zadań. W kolumnie
(2) zapisana jest liczebność poszczególnych wyników (jak dużo osób uzyskało (2) zapisana jest liczebność poszczególnych wyników (jak dużo osób uzyskało
konkretny wynik). Kolumna (3) to liczebność skumulowana, czyli liczba osób, konkretny wynik). Kolumna (3) to liczebność skumulowana, czyli liczba osób,
które uzyskały dany wynik lub niższy. Liczebność skumulowana 18 dla wyniku które uzyskały dany wynik lub niższy. Liczebność skumulowana 18 dla wyniku
27 oznacza, że w sumie 18 osób uzyskało wynik 27 lub niższy niż 27. Ostatnia 27 oznacza, że w sumie 18 osób uzyskało wynik 27 lub niższy niż 27. Ostatnia
wartość w kolumnie (3) to całkowita liczebność próby. wartość w kolumnie (3) to całkowita liczebność próby.
209 209

Tabela 6.2. Normalizacja wyników testu. Przebadano 50 osób. Test ma 60 zadań, a więc Tabela 6.2. Normalizacja wyników testu. Przebadano 50 osób. Test ma 60 zadań, a więc
osoba może uzyskać od 0 do 60 punktów. Opis obliczeń w tekście poniżej osoba może uzyskać od 0 do 60 punktów. Opis obliczeń w tekście poniżej
wyniki w próbie normalizacja wyniki w próbie normalizacja

(1) (2) (3) (4) (5) (6) (1) (2) (3) (4) (5) (6)
liczebność liczebność
X liczebność skumulo l.s. środka proporcja z X liczebność skumulo l.s. środka proporcja z
wana wana
24 1 1 0,5 0,01 –2,33 24 1 1 0,5 0,01 –2,33
25 3 4 2,5 0,05 –1,65 25 3 4 2,5 0,05 –1,65
26 5 9 6,5 0,13 –1,13 26 5 9 6,5 0,13 –1,13
27 9 18 13,5 0,27 –0,61 27 9 18 13,5 0,27 –0,61
28 12 30 24 0,48 –0,05 28 12 30 24 0,48 –0,05
29 8 38 34 0,68 0,47 29 8 38 34 0,68 0,47
30 6 44 41 0,82 0,92 30 6 44 41 0,82 0,92
31 3 47 45,5 0,91 1,34 31 3 47 45,5 0,91 1,34
32 2 49 48 0,96 1,75 32 2 49 48 0,96 1,75
33 1 50 49,5 0,99 2,33 33 1 50 49,5 0,99 2,33
Kolumna (4) zawiera liczebności skumulowane liczone dla środka przedziału. Kolumna (4) zawiera liczebności skumulowane liczone dla środka przedziału.
Kolumna ta jest konieczna, gdy zakłada się, że mierzona zmienna ma w rzeczy- Kolumna ta jest konieczna, gdy zakłada się, że mierzona zmienna ma w rzeczy-
wistości charakter ciągły. Wtedy każdy wynik uzyskany w badaniu należy trakto- wistości charakter ciągły. Wtedy każdy wynik uzyskany w badaniu należy trakto-
wać jak przedział teoretycznych wartości. Np. wynik 28 jest etykietą dla wszyst- wać jak przedział teoretycznych wartości. Np. wynik 28 jest etykietą dla wszyst-
kich wartości w granicach od 27,5 do 28,5. Szerokość tego przedziału zależy od kich wartości w granicach od 27,5 do 28,5. Szerokość tego przedziału zależy od
jednostki pomiaru – im większa jednostka, tym szerszy będzie przedział. Jest to jednostki pomiaru – im większa jednostka, tym szerszy będzie przedział. Jest to
naturalna konsekwencja pomiaru zmiennej narzędziem o nieidealnej dokładno- naturalna konsekwencja pomiaru zmiennej narzędziem o nieidealnej dokładno-
ści, a więc nie ogranicza się ona wyłącznie do testów psychologicznych. Jeśli ści, a więc nie ogranicza się ona wyłącznie do testów psychologicznych. Jeśli
w przypadku pomiaru wzrostu osób zostanie zastosowana miarka z podziałką w przypadku pomiaru wzrostu osób zostanie zastosowana miarka z podziałką
w centymetrach, to może się zdarzyć, że kilku osobom przypiszemy wynik 172 w centymetrach, to może się zdarzyć, że kilku osobom przypiszemy wynik 172
cm. Nie musi to jednak oznaczać, że wszystkie te osoby mają identyczny wzrost. cm. Nie musi to jednak oznaczać, że wszystkie te osoby mają identyczny wzrost.
Różnice między nimi mogą być tak małe, że miarka o jednostce równej 1 cm ich Różnice między nimi mogą być tak małe, że miarka o jednostce równej 1 cm ich
nie wykryje. Należy więc uznać, że wynik 172 cm oznacza wzrost w zakresie nie wykryje. Należy więc uznać, że wynik 172 cm oznacza wzrost w zakresie
od 171,5 do 172,5, bo w przypadku wszystkich osób o rzeczywistym wzroście od 171,5 do 172,5, bo w przypadku wszystkich osób o rzeczywistym wzroście
w tym właśnie zakresie zastosowana miarka wskaże wynik 172. w tym właśnie zakresie zastosowana miarka wskaże wynik 172.
Dodatkowo niezbędne jest tu założenie o równomiernym rozkładzie wszyst- Dodatkowo niezbędne jest tu założenie o równomiernym rozkładzie wszyst-
kich teoretycznych wyników wewnątrz przedziału. Np. wynik 28 przypisano kich teoretycznych wyników wewnątrz przedziału. Np. wynik 28 przypisano
w sumie 12 osobom. Ich wyniki teoretyczne są równomiernie rozrzucone na od- w sumie 12 osobom. Ich wyniki teoretyczne są równomiernie rozrzucone na od-
cinku całego przedziału od wartości 27,5 do 28,5. Na rys. 6.9. widać, że poniżej cinku całego przedziału od wartości 27,5 do 28,5. Na rys. 6.9. widać, że poniżej
środka tego przedziału znajdują się wynik sześciu osób. Zatem wartość, którą środka tego przedziału znajdują się wynik sześciu osób. Zatem wartość, którą
trzeba wpisać w kolumnie (4) dla wyniku 28 to liczba osób, których wyniki leżą trzeba wpisać w kolumnie (4) dla wyniku 28 to liczba osób, których wyniki leżą
210 poniżej środka w przedziale 28 (jest ich 6) i we wcześniejszych przedziałach (jest 210 poniżej środka w przedziale 28 (jest ich 6) i we wcześniejszych przedziałach (jest

ich w sumie 18). Licząc tę wielkość zawsze do połowy liczebności z kolumny (2) ich w sumie 18). Licząc tę wielkość zawsze do połowy liczebności z kolumny (2)
dla danego wyniku dodaje się całą liczebność skumulowaną z kolumny (3) dla dla danego wyniku dodaje się całą liczebność skumulowaną z kolumny (3) dla
wyniku niższego. wyniku niższego.
Rysunek 6.9. Równomierny rozkład wyników w teoretycznym przedziale dla wyniku 28 Rysunek 6.9. Równomierny rozkład wyników w teoretycznym przedziale dla wyniku 28
z tabeli 6.2. z tabeli 6.2.
Zmienna ciągła – to zmienna, która może przyjmować nieskończenie wiele wartości. Zmienna ciągła – to zmienna, która może przyjmować nieskończenie wiele wartości.
Pomiędzy dwiema dowolnymi wartościami zmiennej ciągłej znajduje się zawsze co Pomiędzy dwiema dowolnymi wartościami zmiennej ciągłej znajduje się zawsze co
najmniej jedna wartość pośrednia. najmniej jedna wartość pośrednia.
Zmienna dyskretna (skokowa) – to zmienna, która może przyjmować nieskończoną Zmienna dyskretna (skokowa) – to zmienna, która może przyjmować nieskończoną
lub skończoną liczbę przeliczalnych (odseparowanych) wartości. Pomiędzy dwiema lub skończoną liczbę przeliczalnych (odseparowanych) wartości. Pomiędzy dwiema
wartościami zmiennej dyskretnej odległymi o jednostkę nie może istnieć wartość po- wartościami zmiennej dyskretnej odległymi o jednostkę nie może istnieć wartość po-
średnia. Jednostka takiej zmiennej to najmniejsza wykrywalna różnica. Pomiar jakiej- średnia. Jednostka takiej zmiennej to najmniejsza wykrywalna różnica. Pomiar jakiej-
kolwiek zmiennej sprawia, że staje się ona zmienną dyskretną. kolwiek zmiennej sprawia, że staje się ona zmienną dyskretną.
W kolumnie (5) tabeli 6.2. znajduje się proporcja jaką stanowi zapisana w ko- W kolumnie (5) tabeli 6.2. znajduje się proporcja jaką stanowi zapisana w ko-
lumnie (4) liczebność skumulowana dla środka przedziału względem całej próby. lumnie (4) liczebność skumulowana dla środka przedziału względem całej próby.
Aby ją policzyć należy liczebność skumulowaną z kolumny (4) podzielić przez Aby ją policzyć należy liczebność skumulowaną z kolumny (4) podzielić przez
liczebność próby znajdującą się w ostatnim wierszu kolumny (3). Dla wyniku 28 liczebność próby znajdującą się w ostatnim wierszu kolumny (3). Dla wyniku 28
ta proporcja to 24/50=0,48. Może być ona traktowana jak prawdopodobieństwo ta proporcja to 24/50=0,48. Może być ona traktowana jak prawdopodobieństwo
wylosowania z próby osoby z wynikiem równym lub niższym niż środek danego wylosowania z próby osoby z wynikiem równym lub niższym niż środek danego
przedziału. przedziału.
Do tego miejsca wszystkie obliczenia wykonywane były wyłącznie na bazie Do tego miejsca wszystkie obliczenia wykonywane były wyłącznie na bazie
empirycznych wyników z próby. Nie wiązały się one z żadnymi nieliniowymi empirycznych wyników z próby. Nie wiązały się one z żadnymi nieliniowymi
przekształceniami. Oznacza to, że proporcje z kolumny (5) dokładnie odzwier- przekształceniami. Oznacza to, że proporcje z kolumny (5) dokładnie odzwier-
ciedlają rozkład liczebności z kolumny (2). Jednak normalizacja prawie zawsze ciedlają rozkład liczebności z kolumny (2). Jednak normalizacja prawie zawsze
powoduje przekształcenie rozkładu. Zachodzi ono na tym etapie procedury, który powoduje przekształcenie rozkładu. Zachodzi ono na tym etapie procedury, który
w tabeli 6.2. zaznaczony jest podwójną linią pionową. Po jej lewej stronie zapi- w tabeli 6.2. zaznaczony jest podwójną linią pionową. Po jej lewej stronie zapi-
sany jest realny obraz wyników w próbie, a po prawej obraz teoretyczny będący sany jest realny obraz wyników w próbie, a po prawej obraz teoretyczny będący
konsekwencją normalizacji. konsekwencją normalizacji.
W kolumnie (6) zapisane są wartości zi odpowiadające prawdopodobieństwom W kolumnie (6) zapisane są wartości zi odpowiadające prawdopodobieństwom
z kolumny (5) w teoretycznej dystrybuancie rozkładu normalnego. Dystrybuanta z kolumny (5) w teoretycznej dystrybuancie rozkładu normalnego. Dystrybuanta
to funkcja, która dla podanego nasilenia cechy zwraca prawdopodobieństwo to funkcja, która dla podanego nasilenia cechy zwraca prawdopodobieństwo
tego, że z populacji wylosujemy osobę o takim właśnie nasileniu cechy lub niż- tego, że z populacji wylosujemy osobę o takim właśnie nasileniu cechy lub niż-
szym. Wartość dystrybuanty jest więc prawdopodobieństwem skumulowanym. szym. Wartość dystrybuanty jest więc prawdopodobieństwem skumulowanym.
W procedurze normalizacji prawdopodobieństwo to utożsamia się ze skumulo- 211 W procedurze normalizacji prawdopodobieństwo to utożsamia się ze skumulo- 211

waną proporcją liczebności, która w tabeli 6.2. zapisana jest w kolumnie (5). waną proporcją liczebności, która w tabeli 6.2. zapisana jest w kolumnie (5).
Na podstawie tablic dystrybuanty rozkładu normalnego dostępnych w każdym Na podstawie tablic dystrybuanty rozkładu normalnego dostępnych w każdym
podręczniku do statystyki można wykonać również operację odwrotną. Znając podręczniku do statystyki można wykonać również operację odwrotną. Znając
prawdopodobieństwo skumulowane, można wyznaczyć odpowiadające mu na- prawdopodobieństwo skumulowane, można wyznaczyć odpowiadające mu na-
silenie cechy. Będzie ono przedstawione w postaci wartości zi, a więc w postaci silenie cechy. Będzie ono przedstawione w postaci wartości zi, a więc w postaci
wyniku znormalizowanego. wyniku znormalizowanego.
Wyniki znormalizowane – wyniki odpowiadające surowym wynikom otrzymanym Wyniki znormalizowane – wyniki odpowiadające surowym wynikom otrzymanym
na podstawie ich rzeczywistej frekwencji. Mają one taką samą jednostkę co wyniki na podstawie ich rzeczywistej frekwencji. Mają one taką samą jednostkę co wyniki
wystandaryzowane, ale wyniki znormalizowane zawsze przyjmują rozkład normalny wystandaryzowane, ale wyniki znormalizowane zawsze przyjmują rozkład normalny
bez względu na rzeczywisty kształt wyników empirycznych (surowych). bez względu na rzeczywisty kształt wyników empirycznych (surowych).
Warto zwrócić uwagę, że wyniki znormalizowane są wyznaczane na podstawie Warto zwrócić uwagę, że wyniki znormalizowane są wyznaczane na podstawie
obserwowanych w próbie frekwencji. Na podstawie charakterystyki dystrybuan- obserwowanych w próbie frekwencji. Na podstawie charakterystyki dystrybuan-
ty wiadomo, że wynik znormalizowany równy 0 będzie odpowiadał prawdopo- ty wiadomo, że wynik znormalizowany równy 0 będzie odpowiadał prawdopo-
dobieństwu skumulowanemu wynoszącemu 0,5. Zostanie on więc przypisany ta- dobieństwu skumulowanemu wynoszącemu 0,5. Zostanie on więc przypisany ta-
kiemu wynikowi surowemu, którego środkowa liczebność skumulowana będzie kiemu wynikowi surowemu, którego środkowa liczebność skumulowana będzie
równa połowie całkowitej liczebności w próbie. Ten wynik surowy to mediana. równa połowie całkowitej liczebności w próbie. Ten wynik surowy to mediana.
Innymi słowy, średni wynik znormalizowany jest zawsze równy medianie wyni- Innymi słowy, średni wynik znormalizowany jest zawsze równy medianie wyni-
ków surowych. W specyficznych sytuacjach może się więc zdarzyć, że średni wy- ków surowych. W specyficznych sytuacjach może się więc zdarzyć, że średni wy-
nik znormalizowany nie będzie równy średniemu wynikowi surowemu. Będzie nik znormalizowany nie będzie równy średniemu wynikowi surowemu. Będzie
tak wtedy, gdy średnia wyników surowych nie będzie pokrywała się z medianą, tak wtedy, gdy średnia wyników surowych nie będzie pokrywała się z medianą,
a więc wtedy, gdy rozkład wyników surowych nie będzie symetryczny. W przy- a więc wtedy, gdy rozkład wyników surowych nie będzie symetryczny. W przy-
padku normalizacji zawsze trzeba liczyć się z tym, że w konsekwencji dostanie padku normalizacji zawsze trzeba liczyć się z tym, że w konsekwencji dostanie
się rozkład normalny, ale niekoniecznie dopasowany do rozkładu rzeczywistych się rozkład normalny, ale niekoniecznie dopasowany do rozkładu rzeczywistych
wyników surowych. Przykłady takich zestawień o mniejszym lub większym nie- wyników surowych. Przykłady takich zestawień o mniejszym lub większym nie-
dopasowaniu pokazane są na rys. 6.10. dopasowaniu pokazane są na rys. 6.10.
212 212

Rysunek 6.10. Rozkłady empiryczne wyników surowych (słupki) o kształcie prawie nor Rysunek 6.10. Rozkłady empiryczne wyników surowych (słupki) o kształcie prawie nor
malnym (a), skośnym (b) i dwuwierzchołkowym (c) oraz odpowiadające im rozkłady wy malnym (a), skośnym (b) i dwuwierzchołkowym (c) oraz odpowiadające im rozkłady wy
ników znormalizowanych (linia). Pod każdym wykresem podane są wyniki surowe oraz ników znormalizowanych (linia). Pod każdym wykresem podane są wyniki surowe oraz
odpowiadające im wyniki znormalizowane. Na lewej osi pionowej zaznaczone są liczeb odpowiadające im wyniki znormalizowane. Na lewej osi pionowej zaznaczone są liczeb
ności poszczególnych wyników surowych (słupki), a na prawej prawdopodobieństwa dla ności poszczególnych wyników surowych (słupki), a na prawej prawdopodobieństwa dla
wyników znormalizowanych (linia). Dolna pionowa strzałka na wykresach pokazuje śred wyników znormalizowanych (linia). Dolna pionowa strzałka na wykresach pokazuje śred
nią dla liczebności (słupki), a górna średnią dla prawdopodobieństw (linia) nią dla liczebności (słupki), a górna średnią dla prawdopodobieństw (linia)
Na rys. 6.10. pojawiła się wielkość, której nie zawiera tabela 6.2. Jest to za- Na rys. 6.10. pojawiła się wielkość, której nie zawiera tabela 6.2. Jest to za-
znaczone na prawej osi pionowej prawdopodobieństwo uzyskania określonego znaczone na prawej osi pionowej prawdopodobieństwo uzyskania określonego
wyniku znormalizowanego. Jeśli na wykresie w części a) rys. 6.10. wynikowi wyniku znormalizowanego. Jeśli na wykresie w części a) rys. 6.10. wynikowi
surowemu 5 odpowiada liczebność 22 (lewa oś pionowa), to w kontekście pozo- surowemu 5 odpowiada liczebność 22 (lewa oś pionowa), to w kontekście pozo-
stałych wyników odpowiada mu wynik znormalizowany z =0. Jest tak dlatego, stałych wyników odpowiada mu wynik znormalizowany z =0. Jest tak dlatego,
że wynik surowy 5 stanowi medianę całego zbioru wyników. W tablicach rozkła- że wynik surowy 5 stanowi medianę całego zbioru wyników. W tablicach rozkła-
du normalnego (funkcja gęstości lub rzędna krzywej znormalizowanej) można du normalnego (funkcja gęstości lub rzędna krzywej znormalizowanej) można
odczytać wartość prawdopodobieństwa odpowiadającego wynikowi znormali- 213 odczytać wartość prawdopodobieństwa odpowiadającego wynikowi znormali- 213

zowanemu z=0. Ta wartość to ok. 0,39. W podobny sposób zostały wyznaczo- zowanemu z=0. Ta wartość to ok. 0,39. W podobny sposób zostały wyznaczo-
ne prawdopodobieństwa dla pozostałych wyników. Na ich podstawie powstał ne prawdopodobieństwa dla pozostałych wyników. Na ich podstawie powstał
wykres liniowy na rys. 6.10. Rysunek ten pokazuje więc dopasowanie rozkładu wykres liniowy na rys. 6.10. Rysunek ten pokazuje więc dopasowanie rozkładu
liczebności wyników surowych (słupki) do rozkładu prawdopodobieństw odpo- liczebności wyników surowych (słupki) do rozkładu prawdopodobieństw odpo-
wiadających im wyników znormalizowanych (linia). wiadających im wyników znormalizowanych (linia).
Na rys. 6.10. najlepsze dopasowanie rozkładów widoczne jest na wykresie (a). Na rys. 6.10. najlepsze dopasowanie rozkładów widoczne jest na wykresie (a).
Jest to przypadek najkorzystniejszy, bo wyniki surowe tworzą w próbie rozkład Jest to przypadek najkorzystniejszy, bo wyniki surowe tworzą w próbie rozkład
prawie normalny. Normalizacja stanowi wtedy tylko nieznaczne zniekształcenie prawie normalny. Normalizacja stanowi wtedy tylko nieznaczne zniekształcenie
obrazu rzeczywistości. Średnia wyników znormalizowanych (z=0) jest idealnie obrazu rzeczywistości. Średnia wyników znormalizowanych (z=0) jest idealnie
równa średniej wyników surowych (x=5). Również prawdopodobieństwa wystą- równa średniej wyników surowych (x=5). Również prawdopodobieństwa wystą-
pienia poszczególnych wyników znormalizowanych są proporcjonalne do liczeb- pienia poszczególnych wyników znormalizowanych są proporcjonalne do liczeb-
ności dla odpowiednich wyników surowych. Np. w części a) rys. 6.10. wynikowi ności dla odpowiednich wyników surowych. Np. w części a) rys. 6.10. wynikowi
surowemu równemu 5 (średnia) odpowiada największe prawdopodobieństwo surowemu równemu 5 (średnia) odpowiada największe prawdopodobieństwo
w rozkładzie znormalizowanym (linia) oraz największa liczebność w rozkładzie w rozkładzie znormalizowanym (linia) oraz największa liczebność w rozkładzie
empirycznym (słupki). Dzięki temu posługując się wynikami znormalizowanymi empirycznym (słupki). Dzięki temu posługując się wynikami znormalizowanymi
można prawie idealnie odtworzyć obraz rzeczywistości przedstawiony w postaci można prawie idealnie odtworzyć obraz rzeczywistości przedstawiony w postaci
wyników empirycznych. wyników empirycznych.
Dopasowanie wykresów nie jest już natomiast takie dobre w przypadku opi- Dopasowanie wykresów nie jest już natomiast takie dobre w przypadku opi-
sywanym w części b) rys. 6.10. Wyniki surowe przyjmują tutaj rozkład prawo sywanym w części b) rys. 6.10. Wyniki surowe przyjmują tutaj rozkład prawo
skośny. Oznacza to, że w próbie z jakichś względów było więcej wyników niskich skośny. Oznacza to, że w próbie z jakichś względów było więcej wyników niskich
niż wysokich. Przyczyny takiego zjawiska mogą być różne. Jeśli test zdolności niż wysokich. Przyczyny takiego zjawiska mogą być różne. Jeśli test zdolności
jest zbyt trudny, to większość osób rozwiąże tylko początkowe stosunkowo łatwe jest zbyt trudny, to większość osób rozwiąże tylko początkowe stosunkowo łatwe
zadania, a nie poradzi sobie z pozostałymi. Jeśli kwestionariusz zawiera pozy- zadania, a nie poradzi sobie z pozostałymi. Jeśli kwestionariusz zawiera pozy-
cje odnoszące się do spraw wstydliwych, to większość osób może zareagować cje odnoszące się do spraw wstydliwych, to większość osób może zareagować
oporem lub skrępowaniem i zaznaczać głownie odpowiedzi „NIE”, uzyskując oporem lub skrępowaniem i zaznaczać głownie odpowiedzi „NIE”, uzyskując
tym samym wyniki niskie. W większości przypadków skośny rozkład wyników tym samym wyniki niskie. W większości przypadków skośny rozkład wyników
pojawia się jako konsekwencja błędów w konstrukcji testu lub w doborze pró- pojawia się jako konsekwencja błędów w konstrukcji testu lub w doborze pró-
by normalizacyjnej. Możliwa, ale raczej rzadka, jest jednak sytuacja, w której by normalizacyjnej. Możliwa, ale raczej rzadka, jest jednak sytuacja, w której
skośny rozkład wyników w próbie będzie odzwierciedleniem rzeczywistego roz- skośny rozkład wyników w próbie będzie odzwierciedleniem rzeczywistego roz-
kładu zmiennej w populacji. Przykładem takiej zmiennej jest Psychotyczność kładu zmiennej w populacji. Przykładem takiej zmiennej jest Psychotyczność
w koncepcji PEN Hansa Eysencka, którą mierzy się przy użyciu popularnego w koncepcji PEN Hansa Eysencka, którą mierzy się przy użyciu popularnego
kwestionariusza EPQ-R. kwestionariusza EPQ-R.
Gdy wykonuje się normalizację wyników surowych o rozkładzie skośnym Gdy wykonuje się normalizację wyników surowych o rozkładzie skośnym
(jak na rys. 6.10., część b)), to średnia wyników znormalizowanych będzie rów- (jak na rys. 6.10., część b)), to średnia wyników znormalizowanych będzie rów-
na medianie wyników surowych, ale nie będzie równa ich średniej. W związku na medianie wyników surowych, ale nie będzie równa ich średniej. W związku
z tym prawdopodobieństwa wystąpienia wyników znormalizowanych nie będą z tym prawdopodobieństwa wystąpienia wyników znormalizowanych nie będą
proporcjonalne do liczebności odpowiednich wyników surowych. Na rozkładzie proporcjonalne do liczebności odpowiednich wyników surowych. Na rozkładzie
znormalizowanym (linia) najbardziej prawdopodobny jest wynik równy średniej znormalizowanym (linia) najbardziej prawdopodobny jest wynik równy średniej
(z=0), a na rozkładzie empirycznym najliczniejsze są wyniki równe modalnej (z=0), a na rozkładzie empirycznym najliczniejsze są wyniki równe modalnej
(x=2). W konsekwencji na podstawie norm diagnosta uzna za typowy wynik, (x=2). W konsekwencji na podstawie norm diagnosta uzna za typowy wynik,
214 który w rzeczywistym układzie odniesienia wcale typowy nie jest. 214 który w rzeczywistym układzie odniesienia wcale typowy nie jest.

Efekt zniekształcenia jest jeszcze silniejszy w sytuacji zilustrowanej w czę- Efekt zniekształcenia jest jeszcze silniejszy w sytuacji zilustrowanej w czę-
ści c) rys. 6.10. Przedstawiony jest tu dwuwierzchołkowy rozkład wyników ści c) rys. 6.10. Przedstawiony jest tu dwuwierzchołkowy rozkład wyników
surowych. Powstaje on najczęściej, gdy próba nie jest jednolita pod względem surowych. Powstaje on najczęściej, gdy próba nie jest jednolita pod względem
istotnego dla mierzonej zmiennej czynnika. Może to być np. próba składająca istotnego dla mierzonej zmiennej czynnika. Może to być np. próba składająca
się prawie wyłącznie z dzieci 7-letnich i 14-letnich. Jeśli przedmiotem pomiaru się prawie wyłącznie z dzieci 7-letnich i 14-letnich. Jeśli przedmiotem pomiaru
będzie inteligencja, to oczywiste jest, że 7-latkowie mają niższy jej poziom niż będzie inteligencja, to oczywiste jest, że 7-latkowie mają niższy jej poziom niż
14-latkowie. Lewy wierzchołek rozkładu empirycznego (słupki) w części c) rys. 14-latkowie. Lewy wierzchołek rozkładu empirycznego (słupki) w części c) rys.
6.10. odpowiada więc średniemu poziomowi inteligencji dzieci 7-letnich, a pra- 6.10. odpowiada więc średniemu poziomowi inteligencji dzieci 7-letnich, a pra-
wy średniemu poziomowi inteligencji dzieci 14-letnich. Oczywiście konstruktor wy średniemu poziomowi inteligencji dzieci 14-letnich. Oczywiście konstruktor
testu powinien na tej podstawie dokonać rozdziału próby na dwie podgrupy we- testu powinien na tej podstawie dokonać rozdziału próby na dwie podgrupy we-
dług wieku, bo wiek dzieci z oczywistych względów ma olbrzymie znaczenie dla dług wieku, bo wiek dzieci z oczywistych względów ma olbrzymie znaczenie dla
mierzonej inteligencji. mierzonej inteligencji.
Normalizacja wyników surowych o rozkładzie dwuwierzchołkowym daje Normalizacja wyników surowych o rozkładzie dwuwierzchołkowym daje
znaczne niedopasowanie norm do obrazu rzeczywistości. Średnia rozkładu znor- znaczne niedopasowanie norm do obrazu rzeczywistości. Średnia rozkładu znor-
malizowanego (z=0) odpowiada w tym przypadku średniej rozkładu empirycz- malizowanego (z=0) odpowiada w tym przypadku średniej rozkładu empirycz-
nego (x=5), bo rozkład dwuwierzchołkowy jest tutaj symetryczny, ale prawdo- nego (x=5), bo rozkład dwuwierzchołkowy jest tutaj symetryczny, ale prawdo-
podobieństwa wcale nie są proporcjonalne do liczebności. Na podstawie norm podobieństwa wcale nie są proporcjonalne do liczebności. Na podstawie norm
(wykres liniowy na rys. 6.10, część c)) diagnosta uzna za typowy dla populacji (wykres liniowy na rys. 6.10, część c)) diagnosta uzna za typowy dla populacji
wynik surowy 5, któremu przypisano wartość znormalizowaną z=0. Natomiast wynik surowy 5, któremu przypisano wartość znormalizowaną z=0. Natomiast
z rysunku widać, że wynik ten jest jednym z najrzadszych w próbie. z rysunku widać, że wynik ten jest jednym z najrzadszych w próbie.
6.2.4. Skale znormalizowane 6.2.4. Skale znormalizowane

Wyniki znormalizowane w postaci jednostek zi mogą być czasem niewygodne Wyniki znormalizowane w postaci jednostek zi mogą być czasem niewygodne
w użyciu. Po pierwsze dlatego, że mylą się z oznaczanymi w ten sam sposób wy- w użyciu. Po pierwsze dlatego, że mylą się z oznaczanymi w ten sam sposób wy-
nikami wystandaryzowanymi. Różnica między nimi jest zasadnicza i została już nikami wystandaryzowanymi. Różnica między nimi jest zasadnicza i została już
wcześniej wyjaśniona. Po drugie, wyniki znormalizowane mogą występować ze wcześniej wyjaśniona. Po drugie, wyniki znormalizowane mogą występować ze
znakiem ujemnym. Gdy w tej postaci dotyczą nasilenia cechy, mogą sugerować, znakiem ujemnym. Gdy w tej postaci dotyczą nasilenia cechy, mogą sugerować,
że to nasilenie jest mniejsze od zera. Nie jest to oczywiście wielki kłopot, bo że to nasilenie jest mniejsze od zera. Nie jest to oczywiście wielki kłopot, bo
łatwo się do takiej konwencji przyzwyczaić, ale u mniej wprawnych diagnostów łatwo się do takiej konwencji przyzwyczaić, ale u mniej wprawnych diagnostów
może w takich sytuacjach powstawać mylne wrażenie, że ujemne nasilenie cechy może w takich sytuacjach powstawać mylne wrażenie, że ujemne nasilenie cechy
jest bezwzględnie gorsze niż dodatnie. Po trzecie, wyniki znormalizowane mają jest bezwzględnie gorsze niż dodatnie. Po trzecie, wyniki znormalizowane mają
bardzo dużą dokładność. Paradoksalnie może to być ich wadą, bo dokładność bardzo dużą dokładność. Paradoksalnie może to być ich wadą, bo dokładność
wyników w tym przypadku wcale nie odzwierciedla dokładności narzędzi po- wyników w tym przypadku wcale nie odzwierciedla dokładności narzędzi po-
miarowych. Efekt wygląda mniej więcej tak, jakbyśmy próbowali ocenić długość miarowych. Efekt wygląda mniej więcej tak, jakbyśmy próbowali ocenić długość
przedmiotu metodą „na oko”, podając wynik w mikrometrach. Uzasadnione jest przedmiotu metodą „na oko”, podając wynik w mikrometrach. Uzasadnione jest
więc w przypadku testów psychologicznych zwiększenie jednostki pomiarowej. więc w przypadku testów psychologicznych zwiększenie jednostki pomiarowej.
Z opisanych powyżej powodów, autorzy testów często decydują się na przed- Z opisanych powyżej powodów, autorzy testów często decydują się na przed-
stawienie norm testowych w postaci tzw. skal znormalizowanych. Zakres takich stawienie norm testowych w postaci tzw. skal znormalizowanych. Zakres takich
skal zwykle zaczyna się od zera lub jedynki. Ich jednostki mają postać prze- skal zwykle zaczyna się od zera lub jedynki. Ich jednostki mają postać prze-
działów, a więc dysponują większą („grubszą”) jednostką pomiarową. Z grubsza działów, a więc dysponują większą („grubszą”) jednostką pomiarową. Z grubsza
każdy przedział obejmuje taki sam zakres wyników znormalizowanych, ale ten 215 każdy przedział obejmuje taki sam zakres wyników znormalizowanych, ale ten 215

zakres może być różny dla różnych skal (np. pojedyncza jednostka skali znor- zakres może być różny dla różnych skal (np. pojedyncza jednostka skali znor-
malizowanej może obejmować wyniki znormalizowane od z=0,5 do z=1). Bez malizowanej może obejmować wyniki znormalizowane od z=0,5 do z=1). Bez
problemu można więc przeliczyć dowolny wynik znormalizowany podany w jed- problemu można więc przeliczyć dowolny wynik znormalizowany podany w jed-
nostkach zi na dowolną skalę znormalizowaną i odwrotnie. Jest to przekształce- nostkach zi na dowolną skalę znormalizowaną i odwrotnie. Jest to przekształce-
nie liniowe i nie zmienia kształtu rozkładu wyników. nie liniowe i nie zmienia kształtu rozkładu wyników.
Jednostki skali znormalizowanej, stanowią niepodzielne przedziały. Jeśli dia- Jednostki skali znormalizowanej, stanowią niepodzielne przedziały. Jeśli dia-
gnosta decyduje się na stosowanie takiej skali, to powinien uznać jej jednostkę gnosta decyduje się na stosowanie takiej skali, to powinien uznać jej jednostkę
za najmniejszą możliwą. W konsekwencji sens tutaj ma posługiwanie się tylko za najmniejszą możliwą. W konsekwencji sens tutaj ma posługiwanie się tylko
liczbami całkowitymi. Wyników w żadnej ze skal znormalizowanych nie można liczbami całkowitymi. Wyników w żadnej ze skal znormalizowanych nie można
podawać w ułamku. podawać w ułamku.
Dalej przedstawiona jest charakterystyka najpopularniejszych skal znormali- Dalej przedstawiona jest charakterystyka najpopularniejszych skal znormali-
zowanych. zowanych.
6.2.4.1. Skala staninowa 6.2.4.1. Skala staninowa

Skala ta ma zakres od 1 do 9 – stąd jej nazwa (ang. standard nine). Średnia Skala ta ma zakres od 1 do 9 – stąd jej nazwa (ang. standard nine). Średnia
skali zawsze wypada w jej środku, a więc dla skali staninowej średnia jest równa skali zawsze wypada w jej środku, a więc dla skali staninowej średnia jest równa
5-tej staninie. Odchylenie standardowe skali wynosi 2, tak więc pojedyncza sta- 5-tej staninie. Odchylenie standardowe skali wynosi 2, tak więc pojedyncza sta-
nina ma szerokość równą połowie odchylenia standardowego. Na tej podstawie nina ma szerokość równą połowie odchylenia standardowego. Na tej podstawie
granicom każdej staniny można przypisać odpowiadające im wyniki znormalizo- granicom każdej staniny można przypisać odpowiadające im wyniki znormalizo-
wane (rys. 6.11.). wane (rys. 6.11.).
Rysunek 6.11. Skala staninowa Rysunek 6.11. Skala staninowa
W innym miejscu tego rozdziału wspomniałem, że najczęściej za normę uzna- W innym miejscu tego rozdziału wspomniałem, że najczęściej za normę uzna-
je się wyniki leżące w odległości najwyżej jednego odchylenia standardowego od je się wyniki leżące w odległości najwyżej jednego odchylenia standardowego od
średniej. Na skali staninowej nie da się jednoznacznie określić takiego przedziału. średniej. Na skali staninowej nie da się jednoznacznie określić takiego przedziału.
Może on obejmować staniny od 3 do 7 – wtedy przedział wyników przeciętnych Może on obejmować staniny od 3 do 7 – wtedy przedział wyników przeciętnych
będzie miał zakres nie od –1z do +1z, tylko od –1,25z do +1,25z. Inna możliwość będzie miał zakres nie od –1z do +1z, tylko od –1,25z do +1,25z. Inna możliwość
to staniny od 4 do 6 i wtedy zakres będzie odpowiednio mniejszy od –0,75z do to staniny od 4 do 6 i wtedy zakres będzie odpowiednio mniejszy od –0,75z do
+0,75z. Decyzja, którą z opcji wybrać, należy w tym przypadku do diagnosty. +0,75z. Decyzja, którą z opcji wybrać, należy w tym przypadku do diagnosty.
Krańcowe jednostki skali, a więc staniny 1 i 9 są przedziałami otwartymi. Krańcowe jednostki skali, a więc staniny 1 i 9 są przedziałami otwartymi.
Wszystkie wyniki oddalone od średniej o więcej niż 1,74z w lewo zaliczamy do Wszystkie wyniki oddalone od średniej o więcej niż 1,74z w lewo zaliczamy do
1 staniy, a wszytkie oddalone o 1,75z w prawo do 9 staniny. Zatem użytkowy za- 1 staniy, a wszytkie oddalone o 1,75z w prawo do 9 staniny. Zatem użytkowy za-
kres skali staninowej, czyli zakres, w którym skala jest w stanie różnicować dwie kres skali staninowej, czyli zakres, w którym skala jest w stanie różnicować dwie
osoby o różnym nasileniu cechy, obejmuje wyniki znormalizowane od z=–1,75 osoby o różnym nasileniu cechy, obejmuje wyniki znormalizowane od z=–1,75
216 do z=1,75. 216 do z=1,75.

6.2.4.2. Skala stenowa 6.2.4.2. Skala stenowa

Skala ta ma zakres od 1 do 10 (ang. standard ten). Odchylenie standardo- Skala ta ma zakres od 1 do 10 (ang. standard ten). Odchylenie standardo-
we podobnie jak w skali staninowej wynosi 2. Średnia natomiast zlokalizowana we podobnie jak w skali staninowej wynosi 2. Średnia natomiast zlokalizowana
jest dokładnie w środku skali, a więc leży pomiędzy stenem 5 i 6 (rys. 6.12.). jest dokładnie w środku skali, a więc leży pomiędzy stenem 5 i 6 (rys. 6.12.).
Najczęściej można spotkać zapis, że średnia skali stenowej wynosi 5,5. Jest to Najczęściej można spotkać zapis, że średnia skali stenowej wynosi 5,5. Jest to
jednak tylko oznaczenie niemające statusu liczby, bo wcześniej stwierdziłem, że jednak tylko oznaczenie niemające statusu liczby, bo wcześniej stwierdziłem, że
jednostki skal znormalizowanych są niepodzielne i że ułamki w tym przypadku jednostki skal znormalizowanych są niepodzielne i że ułamki w tym przypadku
nie mają interpretacji. Co więcej, granica pomiędzy stenami ma tylko znaczenie nie mają interpretacji. Co więcej, granica pomiędzy stenami ma tylko znaczenie
teoretyczne. Nie ma takiego wyniku, który leżałby dokładnie pomiędzy stenami. teoretyczne. Nie ma takiego wyniku, który leżałby dokładnie pomiędzy stenami.
Każdy wynik musi należeć do któregoś stena. Zgodnie z procedurą, która zosta- Każdy wynik musi należeć do któregoś stena. Zgodnie z procedurą, która zosta-
nie przedstawiona poniżej wynikowi znormalizowanemu z=0, a więc wynikowi nie przedstawiona poniżej wynikowi znormalizowanemu z=0, a więc wynikowi
odpowiadającemu średniej, zostanie przypisany 6 sten. odpowiadającemu średniej, zostanie przypisany 6 sten.
Rysunek 6.12. Skala stenowa Rysunek 6.12. Skala stenowa
W przypadku skali stenowej bardzo łatwo jest wyznaczyć przedział obejmują- W przypadku skali stenowej bardzo łatwo jest wyznaczyć przedział obejmują-
cy wyniki typowe – od 4 do 6 stena. Takie wyniki w diagnozie psychologicznej cy wyniki typowe – od 4 do 6 stena. Takie wyniki w diagnozie psychologicznej
zostaną najczęściej uznane za normę. zostaną najczęściej uznane za normę.
Podobnie jak w skali staninowej, krańcowe jednostki, a więc steny 1 i 10, są Podobnie jak w skali staninowej, krańcowe jednostki, a więc steny 1 i 10, są
przedziałami otwartymi. W związku z tym skala stenowa różnicuje wyniki osób, przedziałami otwartymi. W związku z tym skala stenowa różnicuje wyniki osób,
jeśli nie są oddalone od średniej bardziej niż o 2 odchylenia standardowe. jeśli nie są oddalone od średniej bardziej niż o 2 odchylenia standardowe.
6.2.4.3. Skala tenowa 6.2.4.3. Skala tenowa

Skala tenowa ma bardzo duży zakres użytkowy i bardzo małą i dokładną jed- Skala tenowa ma bardzo duży zakres użytkowy i bardzo małą i dokładną jed-
nostkę. Jest to skala 100 punktowa (od 1 do 100). Średnia jest równa 50 tenowi. nostkę. Jest to skala 100 punktowa (od 1 do 100). Średnia jest równa 50 tenowi.
Dokładniej należałoby powiedzieć, że średnia leży pomiędzy 50 i 51 tenem, ale Dokładniej należałoby powiedzieć, że średnia leży pomiędzy 50 i 51 tenem, ale
szerokość pojedynczego tena jest tak mała, że można sobie pozwolić na tę uła- szerokość pojedynczego tena jest tak mała, że można sobie pozwolić na tę uła-
twiającą zapis małą niedokładność. Odchylenie standardowe skali wynosi 10. twiającą zapis małą niedokładność. Odchylenie standardowe skali wynosi 10.
Tak więc pojedynczy ten to przedział o szerokości równej 0,1z. Jak łatwo ob- Tak więc pojedynczy ten to przedział o szerokości równej 0,1z. Jak łatwo ob-
liczyć, użytkowy zakres obejmuje wyniki od –5z do +5z. Prawdopodobnie nie liczyć, użytkowy zakres obejmuje wyniki od –5z do +5z. Prawdopodobnie nie
istnieje test psychologiczny, który byłby w stanie różnicować osoby o wynikach istnieje test psychologiczny, który byłby w stanie różnicować osoby o wynikach
odległych od średniej bardziej niż o 3 odchylenia standardowe. Osób o tak skraj- odległych od średniej bardziej niż o 3 odchylenia standardowe. Osób o tak skraj-
nych wynikach (bardzo niskich i bardzo wysokich) jest w populacji zaledwie nych wynikach (bardzo niskich i bardzo wysokich) jest w populacji zaledwie
0,26%. Prawdopodobieństwo, że napotka się taką osobę na ulicy jest raczej małe. 0,26%. Prawdopodobieństwo, że napotka się taką osobę na ulicy jest raczej małe.
Oczywiście psycholodzy pracują z osobami o bardzo różnych nasileniach cech Oczywiście psycholodzy pracują z osobami o bardzo różnych nasileniach cech
(np. osoby upośledzone umysłowo lub osoby szczególnie inteligentne), ale do 217 (np. osoby upośledzone umysłowo lub osoby szczególnie inteligentne), ale do 217

badania takich osób konstruuje się specjalne testy nienadające się do badań po- badania takich osób konstruuje się specjalne testy nienadające się do badań po-
pulacji generalnej. Tak więc skala tenowa skonstruowana została jakby na wyrost pulacji generalnej. Tak więc skala tenowa skonstruowana została jakby na wyrost
i w większości zastosowań jej pełny zakres nie zostaje wykorzystany. i w większości zastosowań jej pełny zakres nie zostaje wykorzystany.
Oczywiście nie ma też sensu stosowanie skali tenowej w przypadku testów, Oczywiście nie ma też sensu stosowanie skali tenowej w przypadku testów,
w których rozpiętość punktów surowych jest mniejsza niż 60. W teście obejmują- w których rozpiętość punktów surowych jest mniejsza niż 60. W teście obejmują-
cym tylko 40 zadań, ocenianych na skali 0–1, osoba może maksymalnie uzyskać cym tylko 40 zadań, ocenianych na skali 0–1, osoba może maksymalnie uzyskać
40 punktów. Biorąc pod uwagę realny zakres skali od 20 do 80 tena, duża część 40 punktów. Biorąc pod uwagę realny zakres skali od 20 do 80 tena, duża część
jednostek byłaby w takim przypadku niewykorzystana. jednostek byłaby w takim przypadku niewykorzystana.
Przedział wyników przeciętnych na tej skali ma zakres od 40 do 60 tena. Przedział wyników przeciętnych na tej skali ma zakres od 40 do 60 tena.
Podobnie jak w innych skalach, najbardziej skrajne teny, czyli 1 i 100, są prze- Podobnie jak w innych skalach, najbardziej skrajne teny, czyli 1 i 100, są prze-
działami otwartymi, ale przy skali o tak dużym zakresie nie ma to właściwie działami otwartymi, ale przy skali o tak dużym zakresie nie ma to właściwie
praktycznego znaczenia. praktycznego znaczenia.
Rysunek 6.13. Skala tenowa Rysunek 6.13. Skala tenowa
6.2.4.4. Skala tetronowa 6.2.4.4. Skala tetronowa

Dość rzadko stosowana w praktyce skala o zakresie od 0 do 20. Jej średnia Dość rzadko stosowana w praktyce skala o zakresie od 0 do 20. Jej średnia
jest równa 10 tetronowi, a odchylenie standardowe wynosi 4. Zakres użytkowy jest równa 10 tetronowi, a odchylenie standardowe wynosi 4. Zakres użytkowy
obejmuje wyniki znormalizowane od –2,5z do +2,5z. Przedział wyników prze- obejmuje wyniki znormalizowane od –2,5z do +2,5z. Przedział wyników prze-
ciętnych to tetrony od 6 do 14 (przedział nieco szerszy niż zwykle używany) lub ciętnych to tetrony od 6 do 14 (przedział nieco szerszy niż zwykle używany) lub
od 7 do 13 (przedział nieco węższy). od 7 do 13 (przedział nieco węższy).
Rysunek 6.14. Skala tetronowa Rysunek 6.14. Skala tetronowa
218 218

6.2.4.5. Iloraz inteligencji 6.2.4.5. Iloraz inteligencji

Jest to skala o średniej 100 i odchyleniu standardowym 15. Jej nazwa i para- Jest to skala o średniej 100 i odchyleniu standardowym 15. Jej nazwa i para-
metry mają charakter historyczny. Pojęcie ilorazu inteligencji powstało na po- metry mają charakter historyczny. Pojęcie ilorazu inteligencji powstało na po-
czątku XX wieku. Sformułował je niemiecki psycholog Wiliam Stern, modyfi- czątku XX wieku. Sformułował je niemiecki psycholog Wiliam Stern, modyfi-
kując mniej doskonałą miarę poziomu inteligencji wprowadzoną wcześniej przez kując mniej doskonałą miarę poziomu inteligencji wprowadzoną wcześniej przez
Alfreda Bineta. Oryginalna formuła pozwalająca obliczyć rozwojowy iloraz in- Alfreda Bineta. Oryginalna formuła pozwalająca obliczyć rozwojowy iloraz in-
teligencji zapisana jest w równaniu 6.21. teligencji zapisana jest w równaniu 6.21.
wiek umysłowy wiek umysłowy

IQ = 100 (6.21) IQ = 100 (6.21)
wiek biologiczny wiek biologiczny
Wiek umysłowy uzyskiwano w wyniku badania testem. Wynik podawany był Wiek umysłowy uzyskiwano w wyniku badania testem. Wynik podawany był
nie w punktach, lecz w latach i miesiącach odpowiadających poziomowi wyko- nie w punktach, lecz w latach i miesiącach odpowiadających poziomowi wyko-
nania zadań. Jeśli poziom inteligencji dziecka był wyższy niż typowy w jego gru- nania zadań. Jeśli poziom inteligencji dziecka był wyższy niż typowy w jego gru-
pie wiekowej, czyli był typowy dla grupy dzieci starszych, to iloraz inteligencji pie wiekowej, czyli był typowy dla grupy dzieci starszych, to iloraz inteligencji
był większy niż 100. Gorszy poziom wykonania testu niż u rówieśników dawał był większy niż 100. Gorszy poziom wykonania testu niż u rówieśników dawał
iloraz inteligencji mniejszy niż 100. Zatem IQ=100 oznaczało typowy w odnie- iloraz inteligencji mniejszy niż 100. Zatem IQ=100 oznaczało typowy w odnie-
sieniu do grupy rówieśników poziom rozwoju intelektualnego. sieniu do grupy rówieśników poziom rozwoju intelektualnego.
Dzisiaj oryginalnego ilorazu inteligencji raczej się nie stosuje, bo staje się on Dzisiaj oryginalnego ilorazu inteligencji raczej się nie stosuje, bo staje się on
kłopotliwy w przypadku osób w wieku powyżej ok. 18 lat. U osób dorosłych kłopotliwy w przypadku osób w wieku powyżej ok. 18 lat. U osób dorosłych
wiek biologiczny cały czas jednostajnie wzrasta, ale poziom inteligencji, a więc wiek biologiczny cały czas jednostajnie wzrasta, ale poziom inteligencji, a więc
wiek umysłowy, już nie tak szybko. Iloraz inteligencji w oryginalnej postaci znaj- wiek umysłowy, już nie tak szybko. Iloraz inteligencji w oryginalnej postaci znaj-
duje zastosowanie jedynie w testach rozwojowych, czyli testach służących do ba- duje zastosowanie jedynie w testach rozwojowych, czyli testach służących do ba-
dania poziomu rozwoju różnych funkcji (poznawczych, motorycznych) u małych dania poziomu rozwoju różnych funkcji (poznawczych, motorycznych) u małych
dzieci. Nazywany jest wtedy ilorazem rozwoju. W testach przeznaczonych dla dzieci. Nazywany jest wtedy ilorazem rozwoju. W testach przeznaczonych dla
starszych dzieci i dorosłych w miejsce rozwojowego ilorazu inteligencji stosuje starszych dzieci i dorosłych w miejsce rozwojowego ilorazu inteligencji stosuje
się dewiacyjny iloraz inteligencji. Jest to skala znormalizowana o charakterze się dewiacyjny iloraz inteligencji. Jest to skala znormalizowana o charakterze
podobnym do innych skal omawianych w tym rozdziale, ale różniąca się para- podobnym do innych skal omawianych w tym rozdziale, ale różniąca się para-
metrami. metrami.
Jednostka ilorazu inteligencji ma jeszcze większą dokładność niż jednostka Jednostka ilorazu inteligencji ma jeszcze większą dokładność niż jednostka
skali tenowej. Jeśli odchylenie standardowe skali jest równe15, to jedna jednost- skali tenowej. Jeśli odchylenie standardowe skali jest równe15, to jedna jednost-
ka ilorazu inteligencji obejmuje przedział o szerokości 1/15 odchylenia standar- ka ilorazu inteligencji obejmuje przedział o szerokości 1/15 odchylenia standar-
dowego (co daje w przybliżeniu 0,067z). Zakres użytkowy też jest olbrzymi, bo dowego (co daje w przybliżeniu 0,067z). Zakres użytkowy też jest olbrzymi, bo
skala ilorazów inteligencji jest w stanie różnicować osoby o wynikach odległych skala ilorazów inteligencji jest w stanie różnicować osoby o wynikach odległych
od średniej nawet o 6 odchyleń standardowych. W praktyce jednak tak skrajne od średniej nawet o 6 odchyleń standardowych. W praktyce jednak tak skrajne
sektory skali nie są wykorzystywane. Przedział wyników przeciętnych to ilorazy sektory skali nie są wykorzystywane. Przedział wyników przeciętnych to ilorazy
inteligencji od 85 do 115. inteligencji od 85 do 115.
219 219

Rysunek 6.15. Iloraz inteligencji Rysunek 6.15. Iloraz inteligencji
Tabela 6.3. Podsumowanie parametrów najpopularniejszych skal znormalizo Tabela 6.3. Podsumowanie parametrów najpopularniejszych skal znormalizo
wanych. W ostatniej kolumnie zapisany jest wzór pozwalający przeliczać wyniki wanych. W ostatniej kolumnie zapisany jest wzór pozwalający przeliczać wyniki
znormalizowane na jednostki danej skali znormalizowane na jednostki danej skali
skala średnia odchylenie standardowe wzór przeliczania skala średnia odchylenie standardowe wzór przeliczania
staninowa 5 2 5+2z staninowa 5 2 5+2z
stenowa 5,5 2 5,5+2z stenowa 5,5 2 5,5+2z
tenowa 50 10 50+10z tenowa 50 10 50+10z
tetronowa 10 4 10+4z tetronowa 10 4 10+4z
iloraz inteligencji 100 15 100+15z iloraz inteligencji 100 15 100+15z
6.2.4.6. Przeliczanie wyników na skale znormalizowane 6.2.4.6. Przeliczanie wyników na skale znormalizowane
Procedura normalizacji wyników surowych została omówiona wcześniej Procedura normalizacji wyników surowych została omówiona wcześniej
i przedstawiona w tabeli 6.2. W ostatniej kolumnie tabeli zapisane są wyniki i przedstawiona w tabeli 6.2. W ostatniej kolumnie tabeli zapisane są wyniki
znormalizowane, które można zamienić na dowolną skalę znormalizowaną. znormalizowane, które można zamienić na dowolną skalę znormalizowaną.
W tym celu trzeba wykorzystać wzory przeliczania zapisane w ostatniej kolum- W tym celu trzeba wykorzystać wzory przeliczania zapisane w ostatniej kolum-
nie tabeli 6.3. Jednostki skal znormalizowanych są niepodzielne i dlatego wyniki nie tabeli 6.3. Jednostki skal znormalizowanych są niepodzielne i dlatego wyniki
obliczeń należy zaokrąglać do najbliższej liczby całkowitej. Przykład 2 pokazuje obliczeń należy zaokrąglać do najbliższej liczby całkowitej. Przykład 2 pokazuje
tego rodzaju transformację. tego rodzaju transformację.
Przeliczanie wyniku znormalizowanego na skalę tenową (na podstawie wzoru Przeliczanie wyniku znormalizowanego na skalę tenową (na podstawie wzoru
z tabeli 6.3.) z tabeli 6.3.)
wynik surowy osoby=27 wynik surowy osoby=27
wynik znormalizowany=–0,61 wynik znormalizowany=–0,61
ten = 5 0 + 1 0 ⋅ (−0,6 1) = 4 3,9 ≈ 4 4 ten = 5 0 + 1 0 ⋅ (−0,6 1) = 4 3,9 ≈ 4 4

Na podstawie norm wynikowi surowemu 27 przypisany zostanie 44 ten. Na podstawie norm wynikowi surowemu 27 przypisany zostanie 44 ten.
Do przekształcenia wyników znormalizowanych na skalę można też wykorzy- Do przekształcenia wyników znormalizowanych na skalę można też wykorzy-
220 stać przedstawione w tym rozdziale „drabinki”. Jest to sposób użyteczny w przy- 220 stać przedstawione w tym rozdziale „drabinki”. Jest to sposób użyteczny w przy-

padku skal o małej rozpiętości: staninowej (rys. 6.11.), stenowej (rys. 6.12.). padku skal o małej rozpiętości: staninowej (rys. 6.11.), stenowej (rys. 6.12.).
Pozwala on całkowicie kontrolować proces przekształcania i uniknąć pomyłek Pozwala on całkowicie kontrolować proces przekształcania i uniknąć pomyłek
związanych z zaokrąglaniem. Jeśli wynik znormalizowany jest dokładnie rów- związanych z zaokrąglaniem. Jeśli wynik znormalizowany jest dokładnie rów-
ny granicy między dwiema jednostkami skali, zaliczamy go do jednostki wyż- ny granicy między dwiema jednostkami skali, zaliczamy go do jednostki wyż-
szej. Oznacza to, że jednostki skal znormalizowanych to przedziały domknięte szej. Oznacza to, że jednostki skal znormalizowanych to przedziały domknięte
od dołu. Tylko w takim przypadku przekształcanie za pomocą „drabinki” da taki od dołu. Tylko w takim przypadku przekształcanie za pomocą „drabinki” da taki
sam rezultat jak przy pomocy wzorów z tabeli 6.3. Procedurę tego rodzaju poka- sam rezultat jak przy pomocy wzorów z tabeli 6.3. Procedurę tego rodzaju poka-
zuje przykład 3. zuje przykład 3.
Przeliczanie wyniku znormalizowanego na skalę stenową (na podstawie „drabin- Przeliczanie wyniku znormalizowanego na skalę stenową (na podstawie „drabin-
ki” z rys. 6.12.) ki” z rys. 6.12.)
wynik surowy osoby=27 wynik surowy osoby=27
wynik znormalizowany=–0,61 wynik znormalizowany=–0,61
wynik ten znajduje się w przedziale oznaczonym na rys. 6.12. jako 4 sten wynik ten znajduje się w przedziale oznaczonym na rys. 6.12. jako 4 sten
Na podstawie norm wynikowi surowemu 27 przypisany zostanie 4 sten. Na podstawie norm wynikowi surowemu 27 przypisany zostanie 4 sten.
Tabela 6.4. Przeliczanie wyników znormalizowanych z tabeli 6.2. na jednostki skal znor Tabela 6.4. Przeliczanie wyników znormalizowanych z tabeli 6.2. na jednostki skal znor
malizowanych malizowanych
z staniny steny teny tetrony IQ z staniny steny teny tetrony IQ

–2,33 1 1 27 1 65 –2,33 1 1 27 1 65
–1,65 2 2 34 3 75 –1,65 2 2 34 3 75
–1,13 3 3 39 5 83 –1,13 3 3 39 5 83
–0,61 4 4 44 8 91 –0,61 4 4 44 8 91
–0,05 5 5 50 10 99 –0,05 5 5 50 10 99
0,47 6 6 55 12 107 0,47 6 6 55 12 107
0,92 7 7 59 14 114 0,92 7 7 59 14 114
1,34 8 8 63 15 120 1,34 8 8 63 15 120
1,75 9 9 68 17 126 1,75 9 9 68 17 126
2,33 9 10 73 19 135 2,33 9 10 73 19 135
Chociaż wyniki znormalizowane można przeliczyć na jednostki dowolnej ska- Chociaż wyniki znormalizowane można przeliczyć na jednostki dowolnej ska-
li znormalizowanej, to zwykle wybiera się jedną lub dwie najbardziej odpowied- li znormalizowanej, to zwykle wybiera się jedną lub dwie najbardziej odpowied-
nie. Należy się tu kierować dwoma kryteriami. Po pierwsze, istotna jest rozdziel- nie. Należy się tu kierować dwoma kryteriami. Po pierwsze, istotna jest rozdziel-
czość skali. Im jednostka jest mniejsza, tym większa rozdzielczość. Zatem skale czość skali. Im jednostka jest mniejsza, tym większa rozdzielczość. Zatem skale
IQ i tenowa mają dużą rozdzielczość, a skale stenowa i staninowa – małą. Po dru- IQ i tenowa mają dużą rozdzielczość, a skale stenowa i staninowa – małą. Po dru-
gie, pod uwagę bierze się zakres użytkowy skali. Największy zakres mają skale gie, pod uwagę bierze się zakres użytkowy skali. Największy zakres mają skale
IQ i tenowa, bo mogą różnicować osoby o wynikach odległych od średniej nawet IQ i tenowa, bo mogą różnicować osoby o wynikach odległych od średniej nawet
o 4 odchylenia standardowe. Skale staninowa i stenowa utrzymują zdolność róż- 221 o 4 odchylenia standardowe. Skale staninowa i stenowa utrzymują zdolność róż- 221

nicowania wyników zlokalizowanych nie dalej niż 2 odchylenia standardowe od nicowania wyników zlokalizowanych nie dalej niż 2 odchylenia standardowe od
średniej. Oba te parametry skal znormalizowanych powinny być dopasowane do średniej. Oba te parametry skal znormalizowanych powinny być dopasowane do
parametrów skali wyników surowych testu. A więc skale o wysokiej rozdziel- parametrów skali wyników surowych testu. A więc skale o wysokiej rozdziel-
czości i szerokim zakresie stosuje się wtedy, gdy wyniki surowe również mają czości i szerokim zakresie stosuje się wtedy, gdy wyniki surowe również mają
dużą rozdzielczość i szeroki zakres. Jest tak zwykle w testach, które składają dużą rozdzielczość i szeroki zakres. Jest tak zwykle w testach, które składają
się z dużej liczby pozycji. Ważne jest, by osoby badane mogły w nich uzyskać się z dużej liczby pozycji. Ważne jest, by osoby badane mogły w nich uzyskać
wyniki z dużego zakresu (np. od 0 do 300 punktów) oraz żeby rzeczywiście cały, wyniki z dużego zakresu (np. od 0 do 300 punktów) oraz żeby rzeczywiście cały,
lub prawie cały, ten zakres był realizowany. Nie ma bowiem sensu stosowanie lub prawie cały, ten zakres był realizowany. Nie ma bowiem sensu stosowanie
skali tenowej w teście o możliwym zakresie punktów surowych od 0 do 300, gdy skali tenowej w teście o możliwym zakresie punktów surowych od 0 do 300, gdy
większość osób w rzeczywistości uzyskuje wyniki w zakresie od 150 do 200. większość osób w rzeczywistości uzyskuje wyniki w zakresie od 150 do 200.
Konsekwencje zastosowania skali tenowej w teście o małym zakresie wyników Konsekwencje zastosowania skali tenowej w teście o małym zakresie wyników
surowych widać w tabeli 6.4. – tylko niektóre jednostki skali tenowej zostały tu surowych widać w tabeli 6.4. – tylko niektóre jednostki skali tenowej zostały tu
wykorzystane. Nie jest to oczywiście błąd, ale wystarczająca w tym przypadku wykorzystane. Nie jest to oczywiście błąd, ale wystarczająca w tym przypadku
byłaby skala stenowa lub staninowa o dużo mniejszej rozdzielczości. byłaby skala stenowa lub staninowa o dużo mniejszej rozdzielczości.
Testy o dużej rozdzielczości wyników surowych mogą, ale nie muszą, mieć Testy o dużej rozdzielczości wyników surowych mogą, ale nie muszą, mieć
szerokiego zakresu użytkowego. Można sobie wyobrazić test inteligencji, któ- szerokiego zakresu użytkowego. Można sobie wyobrazić test inteligencji, któ-
ry ma bardzo dużo zadań ustawionych w porządku od najłatwiejszego do naj- ry ma bardzo dużo zadań ustawionych w porządku od najłatwiejszego do naj-
trudniejszego, ale różnice w trudności kolejnych zadań są nieznaczne. Taki test trudniejszego, ale różnice w trudności kolejnych zadań są nieznaczne. Taki test
będzie miał raczej dużą rozdzielczość (chociaż w praktyce zostanie ona prawdo- będzie miał raczej dużą rozdzielczość (chociaż w praktyce zostanie ona prawdo-
podobnie zatarta przez błąd pomiaru), ale niezbyt szeroki zakres. Osoba, która podobnie zatarta przez błąd pomiaru), ale niezbyt szeroki zakres. Osoba, która
rozwiąże tylko kilka początkowych zadań i osoba, która rozwiąże prawie wszyst- rozwiąże tylko kilka początkowych zadań i osoba, która rozwiąże prawie wszyst-
kie zadania będą się pod względem inteligencji różniły raczej mało. Aby ten test kie zadania będą się pod względem inteligencji różniły raczej mało. Aby ten test
mógł mieć i dużą rozdzielczość, i duży zakres, musi składać się z dużej liczby mógł mieć i dużą rozdzielczość, i duży zakres, musi składać się z dużej liczby
zadań różniących się znacznie trudnością. zadań różniących się znacznie trudnością.
Testy o małej rozdzielczości też mogą, ale nie muszą, mieć szerokiego zakresu Testy o małej rozdzielczości też mogą, ale nie muszą, mieć szerokiego zakresu
użytkowego. Za przykład może posłużyć test inteligencji składający się tylko użytkowego. Za przykład może posłużyć test inteligencji składający się tylko
z trzech zadań. Jeśli będą to zadania o ekstremalnie różnej trudności, to test ten z trzech zadań. Jeśli będą to zadania o ekstremalnie różnej trudności, to test ten
będzie miał małą rozdzielczość (bo będzie różnicował tylko osoby wyraźnie róż- będzie miał małą rozdzielczość (bo będzie różnicował tylko osoby wyraźnie róż-
niące się poziomem inteligencji), ale będzie obejmował szeroki zakres. Gdyby niące się poziomem inteligencji), ale będzie obejmował szeroki zakres. Gdyby
zadania mały podobną trudność, wtedy test miałby i małą rozdzielczość, i wąski zadania mały podobną trudność, wtedy test miałby i małą rozdzielczość, i wąski
zakres. zakres.
Podsumowując, gdy rozdzielczość testu jest duża lub jego zakres użytkowy Podsumowując, gdy rozdzielczość testu jest duża lub jego zakres użytkowy
jest szeroki, należy wtedy zastosować skalę IQ lub tenową. Gdy natomiast oba jest szeroki, należy wtedy zastosować skalę IQ lub tenową. Gdy natomiast oba
te parametry są małe, wystarczająca i najwygodniejsza będzie skala stenowa lub te parametry są małe, wystarczająca i najwygodniejsza będzie skala stenowa lub
staninowa. staninowa.
6.2.5. Normy centylowe 6.2.5. Normy centylowe

Normalizacja wyników surowych jest sensowna tylko wtedy, gdy wyniki te Normalizacja wyników surowych jest sensowna tylko wtedy, gdy wyniki te
przyjmują rozkład co najmniej zbliżony do normalnego. Gdy rozkład wyników przyjmują rozkład co najmniej zbliżony do normalnego. Gdy rozkład wyników
z jakichś względów jest znacząco różny od normalnego, albo gdy wyniki testu nie z jakichś względów jest znacząco różny od normalnego, albo gdy wyniki testu nie
222 będą interpretowane w odniesieniu do populacji (np. wyniki egzaminu kwalifika- 222 będą interpretowane w odniesieniu do populacji (np. wyniki egzaminu kwalifika-

cyjnego), wtedy możliwe jest zastosowanie norm centylowych. W psychometrii cyjnego), wtedy możliwe jest zastosowanie norm centylowych. W psychometrii
z reguły korzysta się nie z tradycyjnie rozumianych centyli, tylko z jednostek, z reguły korzysta się nie z tradycyjnie rozumianych centyli, tylko z jednostek,
które nazywał będę przedziałami centylowymi. W trosce o porządek terminolo- które nazywał będę przedziałami centylowymi. W trosce o porządek terminolo-
giczny omówię obie te skale podkreślając zasadnicze różnice między nimi. giczny omówię obie te skale podkreślając zasadnicze różnice między nimi.
Klasyczne centyle to rodzaj tzw. kwantyli, czyli powszechnie używanych Klasyczne centyle to rodzaj tzw. kwantyli, czyli powszechnie używanych
w statystyce wielkości, które dzielą uporządkowany szereg wyników w równych w statystyce wielkości, które dzielą uporządkowany szereg wyników w równych
proporcjach. Centyle dzielą taki szereg na 100 równych pod względem liczebno- proporcjach. Centyle dzielą taki szereg na 100 równych pod względem liczebno-
ści części, a więc są rozstawione co około 1% wyników. Pierwszy centyl to wy- ści części, a więc są rozstawione co około 1% wyników. Pierwszy centyl to wy-
nik o numerze równym 1% liczebności próby, drugi centyl to wynik o numerze nik o numerze równym 1% liczebności próby, drugi centyl to wynik o numerze
równym 2% liczebności próby itd. Istota klasycznych centyli została zilustrowa- równym 2% liczebności próby itd. Istota klasycznych centyli została zilustrowa-
na w przykładzie 4. na w przykładzie 4.
Centyle (ujęcie klasyczne) to te pojedyncze wyniki w uporządkowanym szeregu, któ- Centyle (ujęcie klasyczne) to te pojedyncze wyniki w uporządkowanym szeregu, któ-
re dzielą go na 100 równych pod względem liczebności części – każda z tych części re dzielą go na 100 równych pod względem liczebności części – każda z tych części
obejmuje 1% wyników. obejmuje 1% wyników.
Przedziały centylowe (ujęcie psychometryczne) to jednostki, z których każda obej- Przedziały centylowe (ujęcie psychometryczne) to jednostki, z których każda obej-
muje 1% wyników surowych. Wyjątek stanowią przedziały 0 i 100, które obejmują muje 1% wyników surowych. Wyjątek stanowią przedziały 0 i 100, które obejmują
po 0,5% wyników. po 0,5% wyników.
Próba normalizacyjna liczy 400 osób. Poniżej zapisanych jest kilkanaście początko- Próba normalizacyjna liczy 400 osób. Poniżej zapisanych jest kilkanaście początko-
wych (najniższych) wyników testowych z uporządkowanego szeregu. Przy liczebno- wych (najniższych) wyników testowych z uporządkowanego szeregu. Przy liczebno-
ści próby 400, centyle będą wynikami rozstawionymi co 4 osoby. A więc 1. centyl to ści próby 400, centyle będą wynikami rozstawionymi co 4 osoby. A więc 1. centyl to
wynik o numerze 4, 2. centyl – wynik o numerze 8 itd. Wyniki odpowiadające centy- wynik o numerze 4, 2. centyl – wynik o numerze 8 itd. Wyniki odpowiadające centy-
lom zostały w przykładowym szeregu zaznaczone. lom zostały w przykładowym szeregu zaznaczone.
a) każda osoba może uzyskać wynik testowy od 0 do 300 (więcej punktów niż cen- a) każda osoba może uzyskać wynik testowy od 0 do 300 (więcej punktów niż cen-
tyli) tyli)
b) każda osoba może uzyskać wynik testowy od 0 do 50 (więcej centyli niż punk- b) każda osoba może uzyskać wynik testowy od 0 do 50 (więcej centyli niż punk-
tów) tów)
Z przykładu 4 wynika, że jeśli liczba punktów możliwych do uzyskania w te- Z przykładu 4 wynika, że jeśli liczba punktów możliwych do uzyskania w te-
ście jest większa niż 100 (przykład 4a), wtedy nie każdemu wynikowi będzie od- ście jest większa niż 100 (przykład 4a), wtedy nie każdemu wynikowi będzie od-
powiadał centyl i formalnie niektóre wyniki będą leżały pomiędzy centylami. Jeśli powiadał centyl i formalnie niektóre wyniki będą leżały pomiędzy centylami. Jeśli
natomiast wyników testowych jest mniej niż 100 (przykład 4b), wtedy niektórym 223 natomiast wyników testowych jest mniej niż 100 (przykład 4b), wtedy niektórym 223

wynikom może odpowiadać więcej niż jeden centyl. W takim przypadku wyniko- wynikom może odpowiadać więcej niż jeden centyl. W takim przypadku wyniko-
wi przypisuje się najwyższy z odpowiadających mu centyli. Na tej podstawie wywi przypisuje się najwyższy z odpowiadających mu centyli. Na tej podstawie wy-
nikowi 2 z przykładu 4b przypisany zostanie 2 centyl. Klasyczna skala centylowa nikowi 2 z przykładu 4b przypisany zostanie 2 centyl. Klasyczna skala centylowa
zaczyna się od 1 centyla, a 100 centyl to najwyższy wynik w próbie. zaczyna się od 1 centyla, a 100 centyl to najwyższy wynik w próbie.
Jak to wynika z powyższego opisu, centyle w klasycznym ujęciu są pojedyn- Jak to wynika z powyższego opisu, centyle w klasycznym ujęciu są pojedyn-
czymi wynikami, co w określonych warunkach może utrudniać opisywanie osób czymi wynikami, co w określonych warunkach może utrudniać opisywanie osób
badanych testami. Przy odrobinie wprawy można się do tej ich właściwości przy- badanych testami. Przy odrobinie wprawy można się do tej ich właściwości przy-
zwyczaić, ale o wiele wygodniejsze w zastosowaniu są skale, których jednostki zwyczaić, ale o wiele wygodniejsze w zastosowaniu są skale, których jednostki
są przedziałami wyników. Taki charakter mają opisywane wcześniej skale znor- są przedziałami wyników. Taki charakter mają opisywane wcześniej skale znor-
malizowane oraz tzw. przedziały centylowe, które przedstawię poniżej. malizowane oraz tzw. przedziały centylowe, które przedstawię poniżej.
W tabeli 6.5. pokazany jest sposób obliczania przedziałów centylowych dla fik- W tabeli 6.5. pokazany jest sposób obliczania przedziałów centylowych dla fik-
cyjnych danych, których część została wcześniej przedstawiona w przykładzie 4a. cyjnych danych, których część została wcześniej przedstawiona w przykładzie 4a.
Tabela 6.5. Wyznaczanie przedziałów centylowych Tabela 6.5. Wyznaczanie przedziałów centylowych
(1) (2) (3) (4) (5) (1) (2) (3) (4) (5)
wynik liczebność przedział wynik liczebność przedział
liczebność proporcja liczebność proporcja
surowy skumulowana centylowy surowy skumulowana centylowy
8 2 2 0,005 8 2 2 0,005
1 1
9 1 3 0,008 9 1 3 0,008
12 4 7 0,018 12 4 7 0,018
14 1 8 0,020 2 14 1 8 0,020 2
18 1 9 0,023 18 1 9 0,023
19 2 11 0,028 19 2 11 0,028
3 3
21 1 12 0,030 21 1 12 0,030
25 2 14 0,035 25 2 14 0,035
4 4
29 3 17 0,043 29 3 17 0,043
31 1 18 0,045 31 1 18 0,045
5 5
35 3 21 0,053 35 3 21 0,053
...
...
...
...
...
...
...
...
...
...
289 5 400 1,000 100 289 5 400 1,000 100
W tabeli 6.5. kolumny (1), (2) i (3) wyznaczane są tak samo, jak w tabeli 6.2. W tabeli 6.5. kolumny (1), (2) i (3) wyznaczane są tak samo, jak w tabeli 6.2.
W kolumnie (4) obliczona jest proporcja liczebności skumulowanej względem W kolumnie (4) obliczona jest proporcja liczebności skumulowanej względem
całej próby (liczebność skumulowana podzielona przez liczebność próby). W ko- całej próby (liczebność skumulowana podzielona przez liczebność próby). W ko-
lumnie (5) wyznaczone są przedziały centylowe, a więc proporcja z kolumny (4) lumnie (5) wyznaczone są przedziały centylowe, a więc proporcja z kolumny (4)
pomnożona przez 100. Wartości w kolumnie (5) powinny być zaokrąglone do pomnożona przez 100. Wartości w kolumnie (5) powinny być zaokrąglone do
najbliższej liczby całkowitej. W ten sposób nabierają one charakteru przedzia- najbliższej liczby całkowitej. W ten sposób nabierają one charakteru przedzia-
łów, co oznacza, że mogą obejmować więcej niż jeden wynik. Warto zauważyć, łów, co oznacza, że mogą obejmować więcej niż jeden wynik. Warto zauważyć,
224 że jeśli proporcja w kolumnie (4) tabeli 6.5. wynosiłaby mniej niż 0,005, to wte- 224 że jeśli proporcja w kolumnie (4) tabeli 6.5. wynosiłaby mniej niż 0,005, to wte-

dy zgodnie z zasadami zaokrąglania odpowiadałby jej przedział centylowy 0. dy zgodnie z zasadami zaokrąglania odpowiadałby jej przedział centylowy 0.
Obejmuje on wyjątkowo nie 1%, tylko 0,5% wyników surowych. Tak samo jest Obejmuje on wyjątkowo nie 1%, tylko 0,5% wyników surowych. Tak samo jest
z przedziałem centylowym 100, który przypisywany jest wynikom surowym z przedziałem centylowym 100, który przypisywany jest wynikom surowym
dającym proporcję skumulowaną co najmniej 0,995. A więc skala przedziałów dającym proporcję skumulowaną co najmniej 0,995. A więc skala przedziałów
centylowych, w przeciwieństwie do klasycznych centyli, ma 101 jednostek. Jej centylowych, w przeciwieństwie do klasycznych centyli, ma 101 jednostek. Jej
środek odpowiada dokładnie medianie wyników surowych. środek odpowiada dokładnie medianie wyników surowych.
Przedziały centylowe wykazują zasadnicze różnice z opisywanymi wcześniej Przedziały centylowe wykazują zasadnicze różnice z opisywanymi wcześniej
skalami znormalizowanymi. Nie ma tu zastosowania odchylenie standardowe, skalami znormalizowanymi. Nie ma tu zastosowania odchylenie standardowe,
ponieważ skala przedziałów centylowych ma charakter procentowy. Oznacza ponieważ skala przedziałów centylowych ma charakter procentowy. Oznacza
to, że pozycję osoby ocenia się na podstawie jej lokalizacji w uporządkowanym to, że pozycję osoby ocenia się na podstawie jej lokalizacji w uporządkowanym
szeregu. Jeśli na przykład wynikowi osoby odpowiada 92 przedział centylowy, szeregu. Jeśli na przykład wynikowi osoby odpowiada 92 przedział centylowy,
można powiedzieć, że około 92 procent osób w próbie miało wyniki takie same, można powiedzieć, że około 92 procent osób w próbie miało wyniki takie same,
jak ta osoba, lub niższe. Można oczywiście tę proporcję przeliczyć na jednostki jak ta osoba, lub niższe. Można oczywiście tę proporcję przeliczyć na jednostki
odchyleń standardowych przy użyciu odpowiednich tabel lub programu staty- odchyleń standardowych przy użyciu odpowiednich tabel lub programu staty-
stycznego, ale ma to sens tylko wtedy, gdy rozkład wyników surowych jest rze- stycznego, ale ma to sens tylko wtedy, gdy rozkład wyników surowych jest rze-
czywiście normalny. czywiście normalny.
Skala przedziałów centylowych ma charakter porządkowy. Przedziały centy- Skala przedziałów centylowych ma charakter porządkowy. Przedziały centy-
lowe można więc traktować najwyżej jak rangi, bo odległości między dwoma lowe można więc traktować najwyżej jak rangi, bo odległości między dwoma
rzadkimi wynikami w próbie (np. bardzo niskimi) będą małe, a pomiędzy wyni- rzadkimi wynikami w próbie (np. bardzo niskimi) będą małe, a pomiędzy wyni-
kami częstymi (typowymi) będą duże. Żeby ten efekt zobaczyć, warto na chwilę kami częstymi (typowymi) będą duże. Żeby ten efekt zobaczyć, warto na chwilę
powrócić do tabeli 6.2. opisującej normalizację. W tabeli tej nie ma co prawda powrócić do tabeli 6.2. opisującej normalizację. W tabeli tej nie ma co prawda
policzonych przedziałów centylowych, ale bardzo łatwo je wyznaczyć, mnożąc policzonych przedziałów centylowych, ale bardzo łatwo je wyznaczyć, mnożąc
proporcje z kolumny (5) przez 100. Widać wtedy, że różnica między wynikami proporcje z kolumny (5) przez 100. Widać wtedy, że różnica między wynikami
24 i 25 z dolnego krańca skali wynosi 6 przedziałów centylowych, a różnica mię- 24 i 25 z dolnego krańca skali wynosi 6 przedziałów centylowych, a różnica mię-
dzy wynikami 27 i 28 ze środka skali to 24 przedziały centylowe. Trudno więc dzy wynikami 27 i 28 ze środka skali to 24 przedziały centylowe. Trudno więc
traktować przedziały centylowe jako jednostkę jednolitą w całym zakresie skali traktować przedziały centylowe jako jednostkę jednolitą w całym zakresie skali
wyników. Efekt ten pokazany jest również na rys. 6.16. wyników. Efekt ten pokazany jest również na rys. 6.16.
Skala przedziałów centylowych nie uwzględnia kształtu rozkładu wyników. Skala przedziałów centylowych nie uwzględnia kształtu rozkładu wyników.
Jest to konsekwencja jej procentowego charakteru. Można więc stosować ją na- Jest to konsekwencja jej procentowego charakteru. Można więc stosować ją na-
wet w przypadku wyników o bardzo dziwacznych rozkładach, bez narażania się wet w przypadku wyników o bardzo dziwacznych rozkładach, bez narażania się
na błędy w interpretacjach. Skala przedziałów centylowych stanowi więc alterna błędy w interpretacjach. Skala przedziałów centylowych stanowi więc alter-
natywę dla skal znormalizowanych w przypadkach, gdy rozkład wyników su- natywę dla skal znormalizowanych w przypadkach, gdy rozkład wyników su-
rowych nie jest normalny. Sytuacja tego rodzaju może zdarzyć się, gdy próba rowych nie jest normalny. Sytuacja tego rodzaju może zdarzyć się, gdy próba
normalizacyjna jest mała i nieprzypadkowa. Gdy nauczyciel chce ustalić pozycję normalizacyjna jest mała i nieprzypadkowa. Gdy nauczyciel chce ustalić pozycję
konkretnego ucznia na tle całej klasy szkolnej, to powinien raczej posłużyć się konkretnego ucznia na tle całej klasy szkolnej, to powinien raczej posłużyć się
przedziałami centylowymi, bo trudno oczekiwać, że rozkład wyników egzaminu przedziałami centylowymi, bo trudno oczekiwać, że rozkład wyników egzaminu
będzie w małej klasie choćby zbliżony do normalnego. Podobnie, gdy test psy- będzie w małej klasie choćby zbliżony do normalnego. Podobnie, gdy test psy-
chologiczny wykorzystywany jest do selekcji i chodzi jedynie o ustalenie miejsca chologiczny wykorzystywany jest do selekcji i chodzi jedynie o ustalenie miejsca
kandydata względem innych pod względem mierzonych zdolności. W obu tych kandydata względem innych pod względem mierzonych zdolności. W obu tych
przypadkach układem odniesienia dla interpretacji wyników jest nieduża próba, przypadkach układem odniesienia dla interpretacji wyników jest nieduża próba,
a nie populacja. Czasami normy tego rodzaju, gdy nie są sporządzone na podsta- a nie populacja. Czasami normy tego rodzaju, gdy nie są sporządzone na podsta-
wie dużej reprezentatywnej próby, nazywa się normami lokalnymi. 225 wie dużej reprezentatywnej próby, nazywa się normami lokalnymi. 225

Rysunek 6.16. Porównanie najpopularniejszych skal znormalizowanych i skali przedzia Rysunek 6.16. Porównanie najpopularniejszych skal znormalizowanych i skali przedzia
łów centylowych z rozkładem normalnym. łów centylowych z rozkładem normalnym.
Może być jednak i tak, że przedziały centylowe zostaną zastosowane do sfor- Może być jednak i tak, że przedziały centylowe zostaną zastosowane do sfor-
mułowania interpretacji wyniku testowego na tle populacji. Zastępuje się nimi mułowania interpretacji wyniku testowego na tle populacji. Zastępuje się nimi
popularne skale znormalizowane, gdy oczekiwany rozkład cechy w populacji nie popularne skale znormalizowane, gdy oczekiwany rozkład cechy w populacji nie
jest normalny. Jest to raczej rzadka konieczność, bo tylko niewiele cech psy- jest normalny. Jest to raczej rzadka konieczność, bo tylko niewiele cech psy-
chicznych przyjmuje rozkłady na tyle skośne, że nie zaleca się stosowania wobec chicznych przyjmuje rozkłady na tyle skośne, że nie zaleca się stosowania wobec
nich normalizacji. Ponadto cenioną przez wielu diagnostów zaletą skali przedzia- nich normalizacji. Ponadto cenioną przez wielu diagnostów zaletą skali przedzia-
łów centylowych jest prosta i intuicyjna interpretacja. Wnioski formułowane na łów centylowych jest prosta i intuicyjna interpretacja. Wnioski formułowane na
podstawie przedziałów centylowych bardzo łatwo przekłada się na informacje podstawie przedziałów centylowych bardzo łatwo przekłada się na informacje
zwrotne. Są one zrozumiałe nawet dla osób bez specjalistycznego wykształcenia. zwrotne. Są one zrozumiałe nawet dla osób bez specjalistycznego wykształcenia.
Między innymi z tego względu tak popularne są siatki centylowe, czyli normy Między innymi z tego względu tak popularne są siatki centylowe, czyli normy
bazujące na przedziałach centylowych i dodatkowo przedstawione w postaci gra- bazujące na przedziałach centylowych i dodatkowo przedstawione w postaci gra-
ficznej. ficznej.

Anastasi A., Urbina S. (1999). Testy psychologiczne. Warszawa: Pracownia Testów Anastasi A., Urbina S. (1999). Testy psychologiczne. Warszawa: Pracownia Testów
Psychologicznych PTP. (Str. 76 – 108). Psychologicznych PTP. (Str. 76 – 108).
226 (Str. 539–547). 226 (Str. 539–547).

Ferguson G.A., Takane Y. (1999). Analiza statystyczna w psychologii i pedagogice. Ferguson G.A., Takane Y. (1999). Analiza statystyczna w psychologii i pedagogice.
Warszawa: PWN. (Str. 504–515). Warszawa: PWN. (Str. 504–515).
(Str. 128–157). (Str. 128–157).
str. 342–364). str. 342–364).
Matuszewski A. (1984). Interpretacja formalna wyników w testach psychologicznych. Matuszewski A. (1984). Interpretacja formalna wyników w testach psychologicznych.
W: J. Brzeziński (red.) Wybrane zagadnienia z psychometrii i diagnostyki psycholo- W: J. Brzeziński (red.) Wybrane zagadnienia z psychometrii i diagnostyki psycholo-
gicznej, str. 47–72. Poznań: Wydawnictwo UAM. gicznej, str. 47–72. Poznań: Wydawnictwo UAM.
Zawadzki B. (2006). Kwestionariusze osobowości – strategie i procedura konstruowa- Zawadzki B. (2006). Kwestionariusze osobowości – strategie i procedura konstruowa-
nia. Warszawa: Scholar. (Str. 258–264). nia. Warszawa: Scholar. (Str. 258–264).
Zadania Zadania
1. 1.
Podaj wystandaryzowane wyniki odpowiadające wynikom surowym 12 i 18, gdy Podaj wystandaryzowane wyniki odpowiadające wynikom surowym 12 i 18, gdy
średnia w próbie wynosi 14, a odchylenie standardowe 4. średnia w próbie wynosi 14, a odchylenie standardowe 4.
2. 2.
Zamień podane wyniki surowe na wyniki znormalizowane oraz na jednostki skali Zamień podane wyniki surowe na wyniki znormalizowane oraz na jednostki skali
stenowej, staninowej, tenowej, tetronowej, ilorazów inteligencji. stenowej, staninowej, tenowej, tetronowej, ilorazów inteligencji.
wyniki 1 2 3 4 5 6 7 8 9 10 wyniki 1 2 3 4 5 6 7 8 9 10
liczebności 3 8 10 13 17 16 13 10 7 3 liczebności 3 8 10 13 17 16 13 10 7 3
3. 3.
Zamień podane wyniki na centyle i narysuj słupkowy wykres liczebności. Zamień podane wyniki na centyle i narysuj słupkowy wykres liczebności.
wyniki 10 11 12 13 14 15 16 17 18 19 wyniki 10 11 12 13 14 15 16 17 18 19
liczebności 5 11 15 20 16 12 9 6 4 2 liczebności 5 11 15 20 16 12 9 6 4 2
4. 4.
Przelicz wyniki podane w tenach na staniny, steny i tetrony. Przelicz wyniki podane w tenach na staniny, steny i tetrony.
teny 25 38 45 50 51 59 62 66 70 73 teny 25 38 45 50 51 59 62 66 70 73
5. 5.
Przelicz wyniki podane w jednostkach ilorazu inteligencji na staniny, steny i te- Przelicz wyniki podane w jednostkach ilorazu inteligencji na staniny, steny i te-
trony. trony.
IQ 65 73 82 99 107 115 121 135 140 141 IQ 65 73 82 99 107 115 121 135 140 141
227 227

6. 6.
Podaj przybliżone granice 3 staniny w jednostkach ilorazu inteligencji i w te- Podaj przybliżone granice 3 staniny w jednostkach ilorazu inteligencji i w te-
nach. nach.
7. 7.
Podaj przybliżone granice 7 stena w jednostkach ilorazu inteligencji i w tenach. Podaj przybliżone granice 7 stena w jednostkach ilorazu inteligencji i w tenach.
8. 8.
Jaki procent osób z teoretycznej populacji o normalnym rozkładzie cechy uzyska Jaki procent osób z teoretycznej populacji o normalnym rozkładzie cechy uzyska
wynik znormalizowany równy wynik znormalizowany równy
a) 2 staninie; a) 2 staninie;
b) 5 staninie; b) 5 staninie;
c) 8 staninie; c) 8 staninie;
d) 3 stenowi; d) 3 stenowi;
e) 6 stenowi; e) 6 stenowi;
f) 9 stenowi? f) 9 stenowi?

1. z12=–0,5; z18=1. 1. z12=–0,5; z18=1.
2. 2.
wyniki 1 2 3 4 5 6 7 8 9 10 wyniki 1 2 3 4 5 6 7 8 9 10
staniny 1 2 3 4 5 5 6 7 8 9 staniny 1 2 3 4 5 5 6 7 8 9
steny 1 3 4 4 5 6 7 8 9 10 steny 1 3 4 4 5 6 7 8 9 10
tetrony 1 4 6 8 9 11 13 14 16 19 tetrony 1 4 6 8 9 11 13 14 16 19
teny 28 35 40 44 48 52 56 60 65 72 teny 28 35 40 44 48 52 56 60 65 72
IQ 67 78 85 91 97 103 109 116 123 133 IQ 67 78 85 91 97 103 109 116 123 133
3. 3.
wyniki 10 11 12 13 14 15 16 17 18 19 wyniki 10 11 12 13 14 15 16 17 18 19
centyle 5 16 31 51 67 79 88 94 98 100 centyle 5 16 31 51 67 79 88 94 98 100
4. 4.
teny 25 38 45 50 51 59 62 66 70 73 teny 25 38 45 50 51 59 62 66 70 73
staniny 1 3 4 5 5 7 7 8 9 9 staniny 1 3 4 5 5 7 7 8 9 9
steny 1 3 5 6 6 7 8 9 10 10 steny 1 3 5 6 6 7 8 9 10 10
tetrony 0 5 8 10 10 14 15 16 18 19 tetrony 0 5 8 10 10 14 15 16 18 19
228 228

5. 5.
IQ 65 73 82 99 107 115 121 129 135 141 IQ 65 73 82 99 107 115 121 129 135 141
staniny 1 1 3 5 6 7 8 9 9 9 staniny 1 1 3 5 6 7 8 9 9 9
steny 1 2 3 5 6 8 8 9 10 10 steny 1 2 3 5 6 8 8 9 10 10
tetrony 1 3 5 10 12 14 16 18 19 20 tetrony 1 3 5 10 12 14 16 18 19 20
6. Od 38 do 43 tena; od 81 do 89 jednostki ilorazu inteligencji. 6. Od 38 do 43 tena; od 81 do 89 jednostki ilorazu inteligencji.
7. Od 55 do 60 tena; od 108 do 115 jednostki ilorazu inteligencji. 7. Od 55 do 60 tena; od 108 do 115 jednostki ilorazu inteligencji.
8a. 0,106 – 0,040=0,066; 6,6%; 8a. 0,106 – 0,040=0,066; 6,6%;

8b. 0,599 – 0,401=0,198; 19,8%; 8b. 0,599 – 0,401=0,198; 19,8%;
8c. 0,960 – 0,894=0,066; 6,6%; 8c. 0,960 – 0,894=0,066; 6,6%;
8d. 0,159 – 0,067=0,092; 9,2%; 8d. 0,159 – 0,067=0,092; 9,2%;
8e. 0,691 – 0,500=0,191; 19,1%; 8e. 0,691 – 0,500=0,191; 19,1%;
8f. 0,977 – 0,933=0,044; 4,4%. 8f. 0,977 – 0,933=0,044; 4,4%.
229 229

7. Etyka badań testowych 7. Etyka badań testowych

Celem tego rozdziału jest prezentacja najważniejszych zasad dotyczących Celem tego rozdziału jest prezentacja najważniejszych zasad dotyczących
praktyki diagnozowania psychologicznego na podstawie metod standardowych, praktyki diagnozowania psychologicznego na podstawie metod standardowych,
tak, aby po jego lekturze Czytelnik dobrze znał reguły, których musi przestrzegać tak, aby po jego lekturze Czytelnik dobrze znał reguły, których musi przestrzegać
odpowiedzialny użytkownik testu. Oprócz strony etycznej stosowania testów, odpowiedzialny użytkownik testu. Oprócz strony etycznej stosowania testów,
która jest kluczowa dla właściwego wykonywania zawodu psychologa-diagno- która jest kluczowa dla właściwego wykonywania zawodu psychologa-diagno-
sty, odwołamy się do uregulowań prawnych, związanych z tym obszarem pracy. sty, odwołamy się do uregulowań prawnych, związanych z tym obszarem pracy.
Szczególnie zależy nam na podkreśleniu tego, że w gruncie rzeczy „prawa osób Szczególnie zależy nam na podkreśleniu tego, że w gruncie rzeczy „prawa osób
badanych” oraz „obowiązki psychologów – użytkowników testów”, to dwie stro- badanych” oraz „obowiązki psychologów – użytkowników testów”, to dwie stro-
ny tej samej monety. ny tej samej monety.
Panuje powszechna zgoda co do tego, że zawód psychologa jest zawodem Panuje powszechna zgoda co do tego, że zawód psychologa jest zawodem
szczególnym (por. Brzeziński, Chyrowicz, Poznaniak i Toeplitz-Winiewska, szczególnym (por. Brzeziński, Chyrowicz, Poznaniak i Toeplitz-Winiewska,
2008). Psychologowie pracują z ludźmi, powierza im się niejednokrotnie poufne 2008). Psychologowie pracują z ludźmi, powierza im się niejednokrotnie poufne
informacje. Jest oczywiste, że psycholog powinien zatem być bardzo skrupulat- informacje. Jest oczywiste, że psycholog powinien zatem być bardzo skrupulat-
ny w przestrzeganiu zasad etyki zawodowej, tak aby nie skrzywdzić osób, które ny w przestrzeganiu zasad etyki zawodowej, tak aby nie skrzywdzić osób, które
mu zaufały. Oprócz swojego wewnętrznego kompasu etycznego, który doradza, mu zaufały. Oprócz swojego wewnętrznego kompasu etycznego, który doradza,
w jaki sposób należy zachować się w określonej sytuacji, istnieją zewnętrzne w jaki sposób należy zachować się w określonej sytuacji, istnieją zewnętrzne
punkty odniesienia. Są nimi: Ustawa z dnia 8 czerwca 2001 r. o zawodzie psy- punkty odniesienia. Są nimi: Ustawa z dnia 8 czerwca 2001 r. o zawodzie psy-
chologa i samorządzie zawodowym psychologów, Kodeks Etyczno-Zawodowy chologa i samorządzie zawodowym psychologów, Kodeks Etyczno-Zawodowy
Psychologa Polskiego Towarzystwa Psychologicznego, oraz – w odniesieniu do Psychologa Polskiego Towarzystwa Psychologicznego, oraz – w odniesieniu do
wykorzystania narzędzi testowych – Standardy dla testów stosowanych w psy- wykorzystania narzędzi testowych – Standardy dla testów stosowanych w psy-
chologii i pedagogice (2007). Dokumenty te różnią się zarówno zawartością, chologii i pedagogice (2007). Dokumenty te różnią się zarówno zawartością,
jak i statusem. Ustawa jest aktem prawnym, zatem każdy psycholog jest for- jak i statusem. Ustawa jest aktem prawnym, zatem każdy psycholog jest for-
malnie zobligowany do przestrzegania jej zapisów. Kodeks Etyczno-Zawodowy malnie zobligowany do przestrzegania jej zapisów. Kodeks Etyczno-Zawodowy
Psychologa Polskiego Towarzystwa Psychologicznego to spis zasad deontologii Psychologa Polskiego Towarzystwa Psychologicznego to spis zasad deontologii
zawodowej, do przestrzegania którego formalnie zobowiązani są jedynie człon- zawodowej, do przestrzegania którego formalnie zobowiązani są jedynie człon-
kowie Towarzystwa. Z kolei Standardy dla testów stosowanych w psychologii kowie Towarzystwa. Z kolei Standardy dla testów stosowanych w psychologii
i pedagogice (2007) to spis rekomendacji wyznaczających „złoty standard” i pedagogice (2007) to spis rekomendacji wyznaczających „złoty standard”
użytkownikom testów. Dodatkowo, należy pamiętać, że test psychologiczny jest użytkownikom testów. Dodatkowo, należy pamiętać, że test psychologiczny jest
oczywiście utworem w rozumieniu ustawy Prawo autorskie i z tego względu też oczywiście utworem w rozumieniu ustawy Prawo autorskie i z tego względu też
podlega ochronie. podlega ochronie.
7.1. Prawa osoby badanej i obowiązki psychologa-diagnosty 7.1. Prawa osoby badanej i obowiązki psychologa-diagnosty
Tak jak już pisaliśmy, ze względu na specyfikę zawodu psychologa, kwestie Tak jak już pisaliśmy, ze względu na specyfikę zawodu psychologa, kwestie
230 etyczne są przy jego wykonywaniu szczególnie istotne. Niewłaściwe wykonywa- 230 etyczne są przy jego wykonywaniu szczególnie istotne. Niewłaściwe wykonywa-

nie zawodu psychologa może naprawdę okazać się tragiczne w skutkach – wy- nie zawodu psychologa może naprawdę okazać się tragiczne w skutkach – wy-
starczy wyobrazić sobie sytuację, w której psycholog wyda pozwolenie na posia- starczy wyobrazić sobie sytuację, w której psycholog wyda pozwolenie na posia-
danie broni osobie, która takiego pozwolenia otrzymać nie powinna. danie broni osobie, która takiego pozwolenia otrzymać nie powinna.
Amerykańskie Towarzystwo Psychologiczne (APA, 2003) opracowało dwie użytecz- Amerykańskie Towarzystwo Psychologiczne (APA, 2003) opracowało dwie użytecz-
ne listy – obowiązków psychologa oraz praw osoby badanej. Na psychologu-diagno- ne listy – obowiązków psychologa oraz praw osoby badanej. Na psychologu-diagno-
ście spoczywają następujące obowiązki: ście spoczywają następujące obowiązki:
a) powinien wybrać test do konkretnego postępowania diagnostycznego po uprzed- a) powinien wybrać test do konkretnego postępowania diagnostycznego po uprzed-
nim zapoznaniu się z innymi dostępnymi narzędziami, nim zapoznaniu się z innymi dostępnymi narzędziami,
b) ma obowiązek gruntownie poznać materiał testowy i podręcznik testowy, b) ma obowiązek gruntownie poznać materiał testowy i podręcznik testowy,
c) powinien unikać stosowania testu w celach innych niż zastosowania zalecane przez c) powinien unikać stosowania testu w celach innych niż zastosowania zalecane przez
autorów testu, autorów testu,
d) ma udzielić osobom badanym lub ich prawnym opiekunom (w najczęściej spoty- d) ma udzielić osobom badanym lub ich prawnym opiekunom (w najczęściej spoty-
kanej sytuacji – rodzicom badanych dzieci) informacji o ich prawach, kanej sytuacji – rodzicom badanych dzieci) informacji o ich prawach,
e) ma udzielić osobom badanym lub ich prawnym opiekunom informacji o sposobie e) ma udzielić osobom badanym lub ich prawnym opiekunom informacji o sposobie
przechowywania danych i tym, jak długo będą przechowywane oraz kto będzie przechowywania danych i tym, jak długo będą przechowywane oraz kto będzie
miał do nich dostęp, miał do nich dostęp,
f) informacje zwrotne udzielane osobie badanej mają być przekazane w sposób dla f) informacje zwrotne udzielane osobie badanej mają być przekazane w sposób dla
niej zrozumiały. niej zrozumiały.
Jednocześnie, Amerykańskie Towarzystwo Psychologiczne (APA) podkreśla, że oso- Jednocześnie, Amerykańskie Towarzystwo Psychologiczne (APA) podkreśla, że oso-
ba badana testem ma prawo: ba badana testem ma prawo:
a) być traktowana uprzejmie, z szacunkiem i obiektywnie, niezależnie od wieku, nie- a) być traktowana uprzejmie, z szacunkiem i obiektywnie, niezależnie od wieku, nie-
pełnosprawności, pochodzenia, płci, narodowości, religii, orientacji seksualnej czy pełnosprawności, pochodzenia, płci, narodowości, religii, orientacji seksualnej czy
innych cech osobistych, innych cech osobistych,
b) być badana nie tylko narzędziami spełniającymi profesjonalne standardy, ale także b) być badana nie tylko narzędziami spełniającymi profesjonalne standardy, ale także
odpowiednimi z punktu widzenia celu diagnozy oraz użytymi we właściwy spo- odpowiednimi z punktu widzenia celu diagnozy oraz użytymi we właściwy spo-
sób, sób,
c) do uzyskania informacji (ustnej lub pisemnej) o celu badania, użytych narzędziach c) do uzyskania informacji (ustnej lub pisemnej) o celu badania, użytych narzędziach
i sposobie postępowania z uzyskanymi danymi (zwłaszcza, czy jest planowane i sposobie postępowania z uzyskanymi danymi (zwłaszcza, czy jest planowane
udostępnianie ich osobom trzecim) przed wyrażeniem zgody na udział w proce- udostępnianie ich osobom trzecim) przed wyrażeniem zgody na udział w proce-
durze diagnostycznej, durze diagnostycznej,
d) dowiedzieć się ze stosownym wyprzedzeniem, kiedy zostanie poddana danej pro- d) dowiedzieć się ze stosownym wyprzedzeniem, kiedy zostanie poddana danej pro-
cedurze diagnostycznej oraz kiedy może uzyskać informacje na temat swoich wy- cedurze diagnostycznej oraz kiedy może uzyskać informacje na temat swoich wy-
ników, ników,
e) do uczestniczenia w badaniu przeprowadzanym przez osobę, będącą kompetent- e) do uczestniczenia w badaniu przeprowadzanym przez osobę, będącą kompetent-
nym użytkownikiem testu oraz działającą zgodnie z zasadami etyki zawodowej. nym użytkownikiem testu oraz działającą zgodnie z zasadami etyki zawodowej.
W sytuacji diagnozy psychologicznej, kwestie etyczne sprowadzają się do W sytuacji diagnozy psychologicznej, kwestie etyczne sprowadzają się do
dwóch nierozerwalnie związanych ze sobą elementów – tego, że osoba badana dwóch nierozerwalnie związanych ze sobą elementów – tego, że osoba badana
ma w tej sytuacji określone prawa i że psycholog zobowiązany jest do wywią- ma w tej sytuacji określone prawa i że psycholog zobowiązany jest do wywią-
zywania się z określonych obowiązków wobec niej. Jako że w procesie diagno- zywania się z określonych obowiązków wobec niej. Jako że w procesie diagno-
stycznym psycholog zbiera i analizuje informacje, dotyczące prywatności osoby stycznym psycholog zbiera i analizuje informacje, dotyczące prywatności osoby
badanej, konieczne jest, żeby działo się to za zgodą badanego i w taki sposób, badanej, konieczne jest, żeby działo się to za zgodą badanego i w taki sposób,
który gwarantuje, że informacje te nie dostaną się w ręce osób niepowołanych. 231 który gwarantuje, że informacje te nie dostaną się w ręce osób niepowołanych. 231

Ponadto, należy pamiętać, że osoba badana ma prawo wiedzieć, dlaczego ma Ponadto, należy pamiętać, że osoba badana ma prawo wiedzieć, dlaczego ma
być poddana badaniu psychologicznemu, w jaki sposób przebiega proces diagno- być poddana badaniu psychologicznemu, w jaki sposób przebiega proces diagno-
styczny, a także poznać płynące z niego wnioski (por. Brzeziński in., 2008). styczny, a także poznać płynące z niego wnioski (por. Brzeziński in., 2008).
Szczegóły strony etycznej diagnozowania ustala się w momencie zawierania Szczegóły strony etycznej diagnozowania ustala się w momencie zawierania
kontraktu diagnostycznego. Główne zasady, których psycholog-diagnosta zo- kontraktu diagnostycznego. Główne zasady, których psycholog-diagnosta zo-
bowiązany jest przestrzegać, to: uzyskanie od osoby badanej świadomej zgody bowiązany jest przestrzegać, to: uzyskanie od osoby badanej świadomej zgody
na udział w badaniu, dbałość o zachowanie poufności uzyskanych danych oraz na udział w badaniu, dbałość o zachowanie poufności uzyskanych danych oraz
informowanie osoby badanej o uzyskanych wynikach. Można powiedzieć, że informowanie osoby badanej o uzyskanych wynikach. Można powiedzieć, że
na największym poziomie ogólności zasady etyczne w kontakcie diagnostyczna największym poziomie ogólności zasady etyczne w kontakcie diagnostycz-
nym sprowadzają się do poszanowania godności badanego (por. Brzeziński in., nym sprowadzają się do poszanowania godności badanego (por. Brzeziński in.,
2008). 2008).
7.2. Przygotowanie się do diagnozowania 7.2. Przygotowanie się do diagnozowania

Odpowiedzialny użytkownik testu to taki, który wie, czego w wyniku uży- Odpowiedzialny użytkownik testu to taki, który wie, czego w wyniku uży-
cia konkretnego testu chciałby się dowiedzieć oraz jakim celom taka informacja cia konkretnego testu chciałby się dowiedzieć oraz jakim celom taka informacja
ma służyć. Zatem należy pamiętać, że planujemy diagnozowanie konkretnego ma służyć. Zatem należy pamiętać, że planujemy diagnozowanie konkretnego
problemu. Oczywiście, uzyskanie odpowiedzi na zadane pytania diagnostyczne problemu. Oczywiście, uzyskanie odpowiedzi na zadane pytania diagnostyczne
wymaga zastanowienia, zanim zaczniemy planować kontakt z badanym. wymaga zastanowienia, zanim zaczniemy planować kontakt z badanym.
Należy rozważyć, czy wybrana przez nas metoda może dostarczyć informacji Należy rozważyć, czy wybrana przez nas metoda może dostarczyć informacji
zgodnych z celem diagnostycznym, który sobie postawiliśmy, na przykład, czy zgodnych z celem diagnostycznym, który sobie postawiliśmy, na przykład, czy
na podstawie wyników Skali Sumienności inwentarza NEO-PI-R, znormalizo- na podstawie wyników Skali Sumienności inwentarza NEO-PI-R, znormalizo-
wanego dla populacji ogólnej możemy określić poziom sumienności kandyda- wanego dla populacji ogólnej możemy określić poziom sumienności kandyda-
tów na głównym księgowych? Refleksja na temat tego, czy wybrany test jest tów na głównym księgowych? Refleksja na temat tego, czy wybrany test jest
właściwy ze względu na to, czego chcemy się dowiedzieć o osobie badanej, jest właściwy ze względu na to, czego chcemy się dowiedzieć o osobie badanej, jest
możliwa dopiero po dogłębnym poznaniu podręcznika dodanego testu. Jego wni- możliwa dopiero po dogłębnym poznaniu podręcznika dodanego testu. Jego wni-
kliwa lektura powinna być zawsze pierwszym elementem przygotowań do dia- kliwa lektura powinna być zawsze pierwszym elementem przygotowań do dia-
gnozowania. gnozowania.
Ponadto, musimy zastanowić się, czy na podstawie wyniku w teście możemy Ponadto, musimy zastanowić się, czy na podstawie wyniku w teście możemy
wnioskować o innych interesujących nas zachowaniach badanego. Przykładowo, wnioskować o innych interesujących nas zachowaniach badanego. Przykładowo,
czy na podstawie wyniku świadczącego o wysokim poziomie ekstrawersji u kan- czy na podstawie wyniku świadczącego o wysokim poziomie ekstrawersji u kan-
dydatów na przedstawicieli handlowych możemy przewidzieć, jaka będzie efek- dydatów na przedstawicieli handlowych możemy przewidzieć, jaka będzie efek-
tywność ich pracy. I wreszcie musimy rozważyć, czy wybrany test rzeczywiście tywność ich pracy. I wreszcie musimy rozważyć, czy wybrany test rzeczywiście
mierzy to, co nas interesuje oraz czy jesteśmy w stanie zinterpretować wyniki te- mierzy to, co nas interesuje oraz czy jesteśmy w stanie zinterpretować wyniki te-
stowe, co nie musi być oczywiste w odniesieniu do osób badanych o specjalnych stowe, co nie musi być oczywiste w odniesieniu do osób badanych o specjalnych
potrzebach czy cechach (por. Standardy, 2007). potrzebach czy cechach (por. Standardy, 2007).
Należy przy tym pamiętać, że badanie psychologiczne nie musi być tym lepsze, Należy przy tym pamiętać, że badanie psychologiczne nie musi być tym lepsze,
im więcej informacji zbierzemy. Planując diagnozę, powinniśmy myśleć o ściśle im więcej informacji zbierzemy. Planując diagnozę, powinniśmy myśleć o ściśle
określonym celu i to on powinien wyznaczać nasz sposób postępowania. Jeśli za- określonym celu i to on powinien wyznaczać nasz sposób postępowania. Jeśli za-
tem mamy odpowiedzieć na pytanie o źródło problemów emocjonalnych u dzie- tem mamy odpowiedzieć na pytanie o źródło problemów emocjonalnych u dzie-
sięcioletniego Jasia, a jednocześnie wiemy, że nauka nie sprawia Jasiowi żadnych sięcioletniego Jasia, a jednocześnie wiemy, że nauka nie sprawia Jasiowi żadnych
232 problemów, to diagnozowanie go Skalą Inteligencji Wechslera dla Dzieci (por. 232 problemów, to diagnozowanie go Skalą Inteligencji Wechslera dla Dzieci (por.

Matczak, Piotrowska, Ciarkowska, 1998) nie ma żadnego sensu. Niestety, takie Matczak, Piotrowska, Ciarkowska, 1998) nie ma żadnego sensu. Niestety, takie
zupełnie nieuzasadnione wykorzystanie tego testu jest czasem spotykaną prakty- zupełnie nieuzasadnione wykorzystanie tego testu jest czasem spotykaną prakty-
ką psychologów pracujących w niektórych poradniach. ką psychologów pracujących w niektórych poradniach.
W kontekście przygotowywania się do diagnozowania warto zwrócić uwagę na W kontekście przygotowywania się do diagnozowania warto zwrócić uwagę na
zróżnicowaną trudność procedury badania testami psychologicznymi. Właściwe zróżnicowaną trudność procedury badania testami psychologicznymi. Właściwe
przeprowadzenie badania prostymi narzędziami, takimi jak Test Matryc Ravena przeprowadzenie badania prostymi narzędziami, takimi jak Test Matryc Ravena
czy Kwestionariusz Osobowości NEO-PI-R nie powinno sprawić nawet począt- czy Kwestionariusz Osobowości NEO-PI-R nie powinno sprawić nawet począt-
kującemu psychologowi większych trudności. Jednak użycie Skali Inteligencji kującemu psychologowi większych trudności. Jednak użycie Skali Inteligencji
Wechslera, wymagające niejednokrotnie jednoczesnego sprawnego operowania Wechslera, wymagające niejednokrotnie jednoczesnego sprawnego operowania
stoperem, prezentowania materiału testowego (np. test Układanki) we właściwej stoperem, prezentowania materiału testowego (np. test Układanki) we właściwej
kolejności, zapisywania wyników testowych oraz utrzymywania kontaktu z oso- kolejności, zapisywania wyników testowych oraz utrzymywania kontaktu z oso-
bą badaną nie jest łatwe (por. Brzeziński i Toeplitz-Wiśniewska, 2004). Wymaga bą badaną nie jest łatwe (por. Brzeziński i Toeplitz-Wiśniewska, 2004). Wymaga
to starannego przygotowania się oraz przećwiczenia odpowiednich procedur. to starannego przygotowania się oraz przećwiczenia odpowiednich procedur.
Dzięki temu możliwe jest zachowanie standardowych wyników badania. Dzięki temu możliwe jest zachowanie standardowych wyników badania.
7.3. Zawieranie kontraktu oraz świadoma zgoda na udział 7.3. Zawieranie kontraktu oraz świadoma zgoda na udział
w badaniu diagnostycznym w badaniu diagnostycznym
Podstawowym obowiązkiem psychologa planującego postawienie indywi- Podstawowym obowiązkiem psychologa planującego postawienie indywi-
dualnej diagnozy albo badania naukowe (nieważne, czy z użyciem testów psy- dualnej diagnozy albo badania naukowe (nieważne, czy z użyciem testów psy-
chologicznych bądź nie), jest uzyskanie od potencjalnego badanego / badanych chologicznych bądź nie), jest uzyskanie od potencjalnego badanego / badanych
świadomej zgody na udział w badaniu. Aby taką zgodę można było nazwać świadomej zgody na udział w badaniu. Aby taką zgodę można było nazwać
„świadomą”, psycholog musi poinformować klienta (klientów) w zrozumiały „świadomą”, psycholog musi poinformować klienta (klientów) w zrozumiały
sposób o tym, jak postępowanie diagnostyczne będzie przebiegać i co się będzie sposób o tym, jak postępowanie diagnostyczne będzie przebiegać i co się będzie
w jego ramach działo. Psycholog ma obowiązek zapoznać badanego z przebie- w jego ramach działo. Psycholog ma obowiązek zapoznać badanego z przebie-
giem procedury – z tym, ile zajmie czasu, jakie charakterystyki psychologiczne giem procedury – z tym, ile zajmie czasu, jakie charakterystyki psychologiczne
będą przedmiotem diagnozowania, do jakiego rodzaju wniosków pozwoli dojść będą przedmiotem diagnozowania, do jakiego rodzaju wniosków pozwoli dojść
oraz w jaki sposób i komu będą prezentowane wyniki. Konieczne jest ustale- oraz w jaki sposób i komu będą prezentowane wyniki. Konieczne jest ustale-
nie z badanym (badanymi), ile planujemy spotkań, ile czasu będzie trwało każ- nie z badanym (badanymi), ile planujemy spotkań, ile czasu będzie trwało każ-
de z nich, co będziemy podczas nich robić, jakiego rodzaju informacje zwrotne de z nich, co będziemy podczas nich robić, jakiego rodzaju informacje zwrotne
usłyszą od nas na koniec. Należy też wprost zakomunikować osobie badanej, usłyszą od nas na koniec. Należy też wprost zakomunikować osobie badanej,
że ma prawo w dowolnym momencie wycofać się z badania. Trzeba przy tym że ma prawo w dowolnym momencie wycofać się z badania. Trzeba przy tym
pamiętać, że o ile mamy obowiązek możliwie wyczerpująco opowiedzieć osobie pamiętać, że o ile mamy obowiązek możliwie wyczerpująco opowiedzieć osobie
badanej, na czym będzie polegało diagnozowanie, to nie może to w żadnym razie badanej, na czym będzie polegało diagnozowanie, to nie może to w żadnym razie
sprowadzić się do pokazywania oryginalnego materiału testowego. W sytuacji, sprowadzić się do pokazywania oryginalnego materiału testowego. W sytuacji,
gdy badany nalega na zapoznanie go z materiałem testowym przed badaniem, gdy badany nalega na zapoznanie go z materiałem testowym przed badaniem,
jedyne co możemy zrobić, to pokazać mu materiał podobny – na przykład, jeśli jedyne co możemy zrobić, to pokazać mu materiał podobny – na przykład, jeśli
planujemy diagnozę z wykorzystaniem Formalnej Charakterystyki Zachowania planujemy diagnozę z wykorzystaniem Formalnej Charakterystyki Zachowania
– Kwestionariusza Temperamentu (por. Zawadzki i Strelau, 1997), możemy po- – Kwestionariusza Temperamentu (por. Zawadzki i Strelau, 1997), możemy po-
wiedzieć, że badanie będzie polegało na udzielaniu odpowiedzi tak lub nie na wiedzieć, że badanie będzie polegało na udzielaniu odpowiedzi tak lub nie na
proste pytania typu: Łatwo przychodzi mi zabranie głosu na forum grupy. Jest to proste pytania typu: Łatwo przychodzi mi zabranie głosu na forum grupy. Jest to
233 233

stwierdzenie podobne do wykorzystywanych w kwestionariuszu, ale jednocze- stwierdzenie podobne do wykorzystywanych w kwestionariuszu, ale jednocze-
śnie nie jest to zacytowana pozycja testowa. śnie nie jest to zacytowana pozycja testowa.
Kwestie wyrażania przez klienta zgody na udział w badaniu regulują także Kwestie wyrażania przez klienta zgody na udział w badaniu regulują także
przepisy prawne. Formalnie podjęcie diagnozowania lub rozpoczęcie badań na- przepisy prawne. Formalnie podjęcie diagnozowania lub rozpoczęcie badań na-
ukowych reguluje art. 12. Ustawy o zawodzie psychologa i samorządzie zawodo- ukowych reguluje art. 12. Ustawy o zawodzie psychologa i samorządzie zawodo-
wym psychologa, który stanowi, że: Podjęcie usług psychologicznych następuje wym psychologa, który stanowi, że: Podjęcie usług psychologicznych następuje
za zgodą osoby (klienta) lub grupy osób (klientów) stanowiących podmiot dia- za zgodą osoby (klienta) lub grupy osób (klientów) stanowiących podmiot dia-
gnozowania i oddziaływania psychologicznego. Zatem brak zgody na badanie gnozowania i oddziaływania psychologicznego. Zatem brak zgody na badanie
obciąża nie tylko sumienie psychologa, ale może wiązać się także z określonymi obciąża nie tylko sumienie psychologa, ale może wiązać się także z określonymi
konsekwencjami prawnymi. konsekwencjami prawnymi.
Podobnie wygląda kwestia udzielania informacji o uzyskanych wynikach – jest Podobnie wygląda kwestia udzielania informacji o uzyskanych wynikach – jest
ona regulowana nie tylko na poziomie etycznym, ale także prawnym. O zakresie ona regulowana nie tylko na poziomie etycznym, ale także prawnym. O zakresie
informacji udzielanej osobie badanej czy ustnikom badań mówi art. 13. Ustawy, informacji udzielanej osobie badanej czy ustnikom badań mówi art. 13. Ustawy,
w którym stwierdza się, że: Psycholog poinformuje klienta o celu postępowania, w którym stwierdza się, że: Psycholog poinformuje klienta o celu postępowania,
jego przebiegu, wynikach i sposobie ich udostępniania oraz powinien uzyskać jego przebiegu, wynikach i sposobie ich udostępniania oraz powinien uzyskać
akceptację planowanych czynności. Dodatkowo, ten artykuł ustawy precyzuje, że akceptację planowanych czynności. Dodatkowo, ten artykuł ustawy precyzuje, że
o ile wyniki badań mają służyć nie tylko do informacji klienta stosuje się przepisy o ile wyniki badań mają służyć nie tylko do informacji klienta stosuje się przepisy
Ustawy z dnia 29 sierpnia 1997 r. o ochronie danych osobowych. Ustawy z dnia 29 sierpnia 1997 r. o ochronie danych osobowych.
Należy pamiętać, że w przypadku osób o ograniczonej zdolności do czynności Należy pamiętać, że w przypadku osób o ograniczonej zdolności do czynności
prawnych (niepełnoletnich lub ubezwłasnowolnionych) zgodę na udział w ba- prawnych (niepełnoletnich lub ubezwłasnowolnionych) zgodę na udział w ba-
daniu muszą wyrazić opiekunowie prawni, którymi w przypadku dzieci są naj- daniu muszą wyrazić opiekunowie prawni, którymi w przypadku dzieci są naj-
częściej rodzice. Zatem w przypadku planowania badań w szkole, pomimo że częściej rodzice. Zatem w przypadku planowania badań w szkole, pomimo że
osoby niepełnoletnie znajdują się wówczas pod opieką pracowników placów- osoby niepełnoletnie znajdują się wówczas pod opieką pracowników placów-
ki, nie wystarczy jedynie zgoda nauczyciela czy dyrektora, ale konieczne jest ki, nie wystarczy jedynie zgoda nauczyciela czy dyrektora, ale konieczne jest
uzyskanie zgody od rodziców każdego z dzieci. W tym wypadku zgoda rodzica uzyskanie zgody od rodziców każdego z dzieci. W tym wypadku zgoda rodzica
czy opiekuna prawnego jest kluczowa z powodów formalnych. Jednak w przy- czy opiekuna prawnego jest kluczowa z powodów formalnych. Jednak w przy-
padku wszystkich osób badanych, niezależnie od tego, czy mają zdolność do padku wszystkich osób badanych, niezależnie od tego, czy mają zdolność do
czynności prawnych czy nie, diagnosta ma obowiązek poszanowania ich god- czynności prawnych czy nie, diagnosta ma obowiązek poszanowania ich god-
ności. Pierwszą praktyczną konsekwencją tego faktu jest konieczność zapytania ności. Pierwszą praktyczną konsekwencją tego faktu jest konieczność zapytania
samych zainteresowanych, czy zgodzą się wziąć udział w badaniu. Podobnie jak samych zainteresowanych, czy zgodzą się wziąć udział w badaniu. Podobnie jak
w przypadku każdego innego badania diagnostycznego, także w takiej sytuacji w przypadku każdego innego badania diagnostycznego, także w takiej sytuacji
psycholog powinien najpierw poinformować badanych, w jaki sposób badanie psycholog powinien najpierw poinformować badanych, w jaki sposób badanie
będzie przebiegać, do czego posłużą wyniki oraz jakich informacji zwrotnych będzie przebiegać, do czego posłużą wyniki oraz jakich informacji zwrotnych
badani mogą spodziewać się na koniec, pamiętając, żeby omawiać te kwestie badani mogą spodziewać się na koniec, pamiętając, żeby omawiać te kwestie
w sposób zrozumiały dla osoby badanej. w sposób zrozumiały dla osoby badanej.
Na koniec warto zaznaczyć, że psycholog powinien dołożyć wszelkich starań, Na koniec warto zaznaczyć, że psycholog powinien dołożyć wszelkich starań,
żeby unikać sytuacji, gdy zgoda osoby badanej tylko pozornie jest świadoma. żeby unikać sytuacji, gdy zgoda osoby badanej tylko pozornie jest świadoma.
Tego typu sytuacja może zdarzyć się chociażby podczas badań grupowych, kiedy Tego typu sytuacja może zdarzyć się chociażby podczas badań grupowych, kiedy
ludzie tak naprawdę nie mają ochoty w nich uczestniczyć, ale jednocześnie jest ludzie tak naprawdę nie mają ochoty w nich uczestniczyć, ale jednocześnie jest
im niezręcznie odmówić, zwłaszcza gdy widzą, że większość wyraża zgodę na im niezręcznie odmówić, zwłaszcza gdy widzą, że większość wyraża zgodę na
badanie. badanie.
234 234

7.4. Tajemnica zawodowa 7.4. Tajemnica zawodowa

Jak już pisano wcześniej, wykonywanie zawodu psychologa polega w dużej Jak już pisano wcześniej, wykonywanie zawodu psychologa polega w dużej
mierze na zbieraniu i analizowaniu informacji na temat życia prywatnego osób mierze na zbieraniu i analizowaniu informacji na temat życia prywatnego osób
badanych. Niejednokrotnie są to informacje bardzo intymne, którymi osoba ba- badanych. Niejednokrotnie są to informacje bardzo intymne, którymi osoba ba-
dana w żadnym wypadku nie chciałaby się dzielić z kimkolwiek i to, że wyja- dana w żadnym wypadku nie chciałaby się dzielić z kimkolwiek i to, że wyja-
wia je psychologowi, wynika z jej przekonania, że będą utrzymane w tajemni- wia je psychologowi, wynika z jej przekonania, że będą utrzymane w tajemni-
cy. Należy przy tym pamiętać, że z punktu widzenia osoby badanej, informacja cy. Należy przy tym pamiętać, że z punktu widzenia osoby badanej, informacja
o tym, jaki ma poziom inteligencji ogólnej czy ekstrawersji, może być niemniej o tym, jaki ma poziom inteligencji ogólnej czy ekstrawersji, może być niemniej
„prywatna”, niż szczegóły życia intymnego. O spoczywającym na nas obowiąz- „prywatna”, niż szczegóły życia intymnego. O spoczywającym na nas obowiąz-
ku – zarówno moralnym, jak i prawnym – przestrzegania tajemnicy informujemy ku – zarówno moralnym, jak i prawnym – przestrzegania tajemnicy informujemy
klienta oczywiście w momencie zawierania kontraktu, przed rozpoczęciem pracy klienta oczywiście w momencie zawierania kontraktu, przed rozpoczęciem pracy
z klientem. z klientem.
Z punktu widzenia prawa, przepisy o tajemnicy zawodowej stanowią, z jed- Z punktu widzenia prawa, przepisy o tajemnicy zawodowej stanowią, z jed-
nej strony, gwarancję dla klientów psychologa, że informacje go dotyczące nie nej strony, gwarancję dla klientów psychologa, że informacje go dotyczące nie
zostaną upublicznione i jednocześnie są rękojmią dla psychologa, że nikt go nie zostaną upublicznione i jednocześnie są rękojmią dla psychologa, że nikt go nie
może zmusić do ujawnienia informacji poufnych o kliencie. Po raz kolejny wi- może zmusić do ujawnienia informacji poufnych o kliencie. Po raz kolejny wi-
dać tu, jak silnie prawa osób badanych są związane z obowiązkami psychologa. dać tu, jak silnie prawa osób badanych są związane z obowiązkami psychologa.
Sytuacje, kiedy psycholog ma prawo czy obowiązek wyjawienia tego, co objęte Sytuacje, kiedy psycholog ma prawo czy obowiązek wyjawienia tego, co objęte
tajemnicą zawodową, w praktyce zdarzają się tak rzadko, że możemy przyjąć, iż tajemnicą zawodową, w praktyce zdarzają się tak rzadko, że możemy przyjąć, iż
tajemnica zawodowa nigdy nie może zostać wyjawiona i że obowiązek jej zacho- tajemnica zawodowa nigdy nie może zostać wyjawiona i że obowiązek jej zacho-
wania ciąży na nas do końca życia. Należy pamiętać, że na tajemnicę zawodową wania ciąży na nas do końca życia. Należy pamiętać, że na tajemnicę zawodową
składają się wszelkie związane z klientem informacje, które psycholog uzyskał składają się wszelkie związane z klientem informacje, które psycholog uzyskał
w związku z wykonywaniem zawodu. w związku z wykonywaniem zawodu.
Z punktu widzenia konsekwencji dla osoby badanej, nie ma większego zna- Z punktu widzenia konsekwencji dla osoby badanej, nie ma większego zna-
czenia, czy naruszenie tajemnicy zawodowej było wynikiem celowego złamania czenia, czy naruszenie tajemnicy zawodowej było wynikiem celowego złamania
przez psychologa zasad etycznych, czy też doszło do takiego zdarzenia w spo- przez psychologa zasad etycznych, czy też doszło do takiego zdarzenia w spo-
sób niezamierzony, na przykład przez zaniedbanie wynikłe z nienależytego prze- sób niezamierzony, na przykład przez zaniedbanie wynikłe z nienależytego prze-
chowywania wyników testowych. Psycholog jest zobowiązany przechowywać chowywania wyników testowych. Psycholog jest zobowiązany przechowywać
zarówno same materiały testowe, jak i wyniki testowe (tzn. wypełnione testy, zarówno same materiały testowe, jak i wyniki testowe (tzn. wypełnione testy,
gotowe diagnozy, kartoteki zawierające informacje na temat osób badanych, pliki gotowe diagnozy, kartoteki zawierające informacje na temat osób badanych, pliki
z danymi) w taki sposób, żeby nie dostały się w niepowołane ręce (por. Standardy, z danymi) w taki sposób, żeby nie dostały się w niepowołane ręce (por. Standardy,
2007). Czytelnikowi może się to wydawać oczywiste, jednak w praktyce zdarza 2007). Czytelnikowi może się to wydawać oczywiste, jednak w praktyce zdarza
się, niestety, że wyniki badań testowych przechowywane są przez psychologów się, niestety, że wyniki badań testowych przechowywane są przez psychologów
w ogólnodostępnych pokojach, co powoduje, że mogą mieć do nich dostęp oso- w ogólnodostępnych pokojach, co powoduje, że mogą mieć do nich dostęp oso-
by nieupoważnione. Warto w tym miejscu podkreślić, że na poziomie prawnym, by nieupoważnione. Warto w tym miejscu podkreślić, że na poziomie prawnym,
kwestie właściwego przechowywania danych o osobach badanych, oprócz tego, kwestie właściwego przechowywania danych o osobach badanych, oprócz tego,
że regulowane zapisami ustawy o zawodzie psychologa i samorządzie zawo- że regulowane zapisami ustawy o zawodzie psychologa i samorządzie zawo-
dowym psychologów, reguluje – podobnie jak sprawy związane z przechowy- dowym psychologów, reguluje – podobnie jak sprawy związane z przechowy-
waniem wszystkich innych danych osobowych dotyczących osób fizycznych – waniem wszystkich innych danych osobowych dotyczących osób fizycznych –
Ustawa o ochronie danych osobowych. Ustawa o ochronie danych osobowych.
235 235

Tajemnica zawodowa, mimo że jak pisaliśmy wcześniej – nieograniczo- Tajemnica zawodowa, mimo że jak pisaliśmy wcześniej – nieograniczo-
na w czasie i obejmująca wszystkie informacje związane z klientem uzyskane na w czasie i obejmująca wszystkie informacje związane z klientem uzyskane
w związku z wykonywaniem zawodu – nie wyklucza jednak udzielania określo- w związku z wykonywaniem zawodu – nie wyklucza jednak udzielania określo-
nych informacji na temat osób badanych, czy to innym profesjonalistom – innym nych informacji na temat osób badanych, czy to innym profesjonalistom – innym
psychologom, psychiatrom, pedagogom, nauczycielom czy też instytucjom, ta- psychologom, psychiatrom, pedagogom, nauczycielom czy też instytucjom, ta-
kim jak sąd, szkoła bądź ewentualny przyszły pracodawca. Dotykamy tu, oprócz kim jak sąd, szkoła bądź ewentualny przyszły pracodawca. Dotykamy tu, oprócz
zagadnienia tajemnicy zawodowej, jeszcze jednego ważnego problemu, wiążą- zagadnienia tajemnicy zawodowej, jeszcze jednego ważnego problemu, wiążą-
cego się z możliwymi społecznymi konsekwencjami diagnozowania, bo przecież cego się z możliwymi społecznymi konsekwencjami diagnozowania, bo przecież
przygotowane przez nas diagnozy ktoś będzie czytał i niekoniecznie będzie to przygotowane przez nas diagnozy ktoś będzie czytał i niekoniecznie będzie to
psycholog, dysponujący porównywalną z naszą wiedzą na temat testów. W takiej psycholog, dysponujący porównywalną z naszą wiedzą na temat testów. W takiej
sytuacji należy bardzo starannie selekcjonować informacje, zebrane przez nas sytuacji należy bardzo starannie selekcjonować informacje, zebrane przez nas
w procesie diagnostycznym, w którym może się zdarzyć, że osoba badana powie- w procesie diagnostycznym, w którym może się zdarzyć, że osoba badana powie-
działa nam w zaufaniu coś, co nie miało związku z celem diagnozy (na przykład działa nam w zaufaniu coś, co nie miało związku z celem diagnozy (na przykład
uczestnik postępowania rekrutacyjnego na stanowisko przedstawiciela medycz- uczestnik postępowania rekrutacyjnego na stanowisko przedstawiciela medycz-
nego opowiedział nam w przerwie o swoich kłopotach małżeńskich). Pamiętajmy, nego opowiedział nam w przerwie o swoich kłopotach małżeńskich). Pamiętajmy,
że instytucja zamawiająca diagnozę powinna uzyskać jedynie informację o tym, że instytucja zamawiająca diagnozę powinna uzyskać jedynie informację o tym,
co miało stanowić cel diagnozy. Dodatkowo, jeśli psycholog wykonuje określoną co miało stanowić cel diagnozy. Dodatkowo, jeśli psycholog wykonuje określoną
pracę dla organizacji (na przykład w roli zewnętrznego eksperta prowadzi proces pracę dla organizacji (na przykład w roli zewnętrznego eksperta prowadzi proces
rekrutacyjny na stanowisko kasjera w banku), powinien, z jednej strony, zadbać rekrutacyjny na stanowisko kasjera w banku), powinien, z jednej strony, zadbać
o to, żeby uzyskane dane (chociażby w postaci diagnoz opisujących poszczegól- o to, żeby uzyskane dane (chociażby w postaci diagnoz opisujących poszczegól-
nych kandydatów) były przechowywane w sposób gwarantujący poufność dostę- nych kandydatów) były przechowywane w sposób gwarantujący poufność dostę-
pu do nich (por. Czarnota-Bojarska, 1999), z drugiej zaś – przygotować je w taki pu do nich (por. Czarnota-Bojarska, 1999), z drugiej zaś – przygotować je w taki
sposób, żeby nawet w sytuacji, gdy analizował je będzie niepsycholog nie dawały sposób, żeby nawet w sytuacji, gdy analizował je będzie niepsycholog nie dawały
one pola do niedopowiedzeń czy nadinterpretacji. Temu, co powinno, a co nie one pola do niedopowiedzeń czy nadinterpretacji. Temu, co powinno, a co nie
powinno znaleźć się w informacji zwrotnej udzielanej osobie badanej, a zatem powinno znaleźć się w informacji zwrotnej udzielanej osobie badanej, a zatem
także temu, co powinna zawierać diagnoza czy opinia przeznaczona dla odbiorcy także temu, co powinna zawierać diagnoza czy opinia przeznaczona dla odbiorcy
niebędącego psychologiem poświęcony jest kolejny podrozdział. niebędącego psychologiem poświęcony jest kolejny podrozdział.
7.5. Komunikowanie wyników testowych 7.5. Komunikowanie wyników testowych

Kiedyś panowało wśród psychologów przekonanie, że osoba badana w procesie Kiedyś panowało wśród psychologów przekonanie, że osoba badana w procesie
diagnostycznym powinna dowiedzieć się jak najmniej na swój temat. Dotyczyło diagnostycznym powinna dowiedzieć się jak najmniej na swój temat. Dotyczyło
to w szczególności informacji negatywnych. Dzisiaj uznaje się, że udzielenie to w szczególności informacji negatywnych. Dzisiaj uznaje się, że udzielenie
osobie badanej informacji zwrotnej o uzyskanych przez nią wynikach – nieza- osobie badanej informacji zwrotnej o uzyskanych przez nią wynikach – nieza-
leżnie czy pozytywnych, czy negatywnych – jest nieodłącznym elementem dia- leżnie czy pozytywnych, czy negatywnych – jest nieodłącznym elementem dia-
gnozy testowej (Anastasi i Urbina, 1999; Hornowska, 2001). W zasadzie można gnozy testowej (Anastasi i Urbina, 1999; Hornowska, 2001). W zasadzie można
przyjąć, że w praktyce psychologicznej nie udziela się informacji o wynikach przyjąć, że w praktyce psychologicznej nie udziela się informacji o wynikach
jedynie w sytuacji, gdy osoba badana sobie tego nie życzy. I nawet jeśli mamy jedynie w sytuacji, gdy osoba badana sobie tego nie życzy. I nawet jeśli mamy
przekonanie, że taka informacja mogłaby być dla osoby badanej pomocna, to przekonanie, że taka informacja mogłaby być dla osoby badanej pomocna, to
jeśli osoba badana nie chce usłyszeć od nas, jakie wyniki uzyskała w teście, na- jeśli osoba badana nie chce usłyszeć od nas, jakie wyniki uzyskała w teście, na-
szym obowiązkiem jest uszanować jej wolę i nie udzielać takiej informacji za szym obowiązkiem jest uszanować jej wolę i nie udzielać takiej informacji za
236 wszelką cenę. 236 wszelką cenę.

Podstawową refleksją, która ma towarzyszyć psychologowi przygotowujące- Podstawową refleksją, która ma towarzyszyć psychologowi przygotowujące-
mu się do udzielenia osobie badanej informacji zwrotnej jest to, że informacje mu się do udzielenia osobie badanej informacji zwrotnej jest to, że informacje
zwrotne mają na celu udzielenie odpowiedzi na pytanie diagnostyczne. Zakres zwrotne mają na celu udzielenie odpowiedzi na pytanie diagnostyczne. Zakres
tego, co powiemy osobie badanej wyznacza zawarty na początku kontrakt na tego, co powiemy osobie badanej wyznacza zawarty na początku kontrakt na
badanie. Udzielana przez nas informacja nie może ani wykraczać poza to, co badanie. Udzielana przez nas informacja nie może ani wykraczać poza to, co
ustaliliśmy na początku, ani też odnosić się tylko do wybranych kwestii ustalo- ustaliliśmy na początku, ani też odnosić się tylko do wybranych kwestii ustalo-
nych w kontrakcie. W tym ostatnim przypadku narażamy się bowiem na ryzy- nych w kontrakcie. W tym ostatnim przypadku narażamy się bowiem na ryzy-
ko, że osoba badana nabierze przekonania, iż podczas badania dowiedzieliśmy ko, że osoba badana nabierze przekonania, iż podczas badania dowiedzieliśmy
się na jej temat czegoś tak negatywnego, że aż boimy się jej o tym powiedzieć. się na jej temat czegoś tak negatywnego, że aż boimy się jej o tym powiedzieć.
Jeśli np. skierowano do nas ucznia po to, żebyśmy postarali się dociec, dlacze- Jeśli np. skierowano do nas ucznia po to, żebyśmy postarali się dociec, dlacze-
go ma on problemy z nauką szkolną i na taki cel badania zgodzili się wszyscy go ma on problemy z nauką szkolną i na taki cel badania zgodzili się wszyscy
zainteresowani (czyli uczeń oraz jego rodzice) w kontrakcie diagnostycznym, to zainteresowani (czyli uczeń oraz jego rodzice) w kontrakcie diagnostycznym, to
tylko informacje dotyczące tego problemu powinniśmy zbierać w procesie dia- tylko informacje dotyczące tego problemu powinniśmy zbierać w procesie dia-
gnostycznym i tylko informacji zwrotnych dotyczących tej sfery funkcjonowania gnostycznym i tylko informacji zwrotnych dotyczących tej sfery funkcjonowania
powinniśmy udzielić. powinniśmy udzielić.
Psychologowie powinni pamiętać, że jako fachowcy mogą być spostrzegani Psychologowie powinni pamiętać, że jako fachowcy mogą być spostrzegani
jako autorytet przez osoby badane. W konsekwencji, badani często przywiązują jako autorytet przez osoby badane. W konsekwencji, badani często przywiązują
znacznie większą wagę do tego, co usłyszą od psychologa niż do tego, co usły- znacznie większą wagę do tego, co usłyszą od psychologa niż do tego, co usły-
szeliby od każdej innej osoby, nawet gdyby te informacje były zbieżne z diagnozą szeliby od każdej innej osoby, nawet gdyby te informacje były zbieżne z diagnozą
psychologiczną lub gdyby znający badanego laik był w stanie zbudować bardziej psychologiczną lub gdyby znający badanego laik był w stanie zbudować bardziej
adekwatną czy wyczerpującą diagnozę. Musimy być zatem bardzo ostrożni w sy- adekwatną czy wyczerpującą diagnozę. Musimy być zatem bardzo ostrożni w sy-
tuacji komunikowania badanym informacji zwrotnych, aby nie dopuścić do nie- tuacji komunikowania badanym informacji zwrotnych, aby nie dopuścić do nie-
pożądanych konsekwencji. Jednym z mechanizmów, które psycholog-diagnosta pożądanych konsekwencji. Jednym z mechanizmów, które psycholog-diagnosta
może niechcący uruchomić jest mechanizm samospełniającej się przepowiedni. może niechcący uruchomić jest mechanizm samospełniającej się przepowiedni.
Gdy osoba badana usłyszy na przykład, że ma problemy z uczeniem się, może to Gdy osoba badana usłyszy na przykład, że ma problemy z uczeniem się, może to
spowodować, że jej oczekiwania, co do uzyskiwanych rezultatów nauki obniżą spowodować, że jej oczekiwania, co do uzyskiwanych rezultatów nauki obniżą
się, bo dojdzie do wniosku, że niezależnie od jej wysiłków i tak nie ma szans się, bo dojdzie do wniosku, że niezależnie od jej wysiłków i tak nie ma szans
osiągnąć zbyt wiele i w rezultacie wyniki też będą gorsze od możliwych. osiągnąć zbyt wiele i w rezultacie wyniki też będą gorsze od możliwych.
Oprócz starannego przemyślenia treści udzielanej informacji zwrotnej, na- Oprócz starannego przemyślenia treści udzielanej informacji zwrotnej, na-
leży zwracać baczną uwagę na formę, w jakiej te treści komunikujemy osobie leży zwracać baczną uwagę na formę, w jakiej te treści komunikujemy osobie
badanej. Po pierwsze, język, którego używamy, powinien być dostosowany do badanej. Po pierwsze, język, którego używamy, powinien być dostosowany do
możliwości badanego. Nie powinniśmy używać wszelkiego rodzaju „psycholo- możliwości badanego. Nie powinniśmy używać wszelkiego rodzaju „psycholo-
gizmów” i „etykietek” – takich jak chociażby termin „ekstrawersja” – nawet jeśli gizmów” i „etykietek” – takich jak chociażby termin „ekstrawersja” – nawet jeśli
wydaje nam się, że już na stałe zadomowiły się w języku potocznym. Zwróćmy wydaje nam się, że już na stałe zadomowiły się w języku potocznym. Zwróćmy
przy tym uwagę, iż terminy psychologiczne, z którymi jesteśmy jako profesjo- przy tym uwagę, iż terminy psychologiczne, z którymi jesteśmy jako profesjo-
naliści obeznani często inaczej funkcjonują w języku potocznym, niż w języku naliści obeznani często inaczej funkcjonują w języku potocznym, niż w języku
używanym przez psychologów. Weźmy choćby pojęcia „neurotyzmu” i „reak- używanym przez psychologów. Weźmy choćby pojęcia „neurotyzmu” i „reak-
tywności emocjonalnej” czy „temperamentu”. Mimo że w psychologii pojęcia tywności emocjonalnej” czy „temperamentu”. Mimo że w psychologii pojęcia
„neurotyzmu” i „reaktywności emocjonalnej” odnoszą się do bardzo podobnych „neurotyzmu” i „reaktywności emocjonalnej” odnoszą się do bardzo podobnych
zmiennych i żadne z nich nie powinno być prosto wartościowane, bo nawet skraj- zmiennych i żadne z nich nie powinno być prosto wartościowane, bo nawet skraj-
ne natężenie tych cech nie świadczy w żaden sposób o zaburzonej osobowości, to ne natężenie tych cech nie świadczy w żaden sposób o zaburzonej osobowości, to
jednak w powszechnym odbiorze, osoba „neurotyczna” jest kimś, kto ma proble- 237 jednak w powszechnym odbiorze, osoba „neurotyczna” jest kimś, kto ma proble- 237

my z psychiką, podczas gdy osoba o wysokiej reaktywności emocjonalnej to ktoś my z psychiką, podczas gdy osoba o wysokiej reaktywności emocjonalnej to ktoś
„zupełnie zdrowy”. W każdym razie, żeby uniknąć możliwych nieporozumień „zupełnie zdrowy”. W każdym razie, żeby uniknąć możliwych nieporozumień
w rozmowie z osobą badaną, znacznie lepszym wyjściem od używania którego- w rozmowie z osobą badaną, znacznie lepszym wyjściem od używania którego-
kolwiek z tych określeń, stanowiących przecież w pewnym sensie skrót myślo- kolwiek z tych określeń, stanowiących przecież w pewnym sensie skrót myślo-
wy, jest posługiwanie się opisem funkcjonowania typowego dla osób z wysokimi wy, jest posługiwanie się opisem funkcjonowania typowego dla osób z wysokimi
czy niskimi wynikami. Z kolei pojęcie temperamentu, używane przez psycholo- czy niskimi wynikami. Z kolei pojęcie temperamentu, używane przez psycholo-
gów w kontekście diagnozy testowej na określenie biologicznych składowych gów w kontekście diagnozy testowej na określenie biologicznych składowych
osobowości, w języku potocznym wydaje się być raczej utożsamiane z ogólną osobowości, w języku potocznym wydaje się być raczej utożsamiane z ogólną
pobudliwością człowieka, zwłaszcza w dziedzinie seksualnej (por. Uniwersalny pobudliwością człowieka, zwłaszcza w dziedzinie seksualnej (por. Uniwersalny
słownik języka polskiego, 2004). słownik języka polskiego, 2004).
Nigdy nie powinniśmy podawać osobie badanej jakichkolwiek informacji licz- Nigdy nie powinniśmy podawać osobie badanej jakichkolwiek informacji licz-
bowych, które i tak są dla badanych, niedysponujących żadnym punktem od- bowych, które i tak są dla badanych, niedysponujących żadnym punktem od-
niesienia, pozbawione jakiegokolwiek znaczenia. Jako psychologowie doskonale niesienia, pozbawione jakiegokolwiek znaczenia. Jako psychologowie doskonale
znamy całą „filozofię diagnozy testowej”. Wiemy, że testy opierają się na prób- znamy całą „filozofię diagnozy testowej”. Wiemy, że testy opierają się na prób-
kach zachowań dotyczących ukrytych cech i że tak naprawdę nie interesuje nas, kach zachowań dotyczących ukrytych cech i że tak naprawdę nie interesuje nas,
czy osoba badana zna właściwą odpowiedź na konkretne pytanie (np. o to, jakie czy osoba badana zna właściwą odpowiedź na konkretne pytanie (np. o to, jakie
miasto jest stolicą Boliwii). Ważne jest natomiast to, że na podstawie odpowiedzi miasto jest stolicą Boliwii). Ważne jest natomiast to, że na podstawie odpowiedzi
na to i inne pytania staramy się wywnioskować coś o poziomie badanej cechy na to i inne pytania staramy się wywnioskować coś o poziomie badanej cechy
np. inteligencji ogólnej. Zdajemy sobie sprawę, że pomiar narzędziami, którymi np. inteligencji ogólnej. Zdajemy sobie sprawę, że pomiar narzędziami, którymi
się posługujemy w praktyce nigdy nie jest całkowicie rzetelny, co powoduje, że się posługujemy w praktyce nigdy nie jest całkowicie rzetelny, co powoduje, że
nie możemy punktowo oceniać wyniku otrzymanego. Każdorazowo w diagnozie nie możemy punktowo oceniać wyniku otrzymanego. Każdorazowo w diagnozie
indywidualnej zmuszeni jesteśmy więc budować przedziały ufności, w których indywidualnej zmuszeni jesteśmy więc budować przedziały ufności, w których
z określonym prawdopodobieństwem zawiera się wynik prawdziwy osoby bada- z określonym prawdopodobieństwem zawiera się wynik prawdziwy osoby bada-
nej (Anastasi i Urbina, 1999, Hornowska, 2001, Murphy i Davidshofer, 2004). nej (Anastasi i Urbina, 1999, Hornowska, 2001, Murphy i Davidshofer, 2004).
Mamy świadomość, że wynik możemy interpretować jedynie w odniesieniu do Mamy świadomość, że wynik możemy interpretować jedynie w odniesieniu do
norm, bo tylko one dają nam właściwy punkt odniesienia i pozwalają ocenić wy- norm, bo tylko one dają nam właściwy punkt odniesienia i pozwalają ocenić wy-
nik osoby badanej – a co zatem idzie – natężenie u niej badanej cechy. Osoby nik osoby badanej – a co zatem idzie – natężenie u niej badanej cechy. Osoby
badane nie dysponują całą tą niezbędną wiedzą psychometryczną, zatem poda- badane nie dysponują całą tą niezbędną wiedzą psychometryczną, zatem poda-
wanie im wyników liczbowych prowadzi jedynie do nieporozumień, w wyniku wanie im wyników liczbowych prowadzi jedynie do nieporozumień, w wyniku
których ludzie przerzucają się informacjami typu: „W teście Mensy miałem 107 których ludzie przerzucają się informacjami typu: „W teście Mensy miałem 107
punktów, a kolega 104, więc byłem lepszy”, nie mając świadomości, że oba te punktów, a kolega 104, więc byłem lepszy”, nie mając świadomości, że oba te
wyniki mogą świadczyć o takim samym poziomie inteligencji. wyniki mogą świadczyć o takim samym poziomie inteligencji.
Jeśli chodzi o formę prezentacji wyników, to należy także starać się, żeby in- Jeśli chodzi o formę prezentacji wyników, to należy także starać się, żeby in-
formowanie osoby badanej o wynikach nie przybrało formy naszego monologu formowanie osoby badanej o wynikach nie przybrało formy naszego monologu
(Anastasi, Urbina, 1999), ale żeby była to raczej rozmowa z osobą badaną, która (Anastasi, Urbina, 1999), ale żeby była to raczej rozmowa z osobą badaną, która
będzie mogła tym samym ustosunkować się do usłyszanych informacji. Po lektu- będzie mogła tym samym ustosunkować się do usłyszanych informacji. Po lektu-
rze poprzednich rozdziałów tego podręcznika Czytelnik jest zapewne świadomy, rze poprzednich rozdziałów tego podręcznika Czytelnik jest zapewne świadomy,
że w praktyce stosowanych przez nas testów nigdy nie charakteryzuje ich 100% że w praktyce stosowanych przez nas testów nigdy nie charakteryzuje ich 100%
rzetelność pomiaru, a więc – w konsekwencji – nie mogą być w 100% trafne, rzetelność pomiaru, a więc – w konsekwencji – nie mogą być w 100% trafne,
co powoduje, że stawiane przez nas diagnozy będą w jakimś stopniu obciążone co powoduje, że stawiane przez nas diagnozy będą w jakimś stopniu obciążone
błędem. Jednak osoba badana, nawet jeśli jest nią ktoś starannie wykształcony, błędem. Jednak osoba badana, nawet jeśli jest nią ktoś starannie wykształcony,
238 nie dysponuje wiedzą psychometryczną i nie jest świadomy ograniczeń stosowa- 238 nie dysponuje wiedzą psychometryczną i nie jest świadomy ograniczeń stosowa-

nych w diagnozie testowej narzędzi. Zatem psycholog powinien jasno uświado- nych w diagnozie testowej narzędzi. Zatem psycholog powinien jasno uświado-
mić badanemu, że uzyskane wyniki nie zawsze będą adekwatnie go opisywały. mić badanemu, że uzyskane wyniki nie zawsze będą adekwatnie go opisywały.
Pamiętajmy, że trudności pomiarowe nie są bynajmniej specyfiką badań psycholo- Pamiętajmy, że trudności pomiarowe nie są bynajmniej specyfiką badań psycholo-
gicznych i że nie powinniśmy się wstydzić czy ukrywać przed badanym, że stoso- gicznych i że nie powinniśmy się wstydzić czy ukrywać przed badanym, że stoso-
wane przez nas testy nie zawsze działają tak dobrze, jak byśmy sobie tego życzyli. wane przez nas testy nie zawsze działają tak dobrze, jak byśmy sobie tego życzyli.
Zwłaszcza w sytuacji, gdy informacje o badanym pochodzące z innych źródeł (ta- Zwłaszcza w sytuacji, gdy informacje o badanym pochodzące z innych źródeł (ta-
kich jak chociażby wywiad czy obserwacja) pozostają w sprzeczności z wynikami kich jak chociażby wywiad czy obserwacja) pozostają w sprzeczności z wynikami
testowymi, psycholog powinien zachować szczególną ostrożność w ich przekazy- testowymi, psycholog powinien zachować szczególną ostrożność w ich przekazy-
waniu i dać badanemu szansę ustosunkowania się do tego, co usłyszy. waniu i dać badanemu szansę ustosunkowania się do tego, co usłyszy.
Planując kolejność tego, co osoba badana od nas usłyszy, powinniśmy zro- Planując kolejność tego, co osoba badana od nas usłyszy, powinniśmy zro-
bić tak, aby informacja negatywna znalazła się między dwiema informacjami bić tak, aby informacja negatywna znalazła się między dwiema informacjami
pozytywnymi. Tworzymy dla osoby badanej „kanapkę z gorzką zawartością”, pozytywnymi. Tworzymy dla osoby badanej „kanapkę z gorzką zawartością”,
mając nadzieję, że dzięki dodaniu dwóch informacji pozytywnych osobie ba- mając nadzieję, że dzięki dodaniu dwóch informacji pozytywnych osobie ba-
danej łatwiej przyjdzie przyjęcie jej. Jeśli zaś, informacja jest negatywna, bo na danej łatwiej przyjdzie przyjęcie jej. Jeśli zaś, informacja jest negatywna, bo na
przykład informujemy uczestnika postępowania rekrutacyjnego, że nie przyjęto przykład informujemy uczestnika postępowania rekrutacyjnego, że nie przyjęto
go na stanowisko, o które się ubiegał, to dobrze jest, oprócz sformułowań mają- go na stanowisko, o które się ubiegał, to dobrze jest, oprócz sformułowań mają-
cych zmniejszyć dyskomfort wynikły z samej sytuacji (na przykład: Pana / Pani cych zmniejszyć dyskomfort wynikły z samej sytuacji (na przykład: Pana / Pani
kwalifikacje oceniamy wysoko, ale niestety zgłosili się kandydaci lepiej spełnia- kwalifikacje oceniamy wysoko, ale niestety zgłosili się kandydaci lepiej spełnia-
jący oczekiwania pracodawcy) podać konkretny powód dlaczego tak się stało (na jący oczekiwania pracodawcy) podać konkretny powód dlaczego tak się stało (na
przykład: Pracodawca poszukiwał kogoś z dłuższym doświadczeniem w branży przykład: Pracodawca poszukiwał kogoś z dłuższym doświadczeniem w branży
farmaceutycznej), co może pozwolić badanemu w przyszłości na poszukiwanie farmaceutycznej), co może pozwolić badanemu w przyszłości na poszukiwanie
bardziej adekwatnych ofert (Czarnota-Bojarska, 1999). bardziej adekwatnych ofert (Czarnota-Bojarska, 1999).
Czasem może się zdarzyć, że mimo najlepszej woli psychologa-diagnosty, Czasem może się zdarzyć, że mimo najlepszej woli psychologa-diagnosty,
z uwagi na pewne słabości narzędzia (np. gdy posługujemy się starszym testem, z uwagi na pewne słabości narzędzia (np. gdy posługujemy się starszym testem,
bo nie mamy innej możliwości), uzyskane wyniki będą w pewnym sensie niedo- bo nie mamy innej możliwości), uzyskane wyniki będą w pewnym sensie niedo-
skonałe, czyli mniej trafne, niż byśmy sobie tego życzyli. Może to zdarzyć się, je- skonałe, czyli mniej trafne, niż byśmy sobie tego życzyli. Może to zdarzyć się, je-
śli na przykład normy do testu są przestarzałe lub gdy nie dysponujemy normami śli na przykład normy do testu są przestarzałe lub gdy nie dysponujemy normami
stworzonymi na podstawie wyników grupy odniesienia, do której osoba badana stworzonymi na podstawie wyników grupy odniesienia, do której osoba badana
nie w pełni „pasuje”. Może tak zdarzyć się na przykład, gdy interesuje nas ponie w pełni „pasuje”. Może tak zdarzyć się na przykład, gdy interesuje nas po-
równanie wyniku osoby badanej z wynikami innych studentów, a mamy dostęp równanie wyniku osoby badanej z wynikami innych studentów, a mamy dostęp
jedynie do norm dla studentów z ponadprzeciętnie wysokimi osiągnięciami aka- jedynie do norm dla studentów z ponadprzeciętnie wysokimi osiągnięciami aka-
demickimi, jak w przypadku Testu Matryc Ravena Dla Zaawansowanych (por. demickimi, jak w przypadku Testu Matryc Ravena Dla Zaawansowanych (por.
Jaworowska i Szustrowa, 1992). W takiej sytuacji, informowanie osoby badanej Jaworowska i Szustrowa, 1992). W takiej sytuacji, informowanie osoby badanej
o wyniku, zwłaszcza takim, którym sami nie całkowicie ufamy, powinniśmy do- o wyniku, zwłaszcza takim, którym sami nie całkowicie ufamy, powinniśmy do-
datkowo wzbogacić o informację, że mamy do niego określone zastrzeżenia. datkowo wzbogacić o informację, że mamy do niego określone zastrzeżenia.
Należy także pamiętać o tym, żeby osobę badaną informować o wynikach i ich Należy także pamiętać o tym, żeby osobę badaną informować o wynikach i ich
możliwych konsekwencjach, w taki sposób, żeby oszczędzić jej dobrych rad. możliwych konsekwencjach, w taki sposób, żeby oszczędzić jej dobrych rad.
Pamiętajmy, że diagnoza jest tylko opisem funkcjonowania badanego i do niego Pamiętajmy, że diagnoza jest tylko opisem funkcjonowania badanego i do niego
należy decyzja, w jaki sposób (i czy w ogóle) ją wykorzysta. należy decyzja, w jaki sposób (i czy w ogóle) ją wykorzysta.
Oczywiście, udzielanie osobie badanej informacji zwrotnej w żadnym wypad- Oczywiście, udzielanie osobie badanej informacji zwrotnej w żadnym wypad-
ku nie oznacza, że psycholog ma przekazać jej informacje o samym teście, który ku nie oznacza, że psycholog ma przekazać jej informacje o samym teście, który
stosował. Jak już pisaliśmy wcześniej, psycholog nigdy nie powinien prezen- 239 stosował. Jak już pisaliśmy wcześniej, psycholog nigdy nie powinien prezen- 239

tować osobie badanej poszczególnych pozycji testów przed przeprowadzeniem tować osobie badanej poszczególnych pozycji testów przed przeprowadzeniem
badania. Pamiętajmy, że osoba badana ma prawo poznać swoje wyniki zinterpre- badania. Pamiętajmy, że osoba badana ma prawo poznać swoje wyniki zinterpre-
towane na podstawie teorii psychologicznej, ale nie zastosowane narzędzie. towane na podstawie teorii psychologicznej, ale nie zastosowane narzędzie.
7.6. Ochrona narzędzi diagnostycznych 7.6. Ochrona narzędzi diagnostycznych

Testy psychologiczne to metody, do których dostęp jest z zasady ograniczony. Testy psychologiczne to metody, do których dostęp jest z zasady ograniczony.
Wynika to z faktu, że testy, będące próbką zachowań mogą efektywnie pełnić Wynika to z faktu, że testy, będące próbką zachowań mogą efektywnie pełnić
swoją funkcję, jedynie w sytuacji, gdy materiał testowy jest nieznany osobom swoją funkcję, jedynie w sytuacji, gdy materiał testowy jest nieznany osobom
badanym. Obecnie w Polsce testy psychologiczne może zakupić, a w konsekwen- badanym. Obecnie w Polsce testy psychologiczne może zakupić, a w konsekwen-
cji używać, jedynie osoba legitymująca się dyplomem ukończenia magisterskich cji używać, jedynie osoba legitymująca się dyplomem ukończenia magisterskich
studiów psychologicznych. To ograniczenie wynika z faktu, iż, pozornie niezwy- studiów psychologicznych. To ograniczenie wynika z faktu, iż, pozornie niezwy-
kle proste, diagnozowanie z wykorzystaniem testów psychologicznych wymaga, kle proste, diagnozowanie z wykorzystaniem testów psychologicznych wymaga,
aby użytkownik posiadł stosowną wiedzę psychologiczną oraz wiedzę z zakresu aby użytkownik posiadł stosowną wiedzę psychologiczną oraz wiedzę z zakresu
psychometrii. Dzięki temu możliwe jest adekwatne i wyczerpujące zinterpreto- psychometrii. Dzięki temu możliwe jest adekwatne i wyczerpujące zinterpreto-
wanie uzyskanych w teście wyników. Oczywiście, oprócz wiedzy o charakterze wanie uzyskanych w teście wyników. Oczywiście, oprócz wiedzy o charakterze
ogólnym, każdorazowo konieczne jest zapoznanie się z konkretnym narzędziem, ogólnym, każdorazowo konieczne jest zapoznanie się z konkretnym narzędziem,
jego własnościami psychometrycznymi, podłożem teoretycznym oraz procedurą jego własnościami psychometrycznymi, podłożem teoretycznym oraz procedurą
badania, żeby móc je wykorzystać w diagnozie. badania, żeby móc je wykorzystać w diagnozie.
W sytuacji, gdy pozycje, z których jest zbudowany test, stałyby się powszech- W sytuacji, gdy pozycje, z których jest zbudowany test, stałyby się powszech-
nie znane, test stałby się zupełnie bezużyteczny, bo nie pozwalałby na różni- nie znane, test stałby się zupełnie bezużyteczny, bo nie pozwalałby na różni-
cowanie ludzi w zakresie mierzonej cechy. Oznaczałoby to konieczność stwo- cowanie ludzi w zakresie mierzonej cechy. Oznaczałoby to konieczność stwo-
rzenia nowego testu, co jest procesem niezwykle żmudnym, pracochłonnym rzenia nowego testu, co jest procesem niezwykle żmudnym, pracochłonnym
i wymagającym zaangażowania znaczących środków finansowych. Brak dbało- i wymagającym zaangażowania znaczących środków finansowych. Brak dbało-
ści o chronienie narzędzi przez psychologów jest więc działaniem na niekorzyść ści o chronienie narzędzi przez psychologów jest więc działaniem na niekorzyść
całego środowiska psychologicznego. Jeśli testy będą powszechnie dostępne całego środowiska psychologicznego. Jeśli testy będą powszechnie dostępne
i przestaną spełniać swoją funkcję diagnostyczną, to psychologowie stracą tym i przestaną spełniać swoją funkcję diagnostyczną, to psychologowie stracą tym
samym narzędzia pomagające im stawiać trafne diagnozy. W Kodeksie Etyczno- samym narzędzia pomagające im stawiać trafne diagnozy. W Kodeksie Etyczno-
-Zawodowym Psychologa czytamy, że psycholog nie udostępnia specyficznych -Zawodowym Psychologa czytamy, że psycholog nie udostępnia specyficznych
technik diagnozy psychologicznej osobom nieprzygotowanym do ich kompe- technik diagnozy psychologicznej osobom nieprzygotowanym do ich kompe-
tentnego stosowania. Psycholog przeciwstawia się podejmowaniu działalności tentnego stosowania. Psycholog przeciwstawia się podejmowaniu działalności
psychologicznej, a zwłaszcza stosowaniu specyficznych technik diagnostycznych psychologicznej, a zwłaszcza stosowaniu specyficznych technik diagnostycznych
i terapeutycznych przez osoby nieposiadające kwalifikacji psychologicznych. i terapeutycznych przez osoby nieposiadające kwalifikacji psychologicznych.
Natomiast Ustawa o zawodzie psychologa i samorządzie zawodowym psycho- Natomiast Ustawa o zawodzie psychologa i samorządzie zawodowym psycho-
logów mówi w artykule 33., że zadaniem samorządu psychologów jest w szcze- logów mówi w artykule 33., że zadaniem samorządu psychologów jest w szcze-
gólności (…) ochrona prawna metod i narzędzi psychologicznych (punkt 3.). gólności (…) ochrona prawna metod i narzędzi psychologicznych (punkt 3.).
Dodatkowo, testy jak wszystkie inne utwory (książki, utwory muzyczne czy pla- Dodatkowo, testy jak wszystkie inne utwory (książki, utwory muzyczne czy pla-
styczne) chronione są przez Prawo autorskie, a także – chroni jest Ustawa o za- styczne) chronione są przez Prawo autorskie, a także – chroni jest Ustawa o za-
wodzie psychologa i samorządzie zawodowym psychologów. Należy pamiętać, że wodzie psychologa i samorządzie zawodowym psychologów. Należy pamiętać, że
także testy zagraniczne są narzędziami chronionymi, co oznacza, że psycholog także testy zagraniczne są narzędziami chronionymi, co oznacza, że psycholog
nie ma prawa bez uzyskania zgody właściciela praw autorskich dokonać proce- nie ma prawa bez uzyskania zgody właściciela praw autorskich dokonać proce-
240 dury adaptacyjnej oryginalnego narzędzia. 240 dury adaptacyjnej oryginalnego narzędzia.

Warto w tym miejscu wspomnieć, że ograniczenie dostępu do testów psycho- Warto w tym miejscu wspomnieć, że ograniczenie dostępu do testów psycho-
logicznych jest znacznie bardziej restrykcyjne w Polsce niż w innych krajach. logicznych jest znacznie bardziej restrykcyjne w Polsce niż w innych krajach.
W wielu z nich mamy bowiem do czynienia z taką sytuacją, że testy podzielone W wielu z nich mamy bowiem do czynienia z taką sytuacją, że testy podzielone
są na podgrupy i że w efekcie istnieją narzędzia dostępne nie tylko dla psycho- są na podgrupy i że w efekcie istnieją narzędzia dostępne nie tylko dla psycho-
logów, ale także na przykład dla nauczycieli, którzy przeszli specjalne przeszko- logów, ale także na przykład dla nauczycieli, którzy przeszli specjalne przeszko-
lenie (przykładem takiego testu jest Test Matryc Ravena), narzędzie, z których lenie (przykładem takiego testu jest Test Matryc Ravena), narzędzie, z których
mogą korzystać tylko psychologowie oraz narzędzia, do stosowania których mogą korzystać tylko psychologowie oraz narzędzia, do stosowania których
upoważnieni są wyłącznie psychologowie, którzy dodatkowo przeszli specjalne upoważnieni są wyłącznie psychologowie, którzy dodatkowo przeszli specjalne
szkolenie – tutaj sztandarowym przykładem jest Skala Inteligencji Wechslera. szkolenie – tutaj sztandarowym przykładem jest Skala Inteligencji Wechslera.
W Polsce funkcjonują dwa rodzaje testów psychologicznych – testy komer- W Polsce funkcjonują dwa rodzaje testów psychologicznych – testy komer-
cyjne i testy nieskomercjalizowane. Testy komercyjne to takie, które zostały opu- cyjne i testy nieskomercjalizowane. Testy komercyjne to takie, które zostały opu-
blikowane i są sprzedawane przez ich wydawcę. Z kolei testy niekomercyjne to blikowane i są sprzedawane przez ich wydawcę. Z kolei testy niekomercyjne to
testy, które autor albo stworzył czy zaadaptował z myślą o konkretnym badaniu, testy, które autor albo stworzył czy zaadaptował z myślą o konkretnym badaniu,
albo po prostu nie starczyło mu energii i środków na przeprowadzeni całej pro- albo po prostu nie starczyło mu energii i środków na przeprowadzeni całej pro-
cedury konstrukcji / adaptacji i test na przykład nie ma norm, ale mógłby być cedury konstrukcji / adaptacji i test na przykład nie ma norm, ale mógłby być
z powodzeniem wykorzystywany w badaniach grupowych. Chociaż jeden i drugi z powodzeniem wykorzystywany w badaniach grupowych. Chociaż jeden i drugi
rodzaj testów podlega ochronie, w tym ochronie przepisów prawa autorskiego, rodzaj testów podlega ochronie, w tym ochronie przepisów prawa autorskiego,
to zasady korzystania z testów różnią się w zależności od tego, czy test został to zasady korzystania z testów różnią się w zależności od tego, czy test został
skomercjalizowany czy nie. skomercjalizowany czy nie.
Testy komercyjne wystarczy kupić, żeby móc ich użyć. Oczywiście, pamięta- Testy komercyjne wystarczy kupić, żeby móc ich użyć. Oczywiście, pamięta-
my, że konieczny jest zakup całego kompletu materiałów testowych – czyli ar- my, że konieczny jest zakup całego kompletu materiałów testowych – czyli ar-
kuszy, podręcznika, klucza, ewentualnie zeszytów z zadaniami testowymi. Warto kuszy, podręcznika, klucza, ewentualnie zeszytów z zadaniami testowymi. Warto
podkreślić tutaj słowo „użyć” – użytkownik testu musi stosować takie testy bez podkreślić tutaj słowo „użyć” – użytkownik testu musi stosować takie testy bez
wprowadzania do nich jakichkolwiek modyfikacji, nie może ich w żadnym wy- wprowadzania do nich jakichkolwiek modyfikacji, nie może ich w żadnym wy-
padku powielać czy też na przykład zamieszczać w Internecie. Przykładowo, jeśli padku powielać czy też na przykład zamieszczać w Internecie. Przykładowo, jeśli
zatem w badaniach, jakie planujemy przeprowadzić w ramach pracy magisterskiej zatem w badaniach, jakie planujemy przeprowadzić w ramach pracy magisterskiej
interesuje nas wymiar wytrzymałości – jedna z cech mierzonych przez Formalną interesuje nas wymiar wytrzymałości – jedna z cech mierzonych przez Formalną
Charakterystykę Zachowania – Kwestionariusz Temperamentu (Zawadzki Charakterystykę Zachowania – Kwestionariusz Temperamentu (Zawadzki
i Strelau, 1997), to i tak musimy zastosować cały kwestionariusz i dopiero na i Strelau, 1997), to i tak musimy zastosować cały kwestionariusz i dopiero na
poziomie analizy danych możemy odwołać się tylko do jednej, interesującej nas poziomie analizy danych możemy odwołać się tylko do jednej, interesującej nas
cechy. Gdybyśmy chcieli stworzyć inną wersję takiego narzędzia, na przykład cechy. Gdybyśmy chcieli stworzyć inną wersję takiego narzędzia, na przykład
wersję komputerową istniejącego testu w formie „papier i ołówek”, to nie mamy wersję komputerową istniejącego testu w formie „papier i ołówek”, to nie mamy
prawa zrobić tego bez zgody wydawcy testu lub też innego właściciela praw prawa zrobić tego bez zgody wydawcy testu lub też innego właściciela praw
autorskich. Jednocześnie należy pamiętać, że każdorazowo w prowadzonych ba- autorskich. Jednocześnie należy pamiętać, że każdorazowo w prowadzonych ba-
daniach musimy posługiwać się oryginalnymi arkuszami testowymi – powielanie daniach musimy posługiwać się oryginalnymi arkuszami testowymi – powielanie
ich w jakikolwiek sposób jest naruszeniem prawa autorskiego! Oczywiście cały ich w jakikolwiek sposób jest naruszeniem prawa autorskiego! Oczywiście cały
czas spoczywa na nas obowiązek chronienia testu, zatem jeśli z przyczyn orga- czas spoczywa na nas obowiązek chronienia testu, zatem jeśli z przyczyn orga-
nizacyjnych decydujemy się na badanie, w którym rozsyłamy uczestnikom testy nizacyjnych decydujemy się na badanie, w którym rozsyłamy uczestnikom testy
pocztą, musimy być świadomi, że grozi nam utrata kontroli nad nimi. pocztą, musimy być świadomi, że grozi nam utrata kontroli nad nimi.
Informacje o testach nieskomercjalizowanych pojawiają się w fachowej li- Informacje o testach nieskomercjalizowanych pojawiają się w fachowej li-
teraturze psychologicznej, gdzie autorzy opisują swoje narzędzia bądź badania teraturze psychologicznej, gdzie autorzy opisują swoje narzędzia bądź badania
prowadzone z ich wykorzystaniem. Najczęściej jednak same narzędzia nie są 241 prowadzone z ich wykorzystaniem. Najczęściej jednak same narzędzia nie są 241

publikowane w tego typu wydawnictwach. Czasem możliwe jest jednak wyko- publikowane w tego typu wydawnictwach. Czasem możliwe jest jednak wyko-
rzystanie takich narzędzi w planowanych przez nas badaniach, o ile uzyskamy je rzystanie takich narzędzi w planowanych przez nas badaniach, o ile uzyskamy je
od autora zgodę na jego wykorzystanie w konkretnym badaniu. od autora zgodę na jego wykorzystanie w konkretnym badaniu.
7.7. Podsumowanie 7.7. Podsumowanie

Ten rozdział ma charakter jedynie wprowadzenia w problematykę etycznych Ten rozdział ma charakter jedynie wprowadzenia w problematykę etycznych
i prawnych aspektów związanych ze stosowaniem testów psychologicznych. i prawnych aspektów związanych ze stosowaniem testów psychologicznych.
Jego lektura nie powinna zatem w żadnym wypadku stać się podstawą do nabra- Jego lektura nie powinna zatem w żadnym wypadku stać się podstawą do nabra-
nia przekonania, że uzyskane informacje są wystarczające, aby czuć się pewnie nia przekonania, że uzyskane informacje są wystarczające, aby czuć się pewnie
w sytuacjach badań testowych w odniesieniu do różnych ludzi oraz z wykorzy- w sytuacjach badań testowych w odniesieniu do różnych ludzi oraz z wykorzy-
staniem różnych narzędzi diagnostycznych. staniem różnych narzędzi diagnostycznych.
Ważne jest, żeby postrzegać treść tego rozdziału jako pozostającą w ścisłym Ważne jest, żeby postrzegać treść tego rozdziału jako pozostającą w ścisłym
powiązaniu z opisanymi w poprzednich rozdziałach własnościami testów, a tak- powiązaniu z opisanymi w poprzednich rozdziałach własnościami testów, a tak-
że – żeby wyrobić w sobie nawyk wnikliwej analizy podręcznika testowego, za- że – żeby wyrobić w sobie nawyk wnikliwej analizy podręcznika testowego, za-
nim zdecydujemy się wykorzystać nowe narzędzie w procesie diagnostycznym. nim zdecydujemy się wykorzystać nowe narzędzie w procesie diagnostycznym.
Jednocześnie gorąco zachęcamy do pogłębienia swojej wiedzy w zakresie etycz- Jednocześnie gorąco zachęcamy do pogłębienia swojej wiedzy w zakresie etycz-
nych i prawnych aspektów korzystania z testów, na przykład poprzez lekturę po- nych i prawnych aspektów korzystania z testów, na przykład poprzez lekturę po-
niższych pozycji: niższych pozycji:

American Educational Research Association & American Psychological Association & American Educational Research Association & American Psychological Association &
National Council on Measurement in Education (2007). Standardy dla testów stosowa- National Council on Measurement in Education (2007). Standardy dla testów stosowa-
nych w psychologii i pedagogice. Gdańsk: Gdańskie Wydawnictwo Psychologiczne. nych w psychologii i pedagogice. Gdańsk: Gdańskie Wydawnictwo Psychologiczne.
Polskie Towarzystwo Psychologiczne (1992). Kodeks Etyczno – Zawodowy Psychologa. Polskie Towarzystwo Psychologiczne (1992). Kodeks Etyczno – Zawodowy Psychologa.
Warszawa: PTP. [przedruk w: J. Strelau (red.) (2000). Psychologia. Podręcznik akade- Warszawa: PTP. [przedruk w: J. Strelau (red.) (2000). Psychologia. Podręcznik akade-
micki (t. 3, str. 839–843). Gdańsk: Gdańskie Wydawnictwo Psychologiczne.] micki (t. 3, str. 839–843). Gdańsk: Gdańskie Wydawnictwo Psychologiczne.]
Brzeziński, J., Toeplitz-Winiewska, M. (2004). Etyczne dylematy psychologii. Warszawa: Brzeziński, J., Toeplitz-Winiewska, M. (2004). Etyczne dylematy psychologii. Warszawa:
Wydawnictwo SWPS Akademia. Wydawnictwo SWPS Akademia.
Brzeziński, J., Chyrowicz, B., Poznaniak, W., Toeplitz-Winiewska, M. (2008). Etyka za- Brzeziński, J., Chyrowicz, B., Poznaniak, W., Toeplitz-Winiewska, M. (2008). Etyka za-
wodu psychologa. Warszawa: Wydawnictwo Naukowe PWN. wodu psychologa. Warszawa: Wydawnictwo Naukowe PWN.
Ustawa z dnia 8 czerwca 2001 r. o zawodzie psychologa i samorządzie zawodowym psy- Ustawa z dnia 8 czerwca 2001 r. o zawodzie psychologa i samorządzie zawodowym psy-
chologów (Dz. U. Nr 73, poz. 763) [dostępna: http://www.ptp.org.pl/modules.php?na- chologów (Dz. U. Nr 73, poz. 763) [dostępna: http://www.ptp.org.pl/modules.php?na-
me=News&file=article&sid=47 me=News&file=article&sid=47

1. Dlaczego kwestie etyczne są tak ważne przy wykonywaniu zawodu psycholo- 1. Dlaczego kwestie etyczne są tak ważne przy wykonywaniu zawodu psycholo-
ga? ga?
2. jakich prawach osoby badanej musi pamiętać psycholog-diagnosta? 2. jakich prawach osoby badanej musi pamiętać psycholog-diagnosta?
3. Jak długo psycholog zobowiązany jest trzymać w tajemnicy informacje uzy- 3. Jak długo psycholog zobowiązany jest trzymać w tajemnicy informacje uzy-
242 skane w związku z wykonywaniem zawodu? 242 skane w związku z wykonywaniem zawodu?

4. Jaki jest kluczowy etap przygotowania do diagnozowania z użyciem nowopo- 4. Jaki jest kluczowy etap przygotowania do diagnozowania z użyciem nowopo-
znanego testu psychologicznego? znanego testu psychologicznego?
5. Jakie obowiązujące w Polsce ustawy chronią testy psychologiczne? 5. Jakie obowiązujące w Polsce ustawy chronią testy psychologiczne?
6. Co należy zrobić, żeby móc użyć komercyjnego testu psychologicznego? 6. Co należy zrobić, żeby móc użyć komercyjnego testu psychologicznego?
7. Jaki warunek musimy spełnić, żeby zastosować niekomercyjny test psycholo- 7. Jaki warunek musimy spełnić, żeby zastosować niekomercyjny test psycholo-
giczny? giczny?
8. Jakie zasady powinny być przestrzegane przy udzielaniu osobie badanej in- 8. Jakie zasady powinny być przestrzegane przy udzielaniu osobie badanej in-
formacji zwrotnej? formacji zwrotnej?
243 243

Literatura Literatura
American Educational Reasearch Association & American Psychological Association& American Educational Reasearch Association & American Psychological Association&
National Council on Measurement in Education (2007). Standardy dla testów stosowa- National Council on Measurement in Education (2007). Standardy dla testów stosowa-
nych w psychologii i pedagogice. Gdańsk: Gdańskie Wydawnictwo Psychologiczne. nych w psychologii i pedagogice. Gdańsk: Gdańskie Wydawnictwo Psychologiczne.
American Psychological Association (2000). Report of the Task Force on Test User American Psychological Association (2000). Report of the Task Force on Test User
Qualifications. Practice and Science Directorates. Dostępne on-line: http://www.apa. Qualifications. Practice and Science Directorates. Dostępne on-line: http://www.apa.
org/science/tuq.pdf. org/science/tuq.pdf.
American Psychological Association (2003). The Ethical Principles of Psychologists and American Psychological Association (2003). The Ethical Principles of Psychologists and
Code of Conduct. Code of Conduct.
Anastasi A., Urbina S. (1999). Testy psychologiczne. Warszawa: Pracownia Testów Anastasi A., Urbina S. (1999). Testy psychologiczne. Warszawa: Pracownia Testów
Psychologicznych PTP. Psychologicznych PTP.
Angleitner A., Riemann R. (1991). What can we learn from the discussion of person- Angleitner A., Riemann R. (1991). What can we learn from the discussion of person-
ality questionnaires for the construction of temperament inventories? W: J. Strelau, ality questionnaires for the construction of temperament inventories? W: J. Strelau,
A. Angleitner (red.), Explorations in temperament (s. 191–204). New York; Plenum. A. Angleitner (red.), Explorations in temperament (s. 191–204). New York; Plenum.
Brzeziński J., Toeplitz-Winiewska M. (2004). Etyczne dylematy psychologii. Warszawa: Brzeziński J., Toeplitz-Winiewska M. (2004). Etyczne dylematy psychologii. Warszawa:
Wydawnictwo SWPS Akademia. Wydawnictwo SWPS Akademia.
Brzeziński J., Gaul M., Hornowska E., Machowski A, Zakrzewska M. (2005). Skala Brzeziński J., Gaul M., Hornowska E., Machowski A, Zakrzewska M. (2005). Skala
Inteligencji D Wechslera dla Dorosłych – wersja zrewidowana. Polska adaptacja Inteligencji D Wechslera dla Dorosłych – wersja zrewidowana. Polska adaptacja
WAIS-R(PL). Podręcznik. Warszawa: Pracownia Testów Psychologicznych PTP. WAIS-R(PL). Podręcznik. Warszawa: Pracownia Testów Psychologicznych PTP.
Brzozowski P. (1989). Skala Wartości (SW). Polska adaptacja Value Survey M. Rokeacha. Brzozowski P. (1989). Skala Wartości (SW). Polska adaptacja Value Survey M. Rokeacha.
Podręcznik. Warszawa: Laboratorium Technik Diagnostycznych im. Bohdana Podręcznik. Warszawa: Laboratorium Technik Diagnostycznych im. Bohdana
Zawadzkiego (II wydanie – 1996). Zawadzkiego (II wydanie – 1996).
Brzozowski P., Drwal R.Ł. (1995). Kwestionariusz Osobowości Eysencka. Polska ada- Brzozowski P., Drwal R.Ł. (1995). Kwestionariusz Osobowości Eysencka. Polska ada-
ptacja EPQ-R. Podręcznik. Warszawa: Pracownia Testów Psychologicznych PTP. ptacja EPQ-R. Podręcznik. Warszawa: Pracownia Testów Psychologicznych PTP.
Campbell D.T., Fiske D.W. (2005). Analiza trafności zbieżnej i różnicowej za pomocą Campbell D.T., Fiske D.W. (2005). Analiza trafności zbieżnej i różnicowej za pomocą
macierzy wielu cech – wielu metod. W: J. Brzeziński (red.), Trafność i rzetelność te- macierzy wielu cech – wielu metod. W: J. Brzeziński (red.), Trafność i rzetelność te-
stów psychologicznych. Wybór tekstów (s. 431–459). Gdańsk: GWP. stów psychologicznych. Wybór tekstów (s. 431–459). Gdańsk: GWP.
Choynowski M. (1971). Podstawy i zastosowania teorii rzetelności testów psycholo- Choynowski M. (1971). Podstawy i zastosowania teorii rzetelności testów psycholo-
gicznych. W: J. Kozielecki (red.), Problemy psychologii matematycznej (s. 65–118). gicznych. W: J. Kozielecki (red.), Problemy psychologii matematycznej (s. 65–118).
Warszawa: PWN. Warszawa: PWN.
Choynowski M. (1972). Skrócony podręcznik do testu Nastroje i Humory. Warszawa: Choynowski M. (1972). Skrócony podręcznik do testu Nastroje i Humory. Warszawa:
Wydawnictwo Ministerstwa Oświaty i Wychowania. Wydawnictwo Ministerstwa Oświaty i Wychowania.
Ciechanowicz A. (1992). Skala Dojrzałości Umysłowej Columbia. Podręcznik. Polska Ciechanowicz A. (1992). Skala Dojrzałości Umysłowej Columbia. Podręcznik. Polska
standaryzacja 1990. Warszawa: PTP. standaryzacja 1990. Warszawa: PTP.
Cronbach L.J. (2005). Współczynnik alfa a struktura wewnętrzna testów. W: J. Brzeziński Cronbach L.J. (2005). Współczynnik alfa a struktura wewnętrzna testów. W: J. Brzeziński
(red.), Trafność i rzetelność testów psychologicznych. Wybór tekstów (s. 177–212). (red.), Trafność i rzetelność testów psychologicznych. Wybór tekstów (s. 177–212).
Gdańsk: GWP. Gdańsk: GWP.
Cronbach L.J., Meehl P.E. (2005). Trafność teoretyczna testów psychologicznych W: Cronbach L.J., Meehl P.E. (2005). Trafność teoretyczna testów psychologicznych W:
J. Brzeziński (red.), Trafność i rzetelność testów psychologicznych. Wybór tekstów J. Brzeziński (red.), Trafność i rzetelność testów psychologicznych. Wybór tekstów
244 (s. 404–430). Gdańsk: GWP. 244 (s. 404–430). Gdańsk: GWP.

Czarnota-Bojarska J. (1999). Selekcja zawodowa. Przygotowanie, prowadzenie i podsta- Czarnota-Bojarska J. (1999). Selekcja zawodowa. Przygotowanie, prowadzenie i podsta-
wowe metody. Warszawa: Pracownia Testów Psychologicznych Polskiego Towarzystwa wowe metody. Warszawa: Pracownia Testów Psychologicznych Polskiego Towarzystwa
Psychologicznego. Psychologicznego.
Drwal R.K. (1995). Trafność zbieżna i różnicowa czterech inwentarzy agresji. W: Drwal R.K. (1995). Trafność zbieżna i różnicowa czterech inwentarzy agresji. W:
P. Brzozowski (red.), Adaptacja kwestionariuszy osobowości (s. 36–54). Warszawa: P. Brzozowski (red.), Adaptacja kwestionariuszy osobowości (s. 36–54). Warszawa:
PWN. PWN.
Eysenck H.J., Eysenck S.B.G., Barrett P. (1985). A revised version of the psychoticism Eysenck H.J., Eysenck S.B.G., Barrett P. (1985). A revised version of the psychoticism
scale. Personality and Individual Differences, 6, 21–29. scale. Personality and Individual Differences, 6, 21–29.
Frydrychowicz A., Jaworska J., Woynarowska T., Matuszewski A. (1994). Inwentarz Frydrychowicz A., Jaworska J., Woynarowska T., Matuszewski A. (1994). Inwentarz
Zainteresowań. Warszawa: Centrum Metodyczne Pomocy Psychologiczno- Zainteresowań. Warszawa: Centrum Metodyczne Pomocy Psychologiczno-
-Pedagogicznej. -Pedagogicznej.
Goryńska E. (2005). Przymiotnikowa Skala Nastroju UMACL. Podręcznik. Warszawa: Goryńska E. (2005). Przymiotnikowa Skala Nastroju UMACL. Podręcznik. Warszawa:
Pracownia Testów Psychologicznych PTP. Pracownia Testów Psychologicznych PTP.
Hornowska E. (2001). Testy psychologiczne. Teoria i praktyka. Warszawa: Wydawnictwo Hornowska E. (2001). Testy psychologiczne. Teoria i praktyka. Warszawa: Wydawnictwo
Naukowe „Scholar”. Naukowe „Scholar”.
Hornowska E. (2004). Skale inteligencji dla dorosłych Davida Wechslera WAIS-R oraz Hornowska E. (2004). Skale inteligencji dla dorosłych Davida Wechslera WAIS-R oraz
WAIS-III. Warszawa: Scholar. WAIS-III. Warszawa: Scholar.
Jakubowski J. (1983). Elementy klasycznej teorii testów psychologicznych, w: Jakubowski J. (1983). Elementy klasycznej teorii testów psychologicznych, w:
J. Paluchowski (red.), Z zagadnień diagnostyki osobowości (s. 223–247). Wrocław: J. Paluchowski (red.), Z zagadnień diagnostyki osobowości (s. 223–247). Wrocław:
Ossolineum. Ossolineum.
Jaworowska A., Matczak A. (2008). Test Niedokończonych Zdań Rottera (RISB). Jaworowska A., Matczak A. (2008). Test Niedokończonych Zdań Rottera (RISB).
Podręcznik. Warszawa: Pracownia Testów Psychologicznych PTP. Podręcznik. Warszawa: Pracownia Testów Psychologicznych PTP.
Jaworowska A., Matczak A., Szustrowa T. (1996). Międzynarodowa Wykonaniowa Skala Jaworowska A., Matczak A., Szustrowa T. (1996). Międzynarodowa Wykonaniowa Skala
Leitera P–93. Podręcznik. Polska standaryzacja: populacja ogólna 3–15 lat, dzieci Leitera P–93. Podręcznik. Polska standaryzacja: populacja ogólna 3–15 lat, dzieci
głuche 6–14 lat. Warszawa: PTP. głuche 6–14 lat. Warszawa: PTP.
Jaworowska A. Szustrowa T. (1992). Podręcznik do Testu Matryc Ravena. Wersja dla Jaworowska A. Szustrowa T. (1992). Podręcznik do Testu Matryc Ravena. Wersja dla
Zaawansowanych. Warszawa: Pracownia Testów Psychologicznych PTP. Zaawansowanych. Warszawa: Pracownia Testów Psychologicznych PTP.
Jaworowska A. Szustrowa T. (2000). Test Matryc Ravena w wersji Standard TMS: formy: Jaworowska A. Szustrowa T. (2000). Test Matryc Ravena w wersji Standard TMS: formy:
Klasyczna, Równoległa, Plus: polskie standaryzacje. Warszawa: Pracownia Testów Klasyczna, Równoległa, Plus: polskie standaryzacje. Warszawa: Pracownia Testów
Psychologicznych Polskiego Towarzystwa Psychologicznego,. Psychologicznych Polskiego Towarzystwa Psychologicznego,.
Jurkowski A. (1997). Test językowy Leksykon. Warszawa: Pracownia Testów Jurkowski A. (1997). Test językowy Leksykon. Warszawa: Pracownia Testów
Psychologicznych Polskiego Towarzystwa Psychologicznego. Psychologicznych Polskiego Towarzystwa Psychologicznego.
Kofta M., Brzeziński J., Ignaczak M. (1977). Konstrukcja i charakterystyka psychome- Kofta M., Brzeziński J., Ignaczak M. (1977). Konstrukcja i charakterystyka psychome-
tryczna kwestionariusza poczucia winy KPW. Studia Psychologiczne, 15, 93–113. tryczna kwestionariusza poczucia winy KPW. Studia Psychologiczne, 15, 93–113.
Krasowicz G., Kurzyp-Wojnarska A. (1990). Kwestionariusz do badania poczucia kon- Krasowicz G., Kurzyp-Wojnarska A. (1990). Kwestionariusz do badania poczucia kon-
troli (KBPK). Warszawa: PTP. troli (KBPK). Warszawa: PTP.
Kuder F., Richardson M. (2005). Teoria estymacji rzetelności testu. W: J. Brzeziński Kuder F., Richardson M. (2005). Teoria estymacji rzetelności testu. W: J. Brzeziński
(red.), Trafność i rzetelność testów psychologicznych. Wybór tekstów (s. 167–176). (red.), Trafność i rzetelność testów psychologicznych. Wybór tekstów (s. 167–176).
Gdańsk: GWP. Gdańsk: GWP.
Łojek E., Stańczak J. (2007). Test płynności figuralnej Ruffa (RFFT). Podręcznik. Łojek E., Stańczak J. (2007). Test płynności figuralnej Ruffa (RFFT). Podręcznik.
Warszawa: Pracownia Testów Psychologicznych PTP. Warszawa: Pracownia Testów Psychologicznych PTP.
Magnusson D. (1991). Wprowadzenie do teorii testów. Warszawa: PWN. Magnusson D. (1991). Wprowadzenie do teorii testów. Warszawa: PWN.
Markowska B., Kotas A. (1971). Badania nad czynnikową trafnością Inwentarza Markowska B., Kotas A. (1971). Badania nad czynnikową trafnością Inwentarza
Psychologicznego H.G. Gougha. Przegląd Psychologiczny, 21, 225–236. 245 Psychologicznego H.G. Gougha. Przegląd Psychologiczny, 21, 225–236. 245

Marody M. (1976). Sens teoretyczny a sens empiryczny pojęcia postawy. Warszawa: Marody M. (1976). Sens teoretyczny a sens empiryczny pojęcia postawy. Warszawa:
Wydawnictwo PWN. Wydawnictwo PWN.
Matczak A. (1992). Diagnoza możliwości intelektualnych (DMI). Podręcznik. Warszawa: Matczak A. (1992). Diagnoza możliwości intelektualnych (DMI). Podręcznik. Warszawa:
Pracownia Testów Psychologicznych Polskiego Towarzystwa Psychologicznego. Pracownia Testów Psychologicznych Polskiego Towarzystwa Psychologicznego.
Matczak A. (2001). Testy operacyjności myślenia: diagnoza możliwości intelektualnych Matczak A. (2001). Testy operacyjności myślenia: diagnoza możliwości intelektualnych
dziecka DMI-2 DMI-2S. Warszawa: Pracownia Testów Psychologicznych PTP. dziecka DMI-2 DMI-2S. Warszawa: Pracownia Testów Psychologicznych PTP.
Matczak A. (2001). Testy operacyjności myślenia: diagnoza możliwości intelektualnych Matczak A. (2001). Testy operacyjności myślenia: diagnoza możliwości intelektualnych
dziecka. Podręcznik. Warszawa: Pracownia Testów Psychologicznych. dziecka. Podręcznik. Warszawa: Pracownia Testów Psychologicznych.
Matczak A. (1994). Diagnoza intelektu. Warszawa: Wydawnictwo Instytutu Psychologii Matczak A. (1994). Diagnoza intelektu. Warszawa: Wydawnictwo Instytutu Psychologii
PAN. PAN.
Matczak A., Jaworowska A., Szustrowa T., Ciechanowicz A. (2006). Bateria Testów Matczak A., Jaworowska A., Szustrowa T., Ciechanowicz A. (2006). Bateria Testów
APIS-Z. Podręcznik. Warszawa: Pracownia Testów Psychologicznych PTP. APIS-Z. Podręcznik. Warszawa: Pracownia Testów Psychologicznych PTP.
Matczak A., Jaworowska A., Ciechanowicz A., Stańczak J., Zalewska E. (2005). Bateria Matczak A., Jaworowska A., Ciechanowicz A., Stańczak J., Zalewska E. (2005). Bateria
Testów APIS-P(R). Podręcznik. Warszawa: Pracownia Testów Psychologicznych PTP. Testów APIS-P(R). Podręcznik. Warszawa: Pracownia Testów Psychologicznych PTP.
Matczak A., Piotrowska A., Ciarkowska W. (1998). Skala Inteligencji D. Wechslera dla Matczak A., Piotrowska A., Ciarkowska W. (1998). Skala Inteligencji D. Wechslera dla
Dzieci – wersja zmodyfikowana. WISC-R. Podręcznik. Warszawa: Pracownia Testów Dzieci – wersja zmodyfikowana. WISC-R. Podręcznik. Warszawa: Pracownia Testów
Psychologicznych PTP. Psychologicznych PTP.
McCrae R.R., Costa P.T. (2005). Osobowość dorosłego człowieka. Kraków: Wydawnictwo McCrae R.R., Costa P.T. (2005). Osobowość dorosłego człowieka. Kraków: Wydawnictwo
WAM. WAM.
Murphy K.R., Davidshofer C.O. (2005). Psychological Testing. Principles and Applications Murphy K.R., Davidshofer C.O. (2005). Psychological Testing. Principles and Applications
(6th edition). Upper Saddle River, New Jersey: Pearson Education International. (6th edition). Upper Saddle River, New Jersey: Pearson Education International.
Nęcka E. (2003). Inteligencja. Geneza, struktura, funkcje. Gdańsk: Gdańskie Nęcka E. (2003). Inteligencja. Geneza, struktura, funkcje. Gdańsk: Gdańskie
Wydawnictwo Psychologiczne. Wydawnictwo Psychologiczne.
Nowakowska M. (1970). Polska adaptacja 16-czynnikowego Kwestionariusza Osobowości Nowakowska M. (1970). Polska adaptacja 16-czynnikowego Kwestionariusza Osobowości
R.B. Cattella. Psychologia Wychowawcza, 13, 478–500. R.B. Cattella. Psychologia Wychowawcza, 13, 478–500.
Nowakowska M. (1975). Psychologia ilościowa z elementami naukometrii. Warszawa: Nowakowska M. (1975). Psychologia ilościowa z elementami naukometrii. Warszawa:
PWN. PWN.
Paluchowski W.J. (2006). Diagnoza psychologiczna. Podejście ilościowe i jakościowe. Paluchowski W.J. (2006). Diagnoza psychologiczna. Podejście ilościowe i jakościowe.
Warszawa: Wydawnictwo Naukowe „Scholar”. Warszawa: Wydawnictwo Naukowe „Scholar”.
Parnowski T., Jernajczyk W. (1977). Inwentarz Depresji Becka w ocenie nastroju osób Parnowski T., Jernajczyk W. (1977). Inwentarz Depresji Becka w ocenie nastroju osób
zdrowych i chorych na choroby afektywne (ocena pilotażowa), Psychiatria Polska, zdrowych i chorych na choroby afektywne (ocena pilotażowa), Psychiatria Polska,
11: 417–425. 11: 417–425.
Piaget J. (1966). Narodziny inteligencji dziecka. Warszawa: PWN. Piaget J. (1966). Narodziny inteligencji dziecka. Warszawa: PWN.
Piaget J. (1981). Równoważenie struktur poznawczych. Warszawa: PWN. Piaget J. (1981). Równoważenie struktur poznawczych. Warszawa: PWN.
Piaget J. (2006). Jak sobie dziecko wyobraża świat. Warszawa: PWN. Piaget J. (2006). Jak sobie dziecko wyobraża świat. Warszawa: PWN.
Polskie Towarzystwo Psychologiczne (1992). Kodeks Etyczno – Zawodowy Psychologa. Polskie Towarzystwo Psychologiczne (1992). Kodeks Etyczno – Zawodowy Psychologa.
Warszawa: PTP. [przedruk w: J. Strelau (red.) (2000). Psychologia. Podręcznik akade- Warszawa: PTP. [przedruk w: J. Strelau (red.) (2000). Psychologia. Podręcznik akade-
micki (t. 3, str. 839–843). Gdańsk: Gdańskie Wydawnictwo Psychologiczne.] micki (t. 3, str. 839–843). Gdańsk: Gdańskie Wydawnictwo Psychologiczne.]
Reykowski J. (1992). Procesy emocjonalne. Motywacja. Osobowość. Warszawa: PWN. Reykowski J. (1992). Procesy emocjonalne. Motywacja. Osobowość. Warszawa: PWN.
Sanocki W. (1986). Kwestionariusze osobowości w psychologii. Warszawa: PWN. Sanocki W. (1986). Kwestionariusze osobowości w psychologii. Warszawa: PWN.
Siuta J. (2006). Inwentarz Osobowości NEO – PI Costy i McCrae. Adaptacja polska. Siuta J. (2006). Inwentarz Osobowości NEO – PI Costy i McCrae. Adaptacja polska.
Podręcznik. Warszawa: Pracownia Testów Psychologicznych PTP. Podręcznik. Warszawa: Pracownia Testów Psychologicznych PTP.
Strelau J. (2001). Psychologia temperamentu. Wyd. 2 zm. Warszawa: Wydawnictwo Strelau J. (2001). Psychologia temperamentu. Wyd. 2 zm. Warszawa: Wydawnictwo
246 Naukowe PWN. 246 Naukowe PWN.

Strelau J., Jaworowska A., Wrześniewski K., Szczepaniak P. (2005). Kwestionariusz Strelau J., Jaworowska A., Wrześniewski K., Szczepaniak P. (2005). Kwestionariusz
radzenia sobie w sytuacjach stresowych CISS. Endler, J.D.A. Parker Podręcznik radzenia sobie w sytuacjach stresowych CISS. Endler, J.D.A. Parker Podręcznik
Warszawa: Pracownia Testów Psychologicznych PTP. Warszawa: Pracownia Testów Psychologicznych PTP.
Szustrowa T. (2003). Raport o stanie orzecznictwa psychologicznego w Polsce. Raport Szustrowa T. (2003). Raport o stanie orzecznictwa psychologicznego w Polsce. Raport
Polskiego Towarzystwa Psychologicznego dostępny on line: http://www.ptp.org.pl/ Polskiego Towarzystwa Psychologicznego dostępny on line: http://www.ptp.org.pl/
teksty/raport_orzecznictwo.doc teksty/raport_orzecznictwo.doc
Terelak J., Tarnowski A., Kwasucki J. (1993). Psychometryczna ocena kwestionariuszy Terelak J., Tarnowski A., Kwasucki J. (1993). Psychometryczna ocena kwestionariuszy
Zunga i Hendlera do oceny psychologicznego komponentu bólu krzyża, Przegląd Zunga i Hendlera do oceny psychologicznego komponentu bólu krzyża, Przegląd
Psychologiczny, 36, 81–97. Psychologiczny, 36, 81–97.
Uniwersalny słownik języka polskiego (2004). Warszawa: Wydawnictwo Naukowe Uniwersalny słownik języka polskiego (2004). Warszawa: Wydawnictwo Naukowe
PWN. PWN.
Ustawa z dnia 8 czerwca 2001 r. o zawodzie psychologa i samorządzie zawodowym psy- Ustawa z dnia 8 czerwca 2001 r. o zawodzie psychologa i samorządzie zawodowym psy-
chologów (Dz. U. Nr 73, poz. 763) [dostępna: http://www.ptp.org.pl/modules.php?na- chologów (Dz. U. Nr 73, poz. 763) [dostępna: http://www.ptp.org.pl/modules.php?na-
me=News&file=article&sid=47 me=News&file=article&sid=47
Werner P.D., Pervin L.A. (1986). The content of personality inventory items. Journal of Werner P.D., Pervin L.A. (1986). The content of personality inventory items. Journal of
Personality and Social Psychology, 51, 622–628. Personality and Social Psychology, 51, 622–628.
Wilczyńska J., Drwal R.Ł. (1995). Opracowanie Kwestionariusza Aprobaty Społecznej Wilczyńska J., Drwal R.Ł. (1995). Opracowanie Kwestionariusza Aprobaty Społecznej
(KAS). W: R.Ł. Drwal (J. Brzozowski, red.), Adaptacja kwestionariuszy osobowo- (KAS). W: R.Ł. Drwal (J. Brzozowski, red.), Adaptacja kwestionariuszy osobowo-
ści. Wybrane zagadnienia i techniki (s. 57–66). Warszawa: Wydawnictwo Naukowe ści. Wybrane zagadnienia i techniki (s. 57–66). Warszawa: Wydawnictwo Naukowe
PWN. PWN.
Wrześniewski K., Sosnowski T., Matusik D. (2002). Inwentarz stanu i cechy lęku: pol- Wrześniewski K., Sosnowski T., Matusik D. (2002). Inwentarz stanu i cechy lęku: pol-
ska adaptacja STAI: podręcznik. Warszawa: Pracownia Testów Psychologicznych ska adaptacja STAI: podręcznik. Warszawa: Pracownia Testów Psychologicznych
Polskiego Towarzystwa Psychologicznego. Polskiego Towarzystwa Psychologicznego.
Zakrzewska M. (1994) Analiza czynnikowa w budowaniu i sprawdzaniu modeli psycho- Zakrzewska M. (1994) Analiza czynnikowa w budowaniu i sprawdzaniu modeli psycho-
logicznych. Poznań: wyd. UAM. logicznych. Poznań: wyd. UAM.
Zalewska A. (2001). „Arkusz Opisu Pracy” O. Neubergera i M. Allerbeck – adaptacja do Zalewska A. (2001). „Arkusz Opisu Pracy” O. Neubergera i M. Allerbeck – adaptacja do
warunków polskich. Studia Psychologiczne, 39, 197–217. warunków polskich. Studia Psychologiczne, 39, 197–217.
Zawadzki B. (2006). Kwestionariusze osobowości. Strategie i procedura konstruowania. Zawadzki B. (2006). Kwestionariusze osobowości. Strategie i procedura konstruowania.
Warszawa: Wydawnictwo Naukowe Scholar. Warszawa: Wydawnictwo Naukowe Scholar.
Zawadzki B., Strelau J. (1997). Formalna Charakterystyka Zachowania – Kwestionariusz Zawadzki B., Strelau J. (1997). Formalna Charakterystyka Zachowania – Kwestionariusz
Temperamentu (FCZ-KT). Podręcznik. Warszawa: Pracownia Testów Psychologicznych Temperamentu (FCZ-KT). Podręcznik. Warszawa: Pracownia Testów Psychologicznych
PTP. PTP.
Zawadzki B., Strelau J., Szczepaniak P., Śliwińska M. (1998). Inwentarz Osobowości Zawadzki B., Strelau J., Szczepaniak P., Śliwińska M. (1998). Inwentarz Osobowości
NEO-FFI Costy i McCrae. Adaptacja polska. Podręcznik. Warszawa: Pracownia NEO-FFI Costy i McCrae. Adaptacja polska. Podręcznik. Warszawa: Pracownia
Testów Psychologicznych PTP. Testów Psychologicznych PTP.
247 247

Indeks Indeks
A 138, 139, 162, 163, 165, 169, 172, A 138, 139, 162, 163, 165, 169, 172,
180, 182, 185, 186, 193, 197, 200, 180, 182, 185, 186, 193, 197, 200,
aksjomaty klasycznej teorii rzetelności 205,206, 208, 209, 211, 212, 215, aksjomaty klasycznej teorii rzetelności 205,206, 208, 209, 211, 212, 215,
65 216, 217, 226,231, 237, 238, 240, 65 216, 217, 226,231, 237, 238, 240,
alfa Cronbacha 94–96, 104–106, 140, 241 alfa Cronbacha 94–96, 104–106, 140, 241
172, 174 centyl 223–225 172, 174 centyl 223–225
analiza czynnikowa 124–127, 147– analiza czynnikowa 124–127, 147–
150 D 150 D
analiza pozycji 162 dewiacyjny iloraz inteligencji 219– analiza pozycji 162 dewiacyjny iloraz inteligencji 219–
aprobata społeczna 43, 119, 121, 139, 220 aprobata społeczna 43, 119, 121, 139, 220
145 długość testu 91, 103 145 długość testu 91, 103
dystraktor 15 dystraktor 15
B B
dystrybuanta 184, 211–212 dystrybuanta 184, 211–212
bateria 24, 30, 35, 36, 37, 38, 39, 96, bateria 24, 30, 35, 36, 37, 38, 39, 96,
123, 128, 161, 190 E 123, 128, 161, 190 E
błąd estymacji 197 estymator 66, 80–81, 180–182, 189 błąd estymacji 197 estymator 66, 80–81, 180–182, 189
błąd losowy 68–69, 70–71, 73–75, 76– estymator przedziałowy 180 błąd losowy 68–69, 70–71, 73–75, 76– estymator przedziałowy 180
78, 180, 183, 189, 193 estymator punktowy 196 78, 180, 183, 189, 193 estymator punktowy 196
błąd pomiaru 66–68, 71, 73, 74, 76, 78, estymowany wynik prawdziwy 181, błąd pomiaru 66–68, 71, 73, 74, 76, 78, estymowany wynik prawdziwy 181,
79, 80, 85, 113, 180, 182, 188, 193, 194–201 79, 80, 85, 113, 180, 182, 188, 193, 194–201
197, 222 197, 222
błąd różnicy 188–189 H błąd różnicy 188–189 H
błąd systematyczny 68–69 homogeniczność 124 błąd systematyczny 68–69 homogeniczność 124
błąd wnioskowania 185 błąd wnioskowania 185
I I
C idiograficzne podejście 18, 56 C idiograficzne podejście 18, 56
cecha (psychiczna) 10, 12, 13, 14, 16, iloraz inteligencji, patrz dewiacyjny cecha (psychiczna) 10, 12, 13, 14, 16, iloraz inteligencji, patrz dewiacyjny
17, 18, 21, 23, 40, 41, 43, 44, 45, 46, iloraz inteligencji 17, 18, 21, 23, 40, 41, 43, 44, 45, 46, iloraz inteligencji
50, 51, 52, 54–58, 59, 60, 61, 62–63, informacji zwrotnych udzielanie 137, 50, 51, 52, 54–58, 59, 60, 61, 62–63, informacji zwrotnych udzielanie 137,
65, 66, 67, 68, 71, 74, 75, 76, 77, 78, 234, 237 65, 66, 67, 68, 71, 74, 75, 76, 77, 78, 234, 237
79, 80, 84, 86–87, 90, 93, 96, 98, inwentarze, patrz kwestionariusze 79, 80, 84, 86–87, 90, 93, 96, 98, inwentarze, patrz kwestionariusze
112, 113,114, 115, 116, 117, 118, iq, patrz dewiacyjny iloraz inteligencji 112, 113,114, 115, 116, 117, 118, iq, patrz dewiacyjny iloraz inteligencji
248 119, 120, 121, 122, 123, 124, 134, istotność różnicy 193 248 119, 120, 121, 122, 123, 124, 134, istotność różnicy 193

Indeks Indeks
J nomotetyczne podejście 18, 55–56, 62 J nomotetyczne podejście 18, 55–56, 62

jednorodność 96, 113 norma 16, 205–206 jednorodność 96, 113 norma 16, 205–206
normalizacja 112, 113, 205–206, 209– normalizacja 112, 113, 205–206, 209–
K 212, 214–215, 220, 222, 225–226 K 212, 214–215, 220, 222, 225–226
klasyczna teoria rzetelności 65, 69, 71, normy 13, 16–17, 113, 205, 206, 225, klasyczna teoria rzetelności 65, 69, 71, normy 13, 16–17, 113, 205, 206, 225,
239 239
76, 78, 182 76, 78, 182
normy lokalne 225 normy lokalne 225
klucz 13, 14, 93, 94, 97, 106, 162, 167, klucz 13, 14, 93, 94, 97, 106, 162, 167,
241 O 241 O
konstrukt 12, 19, 84, 96, 115, 119–120, konstrukt 12, 19, 84, 96, 115, 119–120,
obiektywność, obiektywny test 16–17, obiektywność, obiektywny test 16–17,
165 165
112–113 112–113
kontaminacja (skażenie) kryterium kontaminacja (skażenie) kryterium
obowiązki diagnosty 15, 230–236, 242 obowiązki diagnosty 15, 230–236, 242
135 135
ograniczenie czasu 15, 23, 27, 31, 34, ograniczenie czasu 15, 23, 27, 31, 34,
kontinuum 54–55, 64 kontinuum 54–55, 64
38, 39, 43, 44 38, 39, 43, 44
kontrakt diagnostyczny 232–237 kontrakt diagnostyczny 232–237
kowariancja 72–73, 189 P kowariancja 72–73, 189 P
KR20 93–94 parametr 65–66, 70, 76–77, 181–182, KR20 93–94 parametr 65–66, 70, 76–77, 181–182,
KR21 93–94 195, 219–220, 222 KR21 93–94 195, 219–220, 222
kryterium trafności 131–136, 138, 140, pomiary niezależne 74–75, 81, 84, 86, kryterium trafności 131–136, 138, 140, pomiary niezależne 74–75, 81, 84, 86,
145, 151, 165 187 145, 151, 165 187
krzywa normalna, patrz rozkład nor- populacja 13, 16, 18, 62–63, 66, 70–72, krzywa normalna, patrz rozkład nor- populacja 13, 16, 18, 62–63, 66, 70–72,
malny 76–79, 81–83, 113, 165, 181–182, malny 76–79, 81–83, 113, 165, 181–182,
kwestionariusz 13, 18, 21, 39–52 186–187, 190, 196–197, 205–207, kwestionariusz 13, 18, 21, 39–52 186–187, 190, 196–197, 205–207,
L 209, 211, 214, 215, 217, 218, 222, L 209, 211, 214, 215, 217, 218, 222,
225, 226, 232 225, 226, 232
linia regresji 194–195 poziom istotności 101, 108, 184–187, linia regresji 194–195 poziom istotności 101, 108, 184–187,
191–192, 200 191–192, 200
M M
poziom ufności 185, 191 poziom ufności 185, 191
metoda połówkowa 84, 90–93, 94, 99, półprzedział ufności 185, 192–194 metoda połówkowa 84, 90–93, 94, 99, półprzedział ufności 185, 192–194
102–104 prawa osoby badanej 230–232 102–104 prawa osoby badanej 230–232
metoda powtarzanego pomiaru (testu), próba 63, 70–71, 79, 96, 100, 101, 107, metoda powtarzanego pomiaru (testu), próba 63, 70–71, 79, 96, 100, 101, 107,
patrz stabilność bezwzględna 128, 130, 144, 147, 151, 152, 154, patrz stabilność bezwzględna 128, 130, 144, 147, 151, 152, 154,
metoda testów (wersji) alternatywnych, 163, 169, 174, 181, 182, 186, 192, metoda testów (wersji) alternatywnych, 163, 169, 174, 181, 182, 186, 192,
patrz testy równoległe 196, 200, 206, 207–212, 214, 215, patrz testy równoległe 196, 200, 206, 207–212, 214, 215,
metoda testów równoległych, patrz te- 223–225 metoda testów równoległych, patrz te- 223–225
sty równoległe próba normalizacyjna 15, 16, 207, 209, sty równoległe próba normalizacyjna 15, 16, 207, 209,
moc dyskryminacyjna 117, 124, 165– 214, 223, 225 moc dyskryminacyjna 117, 124, 165– 214, 223, 225
169, 172, 174, 176 próba reprezentatywna 66, 81, 82, 115, 169, 172, 174, 176 próba reprezentatywna 66, 81, 82, 115,
186, 207, 209, 225 186, 207, 209, 225
N próbka zachowania 12, 17–19, 21, 238, N próbka zachowania 12, 17–19, 21, 238,
narzędzi diagnostycznych ochrona 17, 240 narzędzi diagnostycznych ochrona 17, 240
230, 240–241 przedział centylowy 223–226 249 230, 240–241 przedział centylowy 223–226 249

Indeks Indeks
przedział ufności 10, 78, 81, 180–187, skale znormalizowane 215–222, 224– przedział ufności 10, 78, 81, 180–187, skale znormalizowane 215–222, 224–
190–194, 198–201, 238 226 190–194, 198–201, 238 226
Spearmana-Brown wzór 91–92, 102– Spearmana-Brown wzór 91–92, 102–
R 103, 140 R 103, 140
rangi 52, 140–143, 225 stabilność bezwzględna 84–90, 98, 99, rangi 52, 140–143, 225 stabilność bezwzględna 84–90, 98, 99,
rozkład dwumodalny 170, patrz też 100–101 rozkład dwumodalny 170, patrz też 100–101
rozkład dwuwierzchołkowy stabilność względna 87, 89–90, 98, 99 rozkład dwuwierzchołkowy stabilność względna 87, 89–90, 98, 99
rozkład dwuwierzchołkowy 213, 215, stałość testu, patrz stabilność bez- rozkład dwuwierzchołkowy 213, 215, stałość testu, patrz stabilność bez-
patrz też rozkład dwumodalny względna patrz też rozkład dwumodalny względna
rozkład Gaussa, patrz rozkład normal- stałość w czasie 66, 86–88 rozkład Gaussa, patrz rozkład normal- stałość w czasie 66, 86–88
ny standardowy błąd estymacji, patrz SEE ny standardowy błąd estymacji, patrz SEE
rozkład normalny 55–56, 61, 63, 74, standardowy błąd pomiaru 182, 184 rozkład normalny 55–56, 61, 63, 74, standardowy błąd pomiaru 182, 184
76, 169 – 170, 176, 184, 187, 205, 186, 198 76, 169 – 170, 176, 184, 187, 205, 186, 198
206, 209, 211–213, 226 standardowy błąd pomiaru, patrz SEM 206, 209, 211–213, 226 standardowy błąd pomiaru, patrz SEM
rozkład skośny 170–172, 174–176, standardowy błąd różnicy 187–190, rozkład skośny 170–172, 174–176, standardowy błąd różnicy 187–190,
213–214, 226 192 213–214, 226 192
rozwojowy iloraz inteligencji 25, 219 standardowy błąd różnicy patrz SEMD rozwojowy iloraz inteligencji 25, 219 standardowy błąd różnicy patrz SEMD
równoważność międzytestowa 89–90, standaryzacja (procedury badania) 15, równoważność międzytestowa 89–90, standaryzacja (procedury badania) 15,
98, 99 112, 98, 99 112,
rzetelność 13, 14, 16, 17, 22, 65, 67–69, standaryzacja (rozkładu wyników) rzetelność 13, 14, 16, 17, 22, 65, 67–69, standaryzacja (rozkładu wyników)
71, 73, 76–82, 84–87, 89–94, 96– 206–209 71, 73, 76–82, 84–87, 89–94, 96– 206–209
106, 108, 112, 113, 117, 135, 139, stanina 216, 221 106, 108, 112, 113, 117, 135, 139, stanina 216, 221
140, 161–162, 172, 182, 186–187, sten 217, 221 140, 161–162, 172, 182, 186–187, sten 217, 221
190, 192, 194–196, 198–201 190, 192, 194–196, 198–201
T T
S tajemnica zawodowa 235–236 S tajemnica zawodowa 235–236
SEE 197–198, 200 ten 217, 221 SEE 197–198, 200 ten 217, 221
selekcja 19, 22, 30, 38, 41, 42, 43, 45, test mocy 23, 27, selekcja 19, 22, 30, 38, 41, 42, 43, 45, test mocy 23, 27,
225 test szybkości 23, 68 225 test szybkości 23, 68
SEM 16, 74–75, 77, 80–82, 181–186, test zdolności 13, 18, 21, 23–39 SEM 16, 74–75, 77, 80–82, 181–186, test zdolności 13, 18, 21, 23–39
189, 192, 197–198, 200 testowy materiał 12–13, 15–16, 22–23, 189, 192, 197–198, 200 testowy materiał 12–13, 15–16, 22–23,
SEMD 187, 189–190, 192–194 26–35, 114, 233, 240, 241 SEMD 187, 189–190, 192–194 26–35, 114, 233, 240, 241
sędzia kompetentny 84, 97–98, 115– testowy podręcznik 12–13, 15–16, 81, sędzia kompetentny 84, 97–98, 115– testowy podręcznik 12–13, 15–16, 81,
117, 121, 133, 140 119–120, 123, 128, 186, 192, 200, 117, 121, 133, 140 119–120, 123, 128, 186, 192, 200,
siatka centylowa 226 232, 242 siatka centylowa 226 232, 242
skala centylowa, patrz centyl, siatka test-retest, patrz stabilność bezwzględ- skala centylowa, patrz centyl, siatka test-retest, patrz stabilność bezwzględ-
centylowa, przedział centylowy na centylowa, przedział centylowy na
skala iq, patrz dewiacyjny iloraz inte- testy niewerbalne 15, 23, 24, 25, 26, skala iq, patrz dewiacyjny iloraz inte- testy niewerbalne 15, 23, 24, 25, 26,
ligencji 29, 30, 31 ligencji 29, 30, 31
skala staninowa, patrz stanin testy równoległe 14, 84–86, 88, 89, 90, skala staninowa, patrz stanin testy równoległe 14, 84–86, 88, 89, 90,
skala stenowa, patrz sten 92, 98 skala stenowa, patrz sten 92, 98
250 skala tenowa, patrz ten testy werbalne 23, 30, 31 250 skala tenowa, patrz ten testy werbalne 23, 30, 31

Indeks Indeks
testy wykonaniowe, patrz testy niewer- wskaźnik rzetelności 80 testy wykonaniowe, patrz testy niewer- wskaźnik rzetelności 80
balne wskaźnik trudności pozycji, patrz trud- balne wskaźnik trudności pozycji, patrz trud-
tetron 218, 221 ność pozycji testowej tetron 218, 221 ność pozycji testowej
trafności diagnostyczna 132, 134, 138 wskaźniki (cechy psychicznej) 57–61, trafności diagnostyczna 132, 134, 138 wskaźniki (cechy psychicznej) 57–61,
trafność 13, 14, 16, 17, 68, 111–159, 63, 66, 85, 112, 117, 125, 130, 139, trafność 13, 14, 16, 17, 68, 111–159, 63, 66, 85, 112, 117, 125, 130, 139,
161 162 161 162
trafność dywergencyjna, patrz trafność wskaźniki trafności 118, 120–121, 123, trafność dywergencyjna, patrz trafność wskaźniki trafności 118, 120–121, 123,
różnicowa 131 różnicowa 131
trafność fasadowa 136–137 współczynnik alfa Cronbacha, patrz trafność fasadowa 136–137 współczynnik alfa Cronbacha, patrz
trafność konwergencyjna, patrz traf- alfa Cronbacha trafność konwergencyjna, patrz traf- alfa Cronbacha
ność zbieżna współczynnik determinacji 79–80 ność zbieżna współczynnik determinacji 79–80
trafność kryterialna 112, 114, 131–136, współczynnik korelacji 84, 85, 86, 87, trafność kryterialna 112, 114, 131–136, współczynnik korelacji 84, 85, 86, 87,
137, 138, 151 88, 89, 90, 91, 97, 103, 118, 120, 137, 138, 151 88, 89, 90, 91, 97, 103, 118, 120,
trafność prognostyczna 132–136 122, 128, 131, 145–146, 166, 174, trafność prognostyczna 132–136 122, 128, 131, 145–146, 166, 174,
trafność różnicowa 120–123, 134 198, trafność różnicowa 120–123, 134 198,
trafność teoretyczna 87, 114, 118–131, współczynnik równoważności między- trafność teoretyczna 87, 114, 118–131, współczynnik równoważności między-
134, 136, 137, 138, 139, 145, 151 testowej, patrz testy równoległe 134, 136, 137, 138, 139, 145, 151 testowej, patrz testy równoległe
trafność treściowa 114–117, 140 współczynnik rzetelności 79, 81, 85, trafność treściowa 114–117, 140 współczynnik rzetelności 79, 81, 85,
trafność wewnętrzna, patrz trafność 91, 92, 99, 113, 161, 186, 191, 192, trafność wewnętrzna, patrz trafność 91, 92, 99, 113, 161, 186, 191, 192,
treściowa 196, 198, 199, 200 treściowa 196, 198, 199, 200
trafność zbieżna 120–123, 134 współczynnik Spearmana-Brown, patrz trafność zbieżna 120–123, 134 współczynnik Spearmana-Brown, patrz
trafność zewnętrzna, patrz trafność Spearmana-Brown wzór trafność zewnętrzna, patrz trafność Spearmana-Brown wzór
kryterialna współczynnik stabilności bezwzględ- kryterialna współczynnik stabilności bezwzględ-
trudność pozycji testowej 23, 24, 26, nej, patrz stabilność bezwzględna trudność pozycji testowej 23, 24, 26, nej, patrz stabilność bezwzględna
27, 29, 30, 34, 91, 92, 94, 99, 162– współczynnik stabilności względnej, 27, 29, 30, 34, 91, 92, 94, 99, 162– współczynnik stabilności względnej,
164, 169, 171, 172, 174, 222 patrz testy równoległe 164, 169, 171, 172, 174, 222 patrz testy równoległe
współczynnik wiarygodności, patrz współczynnik wiarygodności, patrz
W stabilność bezwzględna W stabilność bezwzględna
wariancja błędów 72, 78–80, 189 współczynnik W-Kendalla, patrz wariancja błędów 72, 78–80, 189 współczynnik W-Kendalla, patrz
wariancja całkowita 72, 78, 80 W-Kendalla wariancja całkowita 72, 78, 80 W-Kendalla
wariancja prawdziwa, patrz wariancja współczynnik zgodności sędziów, patrz wariancja prawdziwa, patrz wariancja współczynnik zgodności sędziów, patrz
wyników prawdziwych W-Kendalla wyników prawdziwych W-Kendalla
wariancja wyników otrzymanych 72, współczynnik zgodności wewnętrznej, wariancja wyników otrzymanych 72, współczynnik zgodności wewnętrznej,
78–80, 84 patrz zgodność wewnętrzna 78–80, 84 patrz zgodność wewnętrzna
wariancja wyników prawdziwych 72, wynik otrzymany 67, 69–72, 74, 79, wariancja wyników prawdziwych 72, wynik otrzymany 67, 69–72, 74, 79,
78–80, 84 95, 99, 180–182, 184–186, 188, 190, 78–80, 84 95, 99, 180–182, 184–186, 188, 190,
wiarygodność testu 84, 85, 89, 98, 99 194, 196–201, 206, 207, 209, 238 wiarygodność testu 84, 85, 89, 98, 99 194, 196–201, 206, 207, 209, 238
W-Kendalla 97–98, 107–108, 116, 140, wynik prawdziwy 66–68, 70–72, 74– W-Kendalla 97–98, 107–108, 116, 140, wynik prawdziwy 66–68, 70–72, 74–
142–145 76, 81, 84, 180–186, 194–201, 238 142–145 76, 81, 84, 180–186, 194–201, 238
wskaźnik dyskryminacji 166–167 wynik przeliczony 96, 190 wskaźnik dyskryminacji 166–167 wynik przeliczony 96, 190
wskaźnik mocy dyskryminacyjnej, wynik surowy 16, 206–208, 212–215, wskaźnik mocy dyskryminacyjnej, wynik surowy 16, 206–208, 212–215,
patrz moc dyskryminacyjna 218, 220–225 251 patrz moc dyskryminacyjna 218, 220–225 251

Indeks Indeks
wynik wystandaryzowany 184, 207– Z wynik wystandaryzowany 184, 207– Z

209, 212,215 zgoda na udział w badaniu diagno- 209, 212,215 zgoda na udział w badaniu diagno-
wynik znormalizowany 212–218, 220– stycznym 231–234 wynik znormalizowany 212–218, 220– stycznym 231–234
221 zgodność ocen sędziów 97–99, 144 221 zgodność ocen sędziów 97–99, 144
wyników testowych komunikowanie zgodność wewnętrzna 84–86, 90, 93, wyników testowych komunikowanie zgodność wewnętrzna 84–86, 90, 93,
236–239 94, 96, 99, 104, 105, 109, 113, 124, 236–239 94, 96, 99, 104, 105, 109, 113, 124,
wzory Kuder i Richardson, patrz KR20 160, 162, 166, 174 wzory Kuder i Richardson, patrz KR20 160, 162, 166, 174
i KR21 zmienna ciągła 136, 152, 210, 211 i KR21 zmienna ciągła 136, 152, 210, 211
wzór Spearmana-Brown, patrz Spear zmienna dyskretna 211 wzór Spearmana-Brown, patrz Spear zmienna dyskretna 211
mana-Brown wzór zmienna kryterialna, patrz kryterium mana-Brown wzór zmienna kryterialna, patrz kryterium
trafności trafności
252 252

ja.p l © 2 0 0 9 Wy
w.viz ższa
ww Szk
n e. oła
o nio Fin
br a ns
t za ów
es
Psychometria
j
iZ
ia
ar
len
zą
wo
dz
an
ze z
ia w
ez
nie b
War
sza
l i c z n e o dt wa r z a
w i e.
Vi z j a P
az pub
re s s & I T
e or
. Ws
ni
ze
cza
lk ie
y ż
p
po
r aw
wy
a
W Y¯SZA S ZKO£A
pr
,
ie
o
n
a du
ow FINANSÓW I ZARZ¥DZANIA W WARSZAWIE ce
i nt
op ai
e. K wła
on eż ścic
astr z n a gra n e
iela
g o u t wo r u z
Zawartość płyty dostępna jest pod adresem:

http://public.vizja.pl/psychometria.zip
aby pobrać kliknij tutaj.

FOLIA MAT
Psychometria
ISBN 978-83-61086-31-4
Psychometria
Psychometria_Fronczyk_Druk.indd 1 2009-01-14 12:51:34


Psychometria Podstawowe Zagadnienia

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Psychometria Podstawowe Zagadnienia

Uploaded by

Copyright:

Available Formats

FOLIA MAT

pod redakcją Krzysztofa Fronczyka

Psychometria_Fronczyk_Druk.indd 1 2009-01-14 12:51:34

Plik zabezpieczony watermarkiem jawnym i niejawnym: 20836253A3235653

Plik zabezpieczony watermarkiem jawnym i niejawnym: 20836253A3235653

pod redakcją pod redakcją

Warszawa 2009 Warszawa 2009

Plik zabezpieczony watermarkiem jawnym i niejawnym: 20836253A3235653

Redaktor prowadzący Redaktor prowadzący

Redakcja i korekta Redakcja i korekta

ISBN: 978-83-61086-31-4 ISBN: 978-83-61086-31-4

VIZJA PRESS & IT VIZJA PRESS & IT

Skład i łamanie Skład i łamanie

Plik zabezpieczony watermarkiem jawnym i niejawnym: 20836253A3235653

Spis treści Spis treści

1. Zastosowanie testów psychologicznych . . . . . . . . . . . . . . . . . . . . . . 12 1. Zastosowanie testów psychologicznych . . . . . . . . . . . . . . . . . . . . . . 12

2. Przegląd wybranych testów psychologicznych . . . . . . . . . . . . . . . . . . 21 2. Przegląd wybranych testów psychologicznych . . . . . . . . . . . . . . . . . . 21

3. Co to jest pomiar psychologiczny? . . . . . . . . . . . . . . . . . . . . . . . . 54 3. Co to jest pomiar psychologiczny? . . . . . . . . . . . . . . . . . . . . . . . . 54

4. Klasyczna teoria rzetelności testów . . . . . . . . . . . . . . . . . . . . . . . . 65 4. Klasyczna teoria rzetelności testów . . . . . . . . . . . . . . . . . . . . . . . . 65

Plik zabezpieczony watermarkiem jawnym i niejawnym: 20836253A3235653

4.7. Standardowy błąd pomiaru . . . . . . . . . . . . . . . . . . . . . . . . . . 80 4.7. Standardowy błąd pomiaru . . . . . . . . . . . . . . . . . . . . . . . . . . 80

Adam Tarnowski, Krzysztof Fronczyk Adam Tarnowski, Krzysztof Fronczyk

Plik zabezpieczony watermarkiem jawnym i niejawnym: 20836253A3235653

Andrzej Rynkiewicz Andrzej Rynkiewicz

Plik zabezpieczony watermarkiem jawnym i niejawnym: 20836253A3235653

6.2.4.3. Skala tenowa . . . . . . . . . . . . . . . . . . . . . . . . 217 6.2.4.3. Skala tenowa . . . . . . . . . . . . . . . . . . . . . . . . 217

7. Etyka badań testowych . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 230 7. Etyka badań testowych . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 230

Literatura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 244 Literatura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 244

Indeks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 248 Indeks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 248

Plik zabezpieczony watermarkiem jawnym i niejawnym: 20836253A3235653

Plik zabezpieczony watermarkiem jawnym i niejawnym: 20836253A3235653

Plik zabezpieczony watermarkiem jawnym i niejawnym: 20836253A3235653

Plik zabezpieczony watermarkiem jawnym i niejawnym: 20836253A3235653

Ewa Witkowska Ewa Witkowska

1.1. Pojęcie testu psychologicznego 1.1. Pojęcie testu psychologicznego

Plik zabezpieczony watermarkiem jawnym i niejawnym: 20836253A3235653

Plik zabezpieczony watermarkiem jawnym i niejawnym: 20836253A3235653

1.1.1. Rzetelność pomiaru testem 1.1.1. Rzetelność pomiaru testem

1.1.2. Trafność pomiaru testem 1.1.2. Trafność pomiaru testem

Plik zabezpieczony watermarkiem jawnym i niejawnym: 20836253A3235653

Plik zabezpieczony watermarkiem jawnym i niejawnym: 20836253A3235653

1.1.5. Obiektywność 1.1.5. Obiektywność

Plik zabezpieczony watermarkiem jawnym i niejawnym: 20836253A3235653

Plik zabezpieczony watermarkiem jawnym i niejawnym: 20836253A3235653

Plik zabezpieczony watermarkiem jawnym i niejawnym: 20836253A3235653

Plik zabezpieczony watermarkiem jawnym i niejawnym: 20836253A3235653

Pytania sprawdzające Pytania sprawdzające

Plik zabezpieczony watermarkiem jawnym i niejawnym: 20836253A3235653

Krzysztof Fronczyk Krzysztof Fronczyk

Plik zabezpieczony watermarkiem jawnym i niejawnym: 20836253A3235653

Plik zabezpieczony watermarkiem jawnym i niejawnym: 20836253A3235653

2.1. Testy cech intelektu 2.1. Testy cech intelektu

Plik zabezpieczony watermarkiem jawnym i niejawnym: 20836253A3235653

Plik zabezpieczony watermarkiem jawnym i niejawnym: 20836253A3235653

2.1.1. Skale rozwojowe 2.1.1. Skale rozwojowe

Plik zabezpieczony watermarkiem jawnym i niejawnym: 20836253A3235653

Plik zabezpieczony watermarkiem jawnym i niejawnym: 20836253A3235653

Plik zabezpieczony watermarkiem jawnym i niejawnym: 20836253A3235653

Plik zabezpieczony watermarkiem jawnym i niejawnym: 20836253A3235653

Plik zabezpieczony watermarkiem jawnym i niejawnym: 20836253A3235653

Plik zabezpieczony watermarkiem jawnym i niejawnym: 20836253A3235653

Plik zabezpieczony watermarkiem jawnym i niejawnym: 20836253A3235653

Plik zabezpieczony watermarkiem jawnym i niejawnym: 20836253A3235653