Statystyka Medyczna W Zarysie - A.petrie, C. Sabin

Medical Statistics
at a Glance
Aviva Petrie
Head of Biostatistics Unit and Senior Lecturer
Eastman Dental Institute
University College London
256 Grays Inn Road
London WC1X 8LD and
Honorary Lecturer in Medical Statistics
Medical Statistics Unit
London School of Hygiene and Tropical Medicine
Keppel Street
London WC1E7HT
Caroline Sabin
Prof essor of Medical Statistics and Epidemiology
Department of Primary Care and Population Sciences
Royal Free and University College Medical School
Rowland Hill Street
London NW3 2PF
Second edition
Aviva Petrie, Caroline Sabin
Statystyka
medyczna
w zarysie
Ttumaczenie prof. dr hab. J e r z y M o c z k o
© Copyright by Wydawnictwo Lekarskie PZWL, Warszawa 2006
Tłumaczone z Aviva Petrie, Caroline Sabin, Medical Statistics at a Glance, Second edition
© 2005 Aviva Petrie and Caroline Sabin
Published by Blackwell Publishing Ltd
Blackwell Publishing, Inc., 350 Main Street, Malden, Massachusetts 02148-5020, USA
Blackwell Publishing Ltd, 9600 Garsington Road, Oxford 0X4 2DQ, UK
Blackwell Publishing Asia Pty Ltd, 550 Swanston Street, Carlton, Victoria 3053, Australia
The right of the Authors of this Work has been asserted in accordance with the Copyright, Design and Patents Act 1988.
This edition is published by arrangement with Blackwell Publishing Ltd, Oxford. Translated by Wydawnictwo Lekarskie
PZWL from the original English language version.
Responsibility of the accuracy of the translation rests solely with the Wydawnictwo Lekarskie PZWL and is not the respon-
sibility of Blackwell Publishing Ltd.
Wszystkie prawa zastrzeżone.

Przedruk i reprodukcja w jakiejkolwiek postaci całości bądź części książki
bez pisemnej zgody wydawcy są zabronione.
Redaktor ds. publikacji medycznych: Anna Plewa

Redaktor merytoryczny: Anna Nowosielska-Tiuryn
Redaktor techniczny: Małgorzata Chmielewska
Korekta: Zespół
Projekt okładki i stron tytułowych: Magdalena Kaczmarczyk
ISBN 83-200-3312-8
Wydanie I
Wydawnictwo Lekarskie PZWL

00-251 Warszawa, ul. Miodowa 10
tel. +48(22) 695-40-33
Księgarnia wysyłkowa:
tel. +48(22) 695-44-80
infolinia: 0-801-142-080
www.pzwl.pl
e-maił: promocia@pzwl.pi
Skład i łamanie: Mater, Warszawa
Druk i oprawa: Drukarnia Narodowa S.A., Kraków
SPIS TREŚCI
Przedmowa tłumacza 6 24 Dane kategorialne: dwie proporcje 64

Wstęp 8 25 Dane kategorialne: więcej niż dwie kategorie . 66
Opracowywanie danych Regresja i korelacja

1 Rodzaje danych 10 26 Korelacja 69
2 Wprowadzanie danych 12 27 Teoria regresji liniowej . . . ., 72
3 Kontrola błędów i wartości odskakujące . . . 14 28 Przeprowadzanie analizy regresji liniowej . . 74
4 Graficzna prezentacja danych 16 29 Wielokrotna regresja liniowa 78
5 Opis danych: wartość przeciętna 18 30 Wyniki binarne i regresja logistyczna . . . . 81
6 Opis danych: rozproszenie 20 31 Częstości i regresja Poissona 84
7 Rozkłady teoretyczne: rozkład normalny . . . 22 32 Uogólnione modele liniowe 88
8 Rozkłady teoretyczne: inne rozkłady 24 33 Zmienne wyjaśniające w modelach
9 Transformacje 26 statystycznych 90
34 Zagadnienia związane z modelowaniem
Próbkowanie i estymacja statystycznym 93
10 Próbkowanie i rozkłady próbkowania 28
11 Przedziały ufności 30 Ważne zagadnienia
35 Sprawdzanie założeń 96
Planowanie badania 36 Wyznaczanie wielkości próby 98
12 Planowanie badania I 32 37 Prezentacja wyników 101
13 Planowanie badania II 34
14 Eksperymenty kliniczne 36 Zagadnienia dodatkowe
15 Badania kohortowe 39 38 Narzędzia diagnostyczne 104
16 Badania przypadek-kontrola 42 39 Szacowanie zgodności 107
40 Medycyna poparta dowodami 110
Testowanie hipotez 41 Metody dla danych klasteryzowanych . . . . 112
17 Testowanie hipotez 44 42 Metody regresji dla danych klasteryzowanych 115
18 Błędy w testowaniu hipotez 46 43 Przeglądy systematyczne i metaanaliza . . . . 118
44 Analiza przeżycia 121
Podstawowe techniki analizy danych 45 Metody Bayesowskie 124
Dane numeryczne
19 Dane numeryczne: pojedyncza grupa 48 Dodatki
20 Dane numeryczne: dwie grupy powiązane . . 51 A Tablice statystyczne 126
21 Dane numeryczne: dwie grupy niepowiązane . 54 B Nomogram Altmana do obliczeń wielkości
22 Dane numeryczne: więcej niż dwie grupy . . 57 próby 133
C Typowe wydruki komputerowe 134
Dane kategorialne D Słowniczek terminów statystycznych 146
23 Dane kategorialne: pojedyncza proporcja . . . 60 E Skorowidz 156
5
PRZEDMOWA TŁUMACZA
White lie, damned lie, statistics (Małe kłamstwo, wielkie kurs, który trzeba zaliczyć, by dostać się do wymarzonej kli
łgarstwo, statystyka) — te słowa przypisywane Markowi niki. Prawdziwa potrzeba użycia statystyki pojawia się na
Twainowi, w których opisał stopnie nieprawdy, chyba najle wyższych latach, np. przy pisaniu pierwszych prac w ra
piej oddają stosunek większości „normalnych ludzi" do sta mach studenckich towarzystw naukowych. Wtedy to po raz
tystyki. Uważa się ją za narzędzie do manipulowania dany pierwszy student staje przed problemem, jak sformułować
mi, pozwalające na pseudonaukowe udowadnianie swoich hipotezy badawcze, jak zebrać materiał do analizy, jak powi
racji. Wielu z nas, obserwując prognozy statystyczne prezen nien być on obszerny, co oznacza termin reprezentatywność,
towane w środkach masowego przekazu, stwierdza, że wie jakiego użyć testu statystycznego, jak zinterpretować wyni
lokrotnie nie zgadzają się one ze stanem faktycznym. Lubi ki itd. Powszechny dostęp do komputerów i zainstalowanych
my sytuacje jasne, niedwuznaczne, z których moglibyśmy w nich pakietów statystycznych znakomicie ułatwia sytu
wywnioskować, że „białe jest białe, a czarne — czarne". Ma ację, lecz niestety tylko pozornie. Pojawiają się prace „na
ło kto zdaje sobie sprawę z faktu, iż statystyka jest tak samo ukowe", w których niezdarne próby użycia statystyki gene
dobrym i precyzyjnym działem matematyki jak algebra, try rują wyłącznie szum informacyjny, a nie prawdziwą wiedzę.
gonometria czy rachunek różniczkowy i całkowy. Stanowi Podobna sytuacja przydarza się słuchaczom studium dokto
ona część rachunku prawdopodobieństwa i bez problemu ranckiego. Przygotowywana rozprawa doktorska wymaga
stosuje się ją w fizyce, chemii i naukach technicznych. Sto bowiem rygorystycznego podejścia metodycznego, z reguły
sowanie statystyki w ekonomii (np. prognozowanie kursów surowo ocenianego przez recenzentów pracy. Również próba
giełdowych, analizy ubezpieczeniowe) również nie budzi publikowania swoich wyników w czasopismach medycznych
większych zastrzeżeń. Nieco inaczej przedstawia się sytu często kończy się zwróceniem pracy w celu wykonania po
acja z zastosowaniem statystyki w naukach medycznych. prawek dotyczących użytych technik statystycznych. W tej
Dane medyczne charakteryzuje duży stopień zmienności sytuacji pozostaje jedynie zlecenie wykonania analiz staty
zarówno międzyosobniczej, jak i wewnątrzosobniczej. Do stykowi, albo też ambitna próba odkurzenia notatek z biosta
datkowym problemem jest uzyskanie próby o wystarczają tystyki i przegryzienia się przez trudny materiał.
cej liczebności (rzadkie jednostki chorobowe, kosztowne Na polskim rynku wydawniczym nie ma niestety dużego
procedury badawcze, zagadnienia etyczne w leczeniu inwa wyboru książek poświęconych tej tematyce. Z reguły są to
zyjnym) i z tego względu standardowe techniki statystyczne albo dość stare pozycje, nie uwzględniające najnowszych
często nie mogą być stosowane. Dlatego też w ramach staty dokonań w tej dziedzinie, albo przeładowane wiedzą teore
styki ogólnej wyodrębniła się osobna gałąź wiedzy, zwana tyczną. Dlatego też niezwykle istotna wydaje się inicjatywa
biostatystyką. U źródeł jej dynamicznego rozwoju leżą pra skorzystania z najlepszych wzorców dydaktycznych dostęp
ce Galtona, Pearsona i Fishera z pierwszej połowy XX wie nych w literaturze obcojęzycznej. Jedną z takich pozycji jest
ku, aczkolwiek wykorzystuje ona również teorie opracowa książka Avivy Petrie i Caroline Sabin, pt. Statystyka me
ne o wiele wcześniej przez Gaussa, Gosseta i Poissona. Nie dyczna w zarysie, wydana po raz pierwszy przez Blackwell
ma roku, by nie pojawiły się nowe techniki analizy danych Publishing w roku 2000 w ramach serii książek przezna
biomedycznych, istotnie wzbogacane przez rozwój technolo czonych dla lekarzy ...ata Glance. W ciągu pięciu lat książ
gii komputerowej. Bez użycia komputerów trudno wyobra ka ta doczekała się siedmiu (!) wznowień, a w 2005 roku zo
zić sobie użycie takich metod, jak bootstrapping, jackkni- stała wydana w przeredagowanej i uzupełnionej wersji.
fing, metoda Monte Carlo. W Stanach Zjednoczonych jest polecana przy przygotowa
Próbę przedstawienia aktualnego stanu wiedzy z tej dzie niach do zdania egzaminu państwowego USMLE step 1.
dziny stanowi wydana w 2005 roku ośmiotomowa Encyclo- Jej niezwykła popularność bierze się stąd, że Autorkom
pedia of Biostatistics pod redakcją P. Armitage'a i T. Coltona udało się w znakomity sposób wyważyć ilość wiedzy teore
— ogromne dzieło o ponad sześciu tysiącach stron zapisa tycznej niezbędną do zrozumienia podstawowych pojęć sta
nych drobnym drukiem. Niestety wiedza ta ma charakter tystycznych i zastosowania praktyczne pojawiające się
hermetyczny i jest niemal całkowicie niedostępna dla prze w pracy lekarza. Opisane prostym, lecz precyzyjnym języ
ciętnego człowieka. Cóż bowiem ma zrobić lekarz, który stu kiem rzeczywiste problemy z różnych dziedzin medycyny
diując artykuły naukowe ze swojej dziedziny, napotka takie bardzo dobrze ilustrują sposób użycia rozmaitych technik
sformułowania jak przedział ufności, regresja logistyczna statystycznych przedstawionych w tekście. Autorki w roz
czy rozkład Poissona? Próba poszukiwania tych terminów sądny sposób podają wzory (tam, gdzie to rzeczywiście ko
w wydawnictwach encyklopedycznych lub fachowych z za nieczne) i całkowicie pomijają dowody potrzebne matematy
kresu statystyki z miejsca stawia go na przegranej pozycji kom, a nie lekarzom. Nie ogranicza to jednak w żaden
z uwagi na sformalizowany język i kompletnie niezrozumia sposób precyzji przekazywanej informacji. Autorki przy
łe dla niego wzory. wiązują dużą wagę do intuicyjnego zrozumienia zasad leżą
Na całym świecie w szkolnictwie medycznym wykładane cych u podstaw stosowania rozmaitych technik statystycz
są metody biostatystyki. Niestety, z reguły przedmiot ten zo nych, nie wdając się niepotrzebnie w ich uzasadnianie.
staje umiejscowiony na początkowych latach studiów w ra Na książkę tę zwróciłem uwagę już w roku 2000 po jej
mach tzw. przedmiotów podstawowych. Powoduje to najczę pierwszym wydaniu, prowadząc zajęcia z biostatystyki dla
ściej, że student traktuje go jako jeszcze jeden niepotrzebny studentów anglojęzycznych w Akademii Medycznej im. Ka-
6
rola Marcinkowskiego w Poznaniu. Kolejne roczniki studen nikom studentów wydziałów lekarskich i stomatologicznych,
tów potwierdzają jej niezwykłą przydatność przy przygoto jak i słuchaczom studiów doktoranckich na akademiach me
waniu zarówno do testów w okresie studiów, jak i egzami dycznych. Jako niezwykle przydatną znajdą ją również stu
nu USMLE step 1. Ucieszyła mnie zatem propozycja denci wydziałów fizyki uniwersytetów i politechnik tam,
Wydawnictwa Lekarskiego PZWL przetłumaczenia tej książ gdzie otwarte zostały kierunki fizyki medycznej. Może ona
ki na język polski i udostępnienia tej cennej pozycji polskie stanowić również znakomity materiał dydaktyczny dla pro
mu odbiorcy. Jak każdy tłumacz, zdaję sobie sprawę z fak wadzących wykłady i ćwiczenia z biostatystyki na wspo
tu, iż tłumaczenie jest jak kobieta — „wierna nie jest mnianych kierunkach studiów. Może też stanowić nieocenio
piękna, a piękna nie jest wierna". Problem stanowią nie tyl ne źródło fachowych informacji dla każdego lekarza,
ko nieprzetłumaczalne na język polski (ale w pełni zrozu zarówno naukowca pracującego w akademickich klinikach,
miale dla naukowców) słowa, takie jak bootstrapping, jack- jak i lekarza praktyka pragnącego poprzez samokształcenie
knifing, ale i specyfika językowa uniemożliwiająca krótkie, poszerzać i doskonalić swoje umiejętności. W sprawdzeniu
jednoznaczne odwzorowanie tekstu. Na przykład, zwięzły zdobytej wiedzy z zakresu biostatystyki może pomóc test za
angielski termin virological Jailure po konsultacji z wiruso mieszczony na stronie internetowej www.medstatsaag.com
logami rozrósł się do „braku efektu terapeutycznego po le (niestety nie został jeszcze spolszczony). Mam nadzieję, że
czeniu przeciwwirusowym". Dziękuję serdecznie Kolegom książka ta zdobędzie podobną popularność u polskiego Czy
lekarzom za poświęcenie mi czasu na skonsultowanie termi telnika, jak w krajach zachodnich, i dostarczy mu dużo war
nologii medycznej i będę wdzięczny za wszystkie uwagi, tościowych i przystępnie podanych informacji.
które mogłyby udoskonalić prezentowaną pracę.
Książka Avivy Petrie i Caroline Sabin, pt. Statystyka Jerzy A. Moczko
medyczna w zarysie jest polecana zarówno kolejnym rocz
WSTĘP
Książka Statystyka medyczna w zarysie jest skierowana bardziej dostępne i efektywne, niż było w przeszłości. Zmo
do studentów akademii medycznych, badaczy medycznych, dyfikowałyśmy rozdział o wynikach binarnych i regresji lo
słuchaczy studiów podyplomowych w zakresie dyscyplin gistycznej (rozdział 30), włączając nowy rozdział o często
biomedycznych oraz personelu przemysłu farmaceutyczne ściach i regresji Poissona (rozdział 31) oraz znacząco
go. Oni wszyscy na pewnym etapie życia zawodowego rozwinęłyśmy pierwotny rozdział „Modelowanie statystycz
zetkną się z wynikami ilościowymi (własnymi lub innych ba ne", tak że składa się on teraz z trzech rozdziałów: „Uogól
daczy), które będą wymagały krytycznej analizy i interpre nione modele liniowe" (rozdział 32), „Zmienne wyjaśniające
tacji. A niektórzy będą oczywiście musieli zdać ten straszli w modelach statystycznych" (rozdział 33) oraz „Zagadnienia
wy egzamin ze statystyki! Z tego powodu nieocenione jest związane z modelowaniem statystycznym" (rozdział 34).
właściwe zrozumienie statystycznych koncepcji i metodolo Zmodyfikowałyśmy również rozdział 41, który opisuje róż
gii. W równym stopniu chciałybyśmy rozbudzić entuzjazm ne podejścia do analizy danych sklasteryzowanych, i doda
Czytelnika dla statystyki co dostarczyć mu praktycznej wie łyśmy rozdział 42, o różnych metodach regresyjnych, które
dzy. W tym nowym wydaniu, podobnie jak to było w wyda mogą być użyte do analizy tego typu danych, W wydaniu
niu poprzednim, naszym celem jest zapewnienie studentowi pierwszym zamieszczono krótki opis analizy szeregów cza
i badaczowi, jak również klinicyście napotykającemu w lite sowych, z czego zdecydowałyśmy się zrezygnować w dru
raturze medycznej koncepcje statystyczne, książki, która gim wydaniu, jako że wydawał się zbyt skrótowy, aby być
jest solidna, łatwa w czytaniu, wszechstronna, związana praktycznie użytecznym, a jego rozwinięcie wymagałoby
z tematem i użyteczna w praktycznym zastosowaniu. wyjścia poza przyjęte granice trudności. Z powodu usunię
Wierzymy, że książka Statystyka medyczna w zarysie cia, jak i dodania pewnych rozdziałów, numeracja rozdzia
będzie szczególnie użyteczna jako pomoc dla wykładowców łów w wydaniu drugim różni się od tej z poprzedniego wy
statystyki, również jako źródło odnośników. Struktura wy dania, począwszy od rozdziału 30. Większość rozdziałów
dania drugiego pozostaje taka sama jak wydania pierwsze w dalszej części książki, które były również w wydaniu
go. Tak jak inne książki z serii ...w zarysie składa się z od pierwszym, jeżeli w ogóle, to zmieniła się nieznacznie,
rębnych, dwu-, trzy- lub rzadko czterostronicowych Opisowi każdej techniki statystycznej towarzyszy przy
rozdziałów, z których każdy omawia inny aspekt statystyki kład jej użycia. Ogólnie, dane do tych przykładów wzięłyśmy
medycznej. Z naszych własnych doświadczeń dydaktycz ze wspólnych badań, w których uczestniczyłyśmy my lub na
nych znałyśmy trudności, jakie napotykali nasi studenci si koledzy; w niektórych przypadkach zaczerpnęłyśmy rze
podczas zgłębiania statystyki medycznej, i starałyśmy się czywiste dane z wydanych publikacji. Tam, gdzie było to
wziąć je tu pod uwagę. Z tego względu zdecydowałyśmy się możliwe, użyłyśmy tych samych danych w więcej niż jednym
ograniczyć teoretyczną zawartość książki do poziomu wy rozdziale, aby odzwierciedlić rzeczywistość analizy danych,
starczającego do zrozumienia użytych procedur, lecz który która rzadko jest ograniczona do jednej techniki lub podej
nie zaciemnia jeszcze ich praktycznych zastosowań. ścia. Chociaż uważamy, że należy podawać wzory i wyja
Statystyka medyczna jest obszernym przedmiotem obej śniać logikę postępowania, starałyśmy się unikać szczegółów
mującym wielką liczbę zagadnień. W książce podajemy pod złożonych obliczeń — większość Czytelników ma dostęp
stawowe koncepcje statystyki medycznej i przewodnik do komputerów i jest mato prawdopodobne, że będą Oni do
po najczęściej stosowanych procedurach statystycznych. konywali ręcznie obliczeń, może poza tymi najprostszymi.
Epidemiologia jest ściśle powiązana ze statystyką medycz Uznałyśmy, że rzeczą niezwykle ważną dla Czytelnika
ną, omawiamy więc podstawowe zagadnienia tej dziedziny, jest umiejętność interpretacji wyników z pakietu kompute
związane z planowaniem i interpretacją badania. Załączamy rowego. Dlatego tam, gdzie to możliwe, dla zobrazowania
również rozdziały, którymi Czytelnik zainteresuje się jedy wyników wybrałyśmy wydruki komputerowe. W pewnych
nie okazjonalnie, lecz które mimo wszystko są fundamental sytuacjach, gdy podejrzewałyśmy trudności interpretacyj
ne dla wielu obszarów badań medycznych; na przykład me ne, załączyłyśmy (Dodatek C) kompletne wydruki kompute
dycyna oparta na dowodach, przeglądy systematyczne rowe z analizy danych i opatrzyłyśmy je adnotacjami. W po
i metaanaliza, analiza przeżycia i metody bayesowskie. Tłu wszechnym użyciu istnieje wiele pakietów statystycznych;
maczymy zasady leżące u podstaw tych zagadnień tak, by chcąc dać Czytelnikowi wskazówkę, jak może się zmieniać
Czytelnik był w stanie zrozumieć i zinterpretować ich wyni postać wyników, nie ograniczyłyśmy się do wydruku z ja
ki, jeżeli takowe zostaną zamieszczone w literaturze. kiegoś szczególnego pakietu, lecz użyłyśmy trzech dobrze
Porządek pierwszych 30 rozdziałów tego wydania odpo znanych - SAS, SPSS oraz Stata.
wiada wydaniu pierwszemu. Większość tych rozdziałów po W całym tekście jest wiele odwołań mających Czytelniko
została nie zmieniona w nowym wydaniu. Niektóre zawierają wi ułatwić dotarcie do różnych procedur. Podstawowy ze
stosunkowo małe zmiany, uwzględniające ostatnie zdobycze, staw tablic statystycznych jest zawarty w Dodatku A. Książ
oraz odwołania, zmiany wynikają również z reorganizacji ki Neave H. R.: Elementary Statistical Tables, Routledge
materiału. Większe dodatki odnoszą się do stosunkowo zło 1981, i Diem K.: Documenta Geigy Scientific Tables, 7. wyd.,
żonych form analizy regresji, które obecnie są używane sze Blackwell Publishing, Oxford 1970, obok wielu innych, za
rzej niż wtedy, gdy przygotowywałyśmy pierwsze wydanie, wierają wersje pełniejsze, których Czytelnik potrzebuje
częściowo dlatego, że związane z tym oprogramowanie jest przy bardziej precyzyjnych obliczeniach przeprowadzanych
8
bez użycia komputera. Słowniczek terminów (Dodatek D) po Armitage R, Berry G., Matthews J. F. N.: Statistkal Methods
daje przystępne wyjaśnienia większości użytej terminologii. in Medical Research. Blackwell Science, Oxford 2001.
Wiemy, że największą trudnością, jaką napotyka niesta- Pocock S. J.: Clinical Trials: A Practical Approach. Wiley,
tystyk, jest dobór odpowiedniej techniki. Dlatego przygoto Chichester 1983.
wałyśmy dwa schematy blokowe, których można użyć za
równo w celu podjęcia decyzji co do odpowiedniej metody Jesteśmy niezmiernie wdzięczne Markowi GilthorpeWi
w danej sytuacji, jak i w celu znalezienia jej w prezentowa i Jonathanowi Sterne'owi, którzy opracowali nieocenione
nej książce. Oba schematy blokowe zamieszczono przezor komentarze i sugestie do drugiego wydania, oraz Richardo
nie na wewnętrznej stronie okładek, aby zapewnić do nich wi Morrisowi, Fionie Lampe, Shak Hajat i Abulowi Basaro-
łatwy dostęp. wi za ich uwagi na temat pierwszego wydania. Chcemy
Jako narzędzie pomocne w ocenie własnych postępów podziękować każdemu, kto pomógł nam zdobyć dane do
Czytelnik znajdzie interaktywne ćwiczenia zamieszczone przykładów. Oczywiście, bierzemy pełną odpowiedzialność
na naszej stronie internetowej (www.medstatsaag.com). za jakiekolwiek błędy, które pozostały w tekście lub przy
Strona ta zawiera również pełny zestaw cytowań (niektóre kładach. Chcemy również podziękować Mikowi, Geraldowi,
z nich prowadzą bezpośrednio do Medline) uzupełniających Ninie, Andrew i Karen, którzy ze stoickim spokojem znosili
odnośniki zawarte w tekście i pozwalających odnaleźć nasze przygotowania do wydania pierwszego i żyli z nami
bazowe informacje dotyczące przykładów. Czytelnikom, któ podczas trudnych prób opracowania wydania drugiego.
rzy chcieliby dokładniej zgłębić poszczególne dziedziny sta
tystyki medycznej, możemy polecić następujące książki: Aviva Petrie
Caroline Sabin
Altman D. G.: Practical Statistics for Medical Research. Londyn
Chapman and Hall, Londyn 1991.
1 RODZAJE DANYCH
małżeństwo jest lepsze (lub gorsze) od pozostawania w sta

DANE I STATYSTYKI nie bezżennym.
Celem większości prowadzonych prac badawczych jest ze • Dane porządkowe — kategorie są w pewien sposób
branie danych na temat określonego obszaru badań. Dane uporządkowane. Jako przykład można podać stan zaawan
Obejmują obserwacje jednej lub wielu zmiennych. Każda sowania choroby (zaawansowany, umiarkowany, łagodny,
wielkość podlegająca zmianom nosi nazwę zmiennej. brak choroby) lub natężenie bólu (ciężki, umiarkowany, ła
Na przykład możemy zbierać podstawowe informacje kli godny, brak bólu).
niczne i demograficzne o pacjentach z określonym schorze Zmienna kategorialna jest binarna lub dychotomiczna,
niem, Interesujące nas zmienne mogą obejmować płeć, wiek jeżeli może przyjmować jedynie dwie kategorie. Przykłada
i wzrost pacjentów. mi mogą być odpowiedzi „tak/nie", „zmarł/żyje", „pacjent
Dane uzyskuje się zazwyczaj z próby, która reprezentu jest chory/pacjent jest zdrowy".
je interesującą nas populację. Naszym celem jest znaczące
skondensowanie danych i wydobycie z nich użytecznej in
formacji. Statystyka obejmuje metody zbierania, podsumo DANE NUMERYCZNE (ILOŚCIOWE)
wywania, analizy i wyciągania wniosków z danych: w tym Ten typ danych pojawia się w chwili, gdy zmienne przyjmu
celu stosujemy techniki statystyczne. ją wartości numeryczne. Dane numeryczne możemy podzie
Dane mogą przyjmować rozmaite formy. Przed podję lić na dwa typy.
ciem decyzji co do wyboru najbardziej odpowiedniej meto • Dane dyskretne — występują, gdy zmienne mogą
dy statystycznej musimy wiedzieć, z jakim typem danych przybierać jedynie wartości całkowite. Przykładem mogą
mamy do czynienia. Każda zmienna i odpowiadająca jej da być liczby zdarzeń, takie jak liczba wizyt u lekarza rodzin
na może być albo kategorialna, albo numeryczna (ryci nego w ciągu roku lub liczba epizodów chorobowych w cią
na 1.1). gu ostatnich pięciu lat.
• Dane ciągłe — występują, gdy nie ma innych ograni
czeń wartości, jakie może przyjmować zmienna, niż te, któ
DANE KATEGORIALNE (JAKOŚCIOWE)
re ograniczają nas w trakcie wykonywania pomiaru, np.
Ten typ danych pojawia się, gdy każda jednostka może na masa ciała lub wzrost.
leżeć wyłącznie do jednej z pewnej liczby oddzielnych kate
gorii danej zmiennej.
• Dane nominalne — kategorie nie są uporządkowane,
ROZRÓŻNIANIE TYPÓW DANYCH
lecz mają po prostu nadane nazwy. Przykładami mogą być Często wykorzystujemy różne metody statystyczne w zależ
grupy krwi (A, B, AB i 0) lub stan cywilny (żonaty/wdo ności od tego, czy dane są kategorialne, czy też numerycz
wiec/kawaler itp). W ostatnim przypadku nie zakładamy, że ne. Chociaż rozróżnienie między danymi kategorialnymi
a numerycznymi jest zazwyczaj proste, w pewnych sytu
acjach może się okazać niejasne. Na przykład, gdy mamy
do czynienia ze zmienną o dużej liczbie uporządkowanych
kategorii (np. skala stopnia bólu z siedmioma kategoriami)
może być trudno ją odróżnić od dyskretnej zmiennej nume
rycznej. Rozróżnienie między dyskretnymi i ciągłymi dany
mi numerycznymi może być jeszcze mniej oczywiste, choć
w ogólności ma ono znikomy wpływ na wyniki większości
analiz. Przykładem zmiennej traktowanej często jako dys
kretna jest wiek (choć tak naprawdę jest to zmienna ciągła).
Zazwyczaj odnosimy się do „wieku w dniu ostatniej roczni
cy urodzin", a nie do „wieku jako takiego", i dlatego kobie
ta, która podaje, że ma 30 lat, mogła właśnie obchodzić swo
je 30. urodziny lub właśnie zbliżać się do 31. rocznicy
urodzin.
Nie należy na początku zapisywać danych numerycznych
jako kategorialnych (np. poprzez zapisywanie grupy wieko
wej, do której należy pacjent zamiast jego/jej aktualnego
wieku), ponieważ gubi się w ten sposób ważną informację.
Łatwo można dokonać konwersji zebranych danych nume
rycznych do danych kategorialnych.
Rycina 1.1. Diagram przedstawiający różne typy zmiennych.
10 Opracowywanie danych
Wszystkie wymienione powyżej zmienne w większości
DANE POCHODNE
analiz mogą być traktowane jako zmienne numeryczne. Tam,
W badaniach medycznych możemy też napotkać inne rodza gdzie zmienną uzyskuje się z więcej niż jednej wartości (np.
je danych. Obejmują one: licznik i mianownik w procentach), jest rzeczą istotną zapisa
• Procenty — mogą pojawić się, gdy oceniamy poprawę nie wszystkich tych wartości. Na przykład, 10% poprawa
stanu zdrowia u pacjentów podlegających leczeniu, np. para wskaźnika oceny leczenia może mieć rozmaite znaczenie kli
metr funkcji oddechowej pacjenta (wymuszona objętość wyde niczne w zależności od wartości tego wskaźnika przed lecze
chowa w 1 sekundzie, FEV1) może wzrosnąć o 24% w następ niem.
stwie leczenia nowym lekiem. W tym przypadku interesuje
nas raczej stopień poprawy, a nie wartość bezwzględna.
• Proporcje lub ilorazy — czasami możemy napotkać
DANE UCIĘTE
proporcje lub iloraz dwóch zmiennych. Na przykład wskaź Dane ucięte możemy napotkać w takich na przykład sytu
nik masy ciała (BMI), obliczany jako masa osobnika (kg) po acjach:
2
dzielona przez kwadrat jego/jej wzrostu (m ), jest często • Jeżeli mierzymy dane laboratoryjne, używając narzę
używany w celu oszacowania nadwagi lub niedowagi. dzia, które jest w stanie zarejestrować dane powyżej pew
• Częstości — częstości chorób. Liczba zachorowań nego poziomu, to żadne wartości pomiarowe leżące poniżej
wśród obiektów badania jest dzielona przez całkowitą licz tego poziomu nie zostają zidentyfikowane. Na przykład, je
bę lat obserwacji wszystkich osobników w tym badaniu żeli mierzymy poziomy wirusa poniżej poziomu jego wykry
(rozdział 31). Dane takie są powszechnie stosowane w na walności, to wartości te opisujemy jako „nieoznaczalne",
ukach epidemiologicznych (rozdział 12). mimo że w próbce mogło być nieco wirusów.
• Punktacja — czasami, gdy nie możemy zmierzyć wiel • W badaniach, w których część pacjentów wypada
kości, stosujemy wartości arbitralne, np. punktację. Na przy z grupy badanej przed czasem zakończenia badania. Ten typ
kład, odpowiedzi na pytania dotyczące jakości życia mogą danych jest omówiony bardziej szczegółowo w rozdziale 44.
zostać zsumowane w celu uzyskania pewnej ogólnej wielko
ści charakteryzującej jakość życia każdego osobnika.
/. Rodzaje danych 11
2 WPROWADZANIE DANYCH
Przy wykonywaniu jakichkolwiek badań niemal zawsze przyporządkować kody 1, 2, 3 i 4 do kategorii: brak bólu,
wprowadza się dane do pakietu oprogramowania kompute ból slaby, ból umiarkowany i ból silny. Kody te mogą zostać
rowego. Komputery są nieocenione, jeśli chodzi o poprawę dodane do formularzy w trakcie zbierania danych. Dla da
dokładności i prędkości zbierania danych oraz ich analizy, nych binarnych, np. dla odpowiedzi tak/nie, często wygod
ułatwiają wyszukiwanie błędów, pozwalają tworzyć graficz nie jest przyporządkować kody 1 (np. dla „tak") oraz 0 (dla
ne podsumowania danych i generować nowe zmienne. War „nie").
to poświęcić nieco czasu na zaplanowanie wprowadzania • Zmienne kodowane pojedynczo — istnieje jedna moż
danych — może to zaoszczędzić wiele wysiłku w później liwa odpowiedź na to pytanie, np. czy pacjent zmarł. Nie
szych etapach. można udzielić na to pytanie jednocześnie odpowiedzi „tak"
i „nie".
• Zmienne kodowane wielokrotnie — dla każdego re
FORMATY WPROWADZANIA DANYCH spondenta możliwa jest więcej niż jedna odpowiedź.
Istnieje wiele sposobów wprowadzania i zapamiętywania Na przykład: jakie symptomy występują u tego pacjenta.
danych w komputerze. Większość pakietów statystycznych W tym przypadku osobnik może mieć dowolną liczbę symp
pozwala na bezpośrednie wprowadzenie danych. Jednakże tomów. Istnieją dwie metody kodowania tego typu danych
ograniczeniem takiego podejścia jest fakt, że niejednokrot w zależności od tego, która z sytuacji ma miejsce.
nie nie można przenieść tych danych do innego pakietu. Pro • Istnieje tylko kilka możliwych symptomów, a każdy
stą alternatywą jest zapamiętanie danych albo w arkuszu osobnik może mieć kilka z nich. Można stworzyć pew
kalkulacyjnym, albo w pakiecie baz danych. Niestety zakres ną liczbę zmiennych binarnych, które oznaczają, czy
dostępnych w nich procedur statystycznych jest najczęściej pacjent odpowiedział tak lub nie na temat obecności każ
mocno ograniczony i dla przeprowadzenia analiz trzeba dego możliwego symptomu. Na przykład: czy pacjent
zwykle przenieść dane do specjalistycznego pakietu staty kaszle?, czy pacjenta boli gardło?
stycznego. • Istnieje wielka liczba możliwych symptomów, lecz
Bardziej elastycznym sposobem rozwiązania problemu spodziewamy się, że każdy pacjent ma tylko kilka
jest umieszczenie danych w plikach ASCII lub plikach tek z nich. Można stworzyć pewną liczbę zmiennych nomi
stowych. Dane zapisane w formacie ASCII mogą być odczy nalnych; każda kolejna zmienna pozwala wtedy nazwać
tywane przez większość pakietów. Format ASCII składa się symptom występujący u pacjenta. Na przykład: jaki wy
po prostu z wierszy tekstu, który można oglądać na ekranie stąpił pierwszy symptom u pacjenta?, jaki był drugi
komputera. Zazwyczaj każda zmienna w pliku jest oddzielo symptom? Z góry trzeba tu zadecydować o maksymalnej
na od następnej pewnym ogranicznikiem, najczęściej spa liczbie symptomów, jakie mogą wystąpić u pacjenta.
cją lub przecinkiem. Jest to tzw. format swobodny.
Najprostszym sposobem wprowadzenia danych w forma
cie ASCII jest użycie edytora tekstowego lub pakietu edycyj
DANE NUMERYCZNE
nego. W formacie tym można też zapisać dane złożone w ar Dane numeryczne należy wprowadzać z taką samą dokład
kuszach kalkulacyjnych. Przy obu sposobach każdy wiersz nością, z jaką zostały one zmierzone, a jednostka pomiaru
danych odpowiada zazwyczaj innemu obiektowi badania, powinna być jednakowa dla wszystkich obserwacji w obrę
a każda kolumna odpowiada innej zmiennej, chociaż czasa bie zmiennej. Na przykład, masa powinna być wyrażona
mi stosowane są wiersze kontynuacyjne — gdy dla każdego w kilogramach lub funtach, lecz nigdy w obu jednostkach
obiektu zbierana jest duża liczba zmiennych. na zmianę.
PLANOWANIE WPROWADZANIA DANYCH KILKA FORMULARZY DLA PACJENTA

Podczas zbierania danych w trakcie badania często będziesz Czasami informacje zbiera się od tego samego pacjenta
potrzebował do ich zapisania formularza lub kwestionariusza. przy więcej niż jednej okazji. Ważne jest wtedy zapewnie
Staranne zaprojektowanie formularza pozwoli na zmniejsze nie tego samego, unikalnego identyfikatora (np. numeru se
nie nakładu pracy przy wprowadzaniu danych. Ogólnie, for ryjnego) powiązanego z osobnikiem — umożliwia on połącze
mularze/kwestionariusze zawierają serię kratek, w których nie wszystkich danych uzyskanych w badaniu na temat tego
zapisuje się dane — z reguły każda możliwa cyfra w odpowie osobnika.
dzi musi mieć osobną kratkę.
PROBLEMY Z DATAMI I CZASEM

DANE KATEGORIALNE Daty i czas powinny być wprowadzane w sposób jednolity,
Niektóre pakiety statystyczne mają problemy z obsługą da np. albo jako dzień/miesiąc/rok, albo miesiąc/dzień/rok,
nych nienumerycznych. Dlatego przed wprowadzeniem da ale nigdy wymiennie. Ważną sprawą jest znalezienie forma
nych do komputera trzeba czasem przyporządkować kody tu, jaki może być odczytywany przez pakiet statystyczny.
numeryczne do danych kategorialnych. Na przykład, można
własnego kodu dla wartości brakującej (najczęściej stosowa
KODOWANIE BRAKUJĄCYCH WARTOŚCI
ne wartości to 9,999 lub -99). Wybrana wartość musi być ta
Przed rozpoczęciem wprowadzania danych należy rozważyć, ką wartością, która nie może zaistnieć w tej zmiennej.
co chce się zrobić z danymi brakującymi. W większości przy Na przykład, przy wprowadzaniu zmiennej kategorialnej za
padków do reprezentowania brakujących danych trzeba użyć wierającej cztery kategorie (kodowane jako 1, 2,3 i 4) dla re
specjalnego symbolu. Pakiety statystyczne obsługują braki prezentowania wartości brakujących można wybrać kod 9.
danych w rozmaity sposób. Niektóre z nich używają znaków Jednakże, jeżeli zmienną jest wiek dziecka, należy wybrać
specjalnych (np. kropka lub gwiazdka) do wskazania braku inny kod. Zmienne brakujące zostaną dokładniej omówione
jących danych, podczas gdy inne wymagają zdefiniowania w rozdziale 3.
PRZYKŁAD
Rycina 2.1. Fragment arkusza kalkulacyjnego pokazujący dane zebrane w próbie 64 kobiet z wrodzonymi zaburzeniami krzepnięcia.
Dane zebrano w próbie 64 kobiet zarejestrowanych Schematy kodowania dla zmiennych kategorialnych
w centrum hemofilii w Londynie jako część badania znajdują się w dolnej części ryciny 2.1. Każdy wiersz ar
nad wpływem wrodzonych zaburzeń krzepnięcia na cią kusza reprezentuje kolejny obiekt badania; każda kolum
żę i poród. Kobietom zadawano pytania związane z ich na przedstawia inną zmienną. Jeżeli kobieta jest nadal
problemami krzepnięcia oraz pierwszą ciążą (lub ich w ciąży, jej wiek w chwili porodu został przeliczony
obecną ciążą, jeżeli w trakcie przeprowadzanego wywia na podstawie oszacowanej daty narodzin dziecka. Dane
du były po raz pierwszy w ciąży). Ryc. 2.1 zawiera nie związane z żywymi urodzeniami przedstawiono w roz
wielką część danych po ich wprowadzeniu do arkusza dziale 37.
kalkulacyjnego, lecz przed dokonaniem poprawek.
Dane uzyskane dzięki uprzejmości: dr. R. A. Kadira z University Department of Obstetrics and Gynaecology oraz profesora C. A. Lee
z Haemophilia Centrę and Haemostasis Unit, Royal Free Hospital, w Londynie.
2. Wprowadzanie danych 13
3 KONTROLA BŁĘDÓW I
W każdym badaniu zawsze istnieje możliwość pojawienia popełniony błąd. Nie należy zmieniać wartości tylko dlatego,
się błędów w zbiorze danych albo w fazie początkowej pod że wyglądają nietypowo.
czas dokonywania pomiarów, albo podczas ich zbierania,
przepisywania czy wprowadzania do komputera. Jednakże
liczbę błędów powstających przy wprowadzaniu i przepisy
OPRACOWYWANIE DANYCH BRAKUJĄCYCH
waniu można zredukować poprzez uważne sprawdzanie da Zawsze istnieje możliwość wystąpienia braku niektórych da
nych po ich wprowadzeniu. Proste wzrokowe przejrzenie nych. Jeżeli brakuje dużej części danych, to mało prawdopo
danych często pozwala wychwycić wartości, które są w spo dobne jest uzyskanie wiarygodnych rezultatów. Należy za
sób oczywisty błędne. W tym rozdziale sugerujemy pewne wsze zbadać przyczynę pojawiania się braków danych
techniki, których można używać przy sprawdzaniu danych. — jeżeli braki danych mają tendencję do skupiania się
w pewnej zmiennej i/lub w określonej podgrupie obiektów,
może to oznaczać, że zmienna nie jest stosowalna lub nigdy
BŁĘDY PRZY WPROWADZANIU nie została pomierzona dla tej grupy osób badanych. Jeżeli
Najczęstszym źródłem błędów przy wprowadzaniu danych to jest rzeczywistą przyczyną, może okazać się konieczne
jest tzw. palcówka. Przy małej liczbie danych można je porów wykluczenie tej zmiennej lub grupy obiektów z analizy.
nać z danymi na oryginalnych formularzach/kwestionariu Szczególne problemy możemy napotkać, kiedy szansa wystą
szach, aby sprawdzić, czy nie popełniono omyłki przy wprowa pienia zmiennych brakujących jest silnie związana z najbar
dzaniu. Jednakże przy dużej liczbie danych procedura ta jest dziej interesującą nas w badaniu zmienną (np. zmienną wy
niezwykle czasochłonna. Można również dwukrotnie wprowa nikową w analizie regresji — rozdział 27). W tej sytuacji
dzić te same dane i porównać oba pliki programem kompute nasze wyniki mogą być silnie obciążone (rozdział 12). Załóż
rowym. Każda różnica między oboma zestawami danych my na przykład, że jesteśmy zainteresowani pomiarem, któ
wskazuje na błąd przy wprowadzaniu. Chociaż podejście to ry odzwierciedla stan zdrowia pacjentów i dla niektórych
nie wyklucza możliwości, że ten sam błąd pojawi się w obu ze pacjentów brakuje tej informacji, ponieważ nie czuli się wy
stawach, lub tego, że sama wartość na formularzu/kwestiona starczająco dobrze, by pojawić się na zaplanowanej wizycie
riuszu jest nieprawidłowa, to jednak minimalizuje liczbę błę w klinice: jeżeli nie weźmiemy pod uwagę brakujących da
dów. Wadą tej metody jest fakt, iż zabiera ona dwukrotnie nych w analizie, najprawdopodobniej otrzymamy zbyt opty
więcej czasu przy wprowadzaniu danych, co powoduje konse mistyczny obraz ogólnego stanu zdrowia pacjentów. Możliwe
kwencje finansowe i czasowe. jest zredukowanie tego obciążenia przez zastosowanie odpo
wiednich metod statystycznych1 lub przez oszacowanie jakąś
metodą brakujących danych2, jednakże najbardziej pożąda
KONTROLA BŁĘDÓW ną opcją jest minimalizacja od samego początku liczby bra
kujących danych.
• Dane kategorialne — Stosunkowo łatwo można spraw
dzić dane kategorialne, skoro każda zmienna może przyjmo
wać tylko jedną z ograniczonej liczby wartości. Dlatego też
wartość niedozwolona musi być błędem. WARTOŚCI ODSKAKUJĄCE
• Dane numeryczne — Dane numeryczne są często trud Czym są wartości odskakujące?
ne do sprawdzenia, a jednocześnie podatne na błędy. Wartości odskakujące są obserwacjami, które różnią się
Na przykład, podczas wprowadzania danych numerycznych od większości danych i są niezgodne z pozostałymi danymi.
łatwo jest przestawić cyfry lub pozycję przecinka dziesięt Wartości te mogą być prawdziwymi obserwacjami osób ba
nego. Dane numeryczne można sprawdzać przez badanie danych z bardzo ekstremalnymi poziomami zmiennej. Jed
zakresu — dolnej i górnej granicy określonej dla danej nakże mogą też być wynikiem błędów przy wprowadzaniu
zmiennej. Jeżeli wartość leży poza zakresem, to zostaje za lub błędnego doboru jednostek i dlatego należy sprawdzić
znaczona dla dalszego badania. wszelkie podejrzane wartości. Istotną rzeczą jest wykrycie,
• Daty — Często sprawdzenie poprawności daty jest trud czy w zbiorze danych mamy do czynienia z wartościami od
ne, chociaż czasami wiadomo, że powinna ona należeć do skakującymi, gdyż mogą one mieć znaczący wpływ na wy
pewnego okresu czasu. Daty można sprawdzać w celu upew niki niektórych typów analiz (rozdział 29).
nienia się, że są one prawidłowe. Na przykład, 30 lutego mu Na przykład, kobieta o wzroście 7 stóp (213,5 cm) będzie
si być błędem, tak jak każdy dzień miesiąca powyżej 31 lub stanowiła wartość odskakującą w większości zbiorów da
każdy miesiąc powyżej 12. Można również stosować pewne nych. Chociaż wartość ta jest istotnie bardzo duża w porów
reguły logiczne. Na przykład, data urodzin pacjenta powinna naniu z przeciętnym wzrostem kobiet, może być wartością
odpowiadać jego/jej wiekowi, a pacjenci powinni zwykle ro
dzić się przed włączeniem do badania (przynajmniej w więk 1
szości badań). Dodatkowo, pacjenci, którzy zmarli, nie powin Laird N. M.: Missing data in longitudinal studies. Statistics in
ni się pojawiać na kolejnych wizytach kontrolnych! Medicine, 1988, 7, 305-315.
2
Engels J. M., Diehr R: Imputation of missing longitudinal data:
Przy poprawianiu wszystkich błędów wartość powinna a comparison of methods. Journal of Clinical Epidemiology, 2003,
zostać zmieniona jedynie wtedy, gdy mamy dowód, że został 56, 968-976.
prawdziwą, a kobieta ta może być po prostu bardzo wysoka.
W tym przypadku, zanim podejmiesz decyzję o ważności wy Radzenie sobie z wartościami odskakującymi
niku, jeśli to możliwe, powinieneś dalej zbadać tę wielkość, Jest rzeczą istotną, aby nie usuwać osoby badanej z analizy
kontrolując inne zmienne, takie jak wiek i masa ciała. War tylko dlatego, że jego/jej wartości pomiarowe są wyższe lub
tość powinna zostać zmieniona jedynie wtedy, gdy istnieje niższe, niż można się tego spodziewać.
wyraźny dowód, że jest ona nieprawdziwa. Jednakże włączenie wartości odskakujących może mieć
wpływ na wyniki niektórych technik statystycznych. Pro
Badanie wartości odskakujących stym wyjściem z tej sytuacji jest wykonanie analizy naj
Najprostszą metodą jest wydrukowanie danych i ich wzro pierw przy uwzględnieniu, a potem przy wykluczeniu tych
kowa kontrola. Przydaje się ona, gdy liczba obserwacji nie wartości. Jeżeli wyniki są zbliżone, oznacza to, że wartości
jest za duża i gdy potencjalna wartość odskakująca jest odskakujące nie mają na nie wielkiego wpływu.
o wiele mniejsza lub o wiele większa od pozostałych danych. Jednakże jeżeli wyniki drastycznie się zmieniają, należy
Badanie rozstępu również powinno pozwolić zidentyfikować zastosować odpowiednie metody, które podczas analizy da
możliwe wartości odskakujące. Alternatywę stanowi wykre nych nie zostają zaburzane przez wartości odskakujące. Me
ślenie w jakiś sposób danych (rozdział 4) — wartości odska tody te obejmują użycie transformacji (rozdział 9) i testów
kujące można łatwo identyfikować na histogramach i wy nieparametrycznych (rozdział 17).
kresach rozrzutu (zobacz również dyskusję o wartościach
odskakujących w analizie regresji w rozdziale 29).
Rycina 3.1. Kontrola błędów w zestawie danych.
Fo wprowadzeniu danych (rozdział 2), plik z danymi spraw wieku ciążowego i masy ciała) też są najprawdopodobniej
dzany jesr w celu usunięcia błędów. Niektóre ze wskaza błędami, lecz przed powzięciem decyzji należy sprawdzić
nych niezgodności su prostymi błędami popełnionymi materiały źródłowe, jako że mogą one być prawdziwymi
przy wprowadzaniu. Na przykład, kod „41" w kolumnie wartościami odskakującymi. W naszym przykładzie wiek
„płeć dziecka" dla pacjentki 'dO. jest nieprawidłowy i wyni ciążowy u pacjentki 27. wynosił 41 tygodni; zadecydowa
ka z pominięcia informacji o pici: pozostała część danych no, że masa 11,19 kg była nieprawidłowa. Ponieważ nie
pacjentki 20. została wprowadzona do nieprawidłowych można było odnaleźć prawidłowej masy ciała tego dziecka,
kolumn. 1'nzosiate (up. nietypowe wartości w kolumnach wartość wprowadzono jako brakującą.
3. Kontrola błędów i wartości odskakujące ' 15

4 GRAFICZNA PREZENTACJA DANYCH
Jedną z pierwszych rzeczy, które przydają się po wprowa • Wykres słupkowy lub kolumnowy — dla każdej katego
dzeniu danych do komputera, jest jakaś forma ich podsumo rii rysujemy osobny pionowy lub poziomy słupek, którego dłu
wania, tak abyśmy mogli „wyczuć" te dane. Można to uczynić gość jest proporcjonalna do częstości występowania danych
za pomocą diagramów, tabel i statystyk podsumowujących w tej kategorii. Słupki oddzielamy małymi przerwami, aby
(rozdziały 5 i 6). Diagramy są często skutecznymi narzędzia wskazać, że dane są kategorialne lub dyskretne (rycina 41a).
mi do przedstawiania danych, tworzenia prostych, podsumo • Wykres kołowy — dzielimy kółko na sekcje, po jednej
wujących rycin oraz wykrywania wartości odskakujących dla każdej kategorii, tak by powierzchnia każdej sekcji była
i trendów, zanim zostaną przeprowadzone jakiekolwiek for proporcjonalna do częstości występowania danych w tej ka
malne analizy. tegorii (rycina 4.Ib).
Często trudniej jest przedstawić dane numeryczne cią
gle, gdyż najpierw muszą być one wstępnie opisane suma
JEDNA ZMIENNA rycznie. Najczęściej stosuje się następujące diagramy:
Rozkłady częstości • Histogram — jest podobny do wykresu słupkowego,
Empiryczny rozkład częstości zmiennej wiąże każdą moż ale ponieważ dane są ciągłe, pomiędzy słupkami nie powin
liwą obserwację, klasę obserwacji (tj. zakres wartości) lub no być przerw (rycina 4.Id). Szerokość każdego słupka jest
kategorię z obserwowaną częstością jej pojawiania się. Je uzależniona od zakresu wartości dla danej zmiennej.
żeli zastąpimy każdą częstość przez częstość względną Na przykład, masa ciała dziecka (rycina 4.Id) może być ska
(procent całkowitej częstości), możemy porównywać rozkła tegoryzowana w przedziałach: 1,75-1,99 kg, 2,00-2,24 kg,
dy częstości w dwóch lub więcej grupach osób badanych. ..., 4,25-4,49 kg. Powierzchnia słupka jest proporcjonalna
do częstości występowania danych w tym zakresie. Dlatego,
Prezentacja rozkładów częstości jeżeli jedna grupa pokrywa szerszy zakres wartości niż in
Jeżeli wyznaczyliśmy częstości (lub częstości względne) dla ne, jej podstawa będzie szersza, a wysokość mniejsza.
danych kategorialnych lub niektórych numerycznych dys Zwykle stosuje się od 5 do 20 grup: zakresy powinny być
kretnych, możemy je przedstawić graficznie. na tyle wąskie, by mogły zilustrować charakterystyczne
Rycina 4.1. Wybór graficznych metod, które mogą służyć do prezentacji danych położniczych dla kobiet z zaburzeniami krzepliwości (rozdział 2).
(a) Wykres słupkowy pokazujący procent kobiet w badaniu, które wymagały znieczulenia przy użyciu każdego z wymienionych zabiegów podczas
porodu; (b) Wykres kołowy ukazujący procent kobiet w badaniu z każdym typem zaburzeń krzepliwości; (c) Segmentowany wykres kolumnowy
pokazujący częstość występowania krwawienia z dziąseł u kobiet z różnego typu zaburzeniami krwawienia; (d) Histogram pokazujący masę uro-
dzeniową noworodka; (e) Wykres punktowy pokazujący wiek matki w chwili porodu, z medianą wieku zaznaczoną jako linia pozioma; (f) Wykres
rozrzutu ukazujący zależność między wiekiem matki w chwili porodu (na osi poziomej, osi xl i masą ciała noworodka (na osi pionowej, osi y).
3 1,0 0,4 odpowiedni percentyl, np. piąty i dziewięćdziesiąty piąty
(rozdział 6, rycina 6.1). Na wykresie tym można również za
665 1,1 39
znaczyć wartości odskakujące.
53 1,2 99
9751 1,3 1135677999 Kształt rozkładu częstości
955410 1,4 0148
Wybór najodpowiedniejszej metody statystycznej często za
leży od kształtu rozkładu. Rozkład danych jest najczęściej
987655 1,5 00338899
jednomodalny, przez co posiada jeden pik. Czasami rozkład
9531100 1,6 001355 jest bimodalny (dwa piki) lub równomierny (każda wartość
731 1,7 00114569 jest jednakowo prawdopodobna, na skutek czego nie wystę
puje żaden pik). W przypadku rozkładu jednomodalnego za
99843110 1,8 6
sadniczym celem jest wskazanie, gdzie leży większość da
654400 1,9 01 nych w stosunku do wartości maksymalnej i minimalnej.
6 2,0 W szczególności należy oszacować, czy rozkład jest:
7 2,1 19 • symetryczny — scentrowany wokół pewnego punktu
środkowego, z jedną stroną będącą lustrzanym odbiciem
10 2,2
drugiej strony (rycina 5.1);
dipropionian placebo • przekrzywiony w prawo (dodatnio skośny) — ma dłu
beklometazonu gi ogon złożony z jednej lub większej liczby wysokich war
tości. Takie dane są często spotykane w badaniach medycz
nych (rycina 5.2);
Rycina 4.2. Wykres typu „łodyga z liśćmi" ukazujący FEV1 (1) u dzie
• przekrzywiony w lewo (ujemnie skośny) — ma długi
ci inhalujących dipropionian beklometazonu lub placebo (rozdział 21).
ogon złożony z jednej lub większej liczby niskich wartości
(rycina 4.Id).
wzory w rozkładzie danych, lecz nie aż tak wąskie, by
przedstawiały indywidualne dane. Histogram powinien zo
DWIE ZMIENNE
stać opisany starannie, tak aby granice między kategoriami
byty wyraźnie zdefiniowane. Jeżeli jedna zmienna jest kategorialna, możemy narysować
• Wykres punktowy — każda obserwacja jest reprezen osobne diagramy pokazujące rozkłady drugiej zmiennej dla
towana przez jedną kropkę na poziomej (lub pionowej) linii każdej z kategorii. Inne wykresy odpowiednie dla takich da
(rycina 4.1e). Jest to bardzo prosty sposób przedstawiania nych to wykresy słupkowe, kolumnowe klasteryzowane lub
danych, lecz może być niewygodny przy dużych zbiorach. segmentowane (rycina 4.1c).
Często na diagramach pokazuje się miarę zbiorczą, taką jak Jeżeli obie zmienne są numeryczne lub porządkowe,
średnia czy mediana (rozdział 5). Taki typ wykresu może można przedstawić związek między nimi za pomocą wykre
być stosowany również dla danych dyskretnych. su rozrzutu (rycina 4. ID. Na diagramie dwuwymiarowym
• Wykres typu „łodyga z liśćmi" — jest to połączenie wykreśla się wartość jednej zmiennej w zależności od dru
diagramu i tablicy; przypomina histogram położony na boku giej. Jedna zmienna jest zwykle nazywana zmienną x i jest
i jest faktycznie zbiorem wartości danych zapisanych w kie przedstawiana na osi poziomej. Druga zmienna, nazywana
runku rosnącym. Zazwyczaj rysuje się pionową „łodygę", zmienną y, jest wykreślana na osi pionowej.
złożoną z pierwszych kilku cyfr mierzonych wartości, upo
rządkowanych w jakimś kierunku. Z „łodygi" wystają „li
IDENTYFIKACJA WARTOŚCI ODSKAKUJĄCYCH
ście" — tj. końcowe cyfry każdej uporządkowanej wielkości,
które zapisujemy w układzie poziomym (rycina 4.2) we METODAMI GRAFICZNYMI
wzrastającym porządku numerycznym. Często wartości skrajne możemy wykrywać przy użyciu pre
• Wykres skrzynkowy (zwany często „pudełkiem z wą zentacji danych jednej zmiennej. Na przykład, bardzo długi
sami") — jest to ustawiony pionowo lub poziomo prostokąt, ogon po jednej stronie histogramu może wskazywać na war
którego boki odpowiadają górnemu lub dolnemu kwartylowi tość odskakującą. Jednakże czasami wartości odskakujące
wartości pomiarowych (rozdział 6). Linia przeprowadzona stają się widoczne dopiero wtedy, gdy analizujemy związek
przez prostokąt oznacza medianę (rozdział 5). Wąsy rozpo pomiędzy dwoma zmiennymi. Na przykład, masa 55 kg nie
czynające się na bokach prostokąta zazwyczaj reprezentują będzie niespotykana u kobiety o wzroście 1,6 m, lecz będzie
wartości minimalną i maksymalną, lecz czasami oznaczają nieprawdopodobnie niska u kobiety o wzroście 1,9 m.
4. Graficzna prezentacja danych 17

5 OPIS DANYCH: WARTOŚĆ PRZECIĘTNA
PODSUMOWYWANIE DANYCH tością w uporządkowanym szeregu. Gdy n jest parzyste, wtedy

ściśle mówiąc, mediana nie istnieje. Jednakże wtedy obliczamy
Bardzo trudno jest mieć jakiekolwiek „wyczucie" co do zbio
ją zazwyczaj jako średnią arytmetyczną dwóch środkowych
ru pomiarów numerycznych, chyba że możemy je w jakiś
obserwacji w uporządkowanym szeregu danych [tj. n/2
znaczący sposób podsumować. Użytecznym punktem wyjścia
i (n/2 + 1)]. Tak więc, jeżeli na przykład n - 20, to mediana
jest często diagram (rozdział 4). Konstruując miary, które
jest średnią arytmetyczną z 20/2 = 1 0 oraz (20/2 + D =
opisują ważne charakterystyki danych, możemy również in
= (10 + 1) = 11 (dziesiątej i jedenastej wartości) w uporząd
formację skondensować. W szczególności, jeżeli mamy jakieś
kowanym szeregu danych.
spostrzeżenie na temat tego, co stanowi wartość reprezenta
Mediana jest zbliżona do średniej, jeżeli dane mają roz
tywną i jeżeli wiemy jak szeroko wokół niej są rozrzucone
kład symetryczny (rycina 5.1), jest mniejsza niż średnia,
wartości, możemy stworzyć pewien obraz danych. Wartość
gdy dane mają rozkład prawoskośny (rycina 5.2), natomiast
przeciętna jest ogólnym określeniem miary położenia; opi
większa niż średnia przy rozkładzie lewoskośnym.
suje ona typowy pomiar. Ten rozdział poświęcamy miarom
przeciętnym, z których najczęściej używa się średniej i me
diany (tabela 5.1). W rozdziale 6 wprowadzimy miary, które WARTOŚĆ MODALNA
opisują rozrzut lub rozproszenie obserwacji.
Wartość modalna jest wartością najczęściej pojawiającą się
w zbiorze danych; jeżeli dane są ciągłe, zazwyczaj je grupu
ŚREDNIA ARYTMETYCZNA jemy i obliczamy modalną dla grup. Niektóre zbiory danych
nie mają wartości modalnej, ponieważ każda wartość poja
Średnia arytmetyczna (często po prostu zwana średnią) wia się tylko raz. Czasami występuje więcej niż jedna war
zbioru wartości jest obliczana przez dodanie do siebie tość modaina; dzieje się tak wtedy, gdy dwie lub więcej
wszystkich wartości i podzielenie tej sumy przez liczbę war wartości pojawiają się taką samą liczbę razy, a częstość wy
tości w zbiorze. stępowania każdej z nich jest większa niż częstość wystę
Rzeczą przydatną jest streszczenie tego słownego opisu powania każdej innej wartości. Wartość modalna jest rzad
przez wzór algebraiczny. Stosując notację matematyczną, za ko stosowana jako miara podsumowująca.
pisujemy nasz zbiór n wartości zmiennej xjako xx, x2, x3,...,
xn. Na przykład, jeżeli x reprezentuje wzrost osobnika (cm),
to Xj przedstawia wzrost pierwszego osobnika, a xt —wzrost ŚREDNIA GEOMETRYCZNA
/tego osobnika itd. Możemy zapisać wzór na średnią arytme
Średnia arytmetyczna nie jest odpowiednią miarą położe
tyczną obserwacji, oznaczając ją symbolem x, w postaci:
nia, jeżeli dane są skośne. Jeżeli dane są prawoskośne,
możemy uczynić rozkład bardziej symetrycznym poprzez
zlogarytmowanie (z podstawą dziesiętną lub naturalną)
każdej wartości w szeregu danych (rozdział 9). Średnia
Stosując notację matematyczną, zapis możemy skrócić do: arytmetyczna wartości zlogarytmowanych jest miarą poło
żenia danych przetransformowanych. Aby otrzymać miarę,
która będzie miała takie same jednostki jak oryginalne ob
serwacje, musimy dokonać transformacji odwrotnej (tj.
gdzie Z (duża grecka litera sigma) oznacza sumę, nato wziąć antylogarytm) średniej z logarytmów danych; miarę
miast dolny oraz górny indeks przy Z wskazuje, że sumuje tę nazywamy średnią geometryczną. Przy założeniu, że
my wartości od i = 1 do n. Ta postać jest często dalej skra rozkład danych zlogarytmowanych jest w przybliżeniu sy
cana do formy: metryczny, średnia geometryczna jest zbliżona do media
ny i mniejsza niż wartość średnia z surowych danych (ry
cina 5.2).
ŚREDNIA WAŻONA
MEDIANA
Średniej ważonej używamy wtedy, gdy pewne wartości in
Jeżeli uporządkujemy dane w kierunku ich wzrostu, rozpo teresującej nas zmiennej są ważniejsze niż inne. W celu
czynając od najmniejszej wartości i kończąc na największej, uwidocznienia stopnia ważności dołączamy wagi w{ do każ
wtedy medianą będzie wartość środkowa uporządkowane dej wartości x; z naszej próbki. Jeżeli wartości
go szeregu. Mediana dzieli uporządkowany zbiór wartości xn mają odpowiadające wagi średnia wa
na dwie polowy, z równą liczbą wartości powyżej i poniżej żona jest określona jako:
mediany. Łatwo jest wyznaczyć medianę, gdy liczba obser
wacji n jest nieparzysta. Jest ona (n + D/2 obserwacją
w uporządkowanym szeregu. Tak więc, jeśli na przykład
n = 11, to mediana jest (11 + D/2 = 12/2 = 6 (szóstą) war
Tablica 5.1. Zalety i wady miar przeciętnych.
Miara
przeciętna Zalety Wady
Średnia • Można ją stosować • Zniekształcana przez
w przypadku wszystkich wartości odskakujące.
wartości. • Zniekształcana w przy
• Zdefiniowana algebra padku rozkładów sko
icznie, łatwa w algo- śnych.
rytmizacji.
• Znany rozkład próbko
wania (rozdział 9).
Mediana • Nie jest zniekształca * Pomija większość do
na przez wartości stępnych informacji.
odskakujące. • Nie zdefiniowana alge
• Nie zniekształcana braicznie.
przez dane skośne. • Skomplikowany rozkład
Wiek matki w chwili narodzin dziecka (w latach) próbkowania.
Modalna • Łatwo daje się wyzna • Pomija większość do
Rycina 5.1. Średnia, mediana i średnia geometryczna wieku kobiet czać dla danych kate- stępnych informacji.
w chwili narodzin dziecka, w badaniu opisanym w rozdziale 2. Ja gorialnych. • Nie zdefiniowana alge
ko że rozkład wartości oznaczających wiek wygląda na symetrycz braicznie.
ny, trzy miary „przeciętnej" dają podobne wyniki, jak wskazuje • Nieznany rozkład prób
przerywana linia. kowania.
Średnia • Przed transformacją • Daje się stosować jedy
geome- odwrotną ma takie nie w przypadku, gdy
tryczna same zalety jak średnia. transformacja logaryt
• Odpowiednia dla roz miczna wytwarza roz
kładów prawoskośnych. kład symetryczny.
Średnia • Takie same zalety jak • Wagi muszą być znane
ważona średnia. lub oszacowane.
• Przypisuje względną
wagę do każdej obser
wacji.
• Zdefiniowana algebra
icznie.
Poziom trójolicerydów (mmol/L)
Rycina 5.2. Średnia, mediana i średnia geometryczna poziomu trój-

glicerydów w próbie 232 mężczyzn, którzy przebyli zawał serca
'rozdział 19). Jako że rozkład wartości oznaczających poziom trój-
źhcerydów jest prawoskośny, średnia daje wyższe wartości prze
ciętne niż mediana lub średnia geometryczna.
Na przykład, przypuśćmy, że jesteśmy zainteresowani

wyznaczeniem średniego czasu pobytu pacjentów hospitali
zowanych w szpitalach w okręgu i znamy średni czas zwol
nienia pacjentów do domu w każdym szpitalu. Jedną z moż
liwości będzie uwzględnienie jako wagi liczby pacjentów
w każdym ze szpitali.
Średnia ważona i średnia arytmetyczna są identyczne,
gdy każda waga jest równa jedności.
5. Opis danych: wartość przeciętna 19

6 OPIS DANYCH: ROZPROSZENIE
Posługiwanie się percentylami

PODSUMOWYWANIE DANYCH
Miarę rozproszenia niezaburzaną przez wartości skrajne
Jeżeli jesteśmy w stanie wyznaczyć dwie miary podsumo możemy uzyskać, wykluczając wartości ekstremalne
wujące dla zmiennej ciągłej — jedną, która wskazuje war w zbiorze danych i wyznaczając rozstęp dla pozostałych ob
tość przeciętną i drugą opisującą rozproszenie danych — serwacji. Rozstęp międzykwartylowy definiujemy jako róż
Wtedy dokonujemy kondensacji danych w sposób znaczący. nicę między pierwszym i trzecim kwartylem, tj. pomiędzy
W rozdziale 5 wytłumaczyłyśmy, jak dobrać odpowiednią dwudziestym piątym i siedemdziesiątym piątym percenty
miarę przeciętną. Ten rozdział poświęcamy omówieniu naj lem (rycina 6.1). Zawiera on centralnych 50% obserwacji
bardziej znanych miar rozproszenia (dyspersji lub zmien z uporządkowanego szeregu, 25% obserwacji leży poniżej je
ności), które to miary zostały porównane w tablicy 6.1. go dolnej granicy, a 25% — powyżej jego górnej granicy.
Rozstęp międzydecylowy zawiera 80% centralnych obser
Rozstęp jest różnicą między największą i najmniejszą wacji, tj. leżące między dziesiątym i dziewięćdziesiątym
wartością w zbiorze danych; często podaje się te dwie war percentylem. Często używa się rozstępu zawierającego 95%
tości zamiast ich różnicy. Trzeba zauważyć, że rozstęp daje centralnych obserwacji, tj. wykluczających 2,5% obserwacji
mylącą wielkość rozproszenia, gdy w danych znajdują się powyżej jego górnej granicy i 2,5% poniżej dolnej granicy
wartości odskakujące (rozdział 3). (rycina 6.1). Możemy używać tego przedziału do diagnozo
wania choroby, przy założeniu, że jest on wyznaczony i wy
starczającej liczby wartości zmiennej dla osób zdrowych.
ROZSTĘPY UZYSKIWANE Z PERCENTYLI Jest on często określany jako przedział odniesienia, zakres
Czym są percentyle? odniesienia lub zakres normalny (rozdział 38).
Przypuśćmy, że uporządkowaliśmy dane w kierunku wzro
stu ich wielkości, rozpoczynając od wartości najmniejszej
i kończąc na największej. Wartość zmiennej x, poniżej któ WARIANCJA
rej w uporządkowanym szeregu znajduje się 1% wartości Jedną z metod mierzenia rozproszenia danych jest wyzna
(a 99% wartości leży powyżej), jest zwana pierwszym per- czenie, w jakim stopniu każda z obserwacji jest oddalona
centylem. Wartość x, poniżej której leży 2% obserwacji, od średniej arytmetycznej. Oczywiście, im większe są te od
zwana jest drugim percentylem itd. Wartości x, które dzie ległości, tym większa jest zmienność obserwacji. Nie może
lą uporządkowany zbiór na 10 równych pod względem licz my jednak używać średniej arytmetycznej tych odległości
by części, tj. dziesiąty, dwudziesty, trzydziesty,... dziewięć jako miary rozproszenia, gdyż dodatnie różnice dokładnie
dziesiąty percentyl zwane są decylami. Wartości, które pokryją się z różnicami ujemnymi. Problem ten możemy
dzielą uporządkowany zbiór na cztery równe pod względem obejść przez podniesienie każdej odległości do kwadratu
liczby części, tj. dwudziesty piąty, pięćdziesiąty i siedem i znalezienie średniej z kwadratów odległości (rycina 6.2);
dziesiąty piąty percentyl nazywamy kwartylami. Pięćdzie wielkość tę nazywamy wariancją. Jeżeli mamy próbę
siąty centyl jest medianą (rozdział 5). n obserwacji xlT x2, x3, ..., xn, dla których średnia wynosi
Rycina 6.1. Wykres skrzynkowy masy urodzeniowej noworodka Rycina 6.2. Diagram pokazujący rozproszenie wybranych wartości
(rozdział 2). Na rycinie znajduje się mediana, rozstęp międzykwar wieku matki w chwili porodu (rozdział 2) wokół wartości średniej.
tylowy, rozstęp zawierający centralne 95% obserwacji oraz maksi Wariancja jest obliczana przez dodanie podniesionych do kwadratu
mum i minimum. odległości między poszczególnymi punktami a średnią i następnie
podzielenie przez (n - 1).
i - £x,- /AI, obliczamy wariancję tych obserwacji, zwykle wynikami. Może się to zdarzyć dlatego, że dany osobnik nie
omaczoną pr2ez s 2 , jako zawsze odpowiada w dokładnie ten sam sposób i/lub
z powodu błędu pomiarowego. Jednakże wariancja we
wnątrzgrupowa jest z reguły mniejsza niż wariancja, którą
wyznaczymy, biorąc pojedynczy pomiar każdego osobnika
Jak widać, nie jest to dokładnie sama średnia arytme w grupie (zmienność międzygrupowa). Na przykład, 17-let-
tyczna kwadratów odległości, ponieważ dokonujemy dziele ni chłopiec ma pojemność życiową płuc pomiędzy 3,60
nia przez n - 1 zamiast przez n. Przyczyną tego jest fakt, że a 3,87 1, gdy pomiar jest wykonywany dziesięciokrotnie.
w naszych badaniach niemal zawsze opieramy się na próbie Wartość pojedynczych pomiarów zebranych u 10 chłopców
danych (rozdział 10). Można wykazać teoretycznie, że otrzy w tym samym wieku zawiera się natomiast między 2,98
mamy lepsze oszacowanie wariancji w populacji, gdy doko a 4,33 1. Te pojęcia są ważne przy planowaniu badania (roz
namy dzielenia przez (n- 1). dział 13).
Jednostką wariancji jest jednostka oryginalnej obserwa
cji podniesiona do kwadratu, tj. jeżeli zmienna mierzona
Tablica 6.1. Zalety i wady miar rozproszenia.
jest w kg, jednostką wariancji jest kg2.
Miara
rozproszenia Zalety Wady
ODCHYLENIE STANDARDOWE Rozstęp • Łatwo daje się wy • Można go stosować
Odchylenie standardowe jest pierwiastkiem kwadratowym znaczyć. w przypadku tylko
2 wariancji. W próbie n obserwacji jest równe: dwóch wartości.
• Zniekształcany przez
wartości odskakujące.
• Ma tendencję do wzro
stu, gdy rośnie wiel
kość próby.
Możemy wyobrazić sobie odchylenie standardowe jako
Rozstęp • Zazwyczaj nie znie • Trudny do policzenia.
rodzaj wartości przeciętnej odległości obserwacji od warto
oparty kształcany przez • Nie może być stosowany
ści średniej. Jest ono wyrażone w tych samych jednostkach,
o percentyle wartości odskakujące. dla małych prób.
co dane surowe.
• Niezależny od wiel • Bierze pod uwagę jedy
Jeżeli podzielimy odchylenie standardowe przez wartość kości próby. nie dwie wartości.
średnią i wyrazimy ten iloraz w procentach, otrzymamy • Odpowiedni dla • Niezdefiniowany alge
tzw. współczynnik zmienności. Jest on miarą rozproszenia danych skośnych. braicznie.
niezależną od jednostek, lecz powoduje pewne teoretyczne • Jednostka miary jest
Wariancja • Wykorzystuje
niedogodności, na skutek czego nie jest lubiany przez staty wszystkie wartości. kwadratem jednostki
styków. • Zdefiniowana alge pomiaru surowego.
braicznie.
Odchylenie • Te same zalety jak • Czułe na wartości
ZMIENNOŚĆ W OBRĘBIE OBIEKTÓW standardowe wariancji. odskakujące.
I MIĘDZY NIMI • Jednostka miary jest • Niewłaściwe dla danych
taka sama jak jedno skośnych.
Jeżeli wykonamy powtórzone pomiary zmiennej ciągłej dla
stka pomiaru surowego.
jednego osobnika, możemy się spodziewać, że wystąpi pew • Łatwe w interpretacji.
na zmienność (zmienność wewnątrzgrupowa) między jego
6. Opis danych: rozproszenie 21

7 ROZKŁADY TEORETYCZNE: ROZKŁAD NORMALNY
W rozdziale 4 pokazałyśmy, jak z danych obserwacyjnych wtedy prawdopodobieństwo, że pacjent ma zęby, wynosi
utworzyć empiryczny rozkład częstości. Rozkład ten kontra 0,67 + 0,24 = 0,91.
stuje z teoretycznym rozkładem prawdopodobieństwa, który • Reguła mnożenia — jeżeli dwa zdarzenia, A i B, są
jest opisany modelem matematycznym. Jeżeli nasz ekspery niezależne (tj. wystąpienie jednego ze zdarzeń nie warun
mentalny rozkład przybliża jakiś szczególny rozkład częstotli kuje drugiego zdarzenia), wtedy prawdopodobieństwo, że
wości, wtedy możemy wykorzystać wiedzę teoretyczną o tym zajdą oba zdarzenia, jest równe iloczynowi prawdopodo
rozkładzie do udzielenia odpowiedzi na temat danych. Często bieństw zajścia każdego z nich:
trzeba w tym celu obliczyć prawdopodobieństwo.
Prób (A i B) = Prob(A) x ProWB)
Jeżeli np. dwóch niespokrewnionych pacjentów czeka u chi
ZROZUMIENIE PRAWDOPODOBIEŃSTWA rurga stomatologicznego, prawdopodobieństwo, że obaj nie
Prawdopodobieństwo (prób — probability) jest miarą nie mają brakujących zębów wynosi 0,67 x 0,67 = 0,45.
pewności; leży u podstaw teorii statystyki. Mierzy ono
szanaę wystąpienia danego zdarzenia i jest liczbą dodatnią
leżąca pomiędzy zerem a jedynką. Jeżeli jest równe zero, to ROZKŁADY PRAWDOPODOBIEŃSTWA:
zdarzenie nie może się pojawić. Jeżeli jest równe jeden, to TEORIA
zdar2enie musi się pojawić. Zjawisko zdarzenia dopełniają Zmienna losowa jest wielkością, którą może przyjąć każda ze
cego (zdarzenia niepojawiającego się) jest równe jeden mi zbioru wzajemnie wykluczających się wielkości z określonym
nus prawdopodobieństwo zdarzenia pojawiającego się. prawdopodobieństwem. Rozkład prawdopodobieństwa poka
Prawdopodobieństwo zdarzenia warunkowego, tzn. praw zuje prawdopodobieństwa wszystkich możliwych wartości
dopodobieństwa zdarzenia, które zachodzi, jeżeli wystąpiło zmiennej losowej. Jest to rozkład teoretyczny, wyrażony ma
inne zdarzenie, omówimy w rozdziale 45. tematycznie, posiadający średnią i wariancję, podobnie jak
Prawdopodobieństwo możemy wyznaczyć, stosując róż posiada je rozkład empiryczny. Każdy rozkład prawdopodo
ne podejścia. bieństwa jest zdefiniowany pewnymi parametrami, które są
• Subiektywne — stopień naszej osobistej wiary, że miarami podsumowującymi (np. średnia, wariancja), charak
zdarzenie nastąpi (np. że koniec świata nastąpi pod koniec teryzującymi ten rozkład (tzn. znajomość tych parametrów
2050 roku). pozwala w pełni opisać rozkład). Parametry te są oszacowy
• Częstościowe — proporcja liczby zdarzeń zjawiska wane w próbie przez odpowiednie statystyki. W zależności
przy eksperymencie powtarzanym wielką liczbę razy (np. od tego, czy zmienna losowa jest dyskretna, czy ciągła, roz
ile razy otrzyma się „orła" przy tysiąckrotnym rzucaniu nie kład prawdopodobieństwa może być dyskretny lub ciągły.
zafałszowanej monety). • Dyskretny (np. dwumianowy, Poissona) — możemy
• Aprioryczne — wymaga znajomości modelu teoretycz otrzymać prawdopodobieństwa odpowiadające każdej moż
nego, zwanego rozkładem częstości, który opisuje prawdo liwej wartości zmiennej losowej. Suma wszystkich tych
podobieństwa wszystkich możliwych wyników eksperymen prawdopodobieństw wynosi jeden.
tu. Na przykład, teoria genetyczna pozwala opisać rozkład • Ciągły (np. normalny, Chi-kwadrat, r i F) — możemy
prawdopodobieństwa otrzymania określonego koloru oczu jedynie wyznaczyć prawdopodobieństwo, że zmienna loso
u dziecka zrodzonego z niebieskookiej kobiety i mężczyzny wa x przybierze wartość z pewnego przedziału (ponieważ
o oczach brązowych. Odbywa się to przez wyszczególnienie istnieje nieskończenie wiele wartości dla x). Jeżeli pozioma
wszystkich możliwych genotypów koloru oczu i prawdopo oś przedstawia wartości x, możemy narysować krzywą
dobieństw ich wystąpienia. z równania rozkładu (funkcja gęstości rozkładu prawdopo
dobieństwa); przypomina ona empiryczny, względny roz-
REGUŁY PRAWDOPODOBIEŃSTWA
Catkowite pole pod krzywą = 1 (lub 100%)
Możemy stosować reguły dodawania i mnożenia prawdopo
dobieństw.
• Reguła dodawania — jeżeli dwa zdarzenia, A i B, wza
jemnie się wykluczają (tzn. każde wystąpienie jednego zda
rzenia wyklucza pojawienie się drugiego), wtedy prawdopo
dobieństwo pojawienia się jednego lub drugiego zdarzenia
jest równe sumie prawdopodobieństw pojawienia się każde
go ze zdarzeń.
Prób (A lub B) = Prób (A) + Prób (B)
Jeżeli np. prawdopodobieństwo, że w pewnym gabinecie
dentystycznym pojawi się dorosły pacjent bez brakujących
zębów, z niektórymi brakującymi zębami lub bezzębny (tzn.
nie mający zębów), wynosi odpowiednio 0,67, 0,24 i 0,09, Rycina 7.1. Funkcja gęstości prawdopodobieństwa (pdf) zmiennej x.
Rycina 7.2. Funkcja gęstości praw
dopodobieństwa rozkładu normalne
go zmiennej x.
(a) Symetryczna wokói średniej fi:
wariancja = a .
2
(b) Efekt zmiany średniej

(c) Efekt zmiany wariancj:
ROZKŁAD NORMALNY (GAUSSOWSKI)

Jednym z najważniejszych rozkładów w statystyce jest roz
kład normalny. Jego funkcja gęstości prawdopodobieństwa
(rycina 7.2) jest:
• całkowicie opisana przez dwa parametry, średnią (jti)
2
i wariancję fcr );
• ma kształt dzwonu (jednomodalna);
• jest symetryczna w stosunku do swej średniej;
• przesuwa się w prawo, gdy średnia rośnie, a w lewo,
gdy średnia maleje przy założeniu stałej wariancji;
• spłaszcza się, gdy wariancja rośnie, a staje się bardziej
wypikowana, gdy wariancja maleje (dla ustalonej średniej).
Dodatkowe własności tego rozkładu są następujące;
• średnia i mediana rozkładu normalnego są równe;
• prawdopodobieństwo (rycina 7.3a), że zmienna losowa
x o rozkładzie normalnym ze średnia fi i odchyleniu stan
dardowym a leży pomiędzy:
(fi - a) i (fi + a) wynosi 0,68;

(fi - l,96cr) i (fi + 1,96a) wynosi 0,95;
(fi - 2,58a) i (fi + 2,58a) wynosi 0,99.
Przedziały te mogą zostać użyte do zdefiniowania prze

działów odniesienia (rozdziały 6 i 38).
Jak sprawdzić normalność rozkładu, opisujemy w roz
dziale 35.
Rycina 7.3. Pola (procenty całkowitego prawdopodobieństwa) pod
krzywą dla (a) rozkładu normalnego x, ze średnią fi i wariancją a2,
i <b) standaryzowanego rozkładu normalnego z. STANDARYZOWANY ROZKŁAD NORMALNY
W zależności od wartości fi i a istnieje nieskończenie wiele
rozkładów normalnych. Standaryzowany rozkład normalny
kład częstości (rozdział 4). Całkowite pole pod krzywą (rycina 7.3b) jest szczególnym rozkładem normalnym, dla
wynosi jeden; to pole reprezentuje prawdopodobieństwo którego stabelaryzowano wartości prawdopodobieństwa
wystąpienia wszystkich możliwych zdarzeń. Prawdopodo (Dodatek Al, A4).
bieństwo, że x leży pomiędzy dwoma wartościami granicz • Standaryzowany rozkład normalny ma średnią równą
nymi jest równe polu pod krzywą ograniczonemu tymi war zero i wariancję równą jeden.
tościami (rycina 7.1). Dla wygody przygotowałyśmy tablice • Jeżeli zmienna losowa x ma rozkład normalny ze śred
(Dodatek A) umożliwiające oszacowanie interesujących nas nią fi i wariancją a2, wtedy zmienna standaryzowana (SND),
prawdopodobieństw dla ogólnie stosowanych, ciągłych roz , jest zmienną losową, która ma standaryzowany
kładów prawdopodobieństwa. Są one szczególnie użyteczne
w przypadku wyznaczania przedziałów ufności (rozdział 11) rozkład normalny.
i testowania hipotez (rozdział 17).
7. Rozkłady teoretyczne: rozkład normalny 23

8 ROZKŁADY TEORETYCZNE: INNE ROZKŁADY
PARĘ SŁÓW USPOKOJENIA Rozkład Chi-kwadrat (Dodatek A3, rycina 8.2)

Teoria dotycząca rozkładów prawdopodobieństwa może wy • Jest rozkładem prawoskośnym, przybierającym warto
dać się złożona. Z naszego doświadczenia wiemy, że chciał ści dodatnie.
byś jedynie wiedzieć, kiedy i jak ich użyć. Dlatego naszki • Jest określony przez liczbę stopni swobody (rozdział 11).
cowałyśmy jedynie najważniejsze elementy, a ominęłyśmy • Jego kształt zależy od liczby stopni swobody; staje się
wzory definiujące rozkłady prawdopodobieństwa. Ich bardziej symetryczny i przybliża się do rozkładu normalne
zrozumienie wymaga jedynie znajomości podstawowych po go, w miarę jak wzrasta liczba stopni swobody.
jęć, terminologii i prawdopodobnie (chociaż w dobie kompu • Jest szczególnie przydatny do analizy danych katego-
terów rzadko), umiejętności korzystania z tablic. rialnych (rozdziały 23-25).
Rozkład F (Dodatek A5)

INNE CIĄGŁE ROZKŁADY • Jest prawoskośny.
PRAWDOPODOBIEŃSTWA • Jest zdefiniowany przez proporcje. Rozkład stosunku
dwóch oszacowywanych wariancji obliczonych z danych
Rozkłady te oparte 5ą na ciągłych zmiennych losowych. Czę o rozkładzie normalnym przybliża rozkład F.
sto nie sama zmienna mierzona, lecz statystyka otrzymana • Dwa parametry, które charakteryzują ten rozkład, to
z tej zmiennej podlega takiemu rozkładowi. Całkowite pole liczby stopni swobody (rozdział 11) licznika i mianownika
pod krzywą funkcji rozkładu prawdopodobieństwa repre proporcji.
zentuje prawdopodobieństwo otrzymania wszystkich możli • Rozkład F jest szczególnie przydatny przy porównywa
wych wyników i jest równe jeden (rozdział 7). Rozkład nor niu dwóch wariancji (rozdział 18) oraz więcej niż dwóch śred
malny omówiłyśmy w rozdziale 7; inne rozkłady są opisane nich przy użyciu analizy wariancji (ANOVA, rozdział 22).
w tym rozdziale.
Rozkład lognormalny
Rozkład t (Dodatek A2, rycina 8.1) • Jest rozkładem prawdopodobieństwa zmiennej loso
• Opisany przez W. S. Gossetta, który publikował pod pseu wej, której logarytm (o podstawie 10 lub e) podlega rozkła
donimem „Student"; jest często zwany rozkładem f-Studenta. dowi normalnemu.
• Parametrem charakteryzującym rozkład t jest liczba • Jest silnie prawoskośny (rycina 8.3a).
stopni swobody: możemy wykreślić funkcję gęstości praw • Jeżeli obliczymy logarytm z naszych surowych danych,
dopodobieństwa, jeżeli znamy równanie rozkładu t i liczbę które są prawoskośne, i otrzymujemy rozkład empiryczny
stopni swobody. Liczbę stopni swobody omawiamy w roz o kształcie zbliżonym do normalnego (rycina 8.3b), to nasze
dziale 11; należy zwrócić uwagę, że są one często blisko po dane przybliżają rozkład lognormalny.
wiązane z wielkością próby. • Wiele zmiennych w medycynie podlega rozkładowi
• Jego kształt jest podobny do standaryzowanego rozkła lognormalnemu. Po transformacji tych zmiennych poprzez
du normalnego, lecz jest bardziej rozciągnięty (ma dłuższe obliczenie logarytmów możemy wykorzystać właściwości
ogony). Kształt ten przybliża się do rozkładu normalnego, rozkładu normalnego do wnioskowania o tych zmiennych
w miarę jak rośnie liczba stopni swobody. (rozdział 7).
• Jest szczególnie użyteczny do obliczania przedziałów • Jeżeli dane mają rozkład lognormalny, możemy użyć
ufności i testowania hipotez o jednej lub dwóch średnich średniej geometrycznej (rozdział 5) jako podsumowującej
(rozdziały 19-21). miary położenia.
Rycina 8.1. Rozkłady t z liczbą stopni swobody (df) = 1, 5, 50 i 500. Rycina 8.2. Rozkłady Chi-kwadrat z liczbą stopni swobody (df) = 1,
2, 5 i 10.
Rycina 8.3. (a) Rozkład lognormalny
poziomów trójglicerydów u 232 męż
czyzn, u których wystąpiła choroba
serca (rozdział 19); (b) przybliżony roz
kład normalny wartości log10 (poziom
trójglicerydów).
Rycina 8.4. Rozkład dwumianowy pokazujący liczbę sukcesów r, gdy prawdopodobieństwo sukcesu wynosi n - 0,20 dla wielkości próby
ta) n = 5, (b) n = 10, i (c) n - 50. (Notabene, w rozdziale 23 obserwowana częstość występowania seropozytywności HHV-8 wynosi
p= 0,187 = 0,2, a wielkość próby wynosiła 271; przyjęto, że proporcja podlega rozkładowi normalnemu).
DYSKRETNE ROZKŁADY eksperymentu n razy) wynosi rut. Jego wariancja wynosi

PRAWDOPODOBIEŃSTWA nnd-n).
• Dla małego n rozkład jest prawoskośny, gdy n < 0,5,
Zmienna losowa, która określa rozkład prawdopodobieństwa, i lewoskośny, gdy JC > 0,5. Rozkład staje się bardziej syme
jest dyskretna. Suma prawdopodobieństw wszystkich wza tryczny, gdy rośnie wielkość próby (rycina 8.4), i przybliża
jemnie wykluczających się zdarzeń równa się jeden. rozkład normalny, jeżeli zarówno nn, jak i n(l- jr) są więk
sze niż 5.
Rozkład dwumianowy • Rozkładu dwumianowego możemy użyć, gdy wniosku
• Przypuśćmy, że w danej sytuacji są możliwe tylko dwa jemy o proporcjach. W szczególności, gdy analizujemy pro
wyniki: „sukces" lub „porażka". Na przykład, jesteśmy zain porcje, często używamy przybliżenia normalnego rozkładu
teresowani, czy po sztucznym zapłodnieniu in vitro (IVF) ko dwumianowego.
bieta pocznie dziecko (sukces), czy też nie (porażka). Jeżeli
weźmiemy n - 100 niespokrewnionych kobiet podlegających Rozkład Poissona
IVF (każda z tym samym prawdopodobieństwem poczęcia), • Zmienna losowa Poissona jest liczbą zdarzeń pojawiają
obserwowana liczba poczęć (sukcesów) będzie losową zmien cych się niezależnie i losowo w czasie lub przestrzeni z pew
ną binomialną. Często koncepcja tego rozkładu jest wyjaśnia ną średnią częstością^. Na przykład, dzienna liczba przyjęć
na poprzez n niezależnych powtórzeń eksperymentu (np. 100 do szpitala podlega rozkładowi Poissona. Możemy użyć naszej
rzutów monetą), w którym wynik jest albo sukcesem (np. wiedzy o rozkładzie Poissona do wyznaczenia prawdopodo
orzeł), albo porażką. bieństwa pewnej liczby przyjęć określonego dnia.
• Dwoma parametrami, które opisują rozkład dwumiano • Parametrem opisującym rozkład Poissona jest średnia,
wy, są n, liczba osobników w próbie (lub powtórzeń ekspery tzn. przeciętna częstość fi.
mentu), oraz 7Z, prawdziwe prawdopodobieństwo sukcesu dla • W rozkładzie Poissona średnia równa się wariancji.
każdego osobnika (lub każdego eksperymentu). • Jest to rozkład prawoskośny, gdy średnia jest mała,
• Jego średnia (wartość zmiennej losowej, której spo lecz staje się coraz bardziej symetryczny, gdy średnia rośnie;
dziewamy się po analizie n osobników lub po powtórzeniu przybliża wtedy rozkład normalny.
8. Rozkłady teoretyczne: inne rozkłady 25

9 TRANSFORMACJE
DLACZEGO TRANSFORMOWAĆ? TYPOWE TRANSFORMACJE

Obserwacje w naszym badaniu mogą nie spełniać założeń Transformacja logarytmiczna, z = log y
planowanej analizy statystycznej (rozdział 35). Jeżeli transformujemy dane logarytmicznie, możemy wybrać
• Zmienna może nie mieć rozkładu normalnego, co jest podstawę logarytmu 10 (log10 y) lub naturalną e (loge y = In y,
założeniem dystrybucyjnym dla wielu różnych analiz. logarytm Napera), lub dowolną inną podstawę, lecz musi ona
• Rozrzut obserwacji w każdej z kilku grup może być być jednakowa dla każdej wartości w zbiorze danych. Zwróć
rozmaity (stalą wariancja jest założeniem o parametrze przy my uwagę, że nie możemy obliczyć logarytmu z liczb ujemnych
porównywaniu średnich za pomocą testu f dla zmiennych i zera. Transformacja odwrotna jest zwana antylogarytmowa-
niepowiązanych i analizy wariancji; rozdziały 21-22). niem; antylogarytm z logarytmu Napera jest eksponentą e.
• Dwie zmienne mogą nie być liniowo powiązane (linio • Jeżeli rozkład y jest prawoskośny, z= logy ma często
wość jest założeniem w wielu analizach regresyjnych — roz rozkład w przybliżeniu normalny (rycina 9.la). Wtedy y ma
działy 27-33 i 42). rozkład lognormalny (rozdział 8).
Często pomocną rzeczą jest transformacja naszych da • Jeżeli istnieje eksponencjalny związek między y i inną
nych w celu spełnienia założeń leżących u podstaw propono zmienną x, tak że odpowiadająca mu krzywa skręca w górę,
wanych technik statystycznych. gdy y (na osi pionowej) wykreślane jest w funkcji x (na osi
poziomej), wtedy związek między z- log y i r jest w przy-
bliżeniu liniowy (rycina 9. Ib).
JAK DOKONUJEMY TRANSFORMACJI?
• Przypuśćmy, że mamy różne grupy obserwacji, wszyat-
Konwersja surowych danych na dane przetransformowane kie zawierające pomiary zmiennej ciągłej y. Można zauwa
polega na wykonaniu takich samych matematycznych transfor żyć, że grupy mające wyższe wartości y mają również więk
macji dla każdej obserwacji. Przypuśćmy, że mamy n obser sze wariancje. W szczególności, jeżeli współczynnik zmien
wacji zmiennej y i stwierdzamy, że odpowied ności zmiennej y (odchylenie standardowe podzielone przez
nia jest transformacja logarytmiczna. Bierzemy logarytm średnią) jest stały, transformacja logarytmiczna z = log y
z każdej obserwacji, tworząc: Jeżeli wytworzy grupy mające zbliżone wariancje (rycina 9.1c).
oznaczymy zmienną transformowaną przez z, to z{ = dla W medycynie transformacja logarytmiczna jest często
każdego i(i- 1, 2,..., n), a nasze zmienne przetransformowa stosowana z powodu jej logicznej interpretacji i dlatego, że
ne można zapisać jako wiele zmiennych ma rozkłady prawoskośne.
Sprawdzamy, czy dzięki transformacji powstały dane
spełniające założenie planowanej analizy statystycznej (np. Transformacja pierwiastkowania kwadratowego,
przez wykreślenie histogramu przetransformowanych da
nych, (patrz rozdział 35) i przystępujemy do ich analizy (zv Transformacja ta ma właściwości zbliżone do właściwości
z 2 ; ..., zn). Często dokonujemy transformacji odwrotnej miar transformacji logarytmicznej, chociaż wyniki otrzymane po
podsumowujących (takich jak średnia) na oryginalną skalę jej przeprowadzeniu są bardziej skomplikowane w interpre
pomiarową; potem polegamy na wnioskach, wyciąganych tacji. Oprócz tego, że ma własności normalizacyjne i lineary-
z testowania hipotez (rozdział 17) na danych przetransformo zujące, pozwala również na stabilizację wariancji, jeżeli wa
wanych. riancja rośnie ze wzrastającą wartością y, tj. gdy wariancja
podzielona przez średnią jest stała. Często stosujemy trans
formację pierwiastkowania, jeżeli y jest liczbą rzadkich zda
rzeń pojawiających się w czasie lub przestrzeni, tj. zmienną
Poissona (rozdział 8). Pamiętajmy, że nie możemy obliczyć
pierwiastka kwadratowego z liczby ujemnej.
Rycina 9.1. Efekty transformacji lo

garytmicznej: (a) normalizacja, (b) li-
nearyzacja, (c) stabilizacja wariancji.
Rycina 9.2. Efekt transforma
cji podnoszenia do kwadratu:
(a) normalizacja, (b) linearyza-
cja, (c) stabilizacja wariancji.
Transformacja hiperboliczna, z =1/y

Często stosujemy transformację hiperboliczna w przypadku
czasów przeżycia, z wyjątkiem sytuacji, gdy stosujemy spe
cjalne techniki do ich analizy (rozdział 41). Transformacja
hiperboliczna ma własności podobne do własności transfor
macji logarytmicznej. Oprócz tego, że ma właściwości norma
lizujące i linearyzujące, jest ona bardziej efektywna w stabi
lizacji wariancji niż transformacja logarytmiczna, jeżeli
wariancja rośnie znacznie ze wzrastającymi wartościami y,
np. gdy wariancja podzielona przez średnią jest wartością
stałą. Należy zwrócić uwagę, że nie można obliczyć odwrotno
ści z zera.
2
Transformacja podnoszenia do kwadratu, z = y
Transformacja podnoszenia do kwadratu daje odwrotne wy
niki niż transformacja logarytmiczna.
• Jeżeli rozkład y jest lewoskośny, rozkład z - y2 jest
często w przybliżeniu normalny (rycina 9.2a).
• Jeżeli związek między dwoma zmiennymi, x i y, jest ta
ki, że krzywa skręca w stronę mniejszych wartości, gdy ry
sujemy y w funkcji x, wtedy związek pomiędzy z=yz\ xjest
w przybliżeniu liniowy (rycina 9.2b).
• Jeżeli wariancja zmiennej ciągłej y ma tendencję do
spadku, gdy y rośnie, wtedy transformacja podnoszenia do
kwadratu z-y2 stabilizuje wariancję (rycina 9.2c).
Transformacja logitowa (logistyczna),
Tej transformacji używamy najczęściej do każdej proporcji

p w zbiorze proporcji. Gdy p - 0 lub p - 1, nie możemy wy
konać transformacji logitowej, ponieważ odpowiadające war
tości logitów wynoszą -~> i +», Wyjściem z tej sytuacji jest
wzięcie wartości p równej l/(2n) zamiast 0 oraz [1 - l/(2n)}
zamiast 1, gdzie n jest wielkością próby.
Transformacja ta linearyzuje krzywą sigmoidalną (ryci
na 9.3). Zagadnienie użycia transformacji logitowej w anali
zie regresji zostało omówione w rozdziale 30. Rycina 9.3. Efekt transformacji logitowej na krzywą sigmoidalną.
9. Transformacje 27
10 PRÓBKOWANIE I ROZKŁADY PRÓBKOWANIA
DLACZEGO DOKONUJEMY parametru populacyjnego były w każdej próbie dokładnie ta

PRÓBKOWANIA? kie same. Jednakże nasze parametry powinny być zbliżone
do prawdziwej wartości parametru w populacji i podobne je
W statystyce populacja reprezentuje całą grupę obiektów, den do drugiego. Kwantyfikując zmienność tych estymato
którymi jesteśmy zainteresowani. Ogólnie, badanie całej po rów, otrzymamy informację o dokładności naszego estymato
pulacji jest kosztowne i pracochłonne, a w niektórych przy ra i dzięki temu możemy oszacować błąd próbkowania.
padkach wręcz niemożliwe, ponieważ populacja może być hi W rzeczywistości zwykle pobieramy tylko jedną próbę
potetyczna (np. pacjenci, którzy będą leczeni w przyszłości). z populacji Nadal jednak możemy robić użytek z naszej teo
Dlatego zbieramy dane na temat próby obiektów, która jak retycznej wiedzy o estymatorach próby, aby wyciągać wnio
wierzymy, jest reprezentatywna dla tej populacji (tj. ma po ski o parametrze w populacji.
dobną charakterystykę jak obiekty w populacji), i używamy
jej do wyciągania wniosków o populacji.
Gdy pobierzemy próbę z populacji, stwierdzimy, że infor PRÓBKOWANIE ROZKŁADU ŚREDNIEJ
macje na jej temat mogą nie w pełni odzwierciedlać to, co jest Wyobraźmy sobie, że jesteśmy zainteresowani estymacją
prawdziwe dla populacji. Na skutek zbadania jedynie części średniej populacyjnej; możemy wielokrotnie pobrać z popu
populacji popełniliśmy błąd próbkowania. W tym rozdziale lacji próby o liczebności n i z każdej próby estymować śred
pokażemy, jak używać teoretycznych rozkładów prawdopodo nią. Histogram estymatorów tych średnich pokaże ich roz
bieństwa (rozdziały 7 i 8) do kwantyfikacji tego błędu. kład (rycina 10.1); jest to rozkład próbkowania średniej.
Możemy wykazać, że:
OTRZYMYWANIE • Jeżeli wielkość próby jest wystarczająco duża, estyma
tory średniej podlegają rozkładowi normalnemu, jakikol
PRÓBY REPREZENTATYWNEJ
wiek byłby rozkład oryginalnych danych w populacji (wyni
Ideałem jest uzyskanie próby losowej. Tworzona jest lista ka to z twierdzenia znanego jako Centralne Twierdzenie
wszystkich obiektów w populacji (operat losowania) i z tej Graniczne).
listy wybierane są losowo obiekty, co oznacza, że każda • Jeżeli próba jest mała, to estymatory średniej podlega
możliwa próba o określonej liczebności ma takie samo praw ją rozkładowi normalnemu, gdy dane w populacji podlegają
dopodobieństwo, by być wybraną z populacji. Czasami może rozkładowi normalnemu.
my mieć trudności ze stworzeniem takiej listy lub związane • Średnia z estymatorów jest nieobciążonym estymato
z tym koszty są zbyt duże i wtedy pobieramy próbę dogod rem prawdziwej średniej w populacji, tj. średnia estymato
ną. Na przykład, gdy badamy pacjentów z określonym sta rów równa jest prawdziwej średniej populacyjnej.
nem klinicznym, możemy wybrać pojedynczy szpital i badać • Zmienność rozkładu mierzona jest odchyleniem stan
w nim niektórych lub wszystkich pacjentów w tym stanie. dardowym estymatorów; jest ona znana jako błąd standar
Bardzo rzadko stosuje się schematy nielosowe, takie jak pró dowy średniej (często oznaczany jako SEM). Jeżeli znamy
by kwotowe lub próbkowanie systematyczne. Chociaż opisa odchylenie standardowe w populacji (o), wtedy błąd standar
ne w tej książce testy statystyczne zakładają, że obiekty dowy średniej jest równy:
w próbie zostały wybrane w sposób losowy, dają one ogólnie
sensowne wyniki tak długo, jak długo próba pozostaje repre SEM =
zentatywna dla populacji. Jeżeli mamy tylko jedną próbę, a tak jest zazwyczaj, na
szym najlepszym estymatorem średniej populacyjnej jest
średnia próby i ponieważ rzadko kiedy znamy odchylenie
ESTYMATORY PUNKTOWE standardowe w populacji, oszacowujemy błąd standardowy
Często jesteśmy zainteresowani wartością parametru w po średniej jako:
pulacji (rozdział 7), np. średnią lub proporcją. Parametry
SEM =
oznacza się zwykle literami alfabetu greckiego. Na przykład,
średnią populacyjną oznaczamy literą fi, a populacyjne od gdzie s jest odchyleniem standardowym obserwacji w próbie
chylenie standardowe literą o. Wartość parametru oszacowu (rozdział 6). SEM określa miarę dokładności naszego estyma
jemy przy użyciu danych zebranych w próbie. Oszacowanie tora.
to określa się jako statystykę próby lub estymator punkto
wy parametru (tj. przyjmujący pojedynczą wartość), w prze Interpretacja błędów standardowych
ciwieństwie do estymatora przedziałowego (rozdział 11), • Duży błąd standardowy wskazuje, że estymator jest nie
który przyjmuje zakres wartości. precyzyjny.
• Mały błąd standardowy wskazuje, że estymator jest
precyzyjny. Błąd standardowy jest zmniejszony, tj. otrzymu
WARIANCJA PRÓBKOWANIA
jemy wyższą precyzję estymatora, gdy:
Jeżeli pobierzemy z populacji powtarzane próby tej samej • zwiększymy wielkość próby (rycina 10.1);
wielkości, to jest rzeczą nieprawdopodobną, aby estymatory • dane mają mniejszą zmienność.
28 Próbkowanie i estymacja
SD CZY SEM?
Chociaż oba parametry wyglądają podobnie, są używane do gdzie r jest liczbą obiektów w próbie posiadających pewną
różnych celów. Odchylenie standardowe opisuje zmiany war własność. Jeżeli wielokrotnie losujemy z naszej populacji pró
tości danych i powinno być używane, gdy chcemy ilustrować by o wielkości n i wykreślamy estymator proporcji w postaci
ich zmienność. W przeciwieństwie do tego, błąd standardowy histogramu, to rozkład próbkowania proporcji będzie
opisuje precyzję estymacji średniej w próbie i powinien być w przybliżeniu rozkładem normalnym z wartością średnią n.
używany, gdy jesteśmy zainteresowani średnią w zbiorze da Odchylenie standardowe tego rozkładu estymowanych pro
nych. porcji jest błędem standardowym proporcji. Jeżeli losujemy
tylko pojedynczą próbę, jest on określany przez wyrażenie:
PRÓBKOWANIE ROZKŁADU PROPORCJI

Czasem jesteśmy zainteresowani proporcją obiektów w po
pulacji, które mają pewną własność. Gdy losujemy z popula
cji próbę o wielkości n, naszym najlepszym estymatorem Podaje ono miarę precyzji naszego estymatora n\ mała
p proporcji w populacji n jest: wartość błędu standardowego oznacza dokładny estymator.
PRZYKŁAD
Rycina 10.1. la) Teoretyczny rozkład normalny log10 (poziomów trójglicerydów), ze średnią = 0,31 log10 (mmol/L) i odchyleniem stan
dardowym = 0,24 log]0 (mmol/L), oraz obserwowane rozkłady średnich 100 próbek losowych o wielkościach: (b) 10, (c) 20 i (d) 50, po
chodzących z tfgo rozkładu teoretycznego.
10. Próbkowanie i rodzaje próbkowania 29

11 PRZEDZIAŁY UFNOŚCI
Gdy wylosowaliśmy próbę z naszej populacji, otrzymaliśmy

tj. średnia próby ±
estymator punktowy (rozdział 10) interesującego nas para
metru i wyznaczyliśmy błąd standardowy w celu określenia gdzie t0 05 jest punktem procentowym (percentylem) rozkła
jego dokładności. Jednakże dla większości ludzi błąd stan du tz(n- 1) stopniami swobody, co daje dwustronne praw
dardowy nie jest sam w sobie szczególnie interesujący. Bar dopodobieństwo (rozdział 17) równe 0,05 (Dodatek A2). Ogól
dziej przydaje się włączenie tej miary dokładności do esty nie powoduje to nieco szerszy przedział ufności niż w przy
matora przedziałowego parametru populacji. Robimy to, padku użycia rozkładu normalnego, co pozwala uwzględnić
wykorzystując naszą wiedzę na temat teoretycznego rozkła dodatkową niepewność, którą wprowadziliśmy przez oszaco
du statystyki próby w celu obliczenia przedziału ufności dla wanie populacyjnego odchylenia standardowego i/lub która
tego parametru. Ogólnie przedział ufności rozciąga się po wynika z tego, że próba jest mała. W przypadku dużej próby
każdej stronie estymatora pewną wielokrotność odchylenia różnicę między oboma rozkładami można zaniedbać. Dlatego,
standardowego; te dwie wartości (granice przedziału ufno gdy obliczamy przedziały ufności dla średniej, zawsze, na
ści), które go definiują, są zwykle rozdzielane przecinkiem, wet gdy próba jest duża, używamy rozkładu t.
myślnikiem lub słowem „do" i ujęte w nawiasy.
Zgodnie z konwencją zwykle stosujemy 9596 przedziały
ufności Możemy jednak wyznaczyć także inne pr2edziały uf
PRZEDZIAŁY UFNOŚCI DLA ŚREDNIEJ ności, np. 99% przedział ufności dla średniej. Zamiast mno
żenia błędu standardowego przez stabelaryzowaną wartość
Użycie rozkładu normalnego
rozkładu t odpowiadającą prawdopodobieństwu 0,05, mno
W rozdziale 10 stwierdziłyśmy, że średnia próby podlega żymy go wtedy przez wartość odpowiadającą dwustronnemu
rozkładowi normalnemu, jeżeli próba jest duża. Dlatego, gdy prawdopodobieństwu 0,01. 99% przedział ufności jest szer
ro2ważamy średnią próby, możemy zrobić użytek z właści szy niż 95%, co odzwierciedla większą ufność co do tego, 26
wości rozkładu normalnego. W szczególności chodzi o fakt, zakres zawiera prawdziwą średnią populacyjną.
że 95% rozkładu średnich próby leży w obrębie 1,96 odchy
lenia standardowego (SD) średniej populacyjnej. To odchyle
nie standardowe nazywamy błędem standardowym średniej PRZEDZIAŁY UFNOŚCI DLA PROPORCJI
(SEM), W przypadku pojedynczej próby 95% przedział ufno Rozkład próbkowania proporcji przypomina rozkład dwu
ści (CI) dla średniej określamy jako: mianowy (rozdział 8). Jednakże gdy próba n jest wystarcza
od: średnia próby - (1,96 x SEM), jąco duża, wtedy rozkład próbkowania proporcji jest w przy
bliżeniu rozkładem normalnym ze średnią n. Oszacowuje
do: średnia próby + (1,96 x SEM).
my n jako proporcję w próbie p = r/n (gdzie r jest liczbą
Jeżeli powtórzymy eksperyment wielokrotnie, zakres ten obiektów w próbie z określoną własnością), a jego błąd
będzie zawierał prawdziwą średnią populacyjną w 95% sytu
acji. Zakres ten jest znany jako 95% przedział ufności dla standardowy określa się jako y (rozdział 10).
średniej. Zazwyczaj interpretujemy taki przedział ufności ja 95% przedział ufności dla proporcji wyznacza się w na
ko zakres wartości, wewnątrz którego z prawdopodobień stępujący sposób:
stwem 95% leży prawdziwa średnia populacyjna. Chociaż nie
jest to w pełni poprawne (jako że średnia populacyjna jest
wartością ustaloną i dlatego nie może mieć wyznaczonego
prawdopodobieństwa), będziemy jednak interpretować prze
dział ufności w ten właśnie sposób, gdyż jest on łatwiejszy Jeżeli próba jest mata (zwykle gdy np lub n[l -p\ jest
do zrozumienia pod względem pojęciowym. mniejsze niż 5), musimy użyć do wyznaczenia dokładnych
przedziałów ufności rozkładu dwumianowego 1. Należy zwró
Użycie rozkładu t cić uwagę, że jeżeli p jest wyrażone w procentach, zastępu
Ściśle rzecz biorąc, do obliczeń powinniśmy użyć rozkładu jemy (1 - p) przez (100 - p).
normalnego wtedy, gdy znamy wariancję a2 w populacji. Co
więcej, jeżeli próba jest mata, średnia próby podlega rozkła
INTERPRETACJA PRZEDZIAŁÓW UFNOŚCI
dowi normalnemu jedynie wtedy, gdy dane w populacji ma
ją rozkład normalny. Jeżeli dane nie mają rozkładu normal Kiedy interpretujemy przedział ufności, jesteśmy zaintereso
nego i/lub nie znamy wariancji w populacji, lecz jedynie wani paroma problemami.
estymujemy ją przez s 2 , średnia próby podlega rozkładowi • Jak jest szeroki? Szeroki przedział wskazuje, że esty
t (rozdział 8). Wyznaczamy wtedy 95% przedział ufności dla mator jest niedokładny. Szerokość przedziału ufności zależy
średniej jako: od wielkości błędu standardowego średniej, który z kolei za
leży od wielkości próby i, gdy rozważamy zmienną nume-
od: średnia próby — (f0 05 x SEM),
do: średnia próby + (f005 x SEM)), 1
Diem K.: Documenta Geigy Scientifw Tables. Blackwell Publłshing,
Oxford 1970.
30 Próbkowanie i estymacja
ryczną, od zmienności danych. Dlatego matę badania na da dwa stopnie swobody. Podobnie, liczba stopni swobody wa
nych o dużej zmienności dają szersze przedziały ufności niż riancji próby (rozdział 6), jest równa wielko
większe badania z mniej zmiennymi danymi.
ści próby minus jeden, ponieważ w celu obliczenia s2 musi
• Jakie z tego można wyciągnąć wnioski kliniczne?
Górna i dolna granica zapewniają określenie, czy wyniki są my obliczyć średnią próby (x), czyli estymator średniej po
klinicznie istotne (patrz przykład). pulacyjnej.
• Czy zawiera szczególnie interesujące wielkości? Mo
żemy sprawdzić, czy hipotetyczna wartość dla parametru po
pulacyjnego wpada do przedziału ufności. Jeżeli tak, to nasze
BOOTSTRAPPING
wyniki są zgodne z wartością hipotetyczną. Jeżeli nie, wtedy Bootstrappingjest procesem komputerowej intensywnej sy
jest nieprawdopodobne, aby parametr miał taką wartość (dla mulacji, który możemy wykorzystać w celu otrzymania prze
95% przedziału ufności szansa wynosi co najwyżej 5%). działu ufności dla parametru, jeżeli nie chcemy przyjmować
założeń na temat rozkładu próbkowania jego estymatora (np.
rozkładu normalnego dla średniej próby). Z próby oryginalnej
LICZBA STOPNI SWOBODY tworzymy wielką liczbę próbek losowych (zwykle co naj
W statystyce spotyka się określenie „liczba stopni swobody". mniej 1000), wszystkie o tej samej wielkości co próba orygi
Ogólnie można je wyznaczyć jako wielkość próby minus licz nalna, poprzez próbkowanie ze zwracaniem, tzn. pozwalając
ba ograniczeń w określonych obliczeniach; ograniczenia te obiektowi, który został wybrany, na ponowne włączenie do
mogą być parametrami, które mamy wyznaczyć. Jako prostą losowania, tak że obiekt może być wybrany więcej niż raz
ilustrację tego zagadnienia rozważmy zespół trzech liczb, w danej próbie. Każda próba dostarcza estymator parame
które dają sumę (T). Dwie z tych liczb mogą „swobodnie" tru, a zmienność rozkładu tych estymatorów wykorzystywa
przyjąć dowolną wielkość, podczas gdy trzecia jest ustalona na jest do uzyskania przedziału ufności dla parametru (np.
przez ograniczenia nałożone przez 71 Dlatego liczby mają percentyle 2,5 oraz 97,5 dają 95% przedział ufności).
PRZYKŁAD
Przedział ufności dla średniej Przedział ufności dla proporcji
Chcemy wyznaczyć średni wiek podczas pierwszego poro 27 (42,2%) spośród 64 włączonych do badania kobiet zgła
du u kobiet z zaburzeniami krwawienia. W próbie mamy szało, że co najmniej raz w tygodniu mają krwawienie
49 takich kobiet (rozdział 2): z dziąseł. Jest to stosunkowo wysoki procent i może służyć
jako sposób identyfikacji nie zdiagnozowanych kobiet z za
Średni wiek w chwili porodu x - 27,01 lat. burzeniami krwawienia w całej populacji. Obliczamy 95%
Odchylenie standardowe s = 5,1282 lat. przedział ufności dla proporcji kobiet z krwawiącymi dzią
słami w populacji.
Błąd standardowy SEM = = 0,7326 lat.
Proporcja w próbie = 27/64 = 0,422.
Zmienna ma w przybliżeniu rozkład normalny, ale po
nieważ wariancja jest nieznana, do wyznaczenia przedzia
Błąd standardowy proporcji = =0,0617.
łu ufności używamy rozkładu t. 95% przedział ufności dla
średniej wynosi:
95% przedział ufności = 0,422 ± (1,96 x 0,0617) =
27,01 ± (2,011 x 0,7326) = (25,54, 28,48) lat,
= (0,301, 0,543).
gdzie 2,011 jest punktem procentowym rozkładu t
z (49 - 1) = 48 stopniami swobody dającym dwustronne Jesteśmy pewni na 95%, że prawdziwy procent kobiet
prawdopodobieństwo równe 0,05 (Dodatek A2). z zaburzeniami krwawienia w populacji, które doświad
Jesteśmy na 95% pewni, że prawdziwy wiek średni czyły krwawienia z dziąseł, leży pomiędzy 30,1% i 54,3%.
przy pierwszym porodzie w populacji kobiet z zaburzenia Jest to całkiem szeroki przedział ufności, sugerujący małą
mi krzepnięcia wynosi pomiędzy 25,54 i 28,48 lat. Ten dokładność; większa próba pozwoli nam uzyskać bardziej
przedział jest całkiem wąski, co wskazuje na to, że esty dokładny estymator. Jednakże zarówno górna, jak i dolna
mator jest dokładny. W całej populacji w roku 1997 śred granica tego przedziału ufności wskazują na to, że duża
ni wiek przy pierwszym porodzie wynosił 26,8 lat. Jako że część tych kobiet miała prawdopodobnie krwawienie
26,8 wpada do naszego przedziału ufności, nie ma dowodu z dziąseł. Musimy więc zdobyć oszacowanie częstości tych
na to, że kobiety z zaburzeniami krzepnięcia rodzą dzieci dolegliwości w całej populacji, zanim wyciągniemy jakie
w starszym wieku niż pozostałe. kolwiek wnioski o wykorzystaniu tej wartości w diagnozo
Należy zwrócić uwagę, że 99% przedział ufności (25,05, waniu kobiet z zaburzeniami krzepnięcia.
2H,97 lat) jest nieco szerszy niż przedział 95%, co odzwier
ciedla zwiększony poziom ufności, że średnia leży w prze
dziale.
11. Przedziały ufności 31

12 PLANOWANIE BADANIA I
Zaplanowanie badania jest nadzwyczaj ważne, gdyż badania nik. Badania kliniczne (rozdział 14) są przykładem badań
źle zaprojektowane mogą dać mylące rezultaty. Duża liczba eksperymentalnych, w których eksperymentator wprowadza
danych ze słabego badania nie zrekompensuje problemów pewien sposób leczenia. Należą do nich również badania ze
związanych z tym, jak zostało zaprojektowane. W tym roz zwierzętami lub badania laboratoryjne, które przeprowadza
dziale oraz w rozdziale 13 przedyskutujemy główne aspekty ne są w warunkach eksperymentalnych. Badania ekspery
planowania badania. W rozdziałach 14-16 omówimy specy mentalne dostarczają najbardziej przekonujących dowodów
ficzne typy badań: badania kliniczne, kohortowe i przypa- dla każdej hipotezy, gdyż ogólnie rzecz biorąc, pozwalają na
dek-kontrola. kontrolę czynników, które mogą wpływać na wynik. Jednak
Na samym początku należy jasno sformułować cel każde że nie zawsze badania te są wykonalne, a gdy angażują lu
go badania. Możemy chcieć oszacować parametr w populacji, dzi albo zwierzęta, mogą być nieetyczne.
taki jak ryzyko wystąpienia jakiegoś zdarzenia (rozdział 15), • Badania obserwacyjne, na przykład kohortowe (rozdział
rozpatrywać związek między określonym czynnikiem etiolo 15) lub badania przypadek-kontrola (rozdział 16), polegają na
gicznym a wynikiem badania lub zbadać efekt jakiegoś zabie tym, że badacz nie robi niczego, co mogłoby wpłynąć na wy
gu (takiego jak nowy sposób leczenia). Istnieje wiele możli nik, lecz po prostu obserwuje zdarzenia. Badania te mogą do
wych sposobów planowania każdego takiego badania. starczyć mniej informacji niż badania eksperymentalne, po
Ostateczny wybór schematu będzie zależał nie tylko od ce nieważ często nie mamy możliwości kontrolowania wszystkich
lów, lecz także od dostępnych źródeł i argumentów etycznych czynników zaburzających wynik. Jednakże, w pewnych sytu
(patrz tablica 12.1). acjach, mogą one być jedynym sposobem badania, który jest
pomocny lub możliwy. Badania epidemiologiczne, określają
ce związek między interesującymi czynnikami a chorobą
BADANIA EKSPERYMENTALNE w populacji są badaniami obserwacyjnymi.
CZY OBSERWACYJNE
• Badania eksperymentalne mają taki charakter, że in
terwencja badacza może w pewien sposób wpływać na wy
Tablica 12.1. Schematy badań.

Typ badania Procedura Forma Postępowanie Postępowanie Postępowanie Typowe
czasowa w przeszłości w chwili obecnej w przyszłości wykorzystanie
Przekrojowe Przekro Obser Zebranie • Oszacowanie rozpowszech

jowe wacyjne wszystkich nienia
informacji • Zakresy odniesienia i testy
diagnostyczne
• Obecny stan zdrowia grupy
Powtarzane Przekro Obser Zebranie Zebranie Zebranie • Zmiany w czasie

przekrojowe jowe wacyjne wszystkich wszystkich wszystkich
informacji informacji informacji
Kohortowe Longitu- Obser Zdefiniowanie Obserwacja • Prognoza i wywiad choro

(Rozdział 15) dinalne wacyjne kohorty i osza Upływ wyników bowy (co stanie się z kimś,
(prospe cowanie czyn czasu kto teraz choruje)
ktywne) ników ryzyka • Etiologia
Przypadek- Longitu- Obser Oszaco Zdefiniowanie • Etiologia (zwłaszcza dla

-kontrola dinalne wacyjne wanie Informacje przypadków rzadkich chorób)
(Rozdział 16) (retrospe czyn z literatury i zmiennych
ktywne) ników lub doku kontrolowanych
ryzyka mentacji (tj. rezultatów)
medycznej
Ekspory- Longitu- Ekspery Stosowany Obserwacja • Badanie kliniczne dla oceny

ment dinalne mentalne zabieg Upływ wyników leczenia (rozdział 14)
(prospe czasu • Próba określenia miary
ktywne) zapobiegania, np. ocena
szczepionki na wielką skalę
• Eksperyment laboratoryjny
32 Planowanie badania
OKREŚLENIE PRZYCZYNOWOŚCI ści ze stwierdzeniem, czy zmiany w czasie po prostu nie od
W BADANIACH OBSERWACYJNYCH zwierciedlają istniejących różnic między grupami badanych
osobników.
Chociaż najbardziej przekonujący dowód na sprawczą rolę • Badania longitudinalne polegają na śledzeniu próby
czynnika w chorobie zwykle pochodzi z badań eksperymen osobników w czasie. Z reguły są badaniami prospektywny
talnych, można również wykorzystać informację z badań ob mi, w których obiekty obserwuje się od pewnego momentu
serwacyjnych przy założeniu, że spełnione są pewne kryte (rozdział 15). Czasami badania retrospektywne, w których
ria. Najbardziej znane kryteria określania przyczynowości wybiera się osobników i identyfikuje czynniki (rozdział 16),
1
zostały zaproponowane przez Hilla . jakie pojawiły się w przeszłości, również są traktowane jako
• Przyczyna musi poprzedzać skutek. longitudinalne. Badania longitudinalne trwają z reguły dłu
• Związek powinien być wiarogodny, tzn. wyniki powin żej niż badania przekrojowe, więc wymagają więcej zasobów
ny być sensowne pod względem biologicznym. i jeżeli polegają na pamięci pacjenta lub na rejestrach medycz
• Wyniki z wielu źródeł powinny być ze sobą zgodne. nych, mogą podlegać obciążeniu (zob. koniec tego rozdziału).
• Związek między przyczyną a skutkiem powinien być Badania eksperymentalne są na ogół prospektywne, gdyż
silny. analizują wpływ interwencji na wynik, który pojawi się
• W odniesieniu do skutku powinien występować zwią w przyszłości. Jednakże badania obserwacyjne mogą być za
zek typu dawka-odpowiedź, tzn. wyższe poziomy oddziały równo prospektywne, jak i retrospektywne.
wania powinny prowadzić do cięższych chorób lub bardziej
gwałtownego napadu choroby.
• Usunięcie badanego czynnika powinno zmniejszać ry GRUPY KONTROLNE
zyko wystąpienia choroby. Użycie grup porównawczych lub grup kontrolnych jest rze
czą istotną przy planowaniu badania i interpretowaniu ja
BADANIA PRZEKROJOWE kichkolwiek jego wyników. Na przykład, kiedy oceniamy
LUB LONGITUDINALNE przyczynową rolę określonego czynnika w wystąpieniu cho
roby, ryzyko choroby powinno być oceniane zarówno u nara
• Badania przekrojowe wykonywane są w konkretnym żonych, jak i nienarażonych na interesujący czynnik (rozdzia
momencie. Należą do nich przegląd literatury i spisy ludno ły 15 i 16). Patrz także „Porównywanie sposobów leczenia"
ści w populacji. Są one szczególnie przydatne w oszacowaniu w rozdziale 14.
punktowego rozpowszechnienia warunków w populacji.
Liczba osobników z chorobą BŁĄD SYSTEMATYCZNY

Rozpowszechnię- _ w konkretnym momencie
nie punktowe Całkowita liczba badanych Mówimy, że pojawił się błąd systematyczny (obciążenie), gdy
w tym samym momencie występuje stała różnica między wynikami badania a praw
dziwym stanem rzeczy. Można wyróżnić następujące rodza
Ponieważ nie wiemy, jaka była kolejność zdarzeń przed je błędu systematycznego:
badaniem, możemy jedynie powiedzieć, że istnieje związek • Błąd systematyczny obserwatora — pewien obserwator
między interesującym nas czynnikiem i chorobą, natomiast konsekwentnie niedocenia lub przecenia określoną zmienną;
nie możemy stwierdzić, że chorobę najprawdopodobniej wy • Błąd systematyczny uwikłania — przypadkowe związ
wołał ten czynnik. Co więcej, nie możemy oszacować zacho ki wynikają z powodu błędu pełnego dopasowania czynników
rowalności, tzn. tempa wzrostu nowych zdarzeń w określo związanych zarówno z czynnikiem ryzyka, jak i z wynikiem
nym okresie czasu (rozdział 31). Dodatkowo, ponieważ (patrz rozdział 34);
badania przekrojowe są przeprowadzane tylko w jednym mo • Błąd systematyczny doboru — pacjenci wybrani do ba
mencie, nie możemy badać trendów czasowych. Badania te są dania nie są reprezentatywni dla populacji, do której będą
jednak z reguły szybkie i tanie. odnoszone wyniki badania;
• Powtarzane badania przekrojowe mogą być przepro • Błąd systematyczny informacyjny — pomiary rejestro
wadzane w różnych momentach w celu oszacowania trendu wane są nieprawidłowo w systematyczny sposób;
czasowego. • Błąd systematyczny publikacyjny — tendencja do pu
Ponieważ jednak w badaniach tych włącza się różne gru blikowania wyłącznie tych prac, które donoszą o wynikach
py osobników w różnych momentach, mogą wystąpić trudno- pozytywnych lub lokalnych.
Inne błędy systematyczne mogą na przykład być spowo
dowane przez odwołania do pamięci (rozdział 16), efekt
1 wprowadzenia zdrowych osób do badania (rozdział 15),
Hill A. B.: The erwironment and disease: association or causation?
Proceedings of the Royal Society of Medicine, 1965, 58, 295. oszacowanie (rozdział 14) oraz przydział (rozdział 14).
12. Planowanie badania I 33

13 PLANOWANIE BADANIA II
ZMIENNOŚĆ ne bloki lub warstwy (np. bloki mogą reprezentować różne

grupy wiekowe). Zmienność między jednostkami w bloku
Zmienność w danych może być spowodowana przez znane
jest mniejsza niż między jednostkami z różnych bloków. Jed
czynniki, błędy pomiarowe lub przez niewyjaśnioną zmien
nostki wewnątrz każdego bloku są losowo przydzielane do
ność losową. Wpływ zmienności w danych na oszacowanie
sposobów oddziaływania; porównujemy więc raczej oddzia
parametru populacyjnego mierzymy przy użyciu błędu stan
ływania w obrębie każdego bloku, niż dokonujemy całościo
dardowego (rozdział 10). Gdy pomiar zmiennej podlega
wego porównania pomiędzy obiektami w różnych blokach.
znacznym zmianom, estymatory związane z tą zmienną będą
Przez to możemy bardziej precyzyjnie określić efekty oddzia
niedokładne, z dużymi błędami standardowymi. Oczywiście,
ływania, niż zrobilibyśmy to bez blokowania.
pożądane jest zredukowanie wpływu zmienności tak dalece,
jak to możliwe, a przez to zwiększenie dokładności naszych Projekty równoległe a naprzemienne (rycina 13.1)
estymatorów. Można tego dokonać na różne sposoby. Ogólnie, porównujemy obiekty w różnych grupach. Na przy
kład, większość badań klinicznych (rozdział 14) to badania
równoległe, w których każdy pacjent otrzymuje jedno
POWTARZANIE
z dwóch (lub sporadycznie więcej) porównywanych typów le
Estymatory są bardziej dokładne, jeżeli pomiary się powta czenia, tj. polegają one na porównaniach między osobnikami.
rza (np. dwa lub trzy pomiary danej zmiennej dla każdego Ponieważ zazwyczaj istnieje mniejsza zmienność w po
obiektu w każdej sytuacji). Jednakże, ponieważ pomiary po miarach jednego osobnika niż pomiędzy różnymi osobnikami
wtarzane nie są niezależne, musimy uważać przy analizie (rozdział 6), w pewnych sytuacjach możemy woleć wykorzy
tych danych. Prostym podejściem do takich wyników jest stanie każdego osobnika jako jego/jej własną kontrolę. Te
użycie w analizie średniej z każdego zbioru pomiarów po porównania w obrębie osobnika (wewnątrzosobnicze) zapew
wtarzanych zamiast pomiarów oryginalnych. Możemy rów niają porównania bardziej dokładne niż te uzyskane z pro
nież użyć metod, które w specyficzny sposób przetwarzają jektów między osobnikami (międzyosobnicze) i wymagają
pomiary powtarzane (patrz rozdziały 41 i 42). mniejszej liczby osobników dla osiągnięcia takiego samego
stopnia dokładności. W badaniach klinicznych projekt na
WIELKOŚĆ PRÓBY przemienny1 jest przykładem porównań wewnątrzosobni-
czych; jeżeli istnieją dwa schematy leczenia, każdy osobnik
Wybór odpowiedniej wielkości próby jest krytycznym punk otrzymuje oba, jeden po drugim w porządku losowym, co po
tem planowania badania. Przy zwiększonej próbie błąd stan zwala wyeliminować jakikolwiek efekt kalendarzowy. Okre
dardowy estymatora jest redukowany, co prowadzi do sy leczenia są rozdzielone przez okres wymywania, który
zwiększonej dokładności i mocy badania (rozdział 18). Obli pozwala na rozproszenie jakichkolwiek efektów resztkowych
czenia wielkości próby (rozdział 36) powinny być przeprowa (przeniesienia) z poprzedniego schematu leczenia. Dla każ
dzone przed rozpoczęciem badania. dego osobnika analizujemy różnicę w odpowiedziach na le
czenie w każdym ze schematów. Schemat może być użyty tyl
SZCZEGÓLNE MODELE BADAŃ ko wtedy, gdy leczenie znosi symptomy chwilowo, a nie
doprowadza do wyleczenia, oraz czas odpowiedzi nie jest
Modyfikacje prostych planów badań mogą prowadzić do uzy wydłużony.
skania bardziej precyzyjnych estymatorów. Zasadniczo po
równujemy wpływ jednego lub więcej sposobów oddziały Eksperymenty czynnikowe
wania (np. leczenia) na jednostki doświadczalne. Jednostka Jeżeli jesteśmy zainteresowani więcej niż jednym czynni
doświadczalna jest najmniejszą grupą obiektów, które moż kiem, osobne badania, z których każde określa wpływ jedne
na traktować w analizie jako niezależne, na przykład kon go zmieniającego się czynnika, mogą być nieefektywne
kretny pacjent, próbka krwi lub piat skóry. Jeżeli jednostki i kosztowne. Projekty czynnikowe pozwalają na równocze
eksperymentalne są losowo (tzn. przypadkowo) przyporząd sną analizę większej liczby czynników podlegających bada
kowane do sposobów oddziaływania (rozdział 14) i nie ma niu. Najprostszy schemat, eksperyment czynnikowy 2 x 2 ,
Żadnych dalszych udoskonaleń schematu badania, mamy do bierze pod uwagę dwa czynniki (np. dwa różne schematy le
czynienia z projektem całkowicie zrandomizowanym. Cho czenia), każdy rozważany na dwóch poziomach (np. leczenie
ciaż poddaje się on analizie w sposób bezpośredni, jest nieaktywne lub nieaktywne). Jako przykład można podać bada
wydajny w przypadku znaczącej zmienności między jednost nie US Physicians Health2, zaprojektowane dla stwierdzenia
kami doświadczalnymi. W tej sytuacji możemy zastosować
blokowanie i/lub użyć projektu naprzemiennego (metoda
cross-over) w celu zredukowania wpływu tej zmienności.
1
Senn, S.: Cross-cwer Trials in Clinical Research. Wiley, Chichester
1993.
Blokowanie 2
Steering Committee of the Physicians Health Study Research Gro
Często istnieje możliwość zgrupowania jednostek doświad up: Finał report of the aspirin component of the on-going Physicians
czalnych, które mają podobne charakterystyki, w jednorod Health Study. New England Journal of Medicine, 1989, 321, 129-135.
stopnia przydatności aspiryny i beta-karotenu w zapobiega Oceniamy efekt poziomu beta-karotenu przez porównanie
niu chorobom serca i nowotworom. Użyto w nim schematu pacjentów z lewej kolumny z tymi z prawej kolumny. Podob
czynnikowego 2 x 2 z dwoma czynnikami będącymi dwoma nie możemy ocenić efekt poziomu aspiryny przez porównanie
różnymi związkami i dwoma poziomami każdego z nich, pacjentów w górnym wierszu z tymi z dolnego wiersza. Do
wskazującymi, czy lekarz otrzyma! związek aktywny, czy je datkowo możemy ocenić, czy oba czynniki wchodzą w inte
go placebo (patrz rozdział 14). Tablica 13.1 pokazuje możliwe rakcję, tzn. czy efekt poziomu beta-karotenu jest różny dla
kombinacje leczenia. dwóch poziomów aspiryny.
Jeżeli efekty się różnią, mówimy, że istnieje interakcja
między dwoma czynnikami (rozdział 34). W tym przypadku
interakcja sugerowałaby, że kombinacja aspiryny i beta-ka
Tablica 13.1. Kombinacje aktywnego leczenia. rotenu razem wziętych jest bardziej (lub mniej) efektywna,
Beta-karoten niż moglibyśmy się spodziewać z prostego dodawania osob
Aspiryna Nie Tak nych efektów każdego leku. Schemat ten pozwala więc uzy
skać dodatkową informację w stosunku do dwóch osobnych
Nie Żaden Beta-karoten badań i jest bardziej efektywnym sposobem wykorzystania
Tak Aspiryna Aspiryna + beta-karoten zasobów informacji, gdyż wymaga mniej licznej próby dla
uzyskania estymatorów o określonym stopniu dokładności.
(a)Równolegty
Populacja
Stosowanie Ocena
terapii odpowiedz,
Porównanie
Ocena odpowiedzi
Próba wstępna
(między
pacjentami)
Stosowanie Ocena
leczenia odpowiedzi.
kontrolnego
(b) Naprzemienny
Porównanie odpowiedzi
(w obrębie pacjentów)
Populacja
Stosowanie Stosowanie
Ocena ' Ocena ł
terapii leczenia
odpowiedzi. odpowiedzi.
washout kontrolnego
Ocena
Próba wstępna
Stosowanie Ocena N washout Stosowanie Ocena

leczenia odpowiedzi. terapii odpowiedzi
kontrolnego
Porównanie odpowiedzi
(w obrębie pacjentów)
Rycina 13.1. Schematy (a) równoległy oraz (b) naprzemienny.
13. Planowanie badania II 35

14 EKSPERYMENTY KLINICZNE
1
Eksperyment kliniczny jest jakąkolwiek formą planowanego listy liczb losowych lub za pomocą tablic liczb losowych (Doda
badania doświadczalnego sprawdzającego wpływ nowego le tek A12). Na przykład, w celu alokacji pacjentów do dwóch ro
czenia na wyniki kliniczne u ludzi. Eksperymenty kliniczne dzajów leczenia możemy podążać za sekwencją liczb losowych
mogą być badaniami przedklinicznymi, małymi badaniami kli i przydzielać pacjenta do leczenia A, jeżeli liczba jest parzysta
nicznymi oceniającymi wpływ i bezpieczeństwo (Eksperymen (traktując zero jako liczbę parzystą) lub do leczenia B, jeżeli
ty I/II fazy) lub pełną ocenę nowego sposobu leczenia (Ekspe liczba jest nieparzysta. Proces ten sprzyja podobieństwu mię
rymenty III fazy). W tym rozdziale omówimy główne aspekty dzy grupami leczenia pod względem charakterystyki pierwot
eksperymentów III fazy, z których każdy powinien być opisa nej (charakterystyki odniesienia) przy wprowadzaniu do ba
ny w publikacji (patrz lista ustaleń CONSORT w tablicy 14.1 dania, tj. unika się błędu systematycznego przydziału,
oraz ryciny 14.1 i 14.2). a w konsekwencji uwikłania (rozdziały 12 i 34), co maksyma
lizuje efektywność eksperymentu. Jeżeli zastosowano rando-
mizację, a charakterystyka pierwotna nie jest jednakowo roz
PORÓWNANIA LECZENIA
łożona w grupach leczenia (określa się ją przez zbadanie
Eksperymenty kliniczne są badaniami prospektywnymi, po odpowiednich miar podsumowujących, np. średnich i odchy
nieważ mierzą wpływ leczenia realizowanego obecnie na wy leń standardowych), rozbieżność musi być dziełem przypadku.
niki, z którymi będzie można się zapoznać w przyszłości. Dlatego błędem jest przeprowadzanie formalnego, statystycz
Ogólnie, w eksperymentach klinicznych ocenia się nowe za nego testowania hipotez (np. testu t, rozdział 21) do porówna
biegi (np. rodzaj lub dawka leku, procedura chirurgiczna). nia jakiejkolwiek pierwotnej charakterystyki w grupach le
Dla uproszczenia, w całym tym rozdziale założymy, że czenia, ponieważ testy hipotez określają, czy różnica między
w eksperymencie oceniamy tylko jedną nową formę leczenia. grupami jest otrzymana przez przypadek.
Ważną cechą eksperymentów klinicznych jest to, że powin
Eksperymenty, w których pacjenci są randomizowani,
ny być porównawcze (rozdział 12). Bez leczenia kontrolnego
tak aby otrzymali albo nowe leczenie, albo leczenie kontrolne,
nie mamy pewności, że każdy wynik jest wyłącznie skutkiem
znane są jako eksperymenty sterowane losowo (określane
leczenia, można też przecenić to, jak ważne jest nowe lecze
skrótem RCT — randomized controlled trials) i uważa się
nie. Kontrolą może być standardowe leczenie (kontrola pozy
je za optymalne.
tywna) lub, jeżeli takowe nie istnieje, kontrola negatywna,
którą może być placebo (które wygląda i smakuje jak nowy Istnieją dalsze udoskonalenia randomizacji, włączające
lek, lecz które nie zawiera żadnego aktywnego związku) lub randomizację warstwową (w której bierze się pod uwagę
brak leczenia, gdy zezwalają na to względy etyczne. ważne czynniki) i randomizację blokową (która gwarantuje
w przybliżeniu jednakowe wielkości grup leczenia). Przy
dział systematyczny, w którym pacjenci są przydzielani do
WYNIKI KOŃCOWE grup leczenia systematycznie, np. w zależności od dnia wi
Na wstępie musimy zadecydować, które wyniki najlepiej od zyty lub daty urodzin, powinien być unikany zawsze, gdy jest
zwierciedlają korzyści z nowej terapii. Nazywa się je podsta to możliwe; klinicysta może określić proponowany schemat
wowymi wynikami końcowymi badania i zwykle dotyczą leczenia dla poszczególnego pacjenta, zanim zostanie on włą
skuteczności terapii. Wtórne wyniki końcowe, które często czony do eksperymentu, a to może wpłynąć na jego/jej de
są związane z toksycznością, są interesujące i także powin cyzję co do włączenia pacjenta do eksperymentu. Czasami
ny być na początku wzięte pod uwagę. Ogólnie, wszystkie te używamy randomizacji klasterowej, w której do leczenia
wyniki końcowe są analizowane na końcu badania. Jednak przydzielamy grupy osobników (np. wszystkich ludzi zareje
że możemy sobie zażyczyć przeprowadzenia pewnych analiz strowanych u pojedynczego lekarza domowego) zamiast po
przejściowych (chwilowych), gdy na przykład chcemy się jedynczych osobników. W takich badaniach powinniśmy za
upewnić, że toksyczność nie jest nadmierna i nie wymaga chować szczególną uwagę przy planowaniu wielkości próby
przerwania eksperymentu. Należy uważać na problemy wy i analizowaniu danych (patrz również rozdziały 36, 41 i 42)2.
nikające z wielokrotnego testowania hipotez (rozdział 18),
gdy porównuje się wyniki powtarzanego leczenia.
ZAŚLEPIANIE LUB MASKOWANIE
PRZYDZIELANIE Obciążenie oszacowania może pojawić się wtedy, gdy pa
cjenci i/lub klinicyści są świadomi przydziału do grupy le
DO GRUPY TERAPEUTYCZNEJ czenia, zwłaszcza wtedy, gdy reakcja na nie jest subiektyw
Gdy pacjent formalnie został włączony do badania, przydziela na. Świadomość przydziału do grupy leczenia może wpływać
się go do grupy terapeutycznej. Generalnie pacjent jest przy na zauważanie oznak poprawy lub zdarzeń niepomyślnych.
dzielany W sposób losowy (tj. oparty na szansie), za pomocą Dlatego tam, gdzie to możliwe, wszyscy uczestnicy ekspery
procesu znanego jako przydział losowy lub randomizacja. mentu (klinicyści, pacjenci, oceniający) powinni być „zaśle
Przebiega to często przy użyciu wygenerowanej komputerowo piani" lub „maskowani" co do przydziału do grupy leczenia.
2
Pocook S. J.; Clmical Trials: A Practical Approach. Wiley, Chiche Kerry S. M., Bland J. M.: Santple size in cluster randomization.
1
ster 1983. British Medical Journal, 1998, 316, 549.
Eksperyment, w którym pacjent, zespół leczący i oceniający która osądza, czy nie narusza on Deklaracji Helsińskiej. Od
nie są świadomi przydziału do grupy leczenia, jest ekspery każdego pacjenta trzeba uzyskać zgodę poinformowanego pa
mentem podwójnie ślepym. Eksperymenty, w których nie cjenta (lub od legalnego opiekuna czy rodziców, gdy pacjent nie
możliwe jest „zaślepienie" pacjenta, mogą być pojedynczo jest pełnoletni) zanim zostanie on włączony do eksperymentu.
ślepe, przy założeniu, że klinicysta i/lub oceniający są „za
ślepieni" (nieświadomi) co do przydziału do leczenia.
PROTOKÓŁ
Zanim zostanie przeprowadzony jakikolwiek eksperyment
DANE PACJENTA
kliniczny, należy przygotować pisemny opis wszystkich
Jako że eksperymenty kliniczne prowadzone są na ludziach, aspektów badania, nazywany protokołem badania. Zawiera
dane pacjenta mają wielkie znaczenie. W szczególności, każdy on informację o celach i przedmiocie eksperymentu, wraz
eksperyment kliniczny musi przejść przez komisję etyczną, z opisem pacjentów, których należy włączyć do badania (kry-
Tablica 14.1. Lista tematów z deklaracji CONSORT (Consolidation of Standards for Reporting Trials), które należy włączyć do opisu ekspe
rymentu randomizowanego (www.consort-statement.org).
SEKCJA PRACY Pozy Opisane na
i temat cja Opis stronie *
TYTUŁ 1. Jak pacjenci zostali przyporządkowani do zabiegu (np. przydział losowy, randomizowany, lub lo
I STRESZCZENIE sowo przyporządkowany).
WSTĘP 2. Podstawy naukowe i uzasadnienie.
Podstawy
METODY 3. Kryteria wyboru uczestników oraz ustaleń i miejsca, gdzie dane zostały zebrane.
Uczestnicy
Zabiegi 4. Dokładne szczegóły zabiegów planowanych dla każdej grupy oraz informacje na temat tego, jak i kie
dy byty faktycznie wykonane.
Cele 5. Wyszczególnienie celów oraz hipotez.
Wyniki 6. Jasno zdefiniowane pierwotne i wtórne wyniki pomiarów, a tam, gdzie to możliwe, wszystkie metody
użyte do poprawy jakości pomiarów (np. obserwacje wielokrotne, szkolenie osób oceniających).
Wielkość próby 7. W jaki sposób wyznaczono wielkość próby i, gdy to było zastosowane, wyjaśnienie wszelkich analiz
przejściowych i reguł zatrzymania.
Randomizacja — 8. Metody użyte do tworzenia sekwencji przydziału losowego, uwzględniające szczegóły każdego
generacja sekwencji ograniczenia (np. blokowanie, stratyfikacja).
Randomizacja — 9. Metody użyte do implementacji sekwencji losowego przydziału, wyjaśnienie, czy sekwencja zosta
ukrywanie przydziału ła ukryta do czasu przypisania zabiegów.
Randomizacja — 10. Kto generował sekwencje przydziału, kto włączał do badania uczestników, kto przyporządkował
implementacja uczestników do ich grup.
Zaślepianie 11. Czy uczestnicy, osoby wykonujące zabiegi i oceniające wyniki byli nieświadomi przydziału do grupy.
(maskowanie) Tam, gdzie je zastosowano, jak oceniono powodzenie maskowania.
Metody statystyczne 12. Metody statystyczne użyte do porównywania grup w celu otrzymania wyniku(ów) pierwotnego(ych). Do
datkowe metody analiz, takie jak analizy w podgrupach lub analizy skorygowane.
WYNIKI 13. Przepływ uczestników w każdym etapie (bardzo pożądany jest diagram, patrz rycina 14.1). Dla każ
Przepływ uczestników dej grupy należy podać liczbę uczestników przyporządkowanych losowo, otrzymujących planowa
ne leczenie, kończących badanie i analizowanych w celu otrzymania wyników pierwotnych. Nale
ży opisać rozbieżności z planowanym badaniem, wraz z ich przyczynami.
Wtaczanie do badania 14. Daty określające okresy włączania i dalszego postępowania.
Dane bazowe 15. Dane demograficzne i charakterystyki kliniczne każdej grupy.
Analizowane liczby 16. Liczba uczestników (mianownik) w każdej grupie włączonej do każdej analizy i to, czy analiza była
wykonana z zamiarem leczenia. Tam, gdzie to możliwe, należy podać wyniki przy użyciu liczb bez
względnych (np. 10/20 zamiast 50%).
Wyniki i oszacowania 17. Podsumowanie rezultatów dla każdej grupy, dla wszystkich wyników pierwotnych i wtórnych oraz
oszacowana wielkość efektu i jego dokładność (np. 95% przedział ufności).
Analizy pomocnicze 18. Określenie różnorodności przez podanie wszystkich pozostałych wykonanych analiz, także analiz
w podgrupach i analiz skorygowanych, ze wskazaniem na wcześniej zaplanowane oraz robocze.
Zdarzenia niepomyślne 19. Wszystkie ważne zdarzenia niepomyślne lub efekty uboczne w każdej grupie zabiegowej.
DYSKUSJA 20. Interpretacja wyników, z uwzględnieniem hipotezy badania, źródeł możliwego błędu systematycz
Interpretacja nego oraz niedokładności i ryzyka błędu związanego z wielokrotnością analiz i wyników.
Uogólnienie 21. Możliwość uogólnienia (zewnętrzna ważność) wyników eksperymentu.
Ogólny dowód 22. Ogólna interpretacja wyników w kontekście współczesnej wiedzy.
14. Eksperymenty kliniczne 37

teria włączenia i wykluczenia), plany leczenia, opis zbiera padli z badania, a także pacjenci, którzy zmienili leczenie.
nia danych i analizy, ewentualne plany w przypadku wystą W celu uniknięcia błędu systematycznego badanie należy
pienia problemów i projekt szkolenia personelu. Ważną rze analizować na podstawie zamiaru leczenia: wszyscy pacjen
czą jest włączenie do eksperymentu wystarczającej liczby ci, o których mamy informację, są analizowani w grupach, do
pacjentów, aby szansa prawidłowego wykrycia prawdziwych których zostali pierwotnie włączeni, bez względu na to, czy
efektów leczenia była wystarczająco duża. Dlatego przed roz podlegali oni leczeniu. Gdy jest to możliwe, należy zebrać in
poczęciem każdego eksperymentu klinicznego należy wyzna formacje o pacjentach, którzy wypadli z eksperymentu. Nie
czyć optymalną wielkość badania (rozdział 36). poleca się analiz na bazie leczenia, w których pacjenci są
Protokół rozbieżności obejmuje pacjentów, którzy zostali włączani do analizy tylko wtedy, gdy mają zakończony pełny
włączeni do eksperymentu, lecz nie spełnili kryteriów proto kurs leczenia, ponieważ często prowadzi to do obciążenia po
kołu, np. pacjenci nieprawidłowo włączeni lub ci, którzy wy równań leczenia błędem systematycznym.
Rycina 14.1. Profil przebiegu eksperymentu randomizowanego Rycina 14.2. Przykład profilu eksperymentu (adaptowany za zgodą
zgodnie z deklaracją CONSORT (www.consort-statement.org). z eksperymentu opisanego w rozdziale 40).
38 Planowanio badania
15 BADANIA KOHORTOWE
W badaniu kohortowym obserwujemy zwykle przez jakiś chorowaniem byli narażeni na czynnik ryzyka, co pozwala na
czas grupę osobników w celu zbadania, czy narażenie na postulowanie przyczynowej roli tego czynnika. Ponieważ
szczególny czynnik etiologiczny wpłynie w przyszłości na za osobnicy na początku badania są wolni od choroby, często ob
padalność na jednostkę chorobową (rycina 15.1). Jeżeli tak, serwujemy efekt włączania osób zdrowych. Współczynniki
to czynnik ten zostaje uznany za czynnik ryzyka choroby. Na śmiertelności w pierwszym okresie badania są zatem często
przykład, wiele badań kohortowych sprawdzało związek niższe, niż moglibyśmy oczekiwać w ogólnej populacji. Stanie
między czynnikami dietetycznymi a rakiem. Chociaż więk się to oczywiste, gdy współczynniki śmiertelności zaczną na
szość badań kohortowych ma charakter prospektywny, moż gle rosnąć w kolejnych latach badania.
na również badać kohorty historyczne, w których informację
uzyskuje się retrospektywnie. Jednakże jakość studiów hi
storycznych jest często zależna od zapisów medycznych i od OBSERWACJA OSOBNIKÓW
pamięci, a te mogą podlegać obciążeniu. Gdy obserwujemy osobników przez pewien czas, istnieje za
Badania kohortowe mogą być ustalone lub dynamiczne. wsze ryzyko, że mogą oni wypaść z postępowania. Osobnicy
W pierws2ym przypadku, jeżeli osobnik opuszcza ustaloną mogą zmienić adres bez zostawienia informacji o zmianie
kohortę, nie jest zastępowany innym. Natomiast w kohortach miejsca zamieszkania lub mogą zdecydować, że chcą zakoń
dynamicznych osobnicy mogą wypadać z kohorty, a nowi do czyć badanie. Jeżeli duża liczba osobników wypada z postę
niej dołączać, gdy jest taka potrzeba. powania, zyski z badania kohortowego zoatają zmniejszone.
Powinniśmy zatem znaleźć sposób zminimalizowania takiego
wypadania, np. przez utrzymywanie regularnych kontaktów
WYBÓR KOHORTY z osobnikami.
Kohorta powinna być reprezentatywna dla populacji, co do
której będziemy uogólniali wyniki. Często jest korzystne, aby
osobnicy byli rekrutowani z podobnego źródła, takiego jak
INFORMACJA O WYNIKACH I NARAŻENIU
określona grupa zawodowa (np. pracownicy cywilni, lekarze Ważne jest uzyskanie pełnej i dokładnej informacji o skut
praktycy), gdyż można wtedy łatwo uzyskać informację kach choroby, np. śmiertelności i chorowaniu z innych przy
o śmiertelności i zachorowalności z zapisów w miejscu pracy, czyn. Można to osiągnąć dzięki przeszukiwaniu rejestrów
a z osobnikami można nawiązać ponowny kontakt, o ile będzie chorób, statystyk śmiertelności i zapisów szpitalnych oraz le
to konieczne. Taka kohorta może jednak nie być prawdziwie karzy rodzinnych.
reprezentatywna dla ogólnej populacji i może być zdrowsza. Narażenie na badany czynnik ryzyka może się zmieniać
Kohorty można też rekrutować z list lekarzy domowych, jeśli w czasie badania. Na przykład, jeżeli określamy związek
włączy się do badania grupy osobników o różnym stanie zdro między spożyciem alkoholu i chorobami serca, poziom typo
wia. Jednakże pacjenci ci będą mieli zbliżone warunki socjal wego spożycia alkoholu przez osobnika najprawdopodobniej
ne, gdyż mieszkają w tym samym obszarze. będzie się zmieniał w czasie. Dlatego w celu zbadania zmian
Gdy próbujemy określić efekt etiologiczny czynnika ryzy narażenia na ten czynnik z upływem czasu należy powtarzać
ka, osobnicy rekrutowani do kohorty powinni być zdrowi na wywiad przy kolejnych okazjach.
początku badania. Ma to na celu upewnienie się, że przed za
Niechorujący
Rozwój
choroby (a)
Narażeni
na czynnik
Niechorujący (c)
Niechorujący
Rozwój
choroby \b)
Nienarażeni
na czynnik
Niechorujący (d)
Teraz Przysztość
Rycina 15.1. Prezentacja w postaci dia
Uptyw czasu
gramu badania kohortowego (częstości
w nawiaeach, patrz tablica 15.1). Punkt początkowy
15. Badania kohortowe 39

ANALIZA BADAŃ KOHORTOWYCH ZALETY BADAN KOHORTOWYCH
• Można określić sekwencję czasową zdarzeń.
Tablica 15.1. Częstości obserwowane (patrz rycina 15.1). • Dostarczają informacji o szerokim zakresie wyników.
Narażeni na czynnik • Można bezpośrednio zmierzyć zapadalność na chorobę
Tak Nie Razem lub ryzyko zachorowania.
• Można zebrać bardzo szczegółowe informacje na temat
Badana choroba
Tak a b a+ b narażenia na szeroki zakres czynników.
Nie c d c+ d • Możliwe jest badanie narażenia na bardzo rzadkie
Razem at c b+ d n= a+ b+ c+ d czynniki.
• Narażenie można mierzyć wielokrotnie, tak że można
badać, jak zmienia się narażenie z upływem czasu.
• Zredukowany jest błąd systematyczny odwołania do
Ponieważ pacjenci obserwowani są w czasie longitudinal- pamięci i wyboru w porównaniu z badaniami przypadek-
nie, można oszacować ryzyko zachorowania w populacji po- -kontrola (rozdział 16).
przoz obliczenie ryzyka w badanej próbie.
Oszacowane ryzyko zachorowania = WADY BADAŃ KOHORTOWYCH

_ Liczba zachorowań w okresie badania _ a + b • Ogólnie badają one osobników w długich okresach
Całkowita liczba w kohorcie n i dlatego są kosztowne.
• Tam, gdzie interesujący wynik zdarza się rzadko, wy
Ryzyko zachorowania wśród osobników narażonych i nie- magana jest bardzo duża wielkość próby.
narażonych na badany w populacji czynnik można oszacować • W miarę postępu badania często zwiększa się utrata
w ten sam sposób. pacjentów, gdyż przemieszczają się lub opuszczają badanie,
co prowadzi do powstania obciążonych wyników.
Oszacowane ryzyko dla grupy narażonej, • Na skutek długiego czasu trwania badania c2ęsto poja
risk exp = a/(a+c). wia się trudność w utrzymaniu zgodności pomiarów i wyni
Oszacowane ryzyko dla grupy nienarażonej, ków w czasie. Co więcej, po wstępnym wywiadzie osobnicy
risk
mogą modyfikować swoje zachowania.
uneXp=fe/(6+rf)-
• Skutki choroby i ich prawdopodobieństwo lub sama
etiologia choroby mogą zmieniać się w czasie.
Wtedy oszacowane ryzyko względne
KOHORTY KLINICZNE
Czasami wybieramy kohortę pacjentów z tymi samymi wa
runkami klinicznymi, którzy są leczeni w jednym lub kilku
Ryzyko względne (RR — relaxive risk) oznacza zwiększo szpitalach, i obserwujemy ich (albo jako chorych hospitalizo
ne (lub zmniejszone) ryzyko choroby związane z ekspozycją wanych, albo jako ambulatoryjnych) w celu sprawdzenia, jak
na badany czynnik. Ryzyko względne równe jeden oznacza, wielu pacjentów doświadczyło ustąpienia choroby (w przy
Że ryzyko jest takie samo w grupach eksponowanej i nie eks padku pozytywnego wyniku badania) lub postępu choroby,
ponowanej. Ryzyko względne większe niż jeden oznacza, że takiego jak śmierć lub nawrót. Informacja o każdym pacjen
w grupie narażonej na czynnik istnieje zwiększone ryzyko cie, której szukamy, jest zwykle tą, którą zbiera się jako
w porównaniu z grupą nienarażoną; ryzyko względne mniej część rutynowego postępowania klinicznego. Cel kohort kli
sze od jeden wakazuje na redukcję ryzyka choroby w grupie nicznych lub obserwacyjnych baz danych może obejmować
eksponowanej. Na przykład, ryzyko względne równe 2 wska opis wyników dla osobników w określonym stanie i określe
zywałoby, że osobnicy w grupie narażonej mają dwa razy nie efektów rozmaitych podejść do leczenia (np. różne leki
większe ryzyko zachorowania niż ci z grupy nienarażonej. lub rozmaite techniki leczenia). W przeciwieństwie do eks
Ryzyko względne zawsze należy interpretować wraz z ry perymentów randomizowanych (rozdział 14), które często za
zykiem zachorowania. Nawet wysokie ryzyko względne ma wierają bardzo wybiórczą próbę osobników chcących uczest
ograniczone implikacje kliniczne, gdy ryzyko zachorowania niczyć w eksperymencie, kohorty kliniczne niejednokrotnie
jest bardzo małe. obejmują wszystkich pacjentów w określonym stanie w szpi
Wyznaczenie przedziału ufności dla ryzyka względnego talach objętych badaniem. Dlatego wyniki z tych kohort trak
pozwala sprawdzić, czy ryzyko względne jest równe jedno tuje się jako bardziej dokładne odzwierciedlenie wyników
ści. Obliczenia te przeprowadza się prosto przy użyciu kom widocznych w praktyce klinicznej. Jednakże, ponieważ przy
putera i dlatego pomijamy szczegóły. dział do leczenia w tych badaniach nie jest randomizowany
(rozdział 14), kohorty kliniczne są szczególnie narażone na
obciążenie uwikłania (rozdziały 12 i 34).
PRZYKŁAD
British Regional Heart Study1 jest wielkim badaniem ko- MI w następnych 10 latach
hortowym na bazie 7735 mężczyzn w wieku 40-59 lat, lo Palenie na
sowo wybranych z baz lekarzy domowych w 24 brytyj początku badania Tak Nie Razem
skich miastach. Ma na celu zidentyfikowanie czynników Zawsze palii 563 (9,5%) 5336 (90,5%) 5899
wywołujących niedokrwienną chorobę serca. Przy rekru Nigdy nie palił 87 (4,8%) 1732 (95,2%) 1819
towaniu do badania mężczyzn pytano o pewne czynniki de
Razem 650 (8,4%) 7068 (71,6%) 7718
mograficzne i dotyczące stylu życia, m.in. o zwyczaje doty
czące palenia papierosów. Spośród 7718 mężczyzn, od
których uzyskano informację o tym, czy palą, 5899 (76,4%)
Oszacowane ryzyko względne = = 2,00.
paliło na jakimś etapie swego życia (włączając tych, którzy
są aktualnymi palaczami i którzy kiedyś palili). W ciągu 10
następnych lat 650 spośród 7718 mężczyzn (8,4%) miało Można wykazać, że 95% przedział ufności dla prawdzi
zawał serca (MI — myocardial infarctiord. Wyniki przed wego ryzyka względnego wynosi: (1,60, 2,49).
stawione w tablicy pokazują liczbę i procent palaczy i nie Ryzyko względne możemy interpretować tak, że ozna
palących, którzy mieli zawał serca lub nie mieli go w okre cza, iż mężczyźni w średnim wieku, którzy kiedykolwiek
sie 10 lat. palili, najprawdopodobniej dwukrotnie częściej doznają
zawahi serca w ciągu najbliższych 10 lat, niż ci, którzy ni
gdy nie palili. Mówiąc inaczej, ryzyko zawału serca u męż
czyzn, którzy kiedykolwiek palili, jest o 100% większe niż
u tych, którzy nigdy nie palili.
1
Dane uzyskane dzięki uprzejmości: dr F. C. Lampe, ms M. Walker i dr P. Whincup, Department of Primary Care and Population Scien
ces, Royal Free and Unwersity College Medical School, Londyn, Wielka Brytania.
15. Badania kohortowe 41

16 BADANIA PRZYPADEK-KONTROLA
W badaniu przypadek-kontrola porównuje się charaktery odpowiedni. Często dopuszcza się wybór kontroli z populacji
stykę grupy pacjentów z pewną jednostką chorobową (przy ogólnej, chociaż osobnicy mogą wówczas nie mieć motywacji
padki) z grupą osobników bez stanu chorobowego (kontrola) do wzięcia udziału w takim badaniu i dlatego częstości odpo
w celu sprawdzenia, czy jakiekolwiek czynniki pojawiały się wiedzi mogą być mniejsze w kontroli niż w grupie przy
częściej lub rzadziej w grupie przypadków niż w grupie kon padków. Wybór kontroli z tej samej okolicy zamieszkania
trolnej (rycina 16.1). Takie badania retrospektywne nie do gwarantuje często, że przypadki i kontrole mają podobne
starczają informacji o chorobowości lub zachorowalności na warunki socjalne.
chorobę, lecz mogą dawać wskazówki, które czynniki wzmaga
ją lub redukują ryzyko choroby.
DOPASOWYWANIE
Wiele badań przypadek-kontrola jest dopasowywanych w taki
SELEKCJA PRZYPADKÓW
sposób, aby przypadki i kontrole byty jak najbardziej podobne.
Ważną rzeczą jest zdefiniowanie, czy przypadki zapadalności Ogólnie, pożyteczny jest dobór z dopasowaniem płci (tj. jeżeli
(pacjenci, którzy byli rekrutowani w chwili diagnozy) lub przy przypadek jest mężczyzną, to kontrola powinna być również
padki chorobowości (pacjenci, którzy byli zdiagnozowani przed mężczyzną), a czasami dopasowanie pacjentów według wieku.
włączeniem do badania) powinny być włączone do badania. Ważne jest jednak, aby nie dopasowywać na podstawie bada
W drugim przypadku pacjenci mogli mieć czas na zastanowie nego czynnika ryzyka lub jakiegokolwiek czynnika, który leży
nie się nad swoją historią narażenia na czynniki ryzyka, na przyczynowej ścieżce powstania choroby (rozdział 34), gdyż
zwłaszcza gdy choroba jest szeroko opisywana, tak jak rak, wyklucza to możliwość badania określającego każdy związek
i mogli zmienić swoje zachowania po diagnozie. Ważne, żeby zi między czynnikiem ryzyka a chorobą. Niestety, dopasowanie
dentyfikować tak wiele przypadków, jak to możliwe, aby wyni oznacza, że wpływ na chorobę zmiennych, które zostały użyte
ki niosły jak najwięcej informacji, a wnioski mogły zostać do dopasowania, nie może zostać zbadany.
uogólnione w przyszłości na następne populacje. Aby to osią
gnąć, trzeba czasem uzyskać dostęp do list szpitalnych i reje
strów chorób oraz włączyć przypadki śmierci w okresie, kiedy ANALIZA BADAŃ Z NIEDOPASOWANYMI
przypadki i kontrole byty definiowane, ponieważ ich wyklucze PRZYPADKAMI-KONTROLAMI
nie może prowadzić do obciążonej próby przypadków.
Tablica 16.1 ukazuje częstości obserwowane. Ponieważ pa
cjenci są wybrani na bazie ich statusu chorobowego, nie ma
SELEKCJA KONTROLI możliwości oszacowania absolutnego ryzyka zachorowania.
Możemy obliczyć iloraz szans, zdefiniowany jako:
Osobnicy kontrolni powinni być badani przed włączeniem do
eksperymentu, co pozwala upewnić się, że na pewno nie ma Szansa bycia przypadkiem
ją analizowanej choroby. Czasami może być więcej niż jeden w grupie narażonej
Iloraz szans =
osobnik kontrolny dla każdego przypadku. Tam, gdzie to Szansa bycia przypadkiem
możliwe, osobnicy kontrolni powinni być wybierani z tego sa w grupie nienarażonej
mego źródła, co przypadki. Kontrole są często wybierane ze gdzie na przykład szansa, aby być przypadkiem w grupie na
szpitali. Jednakże, ponieważ czynniki ryzyka związane ze rażonych jest równa:
skutkami jednej choroby mogą być także związane ze skut
kami innych chorób, dobór kontroli na bazie szpitalnej może prawdopodobieństwo bycia przypadkiem w grupie narażonej
spowodować nadreprezentację osobników, którzy byli ekspo prawdopodobieństwo niebycia przypadkiem w grupie narażonej
nowani na badany czynnik ryzyka, i dlatego nie zawsze jest
Szanse bycia przypadkiem w próbach narażonej (exp) i nie
narażonej (unexp) wynoszą:
szansaexp szansa
unexp:
i dlatego oszacowany iloraz szans wynosi
Gdy choroba jest rzadka, iloraz szans jest estymatorem

ryzyka względnego i interpretuje się go w podobny sposób,
tj. wskazuje zwiększoną lub zmniejszoną szansę związaną
z narażeniem na badany czynnik. Iloraz szans równy jeden
wskazuje, że szanse są takie same w grupach narażonej
i nienarażonej; iloraz szans większy od jeden wskazuje, że
szanse zachorowania w grupie narażonej są większe niż
w grupie nienarażonej, etc. Dla ilorazu szans można również
Rycina 16.1. Prezentacja w postaci diagramu przypadek-kontrola. wyznaczyć przedziały ufności i testować hipotezy.
Tablica 16.1. Wartości obserwowane (patrz rycina 16.1). ZALETY BADAŃ PRZYPADEK-KONTROLA
Narażenie na czynnik
• Są one ogólnie względnie szybkie, tanie i łatwe do wy
Tak Nie Suma
konania.
Stan choroby • Są szczególnie przydatne w rzadkich chorobach.
Przypadek a b a+ b • Można badać szeroki zakres czynników ryzyka.
Kontrola c d c+ d • Nie istnieje utrata obserwacji.
Suma a+c b+d n= a+ b + c+ d
WADY BADAŃ PRZYPADEK-KONTROLA

ANALIZA BADAŃ Z DOPASOWANYMI
• Obciążenie wywołane pamięcią, kiedy chorzy mają
PRZYPADKAMI-KONTROLAMI
różną zdolność zapamiętywania różnych szczegółów z wła
Tam, gdzie to możliwe, analiza badań z dopasowanymi przy snej historii, stanowi potencjalny problem. Na przykład, pa
padkami i kontrolami powinna pozwalać na to, by przypadki cjenci z rakiem płuc mogą dobrze pamiętać pewien okres,
i kontrole były związane ze sobą jako wynik dopasowania. kiedy palili, podczas gdy grupa kontrolna może nie pamiętać
Dalsze szczegóły na temat metod analizy dla badań powiąza podobnego okresu.
nych można znaleźć w rozdziale 30 (patrz: warunkowa regre • Jeżeli początek choroby uprzedza narażenie na czynnik
sja logistyczna) oraz w pracy Breslow i Day1. ryzyka, nie można wnioskować przyczynowości.
• Badania przypadek-kontrola nie są odpowiednie, gdy
1
narażenie na czynnik ryzyka jest niskie.
Breslow N. E., Day N. E.: Statistical Methods in Cancer Research,
Volume I — The Analysis of Case-control Studies. International
Agency for Cancer Research, Lyon 1980.
PRZYKŁAD
1327 kobiol w wieku 50-81 lat ze złamaniem biodra, Tak więc szansa złamania biodra u kobiet po menopau-
mieszkających w dużej aglomeracji miejskiej w Szwecji, zie w analizowanym zakresie wieku w Szwecji, które aktu
zostało przebadanych w badaniu niedopasowanych przy- alnie podlegają HRT, wynosiła 39% szansy tego zdarzenia
padków-kontroli. Zostały one porównane z 3262 kobietami u kobiet, które nigdy nie używały lub uprzednio używały
7. grupy kontrolnej w tym samym zakresie wiekowym, wy HRT, tj. aktualne leczenie HRT zmniejsza szansę złamania
branymi losowo z rejestru narodowego. W badaniu skon biodra o 61%.
centrowano się na sprawdzeniu, czy kobiety podlegające
obecnie postmenopauzalnej hormonalnej terapii zastępczej Częstości obserwowane w badaniu ztamań
(HRT — łwrmone replacement therapy) rzadziej łamały bio Nigdy nie
dra niż niepodlegające terapii. Wyniki w tablicy pokazują Obecnie leczone HRT/
liczbę kobiet leczonych obecnie HRT i tych, które nigdy nie leczone /wcześniej
HRT leczone HRT Razem
miały terapii lub podlegały jej wcześniej, w grupie badanej
i kontrolnej. Obserwowany iloraz szans = (40 x 3023)/(239 Ze złamaniem biodra (chore) 40 1287 1327
x 1287) = 0,39. Można wykazać, że 95% przedział ufności Bez złamania biodra (kontrola) 239 3023 3262
dla ilorazu szans wynosi (0,28, 0,56). • Razem 279 4310 4589
Dano pobrane / pracy: Michaelsson K., Baron J. A., Farahmand B. Y., i in.: Hormone replacement therapy and risk of hipfracture: popu-
lathn basfd rase-control study. British Medical Journal, 1998, 316, 1858-1863.
16. Badania przypadek-kontrola 43

17 TESTOWANIE HIPOTEZ
Często zbieramy dane w celu określenia, jak wiele mamy do OTRZYMYWANIE STATYSTYKI TESTOWEJ
wodów przeciwko określonej hipotezie o populacji. W celu
Po zebraniu danych, w celu wyznaczenia statystyki testu,
kwantyfikacji stopnia naszej pewności przeciw określonej podstawiamy wartości z naszej próby do wzoru, specyficzne
hipotezie stosujemy procedurę znaną jako testowanie hipo go dla testu, którego używamy. Statystyka ta odzwierciedla
tez (lub testowanie istotności). siłę dowodu zawartego w danych przeciwko hipotezie zero
Rozdział ten opisuje ogólne postępowanie w testowaniu wej — zwykle większa wartość, przy zaniedbaniu jej znaku,
hipotez (ramka 17.1); szczegóły testów dla różnych typów hi oznacza silniejszy dowód.
potez podane są w kolejnych rozdziałach. Dla ułatwienia,
test dla każdej z hipotez opisany jest w podobnej ramce.
OTRZYMYWANIE WARTOŚCI P
Wszystkie statystyki testowe podlegają znanym teoretycznym
rozkładom częstości (rozdziały 7 i 8). W celu uzyskania war
RAMKA 17.1 Testowanie hipotez tości p, reprezentującego pole w obu (lub czasem w jednym)
— ogólny przegląd ogonach rozkładu prawdopodobieństwa, wiążemy wartość sta
tystyki testu otrzymanej z próby ze znanym rozkładem. Więk
Testowanie hipotez obejmuje pięć etapów: szość pakietów komputerowych oblicza dwustronną wartość
1. Sformułowanie hipotez zerowej i alternatywnej, pod p w sposób automatyczny. Wartość p jest prawdopodobień
legających badaniu. stwem otrzymania naszych wyników lub wyników hardziej
2. Zebranie odpowiednich danych z próby obiektów. skrajnych, jeżeli hipoteza zerowa jest prawdziwa. Hipoteza
3. Obliczenie wartości statystyki testu określonej dla hi zerowa bardziej wiąże się z interesującą nas populacją nla
potezy zerowej. z próbą. Dlatego hipoteza zerowa jest albo prawdziwa, albo fał
4. Porównanie wartości statystyki testu z wartościami szywa i nie możemy interpretować wartości p jako prawdopo
znanego rozkładu prawdopodobieństwa. dobieństwa, że hipoteza zerowa jest prawdziwa.
5. Interpretacja wartości p i wyników.
UŻYCIE WARTOŚCI P
Musimy podjąć decyzję, jak silnych dowodów potrzebujemy
DEFINIOWANIE HIPOTEZ do odrzucenia hipotezy zerowej na korzyść hipotezy alterna
ZEROWEJ I ALTERNATYWNEJ tywnej. Im mniejsza jest wartość p, tym mamy silniejsze do
wody przeciw hipotezie zerowej.
Zwykle testujemy hipotezę zerową (HJ, która zakłada brak • Zazwyczaj przyjmujemy, że jeżeli wartość p jest mniej
oddziaływania w populacji (np. różnica między średnimi wy- sza niż 0,05, mamy dowód wystarczający do odrzucenia hi
no5i zero). Na przykład, jeżeli interesuje nas porównanie od potezy zerowej, skoro istnieje tak mała szansa uzyskania ta
setka palących mężczyzn i kobiet w populacji, hipoteza zero kich wyników, jeżeli hipoteza zerowa byłaby prawdziwa.
wa ma kształt: Możemy wtedy odrzucić hipotezę zerową i powiedzieć, że
wyniki są istotne na poziomie 5% (rycina 17.1).
HQ. Odsetki palących mężczyzn i kobiet w populacji są ta
• Jeżeli natomiast wartość p jest równa lub większa niż
kie same.
0,05, zazwyczaj stwierdzamy, że nie mamy dowodów wystar
Następnie określamy hipotezę alternatywną (HJ, która czających do odrzucenia hipotezy zerowej. Nie odrzucamy hi
zachodzi, gdy hipoteza zerowa nie jest prawdziwa. Hipoteza potezy zerowej i mówimy, że wyniki nie są istotne na pozio
alternatywna odnosi się bezpośrednio do teorii, którą chce mie 596 (rycina 17.1). Nie oznacza to, że hipoteza zerowa jest
my zbadać. Tak więc, w naszym przypadku możemy sformu prawdziwa; po prostu nie mieliśmy dostatecznego dowodu,
łować hipotezę: aby ją odrzucić.
/fj-. Odsetki palących mężczyzn i kobiet w populacji się
różnią.
Nie określiliśmy kierunku różnicy między osobami palą
cymi, tzn. nie stwierdziliśmy, czy mężczyźni stanowią więk
szy czy mniejszy odsetek w populacji niż kobiety. Jest to
więc tzw. test dwustronny, w którym dopuszczamy każdą
ewentualność. Test ten jest polecany, gdy nie jesteśmy pewni
kierunku różnicy, o ile takowa istnieje. W pewnych, bardzo
rzadkich okolicznościach, możemy przeprowadzić test jedno
stronny, w którym w ff, określamy kierunek działania. Moż
na go zastosować, gdy rozważamy chorobę, na skutek której
wszyscy nie leczeni umierają (nowy lek nie może sprawy po
gorszyć), lub gdy prowadzimy badanie równoważności czy
braku pogorszenia (patrz ostatnia część tego rozdziału).
Rycina 17.1. Rozkład prawdopodobieństwa statystyki testowej uka
zujący dwustronne prawdopodobieństwo, p = 0,05.
44 Testowanie hipotez
Wybór 5% jest arbitralny. W 5% sytuacji błędnie odrzuci BADANIA RÓWNOWAŻNOŚCI
my hipotezę zerową, chociaż jest ona prawdziwa. W sytu I BRAKU POGORSZENIA
acjach, w których implikacje kliniczne błędnego odrzucenia
hipotezy zerowej są poważne, możemy żądać silniejszego do W większości eksperymentów zrandomizowanych kontrolo
wodu przed jej odrzuceniem (np. możemy się zdecydować na wanych (rozdział 14) dwóch lub większej liczby sposobów le
odr2ueenie hipotezy zerowej, jeżeli wartość p jest mniejsza czenia jesteśmy zwykle zainteresowani wykazaniem wyż
niż 0,01 lub 0,001). Wybrana wartość odcięcia dla p (np. 0,05 szości co najmniej jednego leczenia nad pozostałymi. Jednak
lub 0,01) zwana jest poziomem istotności testu; trzeba go w pewnych sytuacjach możemy uważać, że nowe leczenie
wybrać przed zebraniem danych. (np. lek) nie jest bardziej efektywne niż leczenie aktualnie
Opisywanie wyników jako istotnych tylko na pewnym po stosowane, lecz posiada inne ważne zalety, prawdopodobnie
ziomie odcięcia (np. stwierdzenie tylko, że p < 0,05) może być w postaci zmniejszenia efektów ubocznych, wielkości pigułek
mylące. Na przykład, jeżeli p = 0,04, odrzucimy /f0; jeżeli lub kosztów. Wtedy możemy chcieć pokazać, że skuteczność
jednak p = 0,06, nie odrzucimy jej. Czy rzeczywiście są one nowego leczenia jest podobna (w eksperymencie równoważ
różne? Dlatego polecamy podawanie dokładnej wartości p, ności) lub nie jest znacząco gorsza (w eksperymencie braku
otrzymywanej często w wynikach komputerowych. pogorszenia) od skuteczności aktualnego leczenia.
Podczas przeprowadzania eksperymentu równoważności
TESTY NIEPARAMETRYCZNE lub testu braku pogorszenia nie stosuje się procedury używa
nej do testowania hipotezy w zwykłym eksperymencie prze
Testowanie hipotez oparte na znajomości rozkładów prawdo
wagi, który testuje hipotezę zerową zakładającą, że oba sposo
podobieństwa, któremu podlegają dane, określane jest jako
testowanie parametryczne. Często się zdarza, że dane nie by leczenia są takie same. Dzieje się tak dlatego, że (1) wynik
spełniają założeń, które leżą u podstaw tych metod (rozdział nieistotny nie implikuje braku pogorszenia/równoważności,
35). W tej sytuacji możemy użyć tegtów nieparametrycznych a (2) nawet jeżeli zostanie wykryty efekt istotny statystyc2nie,
(czasami określanych jako testy niezależne od rozkładów lub może on być nieważny z klinicznego punktu widzenia. Zamiast
metod rangowych). Testy te ogólnie zastępują dane poprzez tego, w eksperymencie równoważności odwracamy hipotezy
ich rangi (tj. liczby 1, 2, 3 etc. opisujące ich pozycje w upo zerową i alternatywną tak, że hipoteza zerowa wyraża różni
rządkowanym zestawie danych) i nie wymagają żadnych za cę, a hipoteza alternatywna wyraża równoważność.
łożeń co do rozkładu prawdopodobieństwa w danych. Zamiast obliczania statystyki testowej, podchodzimy ogól
Testy nieparametryczne przydają się szczególnie wtedy, nie do problemu oszacowania równoważności lub braku po
gdy próby są mało liczne (tak, że nie ma możliwości oszaco gorszenia1 poprzez sprawdzenie, czy przedział ufności dla
wania rozkładu danych) i/lub gdy dane są podawane w skali badanego efektu (np. różnica w średnich pomiędzy dwoma
kategorialnej. Jednakże testy nieparametryczne generalnie badanymi grupami) leży całkowicie lub częściowo w zdefinio
trwonią informacje; dlatego w przypadku spełnienia wszyst wanym uprzednio zakresie równoważności (tj. zakresie war
kich założeń niezbędnych do użycia testów parametrycznych tości, określonym przez ekspertów klinicznych, który odpo
posiadają one mniejszą moc (rozdział 18) wykrycia rzeczywi wiada efektowi braku istotności klinicznej). Jeżeli cały
stego efektu niż odpowiednie testy parametryczne. Co więcej, przedział ufności dla badanego efektu leży wewnątrz zakre
są one przede wszystkim testami istotności, które nie pozwa su równoważności, wtedy wnioskujemy, że dwa sposoby le
lają na uzyskanie estymatorów interesujących nas efektów; czenia są równoważne; w tej sytuacji, nawet gdy górna i dol
prowadzą raczej do podjęcia decyzji, a nie do oceny i zrozu na granica przedziału ufności sugerują, że istnieje przewaga
mienia danych. jednego sposobu leczenia nad drugim, nie jest prawdopodob
ne, by było to ważne z punktu widzenia klinicznego. W eka-
KTÓREGO TESTU UŻYĆ? perymencie braku pogorszenia chcemy pokazać, że nowy
sposób leczenia nie jest istotnie gorszy od sposobu standar
Decyzja, którego testu statystycznego należy użyć, zależy od dowego (jeżeli nowe leczenie okazuje się lepsze niż standar
projektu badania, typu zmiennej i rozkładu, jakiemu podlega dowe, będzie to dla nas dodatkowa korzyść!). W tej sytuacji,
ją dane z badania. Pomocą w podjęciu decyzji może być sche jeżeli dolna granica odpowiedniego przedziału ufności nie
mat blokowy zamieszczony na wewnętrznej stronie okładki.
wypada poniżej dolnej granicy zakresu równoważności, mo
żemy wnioskować, że nowe leczenie nie jest gorsze.
TESTOWANIE HIPOTEZ Jeżeli nie zostanie inaczej zaznaczone, testy hipotez w ko
A PRZEDZIAŁY UFNOŚCI lejnych rozdziałach są testami przewagi Należy zwrócić uwa
Przedziały ufności (rozdział 11) i testowanie hipotez są ze so gę, że metody wyznaczania wielkości próby opisane w rozdzia
bą ściśle powiązane. Podstawowym celem testowania hipotez le 36 nie stosują się do eksperymentów równoważności lub
jest podjecie decyzji i znalezienie dokładnej wartości p. braku pogorszenia. Wielkość próby niezbędna w eksperymen
2
Przedziały ufności kwantyfikują interesujący nas wynik (np. tach równoważności lub braku pogorszenia jest ogólnie więk
różnicę średnich) i pozwalają na określenie klinicznych apli sza niż w eksperymencie porównywania przewagi, jeżeli
kacji wyników. Ponieważ jednak określają one zakres wiaro- wszystkie czynniki wpływające na wielkość próby (tzn. po
godnych wartości prawdziwego wyniku, mogą być również ziom istotności statystycznej, moc) są takie same.
użyte do podejmowania decyzji, aczkolwiek nie pozwalają na
znalezienie dokładnej wartości p. Na przykład, jeżeli hipote
tyczna wartość wyniku (np. zero) leży poza 95% przedziałem
* John B., Janas P., Lewis J. A., Ebbutt, A. F.: Trials to assess equr
ufności, wtedy uznajemy, że wartość hipotetyczna nie jest ivalence: the importance of rigorous methods. British Medical Jour
wiarogodna i odrzucamy H0. W naszym przypadku wiemy, nal 1996, 313, 36-39.
że wartość p jest mniejsza niż 0,05, ale nie wiemy, jaka jest ** Julious, S. A.: Tutorial in Biostatistics: Sample sizesfor clinical
dokładnie. trials with Normal data Statistics in Medicine, 2004, 23, 1921-1986.
17. Testowanie hipotez 45

18 BŁĘDY W TESTOWANIU HIPOTEZ
PODEJMOWANIE DECYZJI błędu II rodzaju. Na szczęście jednak wiemy, jakie czynniki

wpływają na moc, i dlatego możemy ją kontrolować, zwraca
Większość testów hipotez w statystyce medycznej porównuje
jąc na nie uwagę.
grupy ludzi, którzy są narażeni na rozmaite zdarzenia. Może
my na przykład być zainteresowani porównaniem dwóch spo
sobów leczenia mających na celu zmniejszenie śmiertelności MOC I ZWIĄZANE Z NIĄ CZYNNIKI
po 5 latach chorowania na raka piersi. Dla danego wyniku Podstawową rzeczą jest znajomość mocy proponowanego te
(np. śmierci) dokonujemy interesującego nas porównania (np. stu na etapie planowania naszego badania. Na dobrą sprawę
różnicy w odsetkach śmiertelności po 5 latach chorowania), powinniśmy rozpoczynać badanie, gdy wierzymy, że istnieje
interesującego nas efektu lub równoważnie, wyniku lecze dość duża szansa wykrycia istotnego klinicznie efektu, jeże
nia. Hipotezę zerową wyrażamy w postaci braku efektu (np. li on istnieje (przez „dość duża" rozumiemy, że moc powin
śmiertelność po 5 latach chorowania na raka piersi jest taka na wynosić co najmniej 80%). Podjęcie badania klinicznego,
sama w obu grupach leczenia); dwustronna hipoteza alterna które ma, powiedzmy, tylko 40% szansy na wykrycie rzeczy
tywna stwierdza, że efekt nie jest zerowy. Przeprowadzamy wistego efektu leczenia jest rzeczą etycznie nieodpowiedzial
test, który upoważnia nas do podjęcia decyzji, czy mamy do ną i oznacza stratę czasu oraz środków.
stateczne podstawy do odrzucenia hipotezy zerowej (rozdział Kilka czynników ma bezpośredni wpływ na moc danego
17). Możemy podjąć jedną z dwóch decyzji: albo odrzucimy testu.
hipotezę zerową, albo jej nie odrzucimy. • Wielkość próby: moc rośnie z wielkością próby. Ozna
cza to, że duże próby dają większą niż małe próby możliwość
PODJĘCIE BŁĘDNEJ DECYZJI wykrycia ważnych klinicznie efektów, o ile one istnieją.
Jeżeli próba jest bardzo mała, test może mieć niewystarcza
Chociaż spodziewamy się, że wyciągniemy prawidłowy wnio
jącą moc do wykrycia określonego efektu. W rozdziale 36
sek co do hipotezy zerowej, musimy pamiętać o tym, że ponie
wytłumaczymy, jak biorąc pod uwagę moc, wyznaczamy
waż mamy jedynie próbę informacji, możemy podjąć błędną
wielkość próby. Metody te mogą zostać również użyte do
decyzję co do odrzucenia lub nie hipotezy zerowej. Możliwe
określenia mocy testu dla określonej wielkości próby.
błędy, jakie możemy popełnić, przedstawia tablica 18.1.
• Zmienność obserwacji: moc wzrasta, gdy zmienność
• Błąd I rodzaju: Odrzucamy hipotezę zerową, gdy
obserwacji maleje (rycina 18.1).
w rzeczywistości jest ona prawdziwa, i stwierdzamy istnie
• Wielkość interesującego nas efektu: moc testu jest
nie różnicy, gdy w rzeczywistości jej nie ma. Maksymalna
większa dla większych efektów. Test ma zatem większą
szansa (prawdopodobieństwo) popełnienia błędu I rodzaju
szansę wykrycia dużego rzeczywistego efektu niż małego.
jest oznaczana symbolem a (alfa). Jest to poziom istotności
• Poziom istotności: moc jest większa, gdy poziom istotno
testu (rozdział 17); odrzucamy hipotezę zerową, gdy nasza
ści jest większy (gdy prawdopodobieństwo wystąpienia błędu I
wartość p jest mniejsza niż poziom istotności, tzn. gdy p < a.
rodzaju (a) wzrasta, prawdopodobieństwo błędu II rodzaju (/?)
O wartości a musimy zadecydować, zanim zbierzemy na
maleje). Zatem, bardziej prawdopodobne jest wykrycie rzeczy
sze dane; zwykle przyjmujemy dla niej konwencjonalną war
wistego efektu, gdy na etapie planowania zdecydujemy, że na
tość 0,05, chociaż możemy też przyjąć wartość bardziej re
szą wartość p będziemy uznawać za znaczącą, jeżeli jest ona
strykcyjną 0,01 lub mniej restrykcyjną, taką jak 0,10.
mniejsza niż 0,05, a nie jeżeli jest mniejsza niż 0,01. Związek
Szansa, że popełnimy błąd I rodzaju nigdy nie przekracza wy
między mocą a poziomem istotności ilustruje rycina 18.2.
branego przez nas poziomu, powiedzmy a = 0,05, ponieważ
Należy zwrócić uwagę, że badanie przedziałów ufności
odrzucimy hipotezę zerową tylko wtedy, gdy p < 0,05. Jeżeli
(rozdział 11) dla interesujących nas wyników wskazuje, czy
stwierdzimy, że p > 0,05, nie odrzucimy hipotezy zerowej
moc testu jest wystarczająca. Szerokie przedziały ufności
i w konsekwencji nie popełnimy błędu I rodzaju.
wynikają z małej próby i/lub ze znacznej zmienności oraz
• Błąd II rodzaju: Nie odrzucamy hipotezy zerowej, gdy
wskazują na niską moc.
jest onafatszywa, i stwierdzamy brak efektu, gdy w rzeczy
wistości on istnieje. Szansa popełnienia błędu II rodzaju jest
oznaczona przez/? (beta); jego dopełnienie, (1 -/ty to moc te
WIELOKROTNE TESTOWANIE HIPOTEZ
stu. Zatem moc jeat prawdopodobieństwem odrzucenia hipote
zy zerowej, gdy jest onafatszywa; tzn. jest to szansa (zazwy Często na zbiorze danych chcemy przeprowadzić pewną liczbę
czaj wyrażana w procentach) wykrycia jako statystycznie testów istotności, np. gdy składa się on z wielu zmiennych lub
istotnego rzeczywistego efektu leczenia o określonej wielkości. występują więcej niż dwa sposoby leczenia. Szansa popełnie
W idealnych warunkach moc naszego testu wynosiłaby nia błędu I rodzaju rośnie szybko z liczbą porównań, prowa
100%; musimy jednakże zauważyć, że jest to niemożliwe, dząc do fałszywych wniosków. Dlatego powinniśmy wykony
gdyż zawsze istnieje szansa, chociażby znikoma, popełnienia wać jedynie matą liczbę testów, odnoszących się do pierwot
nych celów badania i określonych a priori Istnieje możliwość
użycia pewnych sposobów przystosowania post-hoc warto
Tablica 18.1. Konsekwencje testowania hipotez. ści p, które uwzględniają liczbę wykonywanych testów (roz
Odrzuć Hn Nie odrzucaj Hn dział 22). Na przykład, metoda Bonferroniego (traktowana czę
sto jako konserwatywna) polega na mnożeniu każdej wartości
HQ prawdziwa Biąd I rodzaju Brak błędu
p przez przeprowadzaną liczbę testów; każda decyzja o istot
H0 fałszywa Brak błędu Błąd II rodzaju ności jest wtedy oparta na tej poprawionej wartości p.
46 Testowanie hipotez
Rycina 18.1. Krzywe mocy, ukazujące zwią
zek między mocą a wielkością próby w każ
dej z dwóch grup przy porównywaniu dwóch
średnich za pomocą testu t dla zmiennych
niepowiązanych (rozdział 21). Każda krzywa
odnosi się do testu dwustronnego przy przy
jętym poziomie istotności 0,05 oraz efekcie
(np. różnicy pomiędzy średnimi) wynoszą
cym 2,5. Założone odchylenia standardowe
pomiarów w obu grupach są rozmaite dla
każdej krzywej mocy (patrz przykład, roz
dział 36).
Rycina 18.2. Krzywe mocy, ukazujące zwią

zek pomiędzy mocą a wielkością próby w każ
dej z dwóch grup przy porównywaniu dwóch
proporcji za pomocą testu Chi-kwadrat (roz
dział 24). Krzywe wykreślono dla badanego
efektu (tj. różnicy w proporcjach czynnika
zainteresowania w obu grupach leczenia)
wynoszącego 0,25 (np. 0,65 - 0,40) lub 0,10
(np. 0,50 - 0,40); poziom istotności testu dwu
stronnego wynosi 0,05 lub 0,01 (patrz przy
kład, rozdział 36).
18. Błędy w testowaniu hipotez 47

19 DANE NUMERYCZNE: POJEDYNCZA GRUPA
PROBLEM
2. Zbieramy odpowiednie dane z próby osobników.
Mamy próbę jednej grupy obiektów i jedną interesującą nas 3. Obliczamy wartość statystyki właściwej dla
zmienną numeryczną lub porządkową. Chcemy się dowie
dzieć, czy wartość przeciętna tej zmiennej przybiera okre
śloną wielkość. Na przykład, możemy mieć próbę pacjentów
w określonym stanie klinicznym. We krwi zdrowych osobni
ków monitorowaliśmy poziomy trójglicerydów i wiemy, że która podlega rozkładowi t z (n - 1) stopniami swobody.
mają one średnią geometryczną równą 1,74 mmol/1. Chcemy 4. Porównujemy wartość statystyki testowej z warto
wiedzieć, czy przeciętny poziom u naszych pacjentów jest ta ściami znanego rozkładu prawdopodobieństwa.
ki sam, jak wspomniana wartość. Dodatek A2.
5. Interpretujemy wartość p i wyniki.
TEST f DLA JEDNEJ PRÓBY Interpretujemy wartość p i obliczamy przedział ufno
ści dla prawdziwej średniej w populacji (rozd2iał 11).
Założenia 95% przedział ufności jest dany jako:
W populacji zmienna ma rozkład normalny z daną (na ogół
nieznaną) wariancją. Pobieramy próbę rozsądnej wielkości,
tak byśmy mogli sprawdzić założenie o normalności rozkła gdzie t005 jest punktem procentowym rozkładu tz (n- 1)
du (rozdział 35). stopniami swobody, który daje dwustronne prawdopodo
bieństwo 0,05.
Uzasadnienie
Chcemy się dowiedzieć, czy średnia /* zmiennej w interesu
jącej nas populacji różni się od pewnej hipotetycznej warto Interpretacja przedziału ufności
ści Hi. W tym celu stosujemy statystykę testową opartą na 95% przedział ufności określa zakres wartości, w którym
różnicy między średnią próby 5c~ oraz juv Załóżmy, że nie z pewnością 95% leży prawdziwa średnia populacyjna. Jeże
2namy wariancji w populacji; wtedy rozważana statystyka li 95% przedział ufności nie zawiera hipotetycznej wartości
testowa, często określana jako Z, podlega rozkładowi t. Jeże dla średniej odrzucamy hipotezę zerową na poziomie 5%.
li znamy wariancję w populacji lub wielkość próby jest du Jeżeli jednak przedział ufności zawiera to wtedy, odrzu
ża, możemy użyć alternatywnego testu opartego na rozkła cając hipotezę zerową na tym poziomie, popełniamy błąd.
dzie normalnym (tzw. £-test). Jednakże w obu sytuacjach
wyniki obu testów są prawie identyczne. Jeżeli założenia nie są spełnione
Może się zdarzyć, że zmienna nie podlega rozkładowi nor
Dodatkowa uwaga malnemu. Chociaż test f jest stosunkowo odporny na brak
Mamy próbę o wielkości n i oszacowanym odchyleniu stan normalności, to należy zwracać uwagę na silne skośności.
dardowym s. Możemy wtedy albo przetransformować dane, aby zmienna
miała rozkład normalny (rozdział 9), albo użyć testu niepara
metrycznego, takiego jak test znaków lub rangowy test Wil-
1. Definiujemy podlegające badaniu hipotezy zerową coxona (rozdział 20).
i alternatywną
Średnia w populacji, równa się
Średnia w populacji nie równa się
48 Podstawowa techniki analizy danych

TEST ZNAKÓW
Test znaków bierze pod uwagę liczbę wartości w naszej
Uzasadnienie próbie, które są większe (lub mniejsze) niż X.
Test znaków jest prostym testem opartym na rozkładzie Test znaków jest prostym testem; możemy też jednak
mediany. Przyjmujemy pewną hipotetyczną wartość X dla użyć mocniejszego testu, testu rangowanych znaków Wil-
mediany w populacji. Jeżeli nasza próba pochodzi z tej po coxona (rozdział 20), który przy przeprowadzaniu takiej
pulacji, wtedy w przybliżeniu polowa wartości w próbie analizy bierze pod uwagę zarówno rangi danych, jak i ich
powinna być większa niż A, a polowa mniejsza niż X (po wy znaki.
kluczeniu każdej wielkości, która jest równa X).
1. Definiujemy podlegające badaniu hipotezy zerową my pod uwagę bezwzględną wartość (tzn. dodatnią) liczby
i alternatywną podanej między kreskami. Rozkład 2 jest w przybliżeniu
HQ: Mediana w populacji równa się X. normalny. Odjęcie wartości V2 stanowi tzw. poprawkę na
H^. Mediana w populacji nie równa się X. ciągłość, którą musimy uwzględnić z uwagi na fakt, że
2. Zbieramy odpowiednie dane z próby osobników. wiążemy wartość dyskretną (r) z rozkładem ciągłym (roz
3. Obliczamy wartości statystyki specyficznej dla HQ kładem normalnym).
Pomijamy wszystkie wartości równe X, pozostawiając 4. Porównujemy wartość statystyki testowej z warto
n' wartości. Zliczamy wartości, które są większe od X. Po ściami ze znanego rozkładu prawdopodobieństwa.
dobnie, zliczamy wszystkie wartości, które są mniejsze od • Jeżeli n ś 10, należy porównać r z wartościami w Do
X. (W praktyce obliczamy różnicę między każdą wartością datku A6.
w próbie i X, biorąc pod uwagę znak tej różnicy.) Bierze • Jeżeli n > 10, należy porównać z z wartościami w Do
my pod uwagę wartość r, będącą mniejszą z tych dwóch datku Al.
zliczeń. 5. Interpretujemy wartość p i wyniki.
• Gdy n' s 10, wartością statystyki jest r. Interpretujemy wartość p i obliczamy przedział ufności
dla mediany — niektóre pakiety statystyczne wykonują to
automatycznie; jeżeli nie, możemy porangować wartości
• Gdy n' > 10, obliczamy w kierunku ich wzrostu i porównać z wartościami w Do
datku A7 w celu określenia rang wartości, których należy
użyć do zdefiniowania granic przedziału ufności. Ogólnie,
gdzie n'/2 jest liczbą wartości powyżej (lub poniżej) me przedziały ufności dla mediany będą szersze niż dla śred
diany, której moglibyśmy oczekiwać, gdyby hipoteza zero niej.
wa była prawdziwa. Pionowe kreski wskazują, że bierze-
PRZYKŁAD
foUiiejif pewne dowody aa to, że wysokie poziomy trójgli- populacji. Do zbadania tego użyto testu I dla jednej pró
cerydów we krwi są powiązane z chorobą serca. W ra by. Poziomy trójglicerydów są prawoskośne (rycina 8.3a);
mach dużego badania kohortowego nad chorobami serca logarytmy poziomu trójglicerydów mają w przybliżeniu
Tebrano dane na temat poziomu trójglicerydów u 232 męż rozkład normalny (rycina 8.3b), tak więc wykonujemy na
czyzn, u których rozwinęła się choroba serca w okresie szą analizę na wartościach logarytmowanych. U mężczyzn
5 lat po włączeniu do badania. Chcielibyśmy dowiedzieć w ogólnej populacji średnia wartości logarytmowanych
się, czy średni poziom trójglicerydów w populacji męż wynosi 0,24 log10 (mmol/1), co jest równoważne średniej
czyzn, /. której pobrano próbę, jesl taki sam jak w ogólnej geometrycznej 1,74 mmol/1.
1. Średnia IogjQ (poziom trójgliccrydów) w populacji 4. Porównujemy f z wartościami w Dodatku A2 przy 231
mężczyzn, u których rozwija się choroba serca, równa stopniach swobody: p < 0,001.
się 0,24 loy (inmol/1). 5. Istnieje silny dowód przemawiający za odrzuceniem
Średnia log10 (poziom trójglicerydów) w populacji hipotezy zerowej, że średnia geometryczna poziomu trój
mężczyzn, u których rozwija sie choroba serca, nic rów glicerydów w populacji mężczyzn z rozwijającą się cho
na się 0,24 log (mmol/1). robą serca wynosi 1,74 mmol/1. Średnia geometryczna
2. Wielkość próby n = 232. poziomu trójglicerydów w populacji mężczyzn z rozwija
Średnia wartości zlogarytmowanych x - 0,31 log jącą się chorobą serca jest obliczana jako antylogaryliii
(mmol/1). (0,31) = 100-31, który wynosi 2,04 mmol/1. 95% przedział
Odchylenie standardowe wartości zlogarytmowanych ufności dla średniej geometrycznej poziomu trójglicery
.*= 0,23 log (mmol/1). dów zawiera się między 1,90 a 2,19 mmol/1 (tj. antyloga-
3. Statystyka testowa, rytm 10,31 ± 1,96 x 0,23/\/232]). Dlatego w tej populacji
pacjentów średnia geometryczna poziomu irójglicerydów
0,31-0,24 ^
/= 4 6 4
jest istotnie wyższa od poziomu w ogólnej populacji.
0,23/vr232
19. Dane numeryczne: pojedyncza grupa 49

Do przeprowadzenia podobnej analizy nietransformowa- danych. Zakładamy, że mediana i średnia geometryczna
nycli poziomów trójglicerydów możemy użyć testu zna poziomu trójglicerydów w populacji mężczyzn są zbliżone.
ków, gdyż iik- wymaga on żadnych założeń co do rozkładu
1. WQ.: Mediana poziomu trójglicerydów w populacji 4. Porównujemy z z wartościami w Dodatku Al:

mężczyzn, u których rozwija się choroba serca, jest rów p = 0,012.
na 1,74 mmol/1. 5. Istnieje dowód pozwalający na odrzucenie hipotezy
//;: Mediana poziomu trójglicerydów w populacji zerowej, że mediana poziomu trójglicerydów w populacji
mężczyzn, u których rozwija się choroba serca, nie jest mężczyzn z rozwijającą się chorobą serca wynosi 1,74
równa 1,74 irimol/1. mmol/1. Wzór w Dodatku A7 wskazuje, że 95% prze
2. W tym zbiorze danych wartość mediany wynosi dział ufności dla mediany populacji jest określony przez
l,34miiiol/l. 101. oraz 132. porangowaną wartość; odpowiada to war
3. ttadamy różnice pomiędzy każdą wartością a 1,74. tościom 1,77 oraz 2,16 mmol/1. Dlatego w analizowanej
Istnieje 231 niozerowych różnic, z których 135 jest do populacji pacjentów mediana poziomu trójglicerydów
datnich, a 96 jest ujemnych. Dlatego r - 96. Jako że licz jest istotnie wyższa niż ta w ogólnej populacji.
ba niezdrowych różnic jest większa niż 10, obliczamy:
Dane uzyskane dzięki uprzejmości: dr F. C. Lampe, ms M. Walker i dr P. Whincup, Department of Primary Care and Popułation Scien
ces, Royal Free and University College Medioal School, Londyn, Wielka Brytania.
50 Podstawowe techniki analizy danych

20 DANE NUMERYCZNE: DWIE GRUPY POWIĄZANE
PROBLEM
Mamy dwie próby, które są ze sobą powiązane, i jedną inte Interpretujemy wartość p i obliczamy przedział ufno
resującą nas zmienną numeryczną lub porządkową. ści dla prawdziwej średniej różnic w populacji. 95%
• Zmienna może być zmierzona dla każdego obiektu przedział ufności jest dany jako
w dwu okolicznościach. Na przykład, w badaniu naprze
miennym (rozdział 13) każdy pacjent ma wykonane dwa po
miary zmiennej, raz, gdy bierze lek aktywny, i raz, gdy bie gdzie f005 jest punktem procentowym rozkładu tz(n-l)
rze placebo. stopniami swobody, który daje dwustronne prawdopodo
• Obiekty w każdej próbie mogą być różne, lecz są ze bieństwo równe 0,05.
sobą w jakiś sposób powiązane. Na przykład, w badaniu
przypadek-kontrola (rozdział 16) pacjenci w jednej grupie
mogą być indywidualnie dopasowani do pacjentów w dru
giej grupie. Jeżeli założenia nie są spełnione
Takie dane są znane jako dane powiązane. Przy analizo Jeżeli różnice nie podlegają rozkładowi normalnemu, zało
waniu danych trzeba wziąć pod uwagę zależności między żenie leżące u podstaw testu t nie jest spełnione. Możemy
oboma próbami, w przeciwnym razie korzyści wynikające wtedy albo przetransformować dane (rozdział 9), albo użyć
z parowania (rozdział 13) zostają utracone. Dokonujemy te testu nieparametrycznego, takiego jak test znaków (rozdział
go, biorąc pod uwagę różnice wartości w każdej parze i re 19), lub testu rangowanych znaków Wilcoxona w celu osza
dukując przez to dwie próby do jednej próby różnic. cowania, czy różnice są skupione wokół zera.
TEST t DLA ZMIENNYCH POWIĄZANYCH TEST RANGOWANYCH ZNAKÓW

Założenia WILCOXONA
W populacji będącej przedmiotem badania różnice indywi Uzasadnienie
dualne mają rozkład normalny z określoną (na ogół niezna W rozdziale 19 wytłumaczyłyśmy, jak używać testu znaków
ną) wariancją. Mamy wystarczająco dużą próbę, aby móc w przypadku pojedynczej próby pomiarów numerycznych
zbadać założenie normalności. w celu zbadania hipotezy zerowej, że mediana populacyjna
równa jest określonej wartości. Możemy również użyć testu
Uzasadnienie znaków, jeżeli mamy obserwacje powiązane: para jest repre
Jeżeli dwa zbiory pomiarów były takie same, spodziewamy zentowana albo przez dobrane obiekty (np. w badaniu przy
się, że w populacji podlegającej badaniu średnia różnic po padek-kontrola, rozdział 16), albo przez pomiary wykonane
między każdą z par pomiarów będzie równa zero. Dlatego na tych samych obiektach w różnych okolicznościach (jak
nasza statystyka testowa sprowadza się do testu t dla jed w badaniu naprzemiennym dwóch sposobów leczenia,
nej próby (rozdział 19), złożonej z różnic, gdzie hipotetyczna A oraz B, rozdział 13). Dla każdej pary obliczamy różnicę
wartość średniej różnicy w populacji jest równa zero. pomiarów. Testu znaków można użyć do zbadania, czy me
diana różnicy w populacji równa jest zero, poprzez analizę
Dodatkowa uwaga różnic w próbie i sprawdzenie, jak często różnice są więk
Z powodu powiązanej struktury danych nasze dwie próby sze (lub mniejsze) od zera. Jednakże test znaków nie
muszą być tej samej wielkości n. Mamy n różnic, ze średnią uwzględnia informacji o wielkości tych różnic.
próby x i z oszacowanym odchyleniem standardowym sd. Test rangowanych znaków Wilcoxona bierze pod uwagę
nie tylko znaki różnic, lecz także ich wielkości, i dlatego jest
1. Definiujemy podlegające badaniu hipotezy zerową testem o większej mocy (rozdział 18). Dla każdej pary wyni
i alternatywną. ków obliczamy indywidualną różnicę. Pomijając różnice ze
H0: Średnia różnic w populacji równa się zero. rowe, pozostałe klasyfikujemy jako dodatnie albo ujemne.
/fj-. Średnia różnic w populacji nie równa się zero. Dodatkowo, pomijając ich znaki, różnice porządkujemy
2. Zbieramy odpowiednie dane z dwóch powiązanych prób. w kierunku ich wzrostu i odpowiednio rangujemy. W ten
sposób najmniejsza różnica otrzymuje wartość 1, kolejna
3. Obliczamy wartość statystyki testowej właściwej dla HQ
najmniejsza wartość 2 itd., aż do największej różnicy, której
przyporządkowujemy wartość n', jeżeli wystąpiło n' niezero-
wych różnic. Jeżeli mamy dwie lub więcej takie same różni
ce, to otrzymują one średnią z rang tych wartości, które
która podlega rozkładowi f z (n - 1) stopniami swobody. otrzymałyby, gdyby nie były związane. Gdy hipoteza zerowa
4. Porównujemy wartość statystyki testu z wartościa o braku różnicy jest prawdziwa, suma rang związanych
mi ze znanego rozkładu prawdopodobieństwa, odwołu z różnicami dodatnimi i ujemnymi powinna być jednakowa
jąc się do Dodatku A2. (patrz kolejna ramka).
20. Dane numeryczne: dwie grupy powiązane 51

1. Definiujemy podlegające badaniu hipotezy zerową z podlega rozkładowi normalnemu (jego wartość musi być
i alternatywną. skorygowana, jeżeli mamy wiele wartości związanych ).
1
H0'. Mediana różnic w populacji równa się zero. 4. Porównujemy wartość statystyki testowej z warto
Hi, Mediana różnic w populacji nie jest równa zero. ściami znanego rozkładu prawdopodobieństwa.
2. Zbieramy odpowiednie dane z dwóch powiązanych prób. • Jeżeli ri S 25, należy porównać wartość Ti warto
3. Obliczamy wartość statystyki testowej właściwej ściami w Dodatku A8
dla Hv • Jeżeli n' > 25, należy porównać wartość z z warto
Obliczamy różnicę dla każdej pary wyników. Pomijając ściami w Dodatku Al.
ich znaki, rangujemy wszystkie ń niezerowe różnice przez 5. Interpretujemy wartość p i wyniki.
przyporządkowanie wartości 1 do najmniejszej różnicy Interpretujemy wartość p i obliczamy przedział ufności
i wartości n' do największej. Sumujemy rangi różnic dodat dla mediany różnic (rozdział 19) w całej próbie.
nich {TJ i ujemnych {T_).
* Jeżeli n' s 25, statystyka testowa Tprzybiera war
tość równą liczbie mniejszej spośród T+ lub T_.
• Jeżeli n' > 25, obliczamy statystykę z, gdzie:
1
Siegel S., Gastellan N. J.: Nonparametric Statistics for the Behavioural Sciences. McGraw-Hill, Nowy Jork 1988.
PRZYKŁADY
Przebadano zęby 96 nowych rekrutów, mężczyzn w wie bia (głębsza kieszonka oznacza hardziej zaawansowaną
ku pomiędzy 16. a 20. rokiem życia, werbowanych do Kró chorobę). Głębokość kieszonki była wyznaczona dla każde
lewskich Sil Powietrznych. Po przeprowadzeniu niezbęd go rekruta jako średnia głębokość kieszonek dla każdej
nego leczenia w celu uzyskania prawidłowego stanu uzę mierzonej strony w jego jamie ustnej.
bienia zostali oni przebadani ponownie rok później. Cała Ponieważ w tej próbie rekrutów różnice w głębokości
jama ustna, wyłączając zęby mądrości, ma 28 zębów. kieszonek miały w przybliżeniu rozkład normalny, zasto
W tym badaniu każdy ząb ma cztery strony interesujące sowano test r dla zmiennych powiązanych w celu stwier
poriodontologów; zatem każdy rekrut posiadał minimum dzenia, czy średnia głębokość kieszonki była taka sama
84 i maksimum 112 mierzonych powierzchni w obu bada przed i po leczeniu. Pełny wydruk komputerowy wyników
niach. (Jeleni badania było sprawdzenie wpływu leczenia jest załączony w Dodatku C.
na głębokość kieszonek, która jest miarą choroby przyzę
1. /70: Średnia różnica głębokości kieszonki przed i po le 5. Mamy dowód pozwalający na odrzucenie hipotezy
czeniu w populacji rekrutów równa się zero. zerowej i możemy wnioskować, że średnia głębokość kie
/fj: Średnia różnica głębokości kieszonki przed i po szonki rekruta po leczeniu zmniejszyła się. 95% prze
leczeniu w populacji rekrutów nic równa się zero. dział -ufności dla prawdziwej średniej różnicy w prze
2. Wielkość próby n - 96. Średnia różnica głębokości ciętnej głębokości kieszonki wynosi od 0,035 do 0,262
kieszonki x- 0,1486 mm. Odchylenie standardowe róż mm (tj. 0,1486 ± 1,95 x 0,5601/\/96). Oczywiście nie
nic .s,,= 0,5601 rum. wolno nam tu pochopnie wyciągać wniosków, że jest to
efekt leczenia, które zredukowało przeciętną głębokość
3. Statystyka testowa. kieszonki, gdyż nie mamy grupy kontrolnej rekrutów,
którzy nie byli leczeni. Poprawa może być konsekwencja
4. Porównujemy i z wartościami w Dodatku A2 z (96 - 1) czasu łub zmiany przyzwyczajeń w higienie jamy ustnej
= 95 stopniami swobody: 0,01 < p < 0,05 (obliczenia i może nie wynikać ze stosowanego leczenia.
komputerowe dają p = 0,011).

Dane w poniższej tablicy pokazują procent zmierzonych zaawansowana, niż to wynika z głębokości kieszonki. Po
, stron, w których zaobserwowano brak przyczepu w każ nieważ różnice w procentach nic podlegają rozkładowi
dym badaniu u każdego z 14 rekrutów wysianych do pew normalnemu, do zbadania, czy leczenie miało jakikolwiek
nej bazy sit powietrznych. Utrata przyczepu jest wskaźni wptyw na utratę przyczepu, użyliśmy testu rangowanych
kiem choroby przyzębia, która może być bardziej znaków Wilcoxona.
1. i/(); Mediana różnic (przed i po leczeniu) wyrażonych 5. Nie mamy wystarczającego dowodu pozwalającego na
w procentach stron z utrata, przyczepu równa się zero odrzucenie hipotezy zerowej o braku zmiany w procencie
w populacji rekrutów. stron z utratą przyczepu. Mediana różnic w procencie
Hf Mediana różnic (przed i po leczeniu) wyrażonych stron z utratą przyczepu wynosi -3,1% (tj. średnia
w procentach stron z utratą przyczepu nie równa się ze z -2,5% oraz z -3,6%), ujemna mediana różnic wskazuje,
ro w populacji rekrutów. że przeciętnie procent stron z utratą przyczepu jest więk
2. Procent zmierzonych stron z utratą przyczepu przed szy po leczeniu, chociaż różnica ta nie jest istotna. Doda
i po leczeniu dla każdego rekruta pokazany jest w poniż tek A7 pokazuje, że w przybliżeniu 95% przedział ufno
szej tabeli. ści dla mediany różnic w populacji jest dany przez trzecią
3. Istnieje jedna zerowa różnica; z pozostałych n' = 13 i dwunastą rangowaną różnicę (włączając różnice zero
różnic, trzy są dodatnie, a 10 ujemnych. Suma rang róż we); wynoszą one -12,8% oraz 0,9%. Chociaż więc wynik
nic dodatnich wynosi 7; = 3 15 + 13 = 21. testu nie jest istotny statystycznie, dolna granica wska
4. Ponieważ ii < 25, porównujemy Tt z wartościami w Do zuje, że procent stron z utratą przyczepu może wynosić
datku A8: p > O.Of) (wynik komputerowy wynosi p - 0,09). aż 12,8% więcej po leczeniu rekruta!
Duffy S.: Iłemlta ofa three year longitiidinal study ofaarly periodontitis łn a group ofBritish niale adolescents. MSc Dissci taiiori, Uni-
yersily of London, EasLman Denlal Insliiute for Orał Health Care Sciences 1997.
20. Dane numeryczne: dwie grupy powiązane 53

21 DANE NUMERYCZNE:
DWIE GRUPY NIEPOWIĄZANE
PROBLEM
4. Porównujemy wartość statystyki testowej z warto
Mamy próby z dwóch niezależnych (niepowiązanych) grup ściami znanego rozkładu prawdopodobieństwa.
osobników i jedną numeryczną lub porządkową zmienną Porównujemy t z wartościami w Dodatku A2. Jeżeli
podlegającą badaniu. Chcielibyśmy się dowiedzieć, czy śred wielkości próby w obu grupach są duże, rozkład t przy
nia lub rozkład zmiennej jest taki sam w obu grupach. Na bliża rozkład normalny. Odrzucamy wtedy hipotezę ze
przykład chcemy porównać masy ciaia w dwóch grupach rową na poziomie 5%, jeżeli wartość bezwzględna t (tj.
dzieci, gdzie każde dziecko przydzielono losowo albo do gru pomijająca znak) jest większa niż 1,96.
py z auplementem dietetycznym, albo z placebo. 5. Interpretujemy wartość p oraz wyniki.
Interpretujemy wartość p i obliczamy przedział ufno
TEST t DLA ZMIENNYCH NIEPOWIĄZANYCH ści dla różnicy dwóch średnich. Przy założeniu, że wa
riancje są równe, 95% przedział ufności dany jest jako:
(DWIE PRÓBY)
Założenia
W populacji zmienna ma rozkład normalny w każdej z grup, gdzie f0 05 jest punktem procentowym rozkładu f z (nr +
a wariancje są takie same. Oprócz tego mamy wystarczają + ng - 2) stopniami swobody, dającym dwustronne praw
co duże próby, by móc sprawdzić założenia o normalności dopodobieństwo równe 0,05.
i równych wariancjach.
Uzasadnienie
Rozpatrujemy różnicę średnich w obu grupach. Zgodnie Interpretacja przedziału ufności
z hipoteza zerową średnie populacyjne w obu grupach są ta Górna i dolna granica przedziału ufności po2wala stwier
kie same, więc różnica będzie równa zero. Dlatego używa dzić, czy różnica między dwoma wartościami średnimi jest
my statystyki, która jest oparta na różnicy dwóch średnich klinicznie ważna. Na przykład, jeżeli górna i/lub dolna gra
z prób i na wartości różnicy między średnimi populacyjny nica jest bliska zero, prawdziwa różnica może być bardzo
mi przy założeniu słuszności hipotezy zerowej (tj. zero). Ta mała i bez znaczenia klinicznego, nawet wtedy, gdy test jest
ka statystyka testowa, często określana jako f, podlega roz statystycznie istotny.
kładowi t.
Jeżeli założenia nie są spełnione
Notacja Jeżeli próby są wystarczająco duże, test t jest całkiem od
Nasze dwie próby mają wielkości odpowiednio oraz . Ich porny (rozdział 35) na odstępstwa od normalności. Jednakże
średnie wynoszą , a odchylenia standardowe jest on mniej odporny na brak równości wariancji. Istnieje
modyfikacja testu t dla zmiennych niepowiązanych, dopusz
czająca różne wariancje, a jej wyniki są często przedstawia
1. Definiujemy podlegające sprawdzeniu hipotezy ze
ne na wydrukach komputerowych. Jeżeli założenia nie są
rową i alternatywną.
spełnione, możemy też albo przetransformować dane (roz
Populacyjne średnie w obu grupach są sobie równe.
dział 9), aby otrzymać w przybliżeniu rozkład normalny
Populacyjne średnie w obu grupach nie są sobie
i/lub równe wariancje, albo też użyć testu nieparametrycz
równe.
nego, takiego jak test sumy rang Wilcoxona.
2. Zbieramy odpowiednie dane z dwóch prób osobników.
3. Obliczamy wartość statystyki testowej właściwej
dla TEST WILCOXONA SUMY RANG
Jeżeli s jest estymatorem łączonego odchylenia stan (DWIE PRÓBY)
dardowego w obu grupach,
Uzasadnienie
Test sumy rang Wilcoxona nie wymaga żadnych założeń co
do rozkładu i jest nieparametrycznym testem odpowiadają
cym testowi t dla zmiennych niepowiązanych. Test jest opar
ty na sumie rang wartości z każdej z dwóch grup. Porównu
jemy je, nawet jeśli próby są różnych wielkości, jeżeli tylko
grupy mają podobne rozkłady. Równoważny test, znany jako
wtedy statystyka testowa jest dana przez t, gdzie: test V Manna-Whitney'a, daje identyczne rezultaty, cho
ciaż jest nieco bardziej skomplikowany przy obliczeniach
bez pomocy komputera.
i podlega rozkładowi t z stopniami swobody.

1. Definiujemy podlegające badaniu hipotezy zerową
i alternatywna.
H§. Dwie grupy mają taki sam rozkład w populacji,
i/j: Dwie grupy mają różne rozkłady w populacji. a ns i nL są odpowiednio liczebnościami mniejszej i więk
2. Zbieramy odpowiednie dane z dwóch prób osobników. szej grupy. Jeżeli występuje wiele pomiarów wiązanych1,
3. Obliczamy wartość statystyki testowej właściwej ^musi być skorygowane.
dla H0. 4. Porównujemy wartość statystyki testowej z warto
Wszystkie obserwacje ranguje się tak, jakby pochodzi ściami znanego rozkładu prawdopodobieństwa.
ły z jednej próby. Obserwacjom wiązanym nadaje się • Jeżeli liczebność w każdej próbie wynosi 15 lub mniej,
średnia z rang, jakie otrzymałyby te wartości, gdyby nie porównujemy Tz wartościami w Dodatku A9.
były wiązane. Następnie oblicza się sumę rang Tw mniej- • Jeżeli co najmniej jedna z grup ma liczebność więk
S2ej grupie. szą niż 15, porównujemy z z wartościami w Dodatku Al.
• Jeżeli wielkość każdej grupy wynosi 15 lub mniej, 5. Interpretujemy wartość p i wyniki.
statystyką testową jest T. Interpretujemy wartość p i uzyskujemy przedział ufności
* Jeżeli co najmniej jedna z grup jest większa niż 15, dla różnic dwóch median. Obliczenia bez pomocy kompute
obliczamy statystykę testową ra są czasochłonne i dlatego nie zamieszczamy szczegółów;
niektóre pakiety statystyczne wyznaczają przedziały ufno
ści CI. Jeżeli w Twoim pakiecie brak takiego przedziaiti
ufności, możesz zastosować przedział ufności dla mediany
podlegającą rozkładowi normalnemu, gdzie w każdej z dwóch grup.
i Siegel S., Castellan N. J.: Nonparametric Statistics for the Behavioural Sciences. McGraw-Hill, Nowy Jork 1988.
PRZYKŁAD 1
W celu określenia efektu regularnego, profilaktycznego wa (FEV1) po 6-miesięcznym okresie inhalowania. Po
inhalowania kortykosteroidów w trakcie napadów astma sprawdzeniu założeń o normalności i równości wariancji
tycznych związanych z infekcją wirusową u dzieci w wie (patrz rycina 4.2) wykonałyśmy test t dla zmiennych nie
ku szkolnym przeprowadzono losowe, podwójnie ślepe powiązanych w celu porównania średnich w obu grupach.
badania, porównujące skutki inhalowania dipropionianu Pełny wydruk komputerowy wyników pokazany jest
beklomctazonu z placebo. W tym badaniu głównym w Dodatku C.
wskaźnikiem była średnia wymuszona objętość wydecho
1. HQ. Średnia FEV1 w populacji dzieci w wieku szkol 4. Porównujemy t z wartościami Dodalku A2 z 50 +
nym jest taka sama w obu grupach badanych. + 48 - 2 = 96 stopniami swobody. Ponieważ Dodatek A2
Htf Średnia FŁV1 w populacji dzieci w wieku szkol jest ograniczony do pewnej liczby stopni swobody, doko
nym nic jest taka sama w obu grupach badanych. nałyśmy interpolacji (oszacowania żądanej wartości le
2. Grupa leczonych: wielkość próby n{ = 50; średnia 3q = żącej między dwoma znanymi wartościami) pomiędzy
1,64 litrów, odchylenie standardowe s, = 0,29 litrów. wartościami odpowiadającymi 50 i 100 stopniom SWOIKJ-
Grupa placebo: wielkość próby n-, = 48; średnia x, = dy. Stąd p > 0,05 (wynik komputerowy wynosi p = 0,06).
1,54 litrów; odchylenie standardowe sy = 0,25 litrów. 5. Nie mamy dostatecznego dowodu pozwalającego na
3. Połączone odchylenie standardowe, odrzucenie hipotezy zerowej na poziomie 5%. Ponieważ
jednak wartość p jest jedynie odrobinę większa niż 0,05,
może to wskazywać, że średnie naszych dwóch popula
cji są różne. Oszacowana różnica między średnimi wy
nosi 1,64 - 1,54 = 0,10 litrów. 95% przedział ufności dla
prawdziwej różnicy między dwoma średnimi zawiera się
między -0,006 a 0,206 litrów
Dane uzyskane dzięki uprzejmości: dr-1. Doiill, Cystic Fibrosis/Hespiratory Unit, Department of Child Health, University Hospital of
Wales, Cardiff, Wielka Brytania i dr F. C. Lampe, Department of Primary Care and Popuiation Sciences, Royal Free and University
College Medical School, Londyn, Wielka Brytania.
21. Dane numeryczne: dwie grupy niepowiązane 55

PRZYKŁAD 2
W colu zbadania, czy mechanizm związany ze śmiertelną nej astmy wywołanej pyłem z nasion soi i dziesięciu przy
astmą wywołana nasionami soi różni się od zwykłej padkach zwykłej astmy śmiertelnej. Z powodu małych li
śmiertelnej astmy porównano liczbę komórek CD3+ T czebności prób i w sposób oczywisty skośnych danych
w warstwie podśluzówkowej, będących miarą systemu przeprowadziłyśmy test sumy rang Wilcoxona w colu po
obronnego organizmu, w siedmiu przypadkach śmiertel równania rozkładów.
1. Iiozkktdy liczby komórek CD3+ T w dwóch gru 4. Ponieważ mamy 10 lub mniej wartości w każdej z grup,
pach w populacji są takie same. otrzymujemy wartość p z Dodatku A9: p < 0,01 (wynik
Rozktndy liczby komórek CD3+ T w dwóch gru komputerowy wynosi p = 0,002).
pach w populacji nie są lakie same. 5. Istnieje dowód pozwalający na odrzucenie hipotezy ze
2. Grupa nasion soi: wielkość próby ns- 7, poziomy ko rowej, że rozkłady poziomów komórek CD3+ T są takie
mórek CD3+ 1' (komórek/mmz) wynosiły 34,45; 0,00; same w obu grupach. Mediany liczby komórek CD3+ T
1,36; 0,00; 1,43; 0.00; 4,01. w grupach astmy sojowej i zwykłej astmy śmiertelnej
Grupa astmy: wielkość próby nL - 10, poziomy komó wynoszą odpowiednio 1,36 (95% przedział ufności od
iek (T>3+ T (komórek/mm2) wynosiły 74,17; 13,75; 0 do 34,45) oraz (58,33 + 73,63)/2 = 65,98 (95% prze
37,50; 1225,51; 99,99; 3,76; 58,33; 73,63; 4,32; 154,86. dział ufności od 4,32 do 154,86) komórek/mm2. Przy
Dmie porangowane zamieszczono w tablicy poniżej. puszczamy więc, że liczba komórek CD3+ T jest zmniej
li. Suma rang w grupie nasion s o i - 2 + 2 + 2 + 4 +5 + szona w śmiertelnej astmie sojowej, co sugeruje inny
+ 7 + 10 = 32. mechanizm od opisanego dla większości zgonów 2 powo
Simm rang w grupie astmy = 6 + 8 + 9 + 11 + 12 + du astmy.
+ i;i+ 14 + 15 + 16 + 17 = 121.
Nasiona soi 0,00 0,00 0,00 1,36 1,43 4,01 34,45

Astma 3,76 4,32 13,75 37,50 58,33 73,63 74,17 99,99 154,86 1^5,51
Rouyu 2 2 2 4 5 6 7 8 9 A0 11 12 13 14 15 16 17
Dane uzyskano dzicki uprzejmości: dr M. Synek, Coldeast Hospital, Sarisbury i dr F. C. Lampe, Department of Primary Curc wid Pojiu-
lation ScioncoH, llayal Krce and University College Medical School, Londyn, Wielka Brytania.

22 DANE NUMERYCZNE:
WIĘCEJ NIŻ DWIE GRUPY
PROBLEM
1. Definiujemy podlegające badaniu hipotezy zerowa
Mamy próby z pewnej liczby niezależnych grup. Rozważamy i alternatywną.
pojedynczą zmienną numeryczną lub porządkową i chcieli Wszystkie średnie grupowe w populacji są równe.
byśmy się dowiedzieć, czy przeciętna wartość tej zmiennej Co najmniej w jednej grupie w populacji średnia
ulega zmianom w różnych grupach, np. czy przeciętna licz różni się od innych.
ba płytek krwi różni się w grupach kobiet o różnym pocho
2. Zbieramy odpowiednie dane z prób osobników.
dzeniu etnicznym. Chociaż możemy przeprowadzić porówna
nia przeciętnych pomiędzy każdą parą grup, duże ryzyko 3. Obliczamy wartość statystyki testowej właściwej
błędu I rodzaju, wynikające z dużej liczby porównań, ozna dla
cza, że możemy wyciągnąć nieprawidłowe wnioski (rozdział Statystyka testowa dla ANOVA jest stosunkiem /wa
18). Dlatego przeprowadzamy jeden łączny test sprawdzają riancji międzygrupowej i wariancji wewnątrzgrupowej.
cy, czy przeciętne różnią się w grupach. Statystyka .F podlega rozkładowi .F (rozdział 8) odpowied
nio z {k- 1, n-1) stopniami swobody dla licznika i mia
nownika.
JEDNOCZYNNIKOWA Obliczenia wykonywane w ANOVA są złożone, więc
ANALIZA WARIANCJI nie opisujemy ich tutaj. Większość pakietów komputero
wych podaje wyniki bezpośrednio w postaci tablicy
Założenia
ANOVA, która zwykle zawiera stosunek foraz wartość p
Grupy są zdefiniowane przez poziomy pojedynczego czynni (patrz przykład 1).
ka (np. rozmaite pochodzenie etniczne). W badanej populacji
zmienna w każdej grupie ma rozkład normalny, a wariancje 4. Porównujemy wartości statystyki testowej z warto
we wszystkich grupach są takie same. Mamy odpowiednio ściami znanego rozkładu prawdopodobieństwa.
duże próby, aby zbadać te założenia. Stosunek F porównujemy z wartościami w Dodatku
A5. Ponieważ wariancja międzygrupowa jest większa
Uzasadnienie lub równa wariancji wewnątrzgrupowej, bierzemy pod
uwagę jednostronne wartości p.
Jednoczynnikowa analiza wariancji pozwala rozdzielić cał
kowitą zmienność danych na tę, która może być przypisana 5. Interpretujemy wartość p i wyniki.
różnicom między osobnikami z różnych grup (zmienność Jeżeli na tym początkowym etapie otrzymamy wynik
międzygrupowa), oraz losowe zmiany między osobnikami istotny, możemy rozważyć przeprowadzenie właściwych
wewnątrz każdej grupy (zmienność wewnątrzgrupowa, porównań par typu post-hoc. Możemy użyć jednego z wie
zwana niekiedy niewyjaśnioną lub resztową). Te składowe lu testów stworzonych specjalnie do tego celu (np. Dunca-
zmienności mierzone są przy użyciu wariancji, stąd nazwa na, Scheffego) lub możemy użyć testu t dla zmiennych
analiza wariancji (ANOVA). Gdy prawdziwa jest hipoteza niepowiązanych (rozdział 21), dostosowanego do wielokrot
zerowa, że średnie grupowe są takie same, wariancja mię nego testowania hipotez (rozdział 18). Możemy też obliczyć
dzygrupowa będzie zbliżona do wariancji wewnątrzgrupo przedział ufności dla średniej w każdej indywidualnej gru
wej. Jeżeli jednak istnieją różnice między grupami, wtedy pie (rozdział 11). Należy zauważyć, że gdy obliczamy prze
wariancja międzygrupowa będzie większa niż wariancja działy ufności lub przeprowadzamy test t, używamy wspól
wewnątrzgrupowa. Test oparty jest na stosunku tych dwóch nego oszacowania wariancji ze wszystkich grup. Więk
wariancji. szość pakietów statystycznych określa ten estymator wa
riancji jako wariancję resztową lub resztowy kwadrat
Notacja średniej. Znajduje się ona w tablicy ANOVA.
Mamy k niezależnych prób, każda jest otrzymana z innej
grupy. Liczebności prób, średnie i odchylenia standardowe
w każdej grupie wynoszą odpowiednio oraz (i=l, Chociaż testy te wydają się różne, test t dla zmiennych
2 k). Całkowita liczebność próby wynosi niepowiązanych i ANOVA dają równoważne wyniki, gdy ma
my tylko dwie grupy osobników.
22. Dane numeryczne: więcej niż dwie grupy 57

Jeżeli założenia nie są spełnione
1.Definiujemy hipotezę zerową i alternatywną.
Jakkolwiek ANOVA jest stosunkowo odporna (rozdział 35)
Każda grupa ma taki sam rozkład wartości w po
na umiarkowane odstępstwa od normalności, nie jest ona
pulacji.
odporna na nierówne wariancje. Dlatego przed przeprowa
Nie każda grupa ma taki sam rozkład wartości
dzeniem analizy badamy normalność rozkładu i sprawdza
w populacji.
my, czy wariancje w grupach są podobne: albo dokonując
oceny wzrokowej, albo używając testu Levene'a lub testu 2. Zbieramy odpowiednie dane z prób osobników.
Bartletta (rozdział 35). Jeżeli założenia nie są spełnione, 3. Obliczamy wartość statystyki testowej właściwej
możemy albo transformować dane (rozdział 9), albo użyć te dla H0.
stu nieparametrycznego Kruskala-Wallisa, który jest rów Rangujemy wszystkie n wartości i obliczamy sumę
noważny jednoczynnikowej ANOVA. rang w każdej z grup: są to sumy /? 1( ..., Rk. Statyatyka
testowa (która musi zostać zmodyfikowana, jeżeli mamy
wiele wartości wiązanych1) ma postać:
TEST KRUSKAIA-WALLISA
Uzasadnienie
Ten nieparametryczny test jest rozszerzeniem testu sumy
i podlega rozkładowi Chi-kwadrat z (A:- 1) df.
rang Wilconona (rozdział 21). Jeżeli prawdziwa jest hipote
za zerowa o braku różnic w rozkładach między grupami, su
ściami znanego rozkładu prawdopodobieństwa.
my rang w każdej z k grup powinny być porównywalne po
Porównujemy wartościami w Dodatku A3.
uwzględnieniu każdej różnicy w wielkości prób.
Interpretujemy wartość p i jeżeli jest ona istotna, wy
konujemy testy nieparametryczne dla dwóch prób, do
stosowując je do wielokrotnych porównań. Obliczamy
przedział ufności dla mediany w każdej grupie.
1
Siegel S., Castellan N. J.: Nonparametric Statisticsfor rfte Be-
hcwioral Sciences. McGraw-Hill, Nowy Jork 1988.
Gdy grupy odnoszą się do jednego czynnika i są nieza

leżne, używamy jednoczynnikowej ANOVA lub jej odpowied
nika nieparametrycznego. Jeżeli projekt badania jest bar
dziej złożony, możemy użyć innych modeli ANOVAz.
2
Mickey R. M., Dunn O. J., Clark V. A.: Applied Statisttcs: Analy-
sis of Varian.ce and Regression, Wiley, Chichester 2004.
PRZYKŁAD 1
150 kobiet o różnym pochodzeniu etnicznym zostało włą czynnikową ANOVA. Uzasadnione było przyjęcie założe
czonych do badania przekrojowego na temat czynników nia o normalności rozkładu i równości wariancji, co poka
związanych z krzepnięciem krwi. Porównałyśmy średnie zuje wydruk komputerowy (Dodatek C).
poziomy płytek krwi w czterech grupach, stosując jedno-
1. HQ. Nie ma różnic pomiędzy średnimi poziomami pły 2. Poniższa tabela zawiera dane z każdej grupy.
tek w czterech grupach w populacji.
Hx\ Co najmniej jedna średnia grupowa poziomu pły
tek różni się od pozostałych w populacji.
Grupa Wielkość Średnia Odchylenie 95% przedział ufności dla średniej (użyto
próby frlO9) standardowe wspólnego oszacowania odchylenia stan
n(%) X (x 109), s dardowego — patrz pkt 3)
Kaukaska 90 (60,0) 268,1 77,08 252,7 do 283,5
Afrykańsko-karaibska 21 (14,0) 254,3 67,50 220,9 do 287,7
Śród zi emnomorska 19 (12,7) 281,1 71,09 245,7 do 316,5
Inna 20(13,3) 273,3 63,42 238,9 do 307,7

3. Poniższa tabela ANOVA jest fragmentem wydruku komputerowego.
Źródło Suma kwadratów df Kwadrat średnich Stosunek F Wartość p

Pomiędzy grupami etnicznymi 7711,967 3 2570,656 0,477 0,6990
W obrębie grup etnicznych 787289,533 146 5392,394
Połączone odchylenie standardowe = \/5392,394 x 109 = 73,43 x 109.
4. Tablica ANOVA daje w wyniku p = 0,70. W celu wy 5. Nie ma wystarczającego dowodu do odrzucenia hipo
znaczenia wartości p możemy porównać Fz wartościami tezy zerowej, że średnie poziomy w czterech grupach
w Dodatku A5 z (3, 146) stopniami swobody. w populacji są takie same.
Dane uzyskane dzięki uprzejmości dr R. A. Kadir, University Department of Obstetrics and Gynaecology i prof. C. A. Lee, Hacmophilia
Centrę and Haemostasis Unit, Royal Free Hospital, Londyn, Wielka Brytania.
PRZYKŁAD 2
W trzech grupach osobników, z ciężką hemofilią, z lek
ką/umiarkowaną hemofilią oraz w grupie kontrolnej zdro
wych zmierzono przy użyciu kwestionariusza SF-36 jakość
życia. Każda grapa składała się z próby 20 osobników.
W trzech grupach porównano punktacje wyrażone za po
mocą Skali Fizycznego Funkcjonowania (PFS — physical
functbning scalę), które mogą przyjmować wartości od 0
do 100. Ocena wzrokowa ryciny 22.1 pozwala stwierdzić,
że dane nie mają rozkładu normalnego, więc wykonujemy
test Kruskala-Wallisa.
Rycina 22.1. Wykres punktowy przedstawiający punktację fizycz

nego funkcjonowania (z kwestionariusza SF-36) osobników z cięż
ką i lekką/umiarkowaną hemofilią oraz grupy kontrolnej osób
zdrowych. Linie poziome przedstawiają mediany.
1. Każda grupa w populacji ma taki sam rozkład 4. Porównujemy wartościami w Dodatku A3: p < 0,001.
punktacji PFS. 5. Nie ma dowodu pozwalającego odrzucić hipotezę ze
Co najmniej jedna z grup w populacji ma rozkład rową, że rozkłady punktacji PFS są takie same w trzech
inny niż pozostałe grupy w populacji. grupach. Przeprowadzono porównania parami przy uży
2. Dane przedstawiono na rycinie 22.1. ciu testu sumy rang Wilcoxona, z poprawką Bonferro-
3. Suma rang w grupie ciężkiej hemofilii = 372. niego dopasowującą wartości p, z uwagi na wielokrotne
Suma rang w grupie lekkiej/umiarkowanej hemofilii porównania (rozdział 18). Zarówno osobnicy z ciężką,
= 599. jak i lekką/umiarkowaną hemofilią mieli istotnie niższą
Suma rang w grupie kontrolnej zdrowych = 859. punktację PFS niż w grupie kontrolnej (odpowiednio
p = 0,0003 i p = 0,03), lecz rozkłady punktacji w gru
pach hemofilii nie różniły się istotnie od pozostałych
(p = 0,09).
Dane uzyskane dzięki uprzejmości: dr A. Miners, Department of Primary Care and Population Sciences, Royal Free and University Col
lege Medical School, Londyn, Wielka Brytania i dr C. Jenkinson, Health Services Research Unit, Universiiy of Oxford, Oxford, Wielka
Brytania.
22. Dane numeryczne: więcej niż dwie grupy 59

23 DANE KATEGORIALNE:
POJEDYNCZA PROPORCJA
PROBLEM
3. Obliczamy wartość statystyki testowej właściwej
Mamy jedną próbę n osobników; każdy z osobników albo po dla
siada cechę podlegającą badaniu (np. jest mężczyzną, jest
w ciąży, umarł), albo nie posiada takiej cechy (np. jest kobie
tą, nie jest w ciąży, nadal żyje). Dane te można w efektywny
sposób podsumować przez obliczenie proporcji osobników
z tą cechą. Chcielibyśmy się dowiedzieć, czy prawdziwa pro Podlega ona rozkładowi normalnemu.
porcja w badanej populacji przyjmuje szczególną wielkość. Wartość l/2n w liczniku jest poprawką ze względu na
ciągłość: dodaje się ją, gdyż aproksymujemy dyskretny
TEST DLA POJEDYNCZEJ PROPORCJI rozkład dwumianowy ciągłym rozkładem normalnym.
4. Porównujemy wartość statystyki testowej do warto
Założenia ści znanego rozkładu prawdopodobieństwa.
Nasza próba osobników została wybrana z populacji podle Porównujemy ^z wartością w Dodatku Al.
gającej badaniu. Każdy osobnik posiada określoną cechę lub 5. Interpretujemy wartość p oraz wyniki.
jej nie posiada. Interpretujemy wartość p i obliczamy przedział ufno
ści dla prawdziwej proporcji w populacji n. 95% prze
Notacja dział ufności dla n ma postać:
W naszej próbie o liczebności n cechę tę posiada r osobników.
Oszacowana proporcja osobników z cechą wynosi p = r/n.
Proporcja osobników z cechą w populacji wynosi JI. Chcemy
sprawdzić, czy n przyjmuje szczególną wartość jiy Możemy użyć tego przedziału ufności do oceny klinicz
nego lub biologicznego znaczenia wyników. Szeroki prze
Uzasadnienie dział ufności wskazuje, że nasz estymator jest mało do
Liczba osobników z cechą podlega rozkładowi dwumianowe kładny.
mu (rozdział 8), lecz może być przybliżana rozkładem nor
malnym, przy założeniu, że każda z wartości np oraz n(l - p)
jest większa niż 5. Wtedy p ma w przybliżeniu rozkład nor
TEST ZNAKÓW W ZASTOSOWANIU
malny z oszacowaną średnią = p i oszacowanym odchyleniem
DO PROPORCJI
standardowym: Uzasadnienie
Dlatego nasza statystyka testowa oparta na p również Testu znaków (rozdział 19) można użyć, gdy badana odpo
podlega rozkładowi normalnemu. wiedź może być wyrażona jako preferencja (np. w badaniu
naprzemiennym pacjenci mogą preferować leczenie A lub le
czenie B). Jeżeli ogólnie brak jest preferencji, wtedy może
my spodziewać się proporcji, np. preferencji A równej 1/2.
Testu znaków używamy w celu sprawdzenia, czy jest tak
Proporcja populacyjna n jest równa pewnej szcze
w rzeczywistości.
gólnej wartości %v
Proporcja populacyjna n nie równa się nx. Chociaż takie sformułowanie problemu i statystyka testo
2. Zbieramy odpowiednie dane z próby osobników. wa wydają się różnić od tych z rozdziału 19, przy obu podej
ściach do testu znaków otrzymujemy takie same wyniki.
60 Podstawowe Techniki analizy danych

1.Definiujemy hipotezę zerową i alternatywną. gdzie z' podlega rozkładowi normalnemu. Należy zauwa
Proporcja n preferencji A w populacji jest równa 1/2. żyć, że ten wzór oparty jest na statystyce z, użytej w po
Proporcja preferencji A w populacji nie jest równa 1/2. przedniej ramce do testowania hipotezy zerowej, że pro
2. Zbieramy odpowiednie dane z próby osobników. porcja populacyjna równa się jrx, z tym że zastąpiliśmy tu
3. Obliczamy wartość statystyki testowej właściwej dla n przez ri oraz nx przez 1/2.
Pomijamy każdego osobnika, który nie ma preferencji, 4. Porównujemy wartość statystyki testowej z warto
i zmniejszamy w ten sposób wielkość próby z n do ń. Dla ściami ze znanego rozkładu prawdopodobieństwa.
tego p - r/n', gdzie r jest liczbą preferencji A. • Jeżeli ri ^ 10, porównujemy r z wartościami w Dodat
• Jeżeli «'=£ 10, należy obliczyć r, liczbę preferencji dla A. ku A6.
• Jeżeli ń > 10, należy obliczyć statystykę testową: • Jeżeli ri > 10, porównujemy ź z wartościami w Dodat
ku Al.
Interpretujemy wartość p i obliczamy przedział ufności
dla proporcji preferencji A w całej próbie o liczebności n.
PRZYKŁAD 1
Ludzki wirus opryszczki 8 (HHV-8) został powiązany z mię- w grupie 271 homo/biseksualnych mężczyzn leczących się
sakiem Kaposiego, pierwotnie naciekającym chtoniakiem, w londyńskiej klinice chorób przenoszonych drogą płciową.
oraz pewnymi typami choroby wieloogniskowego guza Ca- W populacji dawców krwi w Wielkiej Brytanii częstość wy
stlemana. Zasugerowano, że HHV-8 może być przenoszony stępowania seropozytywności HHV-8 wynosi 2,7%. Naj
drogą płciową. W celu sprawdzenia istnienia związku mię pierw częstość występowania seropozytywności z bieżące
dzy zachowaniami seksualnymi i infekcją HHV-8 została go badania została porównana z 2,7% przy wykorzystaniu
wyznaczona częstość występowania przeciwciał HHV-8 testu dla pojedynczej proporcji.
1. Częstość występowania seropozytywności HHV-8 4. Porównujemy z z wartościami w Dodatku Al:

w populacji homo/biseksualnych mężczyzn wynosi 2,7%. p < 0,0001.
Częstość występowania seropozytywności HHV-8 5. Istnieje dowód na to, że częstość występowania sero
w populacji homo/biseksualnych mężczyzn nie jest rów pozytywności HHV-8 u homo/biseksualnych mężczyzn le
na 2,7%. czących się w londyńskiej klinice chorób przenoszonych
2. Liczebność próby n = 271; liczba osobników seropozy- drogą płciową jest wyższa niż w populacji dawców krwi.
tywnych do HHV-8: r = 50 95% przedział ufności dla częstości występowania seropo
Częstość występowania seropozytywności p= 50/271 zytywności HHV-8 w populacji mężczyzn homo/biseksu
= 0,185 (tj. 18,5%). alnych wynosi od 13,9% do 23,1%, wyznacza się go jako
3. Statystyka wynosi
Dane otrzymane dzięki uprzejmości: dr N. A. Smith, D. Barlow i B. S. Peters, Department of Genitourinary Medicinc, Guy's and St Tho
mas' NIIS Trust, Londyn i dr J. Best, Department of Virology, Guy's, Kings College and St Thomass School of Medicinc, King's College,
Londyn, Wielka Brytania.
23. Dane kategorialne: pojedyncza proporcja 61

PRZYKŁAD 2
W podwójnie ślepym badaniu naprzemiennym 36 doro konywane codziennie przez określony czas. Pacjenci byli
słych 7 całorocznym alergicznym nieżytem nosa było leczo pytani, czy wolą aktywny lek, czy też placebo. W celu zba
nych zastrzykami podskórnymi lub inhalacją alergenów, dania, czy proporcje osób preferujących oba preparaty są
allM) placebo, przy czym w obu grapach zastrzyki byty wy takie same, wykonano test znaków.
1. Proporcja w populacji preferujących aktywny pre 4. Porównujemy ^z wartościami w Dodatku Al:

parat równa się 0,5. p = 0,001.
Proporcja w populacji preferujących aktywny pre 5. Istnieje dowód pozwalający na odrzucenie hipotezy
parat nie jest równa 0,5. zerowej, że dwa preparaty są jednakowo preferowane
2. Spośród 3fi dorosłych 27 wyrażało jakąś preferencję; w populacji. 95% przedział ufności dla prawdziwej pro
21 preferowało preparat aklywny. Spośród osób mają porcji wynosi od 0,62 do 0,94 i jest obliczony jako
cych jakąś preferencję proporcja preferujących preparat
aktywny wynosi p = 21/27 = 0,778.
3. Statystyka testowa
Możemy więc uznać, że niemal dwie trzecie osobni

ków w populacji preferuje preparat aktywny.
Dane adnpiowane z pracy; Kadcliffe M. J., Lampe F. C, Brostoff J.: AUergen-specjfw low-dose immunotherapy in perermial alleryh; rfuitt
(tó; a doublellind placobocontrulled crosuwer stiidy. Journal of hwestigational Allergology and Clinical lumiuiiology, 1996, 6, 242-247.

24 DANE KATEGORIALNE: DWIE PROPORCJE
PROBLEMY
1. Definiujemy hipotezę zerową i alternatywną.
• Mamy dwie niezależne grupy osobników (np. homosek H0: Proporcje osobników z pewną cechą są równe
sualnych mężczyzn, którzy chorowali bądź nie na rzeżączkę). w obu grupach w populacji.
Chcielibyśmy się dowiedzieć, czy proporcje osobników z pew Te proporcje w obu grupach w populacji nie są
ną cechą (np. zainfekowanych ludzkim wirusem opryszczki równe.
HHV-8) są takie same w obu grupach. 2. Zbieramy odpowiednie dane z prób osobników.
• Mamy dwie grupy powiązane, tzn. osobnicy mogą być 3. Obliczamy wartość statystyki testowej odpowied
sparowani lub dwukrotnie poddawani badaniu w różnych niej dla Hą
sytuacjach (np. przed leczeniem i po nim). Chcielibyśmy się
dowiedzieć, czy proporcje osobników z daną cechą (np.
wzrost wyników w teście) są takie same w obu grupach.
GRUPY NIEPOWIĄZANE: TEST CHI-KWADRAT gdzie Oi Esą odpowiednio częstościami obserwowanymi

Terminologia i oczekiwanymi, w każdej z czterech komórek w tablicy.
Uzyskane dane miały .postać częstości, tj. liczby obiektów Pionowe linie wokół O- Ewskazują, że pomijamy znak tej
w każdej próbie posiadających cechę lub jej nieposiadają- różnicy. Wartość 1/2 w liczniku jest poprawką ze wzglę
cych. Tablica, w której dane wejściowe są częstościami, na du na ciągłość (rozdział 19). Statystyka testowa podlega
zywana jest tablicą kontyngencji; jeżeli taka tablica ma rozkładowi Chi-kwadrat z jednym stopniem swobody.
dwa wiersze i dwie kolumny, nazywa się tablicą 2 x 2 . Ta 4. Porównujemy wartość statystyki testowej z warto
blica 24.1 pokazuje częstości obserwowane w czterech ko ścią znanego rozkładu prawdopodobieństwa.
mórkach odpowiadających każdej kombinacji wiersz/ko Porównujemy %2 z wartościami w Dodatku A3.
lumna, cztery sumy brzegowe (częstości w określonym 5. Interpretujemy wartość p i wyniki.
wierszu lub kolumnie, np. a + b) oraz sumę całkowitą n. Interpretujemy wartość p i obliczamy przedział ufno
Możemy obliczyć (patrz: uzasadnienie) częstości, których ści dla różnicy proporcji w prawdziwej populacji. 95%
moglibyśmy się spodziewać w każdej z czterech komórek, przedział ufności jest dany jako:
gdyby H0 byta prawdziwa (częstości oczekiwane).
Założenia
Mamy próby o liczebnościach nt oraz n^, które pochodzą
z dwóch niezależnych grup osobników. Chcielibyśmy się do
wiedzieć, czy proporcje osobników posiadających pewną cechę Jeżeli założenia nie są spełnione
są takie same w obu grupach. Każdy osobnik jest reprezento
Jeżeli w jakiejkolwiek z komórek E < 5, do obliczenia war
wany w badaniu tylko raz. Wiersze (i kolumny) w tablicy wza
tości p używamy dokładnego testu Fishera, który nie opie
jemnie się wykluczają, więc każdy osobnik może należeć tyl
ra się na przybliżeniu do rozkładu Chi-kwadrat. Obliczenia
ko do jednego wiersza i tylko do jednej kolumny. Zwyczajowe,
choć konserwatywne podejście wymaga, aby wartość oczeki te bez pomocy komputera są żmudne, więc najlepiej wyko
wana w każdej z czterech komórek wynosiła co najmniej pięć. nać je przy użyciu programu komputerowego.
Uzasadnienie
GRUPY POWIĄZANE: TEST McNEMARA
Jeżeli proporcje osób z cechą w obu grupach są równe, mo
żemy oszacować całkowitą proporcję osobników z cechą za Założenia
pomocą p = (a + b)/n; spodziewamy się, że nx x p z nich Dwie grupy są powiązane lub zależne, np. każdy osobnik
znajdzie się w grupie 1, a ^ x p w grupie 2. Podobnie wy może być badany w dwóch różnych okolicznościach. Każdy
znaczamy liczby oczekiwane osób bez cechy. Dlatego każda osobnik zostaje sklasyfikowany zgodnie z tym, czy cecha
wartość oczekiwana jest iloczynem odpowiadających sobie występuje w obu okolicznościach, tylko w jednej okoliczno
sum brzegowych, podzielonych przez sumę całkowitą. Duża ści, czy też w żadnej (tablica 24.2).
rozbieżność pomiędzy częstościami obserwowanymi (O)
a odpowiadającymi im częstościami oczekiwanymi (E)
wskazuje na to, że proporcje w dwóch grupach się różnią.
Statystyka testowa opiera się na tej rozbieżności.
Tablica 24.2. Częstości obserwowane w parach, w których cecha
jest obecna lub nieobecna.
Tablica 24.1. Częstości obserwowane.
Cecha Grupa 1 Grupa 2 Suma Okoliczność 1
Obecna Nieobecna Całkowita liczba par
Obecna a b a+ b
Nieobecna c d c+ d Okoliczność 2
Suma rcj = a+c n2=b+d n= a+ b+ c+ d Obecna w x w+x
Proporcja _ a_ n = — D= a+ ^ Nieobecna y z y+z
z cechą ^1 n, 2
"2 n Razem w+y x+ z m= w + x + y + z
24. Dane kategorialne: dwie proporcje 63

Uzasadnienie nania proporcji osób z występującą cechą pomijamy tych
Obserwowane proporcje osób z cechą występującą w obu osobników, którzy w obu okolicznościach mają zgodne wy
okolicznościach wynoszą (w + y)/m oraz (w + x)/m Różnią niki, i koncentrujemy się na niezgodnych parach x i y.
się tylko wtedy, gdy różnią się x i y. Dlatego w celu porów
1. Definiujemy hipotezę zerową i alternatywną. 4. Porównujemy wartość statystyki testowej z warto

Proporcje osób z cechą są równe w obu grupach ściami ze znanego rozkładu prawdopodobieństwa.
w populacji. 2
Porównujemy x z wartościami w Dodatku A3.
Proporcje te w obu grupach w populacji nie są równe. 5. Interpretujemy wartość p i wyniki.
2. Zbieramy odpowiednie dane z dwóch prób. Interpretujemy wartość p i obliczamy przedział ufności
3. Obliczamy wartość statystyki testowej właściwej dla HQ dla różnicy między prawdziwymi proporcjami w populacji.
Przybliżony 95% przedział ufności wynosi:
która podlega rozkładowi Chi-kwadrat z 1 stopniem swo

body. Wartość 1 w liczniku jest poprawką ze względu na
ciągłość (rozdział 19).
PRZYKŁAD 1
W celu stwierdzenia związku między czynnikami ryzyka nych z przebytą rzeżączką i u tych, którzy nie mieli rze-
seksualnego i zakażeniem HHV-8 (badanie opisane w roz żączki. Porównania dokonano za pomocą testu Chi-kwa
działo 23) porównano częstość występowania seropozytyw drat. Typowy wynik komputerowy przedstawiony jest
ności do IIIIV-8 w grupie mężczyzn homo/heteroseksual w Dodatku C.
1. Częstość występowania seropozytywności HHV-8 Statystyka testowa wynosi:

w popvlacji jest taka sama u mężczyzn, którzy mieli rze-
żączkę, i u tych, którzy jej nie mieli.

Częstość występowania seropozytywności nic jest
taka sama w obu grupach w populacji.
2. Częstości obserwowane są podane w poniższej tablicy
komyngencji: odpowiednio 14/43 (32,6%) oraz 36/228
(15,8%) mężczyzn, którzy przebyli rzeżączkę bądź jej nie 4. Porównujemy #2 z wartościami w Dodatku A3 z 1 stop
przebyli, jem seropozyiywnych dla HHV-8. niern swobody: 0,01 < p <0,05 (Wynik komputerowy wy
3. Wartości oczekiwane podane w czterech komórkach nosi p = 0,017).
tablicy kontyngencji. 5. Istnieje dowód na rzeczywistą różnicę w częstości wy
stępowania seropozytywności w dwóch grupach w popu
lacji. Oszacowujemy tę różnicę jako 32,6% - 15,8% = 16,8%.
95% CI dla prawdziwej różnicy między dwoma częstościa
mi wynosi od 2,0% do 31,6%,
tj. 16,8 ± 1,96 x V<{32,6 x 67,4}/43 + {15,8 x 84,2}/228).
Przebyta rzeżączką
Tak Nie
Suma
HHV-8 Obserwowane Oczekiwane Obserwowane Oczekiwane obserwowanych
Seropozylywne 14 (43x50/271) 36 (228 x 50/271) 50

= 7,93 = 42,07
Seroncgatywne 29 (43x221/271) 192 (228x221/271) 221
= 35,07 = 185,93
Razem 43 228 271

PRZYKŁAD 2
W celu porównania dwóch metod określania stopnia ubyt ubytku. Wyniki te porównano z wynikami uzyskanymi
ków w zębach (obecne lub nieobecne), stosując metody ra przy zastosowaniu bardziej obiektywnej oceny przekroju
diograficzne, stomatolog określił stan pierwszych stu sta każdego zęba. Odsetki zębów, w których stwierdzono ubyt
rych zębów trzonowych, które miały mały ubytek lub brak ki przy użyciu obu metod, porównano testem McNemara.
ł. Dwie metody oceny wskazują na taki sam procent

zębów z ubytkami w populacji. 3. Statystyka testowa, = 6,86.
Rozważane odsetki nie są równe.
2. Częstości dla powiązanych par podane są w tabeli: 4. Porównujemy z wartościami w Dodatku A3 z 1 stop
niem swobody: 0,001 < p < 0,01 (wynik komputerowy
wynosi p = 0,009).
5. Istnieje dowód pozwalający na odrzucenie hipotezy ze
rowej, że obie metody oceny pozwoliły wykryć taki sam
procent zębów z ubytkami. Metoda radiograficzna bywa
Brak ubytków 45 4 49
zawodna w wykrywaniu ubytków. Oszacowujemy różnicę
Wysiępuji} ubytki 17 34 51
w odsetkach zębów określonych jako posiadające ubyt
Razem 62 38 100 ki na 51% - 38% = 13%. Przybliżony przedział ufności dla
prawdziwej różnicy w odsetkach wynosi od 4,496 do 21,696
Adaptowane z pracy: Ketley C. E., Holt R. D.: Visual and radiographic diagnosis ofocclusal caries in first permanent molars and in se-
condprimary molars. British Dental Journal, 1993, 174, 364-370.
24. Dane kategorialne: dwie proporcje 65

25 DANE KATEGORIALNE:
WIĘCEJ NIŻ DWIE KATEGORIE
TEST CHI-KWADRAT: Jeżeli założenia nie są spełnione
DUŻE TABLICE KONTYNGENCJI Jeżeli więcej niż 20% wartości oczekiwanych jest mniej
Problem szych niż 5, możemy spróbować scalić w tablicy kontyngen
cji odpowiednio (tzn. tak, by miało to naukowy sens) dwa
Można sklasyfikować osobników przy użyciu dwóch czynni
lub więcej wierszy i/lub dwie lub więcej kolumn. Następ
ków. Na przykład, jeden czynnik może być stanem nasilenia
choroby (łagodna, umiarkowana lub ciężka), a drugi — gru nie przeliczamy ponownie częstości oczekiwane w zmniej
pą krwi (A, B, 0, AB). Interesuje nas, czy te dwa czynniki szonej tablicy i tak długo kontynuujemy zmniejszanie tabli
są ze sobą powiązane. Czy jest bardziej prawdopodobne, że cy, aż upewnimy się, że warunek E 5 5 został spełniony.
osobnicy o określonej grupie krwi są ciężej chorzy? Jeżeli zmniejszyliśmy naszą tablicę do tablicy 2 x 2 tak, że
nie można dokonywać dalszej redukcji, a nadal mamy małe
Założenia wartości oczekiwane, to do wyznaczenia wartości p użyje
Dane można przedstawić w postaci tablicy kontyngencji my dokładnego testu Fishera (rozdział 24). Niektóre pakiety
r*x c mającej r wierszy i c kolumn (tablica 25.1). Dane te są komputerowe liczą wartości p dokładnego testu Fishera
częstościami; każda komórka zawiera liczbę osobników, również dla większych tablic kontyngencji.
w określonym wierszu i określonej kolumnie. Każdy osob
nik występuje tylko raz i może należeć tylko do jednego
wiersza i jednej kolumny, tj. kategorie poszczególnych czyn
TEST CHI-KWADRAT DLA TRENDU
ników wzajemnie się wykluczają. Co najmniej 80% wartości Problem
oczekiwanych jest większych lub równych 5. Czasami badamy związek danych kategorialnych, gdy jeden
z dwóch czynników posiada tylko dwie kategorie (np. obec
Uzasadnienie ność lub nieobecność cechy), a drugi czynnik może być zali
Hipoteza zerowa zakłada brak związku między dwoma czyn czony do jednej z na przykład k wzajemnie wykluczających
nikami. Zauważmy, że jeżeli mamy tylko dwa wiersze i dwie się kategorii, które w jakiś sposób są uporządkowane. Na
kolumny, wtedy test braku związku jest taki sam jak test przykład, jeden czynnik może opisywać, czy osobnik reagu
dwóch proporcji (rozdział 24). Obliczamy częstości, jakich je, czy też nie na leczenie, a uporządkowane kategorie inne
spodziewamy się w każdej komórce tablicy, jeżeli hipoteza go czynnika mogą reprezentować cztery różne kategorie
zerowa jest prawdziwa. Jak wyjaśniono w rozdziale 24, czę wiekowe (w latach): 65-69, 70-74, 75-79 oraz ^ 80. Mo
stość oczekiwana w określonej komórce jest iloczynem sumy
żemy określić, czy istnieje trend w proporcjach z występu
brzegowej wierszowej i odpowiadającej jej sumy brzegowej
jącą cechą w zależności od kategorii drugiego czynnika. Na
kolumnowej, podzielonym przez sumę całkowitą. Obliczamy
przykład, możemy chcieć się dowiedzieć, czy proporcje re
statystykę testową, która pozwala ocenić rozbieżności mię
akcji na leczenie mają (na przykład) tendencję wzrostową
dzy częstościami obserwowanymi i oczekiwanymi w każdej
wraz ze wzrostem wieku.
komórce tablicy. Jeżeli całkowita rozbieżność jest duża, to
mało prawdopodobne, że hipoteza zerowa jest prawdziwa.
Tablica 25.1. Częstości obserwowane w tablicy rx c.

Nie istnieje związek między jednym i drugim
czynnikiem w populacji.
Istnieje związek między jednym i drugim czynni
kiem w populacji.
3. Obliczamy wartość statystyki testowej właściwej dla H$
gdzie O i E są częstościami obserwowanymi i oczekiwany

mi w każdej komórce tablicy. Statystyka testowa podlega
rozkładowi Chi-kwadrat z liczbą stopni swobody równą
(r-l)x(c-l). Tablica 25.2. Częstości obserwowane i przypisane punkty w tablicy
Ponieważ przybliżenie do rozkładu Chi-kwadrat jest 2x/c.
sensowne, gdy liczba stopni swobody jest większa niż je
den, nie włączamy poprawki na ciągłość (jak to robiliśmy
w rozdziale 24).
ściami ze znanego rozkładu prawdopodobieństwa.
Porównujemy x2 z wartościami w Dodatku A3.

1.Definiujemy hipotezę zerową i alternatywną. 3. Obliczamy wartość statystyki testowej właściwej dla HQ.
W populacji nie istnieje trend w proporcjach z okre
śloną charakterystyką.
W populacji istnieje trend w proporcjach.
Oszacowujemy proporcje z określoną charakterystyką
w każdej z k kategorii. Każdej kolumnie kategorii przypo Stosujemy notację z tablicy 25.2, gdzie sumy przekra
rządkowujemy punktację (tablica 25.2). Zazwyczaj przypo czają każdą z k kategorii. Statystyka testowa podlega roz
rządkowujemy kolejne wartości 1, 2, 3,..., k, ale zależnie kładowi Chi-kwadrat z 1 stopniem swobody.
od tego, w jaki sposób klasyfikowaliśmy czynnik kolumno 4. Porównujemy wartość statystyki testowej z warto
wy, mogą to być liczby, które w jakiś sposób sugerują ściami znanego rozkładu prawdopodobieństwa.
względne wartości uporządkowanych kategorii (np. środki Porównujemy %2 z wartościami w Dodatku A3.
przedziałów grup wiekowych określających każdą katego 5. Interpretujemy wartość p i wyniki.
rię), lub trend, który chcemy zbadać (np. liniowy lub kwa Interpretujemy wartość p i obliczamy przedziały ufno
dratowy). Użycie dowolnych liczb znajdujących się od sie ści dla każdej z k proporcji (rozdział 11).
bie w równych odległościach (np. 1, 2, 3, ..., k) pozwala na
zbadanie trendu liniowego.
PRZYKŁAD
Przeprowadzono badanie przekrojowe w populacji star w cztery grupy wiekowe (65-69, 70-74, 75-79 i 80+ lat).
szych osób mieszkających w Southampton, które miało na Użyłyśmy testu Chi-kwadrat w celu stwierdzenia, czy
celu zmierzenie częstości występowania chorób układu częstość występowania bólów w klatce piersiowej różni
krążenia. Przebadano łącznie 259 osobników, w wieku od się w czterech grupach wiekowych.
65 do 95 lat. W czasie badania osobników pogrupowano
1. Istnieje brak związku między wiekiem i bólem 4. Porównujemy %2 z wartościami w Dodatku A3 z 3 stop
w klatce piersiowej w populacji. niami swobody: p > 0,10 (wynik komputerowy wynosi
Istnieje związek między wiekiem i bólem w klat p = 0,18).
ce piersiowej w populacji. 5. Brak jest dowodu pozwalającego odrzucić hipotezę ze
2. Częstości obserwowane (%) oraz częstości oczekiwane rową o braku związku pomiędzy bólem w klatce piersio
są przedstawione w poniższej tablicy. wej i wiekiem w populacji starszych osób. Estymowane
3. Statystyka testowa proporcje osób (95% przedziały ufności) z bólem w klatce
piersiowej w czterech kolejnych grupach wiekowych, po
czynając od najmłodszych, wynoszą: 0,20 (0,11, 0,29),
0,12 (0,04, 0,19), 0,10 (0,02, 0,17) oraz 0,09 (0,02, 0,21).
Wiek (lata)
Ból w klatce piersiowej 65-69 70-74 75-79 80+ Razem
Tak
Wartości obserwowane 15 (20,3%) 9(11,5%) 6 (9,7%) 4 (8,9%) 34
Wartości oczekiwane 9.7 10,2 8,1 5,9
Nie
Wartości obserwowane 59 (79,7%) 69 (88,5%) 56 (90,3%) 41 (91,1%) 225
Wartości oczekiwane 64,3 67,8 53,9 39,1
Razem 74 78 62 45 259
25. Dane kategorialne: więcej niż dwie kategorie 67

Ponieważ cztery grupy wiekowe w tym badaniu są upo ne. Przyporządkowujemy punktację 1, 2, 3 oraz 4 odpo
rządkowane, do analizy tych danych można również użyć wiednio do każdej z czterech grup wiekowych. Ponieważ są
testu Chi-kwadrat dla trendu, który bierze pod uwagę upo od siebie równomiernie oddalone, możemy testować trend
rządkowanie gnip. W teście tym możemy otrzymać istotne liniowy.
wyniki, mimo że ogólny test związku dawał wyniki nieistot
1. HQ: Nie istnieje związek liniowy między wiekiem i bó 4. Porównujemy z wartościami w Dodatku A3 z 1 stop
lem w klatce piersiowej w populacji. niem swobody: 0,05 < p < 0,10 (wynik komputerowy wy
Hx: Istnieje związek liniowy między wiekiem i bólem nosi p = 0,052).
w klatce piersiowej w populacji. 5. Nie ma dowodu wystarczającego do odrzucenia hipo
2. Dane zostały pokazane w poprzedniej tablicy. Przypo tezy zerowej o braku liniowego związku między bólem
rządkowujemy punktację 1, 2,3 i 4 odpowiednio do czte w klatce piersiowej a wiekiem w populacji starszych
rech grup wiekowych. osób. Jednakże wartość p jest bardzo bliska 0,05, co su
3. Statystyką testową jest Chi-kwadrat. geruje, że proporcja starszych osób z bólem w klatce
piersiowej maleje wraz ze wzrostem wieku.
Adaptowane z pracy: Ucwhurst Ci., Wooil D. A., Walkfir F., i in.: A population survey of cardkwascular disease in elderly people: design,
methods and provaler>re resuli.s. Agp and Agninj!. 1991, 20, 353-360.
68 Podstawowa techniki analizy danych

26 KORELACJA
WSTĘP
Analiza korelacji pozwala zmierzyć stopień związku między
dwoma zmiennymi, x i y. Na początek zakładamy, że obie
zmienne x i y są numeryczne, np. wzrost i masa ciała.
Przypuśćmy, że mamy parę wartości (x, y), mierzonych
w populacji u każdego z n osobników. Na dwuwymiarowym
wykresie rozrzutu możemy zaznaczyć punkt odpowiadający
parze wartości dla każdego osobnika (rozdział 4). Zazwyczaj
zmienną x umieszczamy na osi poziomej tego diagramu,
a zmienną y na osi pionowej. Wykreślając punkty dla
wszystkich n osobników, uzyskujemy rozrzut punktów, któ
ry wskazuje lub nie na związek między dwoma zmiennymi.
WSPÓŁCZYNNIK KORELACJI PEARSONA

Mówimy, że między x i y istnieje zależność liniowa, jeżeli
najlepszym przybliżeniem obserwowanego związku jest li
nia prosta. Obliczając współczynnik korelacji w sensie mo
mentu mieszanego Pearsona, zwykle zwanego po prostu
współczynnikiem korelacji, mierzymy, jak blisko linii pro
stej najlepiej opisującej ich związek liniowy leżą punkty.
Jego prawdziwa wartość w populacji p (grecka litera ro)
jest oszacowana w próbie przez r, gdzie
co wyznaczamy zazwyczaj za pomocą komputera.
Właściwości
• r przyjmuje wartości od -1 do +1.
• Znak rwskazuje, czy jedna zmienna rośnie, gdy dru
ga rośnie (dodatnie r), czy też jedna zmienna maleje, gdy
druga rośnie (ujemne r, patrz rycina 26.1).
• Wielkość r wskazuje, jak blisko linii prostej znajdują
się punkty. W szczególności, jeżeli r= +1 lub -1, to istnieje
idealna korelacja z wszystkimi punktami leżącymi na prostej
(w praktyce zdarza się to nadzwyczaj rzadko); jeżeli r = 0, to
brak jest liniowej korelacji (chociaż może istnieć związek
nieliniowy). Im r bliższe jest wartości krańcowych, tym
wyższy jest stopień związku liniowego (rycina 26.1).
• Jest bezwymiarowy, tzn. nie ma jednostek pomiaro
wych.
• Wartość r dotyczy tylko zakresu wartości xi yw pró
bie. Jego wartość bezwzględna (z pominięciem znaku) ma
tendencję do wzrostu, gdy zakres wartości x i/lub y wzra
sta, i dlatego nie można wnioskować, że będzie miat taką
samą wartość, jeżeli weźmiemy pod uwagę wartości x i y
bardziej krańcowe niż wartości w próbie.
• x i y można zamieniać (miejscami) bez wpływu na
wartość r.
• Korelacja między x i y niekoniecznie oznacza związek
przyczynowy.
• r2 oznacza część zmienności zmiennej y, która może
być przypisana jej liniowemu związkowi ze zmienną x (roz Rycina 26.1. Pięć diagramów przedstawiających wartości r w róż
dział 28). nych sytuacjach.
26. Korelacja 69
Kiedy nie należy obliczać r
Obliczanie r może wprowadzać w błąd, gdy:
• Istnieje nieliniowy związek między dwoma zmiennymi
(rycina 26.2a), np. związek kwadratowy (rozdział 33);
• Dane zawierają więcej niż jedną wartość dla każdego
osobnika;
• Występuje jedna lub więcej wartości odskakujących
(rycina 26.2b);
• Dane zawierają podgrupy osobników, dla których
średnie poziomy wartości dla co najmniej jednej zmiennej
są różne (rycina 26.2c).
Testowanie hipotez dla współczynnika korelacji

Pearsona
Chcemy się dowiedzieć, czy istnieje jakakolwiek liniowa kore
lacja między dwoma zmiennymi numerycznymi. Nasza próba
składa się z n niezależnych par wartości x i y. Zakładamy, że
co najmniej jedna z dwóch zmiennych ma rozkład normalny.
Rycina 26.2. Diagramy pokazujące, kiedy nie należy obliczać
współczynnika korelacji, (a) Związek nie jest liniowy, r = 0. (b) Gdy
1. Definiujemy hipotezę zerową i alternatywną. występują wartości odskakujące, (c) Dane zawierają podgrupy.
2. Zbieramy odpowiednie dane z próby osobników. WSPÓŁCZYNNIK KORELACJI RANGOWEJ

3. Obliczamy wartość statystyki testowej właściwej SPEARMANA
dla H0. Współczynnik korelacji rangowej Spearmana, czyli niepa
Obliczamy r. rametryczny odpowiednik współczynnika korelacji Pearso
• Jeżeli n ś 150, statystyką testową jest r. na, obliczamy, gdy spełniony jest przynajmniej jeden z na
stępujących warunków:
• Jeżeli n > 150, obliczamy , • Co najmniej jedna zmienna, x lub y, mierzona jest
w skali porządkowej;
które podlega rozkładowi tzn-2 stopniami swobody.
• Ani x, ani y nie mają rozkładu normalnego;
4. Porównujemy wartość statystyki z wartością ze zna
• Liczebność próby jest mata;
nego rozkładu prawdopodobieństwa.
• Potrzebujemy miary związku między dwoma zmienny
• Jeżeli n ^ 150, porównujemy rz wartościami w Do
mi, gdy związek ten jest nieliniowy.
datku A10.
• Jeżeli n > 150, porównujemy Tz wartościami w Do Obliczenia
datku A2. W celu oszacowania populacyjnej wartości współczynnika
5. Interpretujemy wartość p i wyniki. korelacji rangowej Spearmana, ps, przez obliczenie jego
Obliczamy przedział ufności dla p. Przy założeniu, że wartości w próbie rs:
obie zmienne mają w przybliżeniu rozkład normalny, 1. Porządkujemy wartości xw kierunku wzrastającym,
95% przybliżony przedział ufności dla p wynosi: począwszy od wartości najmniejszej, i przyporządkowujemy
do nich kolejne rangi (liczby 1, 2, 3, ..., n). Wartości wiąza
ne otrzymują średnią z rang tych wartości, które otrzyma
łyby, gdyby nie było pomiarów wiązanych.
2. W podobny sposób przyporządkowujemy rangi do
wartości y.
3. rs jest współczynnikiem korelacji Pearsona dotyczącej
rang x i y.
Właściwości i testowanie hipotez
Właściwości tego współczynnika są takie same jak w kore
Zauważmy, że gdy liczebność próby jest duża, H0 mo
lacji Pearsona, z tym że r zastępujemy przez rs, a przy te
że zostać odrzucone nawet, jeżeli r jest całkiem bliskie
stowaniu hipotez:
zeru. Odwrotnie, gdy liczebność próby jest mała, H0 mo
że nie zostać odrzucone nawet wtedy, gdy r jest duże. • rs oznacza miarę związku (niekoniecznie liniowego)
Z tego powodu użyteczne jest obliczanie r2, proporcji pomiędzy x i y;
całkowitej wariancji jednej zmiennej, która jest wyzna • Gdy testujemy hipotezę zerową, że ps = 0, porównuje
czona przez jej związek liniowy z drugą zmienną. Na my wynik z wartościami w Dodatku Ali, jeżeli liczebność
przykład, jeżeli r = 0,40, to p < 0,05 dla próby o liczeb próby jest mniejsza lub równa 10;
ności 25, lecz związek ten wyjaśnia jedynie 16% (= 0,402 • Nie obliczamy rs2 (nie oznacza proporcji całkowitej wa
x 100) zmienności jednej zmiennej. riancji jednej zmiennej, która może być przypisana jej linio
wemu związkowi z inną zmienną).

PRZYKŁAD
Jako część badania nad czynnikami związanymi ze zmiana między wzrostem (cm) i ciśnieniem skurczowym krwi
mi ciśnienia krwi u dzieci zebrano informacje o czynnikach (mm Hg) w próbie 100 dzieci; istnieje tendencja, że wyższe
demograficznych i stylu życia oraz kliniczne i antropome dzieci w próbie mają wyższe ciśnienia krwi. Badano współ
tryczne pomiary 4245 dzieci w wieku od 5 do 7 lat. Na dia czynnik korelacji Pearsona pomiędzy tymi dwoma zmien
gramie rozrzutu (rycina 28.1) przedstawiony jest związek nymi. Dodatek C zawiera wyniki komputerowe tej analizy.
1. Populacyjna wartość współczynnika korelacji Pear-

sona p wynosi zero.
Populacyjna wartość współczynnika korelacji Pear-
sona p nie jest równa zero.
2. Możemy wykazać (rycina 37.1), że wartości w próbie
zarówno dla wzrostu, jak i ciśnienia skurczowego krwi
mają w przybliżeniu rozkład normalny.
3. r wynosi 0,33. Jest to statystyka testowa, gdyż n =§ 150.
4. Porównujemy rz wartościami w Dodatku A10, przy
liczebności próby 100: p < 0,001.
5. Istnieje silny dowód pozwalający na odrzucenie hipo
tezy zerowej; stwierdzamy, że istnieje liniowa zależność
pomiędzy ciśnieniem skurczowym krwi i wzrostem w po
pulacji takich dzieci. Jednakże r2 = 0,33 x 0,33 = 0,11.
Dlatego, mimo bardzo istotnego wyniku, związek między
wzrostem a ciśnieniem skurczowym krwi wyjaśnia
jedynie niewielki odsetek, (11%) zmian w skurczowym
ciśnieniu krwi.
Jak mogliśmy się spodziewać, przy założeniu, że każda nywalny estymator 0,32. W celu sprawdzenia = 0 po
zmienna ma rozkład normalny, współczynnik korelacji ran równujemy tę wartość z wartościami Dodatku A10 i znowu
gowej Spearmana pomiędzy tymi zmiennymi dawał porów otrzymujemy p < 0,001.
Dane uzyskane dzięki uprzejmości: ms O. Papacosta, dr P. Whincup, Department of Primary Care and Population Sciences, Royal Frce
and University College Medical School, Londyn, Wielka Brytania.
26. Korelacja 71
27 TEORIA REGRESJI LINIOWEJ
CO TO JEST REGRESJA LINIOWA? METODA NAJMNIEJSZYCH KWADRATÓW

Aby zbadać zależność między dwoma zmiennymi numerycz Analizy regresji dokonujemy, używając wartości z próby.
nymi, x i y, mierzymy wartości x i y dla każdego z n osob Wartości a i b są próbkowymi estymatorami prawdziwych
ników w naszej próbie. Wykreślamy punkty na diagramie parametrów a i /?, które definiują prostą regresji liniowej
rozrzutu (rozdziały 4 i 26), i jeżeli przybliża je linia prosta, w populacji, a i b są wyznaczane metodą najmniejszych kwa
mówimy, że mamy związek liniowy. Jeżeli uważamy, że dratów (zwaną często zwykłą metodą najmniejszych kwa
y zależy od x, tak że zmiana w y jest przyporządkowana dratów) w ten sposób, że dopasowanie prostej Y= a + bx
zmianie w x, a nie odwrotnie, możemy wyznaczyć prostą do punktów na diagramie rozrzutu jest optymalne. Uzysku
regresji liniowej (regresja y vt laleineści ed x\, która naj jemy te przez anafoą Yfarteśei resztowych. (cumowe odle
lepiej opisuje prostoliniową zależność między dwoma głości każdego z punktów od prostej, tj. wartość resztowa =
zmiennymi. Ogólnie, opisujemy regresję jako regresję jed = wartość obserwowana y — wartość dopasowana Y, ryci
nej zmiennej (prostą), ponieważ w analizie mamy do czynie na 27.2). Prostą najlepszego dopasowania wybiera się tak,
nia tylko z jedną zmienną x, jest to więc inna sytuacja niż by suma kwadratów wartości resztowych była minimalna.
w przypadku regresji wielu zmiennych, która obejmuje
dwie lub więcej zmiennych x (patrz rozdziały 29-31).
ZAŁOŻENIA
1. Istnieje zależność liniowa między xi y.
UNIA REGRESJI 2. Obserwacje w próbie są niezależne. Obserwacje są
Równanie matematyczne, które wyznacza prostą zwyczaj niezależne, jeżeli jednemu osobnikowi odpowiada nie wię
nej regresji liniowej, ma postać: cej niż jedna para obserwacji.
Y = a + bx. 3. Dla każdej wartości x w populacji istnieje rozkład
• x jest nazywane zmienną niezależną, predyktorem wartości y; rozkład ten jest rozkładem normalnym. Śred
lub zmienną wyjaśniającą; nia tego rozkładu wartości y leży na prawdziwej linii regre
• Dla danej wartości x, Y jest wartością zmiennej sji (rycina 27.3).
y (zwanej zmienną zależną, zmienną wynikową lub od 4. Zmienność rozkładu wartości y w populacji jest taka
powiedzią), która leży na wyznaczonej prostej. Stanowi sama dła wszystkich wartości jr, tzn. wariancja a2, jest
oszacowanie wartości, której spodziewamy się dla y (tj. jej stała (rycina 27.3).
średnią), gdy znamy wartość x. Nazywana jest wartością 5. Zmienna x może być zmierzona bez błędu. Zwróćmy
dopasowaną y, uwagę, że nie przyjmujemy żadnego założenia o rozkładzie
• a jest współczynnikiem przecięcia wyznaczonej pro zmiennej x.
stej; jest to wartość Fdla x= 0 (rycina 27.1); Wiele założeń, którym podlega analiza regresji, wiąże
• b jest współczynnikiem nachylenia lub gradientem się z rozkładem populacji wartości y dla określonej warto
wyznaczanej prostej; oznacza wielkość, o jaką przeciętnie ści x, ale można je przedstawić w postaci reszt. Łatwiej jest
wzrasta Y, jeżeli x zwiększymy o jednostkę (rycina 27.1). sprawdzić te założenia (rozdział 28) poprzez zbadanie war
a i b są nazywane współczynnikami regresji wyznacza tości resztowych niż wartości y.
nej prostej, chociaż nazwa ta jest często rezerwowana wy
łącznie dla b. W rozdziale 28 opisujemy, jak wyznaczyć te
współczynniki. Prosta regresja liniowa może być rozwinięta
przez włączenie więcej niż jednej zmiennej wyjaśniającej;
w tym przypadku nazywa się ją wielokrotną regresją linio
wą (rozdział 29).
Rycina 27.1. Oszacowana prosta regresji liniowej z zaznaczonym Rycina 27.2. Oszacowana prosta regresji liniowej ukazująca war
punktem przecięcia a i współczynnikiem nachylenia b (średni tości resztowe (pionowe linie przerywane) dla każdego punktu.
wzrost Ydla jednostkowego wzrostu x).

cji; rozdział 26), pozwala nam subiektywnie określić dobroć
dopasowania równania regresji.
2. Testowanie hipotezy zerowej, że prawdziwe nachyle
nie prostej /? jest równe zero. Wynik istotny wskazuje na li
niowy związek między x i y.
3. Uzyskanie estymatora wariancji resztowej. Potrzebu
jemy go do testowania hipotez o nachyleniu lub odcięciu
oraz do obliczania przedziałów ufności dla tych parametrów
oraz przewidywanych wartości y.
Szczegóły na temat częściej stosowanych procedur poda
jemy w rozdziale 28.
Rycina 27.3. Ilustracja założeń przyjmowanych w regresji liniowej. REGRESJA DO ŚREDNIEJ

Statystyczne znaczenie słowa „regresja" pochodzi od zjawi
ska znanego jako regresja do średniej, które w 1889 r. od
krył sir Francis Galton. Wykazał on, że chociaż wysocy oj
ANALIZA TABLICY WARIANCJI cowie mają zazwyczaj wysokich synów, to przeciętny
Opis wzrost synów jest mniejszy od wzrostu ich wysokich ojców.
Zwykle wydruk komputerowy z analizy regresji zawiera ta Przeciętny wzrost synów miał „regresję" lub „wracał"
blicę analizy wariancji. W analizie wariancji (rozdział 22) w kierunku średniego wzrostu wszystkich ojców w popula
całkowita zmienność zmiennej podlegającej badaniu, w tym cji. Tak więc, przeciętnie wysocy ojcowie mają niższych
przypadku y, zostaje podzielona na części składowe. Ze (lecz nadal wysokich) synów, a niżsi ojcowie mają wyższych
względu na liniowy związek y oraz x spodziewamy się (lecz nadal niskich) synów.
zmian y, gdy zmienia się x; nazywamy to zmiennością z po Regresję do średniej obserwujemy w badaniach przesie
wodu regresji lub wyjaśnioną przez regresję. Pozostała wowych (rozdział 38) i w badaniach klinicznych (rozdział
zmienność jest zwana błędem resztowym lub wariancją 14), gdy podgrupa pacjentów zostaje wybrana do leczenia ze
niewyjaśnioną. Wariancja resztowa powinna być jak naj względu na to, że poziomy pewnej zmiennej, powiedzmy cho
mniejsza. Wtedy większość zmienności y zostanie wyjaśnio lesterolu, są u nich duże (lub małe). Gdy powtarzamy pomiar
na przez regresję i punkty będą leżały blisko prostej lub na jakiś czas później, przeciętna wartość drugiego odczytu dla
niej; tzn. że prosta będzie dobrym dopasowaniem. podgrupy jest zazwyczaj niższa niż ta z pierwszego odczytu
i przesuwa się w kierunku (tj. podlega regresji) przeciętnej
Cele wartości w dopasowanej pod względem wieku i płci popula
Tablica analizy wariancji pozwala na: cji, niezależnie od jakiegokolwiek leczenia, któremu podgru
1. Określenie, jak dobrze prosta jest dopasowana do pa mogłaby podlegać. Pacjenci włączeni do badania klinicz
punktów. Na podstawie informacji zawartej w tablicy może nego na podstawie wysokiego poziomu cholesterolu w czasie
my obliczyć proporcje całkowitej zmienności w y, która mo pierwszego badania, najprawdopodobniej przeciętnie będą
że być wytłumaczona regresją. Proporcja ta, zazwyczaj wy mieli spadek cholesterolu podczas drugiego badania, nawet
rażona w procentach i oznaczona przez (w prostej wtedy, gdy przez ten okres nie byli leczeni.
regresji liniowej jest to r 2 , kwadrat współczynnika korela-
27. Teoria regresji liniowej 73

28 PRZEPROWADZANIE ANALIZY REGRESJI LINIOWEJ
PROSTA REGRESJI LINIOWEJ liwe znalezienie satysfakcjonującej transformacji. Najważ

niejszymi założeniami są liniowość i niezależność. Jeżeli
Po wybraniu z naszej populacji próby o liczebności n i wy
masz wątpliwości co do założeń o normalności i/lub stałości
kreśleniu diagramu rozrzutu dla potwierdzenia przybliże
wariancji, możesz kontynuować postępowanie, lecz wartości p
nia linią prostą oszacowujemy regresję y od x jako:
w testowaniu hipotez i oszacowania błędów standardowych
mogą być zaburzone. Zauważmy, że zmienna x rzadko jest
mierzona bez błędu; zwykle akceptuje się założenie, że błąd
gdzie Y jest oszacowaną dopasowaną lub prognozowaną
jest maty, gdyż ma to minimalny wpływ na wnioski.
wartością y, a jest oszacowanym punktem przecięcia, nato
miast b jest oszacowanym nachyleniem, które oznacza prze
ciętną zmianę Fprzy jednostkowej zmianie x (rozdział 271. WARTOŚCI ODSKAKUJĄCE
I PUNKTY WPŁYWAJĄCE
WYKREŚLANIE PROSTEJ • Obserwacja wpływająca może, jeśli zostanie pominięta,
Aby wykreślić prostą Y= a + bx na diagramie rozrzutu, zmienić nawet więcej niż jeden z estymatorów parametrów
wybieramy w jego obrębie trzy wartości w modelu (tzn. nachylenie lub przecięcie). Formalne metody jej
Podstawiamy x1 do równania, aby uzyskać odpowiadającą wykrywania zostały krótko omówione w rozdziale 29. Jeżeli
mu wartość Y, a mianowicie jest naszą metody te są niedostępne, musimy polegać na intuicji.
oszacowaną dopasowaną wartością dla Xj, która odpowiada • Wartość odskakująca (obserwacja niezgodna z większo
wartości obserwowanej yv Powtarzamy procedurę dla x2 ścią wartości w zbiorze danych, rozdział 3) może być lub nie
i x3, aby uzyskać odpowiadające im wartości Y2 i Y3. Zazna być punktem wpływającym i można ją często wykryć przez
czamy te punkty na diagramie rozrzutu i łączymy je, uzy przyjrzenie się diagramowi rozrzutu lub wykresowi reszt
skując linię prostą. (patrz również rozdział 29). Zarówno dla wartości odskakują
cych, jak i dla punktów wpływających dopasowujemy model,
uwzględniając podejrzane dane osobnika i nie uwzględniając
SPRAWDZANIE ZAŁOŻEŃ
ich oraz badamy ich wpływ na estymator(y). Nie należy odrzu
Dla każdej wartości obserwowanej x wartość resztowa (re cać rutynowo wartości odskakujących lub punktów wpływają
siduum, reszta) jest równa wartości obserwowanej y po od cych, ponieważ ich pominięcie może zaburzyć wnioski. Zawsze
jęciu odpowiadającej jej wartości dopasowanej Y Każda badamy przyczyny ich występowania i opisujemy je.
wartość resztowa może być albo dodatnia, albo ujemna.
Wartości resztowych możemy użyć do sprawdzenia następu
jących założeń, leżących u podstaw regresji liniowej. OKREŚLENIE DOBROCI DOPASOWANIA
1. Istnieje zależność liniowa między xi y: wykreślamy Możemy ocenić, jak dobrze prosta jest dopasowana do da
albo y w zależności od x (dane powinny przybliżać linię pro nych przez obliczenie R2 (zwykle wyrażonego w procen
stą) albo wartości resztowe w zależności od x (powinniśmy tach), które równa się kwadratowi współczynnika korelacji
obserwować raczej losowy rozrzut punktów niż jakiś syste (rozdziały 26 i 27). Oznacza ono procent zmienności y, któ
matyczny wzór). ra może być wyjaśniona przez jej związek z x. Jego dopeł
2. Obserwacje są niezależne: obserwacje są niezależne, nienie (100 - R2) oznacza procent zmienności y, która nie
jeżeli dla każdego osobnika mamy nie więcej niż jedną parę jest wyjaśniona przez ten związek. Nie ma formalnego te
obserwacji. stu do oszacowania R2; musimy polegać na subiektywnej
3. Wartości resztowe mają rozkład normalny ze śred ocenie dopasowania prostej regresji.
nią równą zero: wykreślamy histogram, wykres „łodyga
z liśćmi", wykres skrzynkowy (rozdział 4) lub wykres roz
kładu normalnego (rozdział 35) wartości resztowych, a wy BADANIE NACHYLENIA
niki oceniamy wzrokowo. Jeżeli nachylenie prostej jest równe zero, nie ma zależności li
4. Wartości resztowe mają taką samą zmienność (sta niowej między x i y; zmiany x nie mają wpływu na y. Hipote
łą wariancję) dla wszystkich dopasowanych wartości y: zę zerową, że prawdziwe nachylenie /} jest równe zero, moż
wykreślamy wartości resztowe w funkcji wartości dopaso na testować na dwa sposoby, które dają jednakowe wyniki.
wanych Y zmiennej y, punkty powinny mieć rozrzut losowy. • Badamy stosunek F (będący stosunkiem średnich
Jeżeli rozrzut wartości resztowych wzrasta lub maleje ze kwadratów „wyjaśnionych" do „niewyjaśnionych") za pomo
wzrostem Y, założenie to nie jest spełnione. cą tablicy analizy wariancji. Podlega on rozkładowi Fi ma
5. Zmienna x może być pomierzona bez błędu. dwa stopnie swobody (1, n - 2), odpowiednio dla licznika
i mianownika.
BRAK SPEŁNIENIA ZAŁOŻEŃ • Obliczamy statystykę testową = która podlega
Jeżeli mamy wątpliwości co do spełnienia założeń liniowości, rozkładowi f z n - 2 stopniami swobody, gdzie SE(b) jest
normalności i/lub stałości wariancji, możemy dokonać trans błędem standardowym b.
formacji x lub y (rozdział 9) i wyznaczyć nową prostą regre W każdym przypadku wynik istotny, zazwyczaj gdy
sji, dla której te założenia są spełnione. Nie zawsze jest moż p < 0,05, prowadzi do odrzucenia hipotezy zerowej.

Obliczamy 95% przedział ufności dla jako Powtarzanie tej procedury dla różnych wartości x pozwa
gdzie t0 05 jest punktem procentowym rozkładu f z n - 2 stop la nam na skonstruowanie przedziałów ufności dla prostej.
niami swobody, który daje dwustronne prawdopodobieństwo Jest to zakres lub obszar zawierający prawdziwą prostą
równe 0,05. Przedział ten zawiera prawdziwą wartość nachy z pewnym prawdopodobieństwem, na przykład 95%. Podob
lenia z 95% pewnością. Dla dużych liczebności prób, na przy nie możemy wyznaczyć szerszy obszar, w którym, jak może
kład n S 100, możemy przybliżyć t005 przez 1,96. my się spodziewać, leży większość (zwykle 95%) obserwacji.
Rzadko przeprowadza się regresję liniową bez pomocy
komputera; wydruk komputerowy z większości pakietów
statystycznych zawiera wszystkie te informacje.
UŻYCIE PROSTEJ DO PRZEWIDYWANIA

Prostej regresji możemy użyć do prognozowania wartości
y dla wartości x wewnątrz obserwowanego zakresu (nigdy
nie należy dokonywać ekstrapolacji poza te granice). Prze
widujemy średnią wartość y dla osobników posiadających
pewną wartość x, podstawiając xdo równania prostej. Tak
wi^c, jeżeli x = xQ, prognozujemy y jako Y0 = a+ óx0. Tej
prognozowanej wielkości i jej błędu standardowego używa
my do wyznaczenia przedziału ufności dla prawdziwej śred
niej wartości j w populacji.
PRZYKŁAD
Na rycinie 2H. 1 pokazany jost związek między wzrostem Oszacowanie Biąd stan- Statystyka
(mierzonym w cm) i ciśnieniem skurczowym krwi (SBP — Zmienna parametru daniowy testowa Wartość p
sysiolic Mood pressure, mierzonym w mm Hg) w grupie
Przecięcie 46,2817 16,7845 2,7574 0,0070
100 dzieci opisanych w rozdziale 26. Wykonałyśmy anali
Wzrost 0,4842 0,1396 3,4684 0,0008
zę prostej regresji liniowej ciśnienia skurczowego krwi
od wzrostu. Założenia leżące u podstaw lej analizy zwery
fikowano na rycinach od 28.2 do 28.4. Typowy wydruk
komputerowy został załączony w dodatku C. Stosunek F
jest istotny, co można stwierdzić na podstawie tablicy ana p = 0,0008 dla hipotezy na temat wzrostu (tzn. Hai
lizy wariancji w Dodatku C (F= 12,03 z odpowiednio 1 i 98 prawdziwe nachylenie równa się zero). Tak jak oczekiwa
stopniami swobody w liczniku i mianowniku, p = 0,0008), no, jest identyczne z wartością otrzymaną z tablicy anali
więc istnieje Umowy związek między wzrostem a skurczo zy wariancji w Dodatku C.
wym ciśnieniem krwi. Wartość Rz modelu wynosi 10,9%. Skoro liczebność próby jest duża (wynosi 100), może
Tylko około dziesiąta część zmienności ciśnienia skurczo my wartość przybliżyć przez 1,96 i obliczyć 95%
wego krwi może być więc wytłumaczona przez model, tzn. przedział ufności dla prawdziwego nachylenia jako:
przez różnice we wzrostach dzieci. Wyniki z wydruku kom
puterowego zostały pokazane w tablicy.
Parametr estymatora dla „przecięcia" odpowiada war
tości a, zaś parametr dla „wzrostu" odpowiada wartości Dlatego 95% przedział ufności dla nachylenia waha się
b (nachylenie linii regresji). Zatem równanie oszacowanej od 0,21 do 0,75 mm Hg na centymetr zmiany we wzro
prostej regresji ma postać: ście. Ten przedział ufności nie zawiera zera, co potwier
dza, że nachylenie jest istotnie różne od zera.
SBP = 46,28 + 0,48 x wzrost
Możemy użyć równania regresji do prognozowania
W tym przykładzie punkt przecięcia nie jest sam skurczowego ciśnienia krwi, jakiego spodziewalibyśmy się
Z siebie interesujący (dotyczy prognozowanego ciśnienia u dziecka o danym wzroście. Na przykład, dziecko o wzro
krwi dla dziecka o wzroście zero cm, co całkowicie wy ście 115 cm ma prognozowaną wartość skurczowego ciśnie
kracza poza zakres wartości obserwowanych w badaniu). nia krwi równą 46,28 + (0,48 x 115) = 101,48 mm Hg;
Jednakże możemy interpretować współczynnik nachyle dziecko o wzroście 130 cm ma prognozowaną wartość
nia; u badanych dzieci skurczowe ciśnienie krwi wzrasta skurczowego ciśnienia krwi równą 46,28 + (0,48 x 130) =
przeciętnie o 0,48 mm Hg na każdy centymetr wzrostu. = 108,68 mm Hg.
28. Przeprowadzanie analizy regresji liniowej 75

Kyr.ina 28.1. Wykres rozrzutu pokazujący zwią
zek miedzy cińiiiciiicm skurczowym krwi (SBP)
i wzrosłem. Na wykresie zaznaczono oszacowaną
prosta regresji SBP = 46.281 0,48 x wzrost.
Rycina 28.2. Na tym diagramie widoczny jest brak

związku wskazujący na liniową zależność wzrostu
i ciśnienia skurczowego krwi.
Rycina 28.3. Rozkład reszt jest w przybliżeniu nor

malny.

Rycina 28.4. Brak tendencji systematycznego wzro
stu lub spadku dla wartości dopasowanych. Stąd
spełnione jest założenie stałej warimicji.
28. Przeprowadzanie analizy regresji liniowej 77

29 WIELOKROTNA REGRESJA LINIOWA
CO TO TAKIEGO? gólną uwagę trzeba zwrócić na to, czy spełnione są założenia
o liniowości i niezależności. Jeżeli jest to wątpliwe, możemy
Czasami interesuje nas efekt wpływu kilku zmiennych wyja przetransformować (rozdział 9) zmienną y i/lub niektóre al
śniających na zmienną odpowiedzi y. Jeżeli uwa bo wszystkie spośród zmiennych x i powtórzyć analizę (rów
żamy, że zmienne te mogą być wewnętrznie powiązane, nie po nież sprawdzanie założeń) na danych przetransformowanych.
winniśmy osobno obserwować wpływu na y zmieniających się
wartości pojedynczego x, lecz jednocześnie wziąć pod uwagę
wartości pozostałych x-ów. Na przykład, ponieważ istnieje sil KATEGORIALNE ZMIENNE WYJAŚNIAJĄCE
ny związek między wzrostem a masą dziecka, chcielibyśmy się Możemy wykonać wielokrotną regresję liniową, używając kate-
dowiedzieć, czy zmieni się związek między wzrostem a ciśnie gorialnych zmiennych wyjaśniających. W szczególności, jeżeli
niem skurczowym krwi (rozdział 28), kiedy weźmiemy pod mamy zmienną binarną Xj (np. mężczyzna = 0, kobieta = 1)
uwagę również masę dziecka. Wielokrotna regresja liniowa po i zwiększymy xx o jednostkę, dokonamy zmiany z mężczyzn na
zwala na zbadanie łącznego wpływu tych zmiennych wyjaśnia kobiety. bx oznacza więc różnicę w oszacowanej wartości śred
jących na y; jest to przykład analizy wielu zmiennych, gdzie niej pomiędzy kobietami i mężczyznami, po dokonaniu korekcji
wiążemy ze sobą pojedynczą zmienną wynikową jednocześnie ze względu na pozostałe zmienne x.
z co najmniej dwoma zmiennymi objaśniającymi. Zwróćmy Jeżeli mamy nominalną zmienną wyjaśniającą (rozdział 1),
uwagę, że chociaż zmienne objaśniające nazywa się czasami która ma więcej niż dwie kategorie, musimy wytworzyć pewną
zmiennymi niezależnymi, jest to błędna nazwa, gdyż mogą one liczbę zmiennych ślepych (fikcyjnych) lub wskaźnikowych .
1
być powiązane. Ogólnie dla zmiennej nominalnej z k kategoriami tworzymy

Wybieramy próbę n osobników i mierzymy wartości każdej ze k-\ binarnych zmiennych ślepych. Wybieramy jedną z katego
zmiennych dla każdego osobnika. Równanie wielokrotnej regre rii jako reprezentującą naszą kategorię odniesienia, a każda
sji liniowej, które oszacowuje związki w populacji, ma postać: zmienna ślepa pozwoli nam na porównanie jednej z pozostałych
k-\ kategorii zmiennej z kategorią odniesienia. Na przykład,
możemy być zainteresowani porównaniem poziomów średniego
• x,jest i-tą zmienną wyjaśniającą lub współzmienną (i = ciśnienia skurczowego krwi u osobników mieszkających
= 1, 2, 3, ..., k); w czterech krajach Europy (Holandia, Wielka Brytania, Hiszpa
• Fjest oszacowaną, prognozowaną, średnią lub dopasowa nia i Francja). Załóżmy, że jako kategorię odniesienia wybrali
ną wartością y, odpowiadającą pewnemu określonemu zbioro śmy Holandię. Wytwarzamy jedną zmienną binarną identyfiku
wi wartości jącą osoby mieszkające w Wielkiej Brytanii; zmienna ta przyj
• a jest członem stałym, oszacowaną wartością przecięcia; mie wartość 1, jeżeli osobnik mieszka w Wielkiej Brytanii, a 0
jest to wartość Y, gdy wszystkie x są równe zero; w przeciwnym razie. Potem generujemy zmienne binarne, aby
• są oszacowanymi współczynnikami cząst podobnie zidentyfikować osoby mieszkające w Hiszpanii i Fran
kowymi regresji; bx oznacza wielkość, o którą średnio wzro cji. Automatycznie, osobnicy mieszkający w Holandii mogą zo
śnie Y, jeżeli zwiększymy o jednostkę, utrzymując wszyst stać zidentyfikowani jako ci, którzy mają wartość zero dla każ
kie pozostałe wartości x niezmienione (tj. ich dopasowanie lub dej z trzech zmiennych binarnych. W analizie wielokrotnej re
ich skorygowanie). Jeżeli istnieje związek między i pozosta gresji liniowej współczynnik regresji dla każdego z pozostałych
łymi x-ami, różni się od oszacowanego współczynnika re trzech państw oznacza wielkość, o którą przeciętnie różni się
gresji uzyskanego wyłącznie z regresji y na podstawie po Y (ciśnienie skurczowe krwi) u osób mieszkających w danym
nieważ w tym drugim przypadku nie został on skorygowany ze kraju w porównaniu z mieszkającymi w Holandii. Współczyn
względu na pozostałe zmienne, oznacza wpływ na y, któ nik przecięcia pozwala oszacować średnie skurczowe ciśnienie
ry jest niezależny od pozostałych x-ów. krwi u osobników mieszkających w Holandii (gdy wszystkie po
Analizę wielokrotnej regresji liniowej zawsze przeprowa zostałe zmienne objaśniające mają wartość zero). Niektóre pa
dza się przy użyciu komputera, dlatego pomijamy wzory na te kiety komputerowe generują automatycznie zmienne ślepe, je
oszacowywane parametry. żeli tylko wyspecyfikuje się zmienną jako kategorialną.
W przypadku zmiennej wyjaśniającej porządkowej może
my przyporządkować trzy lub więcej kategorii na znaczącej
PO CO TO ROBIMY? skali liniowej (np. klasy socjalne 1-5). Możemy wtedy albo
By móc: użyć tych wartości bezpośrednio w równaniu wielokrotnej re
• Zidentyfikować zmienne wyjaśniające, które wiążą się gresji liniowej (patrz też rozdział 33), albo wygenerować serię
ze zmienną zależną, w celu zrozumienia zasad stanowiących zmiennych ślepych, jak dla zmiennej nominalnej (lecz wtedy
podstawę zjawiska; nie wykorzystujemy informacji o uporządkowaniu kategorii).
• Wyznaczyć stopień, w jakim jedna lub więcej zmien
nych wyjaśniających wiąże się ze zmienną zależną po doko ANALIZA KOWARIANCJI
naniu korekcji ze względu na pozostałe zmienne, które mogą
być z nimi związane; Rozszerzeniem analizy wariancji (ANOVA, rozdział 22) jest
analiza kowariancji, w której porównujemy odpowiedzi po
• Prognozować wartości zmiennej zależnej tak dokładnie,
między grupami osobników (tj. dwoma lub więcej badanymi
jak to możliwe, na podstawie zmiennych wyjaśniających.
grupami), biorąc pod uwagę pozostałe zmienne mierzone dla
każdego osobnika. Takie zmienne mogą być analizowane przy
ZAŁOŻENIA
Założenia w wielokrotnej regresji liniowej są takie same (je
żeli zastąpimy „x" przez „każdy z x-ów") jak w prostej re 1
Armitage P., Berry G., Matthews J. N. S.: Statistical Methods in
gresji liniowej (rozdział 27) i sprawdza się je tak samo. Szcze- Medical Research. Blackwell Science, Wielka Brytania 2001.

użyciu techniki wielokrotnej regresji liniowej poprzez wyge 2. Test Fw tablicy ANOVA.
nerowanie jednej lub większej liczby ślepych zmiennych bi Sprawdza on hipotezę zerową, że wszystkie współczynniki
narnych służących do rozróżnienia grup. Dlatego, gdy chcemy cząstkowe regresji w populacji są równe zero.
porównać średnie wartości y w dwóch grupach leczonych, Wynik istotny wskazuje, że istnieje liniowa zależność mię
kontrolując wpływ zmiennych (np. wiek, masa,...), tworzymy dzy y i co najmniej jednym z x-ów.
zmienną binarną x oznaczającą „leczenie" (np. = 0 dla le 3. Test t dla każdego współczynnika korelacji cząstko
czenia A, =1 dla leczenia B). W równaniu wielokrotnej re wej
gresji liniowej jest oszacowaną różnicą w średnich odpo Każdy test t odnosi się do jednej zmiennej wyjaśniającej
wiedziach y między sposobami leczenia B i A, skorygowaną i można go stosować, gdy chcemy sprawdzić, czy zmienna wy
ze względu na pozostałe zmienne x. jaśniająca ma wpływ na zmienną wynikową, a wpływ pozosta
Analiza kowariancji jest stosowana w kontrolowanych łych wspóizmiennych jest ustalony. W celu testowania
eksperymentach randomizowanych, które porównują lecze = 0, obliczamy statystykę testową = która podlega
nie, gdy każdy osobnik w badaniu ma wykonane badanie rozkładowi tz(n— liczba zmiennych wyjaśniających - 1) stop
przed leczeniem i po leczeniu. W tej sytuacji zmienna odpo niami swobody. Wydruk komputerowy podaje wartości każde
wiedzi y jest pomiarem kontynuacyjnym powtarzanym, a dwie go oraz wartość odpowiedniej statystyki testowej
spośród zmiennych wyjaśniających w modelu regresyjnym są z jej wartością p. Czasami dołącza się przedział ufności dla
zmiennymi binarnymi oznaczającymi sposób leczenia xl i po jeżeli brak tego wyniku, można go obliczyć ze wzoru
czątkowy stan osobnika przy rozpoczęciu badania x 2 . Podej
ście to jest ogólnie lepsze (tzn. ma większą moc — patrz roz
dział 36) niż użycie jako zmiennej zmiany od wartości począt WARTOŚCI ODSKAKUJĄCE
kowej lub procentowej zmiany pomiaru kontynuacyjnego. I PUNKTY WPŁYWAJĄCE
Jak już zostało to krótko omówione w rozdziale 28, wartość od
WYBÓR ZMIENNYCH WYJAŚNIAJĄCYCH skakująca (obserwacja, która jest niespójna 2 więks20śeią war
Regułą jest, że nie dokonujemy analizy wielokrotnej regresji tości w zbiorze danych, rozdział 3) może być lub nie być warto
liniowej, jeżeli lie2ba 2miennych pr2ekracza liczbę osobników ścią wpływającą [tzn. zaburzającą oszacowanie(a) paranie-
podzieloną przez 10. Większość pakietów komputerowych za tru(ów) modelu, jeżeli zostanie pominięta]. Wartość odskakują
wiera automatyczne procedury doboru zmiennych, np. wybór ca i/lub obserwacja wpływająca mogą mieć jedną lub dwie
krokowy (rozdział 33). Przydają się one szczególnie Wtedy, z następujących cech:
gdy wisie zmiennych wyjaśniających jest wzajemnie powiąza • Wysoką wartość resztową (wartość resztowa jest różnicą
nych. Szczególny problem pojawia się w przypadku wspótli- między wartościami prognozowaną a obserwowaną zmiennej wy
niowości (zależności liniowej, kolinearności), tj. kiedy pary nikowej y dla wartości zmiennej wyjaśniającej tego osobnika).
zmiennych wyjaśniających są niezwykle silnie skorelowane • Wysokie przełożenie (efekt dźwigni), gdy wartość x (lub
(rozdział 34). zbiór x-ów) danego osobnika jest odległa od średniej wartości
x(lub zbioru x-ów). Wartości o wysokim przełożeniu, są więk
ANALIZA sze niż gdzie k jest liczbą zmiennych wyjaśniających
Większość wyników komputerowych zawiera pozycje: w modelu, natomiast n — liczbą obiektów w badaniu.
1. Oszacowanie jakości dopasowania. Dostępne są różne metody badania czułości modelu — stop
Skorygowane oznacza proporcję (często wyrażoną nia, w jakim estymatory są zaburzane przez podzbiory danych.
w procentach) zmienności j, która może być wyjaśniona Możemy wyznaczyć podejrzane wartości wpływające na przy
poprzez jej związek z jc-ami. jest skorygowane tak, że kład przez (1) badanie obiektów mających duże wartości reszto-
modele można porównywać z różnymi liczbami zmiennych we, wysokie przełożenie i/lub odległość Cooka (ogólna miara
wyjaśniających. Jeżeli ma małą wartość (ocenianą subiek łącząca w sobie zarówno wartości resztowe, jak i o wysokim
tywnie), model jest źle dopasowany. Jakość dopasowania jest przełożeniu) większą niż jeden, lub (2) badanie specjalnych wy
szczególnie ważna wtedy, gdy równania wielokrotnej regre kresów diagnostycznych, na których punkty wpływające stają
sji liniowej używamy do predykcji. się wyraźnie widoczne.
PRZYKłAD
W rozdziale 28 badaliśmy związek między ciśnieniem skur nych wyjaśniających jest powiązana ze skurczowym ciśnie
czowym krwi i wzrostem u 100 dzieci. Wiadomo, że wzrost niem krwi (F- 14,95 z 3 i 96 stopniami swobody odpowied
i masa ciała są dodatnio skorelowane. Dlatego w celu zbada nio dla licznika i mianownika, p = 0,0001). Skorygowana war
nia u tych dzieci wpływu wzrostu (cm), masy ciała (kg) i płci tość R2 wynosząca 0,2972 wskazuje, że 29,7% zmienności
(0 = chłopiec, 1 = dziewczynka) na skurczowe ciśnienie krwi w skurczowym ciśnieniu krwi jest wytłumaczone poprzez
(mm Hg) wykonujemy analizę wielokrotnej regresji linio model — to jest przez różnice we wzroście, masie ciała i płci
wej. Założenia leżące u podstaw tej analizy zweryfikowano dzieci. Pozwala lo na lepsze dopasowanie do danych niż model
na rycinach od 29.1 do 29.4. Typowy wydruk z komputerowej prostej regresji liniowej z rozdziału 28, w którym R2 = 0,11.
analizy tych danych został załączony w Dodatku C. Tablica Typowy wydruk komputerowy zawiera informacje o zmien
analizy wariancji wskazuje, że co najmniej jedna ze zmień- nych wyjaśniających w modelu w poslaci tablicy:
Przecięcie 79,4395 17,1182 (45,89 do 112,99) 4,6406 0,0001

Wzrost -0,0310 0,1717 (-0,37 do 0,31) -0,1807 0,8507
Masa 1,1795 0,2614 (0,67 do 1,69) 4,5123 0,0001
Płeć 4,2295 1,6105 (1,07 do 7,39) 2,6261 0,0101
29. Wielokrotna regresja liniowa 79

Rycina 29.1. Nie ma systematycznego wzoru rozkładu reszt, gdy Rycina 29.2. Rozkład reszt jest w przybliżeniu normalny, a wa
wykreśla się je w funkcji masy ciała. (Należy zwrócić uwagę, że riancja nieco mniejsza niż w przypadku prostego modelu regre
podobnie jak na rycinie 28.2 wykres wartości resztowych z tego sji (rozdział 28). co odzwierciedla lepsze dopasowanio modolu
modelu nie daje systematycznego wzoru). wielokrotnej regresji liniowej w porównaniu 2 modelem prostym.
Rycina 29.3. Podobnie jak w modelu jednej zmiennej, nie ma Rycina 29.4. Rozkład wartości resztowych jest podobny w gru
tendencji do systematycznego wzrostu lub spadku wartości reszt pie chłopców i dziewczynek, co sugeruje, że model jest dopaso
dla wartości dopasowanych. Spełniony jest więc warunek stałej wany równie dobrze w obu grupach.
wariancji.
Równanie wielokrotnej regresji liniowej ma postać: niem krwi; u dziewcząt ciśnienie skurczowe jest przecięt
nie 4,23 mm Hg wyższe niż u chłopców, nawet po wzięciu
SBP = 79,44 - (0,03 x wzrost) + (1,18 x masa) + pod uwagę możliwych różnic we wzrostach i masach ciała.
+ (4,23 x płeć). Stąd zarówno masa, jak i pleć są niezależnymi predykato-
rami skurczowego ciśnienia krwi u dzieci.
Związek między masą ciała a ciśnieniem skurczowym Możemy obliczyć spodziewane wartości skurczowego ci
krwi jest wysoce istotny (p < 0,0001), ze średnim wzro śnienia krwi u dzieci z danymi wzrostami i masami. Jeżeli
stem skurczowego ciśnienia krwi o 1,18 mm Hg na kilo pierwsze dziecko wspomniane w rozdziale 28 jest dziew
gram wzrostu masy po skorygowaniu wpływu wzrostu czynką o wzroście 115 cm i waży 37 kg, to ma ono progno
i pici. Jednak po skorygowaniu ze względu na masę i pleć zowane ciśnienie skurczowe krwi 79,44 - (0,03 x 115) +
związek między wzrostem i ciśnieniem skurczowym krwi + (1,18 x 37) + (4,23 x 1) = 123,88 mm Hg (wyższe niż
staje się nieistotny (p = 0.86). Sugeruje to, że istotny zwią 101,48 mm Hg prognozowane w rozdziale 28); jeżeli drugie
zek między wzrostem i skurczowym ciśnieniem krwi dziecko jest chłopcem o wzroście 130 cm i waży 30 kg, ma
w prostej analizie regresji odzwierciedla fakt, że wyższe ono prognozowane ciśnienie skurczowe krwi 79,44 - (0,03 x
dzieci są zwykle cięższe niż dzieci niższe. Istnieje znaczą x 130) + (1,18 x 30) + (4,23 x 0) = 110,94 mm Hg (wyższe
cy związek (p = 0,01) między płcią i skurczowym ciśnie niż 108,68 mm Hg prognozowane w rozdziale 28).

30 WYNIKI BINARNE I REGRESJA LOGISTYCZNA
ROZUMOWANIE Wówczas prawdopodobieństwo, że osobnik ma jednostkę

chorobową, jest określone jako:
Regresja logistyczna jest bardzo podobna do regresji liniowej;
używamy jej, gdy mamy binarną zmienną wynikową (np.
obecność/brak symptomu, osobnik mający/niemający jed
nostki chorobowej) oraz pewną liczbę zmiennych wyjaśniają Ponieważ model regresji logistycznej jest dopasowany na
cych. Na podstawie równania regresji logistycznej możemy skali logarytmicznej, wpływy wartości ^ n a szansę wystą
ocenić, które zmienne wyjaśniające wpływają na wynik, pienia choroby są multiplikatywne. Oznacza to, że ich łącz
a mając wartości zmiennych wyjaśniających określonego ny wpływ jest iloczynem ich oddzielnych wpływów (przy
osobnika, możemy oszacować prawdopodobieństwo, z jakim kład). Zjawisko takie nie zachodzi w regresji liniowej, gdzie
ona/on będzie mieć określony wynik. wpływy wartości xi na zmienną zależną są addytywne.
Rozpoczynamy od wygenerowania zmiennej binarnej re
prezentującej dwie wartości (np. „jest chory" = 1, „nie jest WYDRUK KOMPUTEROWY
chory" = 0), Jednakże nie możemy tej zmiennej zależnej użyć Dla każdej zmiennej wyjaśniającej
w regresji liniowej, skoro pogwałcone zostało założenie nor
Obszerny wydruk komputerowy wyników analizy regresji logi
malności rozkładu i nie możemy interpretować wartości róż
stycznej zawiera: dla każdej zmiennej wyjaśniającej oszacowa
nych od zero lub jeden. Zamiast tego bierzemy po uwagę
ny współczynnik regresji logistycznej z błędem standardowym,
prawdopodobieństwo p, że osobnik został zaklasyfikowany do
oszacowany iloraz szans (tj. eksponentę tego współczynnika)
najwyżej zakodowanej kategorii zmiennej zależnej (tj. jest
z przedziałem ufności dla jego prawdziwej wartości oraz staty
chory) i aby obejść trudności matematyczne, używamy trans
stykę testową Walda (testującą hipotezę zerową, że współczyn
formacji logistycznej lub logitowej (rozdział 9) w równaniu re-
nik regresji logistycznej równa się zero, co jest równoważne
gresyjnym. Logit prawdopodobieństwa jest logarytmem natu
testowaniu hipotezy, że iloraz szans „choroby" związanej z tą
ralnym (tj. z podstawą e) szansy wystąpienia „choroby", tzn.
zmienną jest jednością) oraz oszacowaną wartość p. Używamy
tej informacji do stwierdzenia, czy każda zmienna jest powią
zana z badanym wynikiem (np. chorobą) i dla kwantyfikacji
stopnia, w jakim to zjawisko zachodzi. Tak jak w przypadku
RÓWNANIE REGRESJI LOGISTYCZNEJ wielokrotnej regresji liniowej można użyć procedur automa
tycznego wyboru (rozdział 33), w celu dobrania najlepszej kom
Oszacowane równanie regresji logistycznej o postaci: binacji zmiennych wyjaśniających. Przyjętą regułą ekspery
mentalną, że maksymalna liczba zmiennych wyjaśniających
powinna być taka, by było co najmniej 10 razy więcej wartości
pozwala wytworzyć na bazie danych próby proces iteracyj- odpowiedzi dla każdej z kategorii określających wynik (tj.
ny, zwany procesem najwyższej wiarygodności (rozdział obecność/brak symptomu), niż jest zmiennych1.
32), a nie zwykłą regresję najmniejszych kwadratów (dlate
go nie używamy oprogramowania na regresję liniową). Ocena adekwatności modelu
• jest t-tą zmienna wyjaśniającą (i = 1, 2, 3, ..., k); Zwykle jesteśmy zainteresowani zmiennymi wyjaśniającymi
• p jest oszacowaną wartością prawdziwego prawdopo i ich wpływem na wynik. Informacja ta jest dostępna we
dobieństwa, że osobnik z określonym zestawem wartości dla wszystkich zaawansowanych komputerowych pakietach staty
jest chory; p odpowiada proporcji osób chorych; stycznych. Jednakże między pakietami występują niezgodności
jest zgodne z rozkładem dwumianowym (rozdział 8); w tym, jak oceniają one adekwatność modelu oraz jak to opi
• a jest oszacowanym członem stałym; sują. Twój komputer może podawać (w taki lub inny sposób):
• są oszacowanymi współczynnikami re • Wielkość zwaną -2 log wiarogodnością, ilorazem
gresji logistycznej. Eksponenta poszczególnego współczyn wiarogodności statystycznej (LRS — likelihood rado
nika, np. jest oszacowaniem ilorazu szans (rozdział 16). statistic) lub dewiancją: ma ona w przybliżeniu rozkład
Dla określonej wartości Xj jest ona oszacowaniem szansy Chi-kwadrat i wskazuje, jak słabe jest dopasowanie modelu
choroby dla w stosunku do oszacowania szansy cho uwzględniającego wszystkie zmienne wyjaśniające (istotny
roby dla po dokonaniu korekcji ze względu na wszystkie wynik wskazuje słabą predykcję — rozdział 32).
pozostałe zmienne w równaniu. Gdy iloraz szans równa się • Chi-kwadrat modelu lub Chi-kwadrat dla współ-
jeden (jest jednostkowy), wtedy obie szanse są takie same. zmiennych: Sprawdza hipotezę zerową, że wszystkie współ
Wartość ilorazu szans powyżej jeden oznacza zwiększone czynniki regresji w modelu są równe zero (rozdział 32).
szanse wystąpienia choroby, a wartości poniżej jeden — Istotne wyniki sugerują, że co najmniej jedna ze współ-
zmniejszone szanse wystąpienia choroby, gdy x1 wzrasta zmiennych jest istotnie powiązana ze zmienną zależną.
o jednostkę. W przypadku rzadkich chorób iloraz szans mo • Procent osobników prawidłowo ocenionych w modelu
że być interpretowany jako ryzyko względne. jako „chorzy" lub „bez choroby". Informacja ta może być
Równania regresji logistycznej możemy użyć do wyzna przedstawiona w postaci tablicy klasyfikacyjnej.
czenia prawdopodobieństwa, że osobnik ma jednostkę cho
robową. Dla każdego osobnika, z zestawem wartości współ-
zmiennych dla możemy obliczyć
1
Peduzzi P., Concato J., Kemper E., Holford T. R, Feinstein A. R: A si-
mulation studyofthe number ofevents per yariable in logistic regres-
sion analysis. Journal of Clinical Epidemiology, 1996, 49, 1373-9.
30. Wyniki binarne i regresja logistyczna 81

• Histogram: wzdłuż osi poziomej zaznaczone są pro np. pacjent ma jedno z trzech schorzeń krzyża: przepuklina
gnozowane prawdopodobieństwa, a do oznaczenia grupy dysku w części lędźwiowej, przewlekły zespól bólowy kręgo
(„chorzy" lub „bez choroby"), do której należy osobnik, uży słupa lub ostry zespól bólowy kręgosłupa), używamy multi-
wa się symboli (takich jak 1 i 0). Dobry model przydziela nomialnej regresji logistycznej. Jeżeli zmienna zależna jest
symbole do dwóch grup, które pokazują jedynie niewielki porządkowa lub rangowa (np. ból łagodny, umiarkowany lub
stopień nałożenia się lub całkowity jego brak. ciężki), używamy porządkowej regresji logistycznej. Metody
Indeksy zdolności predykcyjnej: nie są one rutynowo te są bardziej złożone i jeżeli chce się je zastosować, trzeba
3
dostępne w każdym pakiecie komputerowym, lecz mogą za szukać informacji w bardziej zaawansowanych pozycjach
wierać proporcje fałszywie dodatnie i fałszywie ujemne i/lub szukać porady specjalisty. Prostą alternatywą jest
oraz czułość i swoistość modelu (rozdział 38). W celu uzy łączenie kategorii w taki sposób, by wygenerować nową
2
skania bardziej szczegółowych informacji radzimy odwołać binarną zmienną wynikową, i przeprowadzenie zwykłej
się do bardziej zaawansowanych publikacji. dwukategorialnej logistycznej analizy regresji (trzeba jednak
przyznać, że powoduje to utratę wielu informacji). Decyzję,
PORÓWNYWANIE ILORAZU SZANS jak połączyć kategorie, należy podjąć na początku, przed
analizą danych, tak by uniknąć obciążenia.
I RYZYKA WZGLĘDNEGO
Chociaż iloraz szans jest często wykorzystywany jako oce
WARUNKOWA ANALIZA REGRESJI
na ryzyka względnego, daje on podobne wartości jedynie
wtedy, gdy wynik występuje rzadko. Gdy wynik nie jest Warunkowej regresji logistycznej możemy użyć, gdy mamy
rzadki, iloraz szans jest wyższy niż ryzyko względne, jeśli obiekty powiązane (tak jak w badaniu sparowanym przypa-
ryzyko względne jest większe od jedności, a mniejszy niż dek-kontrola, rozdział 16) i chcemy dokonać korekcji ze
ryzyko względne w przeciwnym przypadku. Chociaż iloraz względu na możliwe czynniki uwikłane. Analiza sparowanego
szans nie podlega łatwej interpretacji jak ryzyko względne, badania przypadek-kontrola przy użyciu zwykłej regresji logi
ma atrakcyjne właściwości statystyczne i dlatego jest zwy stycznej lub metod opisanych w rozdziale 16 jest nieefektyw
kle wybierany (i musi być wykorzystywany w badaniu przy- na i powoduje utratę mocy, ponieważ żadna z nich nie po
padek-kontrola, gdy nie można w bezpośredni sposób ocenić twierdza tego, że przypadki i kontrole są ze sobą powiązane.
ryzyka względnego, rozdział 16). Warunkowa regresja logistyczna pozwala nam na porównanie
przypadków do grupy kontrolnej w tym samym sparowanym
zestawie (tj. każdej pary w przypadku parowania jeden do
MULTINOMIALNA I PORZĄDKOWA jednego). W tej sytuacji „wynik" jest zdefiniowany przez pa
REGRESJA LOGISTYCZNA cjenta będącego przypadkiem (kodowanym zazwyczaj jako 1)
Multinomialna (zwana również polichotomiczną, wielowarto- lub kontrolą (zazwyczaj kodowanym jako 0). Jakkolwiek za
śoiową) i porządkowa regresja logistyczna są rozszerzeniami awansowane pakiety statystyczne pozwalają niekiedy na bez
regresji logistycznej, które stosujemy, gdy mamy do czynie pośrednie przeprowadzenie warunkowej regresji logistycznej,
nia z kategorialną zmienną zależną z więcej niż dwoma ka czasami jednak konieczne jest użycie modelu regresyjnego
tegoriami. Jeżeli zmienna zależna jest nominalna (rozdział 1, proporcjonalnego ryzyka wg Coxa (rozdział 44).
3
3
Menard S.: Applied logistic regression analysis. W: Sagę Univer- Ananth C. V., Kleinbaum D. G.: Regression methodsfor ordinal
sity Paper Sedes on Quantitative Applications in the Social Scien responses: a review of methods and applications. International
ces, Series no. 07-106. Sagę University Press, Thousand Oaks, Ca- Journal of Epidemiology, 1997, 27, 1323-33.
lifornia 1995.
PRZYKŁAD
W badaniu związku między zarażeniem ludzkim wirusem pomiędzy HHV-8 i pozostałymi zakażeniami i/łub wie
opryszczki typu 8 (opisanym w rozdziale 23) i zachowania kiem mężczyzny. Zmienne wyjaśniające opisywały wystę
mi seksualnymi zadano pytania 271 horno/biseksualnym powanie każdej z czterech infekcji, każda była kodowana
mężczyznom na temat wystąpienia u nich w przeszłości jako 0, jeżeli pacjent nie przebył tej choroby, lub 1, jeżeli
pewnych chorób przenoszonych drogą płciową (rzeżączka, ją przebył, oraz wiek pacjenta w latach. Typowy wynik
syfilis, opryszczka prosta typu 2 [HSV-2] oraz HIV). komputerowy zamieszczono w Dodatku C. Pokazuje on, że
W rozdziale 24 pokazałyśmy, że mężczyźni, którzy Chi-kwadrat dla współzmiennych wynosi 24,598 z 5 stop
przebyli rzeżączkę, częściej byli seropozytywni do HHV-8 niami swobody (p = 0,0002), co oznacza, że co najmniej
od tych, którzy nie przebyli rzeżączki. Wykonałyśmy ana jedna ze współzmiennych jest istotnie związana ze statu
lizę regresji logistycznej wielu zmiennych w celu zbada sem serologicznym HHV-8. Poniższa tabela podsumowuje
nia, czy efekt ten był prostym odzwierciedleniem związku informacje o każdej zmiennej w modelu.
Oszacowany Błąd Chi-kwadrat Oszacowany 95% CI dla

Zmienna parametr standardowy Walda Wartość p iloraz szans ilorazu szans
Przecięcie -2,2242 0.6512 11,6670 0,0006 - -
Rzeżaczka 0,5093 0,4363 1,3626 0,2431 1,664 (0,71-3,91)
Syfilis 1,1924 0.7111 2,8122 0,0935 3,295 (0,82-13,28)
HSV-2 pozvtvwnv 0,7910 0,3871 4,1753 0,0410 2,206 (1,03-4,71)
HIV 1,6357 0,6028 7,3625 0,0067 5,133 (1,57-16,73)
Wiek 0,0062 0,0204 0,0911 0,7628 1,006 (0,97-1,05)

Wyniki te wskazują, że pozytywność HSV-2 (p = 0,04) W dodatku przebycie syfilisu wiąże się czasem (na po
oraz obecność HIV (p = 0,007) są niezależnie powiązane ziomie tendencji) z serostatusem HHV-8. Chociaż związek
z infekcją HHV-8; osobnicy, którzy są HSV-2 seropozy- ten jest w zasadzie nieistotny (p = 0,09), należy zauważyć,
tywni mają 2,21 (= exp[0,7910]) razy większą szansę by że przedział ufności nie zawiera wartości ilorazu szans tak
cia HHV-8 seropozyfywnymi niż ci. którzy byli seroncga- dużego jak 13,28. Przeciwnie, brak niezależnego powiąza
tywni pod względem HSV-2, po dokonaniu korekcji na nia pomiędzy przebyciem rzeżączki a seropozytywiiością
inne choroby. Innymi stówami, szansa seropozytywności HHV-8 sugeruje, że zmienna ta okazuje się, na podstawie
HHV-8 u tych osobników wzrasta o 121%. Górna granica testu Chi-kwadrat (rozdział 24), związana ze statusem sero
przedziału ufności dla ilorazu szans pokazuje, że ta logicznym HHV-8 ze względu na to, że wiciu mężczyzn, któ
zwiększona szansa muże wynosić aż 371%. Zakażenie rzy chorowali na jedną z innych chorób przenoszonych dro
IISV-2 jest dobrze udokumentowanym wskaźnikiem ak
gą płciową, w przeszłości miało również rzeżączkę. Brak
tywności seksualnej. Zatem, zamiast traktować HSV-2
jest istotnego związku pomiędzy seropozytywiiością HHV-8
jako przyczynę infekcji HHV-8, można posłużyć się nim
a wiekiem; iloraz szans wskazuje, że szacowana szansa se
j.iko wskaźnikiem aktywności seksualnej osobnika.
ropozytywności HHV-8 rośnie o 0,6% z każdym rokiem.
Co więcej, efekt multiplikatywiiy modelu sugeruje, że
mężczyźni, którzy byli zarówno HSV-2, jak i HIV seropo- Prawdopodobieństwo, że 51-letni mężczyzna ma infek
zyiywni, maj^ oszacowane szanse infekcji IIHV-8 jako cję HHV-8, jeżeli miał rzeżączkę i jest HSV-2 pozytywny
2,206 x 5,133 = 11,3 razy większe w porównaniu do męż (lecz nie miał syfilisu i nie jest HIV dodatni) jest os2aco-
czyzn, którzy byli w obu przypadkach seronegatywni, po wane na 0,35, tj. exp[-O,6077}/fl + exp(-0,6077)}, gdzie
dokonaniu korekcji na inne choroby. -0,6077 = 0,2242 + 0,5093 + 0,7910 + (0,0062 x 51).
30. Wyniki binarne i regresja logistyczna 83

31 CZĘSTOŚCI I REGRESJA POISSONA
CZĘSTOŚCI Porównanie częstości z ryzykiem

Ryzyko zdarzenia (rozdział 15) jest po prostu całkowitą liczbą
W każdym badaniu longitudinalnym (rozdział 12), analizu
zdarzeń podzieloną przez liczbę osobników włączonych do ba
jąc zajście jakiegoś zdarzenia (takiego jak śmierć), powinni
dania w chwili jego rozpoczęcia, bez uwzględnienia długości
śmy wziąć pod uwagę, że osobnicy są obserwowani zwykle
obserwacji. Na skutek tego ryzyko zdarzenia będzie wyższe
przez różny czas. Dzieje się tak dlatego, że część osobników
dla osobników dłużej obserwowanych, gdyż mają oni większą
wypada z badania, albo dlatego, iż są oni włączani do bada
szansę na to zdarzenie. Natomiast częstość zdarzenia może
nia w różnym czasie: stąd czasy obserwacji różnych osób
pozostawać w takich okolicznościach stosunkowo stabilna,
mogą się różnić na końcu badania. Ponieważ ci z dłuższym
gdyż bierze się w niej pod uwagę czas trwania obserwacji.
czasem obserwacji mają większą szansę doświadczyć zda
rzenia niż ci z krótszym czasem obserwacji, bierzemy pod
Częstości względne
uwagę częstość, z jaką w pewnym okresie pojawia się zda
Możemy być zainteresowani porównaniem częstości wystę
rzenie. Często dogodną jednostką czasu jest rok (lecz może
powania choroby w grupie osobników narażonych na bada
to być również minuta, dzień, tydzień itp.). Wtedy częstość
zdarzeń na osobę w ciągu roku (tj. na osoborok obserwacji) ny czynnik (CzęstoścWażeni) z częstością w grupie osobni
jest dana jako: ków nienarażonych (CzęstOŚĆnienarażeni).
CzęstOŚĆnarażeni
Liczba pojawiających się zdarzeń Częstość względna = -— —
Częstość = CzęstOŚĆnienarażeni
Całkowita liczba lat obserwacji
Częstość względna (lub stosunek częstości, czasami
dla wszystkich osobników
określany jako stosunek częstości zachorowalności) jest in
Liczba pojawiających się zdarzeń terpretowana w podobny sposób jak ryzyko względne (roz
Osobolata obserwacji dział 15) i jak iloraz szans (rozdziały 16 i 30); częstość
względna równa 1 (jedności) wskazuje, że częstość choroby
Długość obserwacji każdego osobnika jest zwykle zdefi jest taka sama w obu grupach, częstość względna większa
niowana jako czas od włączenia go do badania do chwili, niż jeden wskazuje, że częstość jest większa dla narażonych
kiedy pojawiło się zdarzenie lub badanie zakończyło się, na na czynnik niż u nienarażonych, a częstość względna mniej
wet jeśli zdarzenie się nie pojawiło. Całkowity czas obser sza niż jeden wskazuje, że częstość jest mniejsza w grupie
wacji jest sumą czasów obserwacji wszystkich osobników. eksponowanych na czynnik.
Częstość nazywana jest zachorowalnością, jeżeli zdarze
Chociaż częstość względną często traktuje się jako osza
niem jest nowy przypadek (np. choroby), lub umieralnością, cowanie ryzyka względnego, częstość względna i ryzyko
jeżeli zdarzeniem jest śmierć. względne będą zbliżone, gdy zdarzenie (np. choroba) jest
W przypadku bardzo małej częstości często wygodnie rzadkie. Gdy jednak zdarzenie nie jest rzadkie i osobnicy
jest przemnożyć ją przez dogodny czynnik, taki jak 1 000, są obserwowani przez zmieniające się okresy, częstość,
i wyrazić jako częstość na 1000 osobolat obserwacji. a przez to również częstość względna nie będą zaburzane
przez różne czasy obserwacji. Nie dzieje się tak w przypad
Cechy częstości
ku ryzyka względnego i ryzyka, dlatego ryzyko względne
• Gdy obliczamy częstość, nie rozróżniamy pomiędzy osobo- ulega zmianom, gdy osobnicy podlegają obserwacjom przez
latami obserwacji dotyczącymi tego samego, czy też różnych dłuższy czas. Stąd, gdy w badaniu czasy obserwacji ulegają
osobników. Na przykład, liczba osobolat obserwacji 10 osob zmianom między osobnikami, zwykle stosujemy częstość
ników, z których każdy był obserwowany 1 rok, będzie taka względną.
sama jak 1 osobnika obserwowanego przez 10 lat.
• To, czy włączamy również zdarzenia wielokrotne do
tyczące każdego osobnika (tzn. jeżeli zdarzenie może zacho REGRESJA POISSONA
dzić więcej niż jeden raz), zależy od badanej hipotezy. Jeże Co to jest?
li interesują nas tylko pierwsze zdarzenia, musimy uciąć Rozkład Poissona jest rozkładem prawdopodobieństwa (roz
obserwację w punkcie, w którym następuje pierwsze zda dział 8) zliczeń rzadkich zdarzeń, które pojawiają się losowo
rzenie u danego osobnika, gdyż od tej pory nie dotyczy go w czasie (lub przestrzeni) ze stałą przeciętną częstością. Sta
ryzyko zajścia pierwszego zdarzenia. Gdy do obliczenia czę nowi on podstawę regresji Poissona, której używa się do ana
stości włączamy zdarzenia wielokrotne dotyczące tego sa lizy częstości niektórych zdarzeń (np. choroby), gdy osobnicy
mego osobnika, otrzymujemy szczególny rodzaj danych kla- mają różne czasy obserwacji. Kontrastuje ona z regresją logi
steryzowanych (rozdział 41) i należy stosować specjalne styczną (rozdział 30), która zajmuje się tylko tym, czy zdarze
metody statystyczne (rozdziały 41 i 42). nie wystąpiło, czy też nie, i jest używana do estymacji ilora
• Częstość nie może być obliczana w badaniach przekro zu szans.
jowych (rozdział 12), ponieważ tego typu badanie nie zawie W regresji Poissona zakładamy, że częstość zdarzenia
ra informacji o czasie. u osobników z takimi samymi zmiennymi wyjaśniającymi
(np. wiek i płeć) jest stała w całym okresie badania. Ogól-

nie, chcemy wiedzieć, które zmienne wyjaśniające wpływa o wiele mniej wymagający pod względem obliczeniowym.
ją na częstość zdarzeń, a także możemy chcieć porównać te Jednakże wyniki otrzymane na podstawie tego modelu są ta
częstości w różnych grupach ryzyka i/lub prognozować czę kie same, jakie otrzymalibyśmy, tworząc model częstości.
stość dla grup osobników z określoną charakterystyką.
Wprowadzanie danych dla grup
Równanie i jego interpretacja Zauważmy, że kiedy wszystkie zmienne wyjaśniające są kate-
Model regresji Poissona przybiera bardzo podobną formę do gorialne, możemy skorzystać z faktu, iż w obliczeniach często
modelu regresji logistycznej (rozdział 30); oba modele mają ści w celu uproszczenia procesu wprowadzania danych nie
(zwykle) liniową kombinację zmiennych wyjaśniających po rozróżnia się między osobolatami obserwacji dla tego samego
prawej strome równania. Analiza regresji Poissona jest także osobnika a osobolatami u różnych osobników. Na przykład,
zwierciadlanym odbiciem analizy regresji logistycznej, ponieważ możemy być zainteresowani wpływem tylko dwóch zmiennych
transformujemy w niej zmienną wynikową w celu ominięcia wyjaśniających, płci (mężczyzna lub kobieta) oraz wieku {< 16,
trudności matematycznych. Stosujemy transformację logaryt- 16-20 i 21-25 lat), na częstość jakiegoś zdarzenia. Te dwie
mowania z podstawą naturalną (In) częstości oraz proces ite- zmienne definiują sześć grup (tj. mężczyźni w wieku < 16 łat,
racyjny (największa wiarygodność, rozdział 32) do stworzenia kobiety w wieku < 16 lat, ..., kobiety w wieku 21-25 lat). Mo
z danych z próby oszacowanego równania regresji o postaci: żemy uprościć wprowadzanie tych danych przez wyznaczenie
całkowitej liczby zdarzeń dla wszystkich osobników w obrębie
tej samej grupy i wszystkich osobolat dla tych osobników.
Oszacowana częstość w każdej grupie jest wtedy obliczana ja
• x. jest f-tą zmienną wyjaśniającą (i= 1, 2, 3,..., k);
ko całkowita liczba zdarzeń podzielona przez liczbę osobolat
* r jest oszacowaną wartością średnią lub oczekiwaną
obserwacji w tej grupie. W tym podejściu nie wprowadzamy
częstością dla osobników z określonym zestawem wartości
danych po kolei dla każdego z n osobników, ale dla każdej
dla
z 6 grup, wprowadzając do modelu binarne i ślepe zmienne
• a jest oszacowanym członem stałym, pozwalającym na
(rozdział 29), osobno dla płci i wieku. Zauważmy, że wprowa
obliczenie logarytmu częstości, gdy wszystkie xt w równaniu
dzając dane w ten sposób, nie możemy dostosować współ-
przybierają wartość zero (logarytm częstości podstawowej);
zmiennych numerycznych do zdefiniowania grup lub włącze
• są oszacowywanymi współczynnikami re
nia do modelu dodatkowej współzmiermej, która dla
gresji Poissona. Eksponenta poszczególnych współczynni
osobników w grupie przybiera różne wartości.
ków, np. e°i, jest oszacowaną częstością względną powiąza
ną z odpowiednią zmienną. Dla pewnej wartości xx jest
oszacowaną częstością choroby dla (xl + 1) w stosunku do Włączanie zmiennych zmieniających się w czasie
os2acowanej częstości choroby dla x ] ; przy skorygowaniu Możliwe jest włączenie do modelu zmiennych zmian w cza
wszystkich pozostałych x( w równaniu. Gdy częstość względ sie przez podzielenie okresu obserwacji na krótsze odcinki.
na jest równa jedności, wtedy częstość zdarzeń pozostaje Na przykład, może nas interesować powiązanie palenia pa
taka sama, gdy Xj wzrasta o jednostkę. Wartość częstości pierosów z częstością wystąpienia raka płuc w grupie męż
względnej powyżej jedności wskazuje na zwiększoną czę czyzn w średnim wieku. Podczas długiego okresu obserwa
stość, a wartość poniżej jedności wskazuje na zmniejszoną cji wielu z tych mężczyzn może rzucić palenie i w rezultacie
częstość zdarzeń, gdy Xj wzrasta o jednostkę. częstości wystąpienia raka płuc mogą być zaniżone. Zatem
Podobnie jak w przypadku regresji logistycznej, modele kategoryzowanie mężczyzn zgodnie z ich statusem palenia
regresji Poissona dopasowuje się na skali logarytmicznej. Za na początku badania może w słabym stopniu odzwierciedlać
tem wpływ xrów na częstość choroby jest multiplikatywny. wpływ palenia na raka płuc. Zamiast tego dzielimy obserwa
Z równania regresji Poissona możemy korzystać w celu cje każdego mężczyzny na krótsze przedziały czasowe w ten
oszacowania częstości zdarzeń dla osobnika z określoną sposób, że jego status palenia pozostaje stały w każdym
kombinacją wartości xl? ..., xk. Dla każdego zbioru wartości przedziale. Przeprowadzamy następnie analizę regresji Po
współzmiennych xv ..., xk, obliczamy issona, traktując informacje o krótkich przedziałach czaso
wych dla każdego mężczyzny (tj. wystąpienie/niewystąpie-
nie zdarzenia, czas obserwacji i status palenia) tak, jakby
pochodziły one od różnych mężczyzn.
Wtedy częstość zdarzenia dla tego osobnika jest określo
na jako 9*.
Wynik komputerowy
Użycie wartości wyrównujących Obszerny wydruk komputerowy wyników analizy regresji
Chociaż tworzymy model częstości, z jaką pojawia się zdarze Poissona zawiera dla każdej zmiennej wyjaśniającej oszaco
nie (tj. liczbę zdarzeń podzieloną przez liczbę osobolat obser wany współczynnik regresji Poissona wraz z błędem stan
wacji), większość pakietów statystycznych wymaga podania dardowym, oszacowaną częstość względną (tj. eksponentę
jako zmiennej zależnej liczby pojawiających się zdarzeń, a nie współczynnika) z przedziałem ufności dla jego prawdziwej
częstości jako takiej. Jako wartość wyrównująca do modelu wartości oraz statystykę Walda (testowanie hipotezy zero
włączany jest wtedy logarytm osobolat obserwacji każdego wej, że współczynnik regresji jest równy zero lub że czę
osobnika. Zakładając, że jesteśmy zainteresowani wyłącznie stość względna „choroby" związana z tą zmienną jest jedno
włączaniem pojedynczego zdarzenia dla osobnika, liczba zda ścią) i związaną z nią wartość p. Podobnie jak w przypadku
rzeń pojawiających się dla każdego osobnika przyjmuje albo wyników regresji logistycznej (rozdział 30), możemy ocenić
wartość 0 (gdy zdarzenie nie pojawiło się) lub 1 (gdy zdarze adekwatność modelu, używając -2 log wiarygodności (LRS
nie się pojawiło). Jest to więc nieco odmienne sformułowanie lub dewiancję) i modelu Chi-kwadrat lub Chi-kwadrat dla
modelu, które pozwala generować estymatory w sposób współzmiennych (patrz również rozdział 32).
31. Częstości i regresja Poissona 85

Zmienność ekstra-Poissonowska wskazywać na zwiększony rozrzut. Może się również pojawić
Podczas dopasowywania modelu regresji Poissona należy zaniżony rozrzut, gdzie wariancja resztowa jest mniejsza, niż
zwrócić uwagę na możliwość wystąpienia zmienności ekstra- należałoby się spodziewać na podstawie modelu Poissona
-Poissonowskiej, która zwykle zwiększa rozrzut. Dzieje się i gdzie stosunek -2 log wiarogodności do n - k jest istotnie
tak, gdy wariancja resztowa jest większa, niż należałoby mniejszy od jedności (np. jeżeli nie można dokładnie zareje
oczekiwać na podstawie modelu Poissona, co prawdopodob strować dużych zliczeń). Zaniżony i zawyżony rozrzut może
nie wynika z obecności wartości odskakujących (rozdział 3) również stanowić problem przy regresji logistycznej (rozdział
lub z powodu niewłączenia do modelu ważnej zmiennej wyja 30), gdzie odnosi się on do zmienności ekstradwumianowej.
śniającej. Wtedy błędy standardowe są zwykle niedoszaco-
wane i w konsekwencji przedziały ufności dla parametrów są Alternatywa dla analizy Poissona
zbyt wąskie, a wartość p jest za mała. Sposobem badania Gdy obserwujemy grupę osobników od naturalnego „punk
możliwości wystąpienia zwiększonego rozrzutu jest podziele tu startowego" (np. operacji) do czasu, kiedy osoba osiąga
nie -2 log wiarogodności (LRS lub dewiancji) przez liczbę badany punkt końcowy, możemy użyć alternatywnego
stopni swobody n-k, gdzie n jest liczbą obserwacji w zbio podejścia, znanego jako analiza przeżycia, która w przeci
rze danych, a k jest liczbą dopasowywanych parametrów wieństwie do regresji Poissona nie zakłada, że ryzyko (czę
w modelu (przy uwzględnieniu członu stałej). Ten iloraz powi stość zdarzenia w krótkim okresie) jest stałe w C2asie.
nien w przybliżeniu równać się 1, gdy nie występuje zmien Podejście to zostało opisane w rozdziale 44.
ność ekstra-Poissonowska, wartości dużo powyżej 1 mogą
PRZYKŁAD
Osobnicy zarażeni HIV, leczeni bardzo aktywną terapią Podczas całkowitej obserwacji 718 osobolat 61 pacjentów
antyretrowirusową (HAART), doświadczają zazwyczaj za doznało BETPLP, nieskorygowana częstość zdarzenia wynosi
niku obciążenia wirusem HIV do poziomu poniżej granicy 8,50 na 100 osobolat (95% przedział ufności: 6,61, 10,92),
wykrywalności (odpowiedź pierwotna). Jednakże część Nieskorygowane częstości BETPLP wynosiły 8,13 (6,31,
7. nich może po tej fazie doświadczyć braku efektu terapeu 10,95) w pierwszym roku od pierwotnej odpowiedzi na tera
tycznego po leczeniu przeciwwirusowym (BETPLP); zda pię, 12,22 (7,33, 17,12) w drugim roku oraz 3,99 (1,30, 9,31)
rza się lak, gdy obciążenie wirusem osobnika staje się w późniejszych latach. Wyniki z rrrodelu regresji Poissona za
ponownie wykrywalne podczas terapii. Identyfikacja czyn wierają tylko dwie zmienne ślepe (rozdział 29) odzwierciedla
ników związanych ze wzrastającą częstością BETPLP jące kategorie 1-2 i > 2 lat. Każda była porównywana z < 1
może po/wolk": na podjecie kroków mających na celu zapo- lat, gdyż początkowa odpowiedź na terapię sugerowała, ze
bieganifi lakiin zdarzeniom. Istnieją podstawy, by sądzić, czas od początkowej odpowiedzi wirusologicznej był istotnie
yr. częstość BETPLP może wzrastać z czasem terapii. powiązany z BETPLP (p = 0,04). Dodatkowo, w modelach re
Ponirważ w badaniu tym pacjenci są obserwowani przez gresji Poissona jednej zmiennej BETPLP była znacząco zwią
rożny okres, należy zastosować analizę regresji Poissona. zana z płcią (p - 0,03), jego/jej początkową liczbą CD8 (p =
Zidentyfikowano 516 pacjentów, u których wystąpiła = 0,01) oraz statusem leczenia w chwili rozpoczęcia bieżące
pierwotna odpowiedź na leczenie, i obserwowano ich do go trybu leczenia (uprzednio otrzymywał leczenie, nigdy nie
czasu BETPLP lub do czasu ostatniej obserwacji, jeżeli ob otrzymywał leczenia, p = 0,008). Wykonano zatem analizę re
ciążenie wirusem pozostawało w tym czasie stłumione. Ob gresji Poissona wielu zmiennych w celu określenia związku
serwacja rozpoczynała się od pierwszej chwili, gdy obciąże pomiędzy BETPLP i czasem trwania terapii po uwzględnieniu
nie wirusem stawało się niewykrywalne. Najbardziej pozostałych zmiennych. Wyniki podsumowano w tablicy 31.1;
interesującą zmienną wyjaśniającą był czas leczenia, jaki pełny wynik komputerowy zawiera Dodatek C.
upłyną! od odpowiedzi początkowej, lecz wartości tej zmien Wyniki z tego wielowymiarowego modelu sugerują, że
nej W okresie badania nieustannie się zmieniają dla każde istnieje trend w kierunku wyższych częstości BETPLP
go pacjenta. Dlatego, w celu zbadania, czy częstość BETPLP w okresie 1-2 łat po początkowej odpowiedzi w porówna
zmieniała sie w czasie, czas leczenia od odpowiedzi począt niu z widoczną w pierwszym roku (częstość BETPLP wzro
kowej podzielono na trzy przedziały czasowe: < 1, 1-2 oraz sła o 53% w okresie 1-2 lat), lecz po drugim roku częstość
> 2 lat (powstało w ten sposób 988 zestawów obserwacji), została obniżona (częstość BETPLP została zredukowana
przyjęto ogólne założenie, że częstość BETPLP była w przy o 44% w tym okresie w porównaniu z poziomem widocz
bliżeniu stała w każdym przedziale. Porównano potem nym w pierwszym roku po pierwotnej odpowiedzi), żaden
częstości BETPLP w trzech przedziałach czasowych. Wpro z tych wyników nie byt jednak istotny statystycznie. Po
wadzono dane do arkusza (długość okresu obserwacji skorygowaniu ze względu na wszystkie inne zmienne
w przedziałach, wystąpienie lub nie BETPLP w tych prze w modelu pacjenci, którzy otrzymywali swoje pierwsze le
działach i odpowiednie zmienne wyjaśniające) dla każdego czenie, mieli oszacowaną częstość BETPLP o 44% niższą od
pacieula w każdym przedziale, w którym był on obserwo tych pacjentów, którzy wcześniej byli leczeni, oszacowana
wany. Rozważane zmienne wyjaśniające zawierały dane częstość BETPLP u mężczyzn była o 39% mniejsza niż u ko
demograficzne, informację o etapie choroby w chwili rozpo biet (nie było to statystycznie istotne), a oszacowana czę
częcia leczenia, roku rozpoczęcia HAART oraz o tym, czy stość BETPLP została zredukowana o 65%, jeżeli pierwot
pacjent otrzymywał leczenie w przeszłości. na liczba CD8 była o 100 komórek/mm3 wyższa.
W celu ograniczenia liczby współzmiennych w modelu Przykłady opisane w rozdziałach 32 i 33 pozwalają zapo
regresji Poissona z wieloma zmiennymi do zidentyfikowa znać się z dodatkowymi analizami, które dotyczą tego mode
nia współzmiennych związanych z BETPLP użyto osob lu Poissona, zawierającymi oszacowania podwyższonego roz
nych modeli Poissona jednej zmiennej dla każdej współ- rzutu, jakości dopasowania oraz liniowości współzmiennych.
zmieruiej (patrz rozdział 34).

Tablica 31.1. Wyniki wielozmiennej analizy regresji Poissona czynników związanych z brakiem efektu terapeutycznego po leczeniu
przeciwwirusowym (BETPLP).
Oszacowana 95% przedział Wartość p

Oszacowanie Błąd częstość ufności dla dla statystyki
Zmienna* parametru standardowy względna częstości względnej Walda"
Czas od początkowej odpowiedzi
na leczenie (lata) < 1 odniesienie 1
1-2 0,4256 0,2702 1,53 0,90, 2,60 0,12
>2 -0,5835 0,4825 0,56 0,22, 1,44 0,23
Status leczenia
Leczenie stosowane uprzednio (0) odniesienie 1
Nigdy nio stosowano leczenia (1) -0,5871 0,2587 0,56 0,33, 0,92 0,02
PlCó
Kobieta (0) odniesienie 1
Mężczyzna (1) -0,4868 0,2664 0,61 0,36, 1,04 0,07
Liczba CD8 (na 100 komórek/mm )
3
-1,0558 0,0267 0,35 0,33, 0,37 0,04
* W nawiasach podano kody dla zmiennych binarnych (płeć i status leczenia). Czas od początkowej odpowiedzi na leczenie uwzględnio
no przez włączenie zmiennej ślepej, co miało na celu odzwierciedlenie okresów 1-2 lat oraz > 2 lata od początkowej odpowiedzi.
** Alternatywna metoda oszacowania istotności zmiennej kategorialnej z więcej niż dwoma kategoriami została opisana w rozdziałach
32 i 33.
Adaptowano z pracy; Ms Coletto Smith, Department of Primary Care and Population Sciences, Royal Free and University College Me-
dical School, liindyn. Wielka Brytania.
31. Częstości i regresja Poissona 87

32 UOGÓLNIONE MODELE LINIOWE
Modelowanie statystyczne obejmuje prostą i wielokrotną re dy odpowiednim modelem będzie regresja logistyczna.
gresję liniową (rozdziały 27-29), regresję logistyczną (roz Zauważmy, że dzięki modyfikacji formatu naszej zmiennej za
dział 30), regresję Poissona (rozdział 31) oraz pewne metody leżnej możemy Wybrać różne rodzaje modelu. W szczególno
używane w przypadku danych przeżycia (rozdział 44). ści, jeżeli mamy ciągłą numeryczną zmienną wynikowa, lecz
Wszystkie one polegają na tworzeniu modelu matematycz co najmniej jedno z założeń regresji liniowej nie zostało speł
nego, który najlepiej opisuje związek między zmienną wyj nione, możemy dokonać kategoryzacji naszej zmiennej wyni
ściowa a jedną lub większą liczbą zmiennych wyjaśniają kowej na dwie grupy w celu wytworzenia nowej wynikowej
cych. Tworzenie takiego modelu pozwala na określenie zmiennej binarnej. Na przykład, jeżeli nasza zmienna zależ
stopnia, w jakim każda zmienna wyjaśniająca jest powiąza na jest skurczowym ciśnieniem krwi (zmienna ciągła nume
na Ze zmienną wynikową, po wzięciu pod uwagę wszystkich ryczna) po okresie sześciomiesięcznej terapii przeciwnadci-
pozostałych zmiennych wyjaśniających w modelu. Pozwala śnieniowej, możemy wykonać przy użyciu określonej
to również na prognozowanie wartości wyjściowej na pod wartości odcięcia dychotomizację skurczowego ciśnienia
stawie tych danych wyjaśniających. krwi na wysokie lub niskie, a następnie zastosować regresję
Uogólniony model liniowy (GLM - generalized linear logistyczną do identyfikacji czynników związanych z tą binar
model) można wyrazić w postaci ną zmienną wyjściową. Jakkolwiek dychotomizacja tym spo
sobem zmiennej zależnej może uprościć dopasowanie i inter
g(Y) = a+ bxxx + b2x2 + ... + bkxk pretację modelu statystycznego, część informacji o zmiennej
gdzie Fjest oszacowaną wartością średnią lub oczekiwaną zależnej zostanie zwykle pominięta. Dlatego należy dokładnie
zmiennej zależnej, która podlega znanemu rozkładowi praw rozważyć zalety i wady tego podejścia.
dopodobieństwa (np. normalnemu, dwumianowemu, Poisso
na); g(Y), zwana funkcją łączącą, jest transformacją Y, która WIARYGODNOŚĆ I ESTYMACJA
tworzy liniowy związek z x 1 ? ..., xk, zmiennymi predykcyjny-
mi lub wyjaśniającymi; bh ..., bksą oszacowanymi współczyn NAJWIĘKSZEJ WIARYGODNOŚCI
nikami regresji, które odnoszą się do tych zmiennych wyja Gdy dopasowujemy GLM, do oszacowania parametrów mode
śniających; a jest członem stałej. lu odwołujemy się na ogół do koncepcji wiarygodności. Dla
Każdy z modeli predykcyjnych opisany we wcześniej każdego GLM scharakteryzowanego przez znany rozkład
szych rozdziałach może być wyrażony jako szczególny rodzaj prawdopodobieństwa, zbiór zmiennych wyjaśniających oraz
GLM (tablica 32.1). Funkcja wiążąca jest logitem proporcji pewnych potencjalnych wartości dla każdego z ich współ
(tj. loź s z szans) w regresji logistycznej oraz log e częstości czynników regresji, wiarygodnością modelu (L) jest prawdo
W regresji Poissona. W prostej i wielokrotnej regresji linio podobieństwo, które uzyskalibyśmy, biorąc współczynniki re
wej nie ma potrzeby transformowania zmiennej zależnej; gresji otrzymane z wartości obserwowanych. Oszacowujemy
funkcja wiążąca odnosi się wtedy do funkcji tożsamościo współczynniki modelu przez dobór wartości dla współczynni
wej. Jeżeli określimy typ regresji, jaki chcemy przeprowa ków regresji, które maksymalizują L (tj. są tymi wartościami,
dzić, większość pakietów statystycznych wbuduje do obli które najprawdopodobniej wytworzyły obserwowane przez
czeń w sposób automatyczny funkcję wiążącą tak, że nie nas wyniki); proces nazywa się oszacowaniem największej
będzie potrzeby dokonywania dalszych specyfikacji. wiarygodności (MLE — mcucimum likelihood estimatiori)
i wyznacza estymatory największej wiarygodności. MLE
jest procesem iteracyjnym i dlatego wymaga specjalnego
JAKI WYBIERZEMY RODZAJ MODELU? oprogramowania komputerowego. Jedynym wyjątkiem dla
Wybór odpowiedniego modelu zależy od badanej zmiennej MLE jest przypadek modelu prostej i wielokrotnej regresji li
wynikowej (tablica 32.1). Na przykład, jeżeli nasza zmienna niowej (z tożsamościową funkcją łączącą), gdzie zwykle osza
zależna jest ciągłą zmienną numeryczną, możemy użyć pro cowujemy parametry, stosując metodę najmniejszych kwa
stej lub wielokrotnej regresji liniowej w celu zidentyfikowa dratów (estymatory są często określane jako estymatory zwy
nia czynników związanych z tą zmienną. Jeżeli mamy binar czajnych najmniejszych kwadratów (OLS — ordinary least
ną zmienną wynikową (np. pacjent zmarł lub nie zmarł), squares, rozdział 27); w tej sytuacji estymatory OLS i MLE
a wszyscy pacjenci są obserwowani przez ten sam czas, wte są identyczne.
Tablica 32.1. Wybór odpowiedniego typu GLM w zależności od różnych typów wyników.
Typ wyniku Zwykle stosowany typ GLM Patrz rozdział

Ciągły numeryczny Prosty lub wielokrotny liniowy 28, 29
Binarny
Zachorowalność w badaniach longitudinalnych Logistyczny 30
(pacjenci badani w różnych odstępach czasu)
Wynik binarny w badaniu przekrojowym Logistyczny 30
Niesparowane badanie przekrojowe Logistyczny 30
Sparowane badanie przekrojowe Warunkowy logistyczny 30
Wynik kategorialny z więcej niż dwoma kategoriami Wielopoziomowa lub porządkowa regresja logistyczna 30
Częstość zdarzeń lub liczba Poissona 31
Czas do zdarzenia* Model Eksponencjalny, Weibulla lub Gompertza 44

OSZACOWANIE ADEKWATNOŚCI cie). Hipoteza zerowa stwierdza, że wszystkie dodatkowe pa
rametry w większym, wysycanym modelu są równe zero;
DOPASOWANIA
duże wartości LRS dają wynik istotny, wskazujący, że ja
Chociaż MLE maksymalizuje L dla danego zestawu zmiennych kość dopasowania modelu jest słaba.
wyjaśniających, zawsze możemy dalej poprawić L przez włą LRS stosuje się także w innych sytuacjach. W szczególno
czenie dodatkowych zmiennych wyjaśniających. W najbardziej ści LRS można użyć do porównania dwóch modeli, z których
krańcowym przypadku model wysycony to taki, który zawiera żaden nie jest wysycony, gdy jeden model jest zagnieżdżony
osobną 2mienną dla każdej obserwacji w zestawie danych. w drugim (tj. większy model zawiera wszystkie 2mienne włą
Chociaż model taki będzie wyjaśnia! dane idealnie, w prakty czone do mniejszego modelu, również zmienne dodatkowe).
ce ma ograniczone zastosowanie, gdyż prognozy przyszłych W tej sytuacji statystyka testowa jest różnicą pomiędzy war
obserwacji z tego modelu będą prawdopodobnie słabe. Model wy tościami LRS z modelu zawierającego dodatkowe zmienne
sycony pozwala jednak obliczyć wartość L, którą uzyskalibyśmy, oraz z modelu, który te zmienne wyklucza. Statystyka testo
gdybyśmy w idealny sposób mogli modelować dane. Porównanie wa podlega rozkładowi Chi-kwadrat z liczbą stopni swobody
tej wartości L z wartością otrzymaną po dopasowaniu prostszym równą liczbie dodatkowych parametrów włączonych do więk
modelem z mniejszą liczbą zmiennych pozwala określić ade- szego modelu i jest stosowana do testowania hipotezy zero
kwatność dopasowania modelu. W celu porównania tych dwóch wej, że wszystkie dodatkowe parametry w większym modelu
modeli bierzemy pod uwagę stosunek wiarygodności, stosunek są równe zero. LRS możemy również użyć do testowania hipo
wartości L uzyskanej z modelu wysycanego do wartości uzyska tezy zerowej, że wszystkie parametry związane ze współ-
nej z modelu dopasowanego. Statystykę stosunku wiarygodno zmiennymi modelu są równe zero, porównując LRS modelu,
ści (LRS) obliczamy jako: który zawiera współzmienne, z LRS modelu, który je wyklu
cza. Określa się to często jako Model Chi-kwadrat lub
Chi-kwadrat dla wspólzmiennych (rozdziały 30 i 31).
DIAGNOSTYKA REGRESYJNA
Gdy przeprowadzamy jakąkolwiek analizę regresji, ważne
LRS, często określany jako -2 log wiarygodność (rozdzia jest uwzględnienie serii diagnostyk regresyjnych. Pozwalają
ły 30 i 31) lub jako dewiancja sumy kwadratów odchy one na zbadanie dopasowanych modeli regresji i przyjrzenie
leń względem średniej, podlega w przybliżeniu rozkładowi się defektom, które mogą wpływać na estymatory parame
Chi-kwadrat z liczbą stopni swobody równą różnicy liczby pa trów i ich błędów standardowych. W szczególności musimy
rametrów dopasowanych w dwóch modelach (tj. n - k, gdzie rozważyć, czy założenia leżące u podstaw modelu nie zosta
n oznacza liczbę obserwacji w zestawie danych, a k jest licz ły pogwałcone (rozdział 28) i czy nasze wyniki nie są silnie
bą parametrów prostszego modelu, uwzględniającą przecie- zaburzone przez pomiary wpływające (rozdział 29).
PRZYKŁAD
W przykładzie w rozdziale 31 użyliśmy testu Walda do iden nicę pomiędzy wartościami uzyskanymi dla -2 log wiary
tyfikacji poszczególnych czynników związanych z nawrotem godności (tj. LRS lub dewiancja) z każdego z modeli (tablica
wiremii w grupie 516 pacjentów z HIV (z 988 zbiorami ob 32.2). Pełny wydruk komputerowy został załączony w Do
serwacji), którzy byli leczeni wysoce aktywną terapią anty- datku C. Włączenie dwóch zmiennych ślepych było związa
retrowirusowa (HAAHT). W szczególności chcielibyśmy się ne z redukcją -2 log wiarygodności o wartość 5,53 (= 393,12 -
dowiedzieć, czy częstość braku efektu terapeutycznego po - 387,59). Statystyka tego testu podlega rozkładowi
leczeniu przeciwwirusowym (BETPLP) wzrosła w czasie, po Chi-kwadrat z 2 stopniami swobody (2 dodatkowe parame
uwzględnieniu innych potencjalnie uwikłanych zmiennych, try dołączono do większego modelu). Wartość p związana
które byiy związane z BETPLP. Chociaż najbardziej intere z tym testem statystycznym wynosiła 0,06, więc związek
sujący nas wynik jest binarny (pacjent miał BETPLP, pa między BETPLP a czasem od odpowiedzi pierwotnej jest
cjent nie miał BETPLP), wybrałyśmy model regresji Poisso- w zasadzie nieistotny. Wartość -2 log wiarygodności dla mo
na zamiast modelu logistycznego, ponieważ poszczególni delu 2 pozwala również określić adekwatność dopasowania
pacjenci byli obserwowani przez różny czas. Zatem zmienną tego modelu przez porównanie jego wartości -2 log wiary
wyjściową dla wykonywanej analizy była częstość zdarzeń. godności z rozkładem Chi-kwadrat z 982 stopniami swobo
W tym rozdziale wartości p dla zmiennych wyznaczono przy dy. Wartość p uzyskana z tego porównania wynosiła > 0,99,
użyciu statystyki stosunku wiarygodności. W szczególno co sugeruje, że jakość dopasowania modelu jest do zaakcep
ści, do obliczenia wartości p związanej z oboma ślepymi towania. Należy jednak zauważyć, że po włączeniu tych pię
zmiennymi oznaczającymi czas od pierwszej odpowiedzi na ciu zmiennych do modelu mamy dowód na zaniżenie rozrzu
leczenie zostały dopasowane dwa modele. Pierwszy zawie tu, gdyż stosunek -2 log wiarygodności podzielony przez
rał zmienne związane ze statusem leczenia (uprzednio otrzy jego liczbę stopni swobody wynosił 0,39, więc byt znacznie
mywał leczenie, nigdy nie otrzymywał leczenia), płeć i po mniejszy od jedności, co sugeruje, że wielkość zmienności
czątkową liczbę CD8 (Model 1); drugi obejmował te zmienne resztowej była mniejsza, niż można by się spodziewać z mo
i dwie zmienne ślepe (Model 2). Następnie zanalizowano róż delu Poissona (rozdział 31).
Tablica 32.2. Wartości -2 Log wiarygodności, liczba stopni swobody i liczba dopasowywanych w modelu parametrów, które wykluczają
i wtaczają czas od początkowej odpowiedzi na leczenie.
Model Włączone zmienne -2 log wiary- Liczba stopni swo- Liczba parametrów dopasowywanych
godności body dla modelu modelu, przy uwzględnieniu przecięcia
1 Status leczenia, płeć. i początkowa liczba CD8 393,12 984 4
2 Status leczenia, pleć i początkowa liczba CD8
oraz 2 zmienne ślepe dla czasu od początkowej
odpowiedzi na leczenie 387,59 982 6
32. Uogólnione modele liniowe 89

33 ZMIENNE WYJAŚNIAJĄCE
W MODELACH STATYSTYCZNYCH
Bez względu na to, jaki wybierzemy rodzaj modelowania sta więc związek liniowy między każdą zmienną wyjaśniającą
tystycznego, musimy podjąć decyzję, które zmienne wyjaśnia a zmienną zależną. W regresji Poissona oraz logistycznej
jące należy włączyć do modelu i jak najlepiej to uczynić. Decy estymator parametru daje miarę wpływu wzrostu o jednost
zje te będą zależały od typu zmiennych wyjaśniających (nomi kę zmiennej wyjaśniającej na logarytm zmiennej zależnej
nalna kategorialna, porządkowa kategorialna lub numeryczna) (tzn. model zakłada związek liniowy pomiędzy zmienną wy
oraz związku między tymi zmiennymi a zmienną zależną. jaśniającą a logarytmem częstości lub szansy, ale związek
eksponencjalny z aktualną częstością lub szansą). Ważną
NOMINALNE ZMIENNE WYJAŚNIAJĄCE rzeczą jest sprawdzenie poprawności założenia liniowości
(patrz następna sekcja) przed włączeniem numerycznych
Zwykle w celu zbadania w analizie regresji wpływu zmien zmiennych wyjaśniających do modeli regresyjnych.
nej wyjaśniającej, nominalnej kategorialnej trzeba stworzyć
zmienne ślepe lub wskazujące (rozdział 29). Zwróćmy uwa- Badanie założenia liniowości
^e, ze przy określaniu adekwatności dopasowania modelu za W celu zbadania założenia liniowości w modelu regresyj-
wierającego zmienną nominalną o więcej niż dwóch katego nym prostym lub wielokrotnym wykreślamy numeryczną
riach lub przy określaniu istotności tej zmiennej ważne jest zmienną zależną y w funkcji zmiennej wyjaśniającej x lub
włączenie wszystkich zmiennych ślepych w modelu w tym wykreślamy wartości resztowe modelu w funkcji X (rozdział
samym czasie. Jeżeli tego nie zrobimy (tzn. jeżeli włączymy 28). Surowe dane powinny przybliżać linię prostą, a warto
tylko jedną ze zmiennych ślepych dla określonego poziomu ści resztowe nie powinny mieć charakterystycznego rozkła
zmiennej kategorialnej), będziemy mogli jedynie częściowo du. Możemy określić założenie liniowości w regresji logi
określić wpływ tej zmiennej na wynik. Z tego powodu lepiej stycznej (rozdział 30) lub regresji Poissona (rozdział 31),
oceniać istotność zmiennej przy użyciu statystyki testowej kategoryzując osobników na mniejsze podgrupy równej
stosunku wiarygodności (LRS — rozdział 32) niż poprzez ba wielkości (5-10 osobników) w zależności od ich wartości dla
danie poszczególnych wartości p dla każdej ślepej zmiennej. x. W regresji Poissona obliczamy logarytm częstości wystę
powania wyniku w każdej podgrupie i wykreślamy go
PORZĄDKOWE ZMIENNE WYJAŚNIAJĄCE w funkcji środków zakresów wartości x dla odpowiednich
podgrup (rycina 33.1). W regresji logistycznej dla każdej
W sytuacji, gdy mamy zmienną porządkową z więcej niż dwo podgrupy wyznaczamy logarytm szans i wykreślamy go
ma kategoriami, możemy zastosować jedno z dwóch podejść. znowu w funkcji środków zakresów. W każdym przypadku,
• Potraktuj zmienną kategorialna jako pomiar ciągły nu jeżeli założenie liniowości jest sensowne, powinniśmy się
meryczny, przyporządkowując wartość numeryczną do każ spodziewać podobnego stopnia krokowego wzrostu (lub
dej kategorii zmiennej. To podejście w pełni wykorzystuje spadku) w logarytmie częstości lub szans, gdy przechodzi
uporządkowanie kategorii, lecz zwykle zakłada związek li my pomiędzy przyległymi kategoriami x.
niowy (gdy wartości numeryczne są w równych odległo
ściach) pomiędzy zmienną wyjaśniającą i zmienną zależną
(lub jej transformatą), a to należy sprawdzić.
Radzenie sobie z nieliniowością
Istnieje kilka sposobów postępowania, jeżeli wykryjemy
• Potraktuj zmienną kategorialna jako zmienną wyja
nieliniowość na którymś z tych wykresów.
śniającą nominalną i stwórz dla niej serię zmiennych ślepych
lub wskaźnikowych (rozdział 29). To podejście nie bierze pod
uwagę uporządkowania kategorii i dlatego traci się w nim
część informacji. Jednakże nie zakłada ono związku liniowe
go ze zmienną zależną i dlatego jest czasem wybierane.
Różnica w wartościach LRS z obu modeli pozwala uzy
skać statystykę testową do testowania liniowego trendu
(tj. oszacowania, czy model zakładający liniową zależność
daje lepsze dopasowanie niż model niezakładający związku
liniowego). Statystyka ta podlega rozkładowi Chi-kwadrat
z liczbą stopni swobody równą różnicy w liczbie parame
trów w obu modelach; istotność wyniku sugeruje nielinio
wość.
NUMERYCZNE ZMIENNE WYJAŚNIAJĄCE

Gdy do modelu włączamy numeryczną zmienną wyjaśniają
cą, estymator jej współczynnika regresji wskazuje na Rycina 33.1. Wykres log (częstości) pierwotnej liczby CD8 w funk
wpływ wzrostu o jednostkę zmiennej wyjaśniającej na wy cji czasu od pierwotnej odpowiedzi na HAART. Żadna ze zmiennych
nik. Dla prostej i wielokrotnej regresji liniowej zakłada się nie przejawia liniowości.

• Zastępujemy x zbiorem ślepych zmiennych stworzonych wtedy przydają się komputerowe intensywne procedury au
przez kategoryzację osobników do trzech lub czterech podgrup, tomatycznej selekcji, które pozwalają określić optymalny
zgodnie z wielkością x (często zdefiniowanych przy użyciu ter- model poprzez wybór niektórych z tych zmiennych.
tyli lub kwartyli rozkładu). Taki zbiór zmiennych ślepych może • Wszystkie podzbiory — rozważana jest każda kombi
zostać włączony do wielowymiarowego modelu regresyjnego nacja zmiennych wyjaśniających; wybierana jest ta, która
jako kategorialne zmienne wyjaśniające (przykład). zapewnia najlepsze dopasowanie opisywane przez R2 mode
• Dokonujemy jakiegoś typu transformacji zmiennej x, np. lu (rozdział 27) lub LRS (rozdział 32).
przez wzięcie logarytmu lub pierwiastka kwadratowego z x, • Selekcja wsteczna — włącza się wszystkie możliwe
(rozdział 9), tak aby związek pomiędzy transformowaną war zmienne; te, które ocenia się jako najmniej ważne dla mode
tością x a zmienną zależną (lub jej logarytmem dla regresji lu (decyzja oparta jest na Rz lub LRS) są sukcesywnie usu
Poissona lub jej logitem dla regresji logistycznej) byt liniowy. wane z modelu do chwili, aż żadna z pozostałych zmiennych
• Znajdujemy jakąś algebraiczną zależność, która przybli nie może zostać usunięta bez znaczącego zaburzenia dopa
ża nieliniową zależność przy użyciu wyższych potęg x (np. za sowania modelu.
leżność kwadratowa lub sześcienna). Procedura ta jest znana • Selekcja progresywna — włącza się kolejno te zmien
pod nazwą regresji wielomianowej. W ten sposób wprowa ne, które wnoszą największy wkład do dopasowania mode
dzamy do równania człony oznaczające wyższe potęgi x. Gdy lu (oceniane na podstawie zmian w R2 lub LRS), do czasu,
mamy na przykład zależność sześcienną, nasze oszacowane aż żadna kolejna zmienna nie poprawi dopasowania modelu
równanie wielokrotnej regresji liniowej przyjmuje postać Y= w znaczący sposób.
= a+ 6)X+ bp? + 6j3x3. Dopasowanie tego modelu i postępowa • Selekcja krokowa — kombinacja wyboru progresyw
nie w jego analizie przebiega tak samo, jak gdyby człony kwa nego i wstecznego, która zaczyna się od progresji, a na za
dratowy i sześcienny oznaczały różne zmienne (powiedzmy kończenie każdego „kroku" dokonywane jest sprawdzenie
x2 i x3) w wielokrotnej analizie regresji. Na przykład, może wsteczne w celu upewnienia się, że wszystkie włączone
my dopasować model kwadratowy, który zawiera w sobie zmienne są nadal potrzebne.
„zmienne" wzrost i wzrost2. Możemy testować liniowość, po
równując LRS modeli liniowego i kwadratowego (rozdział 32) Wady
lub testując współczynnik przy członie kwadratowym. Chociaż dzięki tym procedurom praca bez pomocy kompute
ra może zostać w dużym stopniu ograniczona w dopasowa
WYBÓR ZMIENNYCH WYJAŚNIAJĄCYCH niu modelu, mają one jednak pewne wady.
• Możliwe, że dwa lub więcej modeli będzie dopasowy
Zawsze istnieje niebezpieczeństwo zbyt dokładnego dopa wało dane równie dobrze lub że zmiany w zbiorach danych
sowania modeli przez włączenie bardzo dużej liczby zmien będą tworzyły różne modele.
nych wyjaśniających, nawet gdy model nie jest wysycany • Z powodu wielokrotnego testowania, które ma miejsce,
(rozdział 32). Może to prowadzić do fałszywych rezultatów, gdy po wielokroć porównujemy jeden model z innym w ra
niespójnych z oczekiwaniami, zwłaszcza gdy zmienne są sil mach procedury automatycznego wyboru, prawdopodobień
nie skorelowane. W modelu wielokrotnej regresji liniowej stwo błędu I rodzaju (rozdział 18) staje się niezwykle wyso
przyjmuje się regułę, że trzeba się upewnić, czy mamy co kie. Zatem niektóre istotne wyniki mogą powstać przez
najmniej 10 razy więcej przypadków niż zmiennych wyja przypadek. Można uniknąć tego problemu przez wybór bar
śniających. W regresji logistycznej powinno być co najmniej dziej przekonywającego poziomu istotności (powiedzmy 0,01
10 razy więcej odpowiedzi lub zdarzeń w każdej z dwóch zamiast 0,05).
kategorii wynikowych, niż jest zmiennych wyjaśniających.
• Jeżeli model jest ponownie dopasowywany do danych
Często mamy dużą liczbę zmiennych wyjaśniających, o któ przy użyciu, na przykład, m zmiennych pozostających w koń
rych sądzimy, że są powiązane ze zmienną zależną. Na przy cowym modelu automatycznej selekcji, jego oszacowane
kład, wiele czynników może wiązać się ze skurczowym ciśnie parametry mogą się różnić od tych z modelu automatycznej
niem krwi, również wiek i styl życia. Zmienne wyjaśniające selekcji. Dzieje się tak dlatego, że w procedurze automatycz
powinniśmy włączyć do modelu tylko wtedy, gdy przypuszcza nej selekcji bierze się pod uwagę w analizie jedynie tych
my na podstawie przesłanki biologicznej lub klinicznej, że są osobników, którzy mają komplet informacji we wszystkich
one związane ze zmienną zależną. Niektóre zmienne możemy zmiennych wyjaśniających, natomiast wielkość próby może
wyeliminować przez przeprowadzenie analizy jednowymiaro być większa, gdy włączamy osobników, którzy nie mają bra
wej (używając raczej mniej przekonującego poziomu istotności kujących danych w odpowiednich m zmiennych.
0,10 aniżeli bardziej konwencjonalnego 0,05) dla każdej zmien
• Uzyskane modele, choć uzasadnione matematycznie,
nej wyjaśniającej w celu określenia, czy prawdopodobny jest
mogą nie być sensowne. W szczególności, gdy włączamy
związek ze zmienną zależną, np. gdy mamy numeryczną
serię zmiennych ślepych do przedstawienia pojedynczej
zmienną zależną, możemy przeprowadzić prostą analizę regre
zmiennej kategorialnej (rozdział 29), automatyczne modele
sji, a gdy jest ona binarna — prosty niepowiązany test f. Bie
mogą uwzględniać jedynie niektóre ze zmiennych ślepych
rzemy pod uwagę jedynie te zmienne wyjaśniające, które
i prowadzić do problemów z interpretacją.
w pierwszym etapie były istotne dla naszego wielowymiarowe
Dlatego przy wyborze najlepiej pasującego modelu nale
go modelu (patrz przykład w rozdziale 31).
ży kierować się nie tylko tymi procedurami, ale też zdro
wym rozsądkiem. Modele generowane za pomocą procedur
Procedury automatycznego wyboru automatycznej selekcji powinny być, jeśli to możliwe, spraw
Gdy jesteśmy zainteresowani bardziej wykorzystaniem mo dzane na innych, zewnętrznych zbiorach danych (patrz
delu do predykcji niż sprawdzeniem, czy zmienna wyjaśnia „sprawdzanie punktacji", rozdział 34).
jąca wpływa na wynik, oraz oszacowaniem tego wpływu,
33. Zmienne wyjaśniające w modelach statystycznych 91

PRZYKŁAD
W rozdziałach 31 i 32 badaliśmy czynniki związane z bra wodu braku liniowości pomiędzy częstością BETPLP oraz
kiem ofckrn terapeutycznego po leczeniu przeciwwiruso- aktualną liczbą CD8, ciągła zmienna wyjaśniająca, repre
wym (BETPLP) u pacjentów HIV pozytywnych, otrzymu zentująca liczbę CD8 w modelu regresji Poissona, została
jących wysoce aktywną terapie antyretrowirusową zastąpiona przez serię czterech ślepych zmiennych (patrz
(HAAKT). W tej wielowymiarowej analizie regresji Pois rozdział 29). Osobnicy z" początkową liczbą CD8 w pr7e-
sona włączona zosiala początkowa liczba CD8 osobnika dziale 825 < CD8 < 1100 komórek/mm3 zostali potrakto
jako cięgla zmienna wyjaśniająca (podzielono ją przez wani jako grupa odniesienia dla tych zmiennych. Każda
100, tak że każdy wzrost o jednostkę przeskalowanej z trzech ślepych zmiennych umożliwiała porównanie
zmiennej odpowiada! wzrostowi liczby CD8 o 100 komó- jednej z pozostałych grup CD8 z grupą odniesienia,
i'i:h/miri'!). Wyniki wskazują, że wyższy poziom początko a czwarta zmienna ślepa pozwoliła na porównanie grup
wy liczby CD8 wiązał sic z iatotnie zredukowaną często z brakującą liczbą CD8 z grupą odniesienia. Wyniki pod
ścią BFTPLP. W celu określenia poprawności założenia sumowano w tablicy 33.1; pełny wydruk komputerowy za
liniowości związanej z tą zmienną zdefiniowano pięć grup wiera dodatek C. Porównanie wartości -2 log wiarygod
na podstawie kwintyli rozkładu CD8 i wyznaczono czę ności (tj. LRS lub dewiancji) z modelu zawierającego
stość BETPLP w każdej z pięciu grup. Wykres logfczęsto- cztery ślepe zmienne dla liczby CD8 (387,15) z wartością
ści) w każdej z tych grup ukazuje, że związek nie był li z modelu, który zawierał te same zmienne oprócz wspo
niowy, ponieważ nie było progresji krokowej (rycina 33.1). mnianych zmiennych ślepych (392,50), dato wartość
W yzczpgólności, podczas gdy log(częstości) był ogólnie po p równą 0,25 (statystyka testowa 5,35 przy A stopniach
dobny w czterech najniższych grupach, w najwyższej gru swobody). Zatem, po włączeniu jej w ten sposób liczba
pie O i 495 komórek/mrn3) zdarzenia nie pojawiły się CD8 nie ma już dłużej istotnego statystycznie związku
w ogóle, co dało dla loglczęsto.ści) wartość minus nieskoń- z BETPLP w przeciwieństwie do modelu, w którym licz
liMiOÓć, Dlatego dla dalszej analizy dwie górne grupy ba CD8 została włączona jako ciągła zmienna wyjaśniają
zoHtnJy połączone. Co więcej, znacząca liczba pacjentów ca. Związek między BETPLP i stalusem leczenia, płcią
musiała zostać wykluczona z tej analizy, ponieważ nie oraz czasem od odpowiedzi początkowej na leczenie pozo
mieli oni oznaczonej początkowej liczby CD8. Zatem, z po stał jednak podobny.
Tablica 33.1. Wyniki wiolozmionnoj analizy regresji Poissona czynników związanych z brakiem efektu terapeutycznego po leczeniu
przeciwwirnwiwym (HrTPJ.P), po wleczeniu liczby CD8 jako zmiennej kategorialnej w modelu.
Oszacowana 95% przedział
Oszacowanie Bla.d częstość ufności dla
Zmienna psrameini standardowy względna częstości względnej Wartość p"
Czas od pierwszej odpowiedzi
na leczenie (lata) <1 odniesienie — l —
1-2 0,4550 0,2715 1,58 0.93,2,68
>2 -0,5386 0,4849 0,58 0,23, 1,51 0,06
Status leczenia
Uprzednio stosowano leczenie (0) odniesienie — 1 —
Nigdy nic stosowano leczenia (1) -0,5580 0,2600 0,57 0,34,0,95 0,03
ltoć
Kobiety (0) odniesienie — 1 —
Mężczyźni (1) -0,4970 0,2675 0,61 0,36,1.03 0,07
Liczba CD8
3
(100komorek/mm ) < 625 -0,2150 0,6221 0,81 0,24,2,73
5=625, <825 -0,3646 0,7648 0,63 0,16,3,11
?825, < 1100 odniesienie — 1 —
SI 100 -0,3270 1,1595 0,78 0,07,7,00
Braki -0,8264 0,6057 0,44 0,13, 1,43 0,25
W nawiasach podano kody dla zmiennych binarnych (płeć i status leczenia). Czas od odpowiedzi pierwotnej na leczenie uwzględniono
przez włączenie dwóch zmiennych ślepych odpowiadających okresom 1-2 lat i > 2 lat po pierwotnej odpowiedzi. Początkowa liczba CD8
została włączona w sposób opisany powyżej.
"Wartości p otrzymane przy użyciu LRS (rozdział 32); tam, gdzie ślepe zmienne zostały użyte do włączenia więcej niż 2 kategorii
w zmiennej, wartość p odzwierciedla łączny efekt tych zmiennych.

34 ZAGADNIENIA ZWIĄZANE
Z MODELOWANIEM STATYSTYCZNYM
INTERAKCJA UWIKŁANIE
Co to jest? Co to jest?
Statystyczna interakcja, znana również jako modyfikacja Zmienna uwikłana lub mieszająca to zmienna wyjaśniająca,
wpływu (rozdział 13) pomiędzy dwoma zmiennymi wyja powiązana zarówno ze zmienną zależną, jak i z jedną lub
śniającymi w analizie regresji pojawia się, gdy związek po większą liczbą zmiennych wyjaśniających w modelu. Na
między jedną ze zmiennych wyjaśniających a zmienną zależ przykład, możemy być zainteresowani badaniem wpływu sta
ną nie jest taki sam dla różnych poziomów drugiej ze tusu palenia i spożywania alkoholu na zapadalność na choro
zmiennych wyjaśniających, tj. dwie zmienne wyjaśniające bę wieńcową (CHD — coronary heart disease) w kohorcie
nie oddziałują na zmienną zależną niezależnie. Na przykład, mężczyzn w średnim wieku. Jakkolwiek spożycie alkoholu
przypuśćmy, że obecny status palenia tytoniu i status spoży i palenie tytoniu są znane jako czynniki stowarzyszone
wania alkoholu mogą być skategoryzowane na dwóch pozio z rozwojem CHD, obie zmienne również są ze sobą związa
mach (palacz/niepalący i pijący/niepijący) i każdy osobnik ne (tj. bardziej prawdopodobne jest, że mężczyzna pijący
przynależy do jednej z kategorii każdej zmiennej. Jeżeli róż alkohol będzie palił, niż że będzie palii mężczyzna niepiją-
nica w rozkurczowym ciśnieniu krwi (zmienna zależna) po cy alkoholu). Każdy model regresyjny, w którym rozpatruje
między palącymi i niepalącymi jest przeciętnie większa się wpływ jednej ze zmiennych wyjaśniających na wynik,
u tych, którzy nie piją alkoholu, niż u tych, którzy piją, wte lecz nie włącza się zmiennej wikłającej (np. model wiążący
dy mówimy, że istnieje interakcja między paleniem a spo status palenia z zapadalnością na CHD bez uwzględnienia
żywaniem alkoholu. spożywania alkoholu) może zakłamać prawdziwą rolę zmien
nej wyjaśniającej. Uwikłanie może albo ukrywać prawdziwy
Testowanie interakcji związek, albo sztucznie wytwarzać fałszywy związek miedzy
W modelu represyjnym statystyczną interakcję sprawdza się zmienną wyjaśniającą a zmienną wynikową. Brak uwzględ
zazwyczaj bezpośrednio i wiele pakietów statystycznych po nienia czynników wikłających w analizie regresji prowadzi
zwala na włączenie członów interakcyjnych. Jeżeli w pakie do obciążenia (rozdział 12) estymatorów parametrów modelu.
cie nie ma takiego ułatwienia, wtedy człon interakcyjny
można wytworzyć bez pomocy oprogramowania przez włą Rozwiązywanie problemu uwikłania
czenie iloczynu odpowiednich zmiennych jako dodatkowej Z uwikłaniem można radzić sobie w dwojaki sposób:
zmiennej wyjaśniającej. Zatem w celu uzyskania zmiennej, • Tworzymy podgrupy, tworząc warstwy zbioru danych
która oznacza interakcję pomiędzy dwoma zmiennymi (obie ze względu na poziomy zmiennej wikłającej (np. utworze
binarne, obie numeryczne lub jedna binarna, jedna nume nie dwóch podgrup, pijących i niepijących), i przeprowa
ryczna), mnożymy przez siebie wartości obu tych zmiennych dzamy analizy osobno w każdej podgrupie. Chociaż jest to
dla osobnika. Gdy obie zmienne są numeryczne, interpreta proste podejście i bardzo polecane, gdy liczba zmiennych
cja jest łatwiejsza, gdy stworzymy człon interakcyjny wikłających jest niewielka, to: (1) Podgrupy mogą być małe
z dwóch zmiennych binarnych uzyskanych z dychotomizacji i na skutek tego analiza ma zmniejszoną moc wykrywania
każdej zmiennej numerycznej. Jeżeli jedna z dwóch zmien istotnych efektów. (2) Z powodu wielokrotnego testowania
nych jest zmienną kategorialną z więcej niż dwoma katego (rozdział 18) mogą pojawiać się nieprawdziwe istotne wyni
riami, tworzymy z nich serię ślepych zmiennych (rozdział ki, jeżeli hipotezy testuje się dla każdej podgrupy. (3) Kombi
29) i używamy każdej z nich, w połączeniu z drugą badaną nowanie osobnych estymatorów badanego efektu dla każdej
zmienną binarną lub numeryczną, do wygenerowania serii podgrupy może sprawiać trudność.
członów interakcyjnych. Procedurę tę można rozszerzyć • Dokonujemy skorygowania ze względu na zmienne
w przypadku, gdy obie zmienne są kategorialne i każda ma wikłające w wielowymiarowym modelu regresji. To podej
więcej niż dwie kategorie. ście jest szczególnie użyteczne, gdy w badaniu mamy wiele
Człony interakcyjne powinny być włączane do modelu re- zmiennych wikłających, pozwala na oszacowanie związku
gresyjnego tylko po wprowadzeniu efektów prostych (wpły pomiędzy zmienną wyjaśniającą a zmiennymi zależnymi,
wy zmiennych bez jakiejkolwiek interakcji). Zwróćmy uwa których nie można wyjaśnić przez związek między zmienną
gę, że statystyczne testy interakcji mają zwykle niską moc zależną i zmienną wikłającą.
(rozdział 18). Jest to szczególnie ważne, gdy obie zmienne
wyjaśniające są kategorialne i w podgrupach pojawiają się Uwikłanie w badaniach nierandomizowanych
rzadkie zdarzenia tworzone przez kombinację każdego po Ze zjawiskiem uwikłania musimy być szczególnie ostrożni,
ziomu jednej zmiennej z każdym poziomem drugiej zmien gdy porównujemy leczenie w nierandomizowanych klinicz
nej lub jeżeli te podgrupy zawierają bardzo małą liczbę osob nych badaniach kohort owych (rozdział 15). W tym typie bada
ników. nia cechy osobników mogą być rozłożone w różnych grupach
leczenia w sposób nierównomierny. Na przykład, osobnicy
mogą zostać wybrani do określonego leczenia na podstawie
historii choroby, czynników demograficznych lub stylu życia.
Niektóre z nich mogą się wiązać ze zmienną wynikową i dla-
34. Zagadnienia związane z modelowaniem statystycznym 93

tego będą uwikłane z leczeniem. Wielowymiarowe modele re INDEKSY PROGNOSTYCZNE I PUNKTACJA
gresji mogą być używane do korygowania dowolnych różnic RYZYKA DLA ODPOWIEDZI BINARNEJ
w rozkładach czynników w różnych grupach leczenia tylko
wtedy, gdy prowadzący badanie wystrzegają się czynników Mając dużą liczbę cech demograficznych lub klinicznych, mo
wikłających i zarejestrowali je w zestawie danych. Ekspery żemy chcieć prognozować, czy jest prawdopodobne, że u da
menty randomizowane kontrolowane (rozdział 14) rzadko są nego osobnika rozwinie się choroba. Do identyfikacji czynni
narażone na uwikłanie, jako że pacjenci są przydzielani do ków istotnie związanych ze zmienną wynikową mogą zostać
grup leczenia w sposób losowy i dlatego wszystkie współ- użyte modele, często dopasowywane przy użyciu regresji
zmienne, zarówno mieszające, jak i inne zmienne wyjaśnia proporcjonalnego hazardu (rozdział 44), regresji logistycznej
jące, powinny być równomiernie rozłożone w różnych gru (rozdział 30) lub podobnej metody znanej jako analiza dys
pach leczenia. kryminacyjna. Można następnie ze współczynników tego
modelu utworzyć indeks prognostyczny lub punktację ryzy
ka dla osobnika w celu określenia prawdopodobieństwa je
KOREKCJA DLA ZMIENNYCH POŚREDNICH go/jej zachorowania. Jednakże model, który wyjaśnia dużą
część zmienności w danych, niekoniecznie pozwala na dobrą
Jeżeli o zmiennej wiadomo, że leży na ścieżce przyczynowej
predykcję, u których pacjentów rozwinie się choroba. Jeżeli
pomiędzy zmienną wyjaśniającą a badaną zmienną wyniko
więc wytworzyliśmy punktację predykcyjną opartą na mode
wą, określa się ją terminem zmienna pośrednia. W modelach
lu, powinniśmy oszacować ważność tej punktacji.
wielowymiarowych powinniśmy uważać, gdy dokonujemy ko
rekcji dla zmiennych pośrednich. Rozważmy sytuację, w któ
rej prowadzimy eksperyment randomizowany kontrolowany Walidacja punktacji
grupą placebo, mający na celu zbadanie wpływu nowego leku Możemy dokonać walidacji naszej skali na różne sposoby.
obniżającego poziom lipidów na zapadalność na CHD. • Tworzymy tablicę predykcji opartą na naszym zbiorze
Chociaż możemy dokonać korekcji dla dowolnych rozbież danych, określając liczbę osobników, u których prawidłowo
ności w poziomie lipidów na początku badania u pacjentów i nieprawidłowo przewidzieliśmy stan choroby (podobną do
w obu grupach leczenia (nie powinno to być jednak koniecz tablicy w rozdziale 38). Można obliczyć dla tej tablicy miary,
ne, jeżeli randomizacja byta skuteczna), nie powinniśmy ko takie jak czułość i swoistość.
rygować żadnych zmian w lipidach, które pojawiają się • Kategoryzujemy osobników zgodnie z ich punktacją
w okresie badania. Jeżeli dokonamy korekcji dla tych zmian, i rozważamy częstości choroby w różnych kategoriach (patrz
będziemy kontrolować korzystny efekt działania leku i w ten przykład); powinniśmy zaobserwować związek między kate
sposób każdy efekt działania leku prawdopodobnie zniknie goriami a częstością choroby, np. kategorie wyżej punktowa
(chociaż otrzymamy wskazówkę, jaką część wpływu leku ne mają wyższe częstości choroby.
można wytłumaczyć przez jego oddziaływanie na wartości Oczywiście, każdy model zazwyczaj działa dobrze na
poziomu lipidów, co samo w sobie może być użyteczne). zbiorze danych, który został użyty do jego wygenerowania.
Dlatego, aby prawidłowo ocenić przydatność skali, należy ją
poddać walidacji na innych, niezależnych zbiorach danych.
WSPÓŁLINIOWOŚĆ Jakkolwiek jest to niepraktyczne, możemy rozdzielić da
Gdy dwie zmienne wyjaśniające są silnie skorelowane, trud ne na dwie, w przybliżeniu równe podgrupy. Pierwsza pod
ne może być określenie ich indywidualnego wpływu w wie grupa, znana jako próba ucząca, zostaje użyta do stworzenia
lowymiarowym modelu regresji. W konsekwencji, podczas modelu. Druga podgrupa, znana jako próba walidacyjna (te
gdy zmienna może być istotnie powiązana ze zmienną zależ stująca), zostaje użyta do sprawdzenia wyników uzyskanych
ną w modelu jednowymiarowym (tj. gdzie występuje jedna z próby uczącej. Na skutek tego zmniejszamy wielkość pró
zmienna wyjaśniająca), może okazać się nawet nieistotnie by, przez co możemy do modelu włączyć mniej zmiennych
związana, gdy obie zmienne wyjaśniające zostają włączone wyjaśniających.
jednocześnie do modelu wielowymiarowego. Taką kolinear-
ność (zwaną również współliniowością) można wykryć po Jackknifing
przez zbadanie współczynników korelacji dla każdej pary Jackknifing jest sposobem szacowania parametrów i uzyski
zmiennych wyjaśniających (zwykle przedstawionych w po wania przedziałów ufności w sposób nieobciążony. Z próby
staci macierzy korelacji) lub poprzez wizualną ocenę błędów usuwamy wszystkich osobników, za każdym razem po jed
standardowych współczynników regresji w modelu wielowy nym, a pozostałych (n - 1) używamy do oszacowania parame
miarowym. W przypadku współliniowości są one znacząco trów modelu. Proces ten jest powtarzany dla każdego
większe niż w osobnych modelach jednowymiarowych. Naj z n osobników w próbie, a uzyskane estymatory są uśrednia
prostszym rozwiązaniem tego problemu jest włączenie do ne po n próbach. Ponieważ uzyskana w ten sposób punkta
modelu tylko jednej z tych zmiennych, chociaż w sytuacjach, cja jest generowana z wielu różnych zbiorów danych, może
gdy wiele zmiennych jest silnie skorelowanych, konieczne być sprawdzona na kompletnym zbiorze danych, bez tworze
może się okazać szukanie porady u statystyka. nia podgrup.

PRZYKŁAD
Chociaż istnieją duże rozbieżności w prognozach dotyczą Walidację punktacji otrzymano przez analizę częstości
cych pacjentów z AIDS, często uważa się ich za pojedyn wystąpienia śmierci (liczba zgonów dzielona przez całko
cza, jednorodna grapę. W celu pogrupowania pacjentów witą liczbę osobolat obserwacji) w każdym ze stopni.
zgodnie z rokowaniem stworzono punktację prognostyczną
na podstawie praktyki klinicznej dotyczącej 363 pacjentów Obserwacja Częstość
z AIDS w jednym z centrów w Londynie. Spośród nich Stopień AIDS Zgony (osobolata) zgonów
zmarło łącznie 159 (43,8%) w okresie 6 lat obserwacji.
I 17 168,0 1.0
Punktacja była ważona sumą liczby wszystkich typów
H 54 153,9 3,5
chorób (lugodni;, umiarkowane lub ciężkie) wywołanych
ffl 71 81,2 8,7
prze/, AIDS, jakich doświadczył pacjent i jego/jej liczby ko
mórek CD4 (mierzonej w komórkach/mm3). Wynosiła ona:
Istnieje zatem wyraźny trend w kierunku wzrostu czę
Punktacja = 300 x liczba bardzo ciężkich zdarzeń AIDS
stości zgonów ze wzrostem punktacji. Punktacja została
(chloniak)
również sprawdzona na grupie pacjentów z drugiego cen
+ 100 x liczba ciężkich zdarzeń AIDS (wszyst
trum w Londynie.
kie inne zdarzenia nie wyszczególnione jako
bardzo ciężkie lub łagodne)
+ 20 x liczba łagodnych zdarzeń AIDS (droż- Obserwacja Częstość
dżyca przełyku, skórny mięsak Kaposiego, za Stopień AIDS Zgony (osobolata) zgonów
palenie płuc wywołane Prieumocystis carinii, I 65 828,5 0,8
gruźlica pozaptuciia) II 229 579,6 4,0
-1 x minimalna liczba komórek CD4 od czasu ffl 322 361,3 8,9
wystąpienia AIDS.
W celu interpretacji tej punktacji i jej walidacji ziden Wyniki są w znacznym stopniu podobne, co potwierdza
tyfikowano trzy grupy. wartość tego systemu punktacji.
AIDS Stopień I Punktacja < 0
AIDS Stopień II Punktacja 0-39
AIDS Stopień III Punktacja 3 100
Adaptowane z pracy: Mocrofl A. J., Jołmson M. A., Sabin C. A., i in.: Staging system for clinical AIDS patients. Lancet 1995, 346, 12-17;
za zgodą Elscvicr.
34. Zagadnienia związane z modelowaniem statystycznym 95

35 SPRAWDZANIE ZAŁOŻEŃ
CZEMU SIĘ TYM ZAJMOWAĆ? ny (test nie jest odporny na pogwałcenie tego założenia). Obli
czone zostały dwie wariancje s"- i s|, wyznaczone odpowied
Komputerowa analiza danych pozwala na badanie dużych
nio z n} i n2 obserwacji. Zgodnie z konwencją, jeżeli różnią sie
zbiorów danych, co bez niej byłoby niemożliwe. Jednakże
one wielkościami, wybieramy s* jako większą z wariancji.
w analizie statystycznej nie należy kierować się zasadą „bierz
i korzystaj" po prostu dlatego, że analiza ta jest dostępna • Jednorodność wariancji zakładamy również w resztach
w komputerze. Słuszność wyciągniętych wniosków zależy za w regresji prostej i wielokrotnej (rozdziały 28, 29) oraz
wsze od tego, czy analiza została przeprowadzona prawidło w modelach efektów losowych (rozdział 42). Jak sprawdzić
wo i czy założenia leżące u jej podstaw zostały spełnione. Mó to założenie, wyjaśniłyśmy w rozdziałach 28 i 29.
wimy; ze analiza jest odporna na pogwałcenie założeń leżą
cych u jej podstaw, jeżeli jej wartość p i moc (rozdział 18) nie 1. Definiujemy badane hipotezy zerową i alternatywna.
sa przez to znacznie zaburzone. Przeprowadzenie analizy nie H0: Wariancje w dwóch populacjach są równe.
odpornej na pogwałcenie założeń może prowadzić do mylą H{: Wariancje w dwóch populacjach nie są równe.
cych wniosków. 2. Zbieramy odpowiednie dane z próby osobników.
3. Obliczamy wartość statystyki testowej odpowiedniej
CZY DANE MAJĄ ROZKŁAD NORMALNY? dlatf0
W wielu analizach przyjmuje się założenia na temat rozkła

du danych. Następujące procedury weryfikują normalność która podlega rozkładowi stopniami swobody
ro2kładu, co stanowi najczęstsze założenie o rozkładach. w liczniku oraz n2 - 1 stopniami swobody w mianowni
• Tworzymy wykres punktowy (dla małych prób) lub hi ku. Wybierając upewniliśmy się, że stosunek F
stogram, wykres „łodyga z liśćmi" (rycina 4.2) lub wykres będzie zawsze 3= 1. Pozwala to na użycie tablic rozkładu /",
skrzynkowy w celu ukazania empirycznego rozkładu często w których umieszczono jedynie wartości > 1.
ści danych (rozdział A). Wnioskujemy, że rozkład jest w przy 4. Porównujemy wartość statystyki testowej z warto
bliżeniu normalny, jeżeli ma kształt dzwonu i jest symetrycz ściami znanego rozkładu prawdopodobieństwa.
ny. Jeżeli dane mają rozkład normalny, mediana na wykresie
Porównujemy wartość Fz wartościami w Dodatku A5.
skrzynkowym powinna przecinać w połowie prostokąt zdefi
Naszą dwustronną hipotezę alternatywną sprawdzamy za
niowany przez pierwszy i trzeci kwartyl, a dwa wąsy powin
pomocą testu dwustronnego.
ny mieć równą długość.
• Alternatywnie możemy stworzyć wykres normalności Zauważmy, że rzadko jesteśmy zainteresowani warian
(preferowany przy analizie komputerowej), który przedsta cjami per se, więc zwykle nie obliczamy dla nich przedzia
wia skumulowany rozkład częstości danych (na osi poziomej) łów ufności.
w funkcji rozkładu normalnego. Brak normalności na tym
wykresie przejawia się tym, że krzywa odchyla się od linii
prostej (rycina 35.1).
Chociaż w obu przypadkach ocena jest subiektywna, wy
kres normalności jest bardziej efektywny dla małych prób.
Do bardziej obiektywnego oszacowania normalności można
użyć w komputerze testów Kolmogorowa-Smirnowa lub Sha-
piro-Wilka.
CZY WARIANCJE SĄ SOBIE RÓWNE?

Wytłumaczyłyśmy, jak używać testu t (rozdział 21) do porów
nywania dwóch średnich lub ANOVA (rozdział 22) do porówny
wania większej liczby średnich. U podstaw tych analiz leży zało
żenie, że zmienność obserwacji w każdej z grup jest taka sama,
tj. wariancje muszą być równe, co określamy jako jednorod
ność wariancji lub homoscedastyczność. Z niejednorodnością
wariancji mamy do czynienia, gdy wariancje nie są równe.
• Za pomocą komputera możemy użyć testu Levene'a do
testowania jednorodności wariancji w dwóch lub więcej gru
pach. Hipoteza zerowa zakłada, że wszystkie wariancje są
równe. Zaletą testu Levene'a jest brak silnej zależności od
założenia o normalności rozkładu. Do porównania większej
liczby wariancji można też użyć testu Bartletta, z tym że nie Rycina 35.1. (a) Wykres normalności nietransformowanego rozkła
jest on odporny na odchylenia od normalności rozkładu. du poziomów trójglicerydów opisanych w rozdziale 19. Są one skośne
i dlatego wykres normalności przedstawia krzywą, (b) Wykres nor
• Możemy użyć testu F (testu stosunku wariancji) opisa malności log (poziomów trójglicerydów). Niemal prosta linia wskazuje
nego w ramce, do porównywania dwóch wariancji, zakładając, na to, że transformacja logarytmiczna z powodzeniem usunęła sko-
że dane w każdej grupie mają w przybliżeniu rozkład normal śność w danych.

CZY ZMIENNE SĄ POWIĄZANE LINIOWO? waż w przeszłości inni to zrobili w podobnych okoliczno
ściach!
Większość technik, o których dyskutowałyśmy w rozdziałach
• Dokonujemy prawidłowej transformacji surowych da
26-31 i które opisałyśmy w rozdziale 42, zakłada, że istnie
nych, tak by przetransformowane dane spełniały założenia
je liniowy związek (linia prosta) między dwoma zmiennymi.
proponowanej analizy (rozdział 9). W analizie regresji ozna
Wszystkie związki stwierdzone w tych analizach opierają się
cza to zwykle transformowanie zmiennej x, choć możliwe też
na założeniu liniowości. W rozdziałach 28 i 29 wyjaśniłyśmy,
są inne podejścia (rozdział 32).
jak w analizie regresji sprawdzać liniowość i jak obchodzić
• Jeżeli to możliwe, przeprowadzamy test nieparame
się z nieliniowościami w przypadku regresji prostej i wielo
tryczny (rozdział 17), w którym nie ma żadnych założeń na
krotnej, a w rozdziale 33 — dla innych uogólnionych modeli
temat rozkładu danych (np. normalności). Możesz również
liniowych, np. regresji logistycznej i Poissona.
użyć nieparametrycznej analizy regresji1; jej celem jest osza
cowanie formy funkcjonalnej (a nie parametrów) związku po
CO SIĘ DZIEJE, JEŻELI ZAŁOŻENIA między zmienną odpowiedzi a jedną lub większą liczbą
zmiennych wyjaśniających. Używając regresji nieparame
N i t SĄ SPEŁNIONE?
trycznych uwalniamy się od założenia liniowości modelu i do
Mamy rozmaite możliwości. pasowujemy gładką krzywą do danych, tak że możemy doko
• Postępujemy tak, jak to zostało wcześniej zaplanowa nać wizualizacji trendów bez konieczności specyfikowania
no, biorąc pod uwagę to, że analizy mogą być nieodporne. modelu parametrycznego.
Jeżeli tak czynimy, musimy jednak być świadomi, jakie
skutki to ze sobą. niesie. Nie wolno dać się ogłupić stwier 1
Eubank R. L.: Nonparametric Regression and Spline Smoothmg.
dzeniem, że można wykonać nieprawidłowa analizę, ponie Marcel Dekker, 1999.
PRZYKŁAD
Weźmy pod uwagę przykład dla testu t z rozdziału 21.W ce dej z grup przez 6 miesięcy, lecz musimy upewnić się, że
lu określenia wpływu leku na świszczący oddech przypo zostały spełnione niezbędne założenia (normalność i stała
rządkowano losowo 98 dzieci w wieku szkolnym do grupy wariancja). Wykresy typu „łodyga z liśćmi" na rycinie -4.2
inhalującej albo diprapionian beklometazonu, albo placebo. pokazują, że dane są w przybliżeniu rozłożone zgodnie
Użyłyśmy niepowiązanego testu z do porównania średniej z rozkładem normalnym. Wykonujemy test FVJ celu zbada
wartości wymuszonej objętości wydechowej (FEV1) w każ nia założenia o stałej wariancji w obu grupach.
1. łl0: Wariancja pomiarów FEV1 w populacji dzieci 4. Porównujemy F= 1,34 z wartościami w Dodatku A5
w wieku szkolnym jest taka sama w obu badanych gru dla testu dwustronnego na 5% poziomie istotności. Ponie
pach. waż Dodatek A5 jest ograniczony do liczby stopni swobo
Wariancja pomiarów FEV1 w populacji dzieci w wie dy 25 i nieskończoności (500) dla licznika oraz 30 i 50 dla
ku szkolnym nie jest taka sama w obu badanych grupach. mianownika, musimy dokonać interpolacji (rozdział 21).
2. Grupa leczonych: wielkość próby nx = 50, odchylenie Potrzebna wartość tablicowa na 5% poziomie istotności
standardowe s, = 0,29 litra. leży pomiędzy 1,57 a 2,12; zatem p > 0,05, ponieważ 1,34
Grupa placebo: wielkość próby n2 - 48, odchylenie jest mniejsze niż mniejsza z tych wartości (wynik kom
standardowe s2 = 0, 25 litra. puterowy wynosi p = 0,32).
3. Statystyka testowa 5. Brak zatem dowodu pozwalającego na odrzucenie hi
potezy zerowej, że wariancje są równe. Jest rzeczą sen
= 1,336, która podlega rozkła sowną użycie do porównania średnich wartości FEV1
w obu grupach niepowiązanego testu t, który zakłada
dowi F z 50 - 1 = 49 i 48 - 1 = 47 stopniami swobody, normalność i jednorodność wariancji.
odpowiednio dla licznika i mianownika.
35. Sprawdzanie założeń 97

36 WYZNACZANIE WIELKOŚCI PRÓBY
ZNACZENIE WIELKOŚCI PRÓBY 1

• Wzory ogólne — mogą one być skomplikowane, ale
Jeżeli liczba pacjentów w naszym badaniu jest mała, nie mamy w niektórych sytuacjach są potrzebne, np. dla zachowania
wystarczającej mocy (rozdział 18) do wykrycia ważnych, istnie mocy w klasteryzowanym eksperymencie randomizowanym
jących efektów i na skutek tego marnujemy nasze zasoby. Z dru (rozdziały 14 i 41) mnożymy wielkość próby, której wymaga
giej strony, jeżeli próba będzie zbyt duża, badanie niepotrzebnie libyśmy przy prowadzeniu indywidualnej randomizacji, przez
Steinie się czasochłonne, drogie i nieetyczne, gdyż pozbawi nie czynnik wpływu projektu równy [1 + (m- l)p], gdzie m jcat
których pacjentów możliwości lepszego leczenia. Dlatego musi średnią wielkością klasteru, a p jest wewnątrzklasowym
my wybrać optymalną wielkość próby, która zachowuje równo współczynnikiem korelacji (rozdział 42).
wagę pomiędzy skutkami błędów I i II rodzaju (rozdział 18). Nie • Wzory szybkie - istnieją dla szczególnych wartości
stety, aby wyznaczyć potrzebną wielkość próby, musimy mieć mocy i poziomów ufności dla niektórych testów hipotez (np.
2
jakieś pojęcie o wynikach, których spodziewamy się w badaniu. wzory Lehra , patrz poniżej).
1
• Specjalne tablice — stosowane w różnych sytuacjach
(np. dla testu t, testów Chi-kwadrat, testu współczynnika ko
WYMAGANIA relacji, porównywania dwóch krzywych przeżycia i dla bada
Wytłumaczymy, jak należy obliczać wielkość próby w pro nia równoważności).
stych sytuacjach; bardziej złożone projekty można natomiast • Nomogram Altmana — to prosty do użycia diagram,
uprościć w celu obliczenia wielkości próby. Jeżeli nasze bada który można stosować dla różnych testów. Szczegóły opisano
nie zawiera pewną liczbę testów, koncentrujemy się na naj w następnej części rozdziału.
ważniejszym lub wyznaczamy wielkość próby wymaganą dla • Programy komputerowe — ich zaletą jest to, że wyniki
każdego z nich i wybieramy największą. mogą być prezentowane graficznie lub w tablicach w celu
Naszym celem jest obliczenie optymalnej wielkości próby ukazania wpływu zmian czynników (np. mocy, wielkości
dla proponowanego testu hipotez. Jednakże obliczenia wielko efektu) na żądaną wielkość próby.
ści próby można oprzeć na innym aspekcie badania, takim jak
dokładność estymatora czy szerokość przedziału ufności (zwy NOMOGRAM ALTMANA
kle czyni się tak przy badaniach równoważności i braku po
gorszenia, rozdział 17),
Notacja
W oelu obliczenia dla testu optymalnej wielkości próby W tablicy 36.1 przedstawiamy notację używaną w nomogra-
musimy w fazie projektowania badania wyspecyfikować na mie Altmana (Dodatek B) do określenia wielkości próby
stępujące wielkości: w przypadku dwóch równolicznych grup obserwacji dla
• Moc (rozdział 18) — szansa wykrycia jako statystycznie trzech często stosowanych testów hipotez dotyczących śred
istotnego efektu, jeżeli rzeczywiście on istnieje. Zwykle wy nich i proporcji.
bieramy moc co najmniej 80%. Metoda
• Poziom istotności a (rozdział 17) — poziom odcięcia, po Dla każdego testu obliczamy standaryzowaną różnicę i łączy
niżej którego odrzucimy hipotezę zerową, tzn. maksymalne my jej wartość na osi po lewej stronie nomogramu z mocą
prawdopodobieństwo nieprawidłowego stwierdzenia, że efekt wyspecyfikowaną na pionowej osi po prawej stronie. Wyma
zachodzi. Zwykle ustalamy je na poziomie 0,05 lub czasami na ganą wielkość próby wskazuje punkt, w którym uzyskana li
poziomie 0,01 i odrzucamy hipotezę zerową, gdy wartość nia przecina się z osią wielkości próby.
p jest mniejsza od tej wartości. Zauważmy, że nomogramu możemy użyć do oszacowania
• Zmienność obserwacji, np. odchylenie standardowe, gdy mocy testu dla danej wielkości próby. Czasami jest to przydat
mamy zmienną numeryczną. ne, jeżeli chcemy retrospektywnie dowiedzieć się, czy brak
• Najmniejszy badany efekt — wielkość efektu, który jest istotności w testowaniu hipotezy wynika z niewystarczająco
klinicznie ważny i którego nie chcielibyśmy przeoczyć. Często dużej próby. Pamiętajmy również, że szeroki przedział ufności
jest to różnica (np. różnica w średnich lub proporcjach). Cza dla badanego efektu oznacza niską moc (rozdział 11).
sami wyrażona jest jako wielokrotność odchylenia standardo
wego wartości (różnica standaryzowana). Szybkie wzory
Stosunkowo łatwo jest wybrać moc i poziom istotności testu W przypadku niepowiązanego testu r i testu Chi-kwadrat
tak, aby odpowiadał wymaganiom naszego badania. Zależy to możemy użyć wzoru Lehra2 do obliczenia wielkości próby
zwykle od tego, jakie skutki niosą błędy I i II rodzaju, lecz przy mocy 80% i przy dwustronnym poziomie istotności 0,05.
w niektórych badaniach nad dopuszczeniem leków może też Wymagana wielkość próby w każdej z grup wynosi:
być określony przez ciała ustawodawcze. Mając określony scena
16
riusz kliniczny, możemy określić efekt, który traktujemy jako
ważny klinicznie. Prawdziwa trudność leży w określeniu zmien (Różnica standaryzowana)2
ności zmiennej numerycznej przed zebraniem danych. Uzysku Jeżeli różnica standaryzowana jest mała, wzór daje zbyt
jemy tę informację z uprzednio publikowanych prac z podobny dużą wielkość próby. Zauważmy, że licznik równy 21 (zamiast
mi wynikami lub przeprowadzamy badanie pilotażowe. 16) daje wynik dla mocy 90%.
METODOLOGIA 1
Machin D., Campbell M. J., Fayers P. M., Pinol A. P. Y.: Samplesize
Możemy obliczyć wielkość próby na wiele sposobów, z któ Tablesfor Clinical Studies. Blackwell, Oxford 1997.
rych właściwie każdy wymaga tej samej (opisanej w wyma 2
Lehr R.: Sbcteen s squared over d sąuared: a relationfor crude
ganiach) informacji. sample size estitnates. Statistic in Medicine, 1992, 11, 1099-1102.

Tablica 36.1. Informacje potrzebne do użycia nomogramu Altmana.
Testowanie Różnica Wyjaśnienie znaczenia N
hipotez standaryzowana na nomogramie Terminologia
Niepowiązany test t N/Z obserwacji w każdej grupie najmniejsza ważna klinicznie różnica w średnich,
(rozdział 21) przyjęte równe odchylenie standardowe w każdej z dwóch
grup. Możemy je oszacować, używając wyników z podobne
go, wcześniej przeprowadzonego badania lub z publikowanej
informacji. Alternatywnie w celu jego oszacowania można
przeprowadzić badanie pilotażowe. Innym sposobem jest
wyrażenie ó jako wielokrotność odchylenia standardowego
(np. zdolność wykrycia różnicy dwóch odchyleń standardo
wych).
Powiązany test t # par obserwacji najmniejsza ważna klinicznie różnica w średnich,

(rozdział 20) odchylenie standardowe różnic w odpowiedzi, zwykle osza
cowywane na podstawie badania pilotażowego.
Test Chi-kwadrat N/2 obserwacji w każdej grupie : najmniejsza ważna klinicznie różnica proporcji „sukce
(rozdział 24) sów" w obu grupach. Jedna z tych proporcji jest często
znana i odpowiednią różnicę szacuje się przez rozważe
nie, jaką wartość druga proporcja musi przyjąć, by sta
nowić godną uwagi zmianę.
OKREŚLENIE MOCY • aby uzyskać niezależne grupy o różnych wielkościach.

Może to być pożądane, gdy jedna grupa ma ograniczoną
Często zasadniczą, a zawsze pożyteczną rzeczą jest włącze
wielkość, na przykład w badaniu przypadek-kontrola z po
nie do protokołu badania lub do części o metodyce pracy
wodu rzadkości występowania choroby (rozdział 1(5) lub gdy
(patrz deklaracja CONSORT, rozdział 14) określenia mocy
leczenie nowym lekiem jest krótko stosowane. Zauważmy
w celu pokazania, że na etapie projektowania badania przy
jednak, że brak równowagi w liczbach powoduje zwykle
wiązywano wagę do wielkości próby. Można na przykład
wzrost ogólnej wielkości próby w porównaniu z projektem
stwierdzić, że „w każdej grupie wymagana jest liczba 84 pa
zbalansowanym, jeżeli ma zostać utrzymany podobny po
cjentów dla niepowiązanego testu t do uzyskania 90% szan
ziom mocy. Gdy stosunek wielkości prób w dwóch grupach
sy wykrycia różnicy w średnich 2,5 dni (SD = 5 dni) na 5%
wynosi /c(np. k = 3, jeżeli wielkość jednej grupy ma być trzy
poziomie istotności" (patrz: przykład 1).
razy większa od drugiej), skorygowana wielkość całkowita
próby wynosi
PRZYSTOSOWANIA
N' = N(l + k)2/(4k),
Możemy chcieć przystosować wielkość próby:
• aby pozwolić na straty w obserwacjach, przez rekruto gdzie Njest nieskorygowaną, całkowitą wielkością próby, ob
wanie na początku większej liczby pacjentów. Jeżeli spodzie liczoną dla grup o równych wielkościach. Wówczas N'/(l + k)
wamy się, że częstość wypadania z grupy wyniesie r%, wtedy z tych pacjentów należy do grupy mniejszej, a pozostali do
dostosowana wielkość próby obliczana jest przez przemnoże większej.
nie nieskorygowanej wielkości próby przez 100/(100 - r).
PRZYKŁAD 1
Porównywanie średnich w grupach niepowiązanych przy użyciu niepowiązanego testu f
Cel — badanie skuteczności zawiesiny acicloviru Pytanie dotyczące wielkości próby — jak wiele dzieci
(15 mg/kg) w leczeniu dzieci w wieku 1-7 lat z opryszcz- musi wziąć udział w eksperymencie dla uzyskania 90%
kowym zapaleniem dziąseł, trwającym krócej niż 72 go mocy wykrywania 2,5-dniowej różnicy średniego czasu
dziny. trwania zmian patologicznych w jamie ustnej w dwóch
Projekt — randomizowany, podwójnie ślepy ekspery grupach na poziomie istotności 5%? Autorzy zakładają, że
ment kontrolowany grupą placebo z „leczeniem" stosowa odchylenie standardowe czasu trwania zmian patologicz
nym 5 razy dziennie przez 7 dni. nych w jamie ustnej wynosi w przybliżeniu 5 dni.
Główna miara wyniku dla wyznaczenia wielkości
próby — czas trwania zmian patologicznych w jamie ust
nej.
36. Wyznaczanie wielkości próby 99

Użycie nomogramu: niż przy użyciu placebo (tj. k = 2), wtedy skorygowana
6 = 2,5 dni oraz o = 5 dni. Zatem standaryzowana różnica wielkość próby wyniesie
wynosi
z 180/3 = 60 dziećmi w grupie placebo, a pozostałymi
120 dziećmi w grupie acicloviru. Rycina 18.1 przedsta
Linia łącząca standaryzowaną różnicę 0,50 oraz moc wia krzywe mocy dla tego przykładu.
90% przecina oś wielkości próby w pobliżu wartości 160.
Dlatego w każdej grupie potrzeba około 80 dzieci. Szybki wzór:
Zauważmy: (i) jeżeli ó wzrosła do 3 dni, różnica standa Przy mocy 90%, wymagana wielkość próby w każdej
ryzowana równa się 0,6, a wymagana wielkość próby z grup wynosi:
spada do całkowitej liczby 118, tj. po 59 w każdej grupie,
oraz (ii) jeżeli używając oryginalnej specyfikacji, badacze
chcą mieć dwa razy więcej dzieci w leczeniu aciclovirem (
Amir J., Haiel L., Smettana Z., Varsano I.: Treatment: ofherpes simplex gingwostomatitis with aciclovir in children: a randomized double-
-blind placebo controlled study. British Medical Journal, 1997, 314, 1800-1803.
PRZYKŁAD 2
Porównanie dwóch proporcji w niezależnych grupach przy użyciu testu Chi-kwadrat
Cel — porównanie skuteczności zastrzyków z kortyko- Zatem standaryzowana różnica wynosi:

steroidów oraz fizjoterapii w leczeniu bolesnej sztywno
ści barku.
Projekt — randomizowany eksperyment kontrolowany
(RCT — randornized controlled trial), w którym pacjenci
są losowo przydzieleni do grupy 6-tygodniowego leczenia Linia łącząca standaryzowaną różnicę 0,50 oraz moc
obejmującego albo maksymalnie trzy zastrzyki, albo 80% przecina oś wielkości próby w punkcie 120. Zatem
dwanaście 30-minutowych sesji fizjoterapeutycznych w każdej grupie potrzebujemy w przybliżeniu 60 pacjen
przeprowadzanych dla każdego pacjenta. tów. Zauważmy: (i) jeżeli moc wzrosła do 85%, żądana
Gtmmy wynik pomiarowy dla wyznaczenia wielkości wielkość próby wzrośnie w przybliżeniu do całkowitej
próby — leczenie jest traktowane po 7 tygodniach jako liczby 140, tj. w każdej grupie musi być 70 pacjentów,
.sukces, jeżeli pacjent ocenia siebie jako całkowicie wyle oraz (ii) jeżeli częstość wypadania z badania oszacowano
czonego lub mającego znaczną poprawę (na sześciopunk- na około 20%, skorygowana całkowita wielkość próby (dla
towej skali Likcrta). mocy 80%) wyniesie 120 x 100/(100 - 20) = 150, czyli po
Pytanie o wielkość próby — jak wielu pacjentów mu 75 pacjentów w każdej grupie). Rycina 18.2 pokazuje
si wziąć udział w badaniu dla otrzymania 80% mocy wy krzywe mocy dla tego przykładu.
krywania klinicznie ważnej różnicy w częstości sukce
sów wynoszącej 25% pomiędzy dwoma grupami na 5% Szybki wzór:
poziomic istotności? Autorzy zakładają częstość sukce Dla mocy 80% wymagana wielkość próby w każdej
sów około 40% w grupie mającej co najmniej jedno lecze z grup wynosi:
nie zakończone sukcesem.
Użycie nomogramu:
van der Windt D. A. W. M, Kocs B. W., Derillc W., de Jong B. A., Bouter M.: Effectiveness of cortkosteroid injections with physiotherapy
for treatment ofpainful shoulder in prima/y care: randomised trial British Medical Journal, 1998,317, 1292-6.

37 PREZENTACJA WYNIKÓW
WSTĘP • Nazywaj wszystkie osie, segmenty i słupki oraz wyja

śniaj znaczenie symboli.
Ważną cechą statystyki jest to, że pozwala na podsumowywa • Unikaj zniekształcania wyników poprzez wyolbrzymia
nie ważnych cech analizy. Musimy wiedzieć, co należy włą nie osi na skali.
czyć do analizy i jak opisać nasze wyniki, aby inni mogli ła • Wskazuj, gdzie w tym samym miejscu na diagramie
two uzyskać odpowiednią, ważną informację oraz wyciągnąć rozrzutu leżą dwie lub więcej wartości, np. stosując odmien
poprawne wnioski. Ten rozdział opisuje najważniejsze cechy ne symbole.
takiej prezentacji. • Upewnij się, że na diagramie zamieszczono całą po
trzebną informację (np. połączenie sparowanych wartości).
WYNIKI NUMERYCZNE
• Podawaj liczby wyłącznie w odpowiednim stopniu do PREZENTACJA WYNIKÓW
kładności (wskazówka: jedna cyfra znacząca więcej niż W PRACACH NAUKOWYCH
w danych surowych). Jeżeli analizujesz dane bez pomocy Gdy wyniki prezentowane są w publikacji, musimy się
komputera, ostatecznego zaokrąglenia w górę lub w dół do upewnić, czy praca zawiera informację wystarczającą czytel
konuj na samym końcu obliczeń. nikowi do zrozumienia tego, co zostało wykonane. Czytelnik
• Określaj liczbę przypadków, na których opiera się każ powinien być w stanie odtworzyć wyniki, mając odpowiedni
da miara podsumowująca (np. procenty). pakiet komputerowy i dane. W petni trzeba opisać wszystkie
• Opisz wszystkie wartości odskakujące oraz to, jak so aspekty projektu badania i jego metodologię statystyczną
bie z nimi poradziłeś (rozdział 3). (patrz także Deklaracja CONSORT - rozdział 14).
• Dołączaj jednostki pomiaru.
• Gdy interesujesz się przede wszystkim parametrem Wyniki testowania hipotez
(np. średnią, współczynnikiem korelacji), zawsze podawaj • We właściwych sytuacjach dodawaj odpowiednie wykresy.
dokładność jego oszacowania. Polecamy użycie w tym celu • Wskazuj badane hipotezy.
przedziałów ufności, lecz błąd standardowy też jest do zaak • Nazwij test i określ, czy jest jedno- czy dwustronny.
ceptowania. Unikaj użycia symbolu ±, np. średnia ±SEM • Sprawdź założenia (jeżeli takie istnieją) leżące u pod
(rozdział 10), ponieważ dodając i odejmując SEM, tworzymy staw testu (np. normalność, stałość wariancji; rozdział 35)
67% przedział ufności, który może być mylący dla tych, któ i opisuj każdą transformację (rozdział 9) niezbędną do speł
rzy używają 95% przedziałów ufności. Lepiej przedstawić nienia tych założeń (np. logarytmowanie).
błąd standardowy w nawiasach, po estymatorze parametru • Specyfikuj wartość obserwowaną statystyki testowej,
[np. średnia = 16,6 g (SEM 0,5 g)]. jej rozkład (i w odpowiednich sytuacjach liczbę stopni swo
• Gdy interesujesz się przede wszystkim rozkładem da body) oraz jeżeli to możliwe, dokładną wartość p (np.
nych, zawsze wskazuj miarę rozrzutu danych. Użytecznym p = 0,03), a nie jej estymator przedziałowy (np. 0,01 < p <
deskryptorem jest zakres wartości, który wyklucza wartości < 0,05), lub system gwiazdek (np. *, **, *** dla wzrastającego
odskakujące (zazwyczaj zakres wartości zawierający central poziomu istotności). Unikaj zapisu n.s. [ang. not significant—
ne 95% obserwacji — rozdział 6). Gdy dane mają rozkład nor nieistotny], gdy p > 0,05; dokładna wartość p jest lepsza na
malny, zakres ten jest przybliżony przez wartość średnią wet wtedy, gdy wynik nie jest istotny.
±1,96 x odchylenie standardowe (rozdział 7). Można zamiast • Załączaj estymator odpowiedniego efektu badanego (np.
tego podawać średnią i odchylenie standardowe [np. średnia dla testu f różnicę w średnich dwóch prób lub średnią różnic
= 35,9 mm (SD 2,8 mm)], lecz pozostawia się wówczas czytel zmiennych powiązanych) z przedziałem ufności (lepiej) lub
nikowi obliczenie zakresu. błędem standardowym.
• Wyciągnij z wyników wnioski (np. odrzuć hipotezę zero
wą), zinterpretuj każdy przedział ufności i wyjaśnij wnioski.
TABLICE
• W tablicy nie zamieszczaj zbyt dużo informacji. Wyniki analizy regresji
• Dołączaj zwięzły, niosący właściwą informację i jedno Chodzi tu o prostą (rozdział 27 i 28) i wielokrotną regresję li
znaczny tytuł. niową (rozdział 29), regresję logistyczną (rozdział 30), regre
• Dodawaj nagłówki do każdego wiersza i każdej kolumny. sję Poissona (rozdział 31), regresję proporcjonalnego hazar
• Pamiętaj, że łatwiej jest przeglądać informacje w dót du (rozdział 44) oraz metody regresji dla danych sklastery-
kolumn niż w poprzek wierszy. zowanych (rozdział 42). Pełne szczegóły tych analiz są wyja
śnione w odpowiednich rozdziałach.
• Załączaj stosowne diagramy (np. wykres rozrzutu z do
DIAGRAMY pasowaną linią dla prostej regresji).
• Twórz proste diagramy i unikaj niepotrzebnych udziw • W jasny sposób ustal, co stanowi zmienną zależną, a co
nień (np. tworzenia trójwymiarowych wykresów kołowych). zmienną wyjaśniającą.
• Dołączaj zwięzłe, niosące właściwą informację i jedno • Sprawdź założenia leżące u podstaw analizy i wytłumacz
znaczne tytuły. wyniki diagnostyki regresyjnej, o ile została ona wykonana.
37. Prezentacja wyników 101

• Opisz wszelkie transformacje i wyjaśnij ich cele. • Podaj wyniki testowania hipotez dla współczynników
• Tam, gdzie trzeba, opisz możliwe wartości numerycz (np. załącz wartość statystyki testowej i wartość phWycią-
ne, przybierane przez zmienną kategorialną (np. mężczyzna gnij z tych testów odpowiednie wnioski.
= 0, kobieta = 1), to, jak utworzono zmienne ślepe (rozdział
29), oraz jednostki zmiennych ciągłych. Analizy złożone
• Podaj opis jakości dopasowania modelu, np. R (roz
2
Brak jest prostych reguł prezentacji bardziej złożonych form
dział 29) lub LRS (rozdział 32). analizy statystycznej. Pamiętaj o szczegółowym opisie pro
• W odpowiednich sytuacjach (np. w regresji wielokrot jektu badania (np. czynników wanalizie wariancji oraz tego,
nej) podawaj wyniki całościowego testu Fz tablicy ANOVA. czy istnieje struktura hierarchiczna) i załącz sprawdzenie
• Podaj estymatory wszystkich współczynników w mode założeń leżących u jego podstaw, statystyk testowych i war
lu (również te nieistotne) wraz z przedziałami ufności dla tości p. Krótki opis tego, czemu służy analiza, pomaga w zro
współczynników lub błędami standardowymi ich estymatorów. zumieniu badania osobom niewtajemniczonym; należy dołą
W regresji logistycznej (rozdział 30), regresji Poissona (roz czyć do niego literaturę omawiającą to w sposób bardziej
dział 31) i regresji proporcjonalnego hazardu (rozdział 44) do szczegółowy. Opisz też, jaki pakiet statystyczny został zasto
konuj konwersji współczynników do oszacowywanych ilorazów sowany.
szans, ryzyka względnego lub względnego hazardu (z przedzia
łami ufności). Interpretuj odpowiednie współczynniki.

Rycina 37.1. Histogramy przedstawiające rozkład (a) skurczowego ciśnienia krwi oraz (b) wzrostu w próbie 100 dzieci (rozdział 26).
37. Prezentacja wyników 103

38 NARZĘDZIA DIAGNOSTYCZNE
Stan zdrowia osobnika jest często scharakteryzowany przez mieć prosty test, zależny od obecności lub braku jakiegoś
zbiór pomiarów numerycznych lub kategorialnych. W tym wskaźnika, który dostarcza rozsądnej wskazówki, czy u pa
kontekście można użyć odpowiednich przedziałów odniesie cjenta zachodzi czy nie zachodzi dana sytuacja.
nia (rozdział 6 i 7) i/lub testów diagnostycznych: Bierzemy grupę osobników, u których prawdziwy status
• do wykorzystania przez klinicystę, wraz z badaniami choroby jest znany na podstawie złotego standardu. Możemy
klinicznymi, w celu zdiagnozowania lub wykluczenia kon stworzyć tablicę częstości 2 x 2 (tablica 38.1):
kretnej choroby u pacjenta;
• jako narzędzia przesiewu do sprawdzenia, którzy
Tablica 38.1. Tablica częstości.
osobnicy w pozornie zdrowej populacji prawdopodobnie ma
ją badaną chorobę (lub czasami jej nie mają). Wyznaczone Test złotego standardu
w ten sposób osoby będą przedmiotem bardziej dokładnych Brak
badań w celu potwierdzenia postawionej im diagnozy. Wyko Wynik testu Choroba choroby Razem
nanie badań przesiewowych dla wykrycia choroby jest sen Dodatni a b a+ b
sowne wtedy, gdy istnieją odpowiednie ułatwienia w lecze Ujemny c d c+ d
niu choroby w stadiach przedobjawowych, leczenie to jest Razem a+ c b+d n-a +b+c + d
tańsze i/lub bardziej efektywne niż stosowane w później
szych etapach (lub gdy wierzymy, że osoby zdiagnozowane
z tą jednostką chorobową zmienią swoje zachowania w celu Spośród badanych nosobników a+ cosobników ma cho
zapobieżenia rozprzestrzenianiu się choroby). robę. Prewalencja (rozdział 12) choroby w tej próbie wynosi
(a + c)
PRZEDZIAŁY ODNIESIENIA n
Przedziały odniesienia (często określane jako zakres nor
my) dla pojedynczej zmiennej numerycznej, wyznaczone na Spośród a+ c osobników, którzy chorują, a ma pozytyw
podstawie wielkiej próby, oznaczają zakres typowych warto ne wyniki testu (prawdziwie dodatnie), a c — wyniki nega
ści obserwowanych u zdrowych osobników. tywne (fałszywie ujemne). Spośród b+d osobników, któ
Jeżeli wartość jest powyżej górnej lub poniżej dolnej gra rzy nie mają choroby, d ma wyniki testu negatywne
nicy, uważamy ją za nienaturalnie wysoką (lub niską) w po (prawdziwie ujemne), a b ma dodatnie wyniki testu (fał
równaniu ze zdrowymi osobnikami. szywie dodatnie).
Obliczanie przedziałów odniesienia Określenie wiarygodności: czułość i swoistość

Można to robić na dwa sposoby. Czułość = proporcja osobników z chorobą, prawidłowo wy
• Zakładamy, że dane mają rozkład normalny. Około 95% krytych przez test
wartości danych leży w obrębie 1,96 odchylenia standardo a
wego od wartości średniej (rozdział 7). Używamy naszych (a+ c) '
danych do obliczenia tych dwóch granic (średnia ±1,96 x od
chylenie standardowe). Specyficzność = proporcja osobników bez choroby, prawi
dłowo wykrytych przez test
• Alternatywnym podejściem, które nie zakłada żadnego
warunku wstępnego o rozkładzie pomiarów, jest użycie za d
kresu centralnego, który obejmuje 95% wartości danych (roz (b+d)'
dział 6). Układamy nasze wartości w kierunku rosnącym
i jako nasze granice przyjmujemy 2,5 oraz 97,5 percentyl. Wartości te są zwykle wyrażane w procentach. Tak jak
w przypadku wszystkich estymatorów, powinniśmy dla tych
Wpfyw pozostałych czynników miar wyznaczyć przedziały ufności (rozdział 11).
na przedziały odniesienia Chcielibyśmy, aby zarówno czułość, jak i specyficzność
Czasami wartości zmiennej numerycznej zależą od innych były tak bliskie 1 (lub 100%), jak to możliwe. Jednakże
czynników, takich jak wiek i płeć. Ważne jest, by interpretować w praktyce możemy zwiększać czułość kosztem specyficzno
poszczególne wartości dopiero po uwzględnieniu pozostałych ści i vice verscL To, czy naszym celem będzie duża czułość,
czynników. Na przykład, przedziały odniesienia dla skurczowe czy specyficzność, zależy od warunków, które staramy się
go ciśnienia krwi tworzymy osobno dla mężczyzn i kobiet. wykryć, oraz od tego, jakie konsekwencje ma dla pacjenta
i/lub populacji uzyskanie wyników testu fałszywie ujem
nych lub fałszywie dodatnich. W przypadku chorób, które się
TESTY DIAGNOSTYCZNE łatwo leczy, wybieramy wysoką czułość; w przypadku po
Test złotego standardu, który pozwala na ostateczną diagno ważnych i nieuleczalnych wybieramy wysoką specyficzność
zę w szczególnej sytuacji, może czasami być niepraktyczny w celu uniknięcia postawienia diagnozy fałszywie dodatniej.
lub nie dawać się stosować w rutynowej pracy. Wolelibyśmy Jest rzeczą istotną, by przed skriningiem badani zrozumieli
104 Zagadnienia dodatkowe

implikacje dodatniej diagnozy, jak i rozumieli, czym są czę Krzywe ROC
stości fałszywie dodatnie i fałszywie ujemne testu. Krzywe ROC (ang. recewer operating characteristic curves)
określają, czy dany typ testu daje użyteczną informację i czy
Wartości predykcyjne może być użyty do porównania dwóch różnych testów oraz do
Dodatnia wartość predykcyjna = proporcja osobników z po wybrania optymalnej dla testu wartości odcięcia.
zytywnym wynikiem testu, Dla danego testu bierzemy pod uwagę wszystkie punkty
którzy mają chorobę odcięcia dające niepowtarzalne wartości czułości i swoisto
ści oraz wykreślamy czułość w funkcji (jeden — specyficzno
ści), porównując w ten sposób prawdopodobieństwa dodat
niego wyniku testu u tych, którzy mają jednostkę chorobową
Ujemna wartość predykcyjna = proporcja osobników z ujem lub jej nie mają, oraz łączymy je liniami (rycina 38.1).
nym wynikiem testu, którzy Krzywa ROC dla mającego jakąś przydatność testu bę
nie mają choroby dzie leżała na lewo od przekątnej (tj. linii pod kątem 45°). Za
leżnie od implikacji wyników fałszywie dodatnich i fałszywie
ujemnych oraz rozpowszechnienia choroby możemy z tego
rysunku wybrać optymalną wartość odcięcia dla testu. Moż
Dla tych wartości predykcyjnych obliczamy przedziały uf na porównać dwa lub więcej testów dla tej samej choroby po
ności, często wyrażone w procentach, stosując metody opisa przez badanie pola pod każdą krzywą; pole to obliczone jest
ne w rozdziale 11. przy użyciu statystyki C (dostępnej w wielu pakietach staty
Wspomniane wartości predykcyjne dostarczają informa stycznych). Skutki choroby lepiej różnicuje test z większym
cji o tym, jakie jest prawdopodobieństwo, że osobnik miał polem powierzchni (tj. z większą statystyką C).
chorobę lub jej nie miał, mając takie a nie inne wyniki testu.
Wartości predykcyjne są zależne od rozpowszechnienia cho Czy test jest przydatny?
roby w badanej populacji. W populacjach, gdzie choroba jest Iloraz wiarygodności (LR — likelihood rado) dla wyniku
powszechna, dodatnia wartość predykcyjna testu będzie dodatniego jest stosunkiem szansy wyniku dodatniego u pa
znacznie wyższa niż w populacjach, gdzie choroba jest rzad cjenta mającego chorobę do szansy wyniku dodatniego
ka. Odwrotna sytuacja zachodzi w przypadku ujemnych war u pacjenta nie mającego choroby (patrz także rozdział 32).
tości predykcyjnych. Ilorazy wiarygodności można również zbudować dla nega
tywnych wyników testu. Na przykład, LR = 2 dla wyniku do
Użycie wartości odcięcia datniego wskazuje, że wynik dodatni jest dwa razy bardziej
Czasami chcemy postawić diagnozę na podstawie pomiaru prawdopodobny u osobnika mającego chorobę niż u osobnika
ciągłego. Często nie ma progu, powyżej (lub poniżej) którego nie chorującego na tę chorobę. Wysoki iloraz wiarygodności
choroba zawsze się pojawia. W tych sytuacjach sami musimy dla wyników dodatnich wskazuje, że test niesie użyteczną
zdefiniować wartość odcięcia, powyżej (lub poniżej) której informację, dając stosunek wiarygodności bliski zero dla wy
uznajemy, że osobnik ma bardzo dużą szansę bycia chorym. ników ujemnych.
Praktycznym sposobem jest użycie górnej (lub dolnej) Można pokazać, że:
granicy przedziału odniesienia. Możemy wyznaczyć taką
wartość odcięcia przez wyznaczenie związanej z nią czuło LR dla wyniku dodatniego =
ści, swoistości i wartości predykcyjnych. Jeżeli wybierzemy
inne wartości odcięcia, wartości te będą mogły ulec zmianie,
w miarę jak przyjmować będziemy mniej lub bardziej suro Tę wartość LR omawiamy w ramach metod Bayesowskich
we kryteria. Wybieramy wartość odcięcia tak, by optymali w Rozdziale 45.
zowała wspomniane miary zgodnie z naszymi potrzebami.
38. Narzędzia diagnostyczne 105

PRZYKŁAD
Wirus cytomegalii (CMV) jest powszechnym schorzeniem Dla tej wartości odcięcia mamy więc stosunkowo wyso
wirusowym, na które w dzieciństwie zapada około 50% ką swoistość, a umiarkowaną czułość. Wartość LR równa
osobników. Chociaż infekcja wirusem nie prowadzi do żad 2,6 wskazuje, że test ten jest użyteczny z tego względu, że
nych większych problemów, osoby, które zostały zainfeko wynik obciążenia wirusem > 4,5 log10 genomów/ml jest
wane w przeszłości CMV, mogą doświadczyć poważnych przeszło dwa razy bardziej prawdopodobny u osobników
chorób po pewnych procedurach transplantacyjnych, ta- z ciężką chorobą niż u tych bez ciężkiej choroby. Jednakże
kinh jak transplantacja szpiku kostnego, gdy ich własny w celu zbadania innych wartości odcięcia wykreślono
wirus ulegnie reaktywacji lub zostaną powtórnie zakażone krzywą ROC (ryc. 38.1). Wykreślona krzywa przebiega na
przez dawców. Powstał pomysł, że ilość wirusa w ich krwi lewo od przekątnej. W naszym przykładzie najbardziej
po transplantacji (obciążenie wirusem) może prognozować, użyteczną wartością odcięcia (5,0 log10 genomów/mi) jest
esy osobnik będzie ciężko chorował. W celu zbadania tej ta, która daje czułość 40% i swoistość 97%; wówczas war
potezy zmierzono obciążenie wirusem CMV w grupie 49 tość LR równa się 13,3.
pAćjóntow, którym przeszczepiono szpik kostny.
U piętnastu spośród 49 pacjentów w trakcie obserwa
cji rozwinęta sie ciężka choroba. Wartości obciążenia wiru
sem ii wszystkich pacjentów wahały się od 2,7 log10 geno
mów/ml rio fi,0 logI0 genomów/ml. W chwili początkowej
wartości przekraczające 4,5 k>g10 gcnomów/ml uznano za
wskazówkę możliwego w przyszłości rozwoju choroby.
Uzyskano wyniki przedstawia tablica częstości; w ramce
umieszczono wartości estymatorów badanych miar.
Ciężka choroba
Obciążenie w i r u s e m
(log,fl genomów/ml) Tak Nie Razem
s.4,5 7 6 13
£4.5 8 28 36
Razem 15 34 49
Prewalcncja = (15/49) x 100% = 31% (95% CI 18% do 45%). Rycina 38.1. Krzywa ROC wyjaśniająca wyniki dla dwóch możli
flzufcw; = (7/15) x 100% = 47% (95% CI 22% do 72%). wych wartości odcięcia, optymalnej i stosowanej w testach diagno
stycznych.
Swoisiość = (28/34) x 100% = 82% (95% CI 69% do 95%).
Wartość prognostyczna dodatnia = (7/13) x 100% = 54%
m%az7%óo8m.
Wartość prognostyczna ujemna = (28/36) x 100% = 78%
(95% CI 65% do 92%).
Stosunek wiarygodności dla wyniku dodatniego =
0,47/(1-0,82) = 2,6 (95% CI 1,1% do 6,5%, uzyskane
z wydruku komputerowego).
Dano uzyskane dzięki uprzejmości: prof. V. C. Emery i dr D. Gor, Department of Virology, Royal Free and University College Medical School,
Londyn, Wielka Brytania.

39 SZACOWANIE ZGODNOŚCI
WSTĘP Często jednak zgodność otrzymana z kappa1 jest opisy

wana jako:
Często zdarza się, że chcemy porównać wyniki, które powin
ny być zgodne. W szczególności możemy chcieć ocenić i, jeśli
to możliwe, oszacować dwie formy zgodności lub rzetelności:
• Odtwarzalność (zgodność metody/obserwatora). Czy
dwie techniki użyte do zmierzenia pewnej zmiennej, w iden
tycznych warunkach dają takie same wyniki? Czy dwóch lub
więcej obserwatorów, stosując te same metody pomiaru, Chociaż można ocenić błąd standardowy dla kappa, zwykle
otrzymuje takie same rezultaty? nie testujemy hipotezy, że kappa jest równa zero, gdyż w ba
• Powtarzalność. Czy pojedynczy obserwator otrzymuje daniach rzetelności nie jest to ani sensowne, ani realistyczne.
takie same wyniki, gdy powtarza zbieranie wyników w iden Zauważmy, że kappa jest zależna zarówno od liczby kate
tycznych warunkach? gorii (tj. jej wartość jest większa, gdy mamy mniej kategorii),
Do oceny odtwarzalności i powtarzalności można podejść jak i prewalencji choroby, należy zatem być ostrożnym przy
w ten sam sposób. W każdym przypadku metoda analizy zale porównywaniu kappa z różnych badań. Dla danych porządko
ży od tego, czy zmienna jest kategorialna (np. slaby, średni, wych możemy również wyznaczyć kappa ważoną2, która bie
dobry), czy też numeryczna (np. ciśnienie skurczowe krwi). rze pod uwagę, w jakim stopniu obserwatorzy nie są zgodni
Dla uproszczenia ograniczymy się jedynie do problemu porów (częstości poza przekątną), jak i częstości odpowiecki 2god-
nywania wyników sparowanych (tj. dwie metody/dwóch ob nych (wzdłuż przekątnej). Ważona kappa jest bardzo podob
serwatorów/podwójne pomiary). na do wewnątrzklasowego współczynnika korelacji (patrz
następna część i Rozdział 42).
ZMIENNE KATEGORIALNE
ZMIENNE NUMERYCZNE
Przypuśćmy, że dwóch obserwatorów ocenia stopień ciężkości
choroby tych samych pacjentów, używając kategorialnej skali Przypuśćmy, że obserwator dokonuje podwójnych pomiarów
pomiarowej, a my chcemy ocenić, w jakim stopniu są oni zgod zmiennej numerycznej u n osobników (gdy rozważamy po
ni. Przedstawiamy wyniki w dwuwymiarowej tablicy kontyn- dobny problem zgodności metod, zastępujemy tylko słowo
gencji częstości z wierszami i kolumnami wskazującymi kate „powtarzalność" przez „odtwarzalność", pamiętając o okre
gorie odpowiedzi dla każdego obserwatora. Tablica 39.1 zawie śleniu powtarzalności każdej z metod przed przeprowadze
ra przykładowe wyniki oceny powierzchni zębowych przez niem badania zgodności metody).
dwóch obserwatorów. Częstości przypadków, w których obser • Jeżeli średnia różnica między podwójnymi pomiarami
watorzy są zgodni, ukazano wzdłuż przekątnej tablicy. Obli wynosi zero (oszacowana testem t dla zmiennych powiąza
czamy odpowiadające im częstości, których należałoby się spo nych, testem znaków lub testem rangowanych znaków — roz
dziewać, gdyby kategoryzacji dokonywano w sposób losowy, działy 19 i 20), możemy wnioskować, że nie istnieje systema
w taki sam sposób, jak obliczaliśmy częstości oczekiwane tyczna różnica między parami wyników; jeżeli jeden zbiór
w teście Chi-kwadrat dla zależności (rozdział 24) — tzn. każ odczytów reprezentuje prawdziwe wartości, jak to zdarza się
da wartość oczekiwana jest iloczynem odpowiednich sum w badaniach porównujących metody, oznacza to, że nie ma ob
brzegowych wierszowych i kolumnowych, podzielonym przez ciążenia. Wówczas pomiary podwójne są przeciętnie zgodne.
sumę całkowitą. Następnie mierzymy zgodność za pomocą • Oszacowane odchylenie standardowe dla różnic (sd) da
wzoru: je miarę zgodności dla osobnika. Jednakże częściej oblicza
się współczynnik powtarzalności Brytyjskiego Instytutu
Standaryzacji = 2sd. Jest to największa różnica, która może
się pojawić między dwoma pomiarami. Przyjmując rozkład
normalny różnic, oczekujemy, że w przybliżeniu 95% różnic
w populacji leży pomiędzy d ± 2sd, gdzie d jest średnią ob
który daje poprawioną szansę proporcjonalnej zgodności, serwowanych różnic. Granice górna i dolna tego przedziału
gdzie: nazywane są granicami zgodności; możemy na ich podsta
• m = całkowita częstość obserwowana (np. całkowita liczba wie zadecydować (subiektywnie), czy zgodność między para
pacjentów). mi odczytów jest do zaakceptowania.
• s u m a obserwowanych częstości wzdłuż przekątnej. • Indeks rzetelności, stosowany często do mierzenia po
• suma oczekiwanych częstości wzdłuż przekątnej. wtarzalności i odtwarzalności, jest współczynnikiem kore
• 1 w mianowniku reprezentuje maksymalną zgodność. lacji wewnątrzklasowej (ICC — intraclass correlation coef-
ficient, rozdział 42), który przybiera wartości od zera (brak
K = 1 oznacza pełną zgodność, a« = 0 sugeruje, że zgodność
nie jest lepsza od tej, którą uzyskalibyśmy przypadkowo.
Nie ma obiektywnych kryteriów do oceny wartości pośred 1
Landis J. R, Koch G. G.: The measurement ofobserver agreement
nich. for categorical data. Biometrics 1977, 33, 159-174.
2
Cohen J.: Weighted Kappa: nominał scalę agreement with provi-
sionfor scalę disagreement or partia! credit. Psychological Bulletin,
1968, 70, 213-220.
39. Szacowanie zgodności 107

zgodności) do 1 (idealna zgodność). Gdy mierzymy zgodność punktów (jednakowo rozłożony powyżej i poniżej zera, gdy
między parami obserwacji, ICC jest proporcją zmienności brak jest systematycznych różnic między parami), wtedy
w obserwacjach wynikającą z różnicy między parami, tj. wa można przyjąć pojedynczą miarę powtarzalności. Jednakże
riancja między parami, wyrażoną jako proporcja całkowitej jeżeli obserwujemy efekt lejka, ze wzrastającą (na przykład)
•wariancji obserwacji. zmiennością różnic dla większych wartości średnich, wtedy
Gdy nie ma dowodu na istnienie systematycznych różnic należy problem rozpatrzyć ponownie. Możemy znaleźć odpo
między parami, możemy obliczyć ICC jako współczynnik ko wiednią transformację surowych danych (rozdział 9) i gdy
relacji Pearsona (rozdział 26) pomiędzy 2n parami obserwa powtórzymy procedurę na obserwacjach przetransformowa-
cji uzyskanymi przez dwukrotne włączenie każdej pary: raz, nych, wymagany warunek zostanie spełniony. Możemy też
gdy wartość jest obserwowana, i raz, gdy podlegają one wy użyć wykresu do wykrycia wartości skrajnych (rozdział 3).
mianie (patrz przykład 2). • Należy zachować ostrożność przy obliczaniu współ
Gdy chcemy wziąć pod uwagę systematyczną różnicę czynnika korelacji (rozdział 26) pomiędzy dwoma zbiorami
między obserwacjami w parze, obliczamy ICC jako: odczytów (na przykład z pierwszego i z drugiego zdarzenia
lub z dwóch metod/obserwatorów). W rzeczywistości nie in
teresuje nas, czy punkty na diagramie rozrzutu (np. wyni
ków z pierwszego zdarzenia, wykreślonych w funkcji tychże
z drugiego zdarzenia) leżą na linii prostej; chcemy wiedzieć,
^dzie obliczamy różnice i sumy obserwacji w każdej z n par czy dostosowują się one do linii równoważności (tj. linii pod
i gdzie; kątem 45°, gdy obie skale są takie same). Nie możemy tego
jest oszacowana wariancją z n sum; ustalić, testując hipotezę zerową, że prawdziwy współczyn
jest oszacowaną wariancją z n różnic; nik korelacji jest równy zero. W każdym razie, ze względu
na naturę badania, byłoby niezwykle dziwne, gdyby pary po
jest oszacowana średnią z różnic (estymatorem różnicy
miarów nie były powiązane. Co więcej, pamiętajmy o fakcie,
systematycznej).
że możliwy jest wzrost wielkości współczynnika korelacji na
Zazwyczaj przeprowadzamy badanie rzetelności jako
skutek zwiększenia zakresu wartości pomiarowych.
cześć większego eksperymentu badawczego. Próba użyta do
badania rzetelności powinna stanowić odbicie próby użytej
Sytuacje bardziej złożone
do te^o eksperymentu. Nie powinniśmy porównywać warto
Czasami, oceniając zgodność, napotykamy bardziej złożone sy
ści ICC w różnych zbiorach danych, gdyż na ICC mają wpływ
tuacje. Na przykład, możemy mieć do czynienia z więcej niż
takie cechy danych, jak zmienność (ICC będzie większe, gdy
dwoma pomiarami powtarzanymi łub więcej niż dwoma ob
obserwacje są bardziej zmienne). Co więcej, ICC nie jest
serwatorami, lub każdy z zespołu obserwatorów może wyko
związane z aktualną skalą pomiarową oraz akceptowaną pod
nywać powtarzane pomiary. Szczegóły dotyczące analizy ta
względem klinicznym wielkością błędu.
kich zagadnień można znaleźć w pracy Streinera i Normana 4 .
Środki ostrożności
• Nie ma sensu obliczanie powtarzalności pojedynczego po 3
Bland J. M., Altman D. G.: Statistical methods for assessing
miaru, jeżeli stopień niezgodności obserwacji w parze zale agreement between two pairs of clinical m9asurement Lancet,
ży od wielkości pomiaru. Możemy to sprawdzić poprzez obli 1986, 307-310.
4
czenie średniej i różnicy w parach odczytów oraz przez wy Streiner D. R., Norman G. L.: Health measurement scales: A prac-
kreślenie n różnic w funkcji odpowiadających im śred tical guide to their development and use. Oxford University Press,
nich3 (rycina 39.1). Gdy zaobserwujemy losowy rozrzut tych Oxford 2003.
PRZYKŁAD 1
Ocena zgodności - zmienna kategorialna Okazuje się, że istnieje duża zgodność pomiędzy studen
Dwóch obserwatorów, doświadczony dentysta i student sto tem a doświadczonym dentystą w kodowaniu powierzchni
matologii, oceniło stan 2104 powierzchni zębowych u dzieci zębowych u dzieci.
w wieku szkolnym. Każda powierzchnia była kodowana Tablica 39.1. Częstości obserwowane (i oczekiwane) oceny po
przez każdego obserwatora jako „0" (zdrowa), „r (z co naj wierzchni zębowych.
mniej jednym „małym" ubytkiem), „2" (z co najmniej jed
nym „dużym" ubytkiem) lub „3" (z co najmniej jednym wy
pełnieniem, z ubytkami lub bez nich). Obserwowane często
ści pokazano w tablicy 39.1. Pogrubione pozycje wzdłuż
przekątnej pokazują częstości obserwowane oceny zgodnej;
odpowiadające im wartości oczekiwane znajdują się w na
wiasach. Obliczamy współczynnik kappa Cohena w celu
określenia zgodności pomiędzy dwoma obserwatorami.
Oszacowanie kappa Cohena:
Dane otrzymane dzięki uprzejmości: dr R. D. Holt, Eastman Dental Institnte, University College London, Londyn, Wielka Brytania.

PRZYKŁAD 2
Oszacowanie zgodności — zmienne numeryczne (39, 41), (50, 49), (45, 42) oraz (25, 28). Jeżeli odwrócimy
Indeks poczucia własnej godności Rosenberga służy do kierunek w każdej parze, otrzymamy zestaw kolejnych
określania samooceny pacjenta. Wartość maksymalna in 5 par: (27, 30), (41, 39), (49, 50), (42, 45) oraz (28, 25).
deksu wynosi 50 (wysoka samoocena), jest sumą wartości Powtarzając ten proces dla pozostałych 20 par, otrzymamy
z dziesięciu pytań, każdego punktowanego od zera do pię 50 par, których użyjemy do ohliczenia współczynnika ko
ciu. Część badania, które analizowało skuteczność pewne relacji jako estymatora ICC.
go typu zabiegu chirurgicznego, usuwającego deformację Skoro różnica między powtórzonymi pomiarami wynosi
twai-ny, została poświęcona zmianie profilu psychologicz najprawdopodobniej około 3,7 i skoro niemal calu zmien
nego pacjenta poprzez porównanie wartości indeksu Ro ność w wynikach (tj. 98%) może być przypisana różnicom
senberga przed operacją i po niej. Badaczy interesowało, między pacjentami, badacze ocenili, że indeks Roscnbcrga
dn jakiego stopnia punktacja Rosenberga jest wiarygodna był wiarygodny i użyli go do określenia odczucia pacjentów
dla zespołu pacjentów, i postanowili określić powtarzal co do efektywności chirurgii twarzy.
ność pomiaru na pierwszych 25 pacjentach wymagających
leczenia deformacji twarzy. Mierzyli oni wartości indeksu Tablica 39.2. Wartości indeksu Rosetiberga (pierwszy i drugi) uzy
Rosenberga podczas pierwszego pojawienia się w klinice, skane dla 25 pacjentów przed leczeniem.
a następnie przy drugim przyjęciu, 4 tygodnie później. Wy
niki zosuily przedstawione w tablicy 39.2.
Można pokazać, że różnice (wartość pierwsza — war
tość druga) mają w przybliżeniu rozkład normalny; średnią
1 odchylenie standardowe = 1,83. Statystyka
dla testu /dla zmiennych powiązanych wynosi 1,53 (liczba
stopni swobody = 24) i daje P = 0,14. Ten nieistotny staty
stycznie wynik wskazuje na to, że nie ma dowodu na istnie
nie systematycznych różnic [X)między wynikami w obu sytu
acjach. Współczynnik powtarzalności Brytyjskiego Instytutu
Standaryzacji wynosi = 2 x 1,83 = 3,7. Spodziewamy się,
że w przybliżeniu 95% różnic w populacji takich pacjentów
leży pomiędzy tj. pomiędzy -3,1 i 4,3. Granice te za
znaczono na rycinie 39.1, pokazującej, że różnice są losowo
rozproszone wokół średniej równej około zero. Indeks rzetel
ności oszacowano jako
Skoro można zaniedbać istnienie systematycznych róż

nic, wartość ICC jest taka sarna jak ta, którą otrzymamy,
licząc współczynnik korelacji Pearsona z 50 par wyników,
otrzymanych przez wzięcie każdej pary dwukrotnie, Rycina 39.1. Różnica pomiędzy pierwszą i drugą wartością indek
w tym raz w kierunku odwróconym. Jako ilustrację tej su Rosenberga poczucia własnej godności — wartości wykreślone
techniki weźmy 5 par wartości przed leczeniem: (30, 27), w funkcji ich średniej dla 25 pacjentów.
Cunningham S. J., Hunt N. R, Feinnman C: Perceptions of outcome followłng othognathic surgery. British Journal of Orał and MaxiIlo-
facial Surgery 1996, 34, 210-213.
39. Szacowanie zgodności 109

40 MEDYCYNA POPARTA DOWODAMI (EBM)
Sackett i in.1 opisują medycynę popartą dowodami (EBM) 4. WYCIĄGANIE NAJBARDZIEJ UŻYTECZNYCH
jako „sumienny, formalny i rozsądny użytek z aktualnych, WYNIKÓW I OKREŚLANIE, CZY SĄ ONE
najlepszych dowodów w podejmowaniu decyzji na temat
WAŻNE
opieki nad indywidualnym pacjentem". W celu praktykowa
nia EBM musisz umieć odnaleźć badania związane z proble Wyciąganie najbardziej użytecznych wyników
mem opieki nad twoimi pacjentami i ocenić ich jakość. Tylko Powinieneś postawić następujące pytania:
wtedy możesz myśleć o stosowaniu tych wniosków w prak (a) Co jest główną zmienną wynikową (tj. tą, która wiąże się
tyce klinicznej. z głównym celem)?
Sackett i in. sugerują następujące podejście do EBM. Dla (b) Jak wielki jest badany efekt, wyrażony przez główną
wygody trzeci i czwarty punkt opisaliśmy w kontekście eks zmienną wynikową? Jeżeli zmienna jest:
perymentów klinicznych (rozdział 14) i badań obserwacyj • Binarna (np. zmarł/przeżył)
nych (rozdziały 15 i 16), lecz można je zmodyfikować tak, aby (i) Jakie są częstości/ryzyko/szanse pojawienia się tego
pasowały do innych form badań (np. testów diagnostycznych, zdarzenia (np. śmierci) w (dwóch) porównywanych
rozdział 38). grupach?
(ii) Badany efekt może być różnicą częstości lub ryzyka
(redukcja bezwzględna) albo stosunkiem (ryzyko
1. SFORMUŁUJ PROBLEM względne lub iloraz szans) — jaka jest jego wielkość?
Musisz zdecydować, co cię interesuje — jak definiujesz po • Numeryczna (np. skurczowe ciśnienie krwi)
pulację pacjentów, jakie zabiegi (np. leczenie) lub porówna (i) Jaka jest średnia (lub mediana) wartości w każdej
nia są odpowiednie oraz jakiego oczekujesz wyniku (np. z porównywanych grup?
zmniejszonej śmiertelności). (ii) Jaki jest badany efekt, np. różnica w średnich (media
nach)?
(c) Jak dokładny jest badany efekt? W idealnej sytuacji pod
2. ZNAJDŹ ODPOWIEDNIĄ INFORMACJĘ dane szczegółowej analizie badanie zawiera przedział ufno
(NP, NA TEMAT DIAGNOZY, PROGNOZY ści dla prawdziwego efektu (szeroki przedział ufności wska
LUB TERAPII) zuje na słabą dokładność). Czy ten przedział jest podany? Je
żeli nie, to czy podano informacje wystarczające (np. błąd
Często można znaleźć potrzebną informację w publikacjach,
standardowy badanego efektu) do wyznaczenia przedziału
lecz należy wziąć pod uwagę również inne możliwości, np.
ufności?
abetrakty ze zjazdów. Musisz wiedzieć, jakie są dostępne ba
zy danych (np. Medline) i inne źródła dowodów, jak są one
Podejmowanie decyzji, czy wyniki są ważne
zorganizowane oraz jak posługiwać się wyszukiwarkami.
• Rozważ przedział ufności dla badanego efektu (np. różni
ce między średnimi w grupach leczenia):
3. KRYTYCZNIE OSZACUJ METODY (i) Czy będziesz traktować obserwowany efekt jako waż
W CELU OCENY WAŻNOŚCI DOWODU ny klinicznie (niezależnie od tego, czy wyniki stoso
(NA ILE JEST ON BLISKI PRAWDY) wanego testu hipotez są, czy nie są istotne statystycz
nie), jeżeli dolna granica przedziału ufności oznacza
Należy zadać następujące pytania. prawdziwą wartość efektu?
• Czy rozważono wszystkie ważne wyniki? (ii) Czy będziesz uważać obserwowany efekt za klinicznie
• Czy w badaniu został przeprowadzony odpowiedni do istotny, jeżeli górna granica przedziału ufności ozna
bór pacjentów? cza prawdziwą wartość efektu?
• Czy wyniki mają sens biologiczny? (iii) Czy twoje odpowiedzi na powyższe dwa punkty są
• Czy badanie zaprojektowano tak, że zostało wyelimino wystarczająco podobne, aby uznać wyniki badania za
wane obciążenie błędów systematycznych? Na przykład, jednoznaczne i ważne?
w eksperymentach klinicznych, czy badanie miało próbę kon • Aby ocenić leczenie w eksperymencie randomizowa-
trolną, czy przy przydzielaniu pacjentów użyto randomizacji, nym kontrolowanym, oblicz liczbę pacjentów, którzy muszą
czy ocena odpowiedzi była ślepa, czy pojawili się pacjenci podlegać leczeniu eksperymentalnemu (NNT — number of
„straceni" dla obserwacji, czy grupy były traktowane w po patients you need to treat) a nie leczeniu kontrolnemu, żeby
dobny sposób, poza tym, że otrzymywaty inne leczenie, czy jeden z nich nie otrzymał „złego wyniku" (takiego jak krwa
wykonano analizę „z zamiarem leczenia"? wienie poporodowe, patrz: przykład). NNT można wyznaczyć
• Czy metody statystyczne są odpowiednie (np. czy zwe na wiele sposobów, zależnie od dostępnej informacji. Na
ryfikowano leżące u ich podstaw założenia; czy w analizie przykład, jest ona równa odwrotności różnicy w proporcjach
wzięto pod uwagę zależności między danymi)? osobników z nieprawidłowym wynikiem w grupie kontrolnej
i eksperymentalnej (patrz: przykład).
1
Sackett D. L., Straus S., Richardson S., Rosenberg W., Haynes R. B.:
Evidence-based Medicine: How to Practice and Teach EBM. Chur-
chill-Livingstone, Londyn 2000.

5. WYKORZYSTAJ WYNIKI 6. OCEN SWOJĄ SKUTECZNOŚĆ
W PRAKTYCE KLINICZNEJ Samoocena zawiera pytania dotyczące twoich możliwości od
Jeżeli wyniki mają ci pomóc w opiece nad pacjentami, mu- niesienia sukcesu w realizacji zadań od 1 do 5. Czy masz
sisz upewnić się, że: wtedy możliwość zintegrowania oceny krytycznej z praktyką
• Twój pacjent jest podobny do tych, od których uzyska kliniczną oraz czy sprawdziłeś swoją skuteczność? Powinie
no 'wyniki; neś również zapytać siebie, czy na podstawie przeszłych do
• Wyniki mogą być zastosowane do twojego pacjenta; świadczeń wyciągnąłeś stosowne wnioski, jesteś teraz bar
• Wszystkie ważne klinicznie wyniki zostały rozważone; dziej efektywny i oceniasz cały proces EBM jako prostszy.
• Prawdopodobne zyski są warte potencjalnej szkody
i kosztów.
Adaptowane z pracy: Rogcrs J., Wood J., McCandish R., Ayers S., Truesdale A., Elbourne D.: Active versns expectant management oj
thirdstagc oflabour the Hinchmgbrooke jnndomised controlled trial. Lancet, 1998, 351, 693-699, za zgodą Elscvicr.
40. Medycyna poparta dowodami 111

41 METODY DLA DANYCH KLASTERYZOWANYCH
Dane klasteryzowane odpowiadają hierarchicznej lub zagnież rozdział 22) w celu porównywania grup, ponieważ metody te
dżonej strukturze, w której w najprostszej postaci (dwupozio nie biorą pod uwagę pomiarów powtarzanych na tym samym
mowa struktura jednej zmiennej) wartość pojedynczej zmien pacjencie. Co więcej, niepoprawne również jest porównywa
nej zależnej jest mierzona w zbiorze jednostek 1 poziomu za nie średnich w grupach osobno dla każdej chwili przy uży
wartych w różnych grupach lub klasterach (jednostki 2 pozio ciu testów f dla zmiennych niepowiązanych (rozdział 21) lub
mu). Na przykład, jednostki poziomu 1 i poziomu 2, to odpo jednoczynnikowej ANOVA, gdyż:
wiednio zęby w jamie ustnej, kolana u pacjentów, pacjenci • Pomiary u jednego pacjenta w różnych chwilach nie są
w szpitalu, kliniki w regionie, dzieci w klasie, daty kolejnych niezależne, tak że interpretacja wyników jest trudna. Na
Wizyt dla pacjenta (np. dane longitudinalne, rycina 41.1) etc. przykład, jeżeli porównanie jest istotne w jednym punkcie
Analiza statystyczna takich danych z powtarzanymi pomiara czasowym, prawdopodobne jest też istotne w innych punk
mi powinna brać pod uwagę fakt, że obserwacje w klasterze tach czasu, niezależnie od jakichkolwiek zmian w okresie
m^ mieć tendencję do skorelowania, tj. mogą nie być nie przejściowym.
zależne. Nieuznanie tego faktu zazwyczaj skutkuje niedosza • Duża liczba przeprowadzonych testów powoduje, że
cowaniem błędów standardowych badanych estymatorów prawdopodobne jest uzyskanie istotnych wyników tylko
i w konsekwencji zwiększa częstości wystąpienia błędu I ro przez przypadek (rozdział 18).
dzaju ora2 powoduje wyznaczenie zbyt wąskich przedziałów • Tracimy informacje na temat zmian zachodzących u da
ufności. nego pacjenta.
Aby to zilustrować, przyjmijmy w tym rozdziale, że mamy
dane longitudinalne, a nasze pomiary powtarzane obejmują
PORÓWNYWANIE GRUP:
wartości zmiennej dla każdego pacjenta w różnych chwilach,
tj. pacjent tworzy klaster. Podsumowujemy dane poprzez opi
ANALIZY PRAWIDŁOWE
sanie wzorców dla każdego pacjenta i poprzez określenie, czy Użycie miar podsumowujących
wzorce te różnią się pomiędzy dwoma lub więcej grupami pa Możemy oprzeć naszą analizę na mierze podsumowującej,
cjentów, która wychwytuje ważne aspekty danych i wyznacza taką
miarę podsumowującą dla każdego pacjenta. Typowymi mia
PREZENTACJA DANYCH rami podsumowującymi są:
• zmiana od wartości początkowej w określonej chwili;
Wykres pomiarów przeprowadzanych w badaniu u każdego • osiągnięcie wartości maksimum (pik) lub minimum (nadir);
pacjenta w różnych momentach pozwala na ocenę wzrokową • czas potrzebny do osiągnięcia wartości maksymalnej
wzorca w funkcji czasu. Gdy badamy tylko małą grupę pa (lub minimalnej);
cjentów, możliwe jest zamieszczenie wszystkich indywidual • czas potrzebny do osiągnięcia jakiejś innej, uprzednio
nych przebiegów na jednym wykresie. Staje się to jednak wyspecyfikowanej wartości;
trudne, gdy badamy duża grupę i możemy zilustrować wy • wartość przeciętna (np. średnia);
łącznie pewien wybór „reprezentatywnych", indywidualnych • pole pod krzywą (AUC, rycina 41.2);
przebiegów (rycina 41.3), prawdopodobnie przesianych dla • nachylenie i przecięcie linii regresji pacjenta (opisują
każdej grupy leczenia. Zwróćmy uwagę, że przeciętny wzór ce związek między pomiarem i czasem).
generowany przez wykreślenie średnich dla wszystkich pa Jeżeli parametr (np. średnia lub nachylenie) jest u niektó
cjentów w każdej chwili może różnić się od wzorów widocz rych pacjentów wyznaczony dokładniej niż u innych (prawdo
nych u indywidualnych pacjentów. podobnie dlatego, że mamy więcej obserwacji dla tych pacjen
tów), powinniśmy w analizie wziąć to pod uwagę, dając
wyższą wagę tym pomiarom, które są wyznaczone dokładniej.
PORÓWNYWANIE GRUP: ANALIZY
Wybór miary podsumowującej zależy od tego, co badamy,
NIEPRAWIDŁOWE i powinien być dokonany przed zebraniem danych. Na przy
Nieprawidłowe jest użycie wszystkich wartości w grupie do kład, jeżeli rozważamy stężenie leku po leczeniu dwoma te
dopasowania pojedynczej linii regresji (rozdziały 27, 28) lub rapiami, możemy wybrać czas potrzebny do osiągnięcia mak
wykonania jednoczynnikowej analizy wariancji (ANOVA; symalnej koncentracji leku (Cmax) lub AUC. Jednakże, gdy
Rycina 41.1. Graficzna prezentacja

dwupoziomowej hierarchicznej struk
tury dla badania longitudinalnego.

jesteśmy zainteresowani miareczkowaniem antyciai po szcze punktach czasowych różnice te stają się widoczne , można
1
pieniu, wtedy może nas interesować, po jakim czasie miano wykonać testy f dla zmiennych powiązanych, które biorą pod
antyciai spada poniżej określonego, ochronnego poziomu. uwagę zależności między danymi i mają wartości p skorygo
Porównujemy wartości miar podsumowujących w róż wane ze względu na wielokrotne testowanie (rozdział 18).
nych grupach, stosując standardowe testy hipotez [np. test Jednakże ANOVA z powtarzanymi pomiarami ma pewne
8umy rang Wilcoxona (rozdział 21) lub Kruskala-Wallisa niedoskonałości:
(rozdział 22)]. Ponieważ liczbę pomiarów zależnych dla jed • Jest często trudna do wykonania.
nego osobnika mamy zmniejszoną do pojedynczej wartości, • Wyniki mogą być trudne w interpretacji.
wartości uwzględnione w analizie są teraz niezależne. • Zakłada ogólnie, że wartości są mierzone w regular
Chociaż analizy oparte na miarach podsumowujących są nych odstępach czasu i nie ma danych brakujących, tj. zakła
proste do wykonania, trudną rzeczą może być znalezienie da, że projekt eksperymentu jest zbalansowany. W rzeczywi
odpowiQdniQj miary, która adekwatnie opisuje dane, więc stości wartości rzadko są mierzone we wszystkich chwilach,
czasami potrzebujemy dwóch lub więcej miar podsumowują gdyż pacjenci często opuszczają wizyty lub przychodzą kie
cych. W dodatku te podejścia nie w pełni wykorzystują dy indziej, niż to zaplanowano.
•wszystkie dane.
Metody regresji
ANOVA z powtarzanymi pomiarami Do analizy danych klasteryzowanych można używać różnych
Możemy wykonać szczególny typ ANOVA (rozdział 22), zwa metod regresyjnych, takich jak te, w wyniku których otrzy
ny ANOVA z powtarzanymi pomiarami, w której rozmaite muje się estymatory parametru z elastycznymi błędami stan
punkty czasowe są rozważane jako poziomy jednego czynni dardowymi lub w których wykorzystuje się uogólnione rów
ka w analizie, a zmienna grupująca jest drugim czynnikiem nania estymacyjne (GEE — generalised estimańng equnńorb
w analizie. ANOVA z powtarzanymi pomiarami możemy trak lub modele efektów losowych (patrz rozdział 42).
tować jako rozszerzenie testu r dla zmiennych powiązanych,
§dy mamy więcej niż dwie powiązane obserwacje. Jeżeli
w ANOVA z powtarzanymi pomiarami powstają istotne róż 1
Mickey R. M., Dunn O. J., Clark V. A.: Applied Statistics: Analysis
nice między grupami, wtedy w celu określenia, w których of Yariance and Regression. Wiley 2004.
Rycina 41.2. Obliczenie AUC dla pojedyn

czego pacjenta. Całkowite pole pod linią
może być podzielone na pewną liczbę prosto
kątów i trójkątów (oznaczonych od a do j).
Łatwo obliczyć pole każdego z nich. Pole
całkowite AUC = Pole (a) + Pole (b) + ... +
Pole (/).
PRZYKŁAD
W ramach praktycznych ćwiczeń zaprojektowanych w ce krzywą" (AUC) jako miary podsumowującej. Obliczenie
lu określenia efektów dwóch wziewnych leków rozszerza AUC dla jednego studenta ilustruje rycina 41.3.
jących oskrzela, bromowodorku fenoterolu i bromku ipra- Mediana (zakres) AUC wynosiła 1552,5 (417,5 - 3875),
tropium, 99 studentów medycyny zostało losowo przy 1215 (457,5 - 2500) oraz 1130 (547,5 - 2625) sekund2 od
dzielonych do grup otrzymujących jeden z leków (n = 33 powiednio u otrzymujących bromowodorek fenoterolu, bro
dla każdego leku) lub placebo (n = 33). W krótkim czasie mek ipratropium i placebo. Wartości w trzech grupach zosta
każdy student dokonywał czterokrotnej inhalacji. Drżenia ły porównane testem Kruskala-Wallisa, który dał wynik
oszacowywano poprzez pomiar całkowitego czasu po p = 0,008. Otrzymaliśmy zatem silny dowód na to, że miary
trzebnego do nanizania pięciu igieł do szycia zamocowa AUC różniły się w tych trzech grupach. Nieparametryczne
nych na korku: pomiary wykonywano w chwili początko porównania post-hoc, skorygowane ze względu na wielokrot
wej przed inhalacją oraz w 5, 15, 30, 45 i 60 minucie po ne testowanie, wskazały, że wartości były znacznie wyższe
inhalacji. Pomiary reprezentatywnej próby studentów w grupie otrzymującej bromowodorek fenoterolu, co po
w każdej z grup eksperymentalnych pokazane zostały na twierdza obserwację farmakologiczną, że ten lek jako agoni-
rycinie 41.2. sta • adrenoceptorów wzbudza drżenia poprzez stymulację
Zdecydowano się na porównywanie wartości „pola pod -adrenoceptorów w mięśniach szkieletowych.
Dane uzyskane dzięki uprzejmości: dr R. Morris, Department of Primary Care and Population Sciences, zebrane w ramach praktyk studenc
kich zorganizowanych przez dr T. J. Allen, Department of Pharmacology, Royal Free and University College Medical School, Londyn, Wielka
Brytania.
41. Metody dla danych klasteryzowanych 113

Rycina 41.3. Czas potrzebny do nawleczenia pięciu igieł do szycia przez trzech reprezentatywnych studentów W każdej grupie leczenia.

42 METODY REGRESJI DLA DANYCH
KLASTERYZOWANYCH
Do analizy dwupoziomowej struktury hierarchicznej, opisa MODELE EFEKTÓW LOSOWYCH
nej w rozdziale 41, w której każdy klaster (jednostka drugie 1
go poziomu) zawiera pewną liczbę jednostek z pierwszego Modele efektów losowych znane są również jako hierarchicz
poziomu, można użyć rozmaitych metod regresyjnych. Na ne, wielopoziomowe, mieszane, klasterowe lub przekrojowe
przykład, w badaniu reumatoidalnego zapalenia stawów mo modele szeregów czasowych. Można je dopasować za pomocą
żemy mierzyć kąt zgięcia zarówno na lewym, jak i na prawym różnych wszechstronnych komputerowych pakietów statystycz
kolanie (poziom 1) każdego pacjenta (poziom 2). Alternatyw nych, takich jak SAS czy Stata, lub programów specjalistycz
nie, możemy mieć zestaw danych longitudinalnych z pomiara nych, takich jak MLwiN (http://multileveI,ioe.ac.uk), Wszyst
mi (np. całkowitego cholesterolu) powtarzanymi (poziom 1) dla kie one wykorzystują estymację maksymalnej wiarygodności.
każdego pacjenta (poziom 2). Główne zalety i wady każdej Dla każdego z klasterów efekt szacuje się przy użyciu zarówno
z metod podsumowano w tablicy 42.1. Większość z tych me informacji z poszczególnych klasterów, jak i tej z pozostałych
tod jest niemiarodajna, chyba że mamy wystarczającą liczbę klasterów, tak że uzyskujemy zyski z „dzielonej" informacji.
klasterów, oprócz tego mogą być trudne do wykonania i pra W szczególności powszechnie wyznaczane są estymatory
widłowej interpretacji. Dlatego sugerujemy skonsultowanie kurczące, za pomocą których, stosując odpowiedni współczyn
ich ze specjalista statystykiem. nik kurczliwości, każdy badany estymator klasteru możemy
skurczyć w kierunku oszacowanej średniej całkowitej. Stopień
skurczenia zależy od wielkości klasteru (małe klastery mają
ANALIZA ZAGREGOWANYCH POZIOMÓW większy stopień skurczenia) i od zmienności danych (skurcze
Bardzo prostym podejściem jest zagregowanie danych i wy nie jest dla estymatorów większe, gdy zmienność w obrębie
konanie analizy przy użyciu odpowiedniej numerycznej mia klasteru jest duża w porównaniu z tą pomiędzy klasterami).
ry podsumowującej (np. średniej) dla każdego klasteru (np. Model efektów losowych traktuje klastery jako próbę
pacjenta, rozdział 41).Wybór tej miary podsumowującej za z rzeczywistej lub hipotetycznej populacji klasterów. Poszcze
leży od właściwości danych i badanych hipotez. Przeprowa gólne klastery nie stanowią głównego przedmiotu zaintereso
dzamy zwykłą wielokrotna analizę regresji metodą najmniej wania; przyjmuje się, że ogólnie są one podobne, a różnice
szych kwadratów (OLS), używając klasteru jako jednostki między nimi zostały spowodowane losową zmiennością lub in
badania i miary podsumowującej jako zmiennej wynikowej. nym „ustalonym" czynnikiem, takim jak płeć, wiek etc. Dwu
Jeżeli każdy klaster przyporządkowano konkretnemu trybo poziomowy model efektów losowych różni się od modelu nie
wi leczenia (w przykładzie z kolanem pacjent może być loso biorącego pod uwagę klasteryzacji tym, że chociaż oba
wo przyporządkowany do jednej z dwóch grup leczenia — uwzględniają błąd losowy lub niewyjaśniony z powodu zmien
z wykonywanymi ćwiczeniami lub bez nich), to wraz ze ności między jednostkami poziomu 1 (wariancja wewnątrz-
zmiennymi niezależnymi z innych poziomów klasterów (np. klasterowa, model efektów losowych dodatkowo włącza
płci, wieku) możemy do modelu regresyjnego włączyć „lecze błąd losowy wywołany zmiennością między klasterami (<rc£).
nie" jako zmienną ślepą, przy użyciu kodów 0 i 1 (lub przy Wariancja pojedynczej obserwacji w modelu efektów loso
użyciu serii ślepych zmiennych, gdy mamy więcej niż dwa wych jest zatem sumą obu składowych wariancji.
sposoby leczenia (rozdział 29).
Szczególne modele
Gdy zmienna wynikowa y jest numeryczna i istnieje jedna ba
ELASTYCZNE BŁĘDY STANDARDOWE dana zmienna wyjaśniająca x, prosty, liniowy, dwupoziomowy
Jeżeli w analizie regresji o strukturze dwupoziomowej nie model losowych przecięć zakłada, że istnieje związek liniowy
bierze się pod uwagę klasteryzacji, zostaje pogwałcone ważne między y i x w każdym klasterze, przy czym wszystkie klaste
założenie leżące u podstaw modelu regresji liniowej — nieza rowe linie regresji mają wspólne nachylenie /?, a różne prze
leżność obserwacji (patrz rozdziały 27 i 28). W konsekwencji cięcia (rycina 42. la). Średnia linia regresji ma nachylenie rów
błędy standardowe estymatorów parametrów będą najprawdo ne fi, a przecięcie równe a, które jest średnim przecięciem,
podobniej zbyt małe, a wyniki w sposób sztuczny istotne. uśrednionym po wszystkich klasterach. Błąd losowy (reszto-
W celu rozwiązania tego problemu możemy wyznaczyć wy) dla każdego klasteru jest wielkością, o jaką różni się
elastyczne błędy standardowe estymatorów parametru, w kierunku pionowym przecięcie linii regresji dla danego kla
wykorzystując do naszych obliczeń zmienność danych (osza steru od przecięcia średniego a (rycina 42.1a). Zakłada się, że
cowaną na podstawie odpowiednich reszt), zamiast oszaco reszty klasterowe podlegają rozkładowi normalnemu z zerową
wywać je na podstawie modelu regresji. W wielokrotnej średnią i wariancją W obrębie każdego klasteru przyjmu
analizie regresji z elastycznymi błędami standardowymi je się, że reszty dla jednostek poziomu 1 podlegają rozkładowi
estymatory współczynników regresji są takie same jak w re normalnemu z zerową średnią i z tą samą wariancją a2. Gdy
gresji liniowej OLS, lecz błędy standardowe są bardziej od wielkości klasterów są podobne, prostym sposobem zbadania
porne na pogwałcenie założeń leżących u podstaw analizy, co normalności i stałej wariancji reszt jest sprawdzenie normal
jest dla nas powodem szczególnego zmartwienia, gdyż kla- ności na histogramie reszt i wykreślenie reszt w funkcji war
steryzacja danych powoduje brak niezależności. tości prognozowanych (patrz rozdział 28).
1
Goldstein H.: Multilevel Statistical Models 3rd edn. Kendall Libra-
ry of Statistics 3, Arnold 2003.
42. Metody regresji dla danych klasteryzowanyeh 115

Model ten można modyfikować na wiele sposobów (patrz UOGÓLNIONE RÓWNANIA ESTYMACYJNE
także tablica 42.1), na przykład poprzez zezwolenie na loso
(GEE)
wa zmianę nachyleń fi między klasterami. Model ten jest
zwany modelem losowych nachyleń, w którym właściwe dla W GEE {generalized estimating equationsf korygujemy zarów
klasterów linie regresji nie są równoległe do średniej linii re no estymatory parametru GLM, jak i błędy standardowe ze
gresji (rycina 42.Ib). względu na klasteryzację danych w strukturze dwupoziomo
wej. Przyjmujemy założenia co do rozkładu zmiennej zależnej,
Oszacowanie efektu klasteryzacji lecz w przeciwieństwie do modelu efektów losowych, nie za
Efekt klasteryzacji można oszacować poprzez: kładamy, że reszty międzyklasterowe mają rozkład normalny.
• Obliczenie współczynnika korelacji wewnątrzklaso- Traktujemy klasteryzację jako niedogodność, ale nie koncen
wej (ICC — Intraclass correlation coofficient, czasami ozna trujemy na niej uwagi i postępujemy dalej, zakładając roboczą
czonej przez p — patrz również rozdział 39), który w struk strukturę dla korelacji między obserwacjami w obrębie każde
turze dwupoziomowej oznacza korelację między dwoma go klasteru. Nie musi ona być poprawna, gdyż zakładając, że
losowo wybranymi jednostkami poziomu 1 W jednym losowo mamy dostateczme wiele klasterów, elastyczne błędy standar
wybranym klasterze. dowe i estymatory parametrów są do zaakceptowania. Jednak
że otrzymamy lepsze estymatory parametru, gdy struktura bę
dzie wiarogodna. Zazwyczaj przyjmujemy wymienną struktu
rę korelacji, która zakłada, że wymiana dwóch jednostek po
ziomu 1 w obrębie klasteru nie zaburzy oszacowania.
ICC wyraża zmienność pomiędzy klasterami jako propor Podejście GEE jest czasami zwane podejściem uśrednie
cję catkowitGj wariancji; często wyrażany jest w procentach. nia populacji lub brzegowym, ponieważ estymatory parame
ICC = 1, gdy nie ma zmian w obrębie klasterów i cała wa tru oznaczają efekty uśrednione pomiędzy klasterami (mimo
riancja wynika ze zmienności między klasterami; ICC = 0, gdy iż cała informacja na temat jednostek 1 poziomu jest włą
brak jest zmienności między klasterami. Możemy użyć ICC do czona do analizy). Podejście GEE jest często preferowane
podjęcia subiektywnej decyzji na temat wagi klasteryzacji. w stosunku do bardziej złożonego modelu efektów losowych
» Porównanie dwóch modeli, z których jeden jest pełnym dla regresji logistycznej (rozdział 30) i czasami dla regresji
modelem efektów losowych, a drugi modelem regresyjnym z tą Poissona (rozdział 31), chociaż wiadomo, że struktura wy
samą zmienną wyjaśniającą (tymi samymi zmiennymi wyja miennej korelacji jest wówczas nieprawidłowa,
śniającymi), ale który nie bierze pod uwagę klasteryzacji. Od
powiedni test stosunku wiarygodności ma statystykę równą
różnicy stosunku wiarygodności obu modeli (patrz rozdział 32) * Liang K.-Y., Zeger 5. L.: Longitudinal data analysis usinggenera
i podlega rozkładowi Chi-kwadrat z jednym stopniem swobody. lized linear models. Biometrika 1986, 73, 13-22.
Tablica 42.1. Główne zalety i wady stosowania metod regresji do analizowania danych klasteryzowanych.
Metoda Zalety Wady

Analna • Prosta. • Nie pozwala na włączenie współzmiennych,
zatfregowariyc - Łatwa do przeprowadzenia przy użyciu podstawowego które zmieniają się dla poziomu 1.
poziomów oprogramowania. • Ignoruje różnice między wielkościami klasterów
i w dokładności oszacowania miary podeumo-
wującej każdego klasteru.
• Możemy nie być w stanie znaleźć odpowiedniej
zmiennej podsumowującej.
Elastyczne błędy • Stosunkowo prosta. • Niewiarygodny, chyba że liczba klasterów jest
standardowe • Pozwala na włączenie wspótzmiennych, które zmieniają się dla duża, na przykład > 30.
pozwalające na poziomu 1. • Nie koryguje estymatorów parametru ze wzglę
klasteryzację • Koryguje błędy standardowe, przedziały ufności i wartości p, du na klasteryzację.
z uwzględnieniem klasteryzacji.
• Pozwala na użycie różnej liczby jednostek poziomu 1 w klasterze.
Model efektów • W sposób jawny pozwala na klasteryzację poprzez włączenie do • Niewiarygodny, chyba że liczba klasterów jest
losowych modelu zarówno zmienności między-, jak i wewnątrzklasterowej. wystarczająca.
• Estymatory klasterowe korzystają z dzielonej informacji • Estymatory parametrów są często obciążone.
ze wszystkich klasterów. • Dla modeli rozbudowanych wymagane jest wy
• Koryguje błędy standardowe, przedziały ufności i wartości p, sokie doświadczenie w zakresie modelowania.
z uwzględnieniem klasteryzacji. • Problematyczne oszacowanie modelu efektów
• Pozwala na włączenie współzmiennych, które zmieniają się dla losowych dla modelu logistycznego.
poziomu 1.
• Pozwala na użycie różnej liczby jednostek poziomu 1 w klasterze.
• Pozwala na rozwinięcie hierarchii z dwu- do wielopoziomowej.
• Pozwala na dostosowanie różnych form GLM (np. Poissona).
GEE • Stosunkowo prosty. Niewiarygodny, chyba że liczba klasterów jest
• Nie są wymagane założenia na temat rozkładu efektów losowych duża, na przykład > 30.
(z powodu klasteryzacji). Traktuje klasteryzację jako niedogodność bez
• Pozwala na włączenie współzmiennych, które zmieniają się dla faktycznego znaczenia .
poziomu 1. Wymaga specyfikacji roboczej struktury
• Pozwala na użycie różnej liczby jednostek poziomu 1 w klasterze. korelacji .
• Koryguje błędy standardowe, przedziały ufności i wartości p, Oszacowane parametry są przeciętnymi dla kla
z uwzględnieniem klasteryzacji. steru i nie wiążą się z osobnikami w populacji .
* Te wady mogą czasami być traktowane jako zalety, zależnie od stawianego pytania.

Rycina 42.1. Dwupozio
mowe efekty losowe li
niowych modeli regresyj-
nych pojedynczej współ-
zmiennej.
(a) Model losowego przecięcia. Linia pogrubio (b) Model losowych nachyleń. Linia pogrubiona oznacza śred
na oznacza średnią linię regresji dla wszyst nią linię regresji dla wszystkich klasterów, a każda z cienkich
kich klasterów, a każda z cienkich linii — linię linii — linię regresji dla innego klasteru. Przecięcie linii regre
regresji dla innego klasteru. Przecięcie linii re sji specyficznych dla i-tego klasteru różni się od linii uśred
gresji specyficznych dla t-tego klasteru różni nionej o resztę = a nachylenia linii regresji specyficz
się od linii uśrednionej o resztę = gdzie nych dla i-tego klasteru różnią się od tego dla linii uśrednionej
reszty te są rozłożone zgodnie z rozkładem nor o resztę = gdzie reszty te są rozłożone zgodnie z rozkła
malnym ze średnią zero i wariancją Każda dem normalnym ze średnią zero i wariancjami odpowiednio
linia ma nachylenie =
PRZYKŁAD
Uans dotyczące choroby przyzębia uzyskano od 96 białych Estymatory współczynników regresji dla palenia i/lub We
mężczyzn, praKtykantów inżynieryjnych w wieku 16-20 dy standardowe zmieniają się zgodnie z typem wykonanej
laU locpocaynajijcych praktyki w Royal Air Force Halton analizy. Dwie analizy OLS mają identyczne estymatory
w Anglii (patrz takie rozdział 20). Przebadano cztery stro współczynników regresji (większe od uzyakanych z pozo
ny (dośrodkowo policzkową, dośrodkowo-językową, od- stałych trzech analiz), lecz ich błędy standardowe są róż
śrndkowo-poliezkowa oraz odśrodkowo- językową) każde ne. Błąd standardowy oszacowanych współczynników yyy
go z. możliwych 28 zębów (z wyjątkiem zębów mądrości) gresji w analizie OLS, która ignoruje klastoryzację, jest
u każdego praktykanta. Dla uproszczenia analizy rozważy znacząco mniejszy niż błędy standardowe z pozostałych
łyśmy podzbiór danych, na przykład (1) wyłącznie stronę czterech analiz, tzn. ignorowanie klasteryzacji powoduje
dośrodkowo-policzkową każdego zęba; daje to strukturę niedoszacowanie błędu standardowego współczynnika re
dwupoziomową w obrębie każdego obiektu (każdy obiekt gresji — w konsekwencji przedział ufności jest zbyt wąski,
odpowiada klasterowi); oraz (2) dwie badane zmienne: a wartość p zbyt mała. Współczynnik korelacji wewnątrz-
utratę przyczepu (loa, mierzoną w mm) pomiędzy zębem klastcrowej z modelu efektów losowych jest oszacowany
a kością szczękową, oszacowaną po stronie dośrodkowo- jako 0,224. Około 22% zmienności w utracie przyczepu,
-policzkowej, oraz aktualny status palenia papierosów przy uwzględnieniu palenia, zachodziło więc między prak
przez praktykanta (tak = 1, nie = 0). Chcemy zbadać, czy tykantami.
palenie jest czynnikiem ryzyka w chorobie dziąseł (gdzie W tym szczególnym przykładzie, na podstawie wszyst
większa utrata przyczepności oznacza cięższy stan choro kich pięciu analiz wnioskujemy, że palenie nie jest istotnie
bowy). Tablica 42.2 zawiera część wyników z rozmaitych związane z utratą przyczepu. Ten brak istotności dla pale
analiz regresyjnych, w których zmienną wynikową jest nia jest wynikiem niespodziewanym, ale można go wyja
utrata przyczepności (mm), a wspótzmienną — palenie. śnić tym, że praktykanci byli bardzo młodzi i palacze znaj
Pełny wydruk komputerowy zamieszczono w Dodatku C. dujący się między nimi palili przez krótki czas.
Tablica 42.2. Podsumowanie wyników analizy regresji, w których loa (mm) jest zmienną wynikową.
Oszacowany współ- Błąd stan- 95% CI dla Statystyka
Analiza czynnik (palący) dardowy (SE) współczynnika testowa* Wartość p
OLS ** regresja ignorująca klasteryzację -0,0105 0.0235 -0,057 do 0,036 r=-0,45 0,655
Regresja OLS z elastycznymi błędami
standardowymi -0,0105 0,0526 -0,115 do 0,094 i = -0,20 0,842
Analiza zagregowana (regresja OLS
na średnich grupowych) -0,0046 0,0612 -0,126 do 0,117 t=-0,07 0,941
Model efektów losowych -0,0053 0,0607 -0,124 do 0,114 2=-0,09 0,930
GEE z elastycznymi SE i wymienną
strukturą korelacyjną " -0,0053 0,0527 -0,108 do 0,098 z = -0,10 0,920
* t = statystyka testowa podlegająca rozkładowi t; z = statystyka testowa Walda podlegająca standaryzowanemu rozkładowi normalnemu.
** OLS = zwykła metoda najmniejszych kwadratów.
Dane otrzymane dzięki uprzejmości: dr Gareth Griffiths, Dept of Periodontology, Eastman Dental Institute. University College London,
Wielka Brytania.
42. Metody regresji dla danych klasteryzowanyeh 117

43 PRZEGLĄDY SYSTEMATYCZNE I METAANALIZA
PRZEGLĄD SYSTEMATYCZNY niego, wraz z oceną związanych z nim przedziałów ufności

i wyników testowania hipotez, mogą zostać użyte do podjęcia
Co to jest?
1
decyzji na temat badanej terapii i opieki nad pacjentami.
Przegląd systematyczny jest sformalizowanym i ściśle okre
ślonym procesem łączenia informacji ze wszystkich źródeł
Podejście statystyczne
(zarówno publikowanych, jak i niepublikowanych) dotyczą
1. Decydujemy, co jest efektem leczenia, i jeżeli dostępne sa
cych tej samej jednostki chorobowej; badania te są zazwyczaj
dane surowe, oszacowujemy go dla każdego badania. Jed
eksperymentami klinicznymi (rozdział 14) badającymi takie
nakże w praktyce często musimy te efekty wydobyć z wyni
same lub zbliżone procesy leczenia, lecz mogą też być bada
ków opublikowanych. Jeżeli wynik w eksperymencie klinicz
niami obserwacyjnymi (rozdziały 15 i 16). Przegląd systema
nym porównującym dwa sposoby leczenia jest:
tyczny stanowi integralną część medycyny popartej dowoda
• numeryczny — efekt może być różnicą w średnich le
mi (EBM; rozdział 40), która polega na tym, że w opiece nad
czenia. Różnica zerowa oznacza brak efektu leczenia;
pacjentem stosuje się najlepsze dostępne dane wraz z do
• binarny (np. zmarł/przeżył) — rozważamy na przykład
świadczeniem klinicznym. Jego rola w EBM jest tak ważna,
ryzyko wyniku (np. śmierci) w grupach leczenia. Efektem
ze stał się przedmiotem zainteresowania klinicystów, metodo
może być różnica w wartościach ryzyka lub ich stosunek RR,
logów i użytkowników z wielu krajów, którzy utworzyli Co
Jeżeli różnica w ryzyku równa się zero lub RR = 1, wtedy
chrane Collaboration. Powstała dzięki temu biblioteka Co
nie ma efektu leczenia.
chrane Library zawierająca regularnie uaktualniane bazy da
2. Sprawdzamy jednorodność statystyczną i otrzymuje
nych na temat opieki zdrowotnej popartej dowodami, włącza
my estymator statystycznej niejednorodności — z niejed
jąc w to Cochrane Database of Systematic Reviews — baza
norodnością statystyczną mamy do czynienia wtedy, gdy ist
przeglądów systematycznych Cochrane; pełny dostęp do tych
nieje realna zmienność pomiędzy wynikami pochodzącymi
przeglądów wymaga subskrypcji, lecz abstrakty są dostępne
z różnych badań. Możemy przeprowadzić testowanie hipote
bezpłatnie przez Internet (www.cochrane.org/reviews).
zy o jednorodności w celu zbadania, czy zmienność w indy
widualnych wynikach jest czysto losowa. Jednakże ten test
Co nam daje?
ma małą moc (rozdział 18) wykrycia niejednorodności, gdy
• Oczyszczenie i redukcję — wielkie porcje informacji liczba badań w metaanalizie jest mała, i odwrotnie, może da
zostają oczyszczone i zredukowane do wielkości umożliwia wać wysoce istotne wyniki, gdy metaanaliza obejmuje dużą
jących anali2ę. liczbę badań, nawet wtedy, gdy jest mało prawdopodobne, by
• Efficiency — przegląd systematyczny jest zwykle szyb niejednorodność zaburzyła wyniki. Do oszacowania wpływu
szy i mniej kosztowny niż przeprowadzenie nowego badania. niejednorodności i niezgodności 2 można użyć wskaźnika / 9
Może zapobiec podejmowaniu niepotrzebnych badań oraz (patrz przykład), który nie zależy od liczby badań, typu da
może zmniejszyć czas pomiędzy odkryciami medycznymi nych wynikowych lub wyboru efektu leczenia (np. ryzyka
a ich praktycznym zastosowaniem. względnego). Wartość I2 oznacza procent całkowitej warian
• Możliwość uogólnienia i spójność — często wyniki cji we wszystkich badaniach spowodowanej niejednorodno
można uogólnić na szerszą populację pacjentów, niż byłoby to ścią; przybiera wartości od 0% do 100%, z wartością 0%
możliwe na podstawie pojedynczego badania. Można oszaco wskazującą na brak niejednorodności. Gdy mamy dowód sta
wać spójność wyników z różnych badań i określić wszystkie tystycznej niejednorodności, powinniśmy postępować ostroż
niezgodności. nie, badając jej przyczyny i odpowiednio modyfikując nasze
• Wiarygodność — systematyczny przegląd pozwala na podejście, być może poprzez podzielenie badań na podgrupy
zredukowanie błędów i w ten sposób poprawia wiarygodność o podobnych charakterystykach.
oraz dokładność zaleceń w porównaniu z przeglądem przy 3. Szacujemy średni badany efekt (z przedziałami ufno
padkowym lub pojedynczymi badaniami. ści) i wykonujemy odpowiednie testy hipotez dla efektu
• Moc i dokładność — ilościowy przegląd systematyczny (np. że prawdziwe RR = 1) — możemy tu zastosować modele
(patrz metaanaliza) ma większą moc (rozdział 18) przy wy „efektów stałych" i „efektów losowych" (patrz także rozdział
krywaniu badanych efektów i dostarcza bardziej dokładnych 42). Gdy nie ma dowodu statystycznej niejednorodności, na
estymatorów niż pojedyncze badanie. ogół stosujemy model efektów stałych (zakładający, że efekt
leczenia jest taki sam w każdym badaniu i każda obserwo
wana zmienność jest wynikiem błędu próbkowania). W prze
METAANALIZA
ciwnym wypadku używamy modelu efektów losowych (za
Co to jest? kładający, że osobne badania reprezentują losową próbę
Metaanaliza jest szczególnym typem przeglądu systematyczne z populacji badań, która ma średni efekt leczenia, wokół któ
go, który skupia się na wynikach numerycznych. Głównym ce rego zmieniają się efekty leczenia z poszczególnych badań).
lem metaanalizy jest połączenie wyników z poszczególnych ba 4. Interpretujemy i opisujemy wyniki — pomocne jest
dań w celu stworzenia, o ile to możliwe, estymatora całościo podsumowanie w tablicy wyników każdego badania (np. wiel
wego lub przeciętnego badanego efektu, np. ryzyka względne kość próby, wyjściowa charakterystyka, badany efekt, taki
go, (RR — rozdział 15). Kierunek i wielkość tego efektu śred- jak RR, oraz odpowiadający mu przedział ufności CI, patrz
2
1
Chalmers I., Altman D. G.: Systematic Reviews. British Medical Jour Higgins P. T., Thompson S. G., Deeks J. J., Altman D. G.: Measu-
nal Publishing Group, Londyn 1995. ring inconsistency in meta-analysis. British Medical Journal, 2003,
237, 557-560.

przykład). Najczęściej stosowanym przedstawieniem graficz • Obciążenie publikacyjne — tendencja do włączania do
nym jest wykres „leśny" (rycina 43.1), na którym wzdłuż pio analizy wyłącznie wyników z prac publikowanych; te fawo
nowej linii prostej, oznaczającej „brak efektu leczenia" (np. ta ryzują wyniki statystycznie istotne. O tym, czy obciążenie
linia odpowiada wartości „jeden", gdy efektem leczenia jest publikacyjne stanowi problem, możemy przekonać się, rysu
RR), dla każdego eksperymentu zaznaczony zostaje badany jąc wykres lejkowy, diagram rozrzutu, który zwykle na osi
efekt (-wraz z przedziałem ufności). Często symbolem ilustru poziomej odwzorowuje wielkość próby, a na osi pionowej
jącym badany efekt dla każdego badania jest prostokąt, któ efekt leczenia (np. iloraz szans). Gdy nie ma obciążenia pu
rego powierzchnia jest proporcjonalna do wielkości tego blikacyjnego, rozrzut punktów (każdy punkt reprezentuje
badania. Najpierw analizujemy, czy oszacowane efekty z róż jedno badanie) na wykresie lejkowym będzie duży na dole,
nych badań leżą po tej samej stronie linii. Następnie możemy gdzie wielkość badania jest mała, i będzie się zawężał
użyć przed2iałów ufności do rozsądzenia, czy wyniki są zgod (w kształcie lejka) ku górze, gdzie wielkość badania jest
ne (jeżeli CI pokrywają się), co pozwoli nam stwierdzić, czy duża. W przypadku obecności obciążenia publikacyjnego
brak zgodności wyników można wyjaśnić małą wielkością wykres lejkowy będzie prawdopodobnie skośny lub niesyme
próby (gdy CI są szerokie) oraz ocenić istotności poszczegól tryczny, z luką po stronie dolnego lewego rogu, gdzie zarów
nych i całościowych efektów (poprzez obserwację, czy linia no efekt leczenia, jak i wielkość badania są małe (tj. gdy ba
pionowa przechodzi przez niektóre lub wszystkie CI). danie ma małą moc wykrycia małych efektów).
• Niejednorodność kliniczna — różnice między popula
Zaloty i wady cjami pacjentów, miarami wyników, definicjami zmiennych
Meta&naliza jest szczególną formą przeglądu systematycznego, i/lub czasem obserwacji w badaniach włączonych do anali
zawiera więc wszystkie jego zalety (patrz „Co nam daje?"). zy mogą stwarzać problemy polegające na tym, że badania te
W szczególności, ze względu na powiększoną liczebność pró nie dadzą się porównać.
by daje możliwość wykrycia efektów leczenia z większą mo • Różnice jakości — projekt i sposób przeprowadzenia
cą oraz oszacowania ich z większą dokładnością niż w poje badań może wpływać na ich jakość. Jakkolwiek rozwiąza
dynczym badaniu. Jej zalety, a także wprowadzenie oprogra niem tego problemu może być przydzielenie większej wagi do
mowania do metaanalizy, spowodowały rozpowszechnienie lepszych badań, każdy system wagowy można skrytykować
tej techniki. Jednakże jej nieprawidłowe użycie może prowa- za jego arbitralność.
d2ić do błędnych wniosków na temat skuteczności leczenia. • Zależność — włączone do analizy wyniki badań mogą
Przed wykonaniem metaanalizy należy dokładnie zbadać nie być niezależne, np. gdy wyniki z badania są publikowane
i roswiązać następujące, główne problemy. przy więcej niż jednej okazji.
PRZYKŁAD
Pacjenci z ciezką dusznicą są często kwalifikowani albo do ka, to wszystkie przedziały ufności do pewnego stopnia się
Wihicgi! przezskówicj naczyniowej angioplastyki wieńcowej pokrywają. Na bardziej formalne oszacowanie niejednorod
(PTCA), albo zabiegu pomostowania aortalno-wieńcowego ności pozwala test jednorodności Chi-kwadrat Coclu una,
(CABG). Wyniki z ośmiu publikowanych eksperymentów który daje wynik nieistotny (statystyka testu Q= 13,2, licz
randomizowanych połączono w jedną metaanalizę, opartą ba stopni swobody df= 8 - 1 = 7, p = 0,07). Jednakże I'
na :.«71 pacjentach (1661 CABG, 1710 PTCA), podlegają = 100 x (Q- dfi/Q= 100 x (13,2 - 7)/13,2 = 47% (95% CI
cych obserwacji średnio przez 2,7 lat. Główne wyniki ba od 0% do 76%), co sugeruje umiarkowaną niespójność ana
dań zestawiono w tablicy 43.1. Wyniki dla punktu końco liz i z czego wynika zalecenie ostrożnej interpretacji kom
wego złożonego ze śmierci sercowej oraz niezakończonego binowanego estymatora ryzyka względnego opartego na
.śmiercią zawału serca (MI) w pierwszym roku obserwacji wszystkich badaniach. Wspomniane ryzyko względne osza
pokazano na rycinie 43.1. Porównano oszacowane ryzyko cowano jako 1,03 (95% CI od 0,79 do 1,50), z czego wynika,
względne (RR) między grupami PTCA i CABG. Na rycinie że nie ma dowodu istnienia prawdziwej, całkowitej różnicy
wykorzystano dla RR skedę logarytmiczną, by uzyskać sy pomiędzy oboma strategiami rewaskularyzacji. Warto za
metryczne przedziały ufności (CI). Chociaż poszczególne es uważyć, że we wczesnych obserwacjach prewałencja obja
tymatory ryzyka względnego różnią się dość znacznie, od wów dławicy piersiowej była większa u pacjentów po PTCA
zmniejszenia ryzyka do całkiem znacznego wzrostu ryzy niż u pacjentów po CABG.
Rycina 43.1. Wykres „leśny" ryzyka względnego (RR) z 95% CI śmierci sercowej lub zawału serca dla grupy po PTCA w porównaniu
z grupą po CABG w pierwszym roku od randomizacji.
43. Przeglądy systematyczne i metaanaliza 119

Tablica 43.1. Charakterystyka ośmiu badań zrandomizowanych przezskóniej naczyniowej angioplastyki wieńcowej oraz zabiegu pomo-
stowania aorlalno-wieńcowego.
Liczba pacjentów
Główny Pojedynczo- lub Obserwacja
Kraj badacz wielonaczyniowe CABG PTCA (lata)
Badania nad rpwaskiilaryzaria metodami
<nig'oplasivlil! pomoMiowania (CADRI) Europa A. E. Rickards Wielo 513 541 1
F.kftperyme-nt rrmdomizowanej interwencji
W leczeniu dławicy piersiowej (RITA) UK J. R. Hampton Pojedynczo (n = 456) 501 510 4,7
Wielo (n - 555)
Eksperyment w Emory. Angioplastyka
vcraua fflhlrg pomosiowaiiia (KAST) USA S. B. King Wielo 194 198 3+
NicuucG&c iKuluuia iiud imgioplastyką
i BihiPgami pomofttowania (GABI) Niemcy C. W. Hamm Wielo 177 182 1
Kk«porymont i Tuluzy (Toulouse) Francja J. Puel Wielo 76 76 2,8
nadania Medycznej Anyioplasiyki
U> CMnirgi; (MASS Brazylia W. Hueb Pojedynczo 70 72 3,2
Eksperyment Lozański (Lausanno) Szwajcaria J.-J. Goy Pojedynczo 66 68 ó,Z
KkHpnrymonr Argentyński PTCA
versus CABG (ERACD Argentyna A. Rodikmez Wielo 64 63 3,8
Adapluwuuo L pracy; Focock S. J., Henderson R. A., Rickards A. E. i in.: A meta-analysis of randomised trials comparing coronary <m-
/swpkisty with hypass surgery. Lancet, 1995, 346, 1184-1189, za zgodą Elsevier.

44 ANALIZA PRZEŻYCIA
Dane przeżycia związane są z czasem, jaki zabiera osobniko z innych powodów niż AIDS. Takie dane określa się jako pra
wi osiągnięcie badanego punktu końcowego (często, lecz nie wostronnie ucięte. O tych pacjentach wiemy, że nie osiągnęli
zawsze, śmierci), i charakteryzują je dwie następujące cechy. punktu końcowego, kiedy po raz ostatni byli poddani obserwa
• Po pierwsze, jest to okres czasu, w którym pacjent cji, i ta informacja powinna zostać włączona do analizy.
osiąga stan końcowy, a nie fakt, czy osiągnął ten stan. Na Tam, gdzie obserwacja nie rozpoczęła się do czasu osią
przykład może nas interesować czas przeżycia przyjętych gnięcia daty odniesienia początkowej, czasy przeżycia mogą
pacjentów z marskością wątroby. być także lewostronnie ucięte.
• Często dane mogą być ucięte (patrz poniżej).
Standardowe metody analizy, takie jak regresja logistycz
na lub porównanie średniego czasu potrzebnego do osiągnię
PREZENTACJA DANYCH PRZEŻYCIA
cia stanu końcowego u pacjentów leczonych nową techniką • Dla każdego pacjenta narysowana jest osobna, pozioma li
i bez niej, mogą dawać mylące wyniki z uwagi na dane ucię nia, której długość wskazuje na czas przeżycia. Linie ryso
te. Dlatego, aby radzić sobie z takimi sytuacjami, opracowa wane są od lewej strony do prawej, a ci pacjenci, którzy osią
no pewną liczbę technik statystycznych, znanych jako meto gnęli punkt końcowy, mogą być odróżnieni od tych uciętych
dy analizy przeżycia1. różnymi symbolami umieszczonymi na końcu linii (rycina
44.1). Jednakże te wykresy nie podsumowują danych i trud
no jest ocenić przeżycie całościowo.
DANE UCIĘTE • Krzywe przeżycia, zwykle obliczane metodą Kaplana-
Czasy przeżycia oblicza się od pewnej daty bazowej, która od -Meiera, ukazują skumulowane prawdopodobieństwo (praw
zwierciedla naturalny „punkt startu" badania (na przykład dopodobieństwo przeżycia) osobników, którzy nie osiągnęli
czas zabiegu lub zdiagnozowania stanu), do czasu, gdy pacjent stanu końcowego w żadnym czasie od chwili początkowej (ry
osiąga badany punkt końcowy. Jednakże często możemy nie cina 44.2). Prawdopodobieństwo przeżycia zmieni się tylko
wiedzieć, kiedy pacjent osiągnął punkt końcowy, a jedynie to, wtedy, gdy pojawi się punkt końcowy, i dlatego powatająoa
C2y osiągnął punkt końcowy w czasie trwania badania. Na w ten sposób „krzywa" jest rysowana jako seria schodków.
przykład, w badaniu nowego leku pr2eciw infekcji HIV pacjen Alternatywna metoda obliczania prawdopodobieństwa prze
ci mogą nadal nie chorować na AIDS, gdy kończą badanie. Mo życia, przy użyciu tablic przeżycia, może zostać użyta, gdy
że tak się zdarcye, jeśli eksperyment skończy się, nim oni za czas do osiągnięcia punktu końcowego jest znany wyłącznie
chorują na AIDS, albo jeśli wypadną z badania przed zachoro w obrębie pewnego interwału czasowego (np. w obrębie roku).
waniem na AIDS, albo jeśli umrą przed końcem obserwacji Obliczanie prawdopodobieństwa przeżycia za pomocą każdej
z metod jest proste, lecz czasochłonne, i łatwo może być wy
konane przy użyciu większości pakietów statystycznych.
1
Collett D.: Modelling Survival Data in Medical Research. Chap
man and Hall/CRC, Londyn 2003.
PODSUMOWANIE PRZEŻYCIA
Często podsumowujemy przeżycie przez podanie prawdo
podobieństwa przeżycia (z przedziałami ufności) w pew
nych punktach czasowych na krzywej, na przykład, czę-
Lata po przyjęciu
Liczba w grupie ryzyka w każdej chwili
HVP6<16 46 33 22 11 9 5
Lata po przyjęciu WPG s 16 59 41 20 10 4 9
Rycina 44.1. Czasy przeżycia 105 pacjentów przyjętych z marsko Rycina 44.2. Krzywe Kaplana-Meiera pokazujące prawdopodobień
ścią wątroby. Kółka wypełnione wskazują pacjentów, którzy zmarli, stwo przeżycia po przyjęciu z powodu marskości wgtroby. wyrażone
kotka niewypełnione wskazują pacjentów, którzy żyli w momencie w procentach, po stratyfikacji na podstawie wyjściowego pomiaru
zakończenia obserwacji. HVPG.
44. Analiza przeżycia 121

stość przeżycia pacjentów 5 lat po leczeniu raka piersi. Al Do testowania niezależnych efektów pewnej liczby zmien
ternatywnie można podawać medianę czasu do osiągnięcia nych wyjaśniających (czynników) możemy użyć modelu pro
punktu końcowego (czas, który przekroczyło 50% osobni porcjonalnych hazardów wg Coxa. Ma on postać:
ków).
PORÓWNYWANIE PRZEŻYCIA gdzie kj(t) jest hazardem dla osobnika i w chwili

Czasami chcemy określić wpływ na przeżycie pewnej liczby jest arbitralnym hazardem bazowym (którym nie jeeteśmy za-
badanych czynników, na przykład leczenia, stopnia ciężkości interesowani), są zmiennymi wyjaśniającymi
choroby. Można wykreślić krzywe przeżycia osobno dla pod w modelu, a są odpowiadającymi im współczynni
grup pacjentów; pozwalają one na ocenę wizualną, czy róż kami. Estymatory tych parametrów otrzymujemy,
ne grupy pacjentów osiągają punkt końcowy z różnymi czę stosując technikę maksymalnej wiarygodności, znanej jako
stościami (rycina 44.2). Możemy też testować w sposób for cząstkowa wiarogodność. Eksponenty tych wartości (np.
malny, czy istnieją istotne różnice w zmianie częstości po exp są oszacowanymi wartościami hazardu względ
między grupami, na przykład przy użyciu testu log-rank lub nego lub stosunku hazardów. Dla szczególnej wartości x^ sto
modeli regresyjnych. sunek hazardu jest oszacowanym hazardem choroby dla (xx +
+ 1) w stosunku do estymowanego hazardu dla xu po skory
Test log-rank gowaniu ze względu na wszystkie pozostałe x w równaniu.
Ten nieparametryczny test dotyczy hipotezy, że nie ma róż Hazard względny jest interpretowany w podobny sposób jak
nic w czasach przeżycia w badanych grupach, i porównuje iloraz szans w regresji logistycznej (rozdział 30) lub częstość
zdarzenia zachodzące w każdej chwili na krzywej przeżycia. względna w regresji Poissona (rozdział 3D, dlatego wartości
Używając testu log-rank, nie możemy za jednym razem oce powyżej jeden oznaczają zwiększony hazard, wartości poniżej
nić niezależnego wpływu na punkt końcowy więcej niż jed jeden — zmniejszony hazard, a wartości równe jeden — że nie
nego czynnika. ma zwiększonego lub zmniejszonego hazardu osiągnięcia
punktu końcowego. Dla hazardu względnego można obliczyć
Modele regresyjne przedział ufności oraz przeprowadzić test istotności, aby ossa~
Możemy stworzyć model regresyjny, kwantyfikujący związki cować, na ile różni się od wartości jeden.
pomiędzy jednym czynnikiem lub większą ich liczbą a przeży Założono, że w tym modelu hazard względny jest stały
ciem. W każdej chwili t osobnik i ma chwilowe ryzyko osią w czasie (tzn. hazardy w grupach, które mają być porówna
gnięcia punktu końcowego [znane często pod nazwą hazardu ne, są proporcjonalne). Warunek ten trzeba sprawdzić albo
lub 1,-M], pod warunkiem że jeszcze go nie osiągnął. Na przy przy pomocy metod graficznych, albo przez włączenie inter
kład, jeżeli punktem końcowym jest śmierć, hazard jest ryzy akcji między wspótzmienną oraz log(czasu) w modelu i prze
kiem śmierci w chwili t. Ten chwilowy hazard jest zwykle konanie się, że jest ona nieistotna1.
bardzo mały i mało interesujący. Jednakże możemy chcieć się Do opisu danych przeżycia można też użyć innych modeli,
dowiedzieć, czy we wszystkich punktach czasowych istnieją np. Eksponencjalnego, Weibulla lub Gompertza, przy czym
jakieś systematyczne różnice w hazardzie między osobnikami każdy z nich zakłada specyficzny rozkład prawdopodobień
o różnych charakterystykach. Na przykład, czy hazard jest stwa funkcji hazardu. Wykraczają one jednak poza zakres te
ogólnie zredukowany u osobników leczonych nową techniką matyczny tej książki1.
w porównaniu z osobnikami leczonymi placebo, jeśli weźmie
my pod uwagę inne czynniki, takie jak wiek lub ciężkość cho 1
Collett, D.: Modelling Survival Data in Medical Research. Chap
roby? man and Hall/CRC, Londyn 2003.

PRZYKtAD
Wiadomo, że wysokość ciśnienia w żyle wrotnej (HVPG) W celu stwierdzenia, czy związek len może być wytłu
jest związana ze stopniem ciężkości marskości wątroby maczony różnicami w znanych czynnikach progno
wywołanej alkoholizmem, lecz rzadko stosuje się ją jako stycznych i demograficznych, użyto modelu represyjnego
predyktor przeżycia pacjentów z marskością. W celu osza proporcjonalnego hazardu wg Coxa. Uwzględniono w nim
cowania przydatności klinicznej tego pomiaru 105 pacjen dwadzieścia zmiennych demograficznych, klinicznych
tów przyjętych do szpitala z marskością wątroby poddano i markerów laboratoryjnych. Metody graficzne sugerowa
flebografii wątrobowej i obserwowano przez okres o me ły, że dla tych zmiennych rozsądne jest założenie propor
dianie równej 566 dni. Losy tych pacjentów zilustrowano cjonalnego hazardu. Do wyboru optymalnego modelu uży
na rycinie 44.1. W okresie obserwacji zmarło 33 pacjen to procedury selekcji krokowej (rozdział 33), a wyniki
tów. Krzywe Kaplana-Meiera ukazują skumulowany pro przedstawiono w tablicy 44.1.
cent przeżycia w każdej chwili od początku obserwacji, Wyniki w tablicy 44.1 wskazują, że podwyższone HVPG
osobno dla osobników, u których HVPG było mniejsze niż pozostaje niezależnie związane z krótszymi czasami prze
16 mm Hg (wartość uprzednio sugerowana jako dostarcza życia, po skorygowaniu ze względu na inne czynniki, o któ
jąca znaczącej informacji prognostycznej), i dla tych, u któ rych wiadomo, że są związane z gorszymi wynikami.
rych HVPG wynosiło 16 mm Hg lub więcej (rycina 44.2). W szczegómości osobnicy z HVPG 16 mm Hg lub wyższym
Komputerowy wynik testu log-rank zawierał następu mieli 2,46 (= exp[0,90}) razy wyższe ryzyko śmierci
jącą informację: w porównaniu z osobnikami z niższymi poziomami HVFG
(p = 0,04), po dokonaniu korekcji ze względu na pozostałe
Tost Chi-kwadrat df Wartość p czynniki. Innymi słowy, u tych osobników ryzyko śmierci
wzrosło o 146%. W dodatku wzrost czasu protnmibinowego
Log-rank 5,2995 1 0,0213
(ryzyko rośnie o 5% z każdą dodatkową sekundą), wzrost po
ziomu bilirubiny (ryzyko rośnie o 5% z każdymi 10 dodntko
Istnieje zatem istotna różnica (p = 0,02) między czasa wymi mmol/1), obecność wodobrztisza (ryzyko rośnie
mi przeżycia w obu grupach. Trzy lata po przyjęciu nadal o 126% z każdą jednostką wzrostu) oraz wcześniejsze dłu
żyło 73,1% pacjentów z niskimi wartościami pomiaru goterminowe leczenie endoskopowe (ryzyko rośnie o 246%),
HVPG, w porównaniu z 49,6% pacjentów z wartościami były niezależnie i istotnie związane z wynikiem.
wyższymi (rycina 44.2).
Tablica 44.1. Wyniki analizy regresji metodą proporcjonalnego hazardu Coxa.

Oszamwaiiip JKiJKUnTit
Estymator Błąd względnego wz£lu(lii(j£0
Zmienna (i kodowanie) df parametru standardowy Wartość p
IIVPG* <0 = <16, 1 = > 16 nim Hg) 1 0,90 0,44 0,04 2.46 (UB-aS.'))
Czas pretrombinowy (sekund) 1 0,05 0,01 0,0002 1,0.1 (i,02-1,07)
Diliiubiuu (10 mmol/D 1 0,05 0,02 0,04 1.0.1 (1.00-1.10)
Puchlina breuszna (0 = brak,
1 = łagodna, 2 = umiarkowana/ciężka) 1 0,82 0,18 0,0001 2,26 (1,56-3,24)
Wezsśniejsza długoterminowa terapia
eiidostopowa (0 = nie, 1 = tak) 1 1,24 0,41 0,003 3,48 (1.S4-7JW
HVPC - wysokość ciśnienia w żyle wrotnej.
Dano otrzymane dzięki uprzejmości: dr D. Patch i prof. A. K. Burroughs, Liver Unit, Royal Free Hospital, Londyn, Wielka Brytania.
44. Analiza przeżycia 123

45 METODY BAYESOWSKIE
PODEJŚCIE CZĘSTOŚCIOWE Twierdzenie Bayesa

Przypuśćmy, że badamy hipotezę (np. że efekt leczenia rów
Opisane w tej książce testy hipotez oparte są na częstościo-
ny jest jakiejś wartości). Twierdzenie Bayesa dokonuje kon
wym podejściu do prawdopodobieństwa (rozdział 7) i wnio
wersji prawdopodobieństwa a priori opisującego wiarę
skowaniu na temat tego, ile razy powinno pojawić się zdarze
osobnika W hipotezę p r z e d p r z e p r o w a d z e n i e m badania,
nie, jeżeli powtórzymy eksperyment wielką liczbę razy. Podej
w prawdopodobieństwo a posteriori, opisujące wiarę po
ście to jest czasami krytykowane z następujących powodów.
przeprowadzeniu badania. Prawdopodobieństwo a posteriori
• Wykorzystuje się w nim jedynie informację uzyskaną
jest tak naprawdę prawdopodobieństwem warunkowym hi
z kieżącego badania i nie włącza się do procesu wnioskowa
potezy, po uwzględnieniu wyników z badania. Twierdzenie
nia żadnej innej informacji na temat badanego efektu, np. po
Bayesa określa, że prawdopodobieństwo a posteriori jest
glądu lekarza na temat względnej efektywności dwóch tera
proporcjonalne do prawdopodobieństwa a priori, pomnożo
pii przed podjęciem eksperymentu klinicznego.
nego przez wartość prawdopodobieństwa obserwowanych
• Nie odnosimy się w nim do najbardziej interesujących wyników, które opisuje możliwość przyjęcia wyników, o ile
problemów. Przy porównywaniu leków zazwyczaj rzeczywi hipoteza jest prawdziwa (rozdział 32).
ście chcemy wiedzieć, czy jeden lek jest bardziej skuteczny
niż inny. Jednakże w podejściu częstościowym testujemy hi
potezę, że oba leki są równie skuteczne. Chociaż wnioskuje TESTY DIAGNOSTYCZNE
my, że jeden lek jest lepszy od drugiego, jeżeli wartość p jest W UJĘCIU BAYESOWSKIM
mała, to prawdopodobieństwo (tj. wartość p) opisuje raczej
szanse otrzymania obserwowanych wyników, gdy leki są Niemal wszyscy klinicyści przy stawianiu diagnozy intuicyj
równie skuteczne, niż szansę, że jeden lek jest skuteczniej nie stosują podejście Bayesowskie. Budują wizerunek pa
szy niż inny (tym interesujemy się naprawdę). cjenta na podstawie historii klinicznej i/lub obecności symp
• W podejściu tym nadmierną wagę przywiązuje się do tomów i oznak. W ten sposób decydują o najbardziej praw
testowania hipotez oraz tego, czy wynik jest, czy nie jest dopodobnej diagnozie i eliminują inne możliwości, domnie-
znaczący, zamiast do implikacji wyniku. mując, że jest mało prawdopodobne, by były one prawdziwe,
jeśli weźmie się pod uwagę to, co wiadomo o pacjencie. Na
stępnie mogą potwierdzić lub poprawić tę diagnozę w świe
PODEJŚCIE BAYESOWSKIE tle nowych dowodów, np. jeżeli pacjent reaguje na leczenie
Alternatywne podejście do wnioskowania, Bayesowskie1,
odzwierciedla osobisty stopień wiary osobnika w hipotezę,
oparty, gdy to możliwe, na znanej już informacji. Osobnicy
zazwyczaj różnią się stopniem wiary w hipotezę; dodatkowo
ta wiara może ulegać zmianie, gdy pojawia się nowa infor
macja. W podejściu Bayesowskim oblicza się prawdopodo
bieństwo, że hipoteza jest prawdziwa (co jest przedmiotem
naszego zainteresowania), przez uaktualnianie uprzednich
apriorycznych opinii o hipotezie w miarę zwiększania dostę
pu do nowych danych.
Prawdopodobieństwo warunkowe
Podstawą analiz Bayesowskich jest szczególny typ prawdopo
dobieństwa, znany jako prawdopodobieństwo warunkowe.
Jest to prawdopodobieństwo zdarzenia występującego pod
warunkiem, że miato już miejsce inne zdarzenie. Dla ilustra
cji rozważmy następujący przykład. Zachorowalność na hemo
filię A w ogólnej populacji wynosi około 1 na 10 000 męskich
urodzeń. Jednakże, jeżeli wiemy, że nosicielem hemofilii jest
kobieta, zachorowalność ta wzrasta z jednego na dwa męskie
urodzenia. Dlatego prawdopodobieństwo, że męski potomek
ma hemofilię, przy założeniu, że jego matka jest nosicielką,
różni się bardzo od prawdopodobieństwa bezwarunkowego, że
będzie miał hemofilię, jeżeli nie wiadomo, czy matka jest no
sicielką.
Rycina 45.1. Nomogram Fagana dla interpretacji diagnostycznych

wyników testu. Adaptowane z: Sackett D. L., Richardson W. S.,
Freedman L.: Bayesian statistical methods. A natura! way to as- Rosenberg W., Haynes R. ES.: Evidence-based Medicine: How to
1
sess clinical evidence. British Medical Journal, 1996, 313, 569-570. Practice and Teach EBM, Churchill-Livingstone, Londyn 1997.

lub rozwija się nowy symptom. Gdy osobnik przybywa do Prawdopodobieństwo a posteriori lub prawdopodobień
kliniki, klinicysta ma zwykle pewną koncepcję na temat tego, stwo po teście jest prawdopodobieństwem, że pacjent ma
jakie jest prawdopodobieństwo, że osobnik ma daną jednost chorobę, oszacowanym, gdy znane są już dodatnie wyniki te
kę chorobową — prawdopodobieństwo a priori czy prawdo stu. Jest ono podobne do dodatniej wartości predykcyjnej
podobieństwo przed testem. Jeżeli nic więcej nie wiadomo (rozdział 38), lecz bierze pod uwagę prawdopodobieństwo
o pacjencie, to jest ono po prostu prewalencją choroby w po a prbri, że osobnik ma chorobę.
pulacji (rozdziały 12 i 38). W celu zmiany prawdopodobień Prostszym sposobem wykonania tych obliczeń jest nomo-
stwa a priori w prawdopodobieństwo a posteriori możemy gram Fagana (patrz rycina 45.1): łącząc prawdopodobieństwo
użyć twierdzenia Bayesa. Można to najprościej uzyskać po przed testem (wyrażone w procentach) ze stosunkiem wiary
przez włączenie do twierdzenia Bayesa stosunku wiarygod godności i przedłużając tę linię, możemy obliczyć prawdopo
ności (rozdział 32), opartego na informacji z najnowszych ba dobieństwo po teście.
dań (np. na wynikach testu diagnostycznego). Stosunek wia
rygodności dodatniego wyniku testu jest szansą otrzymania
wyniku dodatniego, jeżeli pacjent miał chorobę, podzieloną WADY METOD BAYESOWSKICH
przez szansę otrzymania takiego wyniku, jeżeli tej choroby W każdej analizie Bayesowskiej trzeba określić prawdopodo
nie miał. Omawiałyśmy stosunek wiarygodności w tym kon bieństwo a priori hipotezy (np. prawdopodobieństwo przed
tekście w rozdziale 38 i pokazałyśmy, że można go użyć do testem, że pacjent ma chorobę). Z subiektywnej natury tych
określenia przydatności testu diagnostycznego. Użyjemy go prawdopodobieństw wynika, że poszczególni badacze i klini
teraz do wyrażenia twierdzenia Bayesa w kategoriach szans cyści mogą dla nich wybierać różne wartości. Z tego powodu
(rozdział 16): metody Bayesowskie są często krytykowane jako arbitralne.
Gdy najświeższe dowody z badań (np. wiarygodność) są bar
Szansa choroby a posteriori = szansa a priori x stosunek dzo silne, wpływ informacji apriorycznej jest minimalny
wiarygodności dodatniego (w krańcowym przypadku wyniki w ogóle nie będą zmienio
wyniku testu, ne przez informację aprioryczną).
gdzie Obliczenia stosowane w wielu analizach Bayesowskich są
. . prawdopodobieństwo a priori skomplikowane i zwykle przeprowadza się je za pomocą wy
szansa a priori - — . rafinowanych pakietów statystycznych, które wymagają dużej
(1 -prawdopodobieństwo a priori) mocy obliczeniowej komputera. Dlatego, mimo że aą intuicyj
Szansę a posteriori można prosto obliczyć, lecz dla ła ne, metody bayesowskie nie są szeroko wykorzystywano.
twiejszej interpretacji zamieniamy szanse z powrotem na Jednak dostępność komputerów osobistych o duaej mocy
prawdopodobieństwo, korzystając z relacji: oznacza, że ich użycie stanie się bardziej powszechne i
„ , , ,. . , . . . szansa a posteriori
Prawdopodobieństwo a posteriori = .
(1 + szansa a posteriori)
PRZYKŁAD
W przykładzie w rozdziale 38 pokazałyśmy, że u biorców (tj. 33%), wtedy wierzymy, że osobnik ma H7% szans roz
szpiku kostnego obciążenie wirusem powyżej 5 log]0 geno woju ciężkiej choroby. Można to również oszacować bezpo
mów/ml daje optymalną czułość i swoistość testu predykcji średnio z nomogramu Fagana (rycina 43.1) poprzez pola-
rozwoju ciężkiej choroby klinicznej. Iloraz wiarygodności czenie prawdopodobieństwa przed testem równego 33%
testu dodatniego dla tej wartości odcięcia wynosił 13,3. Je z ilorazem wiarygodności równym 13,3 i przedłużenie linii
żeli uważamy, żo prcwalencja ciężkiej choroby jako wyniku do przecięcia z osią prawdopodobieństwa po toście. Jeżeli
zakażenia cytomegalowirusem (CMV) po przeszczepieniu natomiast uważamy, że prawdopodobieństwo tego, że
szpiku kostnego wynosi około 33%, prawdopodobieństwo osobnik zachoruje na ciężką chorobę, wynosi tylko 0,2
aprioryczne ciężkiej choroby u tych pacjentów wynosi 0,33. (tj. prawdopodobieństwo przed testem wynosi 20%), wte
dy prawdopodobieństwo po teście będzie równe 77%.
Szansa o priori - 0,33/0,67 = 0,493. W obu przypadkach prawdopodobieństwo po tośeie jest
Szansa a posteriori - 0,493 x stosunek prawdopodo znacznie wyższe niż prawdopodobieństwo przed lesiem,
bieństwa = 0,493 x 13,3 = 6,557. co wskazuje na przydatność dodatniego wyniku lesiu. Co
Prawdopodobieństwo a posteriori = 6,557/(1 + 6,557) więcej, oba rezultaty wskazują, że pacjent ma wysokie ry
= 6,557/7,557 = 0,868. zyko zachorowania na ciężka chorobę po transplantacji
i rozpoczęcie terapii przeciw CMV może być sensowne.
Dlatego, jeżeli osobnik ma obciążenie CMV powyżej Dlatego też, mimo że prawdopodobieństwa aprioryczne
5 log10 genomów/ml. i jeżeli przyjmiemy, że prawdopodo bardzo się różnią, to w każdym przypadku ogólny wniosek
bieństwo przed testem ciężkiej choroby wynosi 0,33 pozostaje taki sam.
45. Metody Bayesowskie 125

DODATEK A: TABLICE STATYSTYCZNE
Dodatek ten zawiera tablice statystyczne omówione W tek ri odpowiedzi. Dla testu jednopróbkowego r równa się licz
ście. Zamieszczamy tylko pewien zakres wartości p, gdyż da bie wartości powyżej (lub poniżej) mediany (rozdział 19). Dla
ne zazwyczaj analizowane są za pomocą komputera, a warto testu zmiennych powiązanych r równa się liczbie dodatnich
ści p włączane do wyników. Inne podręczniki, takie jak (lub ujemnych) różnic (rozdział 20) albo liczbie preferencji
1
Fiehera i Yatesa , zawierają bardziej rozbudowane tablice. szczególnego typu leczenia (rozdział 23). ri równa się odpo
Wartości p możemy otrzymać bezpośrednio z niektórych pa wiednio liczbie wartości, które nie sa równe medianie, róż
kietów komputerowych, podając wartość statystyki testowej. nicom niezerowym lub aktualnym preferencjom. Na przy
Puste komórki w tablicy wskazują, że wartości nie istnieją. kład, jeżeli obserwujemy trzy różnice dodatnie spośród
ośmiu różnic niezerowych, wtedy p = 0,726.
Tablica Al zawiera dwustronne prawdopodobieństwo
rozkładu zmiennej Ą która podlega standaryzowanemu roz Tablica A7 zawiera rangi wartości, które wyznaczają
kładowi normalnemu. Wartości p w Tablicy Al odnoszą się górne i dolne granice przybliżonych 90%, 95% i 99% prze
do wartości bezwzględnych z, tak więc gdy z jest ujemne, działów ufności (CI) dla mediany. Na przykład, jeżeli wiel
pomijamy znak. Na przykład, jeżeli statystyka testowa pod kość próby wynosi 23, wtedy granice 95% przedziału ufności
legająca standaryzowanemu rozkładowi normalnemu ma są określone przez 7. i 17. uporządkowaną wartość.
wartość 1,1, to p = 0,271. Dla prób o wielkościach większych niż 50 należy znaleźć
obserwacje, które odpowiadają rangom (najbliższej wartości
Tablica A2 i Tablica A3 zawierają dwustronne prawdo całkowitej) równym: (i) n/2 — z\Tn/2; oraz (ii) 1 + n/2 -t-
podobieństwo dla zmiennej podlegającej rozkładowi f (Tabli + z\fn~/2; gdzie n jest wielkością próby, a z= 1,64 dla 90%
ca A2) lub rozkładowi Chi-kwadrat (Tablica A3) z określoną CI, z = 1,96 dla 95% CI, oraz z = 2,58 dla 99% CI (wartości
liczbą stopni swobody (df). W Tablicy A2 i Tablicy A3, gdy z wzięto z tablicy A4 standaryzowanego rozkładu normalne
wartość bezwzględna statystyki testowej (z określoną liczbą go). Te obserwacje definiują (i) dolną i (ii) górną granicę prze
stopni swobody df) leży pomiędzy wartościami stabelaryzo- działu ufności dla mediany.
wanymi w dwóch kolumnach, wtedy dwustronna wartość p
leży pomiędzy wartościami p wyspecyfikowanymi w nagłów Tablica A8 zawiera wartości dla sumy rang (T lub T_),
kach tych kolumn. Gdy wartość statystyki testu jest na pra która określa istotność testu rangowanych znaków Wilcosc-
wo od ostatniej kolumny, p < 0,001; jeżeli jest na lewo od na (Rozdział 20). Jeżeli suma rang różnic dodatnich (T+) lub
drugiej kolumny, p > 0,10. Na przykład, (i) Tablica A2: jeżeli ujemnych (71), pochodzących spośród ri niezerowych różnie,
wartość statystki testu wynosi 2,62 z df - 17, wtedy jest równa lub jest poza stabelaryzowanymi granicami, test
0,01 •> p % 0,05; (ii) Tablica A3: jeżeli wartość statystyki jest istotny dla podanej wartości p. Na przykład, gdy mamy
testu wynosi 2,62 z df= 17, wtedy p < 0,001. 16 niezerowych różnic, a T+ = 21, wtedy 0,01 c p <0,05.
Tablica A4 zawiera często używane wartości p i odpowia Tablica A9 zawiera zakres wartości dla sumy rang (T)
dające im wartości dla z, zmiennej o standaryzowanym roz określającej istotność testu sumy rang Wilcoxona (rozdział 21)
kładzie normalnym. Tablicy tej można użyć przy obliczaniu na poziomie (a) 5% i (b) 1%. Przypuśćmy, że mamy dwie próby
mnożników do wyznaczania przedziałów ufności (CI) dla o wielkościach ns i nu gdzie ns ^ nL. Jeżeli suma rang w mniej
zmiennych o rozkładzie normalnym. Na przykład, dla 95% szej grupie ins) jest równa wartościom stabelaryzowanym lub
przedziału ufności mnożnik wynosi 1,96. wykracza poza ich zakres, test jest istotny na poziomie (a) 5%
lub (b) 1%. Na przykład, jeżeli ns = 6 i nL - 8, a suma rang
Tablica A5 zawiera wartości p dla zmiennej podlegającej w grupie z sześcioma obserwacjami wynosi 39, to p > 0,05.
rozkładowi Fz określoną liczbą stopni swobody dla licznika
i mianownika. Gdy porównujemy wariancje (Rozdział 35), uży Tablica A10 i Tablica Ali zawierają dwustronne warto
wamy zazwyczaj wartości dwustronnego prawdopodobień ści p dla współczynników korelacji Pearsona (Tablica A10)
stwa p. Do analizy wariancji (rozdział 22) używamy wartości i Spearmana (Tablica Al 1), gdy testujemy hipotezę zerową, że
jednostronnego prawdopodobieństwa p. Przy danej liczbie współczynnik korelacji jest równy zero (rozdział 26). Dla
stopni swobody dla licznika i mianownika test jest istotny na określonej wielkości próby współczynnik jest istotny przy
poziomie p podanym w tablicy, gdy wartość statystyki testu ustalonej wartości p, gdy wartość bezwzględna (tj. bez
jest większa niż stabelaryzowana wartość. Na przykład, jeżeli uwzględnienia znaku) współczynnika korelacji w próbie prze
statystyka testu wynosi 2,99 z df - 5 w liczniku i df = 15 kracza wartość tablicową. Na przykład, jeżeli wielkość próby
w mianowniku, wtedy p < 0,05 dla testu jednostronnego. wynosi 24, a współczynnik korelacji Pearsona r = 0,58, wte
dy 0,001 < p < 0,01. Jeżeli wielkość próby wynosi 7, a współ
Tablica A6 zawiera dwustronne wartości p testu znaków czynnik korelacji Spearmana rs = -0,63, wtedy p > 0,05.
z r odpowiedzi szczególnego typu spośród całkowitej liczby
Tablica A12 cyfry 0-9 ustawiono w porządku losowym.
1
Fisher R. A., Yates F.: Statistical Tablesfor Biological, Agricultu-
ral and Medical Research. 01iver and Boyd, Edinburgh 1963.
126 Dodatki
Tablica Al. Tablica A2. Rozkład t. Tablica A3. Rozkład Chi-kwadrat.
Standaryzowany
rozkład normalny.
Uzyskane przy użyciu Microsoft Excel wersja 5.0
Uzyskane przy użyciu Uzyskane przy użyciu Microsoft Exeel wersja S.O.
Microsoft Excel
wersja 5.0.
Tablica A4. Standaryzowany rozkład normalny. Tablica A6. Test znaków.
Dwustronna wartość p r = liczba „dodatnich różnic" (patrz wyjaśnienie)
0,50 0,10 0,05 0,01 0,001 n' 0 1 2 3 4 5
Odpowiedni przedział 4 0,125 0,624 1,000

ufności (Cl) 50% 90% 95% 99% 99,9% 5 0,062 0,376 1,000
sit), mnożnik CD 0,67 1,64 1,96 2,58 3,29
6 0,032 0,218 0,688 1,000
Uzyskane przy użyciu Microsoft Excel wersja 5.0. 7 0,016 0,124 0,454 1,000
8 0,008 0,070 0,290 0,726 1,000
9 0,004 0,040 0,180 0,506 1,000
10 0,001 0,022 0,110 0,344 0,754 1,000
Uzyskane przy użyciu Microsoft jlxcel wersja 5.0.
Tablica A5. Rozkład F.
Liczba stopni swobody licznika

Liczba stopni Dwu Jedno
swobody stronna stronna
mianownika •wartość p "wartość p 1 2 3 4 5 6 7 8 9 10 15 25 500
1 0,05 0,025 647,8 799,5 864,2 899,6 921,8 937,1 948,2 956,6 963,3 968,6 984,9 998,1 1017,0
1 0,10 0,05 161,4 199,5 215,7 224,6 230,2 234,0 236,8 238,9 240,5 241,9 245,9 249,3 254,1
2 0,05 0,025 38,51 39,00 39,17 39,25 39,30 39,33 39,36 39,37 39,39 39,40 39,43 39,46 39,50
2 0,10 0,05 18,51 19,00 19,16 19,25 19,30 19,33 19,35 19,37 19,38 19,40 19,43 19,46 19,49
3 0,05 0,025 17,44 16,04 15,44 15,10 14,88 14,73 14,62 14,54 14,47 14,42 14,25 14,12 13,01
3 0,10 0,05 10,13 9,55 9.28 9,12 9,01 8,94 8,89 8,85 8,81 8,79 8,70 8,63 8,03
k 0.05 0,025 12,22 10,65 9,98 9,60 9,36 9,20 9,07 8,98 8,90 8,84 8,66 8,50 8,27
4 0,10 0,05 7,71 6,94 6,59 6,39 6,26 6,16 6,09 6,04 6,00 5,96 5,86 5,77 5,64
5 0,05 0,025 10,01 8,43 7,76 7,39 7,15 6,98 6,85 6,76 6,68 6,62 6,43 6,27 6.03
5 0,10 0,05 6,61 5,79 5,41 5,19 5,05 4,95 4,88 4,82 4,77 4,74 4,62 4,52 4,07
6 0,03 0,025 8,81 7,26 6,60 6,23 5,99 5,82 5,70 5,60 5,52 5,46 5,27 5.11 4,86
6 0,10 0,05 5,99 5,14 4,76 4,53 4,39 4,28 4,21 4,15 4,10 4,06 3,94 3,83 3,68
r7 0,05
0,10
0,025
0,05
8,07
5,59
6,54
4,74
5,89
4,35
5,52
4,12
5,29
3,97
5,12
3,87
4,99
3,79
4,90
3,73
4,82
3,68
4,76
3,64
4,57
3,51
4,40
3,40
4,16
3,24
8 0,05 0.025 7,57 6,06 5,42 5,05 4,82 4,65 4,53 4,43 4,36 4,30 4,10 3,94 3,68
S 0,10 0,05 5,32 4,46 4,07 3,84 3,69 3,58 3,50 3,44 3,39 3,35 3,22 3,11 2,94
9 0,05 0,025 7,21 5,71 5,08 4,72 4,48 4,32 4,20 4,10 4,03 3,96 3,77 3,60 3,35
9 0,10 0,05 5,12 4,26 3,86 3,63 3,48 3,37 3,29 3,23 3,18 3,14 3,01 2,89 2,72
10 0,05 0,025 6,94 5,46 4,83 4,47 4,24 4,07 3,95 3,85 3,78 3,72 3,52 3,35 3,09
10 0,10 0,05 4,96 4,10 3,71 3,48 3,33 3,22 3,14 3,07 3,02 2,98 2,85 2,73 2,55
15 0,05 0,025 6,20 4,77 4,15 3,80 3,58 3,41 3,29 3,20 3,12 3,06 2,86 2,69 2,41
15 0,10 0,05 4,54 3,68 3,29 3,06 2,90 2,79 2,71 2,64 2,59 2,54 2,40 2,28 2,08
20 0,05 0,025 5,87 4,46 3,86 3,51 3,29 3,13 3,01 2,91 2,84 2,77 2,57 2,40 2.10
20 0,10 0,05 4,35 3,49 3.10 2,87 2,71 2,60 2,51 2,45 2,39 2,35 2,20 2,07 1,86
30 0,05 0,025 5,57 4,18 3.59 3,25 3,03 2,87 2,75 2,65 2,57 2,51 2,31 2,12 1,81
30 0,10 0,05 4,17 3,32 2,92 2,69 2,53 2,42 2,33 2,27 2,21 2,16 2,01 1,88 1,64
50 0,05 0,025 5,34 3,97 3,39 3,05 2,83 2,67 2,55 2,46 2,38 2,32 2,11 1,92 1,57
50 0,10 0,05 4,03 3,18 2,79 2,56 2,40 2,29 2,20 2,13 2,07 2,03 1,87 1,73 1,46
100 0,05 0,025 5,18 3,83 3,25 2,92 2,70 2,54 2,42 2,32 2,24 2,18 1,97 1,77 1,38
100 0,10 0,05 3,94 3,09 2,70 2,46 2,31 2,19 2,10 2,03 1,97 1,93 1,77 1,62 1,31
1000 0,05 0,025 5,04 3,70 3,13 2,80 2,58 2,42 2,30 2,20 2,13 2,06 1,85 1,64 1,16
1000 0,10 0,05 3,85 3,00 2,61 2,38 2,22 2,11 2,02 1,95 1,89 1,84 1,68 1,52 1,13
Uzyskane przy użyciu Microsoft Excel wersja 5.0.
128 Dodatki
Tablica A7. Rangi dla przedziałów ufności dla mediany. Tablica A8. Test rangowanych znaków Wilcoxona.
Przybliżenie Dwustronna wartość p

Wielkość próby 90% CI 95% CI 99% CI n' 0,05 0,01 0,001
6 1,6 1,6 — 6 0-21 — —
7 1,7 1,7 - 7 2-26 - -
8 2,7 1,8 - 8 3-33 0-36
9 2,8 2,8 1,9 9 5-40 1-44 -
10 2,9 2,9 1,10 10 8-47 3-52 -
11 3,9 2,10 1,11 11 10-56 5-61 0-66
12 3,10 3,10 2,11 12 13-65 7-71 1-77
13 4,10 3,11 2,12 13 17-74 9-82 2-89
14 4,11 3,12 2,13 14 21-84 12-93 4-101
15 4,12 4,12 3,13 15 25-95 15-105 6-114
16 5,12 4,13 3,14 16 29-107 19-117 9-127
17 5,13 4,14 3,15 17 34-119 23-130 11-142
18 6,13 5,14 4,15 18 40-131 27-144 14-157
19 6,14 5,15 4,16 19 46-144 32-158 18-172
20 6,15 6,15 4,17 20 52-158 37-173 21-189
21 7,15 6,16 5,17 21 58-173 42-189 26-205
22 7,16 6,17 5,18 22 66-187 48-205 30-223
23 8,16 7,17 5,19 23 73-203 54-222 35-241
24 8,17 7,18 6,19 24 81-219 61-239 40-260
25 8,18 8,18 6,20 25 89-236 68-257 45-280
26 9,18 8,19 6,21
27 9,19 8,20 7,21 Adaptowany za zgodą z Altman D. G.: Practical Statistics for Medi-
28 10,19 9,20 7,22 cal Research. Copyright CRC Press, Boca Raton 1991.
29 10,20 9,21 8,22
30 11,20 10,21 8,23
31 11,21 10,22 8,24
32 11,22 10,23 9,24
99 12,22 11,23 9,25
34 12,23 11,24 9,26
35 12,23 12,24 10,26
36 13,24 12,25 10,27
37 14,24 13,25 11,27
38 14,25 13,26 11,28
39 14,26 13,27 11,29
40 15,26- 14,27 12,29
41 15,27 14,28 12,30
42 16,27 15,28 13,30
43 16,28 15,29 13,31
44 17,28 15,30 13,32
45 17,29 16,30 14,32
46 17,30 16,31 14,33
47 18,30 17,31 15,33
48 18,31 17,32 15,34
49 19,31 18,32 15,35
50 19,32 18,33 16,35
Uzyskane przy użyciu Microsoft Excel wersja 5.0.
Dodatek A: Tablice statystyczne 129

Tablica A9(a). Test sumy rang Wilcoxona dla dwustronnego p = 0,05.
ns (liczba obserwacji w mniejszej próbie
nL 4 5 6 7 8 9 10 11 12 13 14 15
4 10-26 16-34 23-43 31-53 40-64 49-77 60-90 72-104 85-119 99-135 114-152 130-170
5 11-29 17-38 24-48 33-58 42-70 52-83 63-97 75-112 89-127 103-144 118-162 134-181
6 12-3Z 18-42 26-52 34-64 44-76 55-89 66-104 79-119 92-136 107-153 122-172 139-191
7 13-35 20-45 27-57 36-69 46-82 57-96 69-111 82-127 96-144 111-162 127-181 144-201
8 14-38 21-49 29-61 38-74 49-87 60-102 72-118 85-135 100-152 115-171 131-191 149-211
9 14-42 22-53 31-65 40-79 51-93 62-109 75-125 89-142 104-160 119-180 136-200 154-221
10 15-45 23-57 32-70 42-84 53-99 65-115 78-132 92-150 107-169 124-188 141-209 159-231
11 16-48 24-61 34-74 44-89 55-105 68-121 81-139 96-157 111-177 128-197 145-219 164-241
12 17-51 26-64 35-79 46-94 58-110 71-127 84-146 99-165 115-185 132-206 150-228 169-251
19 18-54 27-G8 37-83 48-99 60-116 73-134 88-152 103-172 119-193 136-215 155-237 174-261
14 19-57 28-72 38-88 50-104 62-122 76-140 91-159 106-180 123-201 141-223 160-246 179-271
15 20-60 29-76 40-92 52-109 65-127 79-146 94-166 110-187 127-209 145-232 164-256 184-281
Tablica A9(b), Test sumy rang Wilcoxona dla dwustronnego p = 0,01.
ns (liczba obserwacji w mniejszej próbie
nL 4 5 6 7 8 9 10 11 12 13 14 15
4 - - 21-45 28-56 37-67 46-80 57-93 68-108 81-123 94-140 109-157 125-175
5 - 15-40 22-50 29-62 38-74 48-87 59-101 71-116 84-132 98-149 112-168 128-187
6 10-34 16-44 23-55 31-67 40-80 50-94 61-109 73-125 87-141 101-159 116-178 132-198
7 10-38 16-49 24-60 32-73 42-86 52-101 64-116 76-133 90-150 104-169 120-186 136-209
S 11-48 17-53 25-65 34-78 43-93 54-108 66-124 79-141 93-159 108-178 123-199 140-120
9 11-45 18-57 26-70 35-84 45-99 56-115 68-132 82-149 96-168 111-188 127-209 144-231
10 12-48 19-61 27-75 37-89 47-105 58-122 71-139 84-158 99-177 115-197 131-219 149-241
11 12-52 20-65 28-80 38-95 49-111 61-128 73-147 87-166 102-186 118-207 135-229 153-252
12 13-55 21-69 30-84 40-100 51-117 63-135 76-154 90-174 105-195 122-216 139-239 157-263
19 13-59 22-73 31-89 41-106 53-123 65-142 79-161 93-182 109-203 125-226 143-249 162-273
14 14-62 22-78 32-94 43-111 54-130 67-149 81-169 96-190 112-212 129-235 147-259 166-284
15 15-65 23-82 33-99 44-117 56-136 69-156 84-176 99-198 115-221 133-244 151-269 171-294
Wybrane za zgodą z pracy: Diem K. Documenta Geigy Scientific Tables, Wyd. 7, Blackwell Publishing, Oxford 1970.
130 Dodatki
Tablica A10. Współczynnik korelacji Pearsona. Tablica Ali. Współczynnik korelacji Spearmana.
5 0,878 0,959 0,991 5 1,000

6 0,881 0,917 0,974 6 0,886 1,000
7 0,755 0,875 0,951 7 0,786 0,929 1,000
8 0,707 0,834 0,925 8 0,738 0,881 0,976
9 0,666 0,798 0,898 9 0,700 0,883 0,933
10 0,632 0,765 0,872 10 0,648 0,794 0,903
11 0,602 0,735 0,847 Adaptowane z pracy: Siegel S. i Castellan N. J.: Nonparametric
12 0,576 0,708 0,823 Statistics for the Behavioural Sciences, Wyd. 2, McGraw-Hill,
13 0,553 0,684 0,801 Nowy Jork, za zgodą McGraw-Hill Companies.
14 0,532 0,664 0,780
15 0,514 0,641 0,760
16 0,497 0,623 0,742
17 0,482 0,606 0,725
18 0,468 0,590 0,708
19 0,456 0,575 0,693
20 0,444 0,561 0,679
21 0,433 0,549 0,665
22 0,423 0,537 0,652
23 0,413 0,526 0,640
24 0,404 0,515 0,629
25 0,396 0,505 0,618
26 0,388 0,496 0,607
27 0,381 0,487 0,597
28 0,374 0,479 0,588
29 0,367 0,471 0,579
30 0,361 0,463 0,570
35 0,334 0,430 0,532
40 0,312 0,403 0,501
45 0,294 0,380 0,474
50 0,279 0,361 0,451
05 0,266 0,345 0,432
60 0,254 0,330 0,414
ro 0,235 0,306 0,385
80 0,220 0,286 0,361
90 0,207 0,270 0,341
100 0,217 0,283 0,357
150 0,160 0,210 0,266
Wybrane za zgodą z pracy: Diem K. Docu.men.ta Geigy Scientific

Tables, Wyd. 7, Blackwell Publishing, Oxford 1970.
Tablica A12. Liczby losowe.
3 4 8 14 68020 2 8 9 9 8 5 16 8 7 4 0 0 8 8 3 5 4 5 8 2 4 7 0 8 0 1 8 1 5 5 3 7 7 6
9 9 10 6 50 8 9 9 0 7 3 9 4 9 10 7 1 2 2 4 11 6 16 4 3 6 4 4 3 5 6 2 5 5 2 6 4316
4 7 18 5 3 1 7 82 4 8 8 9 4 6 8 7 9 0 5 18 5 2 3 6 9 18 0 5 7 3 7 9 0 6 5 3 6 112 3
8 13 5 4 57 2 96 3 9 3 2 9 5 2 2 6 3 4 3 19 4 5 16 2 4 4 2 4 2 9 6 1 3 6 7 4 12 0 7
8 3 4 6 7 85 6 2 2 9 5 7 7 8 0 5 3 4 7 0 0 4 4 5 5 13 3 4 2 9 4 4 5 9 9 1 76 3 00 9 1
2 7 9 2 4 34 1 6 7 5 7 0 6 0 5 7 5 3 5 3 2 2 7 8 16 9 4 9 0 4 9 6 0 0 4 1 1 6 9 14 6 7
5 8 3 19 88 1 6 4 9 4 1 30 0 7 7 4 3 1 6 9 17 15 6 8 1 9 3 5 7 2 9 9 7 5 3 4 9 117
4 9 7 3 2 66702 7 2 4 2 5 9 9 117 4 9 2 9 8 8 7 2 6 5 14 1 9 5 8 3 39 1 19 7 9 4
6 9 5 9 4 26749 6 8 7 4 3 3 9 13 9 4 4 4 9 5 119 4 4 12 9 7 0 5 6 5 2 3 6 2 4 11
3 0 0 7 4 97 5 1 7 9 7 4 5 0 5 4 2 5 1 5 17 7 7 2 10 7 3 0 3 9 0 9 2 6 5 1 9 3 95 76
8 114 7 57 5 0 8 9 3 4 7 9 8 7 8 2 6 2 8 9 6 5 7 4 4 7 4 9 7 4 6 8 8 0 1 49 17834
74 6 8 9 28 9 3 3 5 9 8 1 9 9 3 0 5 2 6 13 2 5 8 3 14 5 4 4 6 8 4 7 2 9 5 8 9 18 2 4
14 8 0 2 25 9 82 4 8 0 2 4 15 4 6 1 3 7 5 7 0 4 4 6 8 5 4 7 3 8 6 0 9 5 0 4 778 3 1
G85 0 1 34 1 94 8 5 3 5 5 3 8 4 11 4 6 5 5 9 4 16 9 4 9 9 6 7 8 8 8 2 6 8 8 66 74
4 8 7 3 4 92 6 71 8 5 2 5 2 8 5 9 8 5 3 4 2 2 8 9 12 8 9 5 6 3 3 1 1 4 6 8 3 3 6 4 93
8 4 10 2 81 6 99 9 7 3 5 2 5 4 5 0 9 9 3 19 6 5 12 0 4 4 3 3 5 1 1 1 8 1 8 4 1179
2 8 4 3 2 32 8 7 3 8 3 8 3 4 0 9 8 6 2 1 2 7 2 0 6 4 5 6 9 4 2 2 18 2 6 7 2 6 8 0606
9 14 5 6 82 5 24 7 5 5 2 3 0 12 7 6 1 9 5 9 1 4 7 4 7 3 9 0 2 5 1 9 9 1 03 7 2 9 4 7
4 5 4 3 5 30 3 8 9 6 9 7 3 2 8 19 6 2 3 0 2 4 3 9 6 19 9 3 3 5 4 6 3 9 67Z 8 37 6 0
2 3 5 5 7 78 4 3 7 4 4 9 5 7 9 8 7 2 8 6 5 6 7 4 3 4 7 0 1 8 3 3 9 8 5 4 1 02 6 58 4 5
3 0 3 9 5 918 5 0 5 2 0 0 4 0 4 8 4 4 2 8 8 4 8 19 7 2 8 9 6 5 7 1 1 3 3 1 7 7 08 59
6 9 9 9 1 12 7 5 5 9 7 9 1 6 5 7 6 3 9 4 3 4 4 5 9 0 4 6 3 8 5 5 5 6 3 5 4 6 9 19 7 4 9
3 2 9 9 0 43 6 0 8 2 0 5 9 2 7 2 5 2 7 6 3 5 8 3 4 6 4 4 3 5 3 9 2 9 8 7 2 1 9 5 5 19 8
5 9 7 7 6 37035 5 3 7 6 5 5 5 19 6 6 8 6 5 9 7 14 2 9 2 5 2 2 5 9 1 9 4 2 5 1132
7 3 7 14 79868 2 3 8 8 0 9 2 2 5 4 7 2 9 8 4 0 7 7 9 2 8 13 0 6 2 4 2 7 7 8 23 6 6
G 1 54 7 IG 5 7 5 6 8 5 2 0 5 9 8 6 9 6 7 2 9 9 7 3 5 6 5 7 7 3 16 9 6 6 8 2 18 0 3 1
8 7 7 3 7 010 58 7 6 0 1 2 7 6 2 4 7 7 5 6 16 5 13 3 5 7 0 3 6 4 7 8 9 4 2 4 05 6 4
9 8 6 6 0 08 3 3 4 4 0 5 2 0 7 8 3 8 9 5 6 4 9 8 7 4 3 3 6 0 2 4 3 4 4 8 5 9 9 6 75 7 9
8 15 3 5 4G G 9 0 9 2 8 1 4 4 4 4 5 6 2 9 2 2 7 4 8 12 2 3 0 5 2 2 1 3 8 5 2 4 84 3 6
0 5 9 7 5 47 1 10 3 2 7 3 3 4 6 9 2 9 9 8 2 6 1 5 2 19 3 8 3 2 15 5 3 1 92 8 3 10 9
Uzyskane pr2y użyciu Microsoft Excel Wersja 5.0.
132 Dodatki
DODATEK B: NOMOGRAM ALTMANA DO OBLICZEŃ
WIELKOŚCI PRÓBY (ROZDZIAŁ 36)
Wybrane z pracy: Altman D. G. How large a sample? W: Statistics in Practice (red. S. M. Gore & D. G. Altman). DMA, Londyn 1962, m zgodą
Blackwell Publishing Ltd.
Dodatek B: Nomogram Altmana do obliczeń wielkości próby (rozdział 36) 133

DODATEK C: TYPOWE WYDRUKI KOMPUTEROWE
Analiza danych głębokości kieszonek opisana w rozdziale 20, przeprowadzona za pomocą pakietu SPSS
134 Dodatki
Analiza danych dla płytek opisana w rozdziale 22, przeprowodzana za pomocą pakietu SPSS
5% Trimmed Mean — 5% błąd oszacowania Kurtosis — Kurtoza Sig. (2-tailed) — Istotność (dwustronna)
średniej Levene Statistic — Statystyka Levene'a Skewness — Skoaność
95% Confidence Interval for Mean — 95% Lower — Dolny Statistic — Statystyka
przedział ufności dla średniej Lower Bound — Dolna granica 5td. Deviation - Odchylenie standardowe
95% Confidence Interval of the difference Mean — Średnia S t d . E r r o r — Błą^ł s t a n d a r d o w y
— 95% przedział ufności dla różnic Mean Sąuare — Średni Kwadrat Std. Error Mean — Błąd standardowy śred
Afro-caribbean — Afrokaraibska Median — Mediana niej
Anova - ANOYA Mediterranean — Śródziemnomorska Stem-and Leaf Plot - Wykres typu „łodyga
Between Groups — Pomiędzy grupami Missing — Braki z liśćmi"
Case Processing Summary - Podsumowa Other — Inni Stern width — Szerokość łodygi
nie przetwarzania danych Pair — Para Sum of Squares — Suma kwadratów
Cases - Przypadki Paired Differences — Różnice powiązane Test of Homogenity of Varianees — Test
Caucasian — Kaukaska Paired Samples Statistics — Statystyka jednorodności wariancji
Descriptiyes — Statystyka opisowa prób powiązanych Total — Razem
Each leaf — Każdy liść Paired Samples Test — Test prób powiąza Upper — Górny
Extremes — Ekstrema nych Upper Bound — Górna granica
Prequency stem 80 Leaf — Wykres typu Percent — Procent Yalid — Ważne
„łodyga z liśćmi" dla częstości Platelet - Płytki Variance — Wariancja
Group — Grupa Rangę — Rozstęp Within Groups — Wewnątrz grup
Interąuartile Rangę — Rozstęp między- Report — Raport
kwartylowy Sig. — Istotność
Dodatek C: Typowe wydruki komputerowe 135

Analiza danych FEVI opisana w rozdziale 21, przeprowadzona za pomocą pakietu SAS
136 Dodatki
Equal — Równe Obs — Numer obserwacji Treated — Leczeni
Extremes — Ekstrema Rangę — Rozstęp Treatment Group=Placebo - Grupa =
For HO: Yariances are equal - Dla H0: Quantiles — Kwantyle Placebo
Wariancje są równe Skewness — Skośność Treatment Group=Treated — Grupa =
GRP - Grupa Std Dev — Odchylenie stand. Leczeni
Highest — Górne Std Error — Bfąd standardowy Uneąual — Nierówne
Kurtosis — Kurtoza Std Mean — Błąd standardowy średniej Univariate Procedurę — Procedura jednej
Lowest — Dolne Sum — Suma zmiennej
Mean — Średnia Sum Wgts — Suma wag Variable — Zmienna
Modę — Modalna T Test procedurę — Procedura testu t Variance — Wariancja
Moments — Momenty The SAS System - System SAS Yariances — Wariancje

Analiza danych antropometrycznych opisanych w rozdziałach 26, 28 i 29 przeprowadzona za pomocą
pakietu SAS
Analysis of anthropometric data described in Topics 26, 28 and

29 generated by SAS
4 'VAH' Variables — 4 zmienne Mean Sąuare — Średni kwadrat Simple Statlstics — S t a t y s t y k a o p i s o w a
Age - Wiek Model — Model Spearman Correlation Coefficients -
Adj R-sq — Skorygowany kwadrat R ModelrMODELl - Model = MODEL 1 Współczynniki korelacji Spearmana
Analysis of Yariance - Analiza wariancji OBS — Numer obserwacji Standard Error - Biad standardowy
Correlation Analysis — Analiza korelacji Parameter Estimate — Estymator parame Std Dev — Odchylenie standardowe
C Total — C Razem tru Source — Żródto
Dependent Variable: SBP — Zmienna za Parameter Estimates — Estymatory para Sum — Suma
leżna; SBP metru Sum of Squares - Suma kwadratów
Dep Mean — Średnia zmiennej zależnej Pearson Correlation Coefficients —Współ T for HO; Parameter = 0 T dla tf0;
Error - Błąd czynniki korelacji Pearsona Parametr = 0
F Value — Wartość F R-square — Kwadrat R Variable DF — Zmienna DF
Height - Wzrost Root MSE - Pierwiastek MSE Variable — Zmienna
Intercep — Przecięcie SBP — Skurczowe ciśnienie krwi Weight — Masa
Mean — Średnia Sex — Płeć

Analiza danych HHV-8 opisana w rozdziałach 23, 24 i 30, przeprowadzona przy użyciu STATA
140 Dodatki
Analiza danych na temat braku efektu terapeutycznego po leczeniu przeciwwirusowym (BETPLP)
opisanych w rozdziałach 31-33, przeprowadzona przy użyciu programu SAS
. Logit hhv8 gonorrho syphilis hsv2 hiv Failure — Niepowodzenie Pearson chi2, Pearson Chi-5quare — Chi 3
age or tab — . Logit hhv8 rzeżączka Gonorrho; gonorrhoe — Rzeżączka Pearsona
syfilis hsv2 hiv wiek lub tab History — Wystąpienie Period - Okres
95% Conf. Interral — 95% przedział ufności Interaction — Interakcja Positive — Pozytywne
Age — Wiek Intercept — Przecięcie Scalę — Skala
Analysis Of Parameter Estimates — Link Function — Funkcja łącząca Scaled Deviance — Dewiancja skatowana
Analiza estymatorów parametru Log Likelihood — Log wiarygodności Scaled Pearson X2 — Skalowany Chi 2
GM-Square — Chi-kwadrat Logit Estimates — Logit oszacowanie Pearsona
Coef. — Współczynnik LR Statistics For Type 3 Analysis — Sex - Płeć
Comparison of outcomes and probabilities Statystyka LR dla analizy typu 3 Source — Źródło
— Porównanie wyników i prawdopodo Model Information — Informacja S t a n d a r d Error; Std. E r r . — Błąd standar
bieństw o modelu dowy
Constont — Stalą Negative — Ujemne Success — Sukcea
Criteria For Assessing Goodness Of Fit — No history — Brak wystąpienia Syphilis - Syfilis
Kryteria oszacowania jakości dopasowa Number of obs — Liczba obserwacji Tabulatc; gonorrho hhy8, chi row col —
nia Observations Used — Użyte wartości Stabelaryzuj: rzeżączka hhv8, chi row col
Criterion - Kryterium OBS — Numer obserwacji The GENMOD Proceduro — Procedura
Data S e t — Zbiór danych Odds Ratio — Iloraz szans GENMOD
Dependent Variable — Zmienna zależna Offset Variable — Zmienna offsetu Total — Razem
Deviance — Dewiancja Outcome — Wynik Value — Wartość
Distribution — Rozkład Parameter — Parametr Value/DF - Wartość/DF
Estimate — Estymator Patient — Pacjent Wald 95% Confidence Limit — 95% granice
Event —Zdarzenie PDAYS - Dni ufności statystyki Walda

142 Dodatki
Analysis Of Parameter Estimates - Analiza Estimate — Estymator Scaled Deviance — Skalowana dewlancja
estymatorów parametrów Intercept — Przecięcie Scaled Pearson X2 - Skalowana Chi-2
Chi-Sąnare — Chi-kwadrat Levels — Poziomy Pearsona
Clasa - Klasa Link Function — Funkcja wiążąca Sex - Piec
Class Level Information — Informacja Log Likelihood — Log wiarygodności Source - Źródło
o poziomach klas LR Statistics For Type 3 Analysis — Standard Error — Błąd s t a n d a r d o w y
Criteria For Assessing Goodness Of Fit - Statystyka LR dla analizy typu 3 Value - Wartość
Kryteria oszacowania jakości dopaso Model Information - Informacja o modelu Values — Wartości
wania Observations Used — Użyte obserwacje Value/DF - Wartość/DF
Criterion — Kryterium Offset Variable - Zmienna offsetu Wald 95% Confidence Limits — 95% granice
Data Set — Zbiór danych Parameter — Parametr ufności statystyki Walda
Dependent Variable — Zmienna zależna Pearson Chi-Square — Chi-kwadrat
Deviance — Dewiancja Pearsona
Distribution - Rozkład Scalę — Skala
Dodatek C: Typowe wydruki komputerowe 1 4 3

Analiza danych okoiozębowych użytych w rozdz. 42, uzyskanych za pomocą programu Stata
Analysis of periodontal data used in Cbapter 42, generated by Stata
. regress loa smoke — . regresja loa palenie Correlation — Korelacja Group variable — Zmienna grupowa
. regress loa smoke, robust — . regresja loa Exchangeable — wymienna Group variable (i): subj — Zmienna grupowa
palenie, elastyczny Family — Rodzina (i): subj
95% Conf. Inteiral — 95% przedział ufności Fitting constant-only model — Dopasowa Identity — Tożsamościowa
Adj R-squared — skorygowane R2 nie modelu zawierającego wyłącznie Iteration — Iteracja
avg — średnia stałą Link — Funkcja wiążąca
Between — Między Fitting fuli model — Dopasowanie pełnego loa — utrata przyczepu
Between regression (regression on group modelu Log likelihood — log wiarygodności
means) — Regresja na średnich grupo Gaussian — gaussowska Likelihood-ratio test of sigma_u=0
wych GEE population averaged model — Model — Test stosunku wiarygodności
Coef. — współczynnik GEE uśrednionej populacji sigma_u=0:
144 Dodatki
Number of clusters (subj) — Liczba klaste- Regression with robust standard errors — Standard errors adjusted Tor clusterincf on
rów (subj) Regresja z elastycznymi błędami stan- subj — Skorygowane ze względu na Ma-
Number of groups — Liczba grup dardowymi steryzację błędy standardowe
Number of obs — Liczba obserwacji Residual — Reszta Std. Err. — Błąd standardowy
Obs per group — Obserwacje w grupie Robust Std. Err. — Elastyczny błąd Smoke — Palenie
Overall — Całkowity standardowy Tolerance — Tolerancja
Random-effects ML regression — Regresja Root MSE — pierwiastek MSE Total — Razem
typu ML efektów końcowych R-squared; R-sq — R2 Within — Wewnątrz
Random effects u_i ~ Gaussian — Efekty Scalę Parameter — Parametr skali
losowe u_i - gaussowskie Source — Źródło

DODATEK D: SŁOWNICZEK TERMINÓW
STATYSTYCZNYCH
-2 log wiarygodność -4 statystyka ilorazu wiarygodności. Błąd I rodzaju — odrzucenie hipotezy zerowej, gdy była ona
Analiza dyskryminacyjna — metoda zbliżona do regresji lo prawdziwa.
gistycznej, której można użyć do identyfikacji czynników Błąd II rodzaju — nieodrzucenie hipotezy zerowej, gdy była
istotnie związanych z odpowiedzią binarną. ona fałszywa.
Analiza kowariancji — specjalna postać analizy wariancji, któ Błąd próbkowania — różnica pomiędzy parametrem popula
ra porównuje wartości zmiennej zależnej między grupami cyjnym a estymatorem z próby, wynikająca z pobrania je
osobników po dokonaniu korekcji ze względu na wpływ dynie przykładowych wartości.
jednej lub większej liczby zmiennych wyjaśniających. Błąd standardowy elastyczny — błąd oparty na zmienności
Analiza na bazie leczenia — pacjenci w eksperymencie kli w danych, a nie na założonym modelu regresyjnym. Bar
nicznym sa włączani do analizy tylko wtedy, gdy ukończą dziej odporny na pogwałcenie założeń leżących u podstaw
leczenie, do którego zostali losowo przyporządkowani. modelu regresyjnego niż estymatory OLS.
Analiza przeżycia — bada czas potrzebny, by osobnik osią Błąd standardowy proporcji — miara dokładności proporcji
gną! badany punkt końcowy (np. śmierć), gdy pewne da w próbie. Jest odchyleniem standardowym rozkładu
ne są ucięte. próbkowania proporcji.
Analiza wariancji jednoczynnikowa — szczególna postać Btąd standardowy średniej (SEM - standard error of
ANOYA używana do porównywania średnich więcej niż mean) — miara precyzji średniej w próbie. Jest odchyle
dWÓCh niezależnych grup obserwacji. niem standardowym rozkładu próbkowania średniej.
Analiza wariancji (ANOVA) — ogólny termin dotyczący ze Bootstrapping— proces symulacyjny używany do wyznacze
społu analiz porównujących średnie grup wartości po nia przedziału ufności dla parametru. Opiera się na esty
przez podział całkowitej wariancji zmiennej na części macji parametru na podstawie każdej z wielu prób loso
składowe, z których każda jest przyporządkowana pew wych uzyskanych z próbkowania ze zwracaniem z próby
nemu czynnikowi. oryginalnej; przedział ufności otrzymuje się na podstawie
Analiza z zamiarem leczenia — wszyscy pacjenci w ekspe oceny zmienności rozkładu tych estymatorów.
rymencie klinicznym są analizowani w grupach, do któ CI —> przedział ufności.
rych zostali pierwotnie przyporządkowani. Częstość — liczba pojawiających się zdarzeń wyrażona jako
Analizy przejściowe — analizy zaplanowane w pośrednich proporcja całkowitego czasu obserwacji wszystkich pa
etapach badania. cjentów w badaniu.
ANOVA -4 analiza wariancji. Częstość skumulowana — liczba osobników, którzy mają
ANOVA powtarzanych pomiarów — specjalna postać anali wartości równe lub poniżej określonej wartości zmiennej.
zy wariancji używana, gdy zmienna numeryczna jest Częstość spodziewana — częstość, której należy się spodzie
mierzona dla każdego członka grupy osobników więcej wać przy założeniu słuszności hipotezy zerowej.
niż jeden raz (np. przy różnych okazjach). Częstość względna — częstość wyrażona jako procent lub
Badanie epidemiologiczne — badanie obserwacyjne, oszaco proporcja częstości całkowitej.
wujące związek między czynnikami ryzyka a chorobą. Częstość względna — stosunek dwóch częstości (zwykle czę
Badanie eksperymentalne — badanie, w którym badacz in stość choroby u osób narażonych na czynnik podzielona
geruje w pewien sposób, wpływając na wynik. przez częstość choroby u nienarażonych na czynnik).
Badanie kohortowe — badanie, w którym grupa osobników, Częstość zachorowalności — liczba nowych przypadków
wszyscy bez badanego wyniku (np. choroby), są obserwo choroby w określonym czasie podzielona przez liczbę oso-
wani (najczęściej prospektywnie) w celu zbadania wpły bolat obserwacji osobników podatnych w chwili rozpoczę
wu ekspozycji na czynnik ryzyka na wyniki uzyskiwane cia okresu.
w przyszłości. Czułość — proporcja osobników posiadających jednostkę
Badanie longitudinalne — obserwacja osobników w pew chorobową, którzy zostali prawidłowo zdiagnozowani
nym okresie czasu. przez test.
Badanie obserwacyjne — badanie, w którym badacz nie ro Czułość modelu — stopień, co do którego estymatory w mo
bi niczego, co mogłoby wpłynąć na wynik. delu regresyjnym są zaburzane przez jednego osobnika lub
Badanie pilotażowe — pierwotne badanie o małej wielkości. większą ich liczbę, lub przez błędną specyfikację modelu.
Badanie prospektywne — badanie, w którym osobnicy są Czynnik ryzyka — wpływa na zapadalność, np. na chorobę.
obserwowani od pewnego momentu. Dane — obserwacje jednej iub większej liczby zmiennych.
Badanie przekrojowe — badanie przeprowadzane w poje Dane transformowane — uzyskane przez dokonanie na każdej
dynczym punkcie czasowym. obserwacji jakiejś transformacji matematycznej (np. log).
Badanie retrospektywne — badanie, w którym się wybiera Dane ucięte — pojawiają się w analizie przeżycia z powodu
osobników i bada czynniki, które pojawiły się w ich prze niepełnej informacji na początku (—> dane ucięte prawo-
szłości. i lewostronnie).
Blok — jednorodna grupa jednostek eksperymentalnych po Dane ucięte lewostronnie — pochodzą od pacjentów, u któ
siadających podobną charakterystykę. Inaczej nazywany rych obserwacja rozpoczęta się dopiero po dacie począt
warstwą. kowej.
146 Dodatki
Dane ucięte prawostronnie — pochodzą od pacjentów, o któ Eksperyment kliniczny — dowolna forma planowanego ba
rych wiadomo, że nie osiągnęli badanego punktu końco dania na ludziach, pozwalającego na ocenę wpływu nowe
wego w trakcie, gdy byli obserwowani. go leczenia na wynik kliniczny.
Decyle — wartości, które dzielą uporządkowany ciąg obser Eksperyment kontrolowany randomizowany (RCT — rando-
wacji na 10 równych części. mized controlled trial) — porównawczy eksperyment
Deklaracja CONSORT — ułatwia krytyczną ocenę i inter kliniczny, w którym pacjenci przydzielani są do leczenia
pretację eksperymentów randomizowanych kontrolowa losowo.
nych (RCT). Autorzy opisujący swoje badania znajdą tam Eksperyment przewagi — używany do wykazania, że dwa
wakazówki w postaci listy kontrolnej lub diagramu sposoby leczenia lub większa ich liczba różnią się klinicz
przepływu. nie.
Dowiancja -4 statystyka stosunku wiarygodności. Eksperyment przypadek-kontrola — identyfikuje się grupę
df-A liczba stopni swobody statystyki. osobników z jednostką chorobową (przypadki) i bez niej
Diagram rozrzutu — wykres dwuwymiarowy jednej zmien (kontrola) oraz porównuje się w tych grupach stopień na
nej w funkcji drugiej zmiennej, z każdą para obserwacji rażenia na czynniki ryzyka.
zaznaczoną jako punkt, Eksperyment równoległy — każdy pacjent otrzymuje tylko
Dokładność — dotyczy tego, w jakim stopniu wartość obser jedno leczenie.
wowana wielkości jest zgodna z jej prawdziwą wielko Eksperyment równoważności — stosowany do pokazania, że
ścią. dwa sposoby leczenia są równoważne klinicznie.
Dokładność — miara błędu próbkowania. Określa, w jakim Estymator — wielkość uzyskana na podstawie próby, repre
stopniu zgadzają się ze sobą powtarzane obserwacje. zentująca parametr w populacji.
Dokładny test Fiehera — test oszacowujący dokładne praw Estymator przedziałowy — zakres wartości, w obrębie któ
dopodobieństwa (tzn. nie opierający się na przybliżeniu do rego, jak podejrzewamy, leży parametr populacji.
rozkładu Chi-kwadrat) w tablicy kontyngencji (zwykle Estymator punktowy — pojedyncza wartość uzyskana z pró
w tablicy 2 X 2 ), stosowany, gdy częstości oczekiwane są by, która oszacowuje parametr populacyjny.
małe. Fałszywie dodatni — osobnik, który nie ma określonej cho
Dopaaowania porównań post-hoc — stosowane są do korek roby, ale został zdiagnozowany jako chory.
cji wartości p, gdy wykonuje się porównania wielokrotne, Fałszywie ujemny — osobnik, który ma określoną chorobę,
np. poprawka Bonferroniego. ale został zdiagnozowany jako niemający tej choroby.
Dopasowanie modelu zbyt dokładne — model zawierający Format ASCII lub pliku tekstowego — dane dostępne
zbyt wiele zmiennych, np. więcej niż jedną dziesiątą licz w komputerze jako wiersze tekstu.
by osobników w modelu wielokrotnej regresji liniowej. Format danych swobodny — każda zmienna w pliku kompu
Efekt badany — wartość zmiennej odpowiedzi odzwiercie terowym odseparowana jest od następnej pewnym ogra
dlająca badane porównanie, np. różnica w średnich. nicznikiem, często spacją lub przecinkiem.
Efekt leczenia — badany efekt, np. różnica między średnimi Funkcja gęstości prawdopodobieństwa — równanie określa
łub ryzykami względnymi pozwalająca na porównanie jące rozkład prawdopodobieństwa.
efektów leczenia. Funkcja wiążąca — w uogólnionym modelu liniowym jest to
Efekt losowy — wpływ czynnika, o którego poziomach zakła transformacja wartości średniej zmiennej zależnej, mode
da się, że reprezentują losową próbę z populacji. lowanej poprzez liniową kombinację współzmiennych.
Efekt przeniesienia — resztowy efekt poprzedniego leczenia GEE —> uogólnione równanie oszacowania.
w eksperymencie naprzemiennym. GLM —> uogólniony model liniowy.
Efekt stały — efekt, w którym poziomy czynnika obejmują ca Granice ufności — górna i dolna wartość przedziału ufności.
łą badaną populację (np. czynnik „leczenie", którego pozio Granice zgodności — w ocenie powtarzalności jest to zakres
mami są farmakoterapia, leczenie chirurgiczne i radiotera wartości, pomiędzy którymi spodziewamy się napotkać
pia). Jest przeciwieństwem efektu losowego, w którym w populacji 95% różnic pomiędzy powtarzanymi pomiarami.
poziomy są reprezentowane tylko przez próbę z populacji Grupa kontrolna — termin używany w badaniach porów
(np. czynnik „pacjent", którego poziomy reprezentują 20 nawczych, np. eksperymentach klinicznych, do oznacze
pacjentów w randomizowanym eksperymencie kontrolowa nia grupy porównawczej —> kontrola pozytywna i nega
nym). tywna.
Efekt wprowadzenia zdrowych osobników — na skutek włą Hazard — chwilowe ryzyko osiągnięcia punktu końcowego
czenia do badania osobników nie mających jednostki cho w analizie przeżycia.
robowej interesująca odpowiedź (np. śmiertelność) jest Hazard względny (stosunek hazardu) — stosunek dwóch ha
niższa na początku badania, niż oczekiwano by tego zardów, interpretowany w podobny sposób jak ryzyko
w ogólnej populacji. względne.
Eksperyment czynnikowy — pozwala na jednoczesną anali Hipoteza alternatywna — hipoteza na temat badanego efek
zę pewnej liczby badanych czynników. tu, która nie jest zgodna z hipotezą zerową i jest słuszna,
Eksperyment braku pogorszenia — używany do wykazania, gdy hipoteza zerowa jest fałszywa.
że dane leczenie nie jest klinicznie gorsze od innego. Hipoteza zerowa — stwierdzenie przyjmujące brak efektu
Eksperyment klasterowy randomizowany — badanie, w któ w populacji.
rym grupy (klastery) osobników są randomizowane do Histogram — diagram ilustrujący częstości rozkładu zmien
rozmaitych „sposobów leczenia" tak, że każdy osobnik nej ciągłej (względne) przy użyciu połączonych słupków.
w obrębie określonej grupy (klasteru) otrzymuje to samo Pole słupka jest proporcjonalne do częstości (względnej)
leczenie. w zakresie określonym przez granice słupka.
Dodatek D: Słowniczek terminów statystycznych 147

Homoscedastyczność — równość wariancji. Zwana również Kohorta kliniczna — grupa pacjentów z tym samym warun
jednorodnością wariancji. kiem klinicznym, których wyniki obserwujemy w czasie.
I2 — indeks, który może być użyty do kwantyfikacji wpływu Komórka tablicy kontyngencji — oznaczenie poszczególne
niejednorodności statystycznej pomiędzy badaniami go wiersza i poszczególnej kolumny w tablicy.
w metaanalizie. Kontrola — osobnik bez jednostki chorobowej podlegającej
ICC —» współczynnik korelacji wewnątrzklasowej. badaniu w eksperymencie przypadek-kontrola albo osob
Iloraz szans — stosunek dwóch szans (np. szansy choroby nik nieotrzymujący w eksperymencie klinicznym nowego
u osobników narażonych i nienarażonych na czynnik). leczenia.
Często wykorzystywany jako estymator ryzyka względ Kontrole dodatnie — pacjenci w randomizowanym ekspery
nego w badaniu przypadek-kontrola. mencie kontrolowanym (RCT), którzy otrzymują pewną
Iloraz wiarygodności (LR - likelifwod ratio) — stosunek postać leczenia aktywnego porównywanego z nowym spo
dwóch wiarygodności; w testach diagnostycznych LR jest sobem leczenia.
stosunkiem szansy otrzymania określonego wyniku testu Kontrole historyczne — osobnicy, którzy nie zostali włącze
u tych, którzy mają jednostkę chorobową, i u tych, którzy ni do grupy leczenia na początku badania, lecz którzy
jej nie mają. otrzymywali leczenie w przeszłości i zostali wykorzysta
Indeks prognostyczny - określa prawdopodobieństwo, że ni jako grupa porównawcza.
osobnik ma jednostkę chorobową. Zwany również punk Kontrole ujemne — pacjenci w randomizowanym ekspery
tacją ryzyka. mencie kontrolowanym (RCT), którzy nie otrzymują lecze
Interakcja (modyfikacja wpływu) — pojawia się pomiędzy nia aktywnego.
dwoma zmiennymi wyjaśniającymi w analizie regresji, Korekcja Bonferroniego — dopasowanie posthoc wartości p
£dy wpływ jednej ze zmiennych na zmienną zależną zmie W celu uwzględnienia liczby testów wykonywanych
nia się zgodnie z poziomem drugiej zmiennej. W kontek w wielokrotnym testowaniu hipotez.
ście analizy wariancji o interakcji między dwoma czynni Kruskala-Wallisa test — alternatywny test nieparametrycz
kami mówi się, gdy różnice między poziomami jednego ny w stosunku do jednoczynnikowej ANOVA; stosowany
czynnika są różne dla dwóch lub większej liczby poziomów do porównywania rozkładów więcej niż dwóch nie2ależ-
drugiego czynnika. Zwana również efektem modyfikacji. nych grup obserwacji.
Interpolowanie — oszacowanie żądanej wartości, która leży Krzywe Charakterystyki Działającego Odbiornika (ROC
pomiędzy dwoma znanymi wartościami. — receirer operating characteristic curve) — dwu
Istotność statystyczna - wynik testu hipotezy jest istotny wymiarowy wykres czułości w funkcji jeden minus
statystycznie na określonym poziomie (np. 1%), jeżeli ma swoistości dla różnych wartości odcięcia zmiennej cią
my wystarczający dowód do odrzucenia hipotezy zerowej głej w teście diagnostycznym; używany do wyboru
na tym poziomie (np. kiedy p < 0,01). optymalnej wartości odcięcia lub do porównania te
Jackkniftng — metoda oszacowania parametrów i przedzia stów.
łów ufności; każdy z n osobników jest sukcesywnie usu Kwartyle — wartości, które dzielą uporządkowane obserwa
wany z próby, parametr oszacowuje się na podstawie po cje na cztery równe części.
zostałych n - 1 osobników, a ostatecznie uśrednia się Liczba pacjentów wymaganych do leczenia (NNT - number
estymatory każdego parametru. of patients needed to treaf) — liczba pacjentów, której
Jakość dopasowania - miara określająca, w jakim stopniu potrzebujemy w eksperymentalnej grupie leczenia, a nie
wartości uzyskane z modelu zgadzają się z danymi obser w grupie kontrolnej, aby uniknąć uzyskania złego wyni
wowanymi. ku przez jednego z nich.
Jednostka eksperymentalna — najmniejsza grupa osobni Liczba stopni swobody (df) statystyki — wielkość próby mi
ków, których dla celów analizy traktujemy jako niezależ nus liczba parametrów, które należy oszacować do wy
nych. znaczenia statystyki. Wskazuje stopień, co do którego ob
Jednostki drugiego poziomu — osobnicy na drugim, najniż serwacje mogą się swobodnie zmieniać.
szym poziomie struktury hierarchicznej; każda jednost LRS —> statystyka ilorazu wiarygodności.
ka poziomu drugiego (np. oddział) obejmuje klaster jed Maskowanie —> zaślepianie.
nostek pierwszego poziomu (np. pacjentów). Mediana — miara położenia będąca wartością środkową upo
Jednostki pierwszego poziomu — osobnicy na najniższym rządkowanych obserwacji.
poziomie struktury hierarchicznej; grupa jednostek po Medycyna poparta dowodami (EBM — evidence-based me-
ziomu pierwszego (np. pacjenci) składa się na klaster dicine) — stosowanie aktualnie najlepszych dowodów
osobników zagnieżdżonych w obrębie jednostek poziomu w podejmowaniu decyzji na temat opieki nad poszczegól
drugiego (np. oddział). nymi pacjentami.
Kappa Cohena (K) — miara zgodności między dwoma zbio Metaanaliza — systematyczny, ilościowy przegląd łączący
rami pomiarów kategorialnych tych samych osobników. wyniki odpowiednich badań w celu wytworzenia i zbada
Gdy K = 1, występuje idealna zgodność; gdy K = 0, zgod nia całościowego estymatora badanego efektu.
ność nie jest lepsza niż uzyskana przez przypadek. Metoda najmniejszych kwadratów — metoda oszacowania
Kappa ważona — udoskonalona kappa Cohena, mierząca parametrów w analizie regresji, oparta na minimalizacji
zgodność, uwzględniająca stopień, co do którego niezgod sumy kwadratów reszt.
ne są dwa zbiory powiązanych porządkowych kategorial Metody rangowe —> testy nieparametryczne.
nych pomiarów. MLE —¥ oszacowanie największej wiarygodności.
Kategorie wzajemnie się wykluczające — każdy osobnik Moc — prawdopodobieństwo odrzucenia hipotezy zerowej,
może należeć wyłącznie do jednej kategorii. gdy jest ona fałszywa.
148 Dodatki
Modalna — wartość pojedynczej zmiennej, która w zbiorze Modyfikacja wpływu —> interakcja.
danych pojawia się najczęściej. Nachylenie — gradient linii regresji, pokazujący średnią
Model — w ujęciu algebraicznym opisuje związek między zmianę zmiennej zależnej dla jednostkowej zmiany
dwoma lub większą liczbą zmiennych. zmiennej wyjaśniającej.
Model brzegowy —> uogólnione równanie oszacowania. Niejednorodność kliniczna — występuje, gdy włączone do
Model efektów losowych — model dla struktury hierar metaanalizy badania obejmują rozmaite populacje pacjen
chicznej danych, takiej jak struktura dwupoziomowa tów, mają różne definicje zmiennych etc, co stwarza pro
z jednostkami poziomu 1 zagnieżdżonymi w obrębie jed blemy z brakiem kompatybilności.
nostek poziomu 2, w którym efekt losowy jest źródłem Niejednorodność statystyczna — występuje w metaanalizie,
błędu przypisywanym do jednostek poziomu 2. gdy istnieje istotna zmienność między poszczególnymi es~
Model efektów stałych - zawiera wyłącznie efekty stałe. tymatorami badanego efektu.
Stosowany w metaanalizie, gdy brak jest dowodu staty Niejednorodność wariancji — nierówność wariancji.
stycznej niejednorodności. Nieobciążony — nieposiadający obciążenia.
Model hierarchiczny —> model wielopoziomowy. Nomogram Altmana — diagram, który wiąże ze sobą liczeb
Model losowych nachyleń - hierarchiczny model efektów ność próby z mocą testu statystycznego, poziomem istot
losowych, który zakłada dla struktury dwupoziomowej, ności i standaryzowaną różnicą.
źe związek liniowy pomiędzy wartością średnią zmiennej Nomogram Pagana — diagram, który wiąże ze sobą praw
zależnej i pojedynczą wspólzmienną dla każdej jednostki dopodobieństwo przedtestowe testu diagnostycznego
drugiego poziomu ma nachylenie losowo zmieniające się z wiarygodnością i prawdopodobieństwem po wykona
wokói nachylenia średniego i przecięcie losowo zmienia niu testu. Stosowany jest zwykle do zamiany tego
jące sie wokół przecięcia średniego. pierwszego prawdopodobieństwa w prawdopodobień
Model losowych przecięć — hierarchiczny model efektów stwo a posteriori
logowych, który zakłada dla struktury dwupoziomowej, Obciążenie — systematyczna różnica między wynikami uzy
że związek liniowy pomiędzy wartością średnią zmien skanymi z badania a prawdziwym stanem rzeczy.
nej zależnej i pojedynczą współzmienną dla każdej jed Obciążenie odwołania do pamięci - systematyczne znie
nostki drugiego poziomu ma takie samo nachylenie dla kształcenie danych, wynikające ze sposobu, w jaki osob
wszystkich jednostek poziomu drugiego i przecięcie lo nicy przypominają sobie przeszłe zdarzenia.
sowo zmieniające się wokói przecięcia średniego. Obciążenie przydziału — systematyczne zniekształcenie da
Model mieszany — niektóre parametry w modelu mają efek nych, wynikające ze sposobu, w jaki osoby są przypo
ty losowe, pozostałe mają efekty stałe. rządkowane do grup leczenia.
Model regresji Poissona — postać uogólnionego modelu li Obciążenie publikacyjne — tendencja do publikowania przez
niowego używana do powiązania jednej lub większej licz czasopisma wyłącznie prac zawierających wyniki istotne
by zmiennych wyjaśniających z logarytmem oczekiwanej statystycznie.
częstości 2darzenia (np. choroby), gdy obserwacja osobni Obciążenie wyboru — systematyczne zniekształcenie da
ków ulega zmianie, lecz zakłada się, że częstość w okre nych, wynikające ze sposobu, w jaki osobnicy są włącza
sie badania pozostaje stała. ni do badania.
Model regresyjny jednej zmiennej — zawiera jedną zmien Obserwacja — czas, przez który osobnik pozostaje w bada
ną wynikową i jedną zmienną wyjaśniającą. niu, od chwili wejścia do chwili, gdy uzyska określony
Model regresyjny proporcjonalnych hazardów wg Coxa — wynik (np. zachoruje) lub opuści badanie, lub badanie się
używany w analizie przeżycia do badania równoczesnych zakończy.
wpływów pewnej liczby zmiennych wyjaśniających na Obserwacje powiązane — odnoszą się do odpowiedzi osobni
przeżycie. ków dopasowanych lub tych samych osobników w dwóch
Model regresyjny wielowymiarowy — zawiera co najmniej różnych sytuacjach.
dwie zmienne wynikowe i co najmniej dwie zmienne wy Odchylenie standardowe (SD - standardized difference) —
jaśniające. miara rozrzutu równa pierwiastkowi kwadratowemu
Model regresyjny wielu zmiennych — dowolny model regre z wariancji.
syjny mający pojedynczą zmienną wynikową i co naj Odchylenie standaryzowane normalne (SND - Standardi
mniej dwie zmienne wyjaśniające. zed Normal Deviate) — zmienna losowa o rozkładzie nor
Model wielopoziomowy — używany do analizy danych hie malnym ze średnią zero i jednostkową wariancją.
rarchicznych. Jednostki poziomu pierwszego (np. pacjen Odporność — test jest odporny na pogwałcenie jego założeń,
ci) są zagnieżdżone w obrębie jednostek drugiego pozio gdy wartość p i moc nie są w sposób znaczny zaburzone
mu (np. oddziały), które mogą być zagnieżdżone wewnątrz przez te pogwałcenia.
jednostek poziomu trzeciego (np. szpitale), itd. Zwany Odstępstwa od protokołu — pacjenci wprowadzeni do ekspe
również modelem hierarchicznym. rymentu klinicznego, niespełniający kryteriów protokołu.
Model wymienny — zakłada, że procedura oszacowania nie Odtwarzalność — stopień, w którym można uzyskać te same
zostanie zaburzona, jeżeli w obrębie klastera zostaną wy wyniki w różnych okolicznościach, np. przy użyciu dwóch
mienione dwie obserwacje. metod pomiaru lub przez dwóch obserwatorów.
Model wysycony — model, w którym liczba zmiennych jest Okres wymywania — przedział czasu pomiędzy końcem jed
większa od liczby osobników lub jej równa. nego leczenia i początkiem drugiego leczenia w ekspery
Modele zagnieżdżone — dwa modele regresyjne, z których mencie naprzemiennym. Pozwala na rozproszenie efek
większy włącza współzmienne modelu mniejszego i do tów resztowych pierwszego leczenia.
datkowe wspótzmienne. Operat losowania — lista wszystkich osobników w populacji.

Osobolata obserwacji — suma liczby lat, w których w bada Prawdopodobieństwo przed testem — prawdopodobieństwo
niu był obserwowany każdy osobnik. a priori, że osobnik ma jednostkę chorobową, oszacowa
Oszacowanie największej wiarygodności (MLE — maxi- ne, zanim dostępny jest wynik testu diagnostycznego.
mum likelihood estimatioris — iteracyjny proces oszaco Prawdopodobieństwo subiektywne — stopień osobistego
wania parametru maksymalizujący wiarygodność. przekonania o zajściu zdarzenia.
Parametr — miara podsumowująca (np. średnia, proporcja), Prawdopodobieństwo warunkowe — prawdopodobieństwo
która charakteryzuje rozkład prawdopodobieństwa. Jego zdarzenia pojawiającego się, jeżeli pojawiło się inne zda
wartość odnosi się do populacji. rzenie.
Percentyle — wartości, które dzielą uporządkowane obser Projekt naprzemienny — każdy osobnik otrzymuje więcej
wacje na 100 równych części, niż jeden sposób leczenia podlegającego badaniu, jeden
Placebo — leczenie obojętne, zewnętrznie identyczne z lecze po drugim, w porządku losowym.
niem aktywnym, porównywane z leczeniem aktywnym Projekt całkowicie zrandomizowany — jednostki ekspery
w ujemnie kontrolowanym eksperymencie w celu określe mentalne są przyporządkowane losowo do grup leczenia.
nia efektu terapeutycznego leczenia aktywnego poprzez Proporcja — stosunek liczby badanych zdarzeń do całkowi
wyłączenie z niego efektu samego otrzymywania leku; uży tej liczby zdarzeń w próbie lub w populacji.
wane również przy wprowadzaniu procedury zaślepiania. Prosta regresja liniowa — prostoliniowy związek między
Podejście Bayesowekie do wnioskowania — w celu oceny pojedynczą zmienną zależną i pojedynczą zmienną wyja
przekonania a posteriori na temat hipotezy używa się nie śniającą.
tylko bieżącej informacji (np. z eksperymentu), lecz rów Prosta regresji liniowej — linia prosta, która określa wyra
nież uprzedniego przekonania osobnika (często subiek żenie algebraiczne wiążące dwie zmienne.
tywnego) na temat sprawdzanej hipotezy. Protokół — pełny, pisemny opis wszystkich aspektów ekspe
Podejście do analizy przeżycia odwołujące się do tablic rymentu klinicznego.
trwania życia — sposób wyznaczenia prawdopodobieństw Próba — podzbiór populacji.
przeżycia, gdy czas potrzebny do osiągnięcia punktu koń Próba dogodna — grupa osobników, co do której przyjmuje
cowego jest znany wyłącznie w obrębie określonego inter my, że jest reprezentatywna w populacji, z której aostala
wału. pobrana. Nie została ona wybrana losowo, ale ze względu
Pomiary powtarzane — badana zmienna jest mierzona dla na łatwy dostęp do niej.
tego samego osobnika w wielu okolicznościach (np. przy Próba ucząca — pierwsza próba, używana do wytworzenia
różnych okazjach). modelu (np. w regresji łub analizie dyskryminacyjnej).
Poprawka ze względu na ciągłość - poprawka stosowana Wyniki są poświadczane przez drugą próbę (walidacyjną).
w statystykach testowych w celu korekcji dopasowania Próba walidacyjną — druga próba, używana do poświadcze
rozkładu dyskretnego rozkładem ciągłym. nia wyników uzyskanych z próby uczącej.
Populacja — cala grupa osobników, którymi jesteśmy zainte- Próbkowania losowe — każda możliwa próba o określonej
reaowani. wielkości, mająca jednakowe prawdopodobieństwo wy
Powiązanie — proces wyboru osobników podobnych do sie brania z populacji.
bie ze względu na zmienne, które mogą wpływać na ba Próbkowanie kwotowe — próbkowanie o charakterze nielo-
daną odpowiedź. sowym, w którym badacz wybiera próbę osobników speł
Powtarzalność — stopień, w którym pomiary powtarzane niających określone „normy".
przez tego samego obserwatora w identycznych warun Próbkowanie systematyczne — próba zostaje wybrana z po
kach pomiaru zgadzają się ze sobą. pulacji przy zastosowaniu jakiejś systematycznej metody,
Poziom — określona kategoria zmiennej jakościowej lub a nie metody opartej na przypadku.
czynnika. Próby niezależne — żadna jednostka w żadnej próbie nie
Poziom istotności — prawdopodobieństwo wybrane na po jest powiązana z jednostkami w innych próbach.
czątku badania, które pozwala na odrzucenie hipotezy ze Przecięcie — wartość zmiennej zależnej w równaniu regre
rowej, gdy wartość p jest od niego mniejsza. Zazwyczaj sji, odpowiadająca wartości (wartościom) zmiennej zależ
wybiera się poziom 0,05. nej (zmiennych zależnych) równej zero.
Prawdopodobieństwo — miara szansy zajścia zdarzenia. Przeciętna — ogólne określenie dla miary położenia.
Zmienia się od 0 do 1. —> prawdopodobieństwo warunko Przedział odniesienia (zakres normalny) — zakres wartości
we, a priori i a posteriori (zwykle centralnych 95%) zmiennej, które są zazwyczaj
Prawdopodobieństwo częstościowe — proporcja liczby przy obserwowane u zdrowych osobników. Zwany również za
padków zajścia zdarzenia, jeżeli eksperyment powtarza kresem normalnym lub zakresem odniesienia.
ny byt wielokrotnie. Przedział ufności (CI — confidence interval) dla parame
Prawdopodobieństwo a posteriori — późniejsze prawdopo tru — zakres wartości, w obrębie którego jesteśmy pew
dobieństwo, stopień wiary osobnika, że zdarzenie się po ni na 95% (zazwyczaj), że leży w nim prawdziwa wartość
jawi, oparty na wierze uprzedniej i nowych faktach (np. populacyjna parametru. Ściślej mówiąc, przy powta
wynikach testu). rzanym próbkowaniu, leży w nim 95% estymatorów para
Prawdopodobieństwo a priori — stopień wiary osobnika, że metru.
zdarzenie się pojawi, oparty na spostrzeżeniach subiek Przegląd —> metaanaliza.
tywnych i/lub obserwacjach retrospektywnych. Przegląd systematyczny — sformalizowane i przekonujące
Prawdopodobieństwo po teście — prawdopodobieństwo a po łączenie wyników ze wszystkich odpowiednich prac uzy
steriori, że osobnik ma jednostkę chorobową, wyznaczone skanych z podobnych badań na temat tego samego stanu
na podstawie informacji o wyniku testu diagnostycznego. zdrowotnego.
150 Dodatki
Przełożenie — miara stopnia, w jakim wartość zmiennej wy Replikacja — osobnik ma więcej niż jeden pomiar zmiennej
jaśniającej dla danego osobnika różni się od średniej przy danej okazji.
zmiennej wyjaśniającej w analizie regresji. Reszta — w analizie regresji różnica między wartościami ob
Przesiew — proces mający na celu sprawdzenie, którzy serwowaną i dopasowaną dla zmiennej zależnej.
osobnicy w pozornie zdrowej populacji mają najprawdo 2
Rozkład Chi-kwadrat (%) — rozkład ciągły prawoskośny,
podobniej (lub czasami, którzy nie mają) badaną jednost określony przez liczbę stopni swobody, użyteczny w ana
kę chorobową. lizie danych kategorialnych.
Przydział systematyczny — w eksperymencie klinicznym pa Rozkład częstości — pokazuje częstość pojawiania się każ
cjenci są przydzielani do leczenia w systematyczny, nie dej możliwej obserwacji lub kategorii.
zaś losowy sposób. Rozkład dwumianowy — dyskretny rozkład prawdopodo
Przypadek - osobnik mający jednostkę chorobową, podlega bieństwa binarnej zmiennej losowej, użyteczny pr2y
jący badaniu w eksperymencie przypadek-kontrola. wnioskowaniu na temat proporcji.
Przypadki rozpowszechnienia — pacjenci, którzy mają jed Rozkład dwumodalny — dane, których rozkład ma dwa „piki".
nostkę chorobową w określonej chwili lub w określonym Zwany również rozkładem bimodalnym.
przedziale czasu, lecz którzy uprzednio zostali zdiagnozo- Rozkład empiryczny — obserwowany rozkład zmiennej.
wani. Rozkład F — prawoskośny rozkład ciągły, określony prze2
Przypadki zapadalności — pacjenci, którzy właśnie zostali liczbę stopni swobody licznika i mianownika stosunku,
zdiagnozowani. który go definiuje; użyteczny w porównywaniu dwóch
Punkt końcowy pierwszorzędny — wynik, który w ekspery wariancji i więcej niż dwóch średnich w analizie wa
mencie klinicznym najlepiej odzwierciedla zyski płynące riancji.
z nowego typu leczenia. Rozkład Gaussa —> rozkład normalny.
Punkt procentowy - percentyl rozkładu. Wskazuje propor Rozkład jednomodalny — ma pojedynczy „pik".
cję rozkładu, która leży na prawo (tj. ogon po prawej stro Rozkład lognormalny — prawoskośny rozkład prawdopodo
nie), na lewo (tj. ogon po lewej stronie) lub oba ogony: pra bieństwa, którego logarytm podlega rozkładowi normal
wo- i lowostronny. nemu.
Punkt wpływający — wartość, która jeżeli zostanie usunię Rozkład normalny standaryzowany — szczególny rozkład
ta z analizy regresji, doprowadzi do zmiany jednego lub normalny, ze średnią równą zero i wariancją równą je
kilku estymatorów parametru. den.
Punktacja ryzyka —> indeks prognostyczny. Rozkład normalny (Gaussa) — ciągły rozkład prawdopodo
Punkty końcowe drugorzędne — wyniki w eksperymentach bieństwa o kształcie dzwonu, symetryczny; jego parame
klinicznych, które nie mają zasadniczej wagi. trami są średnia i wariancja.
R2 — proporcja zmienności całkowitej zmiennej zależnej Rozkład Poissona — dyskretny rozkład prawdopodobieństwa
w analizie prostej lub wielokrotnej regresji wytłumaczo zmiennej losowej, reprezentującej liczbę zdarzeń poja
na przez model. Jest subiektywną miarą jakości dopaso wiających się losowo i niezależnie z ustaloną przeciętną
wania. częstością.
Randomizacja — pacjenci zostają przydzieleni do grupy le Rozkład prawdopodobieństwa — rozkład teoretyczny opisa
czenia w sposób losowy (oparty na przypadkowości). ny modelem matematycznym. Pokazuje prawdopodobień
Może podlegać stratyfikacji (kontroli wpływu ważnych stwa wszystkich możliwych wartości zmiennej losowej.
efektów) lub klasterowaniu (zapewniającemu w przybli Rozkład prawdopodobieństwa ciągły — zmienna losowa
żeniu równe wielkości grupy leczenia). określająca rozkład jako ciągły.
Randomizacja klasterowa — losowe przyporządkowanie do Rozkład prawdopodobieństwa dyskretny — zmienna losowa
leczenia grup osobników, a nie poszczególnych osobni definiująca rozkład przyjmujący wartości dyskretne.
ków. Rozkład próbkowania proporcji — rozkład proporcji z próby
RCT —» eksperyment kontrolowany randomizowany. uzyskany po wzięciu z populacji powtarzanych prób
Regresja do średniej — zjawisko, w którym podzbiór warto o ustalonej wielkości.
ści ekstremalnych powoduje pojawienie się wyników, któ Rozkład próbkowania średniej — rozkład średnich z próby
re przeciętnie są mniej ekstremalne, np. wysocy ojcowie uzyskany po wzięciu z populacji powtarzanych prób
mają niższych (lecz nadal wysokich) synów. o ustalonej wielkości.
Regresja logistyczna — rodzaj uogólnionego modelu liniowe Rozkład równomierny — nie ma „pików", ponieważ każda
go, używanego do powiązania jednej lub większej liczby wartość jest równie prawdopodobna.
zmiennych wyjaśniających z logitem oczekiwanej propor Rozkład skośny — rozkład danych jest asymetryczny, ma
cji osobników z określonym wynikiem, gdy odpowiedź długi ogon z prawej strony z kilkoma dużymi wartościa
jest binarna. mi (skośny dodatnio) lub długi ogon z lewej strony z kilko
Regresja logistyczna porządkowa — postać regresji logi ma niskimi wartościami (skośny ujemnie).
stycznej używana, gdy zwykła zmienna wynikowa ma Rozkład symetryczny — dane centrowane wokół jakiegoś
więcej niż dwie kategorie. punktu środkowego. Kształt rozkładu po lewej stronie
Regresja logistyczna warunkowa — postać regresji logistycz punktu środkowego jest lustrzanym odbiciem kształtu po
nej stosowana, gdy osobnicy w badaniu są sparowani. stronie prawej.
Regresja wielomianowa — nieliniowa (np. kwadratowa, sze Rozkład t (t-Studenta) — rozkład ciągły, którego kształt jest
ścienna, czwartego stopnia) zależność pomiędzy zmienną podobny do rozkładu normalnego, określony przez liczbę
zależną a jedną lub większą liczbą zmiennych wyjaśnia stopni swobody. Jest szczególnie użyteczny przy wnio
jących. skowaniu na temat średniej.

Rozkład t- Studenta —> rozkład t. tość jest porównywana ze znanym rozkładem prawdopo
Rozpowszechnienie — liczba (proporcja) osobników z jed dobieństwa w celu uzyskania wartości p.
nostką chorobową w danej chwili (rozpowszechnienie Statystyka testu Walda — używana do testowania istotności
punktowe) lub w obrębie określonego przedziału czasu parametru w modelu regresyjnym; podlega standaryzo
(rozpowszechnienie okresowe). wanemu rozkładowi normalnemu.
Rozpowszechnienie punktowe — liczba osobników z jednost Stosunek częstości zachorowalności — częstość względna
ką chorobową (lub procent podatnych na chorobę) w okre zdefiniowana jako stosunek dwóch częstości zachoro
ślonej chwili. walności.
Rozrzut zaniżony — pojawia się, gdy wariancja resztowa jest Stosunek hazardu —> hazard względny.
mniejsza niż przewidywana przez określony model regre- Suma brzegowa w tablicy kontyngencji — suma częstości
syjny (np. dwumianowy lub Poissona). w danym wierszu tablicy (lub w kolumnie).
Rozrzut zawyżony — pojawia się, gdy wariancja resztowa Swoistość — proporcja osobników niemających jednostki
jest większa niż przewidywana przez określony model chorobowej, prawidłowo zidentyfikowanych przez test
regresyjny (np. dwumianowy lub Poissona). diagnostyczny.
Rozstęp — różnica między największą i najmniejszą obser Szansa — stosunek prawdopodobieństw dwóch dopełniają
wacją. cych się zdarzeń, zazwyczaj prawdopodobieństwa po
Rozstęp międzydecylowy — różnica między 10. a 90. per- siadania choroby i prawdopodobieństwa jej nieposiada
centylem; zawiera 80% centralnych uporządkowanych ob nia.
serwacji. Ślepa podwójnie -> zaślepianie.
Rozstęp międzykwartylowy — różnica między 25. a 75. per- Średnia —> średnia arytmetyczna.
centylem; zawiera 50% centralnych uporządkowanych ob Średnia arytmetyczna — miara położenia uzyskana przez
serwacji. podzielenie sumy wartości przez liczbę wartości.
Różnica standaryzowana — iloraz używany w nomogramie Średnia geometryczna — miara położenia dla danych, któ
Altmana i wzorach Lehra, wyrażający klinicznie ważną rych rozkład jest prawoskośny. Jest antylogarytmem
różnicę w leczeniu jako wielokrotność odchylenia stan średniej arytmetycznej logarytmów danych.
dardowego. Średnia ważona — modyfikacja średniej arytmetycznej uzy
RR —5> ryzyko względne. skana przez dołączenie wag do każdej wartości 2miennej
Ryzyko choroby — prawdopodobieństwo zachorowania w zbiorze danych.
w określonym czasie. Obliczane jako liczba nowych przy Tablica 2x2 — tablica kontyngencji częstości z dwoma wier
padków choroby w tym okresie, podzielona przez liczbę szami i dwoma kolumnami.
osobników bez tej choroby na początku okresu. Tablica kontyngencji — dwuwymiarowa tablica, której ele
Ryzyko względne (RR) — stosunek dwóch wartości ryzyka, mentami są częstości.
zwykle ryzyka choroby w grupie osobników narażonych Test Bartletta — używany do porównywania wariancji.
na pewien czynnik, podzielonego przez ryzyko u osobni Test Chi-kwadrat — używany dla danych częstości; testuje
ków nienarażonych. hipotezę zerową o braku powiązania między czynnikami
Rzetelność — ogólne pojęcie obejmujące powtarzalność, od definiującymi tablice kontyngencji. Używany również do
twarzalność i zgodność. sprawdzania różnic w proporcjach.
SD —» odchylenie standardowe. Test Chi-kwadrat modelu — zazwyczaj odnosi się do testo
Selekcja krokowa —> wybór modelu automatyczny. wania hipotezy zerowej w analizie regresji, że wszystkie
Selekcja postępująca —> wybór modelu automatyczny. parametry związane ze współzmiennymi są równe zero;
Selekcja wsteczna -> wybór modelu automatyczny. jest oparty na statystyce różnicy dwóch ilorazów wiary
SEM —» błąd standardowy średniej. godności.
Skurczenie — proces stosowany przy estymacji parametrów Test diagnostyczny — stosowany we wspomaganiu lub sta
w modelu efektów losowych, mający na celu przeniesie wianiu diagnozy określonego stanu.
nie estymatora badanego efektu dla każdego klasteru bli Test dwustronny — w hipotezie alternatywnej nie zostaje
żej średniego efektu dla wszystkich klasterów. określony kierunek badanego efektu.
SND —> odchylenie standaryzowane normalne. Test F —> test F stosunku wariancji.
Statystyka — estymator parametru populacyjnego w próbie. Test F stosunku wariancji (test F) — używany do porówny
Statystyka — obejmuje metody zbierania, podsumowywania, wania dwóch wariancji przez porównanie ich stosunku
analizy i wyciągania wniosków z danych. z rozkładem F.
Statystyka C — mierzy pole pod krzywą ROC i może być uży Test hipotezy (test istotności) — proces, w którym używa
ta do porównania testów diagnostycznych dla tego samego się próby do oszacowania tego, jak silny jest dowód bra
stanu. ku słuszności hipotezy zerowej w populacji.
Statystyka ilorazu wiarygodności (LRS) — równa jest wy Test ilorazu wiarygodności — porównywanie dopasowania
rażeniu -2 razy stosunek log wiarygodności modelu wy- dwóch modeli regresyjnych lub testowania istotności jed
syconego do log wiarygodności modelu badanego. Jest nego lub zespołu parametrów w modelu regresyjnym za
używana do oszacowania adekwatności dopasowania pomocą statystyki ilorazu wiarygodności.
i może być nazywana dewiancją lub częściej -2 log wia Test istotności —> test hipotezy.
rygodności. Różnica w LRS w dwóch modelach zagnież Test jednostronny — hipoteza alternatywna specyfikuje kie
dżonych może służyć do porównywania modeli. runek badanego efektu.
Statystyka testu — wielkość uzyskana z danych z próby, Test Kolmogorowa-Smirnowa — określa, czy dane mają roz
używana do testowania hipotezy statystycznej. Jej war kład normalny.
152 Dodatki
Test Levene'a — testuje hipotezę zerową, że co najmniej Uwikłanie — gdy co najmniej jedna zmienna wyjaśniająca
dwie wariancje są równe. wiąże się zarówno ze zmienną wyjściową, jak i z innymi
Test Log-rank — nieparametryczne podejście do porównywa zmiennymi wyjaśniającymi, tak że trudno jest oszacować
nia dwóch krzywych przeżycia. niezależny wpływ każdej pojedynczej zmiennej wyjaśnia
Test McNemary — porównuje proporcje w dwóch powiązanych jącej na zmienną wyjściową.
grupach przy użyciu statystyki testowej Chi-kwadrat. Wariancja — miara rozproszenia równa kwadratowi odchy
Test parametryczny — test hipotezy, w którym przyjmuje lenia standardowego.
się pewne założenia na temat rozkładu danych. Wariancja niewyjaśniona —> zmienność resztowa.
Test Shapiro-Wilka — określa, czy dane mają rozkład nor Warstwa — podgrupa osobników; zwykle osobnicy w war
malny. stwie mają zbliżoną charakterystykę. Zwana czasami blo
Test t dla dwóch prób —> test f dla zmiennych niepowiąza kiem.
nych. Wartości dopasowane — prognozowane wartości zmiennej
Test t dla jednej próby — bada, czy średnia zmiennej różni odpowiedzi w analizie regresji odpowiadające szczególnej
się od jakiejś wartości hipotetycznej. wartości (wartościom) zmiennej wyjaśniającej (zmien
Test f dla zmiennych niepowiązanych (test f dla dwóch nych wyjaśniających).
prób) — testuje hipotezę zerową, że dwie średnie z grup Wartości predykcyjne ujemne — proporcja osobników
niezależnych są równe. z ujemnymi wynikami testu, którzy nie mają jednostki
Test t dla zmiennych powiązanych — testuje hipotezę zero chorobowej.
wą, że średnia zbioru różnic wartości powiązanych jest Wartość odskakująca — obserwacja wyróżniająca się wśród
równa zero. większości danych i niezgodna z pozostałymi danymi.
Test U Manna-Whitneya —> test sumy rang Wilcoxona. Wartość p — prawdopodobieństwo uzyskania pewnych wy
Test Wilcoxona rangowanych znaków — test nieparame ników lub nieco silniejszych, gdy prawdziwa jest hipote
tryczny porównujący powiązane wartości. za zerowa.
Test sumy rang Wilcoxona (dwie próby) — test nieparame Wartość predykcyjna dodatnia — proporcja osobników z do
tryczny porównujący rozkłady dwóch niezależnych grup datnim wynikiem testu, którzy mają jednostkę chorobową.
wartości. Równoważny testowi U Manna- Whitneya. Wartość wyrównująca (offset) — zmienna wyjaśniająca,
Test złotego standardu — pozwala ustalić ostateczną diagno której współczynnik regresji jest ustalony w uogólnionym
zę co do określonego stanu. modelu liniowym jako jedność; jest logarytmem całkowi
Test znaków — test nieparametryczny, który bada, czy róż tej liczby osobolat (miesięcy/dni, etc.) obserwacji w mo
nice mają tendencję do posiadania dodatniego, czy ujem delu Poissona, gdy zmienna zależna jest zdefiniowana nie
nego znaku; czy obserwacje mają tendencję do posiada jako częstość, lecz jako liczba pojawiających się zdarzeń.
nia wyższych (lub niższych) wartości niż mediana; czy Ważność — zbliżenie do prawdy.
proporcja wartości z daną cechą jest większa (lub mniej Wiarygodność — prawdopodobieństwo danych w znanym
sza) niż 0,5. modelu. W kontekście testów diagnostycznych opisuje
Testy nieparametryczne (testy niezależne od rozkładu) — prawdopodobieństwo obserwowanych wyników testu,
testy hipotez niewykorzystujące założeń na temat rozkła gdy jednostka chorobowa jest obecna (lub nie występuje).
du danych. Zwane czasami testami wolnymi od rozkładu Wielokrotna regresja liniowa — liniowy model regresyjny,
lub metodami rangowymi. w którym istnieje pojedyncza zmienna numeryczna zależ
Testy niezależne od rozkładu —> testy nieparametryczne. na i dwie lub większa liczba zmiennych wyjaśniających.
Transformacja logitowa (logistyczna) — transformacja sto Wielomianowa regresja logistyczna — postać regresji logi
sowana do proporcji lub prawdopodobieństwa p taka, że stycznej używana, gdy nominalna zmienna wynikowa ma
logit(p) = ln{p/(l - p)] = In (szansy). więcej niż dwie kategorie. Zwana również polichotomicz-
Trend — wartości zmiennej wykazują tendencję do wzrostu ną regresją logistyczną.
lub spadku z upływem czasu. Wnioskowanie — proces wyciągania wniosków o populacji
Twierdzenie Bayesa — prawdopodobieństwo a posteriori na podstawie danych z próby.
zdarzenia/hipotezy jest proporcjonalne do iloczynu jego Współczynnik korelacji Pearsona —> współczynnik korela
prawdopodobieństwa a priori i wiarygodności. cji.
Uogólnione równanie oszacowania (GEE — generalized es- Współczynnik korelacji (Pearsona) — miara ilościowa, zmie
timating equation) — używane w dwupoziomowej struk niająca się od -1 do +1, określająca, do jakiego stopnia
turze hierarchicznej do oszacowania parametrów i ich punkty na diagramie rozrzutu dostosowują się do linii
błędów standardowych, biorące pod uwagę klasteryzację prostej. —> współczynnik korelacji rangowej Spearmana.
danych bez odnoszenia się do parametrycznego modelu Współczynnik korelacji rangowej —> współczynnik korela
dla efektów losowych; czasami określane jako uśrednia cji rangowej Spearmana.
nie populacyjne lub brzegowe. Współczynnik korelacji rangowej Spearmana — nieparame
Uogólniony model liniowy (GLM — generalized linear mo tryczna alternatywa współczynnika korelacji Pearsona;
del) — model regresyjny w ogólnej postaci, wyrażony daje miarę związku między dwoma zmiennymi.
przez funkcję wiążącą, która wiąże ze sobą średnią war Współczynnik korelacji wewnątrzklasowej (ICC — intra-
tość zmiennej zależnej (której rozkład znamy, np. normal class correlation coefficient) — w strukturze dwupo
ny, dwumianowy lub Poissona) z liniową funkcją współ- ziomowej wyraża zmienność między klasterami jako pro
zmiennych. porcję całkowitej zmienności; reprezentuje korelacje
Uśredniany model populacyjny —¥ uogólnione równanie pomiędzy dwoma losowo wybranymi jednostkami pozio
oszacowania. mu 1 w jednym losowo wybranym klasterze.

Współczynnik powtarzalności Brytyjskiego Instytutu Zachorowalność —> zapadalność.
Standaryzacji — maksymalna różnica, która ma szan Zakres normalny —» przedział odniesienia.
sę pojawić się pomiędzy dwoma powtarzanymi pomia Zależność liniowa — narzuca związek prostoliniowy między
rami. dwoma zmiennymi.
Współczynnik regresji logistycznej — współczynnik regre Zapadalność (zachorowalność) — liczba nowych przypadków
sji cząstkowej w równaniu regresji logistycznej. choroby w określonym okresie podzielona przez liczbę po
Współczynnik śmiertelności — częstość zgonów. datnych osobników w chwili rozpoczęcia lub w punkcie
Współczynnik zmienności — odchylenie standardowe po środkowym okresu.
dzielone przez średnią (często wyrażany w procentach). Zaślepienie (iriaskowanie) — sytuacja, kiedy pacjent, klini
Współczynniki regresji — parametry (np. nachylenie i prze cysta i osoba oceniająca wynik badania w eksperymencie
cięcie w prostej regresji) opisujące równanie regresji. klinicznym nie są świadomi przydziału do badania (po
Współczynniki regresji cząstkowej — parametry, inne niż dwójne zaślepienie), lub kiedy pacjent jest świadomy
parametr przecięcia, opisujące model regresji wielu otrzymywanego leczenia, lecz osoba oceniająca wyniki
zmiennych. nie jest tego świadoma.
Wspulliniowość — pary zmiennych wyjaśniających w anali Zaślepienie pojedyncze —> zaślepienie.
zie regresji, które są bardzo silnie skorelowane, tj. któ Zmienna — dowolna zmieniająca się wielkość.
rych współczynniki korelacji są bardzo bliskie ±1. Zmienna binarna (dychotomiczna) — zmienna kategorialna
Współpraca Cochrane — międzynarodowa sieć klinicystów, z dwoma kategoriami.
metodologów i użytkowników, którzy w sposób ciągły Zmienna ciągła — zmienna numeryczna nieposiadająca dla
uaktualniają przeglądy systematyczne i udostępniają je wartości innych ograniczeń niż narzucone stopniem do
innym, kładności techniki pomiarowej.
Współzmienna —t zmienna wyjaśniająca. Zmienna dychotomiczna —^ zmienna binarna.
Wybór modelu automatyczny — metoda wyboru zmiennych, Zmienna dyskretna — zmienna numeryczna przybierająca
które mają zoetać włączone do modelu matematycznego, wyłącznie wartości dyskretne.
np. postępująca, wsteczna, krokowa, wybór wszystkich Zmienna ilościowa —> zmienna numeryczna.
podzbiorów. Zmienna jakościowa —> zmienna kategorialna.
Wybór wszystkich podzbiorów —> wybór modelu automa Zmienna kategorialna (jakościowa) — każdy osobnik należy
tyczny. do jednej z pewnej liczby rozdzielnych kategorii zmien
Wykres leśny — diagram używany w metaanalizie, pokazu nej.
jący oszacowywane efekty w każdym badaniu lub ich Zmienna losowa — wielkość, która może przybierać każdą
średnie (wraz z przedziałami ufności). ze zbioru wzajemnie wykluczających się wartości z okre
Wykres „łodyga z liśćmi" — połączenie diagramu i tablicy ślonym prawdopodobieństwem.
używane do ilustracji rozkładu danych. Podobny jest do Zmienna niezależna —> zmienna wyjaśniająca.
histogramu i pokazuje dane w kierunku wzrostu ich Zmienna nominalna — zmienna kategorialna, której katego
wielkości. rie nie mają naturalnego uporządkowania.
Wykres Kaplana-Meiera — krzywa przeżycia, na której wy Zmienna numeryczna (ilościowa) — zmienna przyjmująca
kreśla się prawdopodobieństwo przeżycia w funkcji cza wartości dyskretne lub ciągłe.
su od chwili początkowej. Używany jest, gdy znane są do Zmienna odpowiedzi —» zmienna zależna.
kładne czasy osiągnięcia punktu końcowego. Zmienna porządkowa — zmienna kategorialna, której kate
Wykres kołowy — diagram pokazujący rozkład częstości gorie są w jakiś sposób uporządkowane.
zmiennej kategorialnej lub dyskretnej. Koło podzielone Zmienna predykcyjna —> zmienna niezależna.
jest na podobszary po jednym dla każdej „kategorii"; po Zmienna tymczasowa — zmienna leżąca na drodze przyczy
le każdego podobszaru jest proporcjonalne do częstości nowej między zmienną wyjaśniającą a badanym wyni
występowania tej kategorii. kiem.
Wykres normalności — diagram służący do wizualnego Zmienna wyjaśniająca (współzmienna, niezależna, pre
oszacowania normalności rozkładu danych; linia prosta dykcyjna) — zmienna (zazwyczaj oznaczana jako x) uży
na tym wykresie wskazuje na normalność. wana do prognozowania zmiennej zależnej w analizie re
Wykres punktowy — diagram, na którym każda wartość gresji.
zmiennej jest reprezentowana przez punkt na osi pozio Zmienna wynikowa główna — zmienna odnosząca się do
mej (lub pionowej). głównego celu badania.
Wykres skrzynkowy — diagram ilustrujący rozkład zmien Zmienna zależna (odpowiedzi) — zmienna (zwykle oznacza
nej; wskazuje medianę, górny i dolny kwartyl, często tak na przez y), która jest prognozowana przez zmienne wy
że wartości maksimum i minimum. jaśniające w analizie regresji. Zwana jest również zmien
Wykres słupkowy lub kolumnowy — wykres ilustrujący ną wynikową.
rozkład zmiennej kategorialnej albo dyskretnej, ukazują Zmienna zależna od czasu — zmienna wyjaśniająca w ana
cy osobne poziome lub pionowe słupki dla każdej „kate lizie regresji (np. regresji Poissona lub analizie przeżycia
gorii", o długościach proporcjonalnych do (względnej) Coxa), która przybiera różne wartości dla danego osobni
częstości występowania tej „kategorii". ka w różnych chwilach czasu podczas badania.
Wzory Lehra — mogą być stosowane do obliczania optymal Zmienne ślepe (zmienne wskaźnikowe indeksujące) — k - 1
nych wielkości prób, wymaganych dla niektórych testów zmiennych binarnych tworzonych w analizie regresji ze
hipotez, gdy moc określona jest jako 80% lub 90%, a po zmiennych kategorialnych nominalnych lub porządkowych
ziom istotności jako 0,05. z liczbą kategorii k > 2, pozwalających na porównanie
154 Dodatki
każdej z k - 1 kategorii z kategorią odniesienia. Zwane są nie) lub mniejsza (zaniżone rozproszenie) niż oczekiwana
również zmiennymi wskaźnikowymi indeksującymi. na podstawie modelu Poissona.
Zmienne wskaźnikowe indeksujące —> zmienne ślepe. Zmienność losowa — zmienność, która nie może być przypo
Zmienność błędu —> zmienność resztowa. rządkowana do żadnych wyjaśnionych źródeł.
Zmienność ekstradwumianowa — pojawia się, gdy warian Zmienność resztowa (wariancja niewyjaśniona, zmienność
cja resztowa jest większa (podwyższone rozproszenie) lub błędu) — wariancja zmiennej, która pozostaje po usunię
mniejsza (zaniżone rozproszenie) niż oczekiwana na pod ciu zmienności przyporządkowanej badanym czynnikom.
stawie modelu dwumianowego. Jest to zmienność niewyjaśniona przez model, a w tabli
Zmienność ekstra-Poissonowska — pojawia się, gdy wa cy ANOVA jest kwadratem średniej reszt.
riancja resztowa jest większa (podwyższone rozprosze

SKOROWIDZ
Analiza(y) dyskryminacyjna 94, 146 Błąd systematyczny informacyjny 33 Efekt losowy 147
— kowariancji 78, 146 obserwatora 33 — prosty 93
— na bazie leczenia 38, 146 odwołania do pamięci i wyboru 40 — przeniesienia 147
— przejściowe 36, 146 publikacyjny 33 — resztkowy 34
— przeżycia 8 6 , 1 2 1 , 146 uwikłania 33, 36 — stały 147
-regresji 117 — w testowaniu hipotez 46 — wprowadzenia zdrowych osobników
liniowej 74 Bootstrapping 31, 146 33, 39, 147
— — — wielokrotnej 79 Eksperyment 32
Poissona 86, 87 — braku pogorszenia 45, 147
— — — wielozmienna 92 Chi-kwadrat 140, 145 — czynnikowy 34, 147
warunkowa 82 — dla wspótzmiennych 81, 89 - I fazy 3 6
wielozmienna Poissona 92 Chorobowość 42 - I I fazy 3 6
— wariancji (ANOYA) 133, 146 Cochrane Collaboration 118,154 - I I I fazy 36
jednoczynnikowa 57, 58, 146 Czas przeżycia 121 — klasterowy randomi2owany 147
powtarzanych pomiarów 113, 146 Częstość 11, 84, 146 — kliniczny 36, 147
— z zamiarem leczenia 146 — obserwowana 43, 63, 66, 140 — kontrolowany randomizowany (stero
— zagregowanych poziomów 115,116 — oczekiwana 63 wany losowo, RCT) 36, 100, 147
ANOVA patrz: Analiza wariancji — skumulowana 146 — podwójnie ślepy 37
— spodziewana 146 — pojedynczo ślepy 37
— względna 16, 84, 85, 146 — przewagi 147
Badanie braku pogorszenia 45 — zachorowalności 146 — równoległy 147
— eksperymentalne 32, 146 Czułość 146 — równoważności 45, 147
— epidemiologiczne 32, 146 — modelu 79, 82, 146 — sterowany losowo 36, 100, 147
— kliniczne 73 — testu 104 — ślepy podwójnie 37
— koliortowe 32, 39, 146 Czynnik ryzyka 39, 146 pojedynczo 37
dynamiczne 39 Estymator 147
ustalone 39 — jednorodności statystycznej 118
— longitudinalne 33, 146 Dane 10, 146 — kwadratów zwyczajnych najmniej
— nierandomizowane 93 — brakujące 14 szych 88
— obserwacyjne 3 2 , 146 — ciągłe 10 -precyzyjny 28
— pilotażowe 98, 146 — dyskretne 10 — przedziałowy 28, 30, 1-47
— prospektywne 33, 146 — kategorialne 12, 14, 16, 60, 63, 66 — punktowy 28, 147
— przekrojowe 32, 33, 146 — klasteryzowane 84, 112, 115, 116 — średniej w populacji nieobciążony 28
powtarzalne 32, 33 — nominalne 10 — wiarygodności największej 88
— przesiewowe 73 — numeryczne (ilościowe) 10, 12, 14,
— przypadek-kontrola 32, 42, 43, 82, 16, 48, 51, 54, 57
147 — pochodne 11 Format ASCII lub pliku tekstowego 12,
— retrospektywne 33, 146 — porządkowe 10 147
— równoważności 45 — przeżycia 121 — danych swobodny 12, 147
Baza obserwacyjna danych 40 — transformowane 146 — wprowadzania danych 12
Blok 34, 146 -ucięte 11,121,146 Funkcja gęstości prawdopodobieństwa
Błąd doboru systematyczny 33 lewostronnie 121, 146 22, 147
— informacyjny systematyczny 33 prawostronnie 121, 147 — łącząca 88
— obserwatora systematyczny 33 Daty 12, 14 — tożsamościowa 88
— odwołania do pamięci i wyboru syste Decyle 20, 147 — wiążąca 147
matyczny 40 Deklaracja CONSORT 36, 37, 38, 147
— próbkowania 28, 146 Dewiancja 89, 147
— przydziału systematycznego 36 Diagram 16 GEE patrz: Uogólnione równanie oszaco
— publikacyjny systematyczny 33 — rozrzutu 74, 147 wania
— resztowy 73 Dodatni fałszywie 147 Granice ufności 147
— I rodzaju 46, 146 Dokładność 147 — zgodności 107, 147
— II rodzaju 46, 146 Dopasowania porównań post-hoc 147 Grupa(y) kontrolna 33, 147
— spowodowany odwołaniem do pamięci Dopasowanie 42, 73, 74, 78, 79, 89, 91 — niepowiązane 63
33 — modelu zbyt dokładne 147 — powiązane 63
oszacowaniem 33 Dyspersja 20
przydziałem 33
— standardowy 28, 29 EBM patrz: Medycyna poparta dowodami Hazard 147
elastyczny 115, 116, 146 Efekt badany 46, 47, 110, 147 — względny 122, 147
proporcji 29, 146 najmniejszy 98 Hipoteza alternatywna 44, 147
średniej (SEM) 28, 146 — klasteryzacji 116 — zerowa 44, 46, 147
— systematyczny doboru 33 — leczenia 147 Histogram 16, 82, 147
156 Indeks
Homoscedastyczność (jednorodność) wa Metoda Bayesowska 124, 125 Obserwacje 10, 149
riancji 96, 148 — Kaplana-Meiera 121 — niezależne 74
— najmniejszych kwadratów 72, 148 — powiązane 149
— rangowa 148 Odchylenie standardowe 21, 29, 149
Iloraz szans 42, 82, 148 — regresji dla danych klasteryzowanych — standaryzowane normalne 149
oszacowany 42 113, 115, 116 Odległość Cooka 79
— wiarygodności (LR) 105, 148 Miara niepewności 22 Odporność 149
statystycznej 81 — podsumowująca 112,115 Odstępstwa od protokołu 149
Indeks prognostyczny 94, 148 MLE patrz: Oszacowanie największej Odtwarzalność 107, 149
— rzetelności 107 wiarygodności Ogranicznik 12
— zdolności predykcyjnej 82 Moc 46, 93, 98, 99, 148 Okres wymywania 34, 149
Interakcja 35, 93, 148 Modalna 18, 19, 149 Operat losowania 28, 149
Interpolowanie 148 Model 149 Osobo-lata obeerwacji 150
Istotność statystyczna 148 — brzegowy 149 Oszacowanie największej wiarygodności
— Chi-kwadrat 89 (MLE) 88, 150
— efektów losowych 115, 116, 117,
Jaokhnifing 94, 148 145, 149
Jakość dopasowania 148 stałych 149 Parametr 22, 26, 28, 150
Jednorodność statystyczna 118 — ekspotencjalny 122 Percentyle 20, 150
— wariancji (homoscedaatyczność) 96, — Gompertza 122 Placebo 36, 150
148 — hierarchiczny 149 Plik ASCII 12
Jednostka(i) doświadczalna 34 — liniowy uogólniony 88, 153 — tekstowy 12
— eksperymentalna 148 — matematyczny 88 Podejście aprioryczne 23
— poziomu drugiego 148 — mieszany 149 — Bayesowskie do prawdopodobieństwa
pierwszego 148 — nachyleń losowych 117, 149 124
— przecięć losowych 115,117,149 do wnioskowania 150
— regresji Poissona 149 — brzegowe 116
Kappa Cohena H8 — regresyjny 122 — częstościowe 22, 124
— ważona 107, 148 jednej zmiennej 149 — do analizy przeżycia odwołujące sie do
Kategoria(e) odniesienia 78 proporcjonalnych hazardów (ryzyka) tablic trwania życia 150
— wzajemnie sie wykluczające 148 wg Coxa 82, 123, 149 — subiektywne 22
Kohorta historyczna 39 wielowymiarowy 149 — uśrednienia populacji 116
— kliniczna 40, 148 wielu zmiennych 149 Podsumowanie przeżycia 121
Komórka tablicy łtontyngencji 148 — szeregów czasowych hierarchiczny Pole pod krzywą 23
Kontrola 42, 43, 148 115 Pomiary powtarzane 112,150
— błędów 14 klasterowy 115 Poprawka ze względu na ciągłość 150
— dodatnia 36, 148 mieszany 115 Populacja 10, 28, 150
— historyczna 148 przekrojowy 115 Porównywanie przeżycia 122
— negatywna 36, 148 wielopoziomowy 115 Powiązanie 150
— pozytywna 36, 148 -Weibulla 122 Powtarzalność 107, 150
— ujemna 36, 148 — wielopoziomowy 149 Powtarzanie pomiarów 34
Korekcja Bonferroniego 148 — wymienny 149 Poziom 150
Korelacja 69 — wysycony 89, 149 — istotności 45, 46, 47, 98, 150
— liniowa 69 — zagnieżdżony 89, 149 Prawdopodobieństwo 22, 150
Kryteria włączenia 38 Modelowanie statystyczne 93 — a posteriori 124, 125, 150
— wykluczenia 38 Modyfikacja wpływu 149 — a priori 124, 125, 150
Krzywa(e) Kaplana-Meiera 121, 123 Moment mieszany Pearsona 69 — częstościowe 150
— mocy 47 — po teście 125, 150
— ROC 105, 106, 148 — przed testem 125, 150
Kwadrat średniej resztowy 57 Nachylenie 74, 149 — przeżycia 121
Kwartyle 20, 148 Narzędzie przesiewu 104 — subiektywne 150
Niejednorodność kliniczna 119,149 — warunkowe 124, 150
— statystyczna 149 Prewalencja choroby 104, 125
Leczenie kontrolne 36 — wariancji 96, 149 Procenty 11
Liczba(y) losowe 132 Nieobciążony 149 Proces najwyższej wiarygodności 81
— pacjentów wymaganych do leczenia NNT patrz: Liczba pacjentów wymaga Projekt całkowicie zrandomizowany 34,
(NNT) 110, 148 nych do leczenia 150
— stopni swobody 24, 31, 148 Nomogram Altmana 98, 99, 100, 133, — czynnikowy 34
Linearyzacja wariancji 26, 27 149 — naprzemienny 34, 35, 150
Linia regresji 72 — Fagana 124, 149 — równoległy 34, 35
Liniowość 26 Normalizacja wariancji 26, 27 Proporcja 11, 150
— fałszywie dodatnia 82
ujemna 82
Maskowanie 36, 37, 148 Obciążenie 107, 149 — pojedyncza 60, 61
Mediana 18, 19, 20, 148 — odwołania do pamięci 149 Protokół 37, 150
Medycyna poparta dowodami (EBM) — przydziału 149 — rozbieżności 38
110, 118, 148 — publikacyjne 119,149 Próba(y) 10, 28, 150
Metaanaliza 118, 119, 148 — wyboru 149 — dogodna 28, 150
Indeks 157
Próba(y) kwotowa 28 Rozkład dwumodalny 151 Stosunek częstości 84
— losowa 28 — empiryczny 151 zachorowalności 152
— niezależne 150 — F 24, 128, 151 - F 74
— reprezentatywna 28 — Gaussa 22, 23, 26, 27, 28, 29, 30, — hazardu 122, 152
— ślepa podwójnie 152 96, 136, 137, 151 — wiarygodności 89, 125
— ucząca 94, 150 — jednomodalny 151 Struktura dwupoziomowa zmiennej
— walidacyjna 94, 150 — lognormalny 24, 151 112
Próbkowanie 28 — normalny 22, 23, 26, 27, 28, 29, 30, Suma brzegowa w tablicy kontyngencji
— kwotowe 150 96, 136, 137, 151 63, 152
— losowo 150 standaryzowany 127, 128, 151 — całkowita 63
— ro2kladu proporcji 29 — Poissona 25, 151 Swoistość 82, 152
— średniej 28 — prawdopodobieństwa 22, 24, 44, 151 Szansa 152
— systematyczne 28, 150 ciągły 22, 151
Pracciccie 150 dyskretny 22, 25, 151
Przecie tna 150 — próbkowania proporcji 29,151 Ślepa podwójnie 152
Przedział odniesienia 2 0 , 104, 150 średniej 28, 151 Średnia arytmetyczna 18, 19, 20, 21,
— ufności 30, 45, 48, 54, 75, 110 — przekrzywiony w lewo (ujemnie sko 23, 25, 29, 152
dla parametru 150 śny) 17 — geometryczna 18, 19, 152
— - dla proporcji 30, 31 w prawo (dodatnio skośny) 17 — ważona 18, 19, 152
— — dla średniej 30, 31 — reszt 76, 80
Przegląd systematyczny 118, 150 — równomierny 151
Przełożenie 78, 151 — skośny 151 Tablica 2x2 152
Przesiew 151 ujemnie 17 — analizy wariancji 73
Przeżycie, podsumowanie 121 dodatnio 17 — klasyfikacyjna 81
— porównywanie 122 — symetryczny 17, 151 — kontyngencji 63, 66, 140, 152
— prawdopodobieństwo 121 — t 24, 30, 127, 151 — przeżycia 121
Przyczynowość 33 — teoretyczny 22, 24 Test Barletta 58, 96, 152
Przydział losowy 36 Rozpowszechnienie 152 — Chi-kwadrat 63, 66, 67, 100, 152
— systematyczny 36, 151 — punktowe 33, 152 jednorodności Cochrana 119
Przypadek 4 2 , 4 9 , 151 Rozproszenie 20, 21 modelu 152
— chorobowości 42 Rozrzut zaniżony 152 dla trendu 66, 68
— rozpowszechnienia 151 — zawyżony 152 — diagnostyczny 104, 152
— zapadalności 42, 151 Rozstęp 20, 21, 152 w ujęciu Bayesowskim 124
Punht Końcowy drugorzędny 151 — międzydecylowy 20, 152 — dla pojedynczej proporcji 60
— — pierwszorzędny 151 — międzykwartylowy 20, 152 — dokładny Fishera 63
— procentowy 3 0 , 151 — oparty na percentylach 21 — Duncana 57
— wpływający 74, 151 Równanie estymacyjne uogólnione — dwustronny 44, 152
Punktacja 11 116 — F (stosunku wariancji) 79, 96, 97,
— ryzyka 94, 95, 151 — oszacowania uogólnione (GEE) 116, 152
145, 153 — Fishera dokładny 147
— regresji logistycznej 81 — hipotezy (istotności) 44, 152
Randomizacja 36, 37, 38, 151 Różnica(e) jakości 119 — ilorazu wiarygodności 152
— blokowa 36 — standaryzowana 98, 152 — jednorodności Chi-kwadrat Cochrana
— klasterowa 36, 151 RTC patrz: Eksperyment kontrolowany 119
— warstwowa 36 randomizowany — jednostronny 44, 152
Rangi dla przedziałów ufności dla media Ryzyko 84 — Kolmogorowa-Smirnowa 96, 152
ny 129 — choroby 40, 152 — Kruskala-Wallisa 58, 59, 148
Rangowanie 51 — względne 40, 41, 81, 82, 152 — Levene'a 58, 96, 135, 153
Regresja do średniej 73, 151 Rzetelność 152 — Long-rank 122, 123, 153
— liniowa 72, 73 — McNemary 63, 65, 153
— - prosta 72, 74, 75, 76, 139, 150 — nieparametryczny 45, 97, 153
wielokrotna 72, 78, 139, 153 Selekcja automatyczna 91 — parametryczny 153
— logistyczna 82, 151 — kontroli 42 — Scheffego 57
multinominalna 82 — krokowa 91, 152 — Shapiro-Wilka 96, 153
porządkowa 82, 151 — postępująca (progresywna) 91, 152 — sumy rang Wilcoxona 54, 56, 130,
warunkowa 82, 151 — wsteczna 91, 152 153
wielomianowa 153 SEM patrz: Błąd standardowy średniej — t 48, 49, 79, 99, 134, 137
— Poissona 84, 85 Skorygowanie 78, 79 — t dla zmiennych niepowiązanych (dla
— wielomianowa 91, 151 Skurczenie 152 dwóch prób) 54, 153
Reguła dodawania prawdopodobieństwa Specyficzność testu 104 powiązanych (dla jednej próby)
22 Stabilizacja wariancji 26, 27 51, 52, 153
— mnożenia prawdopodobieństwa 22 Statystyka 10, 22, 152 — U Manna-Whitney'a 54, 153
Replikacja 151 — podsumowująca 16 — Wilcoxona rangowanych znaków 51,
Reszta 151 — próby 28 53, 129, 153
Rozkład Chi-kwadrat 24, 127, 151 — stosunku wiarygodności (-2 log wiary — złotego standardu 104, 153
— częstości 16, 17, 151 godność) 89 — znaków 49, 50, 60, 61, 128, 153
empiryczny 16, 22 — testu 44, 152 Testowanie hipotez 44, 45, 46
— dwumianowy 25, 151 Walda 141, 152 wielokrotne 46
158 Indeks
Transformacja 26 Współczynnik nachylenia (gradient) 72 Zgodność wyników 107, 108, 109
— hiperboliczna 27 — powtarzalności Brytyjskiego Instytutu Zmiany w czasie 85
— logarytmiczna 26 Standaryzacji 107, 154 Zmienna 10, 154
— logitowa (logistyczna) 27, 153 — przecięcia 72 -binarna 10,12,78,110,154
— pierwiastkowania kwadratowego 26 — regresji 72, 154 — ciągła 13, 154
— podnoszenia do kwadratu 27 cząstkowej 78, 154 — dychotomiczna 10, 12, 78, 110,
Trend 153 logistycznej 81, 154 154
Twierdzenie Bayesa 124, 153 Poissona 85 — dyskretna 13, 154
— śmiertelności 154 — ilościowa 10, 90, 107, 110, 154
— zmienności 154 — indeksująca 78, 90, 141, 142, 143,
Ujemny fałszywie 147 Wybór modelu automatyczny 154 154
Umieralność 84 — wszystkich podzbiorów 154 — jakościowa 10, 17, 78, 107, 154
Uogólnione równanie oszacowania (GEE) Wykres Kaplana-Meiera 154 — kategorialna 10, 17, 78, 107, 154
116, 145, 153 — kolumnowy klasteryzowany 17 — kodowana pojedynczo 12
Uwikłanie 153 segmentowany 16, 17 — kodowana wielokrotnie 12, 13
— kołowy 16, 154 — losowa 22, 154
— lejkowy 119 — mieszająca 93
Wariancja 20, 21, 23, 25,153 -leśny 119,154 — niezależna 72, 79, 90, 154
— niewyjaśniona 73, 153 — „łodyga z liśćmi" 17, 154 — nominalna 12, 13, 90, 154
— próbkowania 28 — normalności 96, 154 — numeryczna 10, 90, 107, 110, 154
— resztowa 57, 73 — punktowy 16, 17, 60, 154 — porządkowa 13, 78, 90, 154
Warstwa 153 — rozrzutu 16, 17 — pośrednia 94
Wartość brakująca 13, 15 — skrzynkowy 17, 20, 135, 154 — predykcyjna 72, 79, 90, 154
— dopasowana 72, 74, 77, 153 — słupkowy (kolumnowy) 16, 17, 154 — standaryzowana 23
-- obserwowana 43, 72, 74 Wynikli) binarny 118 — ślepa 78, 90, 141, 142, 143, 154
— odcięcia 105 — istotny 44 — wskaźnikowa 78, 90, 141, 142, 143,
— odskakująca 14, 15, 17, 74, 79, 153 — końcowy podstawowy 36 154
— p 44, 153 wtórny 36 — tymczasowa 154
— predykcyjna dodatnia 105, 153 — leczenia 46 — uwikłana 93
ujemna 105, 153 — nieistotny 44 — wskaźnikowa 78, 90, 141, 142, 143,
— przeciętna 18, 19 — numeryczny 118 154
— resztowa 72, 74, 79, 80 — sparowane 107 — wyjaśniająca 72, 79, 90, 154
— wpływająca 79 — ujemny fałszywie 147 — wynikowa binarna 81
— wyrównująca 85, 153 Wzory Lehra 98, 154 główna 154
Ważność 153 — zależna (wynikowa, odpowiedzi) 72,
:
— 2 log wiarygodność 146 154
Wiarygodność 88, 153 Zachorowalność 33, 84, 154 — zależna od czasu 154
— cząstkowa 122 Zakres normalny 20, 154 Zmienność 20, 21
— testu 104 — odniesienia 20 — ekstradwumianowa 155
Wielkość badania 38 — równoważności 45 — ekstra-Poisaonowska 86, 155
— efektu 46 Zależność 119 — losowa 155
-próby 34,46,98,99 — liniowa (współliniowość, kolinearność) niewyjaśniona 34
Wnioskowanie 153 74, 79, 94, 154 — miedzygrupowa 21, 57
Współc2ynnik korelacji Pearsona 69, Założenie dystrybucyjne 26 — obserwacji 46, 98
70, 71, 131, 138, 153 — liniowości 90, 92 — wewnątrzgrupowa (niewyjaśniona,
Spearmana 131, 138 Zapadalność 42, 151 resztowa) 21, 57, 155
rangowej 70, 71, 153 Zaślepienie 36, 37, 154 Związek liniowy 72, 97
wewnątrzklasowej (ICC) 107, 116, Zdarzenie dopełniające 22
145, 153 — warunkowe 22
Indeks 159

Statystyka Medyczna W Zarysie - A.petrie, C. Sabin

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Statystyka Medyczna W Zarysie - A.petrie, C. Sabin

Uploaded by

Copyright:

Available Formats

Medical Statistics

Wszystkie prawa zastrzeżone.

Redaktor ds. publikacji medycznych: Anna Plewa

Projekt okładki i stron tytułowych: Magdalena Kaczmarczyk

Wydawnictwo Lekarskie PZWL

Przedmowa tłumacza 6 24 Dane kategorialne: dwie proporcje 64

Opracowywanie danych Regresja i korelacja

małżeństwo jest lepsze (lub gorsze) od pozostawania w sta­

Rycina 1.1. Diagram przedstawiający różne typy zmiennych.

PLANOWANIE WPROWADZANIA DANYCH KILKA FORMULARZY DLA PACJENTA

PROBLEMY Z DATAMI I CZASEM

Rycina 3.1. Kontrola błędów w zestawie danych.

3. Kontrola błędów i wartości odskakujące ' 15

4. Graficzna prezentacja danych 17

PODSUMOWYWANIE DANYCH tością w uporządkowanym szeregu. Gdy n jest parzyste, wtedy

Poziom trójolicerydów (mmol/L)

Rycina 5.2. Średnia, mediana i średnia geometryczna poziomu trój-

Na przykład, przypuśćmy, że jesteśmy zainteresowani

5. Opis danych: wartość przeciętna 19

Posługiwanie się percentylami

6. Opis danych: rozproszenie 21

(b) Efekt zmiany średniej

ROZKŁAD NORMALNY (GAUSSOWSKI)

(fi - a) i (fi + a) wynosi 0,68;

Przedziały te mogą zostać użyte do zdefiniowania prze­

7. Rozkłady teoretyczne: rozkład normalny 23

PARĘ SŁÓW USPOKOJENIA Rozkład Chi-kwadrat (Dodatek A3, rycina 8.2)

Rozkład F (Dodatek A5)

DYSKRETNE ROZKŁADY eksperymentu n razy) wynosi rut. Jego wariancja wynosi

8. Rozkłady teoretyczne: inne rozkłady 25

DLACZEGO TRANSFORMOWAĆ? TYPOWE TRANSFORMACJE

Rycina 9.1. Efekty transformacji lo­

Transformacja hiperboliczna, z =1/y

Transformacja logitowa (logistyczna),

Tej transformacji używamy najczęściej do każdej proporcji

DLACZEGO DOKONUJEMY parametru populacyjnego były w każdej próbie dokładnie ta­

PRÓBKOWANIE ROZKŁADU PROPORCJI

10. Próbkowanie i rodzaje próbkowania 29

Gdy wylosowaliśmy próbę z naszej populacji, otrzymaliśmy

11. Przedziały ufności 31

Tablica 12.1. Schematy badań.

Przekrojowe Przekro­ Obser­ Zebranie • Oszacowanie rozpowszech­

Powtarzane Przekro­ Obser­ Zebranie Zebranie Zebranie • Zmiany w czasie

Kohortowe Longitu- Obser­ Zdefiniowanie Obserwacja • Prognoza i wywiad choro­

Przypadek- Longitu- Obser­ Oszaco­ Zdefiniowanie • Etiologia (zwłaszcza dla

Ekspory- Longitu- Ekspery­ Stosowany Obserwacja • Badanie kliniczne dla oceny

Liczba osobników z chorobą BŁĄD SYSTEMATYCZNY

12. Planowanie badania I 33

ZMIENNOŚĆ ne bloki lub warstwy (np. bloki mogą reprezentować różne

Stosowanie Ocena N washout Stosowanie Ocena

13. Planowanie badania II 35

ster 1983. British Medical Journal, 1998, 316, 549.

14. Eksperymenty kliniczne 37

15. Badania kohortowe 39

Oszacowane ryzyko zachorowania = WADY BADAŃ KOHORTOWYCH

15. Badania kohortowe 41

i dlatego oszacowany iloraz szans wynosi

Gdy choroba jest rzadka, iloraz szans jest estymatorem

WADY BADAŃ PRZYPADEK-KONTROLA

16. Badania przypadek-kontrola 43

17. Testowanie hipotez 45

PODEJMOWANIE DECYZJI błędu II rodzaju. Na szczęście jednak wiemy, jakie czynniki

Rycina 18.2. Krzywe mocy, ukazujące zwią­

małżeństwo jest lepsze (lub gorsze) od pozostawania w sta

Przedziały te mogą zostać użyte do zdefiniowania prze

Rycina 9.1. Efekty transformacji lo

DLACZEGO DOKONUJEMY parametru populacyjnego były w każdej próbie dokładnie ta

Przekrojowe Przekro Obser Zebranie • Oszacowanie rozpowszech

Powtarzane Przekro Obser Zebranie Zebranie Zebranie • Zmiany w czasie

Kohortowe Longitu- Obser Zdefiniowanie Obserwacja • Prognoza i wywiad choro

Przypadek- Longitu- Obser Oszaco Zdefiniowanie • Etiologia (zwłaszcza dla

Ekspory- Longitu- Ekspery Stosowany Obserwacja • Badanie kliniczne dla oceny

Rycina 18.2. Krzywe mocy, ukazujące zwią

Gdy grupy odnoszą się do jednego czynnika i są nieza

Rycina 22.1. Wykres punktowy przedstawiający punktację fizycz

1. Proporcja w populacji preferujących aktywny pre 4. Porównujemy ^z wartościami w Dodatku Al:

Możemy więc uznać, że niemal dwie trzecie osobni

1. Definiujemy hipotezę zerową i alternatywną. 4. Porównujemy wartość statystyki testowej z warto

która podlega rozkładowi Chi-kwadrat z 1 stopniem swo

gdzie O i E są częstościami obserwowanymi i oczekiwany

PROSTA REGRESJI LINIOWEJ liwe znalezienie satysfakcjonującej transformacji. Najważ

Rycina 28.3. Rozkład reszt jest w przybliżeniu nor