You are on page 1of 159

Medical Statistics

at a Glance
Aviva Petrie
Head of Biostatistics Unit and Senior Lecturer
Eastman Dental Institute
University College London
256 Grays Inn Road
London WC1X 8LD and
Honorary Lecturer in Medical Statistics
Medical Statistics Unit
London School of Hygiene and Tropical Medicine
Keppel Street
London WC1E7HT

Caroline Sabin
Prof essor of Medical Statistics and Epidemiology
Department of Primary Care and Population Sciences
Royal Free and University College Medical School
Rowland Hill Street
London NW3 2PF

Second edition
Aviva Petrie, Caroline Sabin

Statystyka
medyczna
w zarysie
Ttumaczenie prof. dr hab. J e r z y M o c z k o
© Copyright by Wydawnictwo Lekarskie PZWL, Warszawa 2006

Tłumaczone z Aviva Petrie, Caroline Sabin, Medical Statistics at a Glance, Second edition
© 2005 Aviva Petrie and Caroline Sabin
Published by Blackwell Publishing Ltd
Blackwell Publishing, Inc., 350 Main Street, Malden, Massachusetts 02148-5020, USA
Blackwell Publishing Ltd, 9600 Garsington Road, Oxford 0X4 2DQ, UK
Blackwell Publishing Asia Pty Ltd, 550 Swanston Street, Carlton, Victoria 3053, Australia
The right of the Authors of this Work has been asserted in accordance with the Copyright, Design and Patents Act 1988.
This edition is published by arrangement with Blackwell Publishing Ltd, Oxford. Translated by Wydawnictwo Lekarskie
PZWL from the original English language version.

Responsibility of the accuracy of the translation rests solely with the Wydawnictwo Lekarskie PZWL and is not the respon-
sibility of Blackwell Publishing Ltd.

Wszystkie prawa zastrzeżone.


Przedruk i reprodukcja w jakiejkolwiek postaci całości bądź części książki
bez pisemnej zgody wydawcy są zabronione.

Redaktor ds. publikacji medycznych: Anna Plewa


Redaktor merytoryczny: Anna Nowosielska-Tiuryn
Redaktor techniczny: Małgorzata Chmielewska
Korekta: Zespół

Projekt okładki i stron tytułowych: Magdalena Kaczmarczyk

ISBN 83-200-3312-8

Wydanie I

Wydawnictwo Lekarskie PZWL


00-251 Warszawa, ul. Miodowa 10
tel. +48(22) 695-40-33
Księgarnia wysyłkowa:
tel. +48(22) 695-44-80
infolinia: 0-801-142-080
www.pzwl.pl
e-maił: promocia@pzwl.pi
Skład i łamanie: Mater, Warszawa
Druk i oprawa: Drukarnia Narodowa S.A., Kraków
SPIS TREŚCI

Przedmowa tłumacza 6 24 Dane kategorialne: dwie proporcje 64


Wstęp 8 25 Dane kategorialne: więcej niż dwie kategorie . 66

Opracowywanie danych Regresja i korelacja


1 Rodzaje danych 10 26 Korelacja 69
2 Wprowadzanie danych 12 27 Teoria regresji liniowej . . . ., 72
3 Kontrola błędów i wartości odskakujące . . . 14 28 Przeprowadzanie analizy regresji liniowej . . 74
4 Graficzna prezentacja danych 16 29 Wielokrotna regresja liniowa 78
5 Opis danych: wartość przeciętna 18 30 Wyniki binarne i regresja logistyczna . . . . 81
6 Opis danych: rozproszenie 20 31 Częstości i regresja Poissona 84
7 Rozkłady teoretyczne: rozkład normalny . . . 22 32 Uogólnione modele liniowe 88
8 Rozkłady teoretyczne: inne rozkłady 24 33 Zmienne wyjaśniające w modelach
9 Transformacje 26 statystycznych 90
34 Zagadnienia związane z modelowaniem
Próbkowanie i estymacja statystycznym 93
10 Próbkowanie i rozkłady próbkowania 28
11 Przedziały ufności 30 Ważne zagadnienia
35 Sprawdzanie założeń 96
Planowanie badania 36 Wyznaczanie wielkości próby 98
12 Planowanie badania I 32 37 Prezentacja wyników 101
13 Planowanie badania II 34
14 Eksperymenty kliniczne 36 Zagadnienia dodatkowe
15 Badania kohortowe 39 38 Narzędzia diagnostyczne 104
16 Badania przypadek-kontrola 42 39 Szacowanie zgodności 107
40 Medycyna poparta dowodami 110
Testowanie hipotez 41 Metody dla danych klasteryzowanych . . . . 112
17 Testowanie hipotez 44 42 Metody regresji dla danych klasteryzowanych 115
18 Błędy w testowaniu hipotez 46 43 Przeglądy systematyczne i metaanaliza . . . . 118
44 Analiza przeżycia 121
Podstawowe techniki analizy danych 45 Metody Bayesowskie 124
Dane numeryczne
19 Dane numeryczne: pojedyncza grupa 48 Dodatki
20 Dane numeryczne: dwie grupy powiązane . . 51 A Tablice statystyczne 126
21 Dane numeryczne: dwie grupy niepowiązane . 54 B Nomogram Altmana do obliczeń wielkości
22 Dane numeryczne: więcej niż dwie grupy . . 57 próby 133
C Typowe wydruki komputerowe 134
Dane kategorialne D Słowniczek terminów statystycznych 146
23 Dane kategorialne: pojedyncza proporcja . . . 60 E Skorowidz 156

5
PRZEDMOWA TŁUMACZA

White lie, damned lie, statistics (Małe kłamstwo, wielkie kurs, który trzeba zaliczyć, by dostać się do wymarzonej kli­
łgarstwo, statystyka) — te słowa przypisywane Markowi niki. Prawdziwa potrzeba użycia statystyki pojawia się na
Twainowi, w których opisał stopnie nieprawdy, chyba najle­ wyższych latach, np. przy pisaniu pierwszych prac w ra­
piej oddają stosunek większości „normalnych ludzi" do sta­ mach studenckich towarzystw naukowych. Wtedy to po raz
tystyki. Uważa się ją za narzędzie do manipulowania dany­ pierwszy student staje przed problemem, jak sformułować
mi, pozwalające na pseudonaukowe udowadnianie swoich hipotezy badawcze, jak zebrać materiał do analizy, jak powi­
racji. Wielu z nas, obserwując prognozy statystyczne prezen­ nien być on obszerny, co oznacza termin reprezentatywność,
towane w środkach masowego przekazu, stwierdza, że wie­ jakiego użyć testu statystycznego, jak zinterpretować wyni­
lokrotnie nie zgadzają się one ze stanem faktycznym. Lubi­ ki itd. Powszechny dostęp do komputerów i zainstalowanych
my sytuacje jasne, niedwuznaczne, z których moglibyśmy w nich pakietów statystycznych znakomicie ułatwia sytu­
wywnioskować, że „białe jest białe, a czarne — czarne". Ma­ ację, lecz niestety tylko pozornie. Pojawiają się prace „na­
ło kto zdaje sobie sprawę z faktu, iż statystyka jest tak samo ukowe", w których niezdarne próby użycia statystyki gene­
dobrym i precyzyjnym działem matematyki jak algebra, try­ rują wyłącznie szum informacyjny, a nie prawdziwą wiedzę.
gonometria czy rachunek różniczkowy i całkowy. Stanowi Podobna sytuacja przydarza się słuchaczom studium dokto­
ona część rachunku prawdopodobieństwa i bez problemu ranckiego. Przygotowywana rozprawa doktorska wymaga
stosuje się ją w fizyce, chemii i naukach technicznych. Sto­ bowiem rygorystycznego podejścia metodycznego, z reguły
sowanie statystyki w ekonomii (np. prognozowanie kursów surowo ocenianego przez recenzentów pracy. Również próba
giełdowych, analizy ubezpieczeniowe) również nie budzi publikowania swoich wyników w czasopismach medycznych
większych zastrzeżeń. Nieco inaczej przedstawia się sytu­ często kończy się zwróceniem pracy w celu wykonania po­
acja z zastosowaniem statystyki w naukach medycznych. prawek dotyczących użytych technik statystycznych. W tej
Dane medyczne charakteryzuje duży stopień zmienności sytuacji pozostaje jedynie zlecenie wykonania analiz staty­
zarówno międzyosobniczej, jak i wewnątrzosobniczej. Do­ stykowi, albo też ambitna próba odkurzenia notatek z biosta­
datkowym problemem jest uzyskanie próby o wystarczają­ tystyki i przegryzienia się przez trudny materiał.
cej liczebności (rzadkie jednostki chorobowe, kosztowne Na polskim rynku wydawniczym nie ma niestety dużego
procedury badawcze, zagadnienia etyczne w leczeniu inwa­ wyboru książek poświęconych tej tematyce. Z reguły są to
zyjnym) i z tego względu standardowe techniki statystyczne albo dość stare pozycje, nie uwzględniające najnowszych
często nie mogą być stosowane. Dlatego też w ramach staty­ dokonań w tej dziedzinie, albo przeładowane wiedzą teore­
styki ogólnej wyodrębniła się osobna gałąź wiedzy, zwana tyczną. Dlatego też niezwykle istotna wydaje się inicjatywa
biostatystyką. U źródeł jej dynamicznego rozwoju leżą pra­ skorzystania z najlepszych wzorców dydaktycznych dostęp­
ce Galtona, Pearsona i Fishera z pierwszej połowy XX wie­ nych w literaturze obcojęzycznej. Jedną z takich pozycji jest
ku, aczkolwiek wykorzystuje ona również teorie opracowa­ książka Avivy Petrie i Caroline Sabin, pt. Statystyka me­
ne o wiele wcześniej przez Gaussa, Gosseta i Poissona. Nie dyczna w zarysie, wydana po raz pierwszy przez Blackwell
ma roku, by nie pojawiły się nowe techniki analizy danych Publishing w roku 2000 w ramach serii książek przezna­
biomedycznych, istotnie wzbogacane przez rozwój technolo­ czonych dla lekarzy ...ata Glance. W ciągu pięciu lat książ­
gii komputerowej. Bez użycia komputerów trudno wyobra­ ka ta doczekała się siedmiu (!) wznowień, a w 2005 roku zo­
zić sobie użycie takich metod, jak bootstrapping, jackkni- stała wydana w przeredagowanej i uzupełnionej wersji.
fing, metoda Monte Carlo. W Stanach Zjednoczonych jest polecana przy przygotowa­
Próbę przedstawienia aktualnego stanu wiedzy z tej dzie­ niach do zdania egzaminu państwowego USMLE step 1.
dziny stanowi wydana w 2005 roku ośmiotomowa Encyclo- Jej niezwykła popularność bierze się stąd, że Autorkom
pedia of Biostatistics pod redakcją P. Armitage'a i T. Coltona udało się w znakomity sposób wyważyć ilość wiedzy teore­
— ogromne dzieło o ponad sześciu tysiącach stron zapisa­ tycznej niezbędną do zrozumienia podstawowych pojęć sta­
nych drobnym drukiem. Niestety wiedza ta ma charakter tystycznych i zastosowania praktyczne pojawiające się
hermetyczny i jest niemal całkowicie niedostępna dla prze­ w pracy lekarza. Opisane prostym, lecz precyzyjnym języ­
ciętnego człowieka. Cóż bowiem ma zrobić lekarz, który stu­ kiem rzeczywiste problemy z różnych dziedzin medycyny
diując artykuły naukowe ze swojej dziedziny, napotka takie bardzo dobrze ilustrują sposób użycia rozmaitych technik
sformułowania jak przedział ufności, regresja logistyczna statystycznych przedstawionych w tekście. Autorki w roz­
czy rozkład Poissona? Próba poszukiwania tych terminów sądny sposób podają wzory (tam, gdzie to rzeczywiście ko­
w wydawnictwach encyklopedycznych lub fachowych z za­ nieczne) i całkowicie pomijają dowody potrzebne matematy­
kresu statystyki z miejsca stawia go na przegranej pozycji kom, a nie lekarzom. Nie ogranicza to jednak w żaden
z uwagi na sformalizowany język i kompletnie niezrozumia­ sposób precyzji przekazywanej informacji. Autorki przy­
łe dla niego wzory. wiązują dużą wagę do intuicyjnego zrozumienia zasad leżą­
Na całym świecie w szkolnictwie medycznym wykładane cych u podstaw stosowania rozmaitych technik statystycz­
są metody biostatystyki. Niestety, z reguły przedmiot ten zo­ nych, nie wdając się niepotrzebnie w ich uzasadnianie.
staje umiejscowiony na początkowych latach studiów w ra­ Na książkę tę zwróciłem uwagę już w roku 2000 po jej
mach tzw. przedmiotów podstawowych. Powoduje to najczę­ pierwszym wydaniu, prowadząc zajęcia z biostatystyki dla
ściej, że student traktuje go jako jeszcze jeden niepotrzebny studentów anglojęzycznych w Akademii Medycznej im. Ka-

6
rola Marcinkowskiego w Poznaniu. Kolejne roczniki studen­ nikom studentów wydziałów lekarskich i stomatologicznych,
tów potwierdzają jej niezwykłą przydatność przy przygoto­ jak i słuchaczom studiów doktoranckich na akademiach me­
waniu zarówno do testów w okresie studiów, jak i egzami­ dycznych. Jako niezwykle przydatną znajdą ją również stu­
nu USMLE step 1. Ucieszyła mnie zatem propozycja denci wydziałów fizyki uniwersytetów i politechnik tam,
Wydawnictwa Lekarskiego PZWL przetłumaczenia tej książ­ gdzie otwarte zostały kierunki fizyki medycznej. Może ona
ki na język polski i udostępnienia tej cennej pozycji polskie­ stanowić również znakomity materiał dydaktyczny dla pro­
mu odbiorcy. Jak każdy tłumacz, zdaję sobie sprawę z fak­ wadzących wykłady i ćwiczenia z biostatystyki na wspo­
tu, iż tłumaczenie jest jak kobieta — „wierna nie jest mnianych kierunkach studiów. Może też stanowić nieocenio­
piękna, a piękna nie jest wierna". Problem stanowią nie tyl­ ne źródło fachowych informacji dla każdego lekarza,
ko nieprzetłumaczalne na język polski (ale w pełni zrozu­ zarówno naukowca pracującego w akademickich klinikach,
miale dla naukowców) słowa, takie jak bootstrapping, jack- jak i lekarza praktyka pragnącego poprzez samokształcenie
knifing, ale i specyfika językowa uniemożliwiająca krótkie, poszerzać i doskonalić swoje umiejętności. W sprawdzeniu
jednoznaczne odwzorowanie tekstu. Na przykład, zwięzły zdobytej wiedzy z zakresu biostatystyki może pomóc test za­
angielski termin virological Jailure po konsultacji z wiruso­ mieszczony na stronie internetowej www.medstatsaag.com
logami rozrósł się do „braku efektu terapeutycznego po le­ (niestety nie został jeszcze spolszczony). Mam nadzieję, że
czeniu przeciwwirusowym". Dziękuję serdecznie Kolegom książka ta zdobędzie podobną popularność u polskiego Czy­
lekarzom za poświęcenie mi czasu na skonsultowanie termi­ telnika, jak w krajach zachodnich, i dostarczy mu dużo war­
nologii medycznej i będę wdzięczny za wszystkie uwagi, tościowych i przystępnie podanych informacji.
które mogłyby udoskonalić prezentowaną pracę.
Książka Avivy Petrie i Caroline Sabin, pt. Statystyka Jerzy A. Moczko
medyczna w zarysie jest polecana zarówno kolejnym rocz­
WSTĘP

Książka Statystyka medyczna w zarysie jest skierowana bardziej dostępne i efektywne, niż było w przeszłości. Zmo­
do studentów akademii medycznych, badaczy medycznych, dyfikowałyśmy rozdział o wynikach binarnych i regresji lo­
słuchaczy studiów podyplomowych w zakresie dyscyplin gistycznej (rozdział 30), włączając nowy rozdział o często­
biomedycznych oraz personelu przemysłu farmaceutyczne­ ściach i regresji Poissona (rozdział 31) oraz znacząco
go. Oni wszyscy na pewnym etapie życia zawodowego rozwinęłyśmy pierwotny rozdział „Modelowanie statystycz­
zetkną się z wynikami ilościowymi (własnymi lub innych ba­ ne", tak że składa się on teraz z trzech rozdziałów: „Uogól­
daczy), które będą wymagały krytycznej analizy i interpre­ nione modele liniowe" (rozdział 32), „Zmienne wyjaśniające
tacji. A niektórzy będą oczywiście musieli zdać ten straszli­ w modelach statystycznych" (rozdział 33) oraz „Zagadnienia
wy egzamin ze statystyki! Z tego powodu nieocenione jest związane z modelowaniem statystycznym" (rozdział 34).
właściwe zrozumienie statystycznych koncepcji i metodolo­ Zmodyfikowałyśmy również rozdział 41, który opisuje róż­
gii. W równym stopniu chciałybyśmy rozbudzić entuzjazm ne podejścia do analizy danych sklasteryzowanych, i doda­
Czytelnika dla statystyki co dostarczyć mu praktycznej wie­ łyśmy rozdział 42, o różnych metodach regresyjnych, które
dzy. W tym nowym wydaniu, podobnie jak to było w wyda­ mogą być użyte do analizy tego typu danych, W wydaniu
niu poprzednim, naszym celem jest zapewnienie studentowi pierwszym zamieszczono krótki opis analizy szeregów cza­
i badaczowi, jak również klinicyście napotykającemu w lite­ sowych, z czego zdecydowałyśmy się zrezygnować w dru­
raturze medycznej koncepcje statystyczne, książki, która gim wydaniu, jako że wydawał się zbyt skrótowy, aby być
jest solidna, łatwa w czytaniu, wszechstronna, związana praktycznie użytecznym, a jego rozwinięcie wymagałoby
z tematem i użyteczna w praktycznym zastosowaniu. wyjścia poza przyjęte granice trudności. Z powodu usunię­
Wierzymy, że książka Statystyka medyczna w zarysie cia, jak i dodania pewnych rozdziałów, numeracja rozdzia­
będzie szczególnie użyteczna jako pomoc dla wykładowców łów w wydaniu drugim różni się od tej z poprzedniego wy­
statystyki, również jako źródło odnośników. Struktura wy­ dania, począwszy od rozdziału 30. Większość rozdziałów
dania drugiego pozostaje taka sama jak wydania pierwsze­ w dalszej części książki, które były również w wydaniu
go. Tak jak inne książki z serii ...w zarysie składa się z od­ pierwszym, jeżeli w ogóle, to zmieniła się nieznacznie,
rębnych, dwu-, trzy- lub rzadko czterostronicowych Opisowi każdej techniki statystycznej towarzyszy przy­
rozdziałów, z których każdy omawia inny aspekt statystyki kład jej użycia. Ogólnie, dane do tych przykładów wzięłyśmy
medycznej. Z naszych własnych doświadczeń dydaktycz­ ze wspólnych badań, w których uczestniczyłyśmy my lub na­
nych znałyśmy trudności, jakie napotykali nasi studenci si koledzy; w niektórych przypadkach zaczerpnęłyśmy rze­
podczas zgłębiania statystyki medycznej, i starałyśmy się czywiste dane z wydanych publikacji. Tam, gdzie było to
wziąć je tu pod uwagę. Z tego względu zdecydowałyśmy się możliwe, użyłyśmy tych samych danych w więcej niż jednym
ograniczyć teoretyczną zawartość książki do poziomu wy­ rozdziale, aby odzwierciedlić rzeczywistość analizy danych,
starczającego do zrozumienia użytych procedur, lecz który która rzadko jest ograniczona do jednej techniki lub podej­
nie zaciemnia jeszcze ich praktycznych zastosowań. ścia. Chociaż uważamy, że należy podawać wzory i wyja­
Statystyka medyczna jest obszernym przedmiotem obej­ śniać logikę postępowania, starałyśmy się unikać szczegółów
mującym wielką liczbę zagadnień. W książce podajemy pod­ złożonych obliczeń — większość Czytelników ma dostęp
stawowe koncepcje statystyki medycznej i przewodnik do komputerów i jest mato prawdopodobne, że będą Oni do­
po najczęściej stosowanych procedurach statystycznych. konywali ręcznie obliczeń, może poza tymi najprostszymi.
Epidemiologia jest ściśle powiązana ze statystyką medycz­ Uznałyśmy, że rzeczą niezwykle ważną dla Czytelnika
ną, omawiamy więc podstawowe zagadnienia tej dziedziny, jest umiejętność interpretacji wyników z pakietu kompute­
związane z planowaniem i interpretacją badania. Załączamy rowego. Dlatego tam, gdzie to możliwe, dla zobrazowania
również rozdziały, którymi Czytelnik zainteresuje się jedy­ wyników wybrałyśmy wydruki komputerowe. W pewnych
nie okazjonalnie, lecz które mimo wszystko są fundamental­ sytuacjach, gdy podejrzewałyśmy trudności interpretacyj­
ne dla wielu obszarów badań medycznych; na przykład me­ ne, załączyłyśmy (Dodatek C) kompletne wydruki kompute­
dycyna oparta na dowodach, przeglądy systematyczne rowe z analizy danych i opatrzyłyśmy je adnotacjami. W po­
i metaanaliza, analiza przeżycia i metody bayesowskie. Tłu­ wszechnym użyciu istnieje wiele pakietów statystycznych;
maczymy zasady leżące u podstaw tych zagadnień tak, by chcąc dać Czytelnikowi wskazówkę, jak może się zmieniać
Czytelnik był w stanie zrozumieć i zinterpretować ich wyni­ postać wyników, nie ograniczyłyśmy się do wydruku z ja­
ki, jeżeli takowe zostaną zamieszczone w literaturze. kiegoś szczególnego pakietu, lecz użyłyśmy trzech dobrze
Porządek pierwszych 30 rozdziałów tego wydania odpo­ znanych - SAS, SPSS oraz Stata.
wiada wydaniu pierwszemu. Większość tych rozdziałów po­ W całym tekście jest wiele odwołań mających Czytelniko­
została nie zmieniona w nowym wydaniu. Niektóre zawierają wi ułatwić dotarcie do różnych procedur. Podstawowy ze­
stosunkowo małe zmiany, uwzględniające ostatnie zdobycze, staw tablic statystycznych jest zawarty w Dodatku A. Książ­
oraz odwołania, zmiany wynikają również z reorganizacji ki Neave H. R.: Elementary Statistical Tables, Routledge
materiału. Większe dodatki odnoszą się do stosunkowo zło­ 1981, i Diem K.: Documenta Geigy Scientific Tables, 7. wyd.,
żonych form analizy regresji, które obecnie są używane sze­ Blackwell Publishing, Oxford 1970, obok wielu innych, za­
rzej niż wtedy, gdy przygotowywałyśmy pierwsze wydanie, wierają wersje pełniejsze, których Czytelnik potrzebuje
częściowo dlatego, że związane z tym oprogramowanie jest przy bardziej precyzyjnych obliczeniach przeprowadzanych

8
bez użycia komputera. Słowniczek terminów (Dodatek D) po­ Armitage R, Berry G., Matthews J. F. N.: Statistkal Methods
daje przystępne wyjaśnienia większości użytej terminologii. in Medical Research. Blackwell Science, Oxford 2001.
Wiemy, że największą trudnością, jaką napotyka niesta- Pocock S. J.: Clinical Trials: A Practical Approach. Wiley,
tystyk, jest dobór odpowiedniej techniki. Dlatego przygoto­ Chichester 1983.
wałyśmy dwa schematy blokowe, których można użyć za­
równo w celu podjęcia decyzji co do odpowiedniej metody Jesteśmy niezmiernie wdzięczne Markowi GilthorpeWi
w danej sytuacji, jak i w celu znalezienia jej w prezentowa­ i Jonathanowi Sterne'owi, którzy opracowali nieocenione
nej książce. Oba schematy blokowe zamieszczono przezor­ komentarze i sugestie do drugiego wydania, oraz Richardo­
nie na wewnętrznej stronie okładek, aby zapewnić do nich wi Morrisowi, Fionie Lampe, Shak Hajat i Abulowi Basaro-
łatwy dostęp. wi za ich uwagi na temat pierwszego wydania. Chcemy
Jako narzędzie pomocne w ocenie własnych postępów podziękować każdemu, kto pomógł nam zdobyć dane do
Czytelnik znajdzie interaktywne ćwiczenia zamieszczone przykładów. Oczywiście, bierzemy pełną odpowiedzialność
na naszej stronie internetowej (www.medstatsaag.com). za jakiekolwiek błędy, które pozostały w tekście lub przy­
Strona ta zawiera również pełny zestaw cytowań (niektóre kładach. Chcemy również podziękować Mikowi, Geraldowi,
z nich prowadzą bezpośrednio do Medline) uzupełniających Ninie, Andrew i Karen, którzy ze stoickim spokojem znosili
odnośniki zawarte w tekście i pozwalających odnaleźć nasze przygotowania do wydania pierwszego i żyli z nami
bazowe informacje dotyczące przykładów. Czytelnikom, któ­ podczas trudnych prób opracowania wydania drugiego.
rzy chcieliby dokładniej zgłębić poszczególne dziedziny sta­
tystyki medycznej, możemy polecić następujące książki: Aviva Petrie
Caroline Sabin
Altman D. G.: Practical Statistics for Medical Research. Londyn
Chapman and Hall, Londyn 1991.
1 RODZAJE DANYCH

małżeństwo jest lepsze (lub gorsze) od pozostawania w sta­


DANE I STATYSTYKI nie bezżennym.
Celem większości prowadzonych prac badawczych jest ze­ • Dane porządkowe — kategorie są w pewien sposób
branie danych na temat określonego obszaru badań. Dane uporządkowane. Jako przykład można podać stan zaawan­
Obejmują obserwacje jednej lub wielu zmiennych. Każda sowania choroby (zaawansowany, umiarkowany, łagodny,
wielkość podlegająca zmianom nosi nazwę zmiennej. brak choroby) lub natężenie bólu (ciężki, umiarkowany, ła­
Na przykład możemy zbierać podstawowe informacje kli­ godny, brak bólu).
niczne i demograficzne o pacjentach z określonym schorze­ Zmienna kategorialna jest binarna lub dychotomiczna,
niem, Interesujące nas zmienne mogą obejmować płeć, wiek jeżeli może przyjmować jedynie dwie kategorie. Przykłada­
i wzrost pacjentów. mi mogą być odpowiedzi „tak/nie", „zmarł/żyje", „pacjent
Dane uzyskuje się zazwyczaj z próby, która reprezentu­ jest chory/pacjent jest zdrowy".
je interesującą nas populację. Naszym celem jest znaczące
skondensowanie danych i wydobycie z nich użytecznej in­
formacji. Statystyka obejmuje metody zbierania, podsumo­ DANE NUMERYCZNE (ILOŚCIOWE)
wywania, analizy i wyciągania wniosków z danych: w tym Ten typ danych pojawia się w chwili, gdy zmienne przyjmu­
celu stosujemy techniki statystyczne. ją wartości numeryczne. Dane numeryczne możemy podzie­
Dane mogą przyjmować rozmaite formy. Przed podję­ lić na dwa typy.
ciem decyzji co do wyboru najbardziej odpowiedniej meto­ • Dane dyskretne — występują, gdy zmienne mogą
dy statystycznej musimy wiedzieć, z jakim typem danych przybierać jedynie wartości całkowite. Przykładem mogą
mamy do czynienia. Każda zmienna i odpowiadająca jej da­ być liczby zdarzeń, takie jak liczba wizyt u lekarza rodzin­
na może być albo kategorialna, albo numeryczna (ryci­ nego w ciągu roku lub liczba epizodów chorobowych w cią­
na 1.1). gu ostatnich pięciu lat.
• Dane ciągłe — występują, gdy nie ma innych ograni­
czeń wartości, jakie może przyjmować zmienna, niż te, któ­
DANE KATEGORIALNE (JAKOŚCIOWE)
re ograniczają nas w trakcie wykonywania pomiaru, np.
Ten typ danych pojawia się, gdy każda jednostka może na­ masa ciała lub wzrost.
leżeć wyłącznie do jednej z pewnej liczby oddzielnych kate­
gorii danej zmiennej.
• Dane nominalne — kategorie nie są uporządkowane,
ROZRÓŻNIANIE TYPÓW DANYCH
lecz mają po prostu nadane nazwy. Przykładami mogą być Często wykorzystujemy różne metody statystyczne w zależ­
grupy krwi (A, B, AB i 0) lub stan cywilny (żonaty/wdo­ ności od tego, czy dane są kategorialne, czy też numerycz­
wiec/kawaler itp). W ostatnim przypadku nie zakładamy, że ne. Chociaż rozróżnienie między danymi kategorialnymi
a numerycznymi jest zazwyczaj proste, w pewnych sytu­
acjach może się okazać niejasne. Na przykład, gdy mamy
do czynienia ze zmienną o dużej liczbie uporządkowanych
kategorii (np. skala stopnia bólu z siedmioma kategoriami)
może być trudno ją odróżnić od dyskretnej zmiennej nume­
rycznej. Rozróżnienie między dyskretnymi i ciągłymi dany­
mi numerycznymi może być jeszcze mniej oczywiste, choć
w ogólności ma ono znikomy wpływ na wyniki większości
analiz. Przykładem zmiennej traktowanej często jako dys­
kretna jest wiek (choć tak naprawdę jest to zmienna ciągła).
Zazwyczaj odnosimy się do „wieku w dniu ostatniej roczni­
cy urodzin", a nie do „wieku jako takiego", i dlatego kobie­
ta, która podaje, że ma 30 lat, mogła właśnie obchodzić swo­
je 30. urodziny lub właśnie zbliżać się do 31. rocznicy
urodzin.
Nie należy na początku zapisywać danych numerycznych
jako kategorialnych (np. poprzez zapisywanie grupy wieko­
wej, do której należy pacjent zamiast jego/jej aktualnego
wieku), ponieważ gubi się w ten sposób ważną informację.
Łatwo można dokonać konwersji zebranych danych nume­
rycznych do danych kategorialnych.

Rycina 1.1. Diagram przedstawiający różne typy zmiennych.

10 Opracowywanie danych
Wszystkie wymienione powyżej zmienne w większości
DANE POCHODNE
analiz mogą być traktowane jako zmienne numeryczne. Tam,
W badaniach medycznych możemy też napotkać inne rodza­ gdzie zmienną uzyskuje się z więcej niż jednej wartości (np.
je danych. Obejmują one: licznik i mianownik w procentach), jest rzeczą istotną zapisa­
• Procenty — mogą pojawić się, gdy oceniamy poprawę nie wszystkich tych wartości. Na przykład, 10% poprawa
stanu zdrowia u pacjentów podlegających leczeniu, np. para­ wskaźnika oceny leczenia może mieć rozmaite znaczenie kli­
metr funkcji oddechowej pacjenta (wymuszona objętość wyde­ niczne w zależności od wartości tego wskaźnika przed lecze­
chowa w 1 sekundzie, FEV1) może wzrosnąć o 24% w następ­ niem.
stwie leczenia nowym lekiem. W tym przypadku interesuje
nas raczej stopień poprawy, a nie wartość bezwzględna.
• Proporcje lub ilorazy — czasami możemy napotkać
DANE UCIĘTE
proporcje lub iloraz dwóch zmiennych. Na przykład wskaź­ Dane ucięte możemy napotkać w takich na przykład sytu­
nik masy ciała (BMI), obliczany jako masa osobnika (kg) po­ acjach:
2
dzielona przez kwadrat jego/jej wzrostu (m ), jest często • Jeżeli mierzymy dane laboratoryjne, używając narzę­
używany w celu oszacowania nadwagi lub niedowagi. dzia, które jest w stanie zarejestrować dane powyżej pew­
• Częstości — częstości chorób. Liczba zachorowań nego poziomu, to żadne wartości pomiarowe leżące poniżej
wśród obiektów badania jest dzielona przez całkowitą licz­ tego poziomu nie zostają zidentyfikowane. Na przykład, je­
bę lat obserwacji wszystkich osobników w tym badaniu żeli mierzymy poziomy wirusa poniżej poziomu jego wykry­
(rozdział 31). Dane takie są powszechnie stosowane w na­ walności, to wartości te opisujemy jako „nieoznaczalne",
ukach epidemiologicznych (rozdział 12). mimo że w próbce mogło być nieco wirusów.
• Punktacja — czasami, gdy nie możemy zmierzyć wiel­ • W badaniach, w których część pacjentów wypada
kości, stosujemy wartości arbitralne, np. punktację. Na przy­ z grupy badanej przed czasem zakończenia badania. Ten typ
kład, odpowiedzi na pytania dotyczące jakości życia mogą danych jest omówiony bardziej szczegółowo w rozdziale 44.
zostać zsumowane w celu uzyskania pewnej ogólnej wielko­
ści charakteryzującej jakość życia każdego osobnika.

/. Rodzaje danych 11
2 WPROWADZANIE DANYCH

Przy wykonywaniu jakichkolwiek badań niemal zawsze przyporządkować kody 1, 2, 3 i 4 do kategorii: brak bólu,
wprowadza się dane do pakietu oprogramowania kompute­ ból slaby, ból umiarkowany i ból silny. Kody te mogą zostać
rowego. Komputery są nieocenione, jeśli chodzi o poprawę dodane do formularzy w trakcie zbierania danych. Dla da­
dokładności i prędkości zbierania danych oraz ich analizy, nych binarnych, np. dla odpowiedzi tak/nie, często wygod­
ułatwiają wyszukiwanie błędów, pozwalają tworzyć graficz­ nie jest przyporządkować kody 1 (np. dla „tak") oraz 0 (dla
ne podsumowania danych i generować nowe zmienne. War­ „nie").
to poświęcić nieco czasu na zaplanowanie wprowadzania • Zmienne kodowane pojedynczo — istnieje jedna moż­
danych — może to zaoszczędzić wiele wysiłku w później­ liwa odpowiedź na to pytanie, np. czy pacjent zmarł. Nie
szych etapach. można udzielić na to pytanie jednocześnie odpowiedzi „tak"
i „nie".
• Zmienne kodowane wielokrotnie — dla każdego re­
FORMATY WPROWADZANIA DANYCH spondenta możliwa jest więcej niż jedna odpowiedź.
Istnieje wiele sposobów wprowadzania i zapamiętywania Na przykład: jakie symptomy występują u tego pacjenta.
danych w komputerze. Większość pakietów statystycznych W tym przypadku osobnik może mieć dowolną liczbę symp­
pozwala na bezpośrednie wprowadzenie danych. Jednakże tomów. Istnieją dwie metody kodowania tego typu danych
ograniczeniem takiego podejścia jest fakt, że niejednokrot­ w zależności od tego, która z sytuacji ma miejsce.
nie nie można przenieść tych danych do innego pakietu. Pro­ • Istnieje tylko kilka możliwych symptomów, a każdy
stą alternatywą jest zapamiętanie danych albo w arkuszu osobnik może mieć kilka z nich. Można stworzyć pew­
kalkulacyjnym, albo w pakiecie baz danych. Niestety zakres ną liczbę zmiennych binarnych, które oznaczają, czy
dostępnych w nich procedur statystycznych jest najczęściej pacjent odpowiedział tak lub nie na temat obecności każ­
mocno ograniczony i dla przeprowadzenia analiz trzeba dego możliwego symptomu. Na przykład: czy pacjent
zwykle przenieść dane do specjalistycznego pakietu staty­ kaszle?, czy pacjenta boli gardło?
stycznego. • Istnieje wielka liczba możliwych symptomów, lecz
Bardziej elastycznym sposobem rozwiązania problemu spodziewamy się, że każdy pacjent ma tylko kilka
jest umieszczenie danych w plikach ASCII lub plikach tek­ z nich. Można stworzyć pewną liczbę zmiennych nomi­
stowych. Dane zapisane w formacie ASCII mogą być odczy­ nalnych; każda kolejna zmienna pozwala wtedy nazwać
tywane przez większość pakietów. Format ASCII składa się symptom występujący u pacjenta. Na przykład: jaki wy­
po prostu z wierszy tekstu, który można oglądać na ekranie stąpił pierwszy symptom u pacjenta?, jaki był drugi
komputera. Zazwyczaj każda zmienna w pliku jest oddzielo­ symptom? Z góry trzeba tu zadecydować o maksymalnej
na od następnej pewnym ogranicznikiem, najczęściej spa­ liczbie symptomów, jakie mogą wystąpić u pacjenta.
cją lub przecinkiem. Jest to tzw. format swobodny.
Najprostszym sposobem wprowadzenia danych w forma­
cie ASCII jest użycie edytora tekstowego lub pakietu edycyj­
DANE NUMERYCZNE
nego. W formacie tym można też zapisać dane złożone w ar­ Dane numeryczne należy wprowadzać z taką samą dokład­
kuszach kalkulacyjnych. Przy obu sposobach każdy wiersz nością, z jaką zostały one zmierzone, a jednostka pomiaru
danych odpowiada zazwyczaj innemu obiektowi badania, powinna być jednakowa dla wszystkich obserwacji w obrę­
a każda kolumna odpowiada innej zmiennej, chociaż czasa­ bie zmiennej. Na przykład, masa powinna być wyrażona
mi stosowane są wiersze kontynuacyjne — gdy dla każdego w kilogramach lub funtach, lecz nigdy w obu jednostkach
obiektu zbierana jest duża liczba zmiennych. na zmianę.

PLANOWANIE WPROWADZANIA DANYCH KILKA FORMULARZY DLA PACJENTA


Podczas zbierania danych w trakcie badania często będziesz Czasami informacje zbiera się od tego samego pacjenta
potrzebował do ich zapisania formularza lub kwestionariusza. przy więcej niż jednej okazji. Ważne jest wtedy zapewnie­
Staranne zaprojektowanie formularza pozwoli na zmniejsze­ nie tego samego, unikalnego identyfikatora (np. numeru se­
nie nakładu pracy przy wprowadzaniu danych. Ogólnie, for­ ryjnego) powiązanego z osobnikiem — umożliwia on połącze­
mularze/kwestionariusze zawierają serię kratek, w których nie wszystkich danych uzyskanych w badaniu na temat tego
zapisuje się dane — z reguły każda możliwa cyfra w odpowie­ osobnika.
dzi musi mieć osobną kratkę.

PROBLEMY Z DATAMI I CZASEM


DANE KATEGORIALNE Daty i czas powinny być wprowadzane w sposób jednolity,
Niektóre pakiety statystyczne mają problemy z obsługą da­ np. albo jako dzień/miesiąc/rok, albo miesiąc/dzień/rok,
nych nienumerycznych. Dlatego przed wprowadzeniem da­ ale nigdy wymiennie. Ważną sprawą jest znalezienie forma­
nych do komputera trzeba czasem przyporządkować kody tu, jaki może być odczytywany przez pakiet statystyczny.
numeryczne do danych kategorialnych. Na przykład, można

12 Opracowywanie danych
własnego kodu dla wartości brakującej (najczęściej stosowa­
KODOWANIE BRAKUJĄCYCH WARTOŚCI
ne wartości to 9,999 lub -99). Wybrana wartość musi być ta­
Przed rozpoczęciem wprowadzania danych należy rozważyć, ką wartością, która nie może zaistnieć w tej zmiennej.
co chce się zrobić z danymi brakującymi. W większości przy­ Na przykład, przy wprowadzaniu zmiennej kategorialnej za­
padków do reprezentowania brakujących danych trzeba użyć wierającej cztery kategorie (kodowane jako 1, 2,3 i 4) dla re­
specjalnego symbolu. Pakiety statystyczne obsługują braki prezentowania wartości brakujących można wybrać kod 9.
danych w rozmaity sposób. Niektóre z nich używają znaków Jednakże, jeżeli zmienną jest wiek dziecka, należy wybrać
specjalnych (np. kropka lub gwiazdka) do wskazania braku­ inny kod. Zmienne brakujące zostaną dokładniej omówione
jących danych, podczas gdy inne wymagają zdefiniowania w rozdziale 3.

PRZYKŁAD

Rycina 2.1. Fragment arkusza kalkulacyjnego pokazujący dane zebrane w próbie 64 kobiet z wrodzonymi zaburzeniami krzepnięcia.

Dane zebrano w próbie 64 kobiet zarejestrowanych Schematy kodowania dla zmiennych kategorialnych
w centrum hemofilii w Londynie jako część badania znajdują się w dolnej części ryciny 2.1. Każdy wiersz ar­
nad wpływem wrodzonych zaburzeń krzepnięcia na cią­ kusza reprezentuje kolejny obiekt badania; każda kolum­
żę i poród. Kobietom zadawano pytania związane z ich na przedstawia inną zmienną. Jeżeli kobieta jest nadal
problemami krzepnięcia oraz pierwszą ciążą (lub ich w ciąży, jej wiek w chwili porodu został przeliczony
obecną ciążą, jeżeli w trakcie przeprowadzanego wywia­ na podstawie oszacowanej daty narodzin dziecka. Dane
du były po raz pierwszy w ciąży). Ryc. 2.1 zawiera nie­ związane z żywymi urodzeniami przedstawiono w roz­
wielką część danych po ich wprowadzeniu do arkusza dziale 37.
kalkulacyjnego, lecz przed dokonaniem poprawek.

Dane uzyskane dzięki uprzejmości: dr. R. A. Kadira z University Department of Obstetrics and Gynaecology oraz profesora C. A. Lee
z Haemophilia Centrę and Haemostasis Unit, Royal Free Hospital, w Londynie.

2. Wprowadzanie danych 13
3 KONTROLA BŁĘDÓW I

W każdym badaniu zawsze istnieje możliwość pojawienia popełniony błąd. Nie należy zmieniać wartości tylko dlatego,
się błędów w zbiorze danych albo w fazie początkowej pod­ że wyglądają nietypowo.
czas dokonywania pomiarów, albo podczas ich zbierania,
przepisywania czy wprowadzania do komputera. Jednakże
liczbę błędów powstających przy wprowadzaniu i przepisy­
OPRACOWYWANIE DANYCH BRAKUJĄCYCH
waniu można zredukować poprzez uważne sprawdzanie da­ Zawsze istnieje możliwość wystąpienia braku niektórych da­
nych po ich wprowadzeniu. Proste wzrokowe przejrzenie nych. Jeżeli brakuje dużej części danych, to mało prawdopo­
danych często pozwala wychwycić wartości, które są w spo­ dobne jest uzyskanie wiarygodnych rezultatów. Należy za­
sób oczywisty błędne. W tym rozdziale sugerujemy pewne wsze zbadać przyczynę pojawiania się braków danych
techniki, których można używać przy sprawdzaniu danych. — jeżeli braki danych mają tendencję do skupiania się
w pewnej zmiennej i/lub w określonej podgrupie obiektów,
może to oznaczać, że zmienna nie jest stosowalna lub nigdy
BŁĘDY PRZY WPROWADZANIU nie została pomierzona dla tej grupy osób badanych. Jeżeli
Najczęstszym źródłem błędów przy wprowadzaniu danych to jest rzeczywistą przyczyną, może okazać się konieczne
jest tzw. palcówka. Przy małej liczbie danych można je porów­ wykluczenie tej zmiennej lub grupy obiektów z analizy.
nać z danymi na oryginalnych formularzach/kwestionariu­ Szczególne problemy możemy napotkać, kiedy szansa wystą­
szach, aby sprawdzić, czy nie popełniono omyłki przy wprowa­ pienia zmiennych brakujących jest silnie związana z najbar­
dzaniu. Jednakże przy dużej liczbie danych procedura ta jest dziej interesującą nas w badaniu zmienną (np. zmienną wy­
niezwykle czasochłonna. Można również dwukrotnie wprowa­ nikową w analizie regresji — rozdział 27). W tej sytuacji
dzić te same dane i porównać oba pliki programem kompute­ nasze wyniki mogą być silnie obciążone (rozdział 12). Załóż­
rowym. Każda różnica między oboma zestawami danych my na przykład, że jesteśmy zainteresowani pomiarem, któ­
wskazuje na błąd przy wprowadzaniu. Chociaż podejście to ry odzwierciedla stan zdrowia pacjentów i dla niektórych
nie wyklucza możliwości, że ten sam błąd pojawi się w obu ze­ pacjentów brakuje tej informacji, ponieważ nie czuli się wy­
stawach, lub tego, że sama wartość na formularzu/kwestiona­ starczająco dobrze, by pojawić się na zaplanowanej wizycie
riuszu jest nieprawidłowa, to jednak minimalizuje liczbę błę­ w klinice: jeżeli nie weźmiemy pod uwagę brakujących da­
dów. Wadą tej metody jest fakt, iż zabiera ona dwukrotnie nych w analizie, najprawdopodobniej otrzymamy zbyt opty­
więcej czasu przy wprowadzaniu danych, co powoduje konse­ mistyczny obraz ogólnego stanu zdrowia pacjentów. Możliwe
kwencje finansowe i czasowe. jest zredukowanie tego obciążenia przez zastosowanie odpo­
wiednich metod statystycznych1 lub przez oszacowanie jakąś
metodą brakujących danych2, jednakże najbardziej pożąda­
KONTROLA BŁĘDÓW ną opcją jest minimalizacja od samego początku liczby bra­
kujących danych.
• Dane kategorialne — Stosunkowo łatwo można spraw­
dzić dane kategorialne, skoro każda zmienna może przyjmo­
wać tylko jedną z ograniczonej liczby wartości. Dlatego też
wartość niedozwolona musi być błędem. WARTOŚCI ODSKAKUJĄCE
• Dane numeryczne — Dane numeryczne są często trud­ Czym są wartości odskakujące?
ne do sprawdzenia, a jednocześnie podatne na błędy. Wartości odskakujące są obserwacjami, które różnią się
Na przykład, podczas wprowadzania danych numerycznych od większości danych i są niezgodne z pozostałymi danymi.
łatwo jest przestawić cyfry lub pozycję przecinka dziesięt­ Wartości te mogą być prawdziwymi obserwacjami osób ba­
nego. Dane numeryczne można sprawdzać przez badanie danych z bardzo ekstremalnymi poziomami zmiennej. Jed­
zakresu — dolnej i górnej granicy określonej dla danej nakże mogą też być wynikiem błędów przy wprowadzaniu
zmiennej. Jeżeli wartość leży poza zakresem, to zostaje za­ lub błędnego doboru jednostek i dlatego należy sprawdzić
znaczona dla dalszego badania. wszelkie podejrzane wartości. Istotną rzeczą jest wykrycie,
• Daty — Często sprawdzenie poprawności daty jest trud­ czy w zbiorze danych mamy do czynienia z wartościami od­
ne, chociaż czasami wiadomo, że powinna ona należeć do skakującymi, gdyż mogą one mieć znaczący wpływ na wy­
pewnego okresu czasu. Daty można sprawdzać w celu upew­ niki niektórych typów analiz (rozdział 29).
nienia się, że są one prawidłowe. Na przykład, 30 lutego mu­ Na przykład, kobieta o wzroście 7 stóp (213,5 cm) będzie
si być błędem, tak jak każdy dzień miesiąca powyżej 31 lub stanowiła wartość odskakującą w większości zbiorów da­
każdy miesiąc powyżej 12. Można również stosować pewne nych. Chociaż wartość ta jest istotnie bardzo duża w porów­
reguły logiczne. Na przykład, data urodzin pacjenta powinna naniu z przeciętnym wzrostem kobiet, może być wartością
odpowiadać jego/jej wiekowi, a pacjenci powinni zwykle ro­
dzić się przed włączeniem do badania (przynajmniej w więk­ 1
szości badań). Dodatkowo, pacjenci, którzy zmarli, nie powin­ Laird N. M.: Missing data in longitudinal studies. Statistics in
ni się pojawiać na kolejnych wizytach kontrolnych! Medicine, 1988, 7, 305-315.
2
Engels J. M., Diehr R: Imputation of missing longitudinal data:
Przy poprawianiu wszystkich błędów wartość powinna a comparison of methods. Journal of Clinical Epidemiology, 2003,
zostać zmieniona jedynie wtedy, gdy mamy dowód, że został 56, 968-976.

14 Opracowywanie danych
prawdziwą, a kobieta ta może być po prostu bardzo wysoka.
W tym przypadku, zanim podejmiesz decyzję o ważności wy­ Radzenie sobie z wartościami odskakującymi
niku, jeśli to możliwe, powinieneś dalej zbadać tę wielkość, Jest rzeczą istotną, aby nie usuwać osoby badanej z analizy
kontrolując inne zmienne, takie jak wiek i masa ciała. War­ tylko dlatego, że jego/jej wartości pomiarowe są wyższe lub
tość powinna zostać zmieniona jedynie wtedy, gdy istnieje niższe, niż można się tego spodziewać.
wyraźny dowód, że jest ona nieprawdziwa. Jednakże włączenie wartości odskakujących może mieć
wpływ na wyniki niektórych technik statystycznych. Pro­
Badanie wartości odskakujących stym wyjściem z tej sytuacji jest wykonanie analizy naj­
Najprostszą metodą jest wydrukowanie danych i ich wzro­ pierw przy uwzględnieniu, a potem przy wykluczeniu tych
kowa kontrola. Przydaje się ona, gdy liczba obserwacji nie wartości. Jeżeli wyniki są zbliżone, oznacza to, że wartości
jest za duża i gdy potencjalna wartość odskakująca jest odskakujące nie mają na nie wielkiego wpływu.
o wiele mniejsza lub o wiele większa od pozostałych danych. Jednakże jeżeli wyniki drastycznie się zmieniają, należy
Badanie rozstępu również powinno pozwolić zidentyfikować zastosować odpowiednie metody, które podczas analizy da­
możliwe wartości odskakujące. Alternatywę stanowi wykre­ nych nie zostają zaburzane przez wartości odskakujące. Me­
ślenie w jakiś sposób danych (rozdział 4) — wartości odska­ tody te obejmują użycie transformacji (rozdział 9) i testów
kujące można łatwo identyfikować na histogramach i wy­ nieparametrycznych (rozdział 17).
kresach rozrzutu (zobacz również dyskusję o wartościach
odskakujących w analizie regresji w rozdziale 29).

Rycina 3.1. Kontrola błędów w zestawie danych.

Fo wprowadzeniu danych (rozdział 2), plik z danymi spraw­ wieku ciążowego i masy ciała) też są najprawdopodobniej
dzany jesr w celu usunięcia błędów. Niektóre ze wskaza­ błędami, lecz przed powzięciem decyzji należy sprawdzić
nych niezgodności su prostymi błędami popełnionymi materiały źródłowe, jako że mogą one być prawdziwymi
przy wprowadzaniu. Na przykład, kod „41" w kolumnie wartościami odskakującymi. W naszym przykładzie wiek
„płeć dziecka" dla pacjentki 'dO. jest nieprawidłowy i wyni­ ciążowy u pacjentki 27. wynosił 41 tygodni; zadecydowa­
ka z pominięcia informacji o pici: pozostała część danych no, że masa 11,19 kg była nieprawidłowa. Ponieważ nie
pacjentki 20. została wprowadzona do nieprawidłowych można było odnaleźć prawidłowej masy ciała tego dziecka,
kolumn. 1'nzosiate (up. nietypowe wartości w kolumnach wartość wprowadzono jako brakującą.

3. Kontrola błędów i wartości odskakujące ' 15


4 GRAFICZNA PREZENTACJA DANYCH

Jedną z pierwszych rzeczy, które przydają się po wprowa­ • Wykres słupkowy lub kolumnowy — dla każdej katego­
dzeniu danych do komputera, jest jakaś forma ich podsumo­ rii rysujemy osobny pionowy lub poziomy słupek, którego dłu­
wania, tak abyśmy mogli „wyczuć" te dane. Można to uczynić gość jest proporcjonalna do częstości występowania danych
za pomocą diagramów, tabel i statystyk podsumowujących w tej kategorii. Słupki oddzielamy małymi przerwami, aby
(rozdziały 5 i 6). Diagramy są często skutecznymi narzędzia­ wskazać, że dane są kategorialne lub dyskretne (rycina 41a).
mi do przedstawiania danych, tworzenia prostych, podsumo­ • Wykres kołowy — dzielimy kółko na sekcje, po jednej
wujących rycin oraz wykrywania wartości odskakujących dla każdej kategorii, tak by powierzchnia każdej sekcji była
i trendów, zanim zostaną przeprowadzone jakiekolwiek for­ proporcjonalna do częstości występowania danych w tej ka­
malne analizy. tegorii (rycina 4.Ib).
Często trudniej jest przedstawić dane numeryczne cią­
gle, gdyż najpierw muszą być one wstępnie opisane suma­
JEDNA ZMIENNA rycznie. Najczęściej stosuje się następujące diagramy:
Rozkłady częstości • Histogram — jest podobny do wykresu słupkowego,
Empiryczny rozkład częstości zmiennej wiąże każdą moż­ ale ponieważ dane są ciągłe, pomiędzy słupkami nie powin­
liwą obserwację, klasę obserwacji (tj. zakres wartości) lub no być przerw (rycina 4.Id). Szerokość każdego słupka jest
kategorię z obserwowaną częstością jej pojawiania się. Je­ uzależniona od zakresu wartości dla danej zmiennej.
żeli zastąpimy każdą częstość przez częstość względną Na przykład, masa ciała dziecka (rycina 4.Id) może być ska­
(procent całkowitej częstości), możemy porównywać rozkła­ tegoryzowana w przedziałach: 1,75-1,99 kg, 2,00-2,24 kg,
dy częstości w dwóch lub więcej grupach osób badanych. ..., 4,25-4,49 kg. Powierzchnia słupka jest proporcjonalna
do częstości występowania danych w tym zakresie. Dlatego,
Prezentacja rozkładów częstości jeżeli jedna grupa pokrywa szerszy zakres wartości niż in­
Jeżeli wyznaczyliśmy częstości (lub częstości względne) dla ne, jej podstawa będzie szersza, a wysokość mniejsza.
danych kategorialnych lub niektórych numerycznych dys­ Zwykle stosuje się od 5 do 20 grup: zakresy powinny być
kretnych, możemy je przedstawić graficznie. na tyle wąskie, by mogły zilustrować charakterystyczne

Rycina 4.1. Wybór graficznych metod, które mogą służyć do prezentacji danych położniczych dla kobiet z zaburzeniami krzepliwości (rozdział 2).
(a) Wykres słupkowy pokazujący procent kobiet w badaniu, które wymagały znieczulenia przy użyciu każdego z wymienionych zabiegów podczas
porodu; (b) Wykres kołowy ukazujący procent kobiet w badaniu z każdym typem zaburzeń krzepliwości; (c) Segmentowany wykres kolumnowy
pokazujący częstość występowania krwawienia z dziąseł u kobiet z różnego typu zaburzeniami krwawienia; (d) Histogram pokazujący masę uro-
dzeniową noworodka; (e) Wykres punktowy pokazujący wiek matki w chwili porodu, z medianą wieku zaznaczoną jako linia pozioma; (f) Wykres
rozrzutu ukazujący zależność między wiekiem matki w chwili porodu (na osi poziomej, osi xl i masą ciała noworodka (na osi pionowej, osi y).

16 Opracowywanie danych
3 1,0 0,4 odpowiedni percentyl, np. piąty i dziewięćdziesiąty piąty
(rozdział 6, rycina 6.1). Na wykresie tym można również za­
665 1,1 39
znaczyć wartości odskakujące.
53 1,2 99
9751 1,3 1135677999 Kształt rozkładu częstości
955410 1,4 0148
Wybór najodpowiedniejszej metody statystycznej często za­
leży od kształtu rozkładu. Rozkład danych jest najczęściej
987655 1,5 00338899
jednomodalny, przez co posiada jeden pik. Czasami rozkład
9531100 1,6 001355 jest bimodalny (dwa piki) lub równomierny (każda wartość
731 1,7 00114569 jest jednakowo prawdopodobna, na skutek czego nie wystę­
puje żaden pik). W przypadku rozkładu jednomodalnego za­
99843110 1,8 6
sadniczym celem jest wskazanie, gdzie leży większość da­
654400 1,9 01 nych w stosunku do wartości maksymalnej i minimalnej.
6 2,0 W szczególności należy oszacować, czy rozkład jest:
7 2,1 19 • symetryczny — scentrowany wokół pewnego punktu
środkowego, z jedną stroną będącą lustrzanym odbiciem
10 2,2
drugiej strony (rycina 5.1);
dipropionian placebo • przekrzywiony w prawo (dodatnio skośny) — ma dłu­
beklometazonu gi ogon złożony z jednej lub większej liczby wysokich war­
tości. Takie dane są często spotykane w badaniach medycz­
nych (rycina 5.2);
Rycina 4.2. Wykres typu „łodyga z liśćmi" ukazujący FEV1 (1) u dzie­
• przekrzywiony w lewo (ujemnie skośny) — ma długi
ci inhalujących dipropionian beklometazonu lub placebo (rozdział 21).
ogon złożony z jednej lub większej liczby niskich wartości
(rycina 4.Id).
wzory w rozkładzie danych, lecz nie aż tak wąskie, by
przedstawiały indywidualne dane. Histogram powinien zo­
DWIE ZMIENNE
stać opisany starannie, tak aby granice między kategoriami
byty wyraźnie zdefiniowane. Jeżeli jedna zmienna jest kategorialna, możemy narysować
• Wykres punktowy — każda obserwacja jest reprezen­ osobne diagramy pokazujące rozkłady drugiej zmiennej dla
towana przez jedną kropkę na poziomej (lub pionowej) linii każdej z kategorii. Inne wykresy odpowiednie dla takich da­
(rycina 4.1e). Jest to bardzo prosty sposób przedstawiania nych to wykresy słupkowe, kolumnowe klasteryzowane lub
danych, lecz może być niewygodny przy dużych zbiorach. segmentowane (rycina 4.1c).
Często na diagramach pokazuje się miarę zbiorczą, taką jak Jeżeli obie zmienne są numeryczne lub porządkowe,
średnia czy mediana (rozdział 5). Taki typ wykresu może można przedstawić związek między nimi za pomocą wykre­
być stosowany również dla danych dyskretnych. su rozrzutu (rycina 4. ID. Na diagramie dwuwymiarowym
• Wykres typu „łodyga z liśćmi" — jest to połączenie wykreśla się wartość jednej zmiennej w zależności od dru­
diagramu i tablicy; przypomina histogram położony na boku giej. Jedna zmienna jest zwykle nazywana zmienną x i jest
i jest faktycznie zbiorem wartości danych zapisanych w kie­ przedstawiana na osi poziomej. Druga zmienna, nazywana
runku rosnącym. Zazwyczaj rysuje się pionową „łodygę", zmienną y, jest wykreślana na osi pionowej.
złożoną z pierwszych kilku cyfr mierzonych wartości, upo­
rządkowanych w jakimś kierunku. Z „łodygi" wystają „li­
IDENTYFIKACJA WARTOŚCI ODSKAKUJĄCYCH
ście" — tj. końcowe cyfry każdej uporządkowanej wielkości,
które zapisujemy w układzie poziomym (rycina 4.2) we METODAMI GRAFICZNYMI
wzrastającym porządku numerycznym. Często wartości skrajne możemy wykrywać przy użyciu pre­
• Wykres skrzynkowy (zwany często „pudełkiem z wą­ zentacji danych jednej zmiennej. Na przykład, bardzo długi
sami") — jest to ustawiony pionowo lub poziomo prostokąt, ogon po jednej stronie histogramu może wskazywać na war­
którego boki odpowiadają górnemu lub dolnemu kwartylowi tość odskakującą. Jednakże czasami wartości odskakujące
wartości pomiarowych (rozdział 6). Linia przeprowadzona stają się widoczne dopiero wtedy, gdy analizujemy związek
przez prostokąt oznacza medianę (rozdział 5). Wąsy rozpo­ pomiędzy dwoma zmiennymi. Na przykład, masa 55 kg nie
czynające się na bokach prostokąta zazwyczaj reprezentują będzie niespotykana u kobiety o wzroście 1,6 m, lecz będzie
wartości minimalną i maksymalną, lecz czasami oznaczają nieprawdopodobnie niska u kobiety o wzroście 1,9 m.

4. Graficzna prezentacja danych 17


5 OPIS DANYCH: WARTOŚĆ PRZECIĘTNA

PODSUMOWYWANIE DANYCH tością w uporządkowanym szeregu. Gdy n jest parzyste, wtedy


ściśle mówiąc, mediana nie istnieje. Jednakże wtedy obliczamy
Bardzo trudno jest mieć jakiekolwiek „wyczucie" co do zbio­
ją zazwyczaj jako średnią arytmetyczną dwóch środkowych
ru pomiarów numerycznych, chyba że możemy je w jakiś
obserwacji w uporządkowanym szeregu danych [tj. n/2
znaczący sposób podsumować. Użytecznym punktem wyjścia
i (n/2 + 1)]. Tak więc, jeżeli na przykład n - 20, to mediana
jest często diagram (rozdział 4). Konstruując miary, które
jest średnią arytmetyczną z 20/2 = 1 0 oraz (20/2 + D =
opisują ważne charakterystyki danych, możemy również in­
= (10 + 1) = 11 (dziesiątej i jedenastej wartości) w uporząd­
formację skondensować. W szczególności, jeżeli mamy jakieś
kowanym szeregu danych.
spostrzeżenie na temat tego, co stanowi wartość reprezenta­
Mediana jest zbliżona do średniej, jeżeli dane mają roz­
tywną i jeżeli wiemy jak szeroko wokół niej są rozrzucone
kład symetryczny (rycina 5.1), jest mniejsza niż średnia,
wartości, możemy stworzyć pewien obraz danych. Wartość
gdy dane mają rozkład prawoskośny (rycina 5.2), natomiast
przeciętna jest ogólnym określeniem miary położenia; opi­
większa niż średnia przy rozkładzie lewoskośnym.
suje ona typowy pomiar. Ten rozdział poświęcamy miarom
przeciętnym, z których najczęściej używa się średniej i me­
diany (tabela 5.1). W rozdziale 6 wprowadzimy miary, które WARTOŚĆ MODALNA
opisują rozrzut lub rozproszenie obserwacji.
Wartość modalna jest wartością najczęściej pojawiającą się
w zbiorze danych; jeżeli dane są ciągłe, zazwyczaj je grupu­
ŚREDNIA ARYTMETYCZNA jemy i obliczamy modalną dla grup. Niektóre zbiory danych
nie mają wartości modalnej, ponieważ każda wartość poja­
Średnia arytmetyczna (często po prostu zwana średnią) wia się tylko raz. Czasami występuje więcej niż jedna war­
zbioru wartości jest obliczana przez dodanie do siebie tość modaina; dzieje się tak wtedy, gdy dwie lub więcej
wszystkich wartości i podzielenie tej sumy przez liczbę war­ wartości pojawiają się taką samą liczbę razy, a częstość wy­
tości w zbiorze. stępowania każdej z nich jest większa niż częstość wystę­
Rzeczą przydatną jest streszczenie tego słownego opisu powania każdej innej wartości. Wartość modalna jest rzad­
przez wzór algebraiczny. Stosując notację matematyczną, za­ ko stosowana jako miara podsumowująca.
pisujemy nasz zbiór n wartości zmiennej xjako xx, x2, x3,...,
xn. Na przykład, jeżeli x reprezentuje wzrost osobnika (cm),
to Xj przedstawia wzrost pierwszego osobnika, a xt —wzrost ŚREDNIA GEOMETRYCZNA
/tego osobnika itd. Możemy zapisać wzór na średnią arytme­
Średnia arytmetyczna nie jest odpowiednią miarą położe­
tyczną obserwacji, oznaczając ją symbolem x, w postaci:
nia, jeżeli dane są skośne. Jeżeli dane są prawoskośne,
możemy uczynić rozkład bardziej symetrycznym poprzez
zlogarytmowanie (z podstawą dziesiętną lub naturalną)
każdej wartości w szeregu danych (rozdział 9). Średnia
Stosując notację matematyczną, zapis możemy skrócić do: arytmetyczna wartości zlogarytmowanych jest miarą poło­
żenia danych przetransformowanych. Aby otrzymać miarę,
która będzie miała takie same jednostki jak oryginalne ob­
serwacje, musimy dokonać transformacji odwrotnej (tj.
gdzie Z (duża grecka litera sigma) oznacza sumę, nato­ wziąć antylogarytm) średniej z logarytmów danych; miarę
miast dolny oraz górny indeks przy Z wskazuje, że sumuje­ tę nazywamy średnią geometryczną. Przy założeniu, że
my wartości od i = 1 do n. Ta postać jest często dalej skra­ rozkład danych zlogarytmowanych jest w przybliżeniu sy­
cana do formy: metryczny, średnia geometryczna jest zbliżona do media­
ny i mniejsza niż wartość średnia z surowych danych (ry­
cina 5.2).

ŚREDNIA WAŻONA
MEDIANA
Średniej ważonej używamy wtedy, gdy pewne wartości in­
Jeżeli uporządkujemy dane w kierunku ich wzrostu, rozpo­ teresującej nas zmiennej są ważniejsze niż inne. W celu
czynając od najmniejszej wartości i kończąc na największej, uwidocznienia stopnia ważności dołączamy wagi w{ do każ­
wtedy medianą będzie wartość środkowa uporządkowane­ dej wartości x; z naszej próbki. Jeżeli wartości
go szeregu. Mediana dzieli uporządkowany zbiór wartości xn mają odpowiadające wagi średnia wa­
na dwie polowy, z równą liczbą wartości powyżej i poniżej żona jest określona jako:
mediany. Łatwo jest wyznaczyć medianę, gdy liczba obser­
wacji n jest nieparzysta. Jest ona (n + D/2 obserwacją
w uporządkowanym szeregu. Tak więc, jeśli na przykład
n = 11, to mediana jest (11 + D/2 = 12/2 = 6 (szóstą) war­

18 Opracowywanie danych
Tablica 5.1. Zalety i wady miar przeciętnych.
Miara
przeciętna Zalety Wady
Średnia • Można ją stosować • Zniekształcana przez
w przypadku wszystkich wartości odskakujące.
wartości. • Zniekształcana w przy­
• Zdefiniowana algebra­ padku rozkładów sko­
icznie, łatwa w algo- śnych.
rytmizacji.
• Znany rozkład próbko­
wania (rozdział 9).
Mediana • Nie jest zniekształca­ * Pomija większość do­
na przez wartości stępnych informacji.
odskakujące. • Nie zdefiniowana alge­
• Nie zniekształcana braicznie.
przez dane skośne. • Skomplikowany rozkład
Wiek matki w chwili narodzin dziecka (w latach) próbkowania.
Modalna • Łatwo daje się wyzna­ • Pomija większość do­
Rycina 5.1. Średnia, mediana i średnia geometryczna wieku kobiet czać dla danych kate- stępnych informacji.
w chwili narodzin dziecka, w badaniu opisanym w rozdziale 2. Ja­ gorialnych. • Nie zdefiniowana alge­
ko że rozkład wartości oznaczających wiek wygląda na symetrycz­ braicznie.
ny, trzy miary „przeciętnej" dają podobne wyniki, jak wskazuje • Nieznany rozkład prób­
przerywana linia. kowania.
Średnia • Przed transformacją • Daje się stosować jedy­
geome- odwrotną ma takie nie w przypadku, gdy
tryczna same zalety jak średnia. transformacja logaryt­
• Odpowiednia dla roz­ miczna wytwarza roz­
kładów prawoskośnych. kład symetryczny.
Średnia • Takie same zalety jak • Wagi muszą być znane
ważona średnia. lub oszacowane.
• Przypisuje względną
wagę do każdej obser­
wacji.
• Zdefiniowana algebra­
icznie.

Poziom trójolicerydów (mmol/L)

Rycina 5.2. Średnia, mediana i średnia geometryczna poziomu trój-


glicerydów w próbie 232 mężczyzn, którzy przebyli zawał serca
'rozdział 19). Jako że rozkład wartości oznaczających poziom trój-
źhcerydów jest prawoskośny, średnia daje wyższe wartości prze­
ciętne niż mediana lub średnia geometryczna.

Na przykład, przypuśćmy, że jesteśmy zainteresowani


wyznaczeniem średniego czasu pobytu pacjentów hospitali­
zowanych w szpitalach w okręgu i znamy średni czas zwol­
nienia pacjentów do domu w każdym szpitalu. Jedną z moż­
liwości będzie uwzględnienie jako wagi liczby pacjentów
w każdym ze szpitali.
Średnia ważona i średnia arytmetyczna są identyczne,
gdy każda waga jest równa jedności.

5. Opis danych: wartość przeciętna 19


6 OPIS DANYCH: ROZPROSZENIE

Posługiwanie się percentylami


PODSUMOWYWANIE DANYCH
Miarę rozproszenia niezaburzaną przez wartości skrajne
Jeżeli jesteśmy w stanie wyznaczyć dwie miary podsumo­ możemy uzyskać, wykluczając wartości ekstremalne
wujące dla zmiennej ciągłej — jedną, która wskazuje war­ w zbiorze danych i wyznaczając rozstęp dla pozostałych ob­
tość przeciętną i drugą opisującą rozproszenie danych — serwacji. Rozstęp międzykwartylowy definiujemy jako róż­
Wtedy dokonujemy kondensacji danych w sposób znaczący. nicę między pierwszym i trzecim kwartylem, tj. pomiędzy
W rozdziale 5 wytłumaczyłyśmy, jak dobrać odpowiednią dwudziestym piątym i siedemdziesiątym piątym percenty­
miarę przeciętną. Ten rozdział poświęcamy omówieniu naj­ lem (rycina 6.1). Zawiera on centralnych 50% obserwacji
bardziej znanych miar rozproszenia (dyspersji lub zmien­ z uporządkowanego szeregu, 25% obserwacji leży poniżej je­
ności), które to miary zostały porównane w tablicy 6.1. go dolnej granicy, a 25% — powyżej jego górnej granicy.
Rozstęp międzydecylowy zawiera 80% centralnych obser­
Rozstęp jest różnicą między największą i najmniejszą wacji, tj. leżące między dziesiątym i dziewięćdziesiątym
wartością w zbiorze danych; często podaje się te dwie war­ percentylem. Często używa się rozstępu zawierającego 95%
tości zamiast ich różnicy. Trzeba zauważyć, że rozstęp daje centralnych obserwacji, tj. wykluczających 2,5% obserwacji
mylącą wielkość rozproszenia, gdy w danych znajdują się powyżej jego górnej granicy i 2,5% poniżej dolnej granicy
wartości odskakujące (rozdział 3). (rycina 6.1). Możemy używać tego przedziału do diagnozo­
wania choroby, przy założeniu, że jest on wyznaczony i wy­
starczającej liczby wartości zmiennej dla osób zdrowych.
ROZSTĘPY UZYSKIWANE Z PERCENTYLI Jest on często określany jako przedział odniesienia, zakres
Czym są percentyle? odniesienia lub zakres normalny (rozdział 38).
Przypuśćmy, że uporządkowaliśmy dane w kierunku wzro­
stu ich wielkości, rozpoczynając od wartości najmniejszej
i kończąc na największej. Wartość zmiennej x, poniżej któ­ WARIANCJA
rej w uporządkowanym szeregu znajduje się 1% wartości Jedną z metod mierzenia rozproszenia danych jest wyzna­
(a 99% wartości leży powyżej), jest zwana pierwszym per- czenie, w jakim stopniu każda z obserwacji jest oddalona
centylem. Wartość x, poniżej której leży 2% obserwacji, od średniej arytmetycznej. Oczywiście, im większe są te od­
zwana jest drugim percentylem itd. Wartości x, które dzie­ ległości, tym większa jest zmienność obserwacji. Nie może­
lą uporządkowany zbiór na 10 równych pod względem licz­ my jednak używać średniej arytmetycznej tych odległości
by części, tj. dziesiąty, dwudziesty, trzydziesty,... dziewięć­ jako miary rozproszenia, gdyż dodatnie różnice dokładnie
dziesiąty percentyl zwane są decylami. Wartości, które pokryją się z różnicami ujemnymi. Problem ten możemy
dzielą uporządkowany zbiór na cztery równe pod względem obejść przez podniesienie każdej odległości do kwadratu
liczby części, tj. dwudziesty piąty, pięćdziesiąty i siedem­ i znalezienie średniej z kwadratów odległości (rycina 6.2);
dziesiąty piąty percentyl nazywamy kwartylami. Pięćdzie­ wielkość tę nazywamy wariancją. Jeżeli mamy próbę
siąty centyl jest medianą (rozdział 5). n obserwacji xlT x2, x3, ..., xn, dla których średnia wynosi

Rycina 6.1. Wykres skrzynkowy masy urodzeniowej noworodka Rycina 6.2. Diagram pokazujący rozproszenie wybranych wartości
(rozdział 2). Na rycinie znajduje się mediana, rozstęp międzykwar­ wieku matki w chwili porodu (rozdział 2) wokół wartości średniej.
tylowy, rozstęp zawierający centralne 95% obserwacji oraz maksi­ Wariancja jest obliczana przez dodanie podniesionych do kwadratu
mum i minimum. odległości między poszczególnymi punktami a średnią i następnie
podzielenie przez (n - 1).

20 Opracowywanie danych
i - £x,- /AI, obliczamy wariancję tych obserwacji, zwykle wynikami. Może się to zdarzyć dlatego, że dany osobnik nie
omaczoną pr2ez s 2 , jako zawsze odpowiada w dokładnie ten sam sposób i/lub
z powodu błędu pomiarowego. Jednakże wariancja we­
wnątrzgrupowa jest z reguły mniejsza niż wariancja, którą
wyznaczymy, biorąc pojedynczy pomiar każdego osobnika
Jak widać, nie jest to dokładnie sama średnia arytme­ w grupie (zmienność międzygrupowa). Na przykład, 17-let-
tyczna kwadratów odległości, ponieważ dokonujemy dziele­ ni chłopiec ma pojemność życiową płuc pomiędzy 3,60
nia przez n - 1 zamiast przez n. Przyczyną tego jest fakt, że a 3,87 1, gdy pomiar jest wykonywany dziesięciokrotnie.
w naszych badaniach niemal zawsze opieramy się na próbie Wartość pojedynczych pomiarów zebranych u 10 chłopców
danych (rozdział 10). Można wykazać teoretycznie, że otrzy­ w tym samym wieku zawiera się natomiast między 2,98
mamy lepsze oszacowanie wariancji w populacji, gdy doko­ a 4,33 1. Te pojęcia są ważne przy planowaniu badania (roz­
namy dzielenia przez (n- 1). dział 13).
Jednostką wariancji jest jednostka oryginalnej obserwa­
cji podniesiona do kwadratu, tj. jeżeli zmienna mierzona
Tablica 6.1. Zalety i wady miar rozproszenia.
jest w kg, jednostką wariancji jest kg2.
Miara
rozproszenia Zalety Wady
ODCHYLENIE STANDARDOWE Rozstęp • Łatwo daje się wy­ • Można go stosować
Odchylenie standardowe jest pierwiastkiem kwadratowym znaczyć. w przypadku tylko
2 wariancji. W próbie n obserwacji jest równe: dwóch wartości.
• Zniekształcany przez
wartości odskakujące.
• Ma tendencję do wzro­
stu, gdy rośnie wiel­
kość próby.
Możemy wyobrazić sobie odchylenie standardowe jako
Rozstęp • Zazwyczaj nie znie­ • Trudny do policzenia.
rodzaj wartości przeciętnej odległości obserwacji od warto­
oparty kształcany przez • Nie może być stosowany
ści średniej. Jest ono wyrażone w tych samych jednostkach,
o percentyle wartości odskakujące. dla małych prób.
co dane surowe.
• Niezależny od wiel­ • Bierze pod uwagę jedy­
Jeżeli podzielimy odchylenie standardowe przez wartość kości próby. nie dwie wartości.
średnią i wyrazimy ten iloraz w procentach, otrzymamy • Odpowiedni dla • Niezdefiniowany alge­
tzw. współczynnik zmienności. Jest on miarą rozproszenia danych skośnych. braicznie.
niezależną od jednostek, lecz powoduje pewne teoretyczne • Jednostka miary jest
Wariancja • Wykorzystuje
niedogodności, na skutek czego nie jest lubiany przez staty­ wszystkie wartości. kwadratem jednostki
styków. • Zdefiniowana alge­ pomiaru surowego.
braicznie.
Odchylenie • Te same zalety jak • Czułe na wartości
ZMIENNOŚĆ W OBRĘBIE OBIEKTÓW standardowe wariancji. odskakujące.
I MIĘDZY NIMI • Jednostka miary jest • Niewłaściwe dla danych
taka sama jak jedno­ skośnych.
Jeżeli wykonamy powtórzone pomiary zmiennej ciągłej dla
stka pomiaru surowego.
jednego osobnika, możemy się spodziewać, że wystąpi pew­ • Łatwe w interpretacji.
na zmienność (zmienność wewnątrzgrupowa) między jego

6. Opis danych: rozproszenie 21


7 ROZKŁADY TEORETYCZNE: ROZKŁAD NORMALNY

W rozdziale 4 pokazałyśmy, jak z danych obserwacyjnych wtedy prawdopodobieństwo, że pacjent ma zęby, wynosi
utworzyć empiryczny rozkład częstości. Rozkład ten kontra­ 0,67 + 0,24 = 0,91.
stuje z teoretycznym rozkładem prawdopodobieństwa, który • Reguła mnożenia — jeżeli dwa zdarzenia, A i B, są
jest opisany modelem matematycznym. Jeżeli nasz ekspery­ niezależne (tj. wystąpienie jednego ze zdarzeń nie warun­
mentalny rozkład przybliża jakiś szczególny rozkład częstotli­ kuje drugiego zdarzenia), wtedy prawdopodobieństwo, że
wości, wtedy możemy wykorzystać wiedzę teoretyczną o tym zajdą oba zdarzenia, jest równe iloczynowi prawdopodo­
rozkładzie do udzielenia odpowiedzi na temat danych. Często bieństw zajścia każdego z nich:
trzeba w tym celu obliczyć prawdopodobieństwo.
Prób (A i B) = Prob(A) x ProWB)
Jeżeli np. dwóch niespokrewnionych pacjentów czeka u chi­
ZROZUMIENIE PRAWDOPODOBIEŃSTWA rurga stomatologicznego, prawdopodobieństwo, że obaj nie
Prawdopodobieństwo (prób — probability) jest miarą nie­ mają brakujących zębów wynosi 0,67 x 0,67 = 0,45.
pewności; leży u podstaw teorii statystyki. Mierzy ono
szanaę wystąpienia danego zdarzenia i jest liczbą dodatnią
leżąca pomiędzy zerem a jedynką. Jeżeli jest równe zero, to ROZKŁADY PRAWDOPODOBIEŃSTWA:
zdarzenie nie może się pojawić. Jeżeli jest równe jeden, to TEORIA
zdar2enie musi się pojawić. Zjawisko zdarzenia dopełniają­ Zmienna losowa jest wielkością, którą może przyjąć każda ze
cego (zdarzenia niepojawiającego się) jest równe jeden mi­ zbioru wzajemnie wykluczających się wielkości z określonym
nus prawdopodobieństwo zdarzenia pojawiającego się. prawdopodobieństwem. Rozkład prawdopodobieństwa poka­
Prawdopodobieństwo zdarzenia warunkowego, tzn. praw­ zuje prawdopodobieństwa wszystkich możliwych wartości
dopodobieństwa zdarzenia, które zachodzi, jeżeli wystąpiło zmiennej losowej. Jest to rozkład teoretyczny, wyrażony ma­
inne zdarzenie, omówimy w rozdziale 45. tematycznie, posiadający średnią i wariancję, podobnie jak
Prawdopodobieństwo możemy wyznaczyć, stosując róż­ posiada je rozkład empiryczny. Każdy rozkład prawdopodo­
ne podejścia. bieństwa jest zdefiniowany pewnymi parametrami, które są
• Subiektywne — stopień naszej osobistej wiary, że miarami podsumowującymi (np. średnia, wariancja), charak­
zdarzenie nastąpi (np. że koniec świata nastąpi pod koniec teryzującymi ten rozkład (tzn. znajomość tych parametrów
2050 roku). pozwala w pełni opisać rozkład). Parametry te są oszacowy­
• Częstościowe — proporcja liczby zdarzeń zjawiska wane w próbie przez odpowiednie statystyki. W zależności
przy eksperymencie powtarzanym wielką liczbę razy (np. od tego, czy zmienna losowa jest dyskretna, czy ciągła, roz­
ile razy otrzyma się „orła" przy tysiąckrotnym rzucaniu nie­ kład prawdopodobieństwa może być dyskretny lub ciągły.
zafałszowanej monety). • Dyskretny (np. dwumianowy, Poissona) — możemy
• Aprioryczne — wymaga znajomości modelu teoretycz­ otrzymać prawdopodobieństwa odpowiadające każdej moż­
nego, zwanego rozkładem częstości, który opisuje prawdo­ liwej wartości zmiennej losowej. Suma wszystkich tych
podobieństwa wszystkich możliwych wyników eksperymen­ prawdopodobieństw wynosi jeden.
tu. Na przykład, teoria genetyczna pozwala opisać rozkład • Ciągły (np. normalny, Chi-kwadrat, r i F) — możemy
prawdopodobieństwa otrzymania określonego koloru oczu jedynie wyznaczyć prawdopodobieństwo, że zmienna loso­
u dziecka zrodzonego z niebieskookiej kobiety i mężczyzny wa x przybierze wartość z pewnego przedziału (ponieważ
o oczach brązowych. Odbywa się to przez wyszczególnienie istnieje nieskończenie wiele wartości dla x). Jeżeli pozioma
wszystkich możliwych genotypów koloru oczu i prawdopo­ oś przedstawia wartości x, możemy narysować krzywą
dobieństw ich wystąpienia. z równania rozkładu (funkcja gęstości rozkładu prawdopo­
dobieństwa); przypomina ona empiryczny, względny roz-
REGUŁY PRAWDOPODOBIEŃSTWA
Catkowite pole pod krzywą = 1 (lub 100%)
Możemy stosować reguły dodawania i mnożenia prawdopo­
dobieństw.
• Reguła dodawania — jeżeli dwa zdarzenia, A i B, wza­
jemnie się wykluczają (tzn. każde wystąpienie jednego zda­
rzenia wyklucza pojawienie się drugiego), wtedy prawdopo­
dobieństwo pojawienia się jednego lub drugiego zdarzenia
jest równe sumie prawdopodobieństw pojawienia się każde­
go ze zdarzeń.
Prób (A lub B) = Prób (A) + Prób (B)
Jeżeli np. prawdopodobieństwo, że w pewnym gabinecie
dentystycznym pojawi się dorosły pacjent bez brakujących
zębów, z niektórymi brakującymi zębami lub bezzębny (tzn.
nie mający zębów), wynosi odpowiednio 0,67, 0,24 i 0,09, Rycina 7.1. Funkcja gęstości prawdopodobieństwa (pdf) zmiennej x.

22 Opracowywanie danych
Rycina 7.2. Funkcja gęstości praw­
dopodobieństwa rozkładu normalne­
go zmiennej x.
(a) Symetryczna wokói średniej fi:
wariancja = a .
2

(b) Efekt zmiany średniej


(c) Efekt zmiany wariancj:

ROZKŁAD NORMALNY (GAUSSOWSKI)


Jednym z najważniejszych rozkładów w statystyce jest roz­
kład normalny. Jego funkcja gęstości prawdopodobieństwa
(rycina 7.2) jest:
• całkowicie opisana przez dwa parametry, średnią (jti)
2
i wariancję fcr );
• ma kształt dzwonu (jednomodalna);
• jest symetryczna w stosunku do swej średniej;
• przesuwa się w prawo, gdy średnia rośnie, a w lewo,
gdy średnia maleje przy założeniu stałej wariancji;
• spłaszcza się, gdy wariancja rośnie, a staje się bardziej
wypikowana, gdy wariancja maleje (dla ustalonej średniej).
Dodatkowe własności tego rozkładu są następujące;
• średnia i mediana rozkładu normalnego są równe;
• prawdopodobieństwo (rycina 7.3a), że zmienna losowa
x o rozkładzie normalnym ze średnia fi i odchyleniu stan­
dardowym a leży pomiędzy:

(fi - a) i (fi + a) wynosi 0,68;


(fi - l,96cr) i (fi + 1,96a) wynosi 0,95;
(fi - 2,58a) i (fi + 2,58a) wynosi 0,99.

Przedziały te mogą zostać użyte do zdefiniowania prze­


działów odniesienia (rozdziały 6 i 38).
Jak sprawdzić normalność rozkładu, opisujemy w roz­
dziale 35.
Rycina 7.3. Pola (procenty całkowitego prawdopodobieństwa) pod
krzywą dla (a) rozkładu normalnego x, ze średnią fi i wariancją a2,
i <b) standaryzowanego rozkładu normalnego z. STANDARYZOWANY ROZKŁAD NORMALNY
W zależności od wartości fi i a istnieje nieskończenie wiele
rozkładów normalnych. Standaryzowany rozkład normalny
kład częstości (rozdział 4). Całkowite pole pod krzywą (rycina 7.3b) jest szczególnym rozkładem normalnym, dla
wynosi jeden; to pole reprezentuje prawdopodobieństwo którego stabelaryzowano wartości prawdopodobieństwa
wystąpienia wszystkich możliwych zdarzeń. Prawdopodo­ (Dodatek Al, A4).
bieństwo, że x leży pomiędzy dwoma wartościami granicz­ • Standaryzowany rozkład normalny ma średnią równą
nymi jest równe polu pod krzywą ograniczonemu tymi war­ zero i wariancję równą jeden.
tościami (rycina 7.1). Dla wygody przygotowałyśmy tablice • Jeżeli zmienna losowa x ma rozkład normalny ze śred­
(Dodatek A) umożliwiające oszacowanie interesujących nas nią fi i wariancją a2, wtedy zmienna standaryzowana (SND),
prawdopodobieństw dla ogólnie stosowanych, ciągłych roz­ , jest zmienną losową, która ma standaryzowany
kładów prawdopodobieństwa. Są one szczególnie użyteczne
w przypadku wyznaczania przedziałów ufności (rozdział 11) rozkład normalny.
i testowania hipotez (rozdział 17).

7. Rozkłady teoretyczne: rozkład normalny 23


8 ROZKŁADY TEORETYCZNE: INNE ROZKŁADY

PARĘ SŁÓW USPOKOJENIA Rozkład Chi-kwadrat (Dodatek A3, rycina 8.2)


Teoria dotycząca rozkładów prawdopodobieństwa może wy­ • Jest rozkładem prawoskośnym, przybierającym warto­
dać się złożona. Z naszego doświadczenia wiemy, że chciał­ ści dodatnie.
byś jedynie wiedzieć, kiedy i jak ich użyć. Dlatego naszki­ • Jest określony przez liczbę stopni swobody (rozdział 11).
cowałyśmy jedynie najważniejsze elementy, a ominęłyśmy • Jego kształt zależy od liczby stopni swobody; staje się
wzory definiujące rozkłady prawdopodobieństwa. Ich bardziej symetryczny i przybliża się do rozkładu normalne­
zrozumienie wymaga jedynie znajomości podstawowych po­ go, w miarę jak wzrasta liczba stopni swobody.
jęć, terminologii i prawdopodobnie (chociaż w dobie kompu­ • Jest szczególnie przydatny do analizy danych katego-
terów rzadko), umiejętności korzystania z tablic. rialnych (rozdziały 23-25).

Rozkład F (Dodatek A5)


INNE CIĄGŁE ROZKŁADY • Jest prawoskośny.
PRAWDOPODOBIEŃSTWA • Jest zdefiniowany przez proporcje. Rozkład stosunku
dwóch oszacowywanych wariancji obliczonych z danych
Rozkłady te oparte 5ą na ciągłych zmiennych losowych. Czę­ o rozkładzie normalnym przybliża rozkład F.
sto nie sama zmienna mierzona, lecz statystyka otrzymana • Dwa parametry, które charakteryzują ten rozkład, to
z tej zmiennej podlega takiemu rozkładowi. Całkowite pole liczby stopni swobody (rozdział 11) licznika i mianownika
pod krzywą funkcji rozkładu prawdopodobieństwa repre­ proporcji.
zentuje prawdopodobieństwo otrzymania wszystkich możli­ • Rozkład F jest szczególnie przydatny przy porównywa­
wych wyników i jest równe jeden (rozdział 7). Rozkład nor­ niu dwóch wariancji (rozdział 18) oraz więcej niż dwóch śred­
malny omówiłyśmy w rozdziale 7; inne rozkłady są opisane nich przy użyciu analizy wariancji (ANOVA, rozdział 22).
w tym rozdziale.
Rozkład lognormalny
Rozkład t (Dodatek A2, rycina 8.1) • Jest rozkładem prawdopodobieństwa zmiennej loso­
• Opisany przez W. S. Gossetta, który publikował pod pseu­ wej, której logarytm (o podstawie 10 lub e) podlega rozkła­
donimem „Student"; jest często zwany rozkładem f-Studenta. dowi normalnemu.
• Parametrem charakteryzującym rozkład t jest liczba • Jest silnie prawoskośny (rycina 8.3a).
stopni swobody: możemy wykreślić funkcję gęstości praw­ • Jeżeli obliczymy logarytm z naszych surowych danych,
dopodobieństwa, jeżeli znamy równanie rozkładu t i liczbę które są prawoskośne, i otrzymujemy rozkład empiryczny
stopni swobody. Liczbę stopni swobody omawiamy w roz­ o kształcie zbliżonym do normalnego (rycina 8.3b), to nasze
dziale 11; należy zwrócić uwagę, że są one często blisko po­ dane przybliżają rozkład lognormalny.
wiązane z wielkością próby. • Wiele zmiennych w medycynie podlega rozkładowi
• Jego kształt jest podobny do standaryzowanego rozkła­ lognormalnemu. Po transformacji tych zmiennych poprzez
du normalnego, lecz jest bardziej rozciągnięty (ma dłuższe obliczenie logarytmów możemy wykorzystać właściwości
ogony). Kształt ten przybliża się do rozkładu normalnego, rozkładu normalnego do wnioskowania o tych zmiennych
w miarę jak rośnie liczba stopni swobody. (rozdział 7).
• Jest szczególnie użyteczny do obliczania przedziałów • Jeżeli dane mają rozkład lognormalny, możemy użyć
ufności i testowania hipotez o jednej lub dwóch średnich średniej geometrycznej (rozdział 5) jako podsumowującej
(rozdziały 19-21). miary położenia.

Rycina 8.1. Rozkłady t z liczbą stopni swobody (df) = 1, 5, 50 i 500. Rycina 8.2. Rozkłady Chi-kwadrat z liczbą stopni swobody (df) = 1,
2, 5 i 10.

24 Opracowywanie danych
Rycina 8.3. (a) Rozkład lognormalny
poziomów trójglicerydów u 232 męż­
czyzn, u których wystąpiła choroba
serca (rozdział 19); (b) przybliżony roz­
kład normalny wartości log10 (poziom
trójglicerydów).

Rycina 8.4. Rozkład dwumianowy pokazujący liczbę sukcesów r, gdy prawdopodobieństwo sukcesu wynosi n - 0,20 dla wielkości próby
ta) n = 5, (b) n = 10, i (c) n - 50. (Notabene, w rozdziale 23 obserwowana częstość występowania seropozytywności HHV-8 wynosi
p= 0,187 = 0,2, a wielkość próby wynosiła 271; przyjęto, że proporcja podlega rozkładowi normalnemu).

DYSKRETNE ROZKŁADY eksperymentu n razy) wynosi rut. Jego wariancja wynosi


PRAWDOPODOBIEŃSTWA nnd-n).
• Dla małego n rozkład jest prawoskośny, gdy n < 0,5,
Zmienna losowa, która określa rozkład prawdopodobieństwa, i lewoskośny, gdy JC > 0,5. Rozkład staje się bardziej syme­
jest dyskretna. Suma prawdopodobieństw wszystkich wza­ tryczny, gdy rośnie wielkość próby (rycina 8.4), i przybliża
jemnie wykluczających się zdarzeń równa się jeden. rozkład normalny, jeżeli zarówno nn, jak i n(l- jr) są więk­
sze niż 5.
Rozkład dwumianowy • Rozkładu dwumianowego możemy użyć, gdy wniosku­
• Przypuśćmy, że w danej sytuacji są możliwe tylko dwa jemy o proporcjach. W szczególności, gdy analizujemy pro­
wyniki: „sukces" lub „porażka". Na przykład, jesteśmy zain­ porcje, często używamy przybliżenia normalnego rozkładu
teresowani, czy po sztucznym zapłodnieniu in vitro (IVF) ko­ dwumianowego.
bieta pocznie dziecko (sukces), czy też nie (porażka). Jeżeli
weźmiemy n - 100 niespokrewnionych kobiet podlegających Rozkład Poissona
IVF (każda z tym samym prawdopodobieństwem poczęcia), • Zmienna losowa Poissona jest liczbą zdarzeń pojawiają­
obserwowana liczba poczęć (sukcesów) będzie losową zmien­ cych się niezależnie i losowo w czasie lub przestrzeni z pew­
ną binomialną. Często koncepcja tego rozkładu jest wyjaśnia­ ną średnią częstością^. Na przykład, dzienna liczba przyjęć
na poprzez n niezależnych powtórzeń eksperymentu (np. 100 do szpitala podlega rozkładowi Poissona. Możemy użyć naszej
rzutów monetą), w którym wynik jest albo sukcesem (np. wiedzy o rozkładzie Poissona do wyznaczenia prawdopodo­
orzeł), albo porażką. bieństwa pewnej liczby przyjęć określonego dnia.
• Dwoma parametrami, które opisują rozkład dwumiano­ • Parametrem opisującym rozkład Poissona jest średnia,
wy, są n, liczba osobników w próbie (lub powtórzeń ekspery­ tzn. przeciętna częstość fi.
mentu), oraz 7Z, prawdziwe prawdopodobieństwo sukcesu dla • W rozkładzie Poissona średnia równa się wariancji.
każdego osobnika (lub każdego eksperymentu). • Jest to rozkład prawoskośny, gdy średnia jest mała,
• Jego średnia (wartość zmiennej losowej, której spo­ lecz staje się coraz bardziej symetryczny, gdy średnia rośnie;
dziewamy się po analizie n osobników lub po powtórzeniu przybliża wtedy rozkład normalny.

8. Rozkłady teoretyczne: inne rozkłady 25


9 TRANSFORMACJE

DLACZEGO TRANSFORMOWAĆ? TYPOWE TRANSFORMACJE


Obserwacje w naszym badaniu mogą nie spełniać założeń Transformacja logarytmiczna, z = log y
planowanej analizy statystycznej (rozdział 35). Jeżeli transformujemy dane logarytmicznie, możemy wybrać
• Zmienna może nie mieć rozkładu normalnego, co jest podstawę logarytmu 10 (log10 y) lub naturalną e (loge y = In y,
założeniem dystrybucyjnym dla wielu różnych analiz. logarytm Napera), lub dowolną inną podstawę, lecz musi ona
• Rozrzut obserwacji w każdej z kilku grup może być być jednakowa dla każdej wartości w zbiorze danych. Zwróć­
rozmaity (stalą wariancja jest założeniem o parametrze przy my uwagę, że nie możemy obliczyć logarytmu z liczb ujemnych
porównywaniu średnich za pomocą testu f dla zmiennych i zera. Transformacja odwrotna jest zwana antylogarytmowa-
niepowiązanych i analizy wariancji; rozdziały 21-22). niem; antylogarytm z logarytmu Napera jest eksponentą e.
• Dwie zmienne mogą nie być liniowo powiązane (linio­ • Jeżeli rozkład y jest prawoskośny, z= logy ma często
wość jest założeniem w wielu analizach regresyjnych — roz­ rozkład w przybliżeniu normalny (rycina 9.la). Wtedy y ma
działy 27-33 i 42). rozkład lognormalny (rozdział 8).
Często pomocną rzeczą jest transformacja naszych da­ • Jeżeli istnieje eksponencjalny związek między y i inną
nych w celu spełnienia założeń leżących u podstaw propono­ zmienną x, tak że odpowiadająca mu krzywa skręca w górę,
wanych technik statystycznych. gdy y (na osi pionowej) wykreślane jest w funkcji x (na osi
poziomej), wtedy związek między z- log y i r jest w przy-
bliżeniu liniowy (rycina 9. Ib).
JAK DOKONUJEMY TRANSFORMACJI?
• Przypuśćmy, że mamy różne grupy obserwacji, wszyat-
Konwersja surowych danych na dane przetransformowane kie zawierające pomiary zmiennej ciągłej y. Można zauwa­
polega na wykonaniu takich samych matematycznych transfor­ żyć, że grupy mające wyższe wartości y mają również więk­
macji dla każdej obserwacji. Przypuśćmy, że mamy n obser­ sze wariancje. W szczególności, jeżeli współczynnik zmien­
wacji zmiennej y i stwierdzamy, że odpowied­ ności zmiennej y (odchylenie standardowe podzielone przez
nia jest transformacja logarytmiczna. Bierzemy logarytm średnią) jest stały, transformacja logarytmiczna z = log y
z każdej obserwacji, tworząc: Jeżeli wytworzy grupy mające zbliżone wariancje (rycina 9.1c).
oznaczymy zmienną transformowaną przez z, to z{ = dla W medycynie transformacja logarytmiczna jest często
każdego i(i- 1, 2,..., n), a nasze zmienne przetransformowa­ stosowana z powodu jej logicznej interpretacji i dlatego, że
ne można zapisać jako wiele zmiennych ma rozkłady prawoskośne.
Sprawdzamy, czy dzięki transformacji powstały dane
spełniające założenie planowanej analizy statystycznej (np. Transformacja pierwiastkowania kwadratowego,
przez wykreślenie histogramu przetransformowanych da­
nych, (patrz rozdział 35) i przystępujemy do ich analizy (zv Transformacja ta ma właściwości zbliżone do właściwości
z 2 ; ..., zn). Często dokonujemy transformacji odwrotnej miar transformacji logarytmicznej, chociaż wyniki otrzymane po
podsumowujących (takich jak średnia) na oryginalną skalę jej przeprowadzeniu są bardziej skomplikowane w interpre­
pomiarową; potem polegamy na wnioskach, wyciąganych tacji. Oprócz tego, że ma własności normalizacyjne i lineary-
z testowania hipotez (rozdział 17) na danych przetransformo­ zujące, pozwala również na stabilizację wariancji, jeżeli wa­
wanych. riancja rośnie ze wzrastającą wartością y, tj. gdy wariancja
podzielona przez średnią jest stała. Często stosujemy trans­
formację pierwiastkowania, jeżeli y jest liczbą rzadkich zda­
rzeń pojawiających się w czasie lub przestrzeni, tj. zmienną
Poissona (rozdział 8). Pamiętajmy, że nie możemy obliczyć
pierwiastka kwadratowego z liczby ujemnej.

Rycina 9.1. Efekty transformacji lo­


garytmicznej: (a) normalizacja, (b) li-
nearyzacja, (c) stabilizacja wariancji.

26 Opracowywanie danych
Rycina 9.2. Efekt transforma­
cji podnoszenia do kwadratu:
(a) normalizacja, (b) linearyza-
cja, (c) stabilizacja wariancji.

Transformacja hiperboliczna, z =1/y


Często stosujemy transformację hiperboliczna w przypadku
czasów przeżycia, z wyjątkiem sytuacji, gdy stosujemy spe­
cjalne techniki do ich analizy (rozdział 41). Transformacja
hiperboliczna ma własności podobne do własności transfor­
macji logarytmicznej. Oprócz tego, że ma właściwości norma­
lizujące i linearyzujące, jest ona bardziej efektywna w stabi­
lizacji wariancji niż transformacja logarytmiczna, jeżeli
wariancja rośnie znacznie ze wzrastającymi wartościami y,
np. gdy wariancja podzielona przez średnią jest wartością
stałą. Należy zwrócić uwagę, że nie można obliczyć odwrotno­
ści z zera.
2
Transformacja podnoszenia do kwadratu, z = y
Transformacja podnoszenia do kwadratu daje odwrotne wy­
niki niż transformacja logarytmiczna.
• Jeżeli rozkład y jest lewoskośny, rozkład z - y2 jest
często w przybliżeniu normalny (rycina 9.2a).
• Jeżeli związek między dwoma zmiennymi, x i y, jest ta­
ki, że krzywa skręca w stronę mniejszych wartości, gdy ry­
sujemy y w funkcji x, wtedy związek pomiędzy z=yz\ xjest
w przybliżeniu liniowy (rycina 9.2b).
• Jeżeli wariancja zmiennej ciągłej y ma tendencję do
spadku, gdy y rośnie, wtedy transformacja podnoszenia do
kwadratu z-y2 stabilizuje wariancję (rycina 9.2c).

Transformacja logitowa (logistyczna),

Tej transformacji używamy najczęściej do każdej proporcji


p w zbiorze proporcji. Gdy p - 0 lub p - 1, nie możemy wy­
konać transformacji logitowej, ponieważ odpowiadające war­
tości logitów wynoszą -~> i +», Wyjściem z tej sytuacji jest
wzięcie wartości p równej l/(2n) zamiast 0 oraz [1 - l/(2n)}
zamiast 1, gdzie n jest wielkością próby.
Transformacja ta linearyzuje krzywą sigmoidalną (ryci­
na 9.3). Zagadnienie użycia transformacji logitowej w anali­
zie regresji zostało omówione w rozdziale 30. Rycina 9.3. Efekt transformacji logitowej na krzywą sigmoidalną.

9. Transformacje 27
10 PRÓBKOWANIE I ROZKŁADY PRÓBKOWANIA

DLACZEGO DOKONUJEMY parametru populacyjnego były w każdej próbie dokładnie ta­


PRÓBKOWANIA? kie same. Jednakże nasze parametry powinny być zbliżone
do prawdziwej wartości parametru w populacji i podobne je­
W statystyce populacja reprezentuje całą grupę obiektów, den do drugiego. Kwantyfikując zmienność tych estymato­
którymi jesteśmy zainteresowani. Ogólnie, badanie całej po­ rów, otrzymamy informację o dokładności naszego estymato­
pulacji jest kosztowne i pracochłonne, a w niektórych przy­ ra i dzięki temu możemy oszacować błąd próbkowania.
padkach wręcz niemożliwe, ponieważ populacja może być hi­ W rzeczywistości zwykle pobieramy tylko jedną próbę
potetyczna (np. pacjenci, którzy będą leczeni w przyszłości). z populacji Nadal jednak możemy robić użytek z naszej teo­
Dlatego zbieramy dane na temat próby obiektów, która jak retycznej wiedzy o estymatorach próby, aby wyciągać wnio­
wierzymy, jest reprezentatywna dla tej populacji (tj. ma po­ ski o parametrze w populacji.
dobną charakterystykę jak obiekty w populacji), i używamy
jej do wyciągania wniosków o populacji.
Gdy pobierzemy próbę z populacji, stwierdzimy, że infor­ PRÓBKOWANIE ROZKŁADU ŚREDNIEJ
macje na jej temat mogą nie w pełni odzwierciedlać to, co jest Wyobraźmy sobie, że jesteśmy zainteresowani estymacją
prawdziwe dla populacji. Na skutek zbadania jedynie części średniej populacyjnej; możemy wielokrotnie pobrać z popu­
populacji popełniliśmy błąd próbkowania. W tym rozdziale lacji próby o liczebności n i z każdej próby estymować śred­
pokażemy, jak używać teoretycznych rozkładów prawdopodo­ nią. Histogram estymatorów tych średnich pokaże ich roz­
bieństwa (rozdziały 7 i 8) do kwantyfikacji tego błędu. kład (rycina 10.1); jest to rozkład próbkowania średniej.
Możemy wykazać, że:
OTRZYMYWANIE • Jeżeli wielkość próby jest wystarczająco duża, estyma­
tory średniej podlegają rozkładowi normalnemu, jakikol­
PRÓBY REPREZENTATYWNEJ
wiek byłby rozkład oryginalnych danych w populacji (wyni­
Ideałem jest uzyskanie próby losowej. Tworzona jest lista ka to z twierdzenia znanego jako Centralne Twierdzenie
wszystkich obiektów w populacji (operat losowania) i z tej Graniczne).
listy wybierane są losowo obiekty, co oznacza, że każda • Jeżeli próba jest mała, to estymatory średniej podlega­
możliwa próba o określonej liczebności ma takie samo praw­ ją rozkładowi normalnemu, gdy dane w populacji podlegają
dopodobieństwo, by być wybraną z populacji. Czasami może­ rozkładowi normalnemu.
my mieć trudności ze stworzeniem takiej listy lub związane • Średnia z estymatorów jest nieobciążonym estymato­
z tym koszty są zbyt duże i wtedy pobieramy próbę dogod­ rem prawdziwej średniej w populacji, tj. średnia estymato­
ną. Na przykład, gdy badamy pacjentów z określonym sta­ rów równa jest prawdziwej średniej populacyjnej.
nem klinicznym, możemy wybrać pojedynczy szpital i badać • Zmienność rozkładu mierzona jest odchyleniem stan­
w nim niektórych lub wszystkich pacjentów w tym stanie. dardowym estymatorów; jest ona znana jako błąd standar­
Bardzo rzadko stosuje się schematy nielosowe, takie jak pró­ dowy średniej (często oznaczany jako SEM). Jeżeli znamy
by kwotowe lub próbkowanie systematyczne. Chociaż opisa­ odchylenie standardowe w populacji (o), wtedy błąd standar­
ne w tej książce testy statystyczne zakładają, że obiekty dowy średniej jest równy:
w próbie zostały wybrane w sposób losowy, dają one ogólnie
sensowne wyniki tak długo, jak długo próba pozostaje repre­ SEM =
zentatywna dla populacji. Jeżeli mamy tylko jedną próbę, a tak jest zazwyczaj, na­
szym najlepszym estymatorem średniej populacyjnej jest
średnia próby i ponieważ rzadko kiedy znamy odchylenie
ESTYMATORY PUNKTOWE standardowe w populacji, oszacowujemy błąd standardowy
Często jesteśmy zainteresowani wartością parametru w po­ średniej jako:
pulacji (rozdział 7), np. średnią lub proporcją. Parametry
SEM =
oznacza się zwykle literami alfabetu greckiego. Na przykład,
średnią populacyjną oznaczamy literą fi, a populacyjne od­ gdzie s jest odchyleniem standardowym obserwacji w próbie
chylenie standardowe literą o. Wartość parametru oszacowu­ (rozdział 6). SEM określa miarę dokładności naszego estyma­
jemy przy użyciu danych zebranych w próbie. Oszacowanie tora.
to określa się jako statystykę próby lub estymator punkto­
wy parametru (tj. przyjmujący pojedynczą wartość), w prze­ Interpretacja błędów standardowych
ciwieństwie do estymatora przedziałowego (rozdział 11), • Duży błąd standardowy wskazuje, że estymator jest nie­
który przyjmuje zakres wartości. precyzyjny.
• Mały błąd standardowy wskazuje, że estymator jest
precyzyjny. Błąd standardowy jest zmniejszony, tj. otrzymu­
WARIANCJA PRÓBKOWANIA
jemy wyższą precyzję estymatora, gdy:
Jeżeli pobierzemy z populacji powtarzane próby tej samej • zwiększymy wielkość próby (rycina 10.1);
wielkości, to jest rzeczą nieprawdopodobną, aby estymatory • dane mają mniejszą zmienność.

28 Próbkowanie i estymacja
SD CZY SEM?
Chociaż oba parametry wyglądają podobnie, są używane do gdzie r jest liczbą obiektów w próbie posiadających pewną
różnych celów. Odchylenie standardowe opisuje zmiany war­ własność. Jeżeli wielokrotnie losujemy z naszej populacji pró­
tości danych i powinno być używane, gdy chcemy ilustrować by o wielkości n i wykreślamy estymator proporcji w postaci
ich zmienność. W przeciwieństwie do tego, błąd standardowy histogramu, to rozkład próbkowania proporcji będzie
opisuje precyzję estymacji średniej w próbie i powinien być w przybliżeniu rozkładem normalnym z wartością średnią n.
używany, gdy jesteśmy zainteresowani średnią w zbiorze da­ Odchylenie standardowe tego rozkładu estymowanych pro­
nych. porcji jest błędem standardowym proporcji. Jeżeli losujemy
tylko pojedynczą próbę, jest on określany przez wyrażenie:

PRÓBKOWANIE ROZKŁADU PROPORCJI


Czasem jesteśmy zainteresowani proporcją obiektów w po­
pulacji, które mają pewną własność. Gdy losujemy z popula­
cji próbę o wielkości n, naszym najlepszym estymatorem Podaje ono miarę precyzji naszego estymatora n\ mała
p proporcji w populacji n jest: wartość błędu standardowego oznacza dokładny estymator.

PRZYKŁAD

Rycina 10.1. la) Teoretyczny rozkład normalny log10 (poziomów trójglicerydów), ze średnią = 0,31 log10 (mmol/L) i odchyleniem stan­
dardowym = 0,24 log]0 (mmol/L), oraz obserwowane rozkłady średnich 100 próbek losowych o wielkościach: (b) 10, (c) 20 i (d) 50, po­
chodzących z tfgo rozkładu teoretycznego.

10. Próbkowanie i rodzaje próbkowania 29


11 PRZEDZIAŁY UFNOŚCI

Gdy wylosowaliśmy próbę z naszej populacji, otrzymaliśmy


tj. średnia próby ±
estymator punktowy (rozdział 10) interesującego nas para­
metru i wyznaczyliśmy błąd standardowy w celu określenia gdzie t0 05 jest punktem procentowym (percentylem) rozkła­
jego dokładności. Jednakże dla większości ludzi błąd stan­ du tz(n- 1) stopniami swobody, co daje dwustronne praw­
dardowy nie jest sam w sobie szczególnie interesujący. Bar­ dopodobieństwo (rozdział 17) równe 0,05 (Dodatek A2). Ogól­
dziej przydaje się włączenie tej miary dokładności do esty­ nie powoduje to nieco szerszy przedział ufności niż w przy­
matora przedziałowego parametru populacji. Robimy to, padku użycia rozkładu normalnego, co pozwala uwzględnić
wykorzystując naszą wiedzę na temat teoretycznego rozkła­ dodatkową niepewność, którą wprowadziliśmy przez oszaco­
du statystyki próby w celu obliczenia przedziału ufności dla wanie populacyjnego odchylenia standardowego i/lub która
tego parametru. Ogólnie przedział ufności rozciąga się po wynika z tego, że próba jest mała. W przypadku dużej próby
każdej stronie estymatora pewną wielokrotność odchylenia różnicę między oboma rozkładami można zaniedbać. Dlatego,
standardowego; te dwie wartości (granice przedziału ufno­ gdy obliczamy przedziały ufności dla średniej, zawsze, na­
ści), które go definiują, są zwykle rozdzielane przecinkiem, wet gdy próba jest duża, używamy rozkładu t.
myślnikiem lub słowem „do" i ujęte w nawiasy.
Zgodnie z konwencją zwykle stosujemy 9596 przedziały
ufności Możemy jednak wyznaczyć także inne pr2edziały uf­
PRZEDZIAŁY UFNOŚCI DLA ŚREDNIEJ ności, np. 99% przedział ufności dla średniej. Zamiast mno­
żenia błędu standardowego przez stabelaryzowaną wartość
Użycie rozkładu normalnego
rozkładu t odpowiadającą prawdopodobieństwu 0,05, mno­
W rozdziale 10 stwierdziłyśmy, że średnia próby podlega żymy go wtedy przez wartość odpowiadającą dwustronnemu
rozkładowi normalnemu, jeżeli próba jest duża. Dlatego, gdy prawdopodobieństwu 0,01. 99% przedział ufności jest szer­
ro2ważamy średnią próby, możemy zrobić użytek z właści­ szy niż 95%, co odzwierciedla większą ufność co do tego, 26
wości rozkładu normalnego. W szczególności chodzi o fakt, zakres zawiera prawdziwą średnią populacyjną.
że 95% rozkładu średnich próby leży w obrębie 1,96 odchy­
lenia standardowego (SD) średniej populacyjnej. To odchyle­
nie standardowe nazywamy błędem standardowym średniej PRZEDZIAŁY UFNOŚCI DLA PROPORCJI
(SEM), W przypadku pojedynczej próby 95% przedział ufno­ Rozkład próbkowania proporcji przypomina rozkład dwu­
ści (CI) dla średniej określamy jako: mianowy (rozdział 8). Jednakże gdy próba n jest wystarcza­
od: średnia próby - (1,96 x SEM), jąco duża, wtedy rozkład próbkowania proporcji jest w przy­
bliżeniu rozkładem normalnym ze średnią n. Oszacowuje­
do: średnia próby + (1,96 x SEM).
my n jako proporcję w próbie p = r/n (gdzie r jest liczbą
Jeżeli powtórzymy eksperyment wielokrotnie, zakres ten obiektów w próbie z określoną własnością), a jego błąd
będzie zawierał prawdziwą średnią populacyjną w 95% sytu­
acji. Zakres ten jest znany jako 95% przedział ufności dla standardowy określa się jako y (rozdział 10).
średniej. Zazwyczaj interpretujemy taki przedział ufności ja­ 95% przedział ufności dla proporcji wyznacza się w na­
ko zakres wartości, wewnątrz którego z prawdopodobień­ stępujący sposób:
stwem 95% leży prawdziwa średnia populacyjna. Chociaż nie
jest to w pełni poprawne (jako że średnia populacyjna jest
wartością ustaloną i dlatego nie może mieć wyznaczonego
prawdopodobieństwa), będziemy jednak interpretować prze­
dział ufności w ten właśnie sposób, gdyż jest on łatwiejszy Jeżeli próba jest mata (zwykle gdy np lub n[l -p\ jest
do zrozumienia pod względem pojęciowym. mniejsze niż 5), musimy użyć do wyznaczenia dokładnych
przedziałów ufności rozkładu dwumianowego 1. Należy zwró­
Użycie rozkładu t cić uwagę, że jeżeli p jest wyrażone w procentach, zastępu­
Ściśle rzecz biorąc, do obliczeń powinniśmy użyć rozkładu jemy (1 - p) przez (100 - p).
normalnego wtedy, gdy znamy wariancję a2 w populacji. Co
więcej, jeżeli próba jest mata, średnia próby podlega rozkła­
INTERPRETACJA PRZEDZIAŁÓW UFNOŚCI
dowi normalnemu jedynie wtedy, gdy dane w populacji ma­
ją rozkład normalny. Jeżeli dane nie mają rozkładu normal­ Kiedy interpretujemy przedział ufności, jesteśmy zaintereso­
nego i/lub nie znamy wariancji w populacji, lecz jedynie wani paroma problemami.
estymujemy ją przez s 2 , średnia próby podlega rozkładowi • Jak jest szeroki? Szeroki przedział wskazuje, że esty­
t (rozdział 8). Wyznaczamy wtedy 95% przedział ufności dla mator jest niedokładny. Szerokość przedziału ufności zależy
średniej jako: od wielkości błędu standardowego średniej, który z kolei za­
leży od wielkości próby i, gdy rozważamy zmienną nume-
od: średnia próby — (f0 05 x SEM),
do: średnia próby + (f005 x SEM)), 1
Diem K.: Documenta Geigy Scientifw Tables. Blackwell Publłshing,
Oxford 1970.

30 Próbkowanie i estymacja
ryczną, od zmienności danych. Dlatego matę badania na da­ dwa stopnie swobody. Podobnie, liczba stopni swobody wa­
nych o dużej zmienności dają szersze przedziały ufności niż riancji próby (rozdział 6), jest równa wielko­
większe badania z mniej zmiennymi danymi.
ści próby minus jeden, ponieważ w celu obliczenia s2 musi­
• Jakie z tego można wyciągnąć wnioski kliniczne?
Górna i dolna granica zapewniają określenie, czy wyniki są my obliczyć średnią próby (x), czyli estymator średniej po­
klinicznie istotne (patrz przykład). pulacyjnej.
• Czy zawiera szczególnie interesujące wielkości? Mo­
żemy sprawdzić, czy hipotetyczna wartość dla parametru po­
pulacyjnego wpada do przedziału ufności. Jeżeli tak, to nasze
BOOTSTRAPPING
wyniki są zgodne z wartością hipotetyczną. Jeżeli nie, wtedy Bootstrappingjest procesem komputerowej intensywnej sy­
jest nieprawdopodobne, aby parametr miał taką wartość (dla mulacji, który możemy wykorzystać w celu otrzymania prze­
95% przedziału ufności szansa wynosi co najwyżej 5%). działu ufności dla parametru, jeżeli nie chcemy przyjmować
założeń na temat rozkładu próbkowania jego estymatora (np.
rozkładu normalnego dla średniej próby). Z próby oryginalnej
LICZBA STOPNI SWOBODY tworzymy wielką liczbę próbek losowych (zwykle co naj­
W statystyce spotyka się określenie „liczba stopni swobody". mniej 1000), wszystkie o tej samej wielkości co próba orygi­
Ogólnie można je wyznaczyć jako wielkość próby minus licz­ nalna, poprzez próbkowanie ze zwracaniem, tzn. pozwalając
ba ograniczeń w określonych obliczeniach; ograniczenia te obiektowi, który został wybrany, na ponowne włączenie do
mogą być parametrami, które mamy wyznaczyć. Jako prostą losowania, tak że obiekt może być wybrany więcej niż raz
ilustrację tego zagadnienia rozważmy zespół trzech liczb, w danej próbie. Każda próba dostarcza estymator parame­
które dają sumę (T). Dwie z tych liczb mogą „swobodnie" tru, a zmienność rozkładu tych estymatorów wykorzystywa­
przyjąć dowolną wielkość, podczas gdy trzecia jest ustalona na jest do uzyskania przedziału ufności dla parametru (np.
przez ograniczenia nałożone przez 71 Dlatego liczby mają percentyle 2,5 oraz 97,5 dają 95% przedział ufności).

PRZYKŁAD
Przedział ufności dla średniej Przedział ufności dla proporcji
Chcemy wyznaczyć średni wiek podczas pierwszego poro­ 27 (42,2%) spośród 64 włączonych do badania kobiet zgła­
du u kobiet z zaburzeniami krwawienia. W próbie mamy szało, że co najmniej raz w tygodniu mają krwawienie
49 takich kobiet (rozdział 2): z dziąseł. Jest to stosunkowo wysoki procent i może służyć
jako sposób identyfikacji nie zdiagnozowanych kobiet z za­
Średni wiek w chwili porodu x - 27,01 lat. burzeniami krwawienia w całej populacji. Obliczamy 95%
Odchylenie standardowe s = 5,1282 lat. przedział ufności dla proporcji kobiet z krwawiącymi dzią­
słami w populacji.
Błąd standardowy SEM = = 0,7326 lat.
Proporcja w próbie = 27/64 = 0,422.
Zmienna ma w przybliżeniu rozkład normalny, ale po­
nieważ wariancja jest nieznana, do wyznaczenia przedzia­
Błąd standardowy proporcji = =0,0617.
łu ufności używamy rozkładu t. 95% przedział ufności dla
średniej wynosi:
95% przedział ufności = 0,422 ± (1,96 x 0,0617) =
27,01 ± (2,011 x 0,7326) = (25,54, 28,48) lat,
= (0,301, 0,543).
gdzie 2,011 jest punktem procentowym rozkładu t
z (49 - 1) = 48 stopniami swobody dającym dwustronne Jesteśmy pewni na 95%, że prawdziwy procent kobiet
prawdopodobieństwo równe 0,05 (Dodatek A2). z zaburzeniami krwawienia w populacji, które doświad­
Jesteśmy na 95% pewni, że prawdziwy wiek średni czyły krwawienia z dziąseł, leży pomiędzy 30,1% i 54,3%.
przy pierwszym porodzie w populacji kobiet z zaburzenia­ Jest to całkiem szeroki przedział ufności, sugerujący małą
mi krzepnięcia wynosi pomiędzy 25,54 i 28,48 lat. Ten dokładność; większa próba pozwoli nam uzyskać bardziej
przedział jest całkiem wąski, co wskazuje na to, że esty­ dokładny estymator. Jednakże zarówno górna, jak i dolna
mator jest dokładny. W całej populacji w roku 1997 śred­ granica tego przedziału ufności wskazują na to, że duża
ni wiek przy pierwszym porodzie wynosił 26,8 lat. Jako że część tych kobiet miała prawdopodobnie krwawienie
26,8 wpada do naszego przedziału ufności, nie ma dowodu z dziąseł. Musimy więc zdobyć oszacowanie częstości tych
na to, że kobiety z zaburzeniami krzepnięcia rodzą dzieci dolegliwości w całej populacji, zanim wyciągniemy jakie­
w starszym wieku niż pozostałe. kolwiek wnioski o wykorzystaniu tej wartości w diagnozo­
Należy zwrócić uwagę, że 99% przedział ufności (25,05, waniu kobiet z zaburzeniami krzepnięcia.
2H,97 lat) jest nieco szerszy niż przedział 95%, co odzwier­
ciedla zwiększony poziom ufności, że średnia leży w prze­
dziale.

11. Przedziały ufności 31


12 PLANOWANIE BADANIA I

Zaplanowanie badania jest nadzwyczaj ważne, gdyż badania nik. Badania kliniczne (rozdział 14) są przykładem badań
źle zaprojektowane mogą dać mylące rezultaty. Duża liczba eksperymentalnych, w których eksperymentator wprowadza
danych ze słabego badania nie zrekompensuje problemów pewien sposób leczenia. Należą do nich również badania ze
związanych z tym, jak zostało zaprojektowane. W tym roz­ zwierzętami lub badania laboratoryjne, które przeprowadza­
dziale oraz w rozdziale 13 przedyskutujemy główne aspekty ne są w warunkach eksperymentalnych. Badania ekspery­
planowania badania. W rozdziałach 14-16 omówimy specy­ mentalne dostarczają najbardziej przekonujących dowodów
ficzne typy badań: badania kliniczne, kohortowe i przypa- dla każdej hipotezy, gdyż ogólnie rzecz biorąc, pozwalają na
dek-kontrola. kontrolę czynników, które mogą wpływać na wynik. Jednak­
Na samym początku należy jasno sformułować cel każde­ że nie zawsze badania te są wykonalne, a gdy angażują lu­
go badania. Możemy chcieć oszacować parametr w populacji, dzi albo zwierzęta, mogą być nieetyczne.
taki jak ryzyko wystąpienia jakiegoś zdarzenia (rozdział 15), • Badania obserwacyjne, na przykład kohortowe (rozdział
rozpatrywać związek między określonym czynnikiem etiolo­ 15) lub badania przypadek-kontrola (rozdział 16), polegają na
gicznym a wynikiem badania lub zbadać efekt jakiegoś zabie­ tym, że badacz nie robi niczego, co mogłoby wpłynąć na wy­
gu (takiego jak nowy sposób leczenia). Istnieje wiele możli­ nik, lecz po prostu obserwuje zdarzenia. Badania te mogą do­
wych sposobów planowania każdego takiego badania. starczyć mniej informacji niż badania eksperymentalne, po­
Ostateczny wybór schematu będzie zależał nie tylko od ce­ nieważ często nie mamy możliwości kontrolowania wszystkich
lów, lecz także od dostępnych źródeł i argumentów etycznych czynników zaburzających wynik. Jednakże, w pewnych sytu­
(patrz tablica 12.1). acjach, mogą one być jedynym sposobem badania, który jest
pomocny lub możliwy. Badania epidemiologiczne, określają­
ce związek między interesującymi czynnikami a chorobą
BADANIA EKSPERYMENTALNE w populacji są badaniami obserwacyjnymi.
CZY OBSERWACYJNE
• Badania eksperymentalne mają taki charakter, że in­
terwencja badacza może w pewien sposób wpływać na wy­

Tablica 12.1. Schematy badań.


Typ badania Procedura Forma Postępowanie Postępowanie Postępowanie Typowe
czasowa w przeszłości w chwili obecnej w przyszłości wykorzystanie

Przekrojowe Przekro­ Obser­ Zebranie • Oszacowanie rozpowszech­


jowe wacyjne wszystkich nienia
informacji • Zakresy odniesienia i testy
diagnostyczne
• Obecny stan zdrowia grupy

Powtarzane Przekro­ Obser­ Zebranie Zebranie Zebranie • Zmiany w czasie


przekrojowe jowe wacyjne wszystkich wszystkich wszystkich
informacji informacji informacji

Kohortowe Longitu- Obser­ Zdefiniowanie Obserwacja • Prognoza i wywiad choro­


(Rozdział 15) dinalne wacyjne kohorty i osza­ Upływ wyników bowy (co stanie się z kimś,
(prospe­ cowanie czyn­ czasu kto teraz choruje)
ktywne) ników ryzyka • Etiologia

Przypadek- Longitu- Obser­ Oszaco­ Zdefiniowanie • Etiologia (zwłaszcza dla


-kontrola dinalne wacyjne wanie Informacje przypadków rzadkich chorób)
(Rozdział 16) (retrospe­ czyn­ z literatury i zmiennych
ktywne) ników lub doku­ kontrolowanych
ryzyka mentacji (tj. rezultatów)
medycznej

Ekspory- Longitu- Ekspery­ Stosowany Obserwacja • Badanie kliniczne dla oceny


ment dinalne mentalne zabieg Upływ wyników leczenia (rozdział 14)
(prospe­ czasu • Próba określenia miary
ktywne) zapobiegania, np. ocena
szczepionki na wielką skalę
• Eksperyment laboratoryjny

32 Planowanie badania
OKREŚLENIE PRZYCZYNOWOŚCI ści ze stwierdzeniem, czy zmiany w czasie po prostu nie od­
W BADANIACH OBSERWACYJNYCH zwierciedlają istniejących różnic między grupami badanych
osobników.
Chociaż najbardziej przekonujący dowód na sprawczą rolę • Badania longitudinalne polegają na śledzeniu próby
czynnika w chorobie zwykle pochodzi z badań eksperymen­ osobników w czasie. Z reguły są badaniami prospektywny­
talnych, można również wykorzystać informację z badań ob­ mi, w których obiekty obserwuje się od pewnego momentu
serwacyjnych przy założeniu, że spełnione są pewne kryte­ (rozdział 15). Czasami badania retrospektywne, w których
ria. Najbardziej znane kryteria określania przyczynowości wybiera się osobników i identyfikuje czynniki (rozdział 16),
1
zostały zaproponowane przez Hilla . jakie pojawiły się w przeszłości, również są traktowane jako
• Przyczyna musi poprzedzać skutek. longitudinalne. Badania longitudinalne trwają z reguły dłu­
• Związek powinien być wiarogodny, tzn. wyniki powin­ żej niż badania przekrojowe, więc wymagają więcej zasobów
ny być sensowne pod względem biologicznym. i jeżeli polegają na pamięci pacjenta lub na rejestrach medycz­
• Wyniki z wielu źródeł powinny być ze sobą zgodne. nych, mogą podlegać obciążeniu (zob. koniec tego rozdziału).
• Związek między przyczyną a skutkiem powinien być Badania eksperymentalne są na ogół prospektywne, gdyż
silny. analizują wpływ interwencji na wynik, który pojawi się
• W odniesieniu do skutku powinien występować zwią­ w przyszłości. Jednakże badania obserwacyjne mogą być za­
zek typu dawka-odpowiedź, tzn. wyższe poziomy oddziały­ równo prospektywne, jak i retrospektywne.
wania powinny prowadzić do cięższych chorób lub bardziej
gwałtownego napadu choroby.
• Usunięcie badanego czynnika powinno zmniejszać ry­ GRUPY KONTROLNE
zyko wystąpienia choroby. Użycie grup porównawczych lub grup kontrolnych jest rze­
czą istotną przy planowaniu badania i interpretowaniu ja­
BADANIA PRZEKROJOWE kichkolwiek jego wyników. Na przykład, kiedy oceniamy
LUB LONGITUDINALNE przyczynową rolę określonego czynnika w wystąpieniu cho­
roby, ryzyko choroby powinno być oceniane zarówno u nara­
• Badania przekrojowe wykonywane są w konkretnym żonych, jak i nienarażonych na interesujący czynnik (rozdzia­
momencie. Należą do nich przegląd literatury i spisy ludno­ ły 15 i 16). Patrz także „Porównywanie sposobów leczenia"
ści w populacji. Są one szczególnie przydatne w oszacowaniu w rozdziale 14.
punktowego rozpowszechnienia warunków w populacji.

Liczba osobników z chorobą BŁĄD SYSTEMATYCZNY


Rozpowszechnię- _ w konkretnym momencie
nie punktowe Całkowita liczba badanych Mówimy, że pojawił się błąd systematyczny (obciążenie), gdy
w tym samym momencie występuje stała różnica między wynikami badania a praw­
dziwym stanem rzeczy. Można wyróżnić następujące rodza­
Ponieważ nie wiemy, jaka była kolejność zdarzeń przed je błędu systematycznego:
badaniem, możemy jedynie powiedzieć, że istnieje związek • Błąd systematyczny obserwatora — pewien obserwator
między interesującym nas czynnikiem i chorobą, natomiast konsekwentnie niedocenia lub przecenia określoną zmienną;
nie możemy stwierdzić, że chorobę najprawdopodobniej wy­ • Błąd systematyczny uwikłania — przypadkowe związ­
wołał ten czynnik. Co więcej, nie możemy oszacować zacho­ ki wynikają z powodu błędu pełnego dopasowania czynników
rowalności, tzn. tempa wzrostu nowych zdarzeń w określo­ związanych zarówno z czynnikiem ryzyka, jak i z wynikiem
nym okresie czasu (rozdział 31). Dodatkowo, ponieważ (patrz rozdział 34);
badania przekrojowe są przeprowadzane tylko w jednym mo­ • Błąd systematyczny doboru — pacjenci wybrani do ba­
mencie, nie możemy badać trendów czasowych. Badania te są dania nie są reprezentatywni dla populacji, do której będą
jednak z reguły szybkie i tanie. odnoszone wyniki badania;
• Powtarzane badania przekrojowe mogą być przepro­ • Błąd systematyczny informacyjny — pomiary rejestro­
wadzane w różnych momentach w celu oszacowania trendu wane są nieprawidłowo w systematyczny sposób;
czasowego. • Błąd systematyczny publikacyjny — tendencja do pu­
Ponieważ jednak w badaniach tych włącza się różne gru­ blikowania wyłącznie tych prac, które donoszą o wynikach
py osobników w różnych momentach, mogą wystąpić trudno- pozytywnych lub lokalnych.
Inne błędy systematyczne mogą na przykład być spowo­
dowane przez odwołania do pamięci (rozdział 16), efekt
1 wprowadzenia zdrowych osób do badania (rozdział 15),
Hill A. B.: The erwironment and disease: association or causation?
Proceedings of the Royal Society of Medicine, 1965, 58, 295. oszacowanie (rozdział 14) oraz przydział (rozdział 14).

12. Planowanie badania I 33


13 PLANOWANIE BADANIA II

ZMIENNOŚĆ ne bloki lub warstwy (np. bloki mogą reprezentować różne


grupy wiekowe). Zmienność między jednostkami w bloku
Zmienność w danych może być spowodowana przez znane
jest mniejsza niż między jednostkami z różnych bloków. Jed­
czynniki, błędy pomiarowe lub przez niewyjaśnioną zmien­
nostki wewnątrz każdego bloku są losowo przydzielane do
ność losową. Wpływ zmienności w danych na oszacowanie
sposobów oddziaływania; porównujemy więc raczej oddzia­
parametru populacyjnego mierzymy przy użyciu błędu stan­
ływania w obrębie każdego bloku, niż dokonujemy całościo­
dardowego (rozdział 10). Gdy pomiar zmiennej podlega
wego porównania pomiędzy obiektami w różnych blokach.
znacznym zmianom, estymatory związane z tą zmienną będą
Przez to możemy bardziej precyzyjnie określić efekty oddzia­
niedokładne, z dużymi błędami standardowymi. Oczywiście,
ływania, niż zrobilibyśmy to bez blokowania.
pożądane jest zredukowanie wpływu zmienności tak dalece,
jak to możliwe, a przez to zwiększenie dokładności naszych Projekty równoległe a naprzemienne (rycina 13.1)
estymatorów. Można tego dokonać na różne sposoby. Ogólnie, porównujemy obiekty w różnych grupach. Na przy­
kład, większość badań klinicznych (rozdział 14) to badania
równoległe, w których każdy pacjent otrzymuje jedno
POWTARZANIE
z dwóch (lub sporadycznie więcej) porównywanych typów le­
Estymatory są bardziej dokładne, jeżeli pomiary się powta­ czenia, tj. polegają one na porównaniach między osobnikami.
rza (np. dwa lub trzy pomiary danej zmiennej dla każdego Ponieważ zazwyczaj istnieje mniejsza zmienność w po­
obiektu w każdej sytuacji). Jednakże, ponieważ pomiary po­ miarach jednego osobnika niż pomiędzy różnymi osobnikami
wtarzane nie są niezależne, musimy uważać przy analizie (rozdział 6), w pewnych sytuacjach możemy woleć wykorzy­
tych danych. Prostym podejściem do takich wyników jest stanie każdego osobnika jako jego/jej własną kontrolę. Te
użycie w analizie średniej z każdego zbioru pomiarów po­ porównania w obrębie osobnika (wewnątrzosobnicze) zapew­
wtarzanych zamiast pomiarów oryginalnych. Możemy rów­ niają porównania bardziej dokładne niż te uzyskane z pro­
nież użyć metod, które w specyficzny sposób przetwarzają jektów między osobnikami (międzyosobnicze) i wymagają
pomiary powtarzane (patrz rozdziały 41 i 42). mniejszej liczby osobników dla osiągnięcia takiego samego
stopnia dokładności. W badaniach klinicznych projekt na­
WIELKOŚĆ PRÓBY przemienny1 jest przykładem porównań wewnątrzosobni-
czych; jeżeli istnieją dwa schematy leczenia, każdy osobnik
Wybór odpowiedniej wielkości próby jest krytycznym punk­ otrzymuje oba, jeden po drugim w porządku losowym, co po­
tem planowania badania. Przy zwiększonej próbie błąd stan­ zwala wyeliminować jakikolwiek efekt kalendarzowy. Okre­
dardowy estymatora jest redukowany, co prowadzi do sy leczenia są rozdzielone przez okres wymywania, który
zwiększonej dokładności i mocy badania (rozdział 18). Obli­ pozwala na rozproszenie jakichkolwiek efektów resztkowych
czenia wielkości próby (rozdział 36) powinny być przeprowa­ (przeniesienia) z poprzedniego schematu leczenia. Dla każ­
dzone przed rozpoczęciem badania. dego osobnika analizujemy różnicę w odpowiedziach na le­
czenie w każdym ze schematów. Schemat może być użyty tyl­
SZCZEGÓLNE MODELE BADAŃ ko wtedy, gdy leczenie znosi symptomy chwilowo, a nie
doprowadza do wyleczenia, oraz czas odpowiedzi nie jest
Modyfikacje prostych planów badań mogą prowadzić do uzy­ wydłużony.
skania bardziej precyzyjnych estymatorów. Zasadniczo po­
równujemy wpływ jednego lub więcej sposobów oddziały­ Eksperymenty czynnikowe
wania (np. leczenia) na jednostki doświadczalne. Jednostka Jeżeli jesteśmy zainteresowani więcej niż jednym czynni­
doświadczalna jest najmniejszą grupą obiektów, które moż­ kiem, osobne badania, z których każde określa wpływ jedne­
na traktować w analizie jako niezależne, na przykład kon­ go zmieniającego się czynnika, mogą być nieefektywne
kretny pacjent, próbka krwi lub piat skóry. Jeżeli jednostki i kosztowne. Projekty czynnikowe pozwalają na równocze­
eksperymentalne są losowo (tzn. przypadkowo) przyporząd­ sną analizę większej liczby czynników podlegających bada­
kowane do sposobów oddziaływania (rozdział 14) i nie ma niu. Najprostszy schemat, eksperyment czynnikowy 2 x 2 ,
Żadnych dalszych udoskonaleń schematu badania, mamy do bierze pod uwagę dwa czynniki (np. dwa różne schematy le­
czynienia z projektem całkowicie zrandomizowanym. Cho­ czenia), każdy rozważany na dwóch poziomach (np. leczenie
ciaż poddaje się on analizie w sposób bezpośredni, jest nie- aktywne lub nieaktywne). Jako przykład można podać bada­
wydajny w przypadku znaczącej zmienności między jednost­ nie US Physicians Health2, zaprojektowane dla stwierdzenia
kami doświadczalnymi. W tej sytuacji możemy zastosować
blokowanie i/lub użyć projektu naprzemiennego (metoda
cross-over) w celu zredukowania wpływu tej zmienności.
1
Senn, S.: Cross-cwer Trials in Clinical Research. Wiley, Chichester
1993.
Blokowanie 2
Steering Committee of the Physicians Health Study Research Gro­
Często istnieje możliwość zgrupowania jednostek doświad­ up: Finał report of the aspirin component of the on-going Physicians
czalnych, które mają podobne charakterystyki, w jednorod­ Health Study. New England Journal of Medicine, 1989, 321, 129-135.

34 Planowanie badania
stopnia przydatności aspiryny i beta-karotenu w zapobiega­ Oceniamy efekt poziomu beta-karotenu przez porównanie
niu chorobom serca i nowotworom. Użyto w nim schematu pacjentów z lewej kolumny z tymi z prawej kolumny. Podob­
czynnikowego 2 x 2 z dwoma czynnikami będącymi dwoma nie możemy ocenić efekt poziomu aspiryny przez porównanie
różnymi związkami i dwoma poziomami każdego z nich, pacjentów w górnym wierszu z tymi z dolnego wiersza. Do­
wskazującymi, czy lekarz otrzyma! związek aktywny, czy je­ datkowo możemy ocenić, czy oba czynniki wchodzą w inte­
go placebo (patrz rozdział 14). Tablica 13.1 pokazuje możliwe rakcję, tzn. czy efekt poziomu beta-karotenu jest różny dla
kombinacje leczenia. dwóch poziomów aspiryny.
Jeżeli efekty się różnią, mówimy, że istnieje interakcja
między dwoma czynnikami (rozdział 34). W tym przypadku
interakcja sugerowałaby, że kombinacja aspiryny i beta-ka­
Tablica 13.1. Kombinacje aktywnego leczenia. rotenu razem wziętych jest bardziej (lub mniej) efektywna,
Beta-karoten niż moglibyśmy się spodziewać z prostego dodawania osob­
Aspiryna Nie Tak nych efektów każdego leku. Schemat ten pozwala więc uzy­
skać dodatkową informację w stosunku do dwóch osobnych
Nie Żaden Beta-karoten badań i jest bardziej efektywnym sposobem wykorzystania
Tak Aspiryna Aspiryna + beta-karoten zasobów informacji, gdyż wymaga mniej licznej próby dla
uzyskania estymatorów o określonym stopniu dokładności.

(a)Równolegty

Populacja

Stosowanie Ocena
terapii odpowiedz,

Porównanie
Ocena odpowiedzi
Próba wstępna
(między
pacjentami)
Stosowanie Ocena
leczenia odpowiedzi.
kontrolnego

(b) Naprzemienny
Porównanie odpowiedzi
(w obrębie pacjentów)
Populacja

Stosowanie Stosowanie
Ocena ' Ocena ł
terapii leczenia
odpowiedzi. odpowiedzi.
washout kontrolnego

Ocena
Próba wstępna

Stosowanie Ocena N washout Stosowanie Ocena


leczenia odpowiedzi. terapii odpowiedzi
kontrolnego

Porównanie odpowiedzi
(w obrębie pacjentów)
Rycina 13.1. Schematy (a) równoległy oraz (b) naprzemienny.

13. Planowanie badania II 35


14 EKSPERYMENTY KLINICZNE

1
Eksperyment kliniczny jest jakąkolwiek formą planowanego listy liczb losowych lub za pomocą tablic liczb losowych (Doda­
badania doświadczalnego sprawdzającego wpływ nowego le­ tek A12). Na przykład, w celu alokacji pacjentów do dwóch ro­
czenia na wyniki kliniczne u ludzi. Eksperymenty kliniczne dzajów leczenia możemy podążać za sekwencją liczb losowych
mogą być badaniami przedklinicznymi, małymi badaniami kli­ i przydzielać pacjenta do leczenia A, jeżeli liczba jest parzysta
nicznymi oceniającymi wpływ i bezpieczeństwo (Eksperymen­ (traktując zero jako liczbę parzystą) lub do leczenia B, jeżeli
ty I/II fazy) lub pełną ocenę nowego sposobu leczenia (Ekspe­ liczba jest nieparzysta. Proces ten sprzyja podobieństwu mię­
rymenty III fazy). W tym rozdziale omówimy główne aspekty dzy grupami leczenia pod względem charakterystyki pierwot­
eksperymentów III fazy, z których każdy powinien być opisa­ nej (charakterystyki odniesienia) przy wprowadzaniu do ba­
ny w publikacji (patrz lista ustaleń CONSORT w tablicy 14.1 dania, tj. unika się błędu systematycznego przydziału,
oraz ryciny 14.1 i 14.2). a w konsekwencji uwikłania (rozdziały 12 i 34), co maksyma­
lizuje efektywność eksperymentu. Jeżeli zastosowano rando-
mizację, a charakterystyka pierwotna nie jest jednakowo roz­
PORÓWNANIA LECZENIA
łożona w grupach leczenia (określa się ją przez zbadanie
Eksperymenty kliniczne są badaniami prospektywnymi, po­ odpowiednich miar podsumowujących, np. średnich i odchy­
nieważ mierzą wpływ leczenia realizowanego obecnie na wy­ leń standardowych), rozbieżność musi być dziełem przypadku.
niki, z którymi będzie można się zapoznać w przyszłości. Dlatego błędem jest przeprowadzanie formalnego, statystycz­
Ogólnie, w eksperymentach klinicznych ocenia się nowe za­ nego testowania hipotez (np. testu t, rozdział 21) do porówna­
biegi (np. rodzaj lub dawka leku, procedura chirurgiczna). nia jakiejkolwiek pierwotnej charakterystyki w grupach le­
Dla uproszczenia, w całym tym rozdziale założymy, że czenia, ponieważ testy hipotez określają, czy różnica między
w eksperymencie oceniamy tylko jedną nową formę leczenia. grupami jest otrzymana przez przypadek.
Ważną cechą eksperymentów klinicznych jest to, że powin­
Eksperymenty, w których pacjenci są randomizowani,
ny być porównawcze (rozdział 12). Bez leczenia kontrolnego
tak aby otrzymali albo nowe leczenie, albo leczenie kontrolne,
nie mamy pewności, że każdy wynik jest wyłącznie skutkiem
znane są jako eksperymenty sterowane losowo (określane
leczenia, można też przecenić to, jak ważne jest nowe lecze­
skrótem RCT — randomized controlled trials) i uważa się
nie. Kontrolą może być standardowe leczenie (kontrola pozy­
je za optymalne.
tywna) lub, jeżeli takowe nie istnieje, kontrola negatywna,
którą może być placebo (które wygląda i smakuje jak nowy Istnieją dalsze udoskonalenia randomizacji, włączające
lek, lecz które nie zawiera żadnego aktywnego związku) lub randomizację warstwową (w której bierze się pod uwagę
brak leczenia, gdy zezwalają na to względy etyczne. ważne czynniki) i randomizację blokową (która gwarantuje
w przybliżeniu jednakowe wielkości grup leczenia). Przy­
dział systematyczny, w którym pacjenci są przydzielani do
WYNIKI KOŃCOWE grup leczenia systematycznie, np. w zależności od dnia wi­
Na wstępie musimy zadecydować, które wyniki najlepiej od­ zyty lub daty urodzin, powinien być unikany zawsze, gdy jest
zwierciedlają korzyści z nowej terapii. Nazywa się je podsta­ to możliwe; klinicysta może określić proponowany schemat
wowymi wynikami końcowymi badania i zwykle dotyczą leczenia dla poszczególnego pacjenta, zanim zostanie on włą­
skuteczności terapii. Wtórne wyniki końcowe, które często czony do eksperymentu, a to może wpłynąć na jego/jej de­
są związane z toksycznością, są interesujące i także powin­ cyzję co do włączenia pacjenta do eksperymentu. Czasami
ny być na początku wzięte pod uwagę. Ogólnie, wszystkie te używamy randomizacji klasterowej, w której do leczenia
wyniki końcowe są analizowane na końcu badania. Jednak­ przydzielamy grupy osobników (np. wszystkich ludzi zareje­
że możemy sobie zażyczyć przeprowadzenia pewnych analiz strowanych u pojedynczego lekarza domowego) zamiast po­
przejściowych (chwilowych), gdy na przykład chcemy się jedynczych osobników. W takich badaniach powinniśmy za­
upewnić, że toksyczność nie jest nadmierna i nie wymaga chować szczególną uwagę przy planowaniu wielkości próby
przerwania eksperymentu. Należy uważać na problemy wy­ i analizowaniu danych (patrz również rozdziały 36, 41 i 42)2.
nikające z wielokrotnego testowania hipotez (rozdział 18),
gdy porównuje się wyniki powtarzanego leczenia.
ZAŚLEPIANIE LUB MASKOWANIE
PRZYDZIELANIE Obciążenie oszacowania może pojawić się wtedy, gdy pa­
cjenci i/lub klinicyści są świadomi przydziału do grupy le­
DO GRUPY TERAPEUTYCZNEJ czenia, zwłaszcza wtedy, gdy reakcja na nie jest subiektyw­
Gdy pacjent formalnie został włączony do badania, przydziela na. Świadomość przydziału do grupy leczenia może wpływać
się go do grupy terapeutycznej. Generalnie pacjent jest przy­ na zauważanie oznak poprawy lub zdarzeń niepomyślnych.
dzielany W sposób losowy (tj. oparty na szansie), za pomocą Dlatego tam, gdzie to możliwe, wszyscy uczestnicy ekspery­
procesu znanego jako przydział losowy lub randomizacja. mentu (klinicyści, pacjenci, oceniający) powinni być „zaśle­
Przebiega to często przy użyciu wygenerowanej komputerowo piani" lub „maskowani" co do przydziału do grupy leczenia.

2
Pocook S. J.; Clmical Trials: A Practical Approach. Wiley, Chiche­ Kerry S. M., Bland J. M.: Santple size in cluster randomization.
1

ster 1983. British Medical Journal, 1998, 316, 549.

36 Planowanie badania
Eksperyment, w którym pacjent, zespół leczący i oceniający która osądza, czy nie narusza on Deklaracji Helsińskiej. Od
nie są świadomi przydziału do grupy leczenia, jest ekspery­ każdego pacjenta trzeba uzyskać zgodę poinformowanego pa­
mentem podwójnie ślepym. Eksperymenty, w których nie­ cjenta (lub od legalnego opiekuna czy rodziców, gdy pacjent nie
możliwe jest „zaślepienie" pacjenta, mogą być pojedynczo jest pełnoletni) zanim zostanie on włączony do eksperymentu.
ślepe, przy założeniu, że klinicysta i/lub oceniający są „za­
ślepieni" (nieświadomi) co do przydziału do leczenia.
PROTOKÓŁ
Zanim zostanie przeprowadzony jakikolwiek eksperyment
DANE PACJENTA
kliniczny, należy przygotować pisemny opis wszystkich
Jako że eksperymenty kliniczne prowadzone są na ludziach, aspektów badania, nazywany protokołem badania. Zawiera
dane pacjenta mają wielkie znaczenie. W szczególności, każdy on informację o celach i przedmiocie eksperymentu, wraz
eksperyment kliniczny musi przejść przez komisję etyczną, z opisem pacjentów, których należy włączyć do badania (kry-

Tablica 14.1. Lista tematów z deklaracji CONSORT (Consolidation of Standards for Reporting Trials), które należy włączyć do opisu ekspe­
rymentu randomizowanego (www.consort-statement.org).
SEKCJA PRACY Pozy­ Opisane na
i temat cja Opis stronie *
TYTUŁ 1. Jak pacjenci zostali przyporządkowani do zabiegu (np. przydział losowy, randomizowany, lub lo­
I STRESZCZENIE sowo przyporządkowany).
WSTĘP 2. Podstawy naukowe i uzasadnienie.
Podstawy
METODY 3. Kryteria wyboru uczestników oraz ustaleń i miejsca, gdzie dane zostały zebrane.
Uczestnicy
Zabiegi 4. Dokładne szczegóły zabiegów planowanych dla każdej grupy oraz informacje na temat tego, jak i kie­
dy byty faktycznie wykonane.
Cele 5. Wyszczególnienie celów oraz hipotez.
Wyniki 6. Jasno zdefiniowane pierwotne i wtórne wyniki pomiarów, a tam, gdzie to możliwe, wszystkie metody
użyte do poprawy jakości pomiarów (np. obserwacje wielokrotne, szkolenie osób oceniających).
Wielkość próby 7. W jaki sposób wyznaczono wielkość próby i, gdy to było zastosowane, wyjaśnienie wszelkich analiz
przejściowych i reguł zatrzymania.
Randomizacja — 8. Metody użyte do tworzenia sekwencji przydziału losowego, uwzględniające szczegóły każdego
generacja sekwencji ograniczenia (np. blokowanie, stratyfikacja).
Randomizacja — 9. Metody użyte do implementacji sekwencji losowego przydziału, wyjaśnienie, czy sekwencja zosta­
ukrywanie przydziału ła ukryta do czasu przypisania zabiegów.
Randomizacja — 10. Kto generował sekwencje przydziału, kto włączał do badania uczestników, kto przyporządkował
implementacja uczestników do ich grup.
Zaślepianie 11. Czy uczestnicy, osoby wykonujące zabiegi i oceniające wyniki byli nieświadomi przydziału do grupy.
(maskowanie) Tam, gdzie je zastosowano, jak oceniono powodzenie maskowania.
Metody statystyczne 12. Metody statystyczne użyte do porównywania grup w celu otrzymania wyniku(ów) pierwotnego(ych). Do­
datkowe metody analiz, takie jak analizy w podgrupach lub analizy skorygowane.
WYNIKI 13. Przepływ uczestników w każdym etapie (bardzo pożądany jest diagram, patrz rycina 14.1). Dla każ­
Przepływ uczestników dej grupy należy podać liczbę uczestników przyporządkowanych losowo, otrzymujących planowa­
ne leczenie, kończących badanie i analizowanych w celu otrzymania wyników pierwotnych. Nale­
ży opisać rozbieżności z planowanym badaniem, wraz z ich przyczynami.
Wtaczanie do badania 14. Daty określające okresy włączania i dalszego postępowania.
Dane bazowe 15. Dane demograficzne i charakterystyki kliniczne każdej grupy.
Analizowane liczby 16. Liczba uczestników (mianownik) w każdej grupie włączonej do każdej analizy i to, czy analiza była
wykonana z zamiarem leczenia. Tam, gdzie to możliwe, należy podać wyniki przy użyciu liczb bez­
względnych (np. 10/20 zamiast 50%).
Wyniki i oszacowania 17. Podsumowanie rezultatów dla każdej grupy, dla wszystkich wyników pierwotnych i wtórnych oraz
oszacowana wielkość efektu i jego dokładność (np. 95% przedział ufności).
Analizy pomocnicze 18. Określenie różnorodności przez podanie wszystkich pozostałych wykonanych analiz, także analiz
w podgrupach i analiz skorygowanych, ze wskazaniem na wcześniej zaplanowane oraz robocze.
Zdarzenia niepomyślne 19. Wszystkie ważne zdarzenia niepomyślne lub efekty uboczne w każdej grupie zabiegowej.
DYSKUSJA 20. Interpretacja wyników, z uwzględnieniem hipotezy badania, źródeł możliwego błędu systematycz­
Interpretacja nego oraz niedokładności i ryzyka błędu związanego z wielokrotnością analiz i wyników.
Uogólnienie 21. Możliwość uogólnienia (zewnętrzna ważność) wyników eksperymentu.
Ogólny dowód 22. Ogólna interpretacja wyników w kontekście współczesnej wiedzy.

14. Eksperymenty kliniczne 37


teria włączenia i wykluczenia), plany leczenia, opis zbiera­ padli z badania, a także pacjenci, którzy zmienili leczenie.
nia danych i analizy, ewentualne plany w przypadku wystą­ W celu uniknięcia błędu systematycznego badanie należy
pienia problemów i projekt szkolenia personelu. Ważną rze­ analizować na podstawie zamiaru leczenia: wszyscy pacjen­
czą jest włączenie do eksperymentu wystarczającej liczby ci, o których mamy informację, są analizowani w grupach, do
pacjentów, aby szansa prawidłowego wykrycia prawdziwych których zostali pierwotnie włączeni, bez względu na to, czy
efektów leczenia była wystarczająco duża. Dlatego przed roz­ podlegali oni leczeniu. Gdy jest to możliwe, należy zebrać in­
poczęciem każdego eksperymentu klinicznego należy wyzna­ formacje o pacjentach, którzy wypadli z eksperymentu. Nie
czyć optymalną wielkość badania (rozdział 36). poleca się analiz na bazie leczenia, w których pacjenci są
Protokół rozbieżności obejmuje pacjentów, którzy zostali włączani do analizy tylko wtedy, gdy mają zakończony pełny
włączeni do eksperymentu, lecz nie spełnili kryteriów proto­ kurs leczenia, ponieważ często prowadzi to do obciążenia po­
kołu, np. pacjenci nieprawidłowo włączeni lub ci, którzy wy­ równań leczenia błędem systematycznym.

Rycina 14.1. Profil przebiegu eksperymentu randomizowanego Rycina 14.2. Przykład profilu eksperymentu (adaptowany za zgodą
zgodnie z deklaracją CONSORT (www.consort-statement.org). z eksperymentu opisanego w rozdziale 40).

38 Planowanio badania
15 BADANIA KOHORTOWE

W badaniu kohortowym obserwujemy zwykle przez jakiś chorowaniem byli narażeni na czynnik ryzyka, co pozwala na
czas grupę osobników w celu zbadania, czy narażenie na postulowanie przyczynowej roli tego czynnika. Ponieważ
szczególny czynnik etiologiczny wpłynie w przyszłości na za­ osobnicy na początku badania są wolni od choroby, często ob­
padalność na jednostkę chorobową (rycina 15.1). Jeżeli tak, serwujemy efekt włączania osób zdrowych. Współczynniki
to czynnik ten zostaje uznany za czynnik ryzyka choroby. Na śmiertelności w pierwszym okresie badania są zatem często
przykład, wiele badań kohortowych sprawdzało związek niższe, niż moglibyśmy oczekiwać w ogólnej populacji. Stanie
między czynnikami dietetycznymi a rakiem. Chociaż więk­ się to oczywiste, gdy współczynniki śmiertelności zaczną na­
szość badań kohortowych ma charakter prospektywny, moż­ gle rosnąć w kolejnych latach badania.
na również badać kohorty historyczne, w których informację
uzyskuje się retrospektywnie. Jednakże jakość studiów hi­
storycznych jest często zależna od zapisów medycznych i od OBSERWACJA OSOBNIKÓW
pamięci, a te mogą podlegać obciążeniu. Gdy obserwujemy osobników przez pewien czas, istnieje za­
Badania kohortowe mogą być ustalone lub dynamiczne. wsze ryzyko, że mogą oni wypaść z postępowania. Osobnicy
W pierws2ym przypadku, jeżeli osobnik opuszcza ustaloną mogą zmienić adres bez zostawienia informacji o zmianie
kohortę, nie jest zastępowany innym. Natomiast w kohortach miejsca zamieszkania lub mogą zdecydować, że chcą zakoń­
dynamicznych osobnicy mogą wypadać z kohorty, a nowi do czyć badanie. Jeżeli duża liczba osobników wypada z postę­
niej dołączać, gdy jest taka potrzeba. powania, zyski z badania kohortowego zoatają zmniejszone.
Powinniśmy zatem znaleźć sposób zminimalizowania takiego
wypadania, np. przez utrzymywanie regularnych kontaktów
WYBÓR KOHORTY z osobnikami.
Kohorta powinna być reprezentatywna dla populacji, co do
której będziemy uogólniali wyniki. Często jest korzystne, aby
osobnicy byli rekrutowani z podobnego źródła, takiego jak
INFORMACJA O WYNIKACH I NARAŻENIU
określona grupa zawodowa (np. pracownicy cywilni, lekarze Ważne jest uzyskanie pełnej i dokładnej informacji o skut­
praktycy), gdyż można wtedy łatwo uzyskać informację kach choroby, np. śmiertelności i chorowaniu z innych przy­
o śmiertelności i zachorowalności z zapisów w miejscu pracy, czyn. Można to osiągnąć dzięki przeszukiwaniu rejestrów
a z osobnikami można nawiązać ponowny kontakt, o ile będzie chorób, statystyk śmiertelności i zapisów szpitalnych oraz le­
to konieczne. Taka kohorta może jednak nie być prawdziwie karzy rodzinnych.
reprezentatywna dla ogólnej populacji i może być zdrowsza. Narażenie na badany czynnik ryzyka może się zmieniać
Kohorty można też rekrutować z list lekarzy domowych, jeśli w czasie badania. Na przykład, jeżeli określamy związek
włączy się do badania grupy osobników o różnym stanie zdro­ między spożyciem alkoholu i chorobami serca, poziom typo­
wia. Jednakże pacjenci ci będą mieli zbliżone warunki socjal­ wego spożycia alkoholu przez osobnika najprawdopodobniej
ne, gdyż mieszkają w tym samym obszarze. będzie się zmieniał w czasie. Dlatego w celu zbadania zmian
Gdy próbujemy określić efekt etiologiczny czynnika ryzy­ narażenia na ten czynnik z upływem czasu należy powtarzać
ka, osobnicy rekrutowani do kohorty powinni być zdrowi na wywiad przy kolejnych okazjach.
początku badania. Ma to na celu upewnienie się, że przed za­

Niechorujący

Rozwój
choroby (a)
Narażeni
na czynnik
Niechorujący (c)

Niechorujący

Rozwój
choroby \b)
Nienarażeni
na czynnik
Niechorujący (d)

Teraz Przysztość
Rycina 15.1. Prezentacja w postaci dia­
Uptyw czasu
gramu badania kohortowego (częstości
w nawiaeach, patrz tablica 15.1). Punkt początkowy

15. Badania kohortowe 39


ANALIZA BADAŃ KOHORTOWYCH ZALETY BADAN KOHORTOWYCH
• Można określić sekwencję czasową zdarzeń.
Tablica 15.1. Częstości obserwowane (patrz rycina 15.1). • Dostarczają informacji o szerokim zakresie wyników.
Narażeni na czynnik • Można bezpośrednio zmierzyć zapadalność na chorobę
Tak Nie Razem lub ryzyko zachorowania.
• Można zebrać bardzo szczegółowe informacje na temat
Badana choroba
Tak a b a+ b narażenia na szeroki zakres czynników.
Nie c d c+ d • Możliwe jest badanie narażenia na bardzo rzadkie
Razem at c b+ d n= a+ b+ c+ d czynniki.
• Narażenie można mierzyć wielokrotnie, tak że można
badać, jak zmienia się narażenie z upływem czasu.
• Zredukowany jest błąd systematyczny odwołania do
Ponieważ pacjenci obserwowani są w czasie longitudinal- pamięci i wyboru w porównaniu z badaniami przypadek-
nie, można oszacować ryzyko zachorowania w populacji po- -kontrola (rozdział 16).
przoz obliczenie ryzyka w badanej próbie.

Oszacowane ryzyko zachorowania = WADY BADAŃ KOHORTOWYCH


_ Liczba zachorowań w okresie badania _ a + b • Ogólnie badają one osobników w długich okresach
Całkowita liczba w kohorcie n i dlatego są kosztowne.
• Tam, gdzie interesujący wynik zdarza się rzadko, wy­
Ryzyko zachorowania wśród osobników narażonych i nie- magana jest bardzo duża wielkość próby.
narażonych na badany w populacji czynnik można oszacować • W miarę postępu badania często zwiększa się utrata
w ten sam sposób. pacjentów, gdyż przemieszczają się lub opuszczają badanie,
co prowadzi do powstania obciążonych wyników.
Oszacowane ryzyko dla grupy narażonej, • Na skutek długiego czasu trwania badania c2ęsto poja­
risk exp = a/(a+c). wia się trudność w utrzymaniu zgodności pomiarów i wyni­
Oszacowane ryzyko dla grupy nienarażonej, ków w czasie. Co więcej, po wstępnym wywiadzie osobnicy
risk
mogą modyfikować swoje zachowania.
uneXp=fe/(6+rf)-
• Skutki choroby i ich prawdopodobieństwo lub sama
etiologia choroby mogą zmieniać się w czasie.
Wtedy oszacowane ryzyko względne

KOHORTY KLINICZNE
Czasami wybieramy kohortę pacjentów z tymi samymi wa­
runkami klinicznymi, którzy są leczeni w jednym lub kilku
Ryzyko względne (RR — relaxive risk) oznacza zwiększo­ szpitalach, i obserwujemy ich (albo jako chorych hospitalizo­
ne (lub zmniejszone) ryzyko choroby związane z ekspozycją wanych, albo jako ambulatoryjnych) w celu sprawdzenia, jak
na badany czynnik. Ryzyko względne równe jeden oznacza, wielu pacjentów doświadczyło ustąpienia choroby (w przy­
Że ryzyko jest takie samo w grupach eksponowanej i nie eks­ padku pozytywnego wyniku badania) lub postępu choroby,
ponowanej. Ryzyko względne większe niż jeden oznacza, że takiego jak śmierć lub nawrót. Informacja o każdym pacjen­
w grupie narażonej na czynnik istnieje zwiększone ryzyko cie, której szukamy, jest zwykle tą, którą zbiera się jako
w porównaniu z grupą nienarażoną; ryzyko względne mniej­ część rutynowego postępowania klinicznego. Cel kohort kli­
sze od jeden wakazuje na redukcję ryzyka choroby w grupie nicznych lub obserwacyjnych baz danych może obejmować
eksponowanej. Na przykład, ryzyko względne równe 2 wska­ opis wyników dla osobników w określonym stanie i określe­
zywałoby, że osobnicy w grupie narażonej mają dwa razy nie efektów rozmaitych podejść do leczenia (np. różne leki
większe ryzyko zachorowania niż ci z grupy nienarażonej. lub rozmaite techniki leczenia). W przeciwieństwie do eks­
Ryzyko względne zawsze należy interpretować wraz z ry­ perymentów randomizowanych (rozdział 14), które często za­
zykiem zachorowania. Nawet wysokie ryzyko względne ma wierają bardzo wybiórczą próbę osobników chcących uczest­
ograniczone implikacje kliniczne, gdy ryzyko zachorowania niczyć w eksperymencie, kohorty kliniczne niejednokrotnie
jest bardzo małe. obejmują wszystkich pacjentów w określonym stanie w szpi­
Wyznaczenie przedziału ufności dla ryzyka względnego talach objętych badaniem. Dlatego wyniki z tych kohort trak­
pozwala sprawdzić, czy ryzyko względne jest równe jedno­ tuje się jako bardziej dokładne odzwierciedlenie wyników
ści. Obliczenia te przeprowadza się prosto przy użyciu kom­ widocznych w praktyce klinicznej. Jednakże, ponieważ przy­
putera i dlatego pomijamy szczegóły. dział do leczenia w tych badaniach nie jest randomizowany
(rozdział 14), kohorty kliniczne są szczególnie narażone na
obciążenie uwikłania (rozdziały 12 i 34).

40 Planowanie badania
PRZYKŁAD
British Regional Heart Study1 jest wielkim badaniem ko- MI w następnych 10 latach
hortowym na bazie 7735 mężczyzn w wieku 40-59 lat, lo­ Palenie na
sowo wybranych z baz lekarzy domowych w 24 brytyj­ początku badania Tak Nie Razem
skich miastach. Ma na celu zidentyfikowanie czynników Zawsze palii 563 (9,5%) 5336 (90,5%) 5899
wywołujących niedokrwienną chorobę serca. Przy rekru­ Nigdy nie palił 87 (4,8%) 1732 (95,2%) 1819
towaniu do badania mężczyzn pytano o pewne czynniki de­
Razem 650 (8,4%) 7068 (71,6%) 7718
mograficzne i dotyczące stylu życia, m.in. o zwyczaje doty­
czące palenia papierosów. Spośród 7718 mężczyzn, od
których uzyskano informację o tym, czy palą, 5899 (76,4%)
Oszacowane ryzyko względne = = 2,00.
paliło na jakimś etapie swego życia (włączając tych, którzy
są aktualnymi palaczami i którzy kiedyś palili). W ciągu 10
następnych lat 650 spośród 7718 mężczyzn (8,4%) miało Można wykazać, że 95% przedział ufności dla prawdzi­
zawał serca (MI — myocardial infarctiord. Wyniki przed­ wego ryzyka względnego wynosi: (1,60, 2,49).
stawione w tablicy pokazują liczbę i procent palaczy i nie­ Ryzyko względne możemy interpretować tak, że ozna­
palących, którzy mieli zawał serca lub nie mieli go w okre­ cza, iż mężczyźni w średnim wieku, którzy kiedykolwiek
sie 10 lat. palili, najprawdopodobniej dwukrotnie częściej doznają
zawahi serca w ciągu najbliższych 10 lat, niż ci, którzy ni­
gdy nie palili. Mówiąc inaczej, ryzyko zawału serca u męż­
czyzn, którzy kiedykolwiek palili, jest o 100% większe niż
u tych, którzy nigdy nie palili.

1
Dane uzyskane dzięki uprzejmości: dr F. C. Lampe, ms M. Walker i dr P. Whincup, Department of Primary Care and Population Scien­
ces, Royal Free and Unwersity College Medical School, Londyn, Wielka Brytania.

15. Badania kohortowe 41


16 BADANIA PRZYPADEK-KONTROLA
W badaniu przypadek-kontrola porównuje się charaktery­ odpowiedni. Często dopuszcza się wybór kontroli z populacji
stykę grupy pacjentów z pewną jednostką chorobową (przy­ ogólnej, chociaż osobnicy mogą wówczas nie mieć motywacji
padki) z grupą osobników bez stanu chorobowego (kontrola) do wzięcia udziału w takim badaniu i dlatego częstości odpo­
w celu sprawdzenia, czy jakiekolwiek czynniki pojawiały się wiedzi mogą być mniejsze w kontroli niż w grupie przy­
częściej lub rzadziej w grupie przypadków niż w grupie kon­ padków. Wybór kontroli z tej samej okolicy zamieszkania
trolnej (rycina 16.1). Takie badania retrospektywne nie do­ gwarantuje często, że przypadki i kontrole mają podobne
starczają informacji o chorobowości lub zachorowalności na warunki socjalne.
chorobę, lecz mogą dawać wskazówki, które czynniki wzmaga­
ją lub redukują ryzyko choroby.
DOPASOWYWANIE
Wiele badań przypadek-kontrola jest dopasowywanych w taki
SELEKCJA PRZYPADKÓW
sposób, aby przypadki i kontrole byty jak najbardziej podobne.
Ważną rzeczą jest zdefiniowanie, czy przypadki zapadalności Ogólnie, pożyteczny jest dobór z dopasowaniem płci (tj. jeżeli
(pacjenci, którzy byli rekrutowani w chwili diagnozy) lub przy­ przypadek jest mężczyzną, to kontrola powinna być również
padki chorobowości (pacjenci, którzy byli zdiagnozowani przed mężczyzną), a czasami dopasowanie pacjentów według wieku.
włączeniem do badania) powinny być włączone do badania. Ważne jest jednak, aby nie dopasowywać na podstawie bada­
W drugim przypadku pacjenci mogli mieć czas na zastanowie­ nego czynnika ryzyka lub jakiegokolwiek czynnika, który leży
nie się nad swoją historią narażenia na czynniki ryzyka, na przyczynowej ścieżce powstania choroby (rozdział 34), gdyż
zwłaszcza gdy choroba jest szeroko opisywana, tak jak rak, wyklucza to możliwość badania określającego każdy związek
i mogli zmienić swoje zachowania po diagnozie. Ważne, żeby zi­ między czynnikiem ryzyka a chorobą. Niestety, dopasowanie
dentyfikować tak wiele przypadków, jak to możliwe, aby wyni­ oznacza, że wpływ na chorobę zmiennych, które zostały użyte
ki niosły jak najwięcej informacji, a wnioski mogły zostać do dopasowania, nie może zostać zbadany.
uogólnione w przyszłości na następne populacje. Aby to osią­
gnąć, trzeba czasem uzyskać dostęp do list szpitalnych i reje­
strów chorób oraz włączyć przypadki śmierci w okresie, kiedy ANALIZA BADAŃ Z NIEDOPASOWANYMI
przypadki i kontrole byty definiowane, ponieważ ich wyklucze­ PRZYPADKAMI-KONTROLAMI
nie może prowadzić do obciążonej próby przypadków.
Tablica 16.1 ukazuje częstości obserwowane. Ponieważ pa­
cjenci są wybrani na bazie ich statusu chorobowego, nie ma
SELEKCJA KONTROLI możliwości oszacowania absolutnego ryzyka zachorowania.
Możemy obliczyć iloraz szans, zdefiniowany jako:
Osobnicy kontrolni powinni być badani przed włączeniem do
eksperymentu, co pozwala upewnić się, że na pewno nie ma­ Szansa bycia przypadkiem
ją analizowanej choroby. Czasami może być więcej niż jeden w grupie narażonej
Iloraz szans =
osobnik kontrolny dla każdego przypadku. Tam, gdzie to Szansa bycia przypadkiem
możliwe, osobnicy kontrolni powinni być wybierani z tego sa­ w grupie nienarażonej
mego źródła, co przypadki. Kontrole są często wybierane ze gdzie na przykład szansa, aby być przypadkiem w grupie na­
szpitali. Jednakże, ponieważ czynniki ryzyka związane ze rażonych jest równa:
skutkami jednej choroby mogą być także związane ze skut­
kami innych chorób, dobór kontroli na bazie szpitalnej może prawdopodobieństwo bycia przypadkiem w grupie narażonej
spowodować nadreprezentację osobników, którzy byli ekspo­ prawdopodobieństwo niebycia przypadkiem w grupie narażonej
nowani na badany czynnik ryzyka, i dlatego nie zawsze jest
Szanse bycia przypadkiem w próbach narażonej (exp) i nie­
narażonej (unexp) wynoszą:

szansaexp szansa
unexp:

i dlatego oszacowany iloraz szans wynosi

Gdy choroba jest rzadka, iloraz szans jest estymatorem


ryzyka względnego i interpretuje się go w podobny sposób,
tj. wskazuje zwiększoną lub zmniejszoną szansę związaną
z narażeniem na badany czynnik. Iloraz szans równy jeden
wskazuje, że szanse są takie same w grupach narażonej
i nienarażonej; iloraz szans większy od jeden wskazuje, że
szanse zachorowania w grupie narażonej są większe niż
w grupie nienarażonej, etc. Dla ilorazu szans można również
Rycina 16.1. Prezentacja w postaci diagramu przypadek-kontrola. wyznaczyć przedziały ufności i testować hipotezy.

42 Planowanie badania
Tablica 16.1. Wartości obserwowane (patrz rycina 16.1). ZALETY BADAŃ PRZYPADEK-KONTROLA
Narażenie na czynnik
• Są one ogólnie względnie szybkie, tanie i łatwe do wy­
Tak Nie Suma
konania.
Stan choroby • Są szczególnie przydatne w rzadkich chorobach.
Przypadek a b a+ b • Można badać szeroki zakres czynników ryzyka.
Kontrola c d c+ d • Nie istnieje utrata obserwacji.
Suma a+c b+d n= a+ b + c+ d

WADY BADAŃ PRZYPADEK-KONTROLA


ANALIZA BADAŃ Z DOPASOWANYMI
• Obciążenie wywołane pamięcią, kiedy chorzy mają
PRZYPADKAMI-KONTROLAMI
różną zdolność zapamiętywania różnych szczegółów z wła­
Tam, gdzie to możliwe, analiza badań z dopasowanymi przy­ snej historii, stanowi potencjalny problem. Na przykład, pa­
padkami i kontrolami powinna pozwalać na to, by przypadki cjenci z rakiem płuc mogą dobrze pamiętać pewien okres,
i kontrole były związane ze sobą jako wynik dopasowania. kiedy palili, podczas gdy grupa kontrolna może nie pamiętać
Dalsze szczegóły na temat metod analizy dla badań powiąza­ podobnego okresu.
nych można znaleźć w rozdziale 30 (patrz: warunkowa regre­ • Jeżeli początek choroby uprzedza narażenie na czynnik
sja logistyczna) oraz w pracy Breslow i Day1. ryzyka, nie można wnioskować przyczynowości.
• Badania przypadek-kontrola nie są odpowiednie, gdy
1
narażenie na czynnik ryzyka jest niskie.
Breslow N. E., Day N. E.: Statistical Methods in Cancer Research,
Volume I — The Analysis of Case-control Studies. International
Agency for Cancer Research, Lyon 1980.

PRZYKŁAD
1327 kobiol w wieku 50-81 lat ze złamaniem biodra, Tak więc szansa złamania biodra u kobiet po menopau-
mieszkających w dużej aglomeracji miejskiej w Szwecji, zie w analizowanym zakresie wieku w Szwecji, które aktu­
zostało przebadanych w badaniu niedopasowanych przy- alnie podlegają HRT, wynosiła 39% szansy tego zdarzenia
padków-kontroli. Zostały one porównane z 3262 kobietami u kobiet, które nigdy nie używały lub uprzednio używały
7. grupy kontrolnej w tym samym zakresie wiekowym, wy­ HRT, tj. aktualne leczenie HRT zmniejsza szansę złamania
branymi losowo z rejestru narodowego. W badaniu skon­ biodra o 61%.
centrowano się na sprawdzeniu, czy kobiety podlegające
obecnie postmenopauzalnej hormonalnej terapii zastępczej Częstości obserwowane w badaniu ztamań
(HRT — łwrmone replacement therapy) rzadziej łamały bio­ Nigdy nie
dra niż niepodlegające terapii. Wyniki w tablicy pokazują Obecnie leczone HRT/
liczbę kobiet leczonych obecnie HRT i tych, które nigdy nie leczone /wcześniej
HRT leczone HRT Razem
miały terapii lub podlegały jej wcześniej, w grupie badanej
i kontrolnej. Obserwowany iloraz szans = (40 x 3023)/(239 Ze złamaniem biodra (chore) 40 1287 1327
x 1287) = 0,39. Można wykazać, że 95% przedział ufności Bez złamania biodra (kontrola) 239 3023 3262
dla ilorazu szans wynosi (0,28, 0,56). • Razem 279 4310 4589

Dano pobrane / pracy: Michaelsson K., Baron J. A., Farahmand B. Y., i in.: Hormone replacement therapy and risk of hipfracture: popu-
lathn basfd rase-control study. British Medical Journal, 1998, 316, 1858-1863.

16. Badania przypadek-kontrola 43


17 TESTOWANIE HIPOTEZ
Często zbieramy dane w celu określenia, jak wiele mamy do­ OTRZYMYWANIE STATYSTYKI TESTOWEJ
wodów przeciwko określonej hipotezie o populacji. W celu
Po zebraniu danych, w celu wyznaczenia statystyki testu,
kwantyfikacji stopnia naszej pewności przeciw określonej podstawiamy wartości z naszej próby do wzoru, specyficzne­
hipotezie stosujemy procedurę znaną jako testowanie hipo­ go dla testu, którego używamy. Statystyka ta odzwierciedla
tez (lub testowanie istotności). siłę dowodu zawartego w danych przeciwko hipotezie zero­
Rozdział ten opisuje ogólne postępowanie w testowaniu wej — zwykle większa wartość, przy zaniedbaniu jej znaku,
hipotez (ramka 17.1); szczegóły testów dla różnych typów hi­ oznacza silniejszy dowód.
potez podane są w kolejnych rozdziałach. Dla ułatwienia,
test dla każdej z hipotez opisany jest w podobnej ramce.
OTRZYMYWANIE WARTOŚCI P
Wszystkie statystyki testowe podlegają znanym teoretycznym
rozkładom częstości (rozdziały 7 i 8). W celu uzyskania war­
RAMKA 17.1 Testowanie hipotez tości p, reprezentującego pole w obu (lub czasem w jednym)
— ogólny przegląd ogonach rozkładu prawdopodobieństwa, wiążemy wartość sta­
tystyki testu otrzymanej z próby ze znanym rozkładem. Więk­
Testowanie hipotez obejmuje pięć etapów: szość pakietów komputerowych oblicza dwustronną wartość
1. Sformułowanie hipotez zerowej i alternatywnej, pod­ p w sposób automatyczny. Wartość p jest prawdopodobień­
legających badaniu. stwem otrzymania naszych wyników lub wyników hardziej
2. Zebranie odpowiednich danych z próby obiektów. skrajnych, jeżeli hipoteza zerowa jest prawdziwa. Hipoteza
3. Obliczenie wartości statystyki testu określonej dla hi­ zerowa bardziej wiąże się z interesującą nas populacją nla
potezy zerowej. z próbą. Dlatego hipoteza zerowa jest albo prawdziwa, albo fał­
4. Porównanie wartości statystyki testu z wartościami szywa i nie możemy interpretować wartości p jako prawdopo­
znanego rozkładu prawdopodobieństwa. dobieństwa, że hipoteza zerowa jest prawdziwa.
5. Interpretacja wartości p i wyników.
UŻYCIE WARTOŚCI P
Musimy podjąć decyzję, jak silnych dowodów potrzebujemy
DEFINIOWANIE HIPOTEZ do odrzucenia hipotezy zerowej na korzyść hipotezy alterna­
ZEROWEJ I ALTERNATYWNEJ tywnej. Im mniejsza jest wartość p, tym mamy silniejsze do­
wody przeciw hipotezie zerowej.
Zwykle testujemy hipotezę zerową (HJ, która zakłada brak • Zazwyczaj przyjmujemy, że jeżeli wartość p jest mniej­
oddziaływania w populacji (np. różnica między średnimi wy- sza niż 0,05, mamy dowód wystarczający do odrzucenia hi­
no5i zero). Na przykład, jeżeli interesuje nas porównanie od­ potezy zerowej, skoro istnieje tak mała szansa uzyskania ta­
setka palących mężczyzn i kobiet w populacji, hipoteza zero­ kich wyników, jeżeli hipoteza zerowa byłaby prawdziwa.
wa ma kształt: Możemy wtedy odrzucić hipotezę zerową i powiedzieć, że
wyniki są istotne na poziomie 5% (rycina 17.1).
HQ. Odsetki palących mężczyzn i kobiet w populacji są ta­
• Jeżeli natomiast wartość p jest równa lub większa niż
kie same.
0,05, zazwyczaj stwierdzamy, że nie mamy dowodów wystar­
Następnie określamy hipotezę alternatywną (HJ, która czających do odrzucenia hipotezy zerowej. Nie odrzucamy hi­
zachodzi, gdy hipoteza zerowa nie jest prawdziwa. Hipoteza potezy zerowej i mówimy, że wyniki nie są istotne na pozio­
alternatywna odnosi się bezpośrednio do teorii, którą chce­ mie 596 (rycina 17.1). Nie oznacza to, że hipoteza zerowa jest
my zbadać. Tak więc, w naszym przypadku możemy sformu­ prawdziwa; po prostu nie mieliśmy dostatecznego dowodu,
łować hipotezę: aby ją odrzucić.
/fj-. Odsetki palących mężczyzn i kobiet w populacji się
różnią.
Nie określiliśmy kierunku różnicy między osobami palą­
cymi, tzn. nie stwierdziliśmy, czy mężczyźni stanowią więk­
szy czy mniejszy odsetek w populacji niż kobiety. Jest to
więc tzw. test dwustronny, w którym dopuszczamy każdą
ewentualność. Test ten jest polecany, gdy nie jesteśmy pewni
kierunku różnicy, o ile takowa istnieje. W pewnych, bardzo
rzadkich okolicznościach, możemy przeprowadzić test jedno­
stronny, w którym w ff, określamy kierunek działania. Moż­
na go zastosować, gdy rozważamy chorobę, na skutek której
wszyscy nie leczeni umierają (nowy lek nie może sprawy po­
gorszyć), lub gdy prowadzimy badanie równoważności czy
braku pogorszenia (patrz ostatnia część tego rozdziału).
Rycina 17.1. Rozkład prawdopodobieństwa statystyki testowej uka­
zujący dwustronne prawdopodobieństwo, p = 0,05.

44 Testowanie hipotez
Wybór 5% jest arbitralny. W 5% sytuacji błędnie odrzuci­ BADANIA RÓWNOWAŻNOŚCI
my hipotezę zerową, chociaż jest ona prawdziwa. W sytu­ I BRAKU POGORSZENIA
acjach, w których implikacje kliniczne błędnego odrzucenia
hipotezy zerowej są poważne, możemy żądać silniejszego do­ W większości eksperymentów zrandomizowanych kontrolo­
wodu przed jej odrzuceniem (np. możemy się zdecydować na wanych (rozdział 14) dwóch lub większej liczby sposobów le­
odr2ueenie hipotezy zerowej, jeżeli wartość p jest mniejsza czenia jesteśmy zwykle zainteresowani wykazaniem wyż­
niż 0,01 lub 0,001). Wybrana wartość odcięcia dla p (np. 0,05 szości co najmniej jednego leczenia nad pozostałymi. Jednak
lub 0,01) zwana jest poziomem istotności testu; trzeba go w pewnych sytuacjach możemy uważać, że nowe leczenie
wybrać przed zebraniem danych. (np. lek) nie jest bardziej efektywne niż leczenie aktualnie
Opisywanie wyników jako istotnych tylko na pewnym po­ stosowane, lecz posiada inne ważne zalety, prawdopodobnie
ziomie odcięcia (np. stwierdzenie tylko, że p < 0,05) może być w postaci zmniejszenia efektów ubocznych, wielkości pigułek
mylące. Na przykład, jeżeli p = 0,04, odrzucimy /f0; jeżeli lub kosztów. Wtedy możemy chcieć pokazać, że skuteczność
jednak p = 0,06, nie odrzucimy jej. Czy rzeczywiście są one nowego leczenia jest podobna (w eksperymencie równoważ­
różne? Dlatego polecamy podawanie dokładnej wartości p, ności) lub nie jest znacząco gorsza (w eksperymencie braku
otrzymywanej często w wynikach komputerowych. pogorszenia) od skuteczności aktualnego leczenia.
Podczas przeprowadzania eksperymentu równoważności
TESTY NIEPARAMETRYCZNE lub testu braku pogorszenia nie stosuje się procedury używa­
nej do testowania hipotezy w zwykłym eksperymencie prze­
Testowanie hipotez oparte na znajomości rozkładów prawdo­
wagi, który testuje hipotezę zerową zakładającą, że oba sposo­
podobieństwa, któremu podlegają dane, określane jest jako
testowanie parametryczne. Często się zdarza, że dane nie by leczenia są takie same. Dzieje się tak dlatego, że (1) wynik
spełniają założeń, które leżą u podstaw tych metod (rozdział nieistotny nie implikuje braku pogorszenia/równoważności,
35). W tej sytuacji możemy użyć tegtów nieparametrycznych a (2) nawet jeżeli zostanie wykryty efekt istotny statystyc2nie,
(czasami określanych jako testy niezależne od rozkładów lub może on być nieważny z klinicznego punktu widzenia. Zamiast
metod rangowych). Testy te ogólnie zastępują dane poprzez tego, w eksperymencie równoważności odwracamy hipotezy
ich rangi (tj. liczby 1, 2, 3 etc. opisujące ich pozycje w upo­ zerową i alternatywną tak, że hipoteza zerowa wyraża różni­
rządkowanym zestawie danych) i nie wymagają żadnych za­ cę, a hipoteza alternatywna wyraża równoważność.
łożeń co do rozkładu prawdopodobieństwa w danych. Zamiast obliczania statystyki testowej, podchodzimy ogól­
Testy nieparametryczne przydają się szczególnie wtedy, nie do problemu oszacowania równoważności lub braku po­
gdy próby są mało liczne (tak, że nie ma możliwości oszaco­ gorszenia1 poprzez sprawdzenie, czy przedział ufności dla
wania rozkładu danych) i/lub gdy dane są podawane w skali badanego efektu (np. różnica w średnich pomiędzy dwoma
kategorialnej. Jednakże testy nieparametryczne generalnie badanymi grupami) leży całkowicie lub częściowo w zdefinio­
trwonią informacje; dlatego w przypadku spełnienia wszyst­ wanym uprzednio zakresie równoważności (tj. zakresie war­
kich założeń niezbędnych do użycia testów parametrycznych tości, określonym przez ekspertów klinicznych, który odpo­
posiadają one mniejszą moc (rozdział 18) wykrycia rzeczywi­ wiada efektowi braku istotności klinicznej). Jeżeli cały
stego efektu niż odpowiednie testy parametryczne. Co więcej, przedział ufności dla badanego efektu leży wewnątrz zakre­
są one przede wszystkim testami istotności, które nie pozwa­ su równoważności, wtedy wnioskujemy, że dwa sposoby le­
lają na uzyskanie estymatorów interesujących nas efektów; czenia są równoważne; w tej sytuacji, nawet gdy górna i dol­
prowadzą raczej do podjęcia decyzji, a nie do oceny i zrozu­ na granica przedziału ufności sugerują, że istnieje przewaga
mienia danych. jednego sposobu leczenia nad drugim, nie jest prawdopodob­
ne, by było to ważne z punktu widzenia klinicznego. W eka-
KTÓREGO TESTU UŻYĆ? perymencie braku pogorszenia chcemy pokazać, że nowy
sposób leczenia nie jest istotnie gorszy od sposobu standar­
Decyzja, którego testu statystycznego należy użyć, zależy od dowego (jeżeli nowe leczenie okazuje się lepsze niż standar­
projektu badania, typu zmiennej i rozkładu, jakiemu podlega­ dowe, będzie to dla nas dodatkowa korzyść!). W tej sytuacji,
ją dane z badania. Pomocą w podjęciu decyzji może być sche­ jeżeli dolna granica odpowiedniego przedziału ufności nie
mat blokowy zamieszczony na wewnętrznej stronie okładki.
wypada poniżej dolnej granicy zakresu równoważności, mo­
żemy wnioskować, że nowe leczenie nie jest gorsze.
TESTOWANIE HIPOTEZ Jeżeli nie zostanie inaczej zaznaczone, testy hipotez w ko­
A PRZEDZIAŁY UFNOŚCI lejnych rozdziałach są testami przewagi Należy zwrócić uwa­
Przedziały ufności (rozdział 11) i testowanie hipotez są ze so­ gę, że metody wyznaczania wielkości próby opisane w rozdzia­
bą ściśle powiązane. Podstawowym celem testowania hipotez le 36 nie stosują się do eksperymentów równoważności lub
jest podjecie decyzji i znalezienie dokładnej wartości p. braku pogorszenia. Wielkość próby niezbędna w eksperymen­
2
Przedziały ufności kwantyfikują interesujący nas wynik (np. tach równoważności lub braku pogorszenia jest ogólnie więk­
różnicę średnich) i pozwalają na określenie klinicznych apli­ sza niż w eksperymencie porównywania przewagi, jeżeli
kacji wyników. Ponieważ jednak określają one zakres wiaro- wszystkie czynniki wpływające na wielkość próby (tzn. po­
godnych wartości prawdziwego wyniku, mogą być również ziom istotności statystycznej, moc) są takie same.
użyte do podejmowania decyzji, aczkolwiek nie pozwalają na
znalezienie dokładnej wartości p. Na przykład, jeżeli hipote­
tyczna wartość wyniku (np. zero) leży poza 95% przedziałem
* John B., Janas P., Lewis J. A., Ebbutt, A. F.: Trials to assess equr
ufności, wtedy uznajemy, że wartość hipotetyczna nie jest ivalence: the importance of rigorous methods. British Medical Jour­
wiarogodna i odrzucamy H0. W naszym przypadku wiemy, nal 1996, 313, 36-39.
że wartość p jest mniejsza niż 0,05, ale nie wiemy, jaka jest ** Julious, S. A.: Tutorial in Biostatistics: Sample sizesfor clinical
dokładnie. trials with Normal data Statistics in Medicine, 2004, 23, 1921-1986.

17. Testowanie hipotez 45


18 BŁĘDY W TESTOWANIU HIPOTEZ

PODEJMOWANIE DECYZJI błędu II rodzaju. Na szczęście jednak wiemy, jakie czynniki


wpływają na moc, i dlatego możemy ją kontrolować, zwraca­
Większość testów hipotez w statystyce medycznej porównuje
jąc na nie uwagę.
grupy ludzi, którzy są narażeni na rozmaite zdarzenia. Może­
my na przykład być zainteresowani porównaniem dwóch spo­
sobów leczenia mających na celu zmniejszenie śmiertelności MOC I ZWIĄZANE Z NIĄ CZYNNIKI
po 5 latach chorowania na raka piersi. Dla danego wyniku Podstawową rzeczą jest znajomość mocy proponowanego te­
(np. śmierci) dokonujemy interesującego nas porównania (np. stu na etapie planowania naszego badania. Na dobrą sprawę
różnicy w odsetkach śmiertelności po 5 latach chorowania), powinniśmy rozpoczynać badanie, gdy wierzymy, że istnieje
interesującego nas efektu lub równoważnie, wyniku lecze­ dość duża szansa wykrycia istotnego klinicznie efektu, jeże­
nia. Hipotezę zerową wyrażamy w postaci braku efektu (np. li on istnieje (przez „dość duża" rozumiemy, że moc powin­
śmiertelność po 5 latach chorowania na raka piersi jest taka na wynosić co najmniej 80%). Podjęcie badania klinicznego,
sama w obu grupach leczenia); dwustronna hipoteza alterna­ które ma, powiedzmy, tylko 40% szansy na wykrycie rzeczy­
tywna stwierdza, że efekt nie jest zerowy. Przeprowadzamy wistego efektu leczenia jest rzeczą etycznie nieodpowiedzial­
test, który upoważnia nas do podjęcia decyzji, czy mamy do­ ną i oznacza stratę czasu oraz środków.
stateczne podstawy do odrzucenia hipotezy zerowej (rozdział Kilka czynników ma bezpośredni wpływ na moc danego
17). Możemy podjąć jedną z dwóch decyzji: albo odrzucimy testu.
hipotezę zerową, albo jej nie odrzucimy. • Wielkość próby: moc rośnie z wielkością próby. Ozna­
cza to, że duże próby dają większą niż małe próby możliwość
PODJĘCIE BŁĘDNEJ DECYZJI wykrycia ważnych klinicznie efektów, o ile one istnieją.
Jeżeli próba jest bardzo mała, test może mieć niewystarcza­
Chociaż spodziewamy się, że wyciągniemy prawidłowy wnio­
jącą moc do wykrycia określonego efektu. W rozdziale 36
sek co do hipotezy zerowej, musimy pamiętać o tym, że ponie­
wytłumaczymy, jak biorąc pod uwagę moc, wyznaczamy
waż mamy jedynie próbę informacji, możemy podjąć błędną
wielkość próby. Metody te mogą zostać również użyte do
decyzję co do odrzucenia lub nie hipotezy zerowej. Możliwe
określenia mocy testu dla określonej wielkości próby.
błędy, jakie możemy popełnić, przedstawia tablica 18.1.
• Zmienność obserwacji: moc wzrasta, gdy zmienność
• Błąd I rodzaju: Odrzucamy hipotezę zerową, gdy
obserwacji maleje (rycina 18.1).
w rzeczywistości jest ona prawdziwa, i stwierdzamy istnie­
• Wielkość interesującego nas efektu: moc testu jest
nie różnicy, gdy w rzeczywistości jej nie ma. Maksymalna
większa dla większych efektów. Test ma zatem większą
szansa (prawdopodobieństwo) popełnienia błędu I rodzaju
szansę wykrycia dużego rzeczywistego efektu niż małego.
jest oznaczana symbolem a (alfa). Jest to poziom istotności
• Poziom istotności: moc jest większa, gdy poziom istotno­
testu (rozdział 17); odrzucamy hipotezę zerową, gdy nasza
ści jest większy (gdy prawdopodobieństwo wystąpienia błędu I
wartość p jest mniejsza niż poziom istotności, tzn. gdy p < a.
rodzaju (a) wzrasta, prawdopodobieństwo błędu II rodzaju (/?)
O wartości a musimy zadecydować, zanim zbierzemy na­
maleje). Zatem, bardziej prawdopodobne jest wykrycie rzeczy­
sze dane; zwykle przyjmujemy dla niej konwencjonalną war­
wistego efektu, gdy na etapie planowania zdecydujemy, że na­
tość 0,05, chociaż możemy też przyjąć wartość bardziej re­
szą wartość p będziemy uznawać za znaczącą, jeżeli jest ona
strykcyjną 0,01 lub mniej restrykcyjną, taką jak 0,10.
mniejsza niż 0,05, a nie jeżeli jest mniejsza niż 0,01. Związek
Szansa, że popełnimy błąd I rodzaju nigdy nie przekracza wy­
między mocą a poziomem istotności ilustruje rycina 18.2.
branego przez nas poziomu, powiedzmy a = 0,05, ponieważ
Należy zwrócić uwagę, że badanie przedziałów ufności
odrzucimy hipotezę zerową tylko wtedy, gdy p < 0,05. Jeżeli
(rozdział 11) dla interesujących nas wyników wskazuje, czy
stwierdzimy, że p > 0,05, nie odrzucimy hipotezy zerowej
moc testu jest wystarczająca. Szerokie przedziały ufności
i w konsekwencji nie popełnimy błędu I rodzaju.
wynikają z małej próby i/lub ze znacznej zmienności oraz
• Błąd II rodzaju: Nie odrzucamy hipotezy zerowej, gdy
wskazują na niską moc.
jest onafatszywa, i stwierdzamy brak efektu, gdy w rzeczy­
wistości on istnieje. Szansa popełnienia błędu II rodzaju jest
oznaczona przez/? (beta); jego dopełnienie, (1 -/ty to moc te­
WIELOKROTNE TESTOWANIE HIPOTEZ
stu. Zatem moc jeat prawdopodobieństwem odrzucenia hipote­
zy zerowej, gdy jest onafatszywa; tzn. jest to szansa (zazwy­ Często na zbiorze danych chcemy przeprowadzić pewną liczbę
czaj wyrażana w procentach) wykrycia jako statystycznie testów istotności, np. gdy składa się on z wielu zmiennych lub
istotnego rzeczywistego efektu leczenia o określonej wielkości. występują więcej niż dwa sposoby leczenia. Szansa popełnie­
W idealnych warunkach moc naszego testu wynosiłaby nia błędu I rodzaju rośnie szybko z liczbą porównań, prowa­
100%; musimy jednakże zauważyć, że jest to niemożliwe, dząc do fałszywych wniosków. Dlatego powinniśmy wykony­
gdyż zawsze istnieje szansa, chociażby znikoma, popełnienia wać jedynie matą liczbę testów, odnoszących się do pierwot­
nych celów badania i określonych a priori Istnieje możliwość
użycia pewnych sposobów przystosowania post-hoc warto­
Tablica 18.1. Konsekwencje testowania hipotez. ści p, które uwzględniają liczbę wykonywanych testów (roz­
Odrzuć Hn Nie odrzucaj Hn dział 22). Na przykład, metoda Bonferroniego (traktowana czę­
sto jako konserwatywna) polega na mnożeniu każdej wartości
HQ prawdziwa Biąd I rodzaju Brak błędu
p przez przeprowadzaną liczbę testów; każda decyzja o istot­
H0 fałszywa Brak błędu Błąd II rodzaju ności jest wtedy oparta na tej poprawionej wartości p.

46 Testowanie hipotez
Rycina 18.1. Krzywe mocy, ukazujące zwią­
zek między mocą a wielkością próby w każ­
dej z dwóch grup przy porównywaniu dwóch
średnich za pomocą testu t dla zmiennych
niepowiązanych (rozdział 21). Każda krzywa
odnosi się do testu dwustronnego przy przy­
jętym poziomie istotności 0,05 oraz efekcie
(np. różnicy pomiędzy średnimi) wynoszą­
cym 2,5. Założone odchylenia standardowe
pomiarów w obu grupach są rozmaite dla
każdej krzywej mocy (patrz przykład, roz­
dział 36).

Rycina 18.2. Krzywe mocy, ukazujące zwią­


zek pomiędzy mocą a wielkością próby w każ­
dej z dwóch grup przy porównywaniu dwóch
proporcji za pomocą testu Chi-kwadrat (roz­
dział 24). Krzywe wykreślono dla badanego
efektu (tj. różnicy w proporcjach czynnika
zainteresowania w obu grupach leczenia)
wynoszącego 0,25 (np. 0,65 - 0,40) lub 0,10
(np. 0,50 - 0,40); poziom istotności testu dwu­
stronnego wynosi 0,05 lub 0,01 (patrz przy­
kład, rozdział 36).

18. Błędy w testowaniu hipotez 47


19 DANE NUMERYCZNE: POJEDYNCZA GRUPA

PROBLEM
2. Zbieramy odpowiednie dane z próby osobników.
Mamy próbę jednej grupy obiektów i jedną interesującą nas 3. Obliczamy wartość statystyki właściwej dla
zmienną numeryczną lub porządkową. Chcemy się dowie­
dzieć, czy wartość przeciętna tej zmiennej przybiera okre­
śloną wielkość. Na przykład, możemy mieć próbę pacjentów
w określonym stanie klinicznym. We krwi zdrowych osobni­
ków monitorowaliśmy poziomy trójglicerydów i wiemy, że która podlega rozkładowi t z (n - 1) stopniami swobody.
mają one średnią geometryczną równą 1,74 mmol/1. Chcemy 4. Porównujemy wartość statystyki testowej z warto­
wiedzieć, czy przeciętny poziom u naszych pacjentów jest ta­ ściami znanego rozkładu prawdopodobieństwa.
ki sam, jak wspomniana wartość. Dodatek A2.
5. Interpretujemy wartość p i wyniki.
TEST f DLA JEDNEJ PRÓBY Interpretujemy wartość p i obliczamy przedział ufno­
ści dla prawdziwej średniej w populacji (rozd2iał 11).
Założenia 95% przedział ufności jest dany jako:
W populacji zmienna ma rozkład normalny z daną (na ogół
nieznaną) wariancją. Pobieramy próbę rozsądnej wielkości,
tak byśmy mogli sprawdzić założenie o normalności rozkła­ gdzie t005 jest punktem procentowym rozkładu tz (n- 1)
du (rozdział 35). stopniami swobody, który daje dwustronne prawdopodo­
bieństwo 0,05.
Uzasadnienie
Chcemy się dowiedzieć, czy średnia /* zmiennej w interesu­
jącej nas populacji różni się od pewnej hipotetycznej warto­ Interpretacja przedziału ufności
ści Hi. W tym celu stosujemy statystykę testową opartą na 95% przedział ufności określa zakres wartości, w którym
różnicy między średnią próby 5c~ oraz juv Załóżmy, że nie z pewnością 95% leży prawdziwa średnia populacyjna. Jeże­
2namy wariancji w populacji; wtedy rozważana statystyka li 95% przedział ufności nie zawiera hipotetycznej wartości
testowa, często określana jako Z, podlega rozkładowi t. Jeże­ dla średniej odrzucamy hipotezę zerową na poziomie 5%.
li znamy wariancję w populacji lub wielkość próby jest du­ Jeżeli jednak przedział ufności zawiera to wtedy, odrzu­
ża, możemy użyć alternatywnego testu opartego na rozkła­ cając hipotezę zerową na tym poziomie, popełniamy błąd.
dzie normalnym (tzw. £-test). Jednakże w obu sytuacjach
wyniki obu testów są prawie identyczne. Jeżeli założenia nie są spełnione
Może się zdarzyć, że zmienna nie podlega rozkładowi nor­
Dodatkowa uwaga malnemu. Chociaż test f jest stosunkowo odporny na brak
Mamy próbę o wielkości n i oszacowanym odchyleniu stan­ normalności, to należy zwracać uwagę na silne skośności.
dardowym s. Możemy wtedy albo przetransformować dane, aby zmienna
miała rozkład normalny (rozdział 9), albo użyć testu niepara­
metrycznego, takiego jak test znaków lub rangowy test Wil-
1. Definiujemy podlegające badaniu hipotezy zerową coxona (rozdział 20).
i alternatywną
Średnia w populacji, równa się
Średnia w populacji nie równa się

48 Podstawowa techniki analizy danych


TEST ZNAKÓW
Test znaków bierze pod uwagę liczbę wartości w naszej
Uzasadnienie próbie, które są większe (lub mniejsze) niż X.
Test znaków jest prostym testem opartym na rozkładzie Test znaków jest prostym testem; możemy też jednak
mediany. Przyjmujemy pewną hipotetyczną wartość X dla użyć mocniejszego testu, testu rangowanych znaków Wil-
mediany w populacji. Jeżeli nasza próba pochodzi z tej po­ coxona (rozdział 20), który przy przeprowadzaniu takiej
pulacji, wtedy w przybliżeniu polowa wartości w próbie analizy bierze pod uwagę zarówno rangi danych, jak i ich
powinna być większa niż A, a polowa mniejsza niż X (po wy­ znaki.
kluczeniu każdej wielkości, która jest równa X).

1. Definiujemy podlegające badaniu hipotezy zerową my pod uwagę bezwzględną wartość (tzn. dodatnią) liczby
i alternatywną podanej między kreskami. Rozkład 2 jest w przybliżeniu
HQ: Mediana w populacji równa się X. normalny. Odjęcie wartości V2 stanowi tzw. poprawkę na
H^. Mediana w populacji nie równa się X. ciągłość, którą musimy uwzględnić z uwagi na fakt, że
2. Zbieramy odpowiednie dane z próby osobników. wiążemy wartość dyskretną (r) z rozkładem ciągłym (roz­
3. Obliczamy wartości statystyki specyficznej dla HQ kładem normalnym).
Pomijamy wszystkie wartości równe X, pozostawiając 4. Porównujemy wartość statystyki testowej z warto­
n' wartości. Zliczamy wartości, które są większe od X. Po­ ściami ze znanego rozkładu prawdopodobieństwa.
dobnie, zliczamy wszystkie wartości, które są mniejsze od • Jeżeli n ś 10, należy porównać r z wartościami w Do­
X. (W praktyce obliczamy różnicę między każdą wartością datku A6.
w próbie i X, biorąc pod uwagę znak tej różnicy.) Bierze­ • Jeżeli n > 10, należy porównać z z wartościami w Do­
my pod uwagę wartość r, będącą mniejszą z tych dwóch datku Al.
zliczeń. 5. Interpretujemy wartość p i wyniki.
• Gdy n' s 10, wartością statystyki jest r. Interpretujemy wartość p i obliczamy przedział ufności
dla mediany — niektóre pakiety statystyczne wykonują to
automatycznie; jeżeli nie, możemy porangować wartości
• Gdy n' > 10, obliczamy w kierunku ich wzrostu i porównać z wartościami w Do­
datku A7 w celu określenia rang wartości, których należy
użyć do zdefiniowania granic przedziału ufności. Ogólnie,
gdzie n'/2 jest liczbą wartości powyżej (lub poniżej) me­ przedziały ufności dla mediany będą szersze niż dla śred­
diany, której moglibyśmy oczekiwać, gdyby hipoteza zero­ niej.
wa była prawdziwa. Pionowe kreski wskazują, że bierze-

PRZYKŁAD
foUiiejif pewne dowody aa to, że wysokie poziomy trójgli- populacji. Do zbadania tego użyto testu I dla jednej pró­
cerydów we krwi są powiązane z chorobą serca. W ra­ by. Poziomy trójglicerydów są prawoskośne (rycina 8.3a);
mach dużego badania kohortowego nad chorobami serca logarytmy poziomu trójglicerydów mają w przybliżeniu
Tebrano dane na temat poziomu trójglicerydów u 232 męż­ rozkład normalny (rycina 8.3b), tak więc wykonujemy na­
czyzn, u których rozwinęła się choroba serca w okresie szą analizę na wartościach logarytmowanych. U mężczyzn
5 lat po włączeniu do badania. Chcielibyśmy dowiedzieć w ogólnej populacji średnia wartości logarytmowanych
się, czy średni poziom trójglicerydów w populacji męż­ wynosi 0,24 log10 (mmol/1), co jest równoważne średniej
czyzn, /. której pobrano próbę, jesl taki sam jak w ogólnej geometrycznej 1,74 mmol/1.

1. Średnia IogjQ (poziom trójgliccrydów) w populacji 4. Porównujemy f z wartościami w Dodatku A2 przy 231
mężczyzn, u których rozwija się choroba serca, równa stopniach swobody: p < 0,001.
się 0,24 loy (inmol/1). 5. Istnieje silny dowód przemawiający za odrzuceniem
Średnia log10 (poziom trójglicerydów) w populacji hipotezy zerowej, że średnia geometryczna poziomu trój­
mężczyzn, u których rozwija sie choroba serca, nic rów­ glicerydów w populacji mężczyzn z rozwijającą się cho­
na się 0,24 log (mmol/1). robą serca wynosi 1,74 mmol/1. Średnia geometryczna
2. Wielkość próby n = 232. poziomu trójglicerydów w populacji mężczyzn z rozwija­
Średnia wartości zlogarytmowanych x - 0,31 log jącą się chorobą serca jest obliczana jako antylogaryliii
(mmol/1). (0,31) = 100-31, który wynosi 2,04 mmol/1. 95% przedział
Odchylenie standardowe wartości zlogarytmowanych ufności dla średniej geometrycznej poziomu trójglicery­
.*= 0,23 log (mmol/1). dów zawiera się między 1,90 a 2,19 mmol/1 (tj. antyloga-
3. Statystyka testowa, rytm 10,31 ± 1,96 x 0,23/\/232]). Dlatego w tej populacji
pacjentów średnia geometryczna poziomu irójglicerydów
0,31-0,24 ^
/= 4 6 4
jest istotnie wyższa od poziomu w ogólnej populacji.
0,23/vr232

19. Dane numeryczne: pojedyncza grupa 49


Do przeprowadzenia podobnej analizy nietransformowa- danych. Zakładamy, że mediana i średnia geometryczna
nycli poziomów trójglicerydów możemy użyć testu zna­ poziomu trójglicerydów w populacji mężczyzn są zbliżone.
ków, gdyż iik- wymaga on żadnych założeń co do rozkładu

1. WQ.: Mediana poziomu trójglicerydów w populacji 4. Porównujemy z z wartościami w Dodatku Al:


mężczyzn, u których rozwija się choroba serca, jest rów­ p = 0,012.
na 1,74 mmol/1. 5. Istnieje dowód pozwalający na odrzucenie hipotezy
//;: Mediana poziomu trójglicerydów w populacji zerowej, że mediana poziomu trójglicerydów w populacji
mężczyzn, u których rozwija się choroba serca, nie jest mężczyzn z rozwijającą się chorobą serca wynosi 1,74
równa 1,74 irimol/1. mmol/1. Wzór w Dodatku A7 wskazuje, że 95% prze­
2. W tym zbiorze danych wartość mediany wynosi dział ufności dla mediany populacji jest określony przez
l,34miiiol/l. 101. oraz 132. porangowaną wartość; odpowiada to war­
3. ttadamy różnice pomiędzy każdą wartością a 1,74. tościom 1,77 oraz 2,16 mmol/1. Dlatego w analizowanej
Istnieje 231 niozerowych różnic, z których 135 jest do­ populacji pacjentów mediana poziomu trójglicerydów
datnich, a 96 jest ujemnych. Dlatego r - 96. Jako że licz­ jest istotnie wyższa niż ta w ogólnej populacji.
ba niezdrowych różnic jest większa niż 10, obliczamy:

Dane uzyskane dzięki uprzejmości: dr F. C. Lampe, ms M. Walker i dr P. Whincup, Department of Primary Care and Popułation Scien­
ces, Royal Free and University College Medioal School, Londyn, Wielka Brytania.

50 Podstawowe techniki analizy danych


20 DANE NUMERYCZNE: DWIE GRUPY POWIĄZANE

PROBLEM
5. Interpretujemy wartość p i wyniki.
Mamy dwie próby, które są ze sobą powiązane, i jedną inte­ Interpretujemy wartość p i obliczamy przedział ufno­
resującą nas zmienną numeryczną lub porządkową. ści dla prawdziwej średniej różnic w populacji. 95%
• Zmienna może być zmierzona dla każdego obiektu przedział ufności jest dany jako
w dwu okolicznościach. Na przykład, w badaniu naprze­
miennym (rozdział 13) każdy pacjent ma wykonane dwa po­
miary zmiennej, raz, gdy bierze lek aktywny, i raz, gdy bie­ gdzie f005 jest punktem procentowym rozkładu tz(n-l)
rze placebo. stopniami swobody, który daje dwustronne prawdopodo­
• Obiekty w każdej próbie mogą być różne, lecz są ze bieństwo równe 0,05.
sobą w jakiś sposób powiązane. Na przykład, w badaniu
przypadek-kontrola (rozdział 16) pacjenci w jednej grupie
mogą być indywidualnie dopasowani do pacjentów w dru­
giej grupie. Jeżeli założenia nie są spełnione
Takie dane są znane jako dane powiązane. Przy analizo­ Jeżeli różnice nie podlegają rozkładowi normalnemu, zało­
waniu danych trzeba wziąć pod uwagę zależności między żenie leżące u podstaw testu t nie jest spełnione. Możemy
oboma próbami, w przeciwnym razie korzyści wynikające wtedy albo przetransformować dane (rozdział 9), albo użyć
z parowania (rozdział 13) zostają utracone. Dokonujemy te­ testu nieparametrycznego, takiego jak test znaków (rozdział
go, biorąc pod uwagę różnice wartości w każdej parze i re­ 19), lub testu rangowanych znaków Wilcoxona w celu osza­
dukując przez to dwie próby do jednej próby różnic. cowania, czy różnice są skupione wokół zera.

TEST t DLA ZMIENNYCH POWIĄZANYCH TEST RANGOWANYCH ZNAKÓW


Założenia WILCOXONA
W populacji będącej przedmiotem badania różnice indywi­ Uzasadnienie
dualne mają rozkład normalny z określoną (na ogół niezna­ W rozdziale 19 wytłumaczyłyśmy, jak używać testu znaków
ną) wariancją. Mamy wystarczająco dużą próbę, aby móc w przypadku pojedynczej próby pomiarów numerycznych
zbadać założenie normalności. w celu zbadania hipotezy zerowej, że mediana populacyjna
równa jest określonej wartości. Możemy również użyć testu
Uzasadnienie znaków, jeżeli mamy obserwacje powiązane: para jest repre­
Jeżeli dwa zbiory pomiarów były takie same, spodziewamy zentowana albo przez dobrane obiekty (np. w badaniu przy­
się, że w populacji podlegającej badaniu średnia różnic po­ padek-kontrola, rozdział 16), albo przez pomiary wykonane
między każdą z par pomiarów będzie równa zero. Dlatego na tych samych obiektach w różnych okolicznościach (jak
nasza statystyka testowa sprowadza się do testu t dla jed­ w badaniu naprzemiennym dwóch sposobów leczenia,
nej próby (rozdział 19), złożonej z różnic, gdzie hipotetyczna A oraz B, rozdział 13). Dla każdej pary obliczamy różnicę
wartość średniej różnicy w populacji jest równa zero. pomiarów. Testu znaków można użyć do zbadania, czy me­
diana różnicy w populacji równa jest zero, poprzez analizę
Dodatkowa uwaga różnic w próbie i sprawdzenie, jak często różnice są więk­
Z powodu powiązanej struktury danych nasze dwie próby sze (lub mniejsze) od zera. Jednakże test znaków nie
muszą być tej samej wielkości n. Mamy n różnic, ze średnią uwzględnia informacji o wielkości tych różnic.
próby x i z oszacowanym odchyleniem standardowym sd. Test rangowanych znaków Wilcoxona bierze pod uwagę
nie tylko znaki różnic, lecz także ich wielkości, i dlatego jest
1. Definiujemy podlegające badaniu hipotezy zerową testem o większej mocy (rozdział 18). Dla każdej pary wyni­
i alternatywną. ków obliczamy indywidualną różnicę. Pomijając różnice ze­
H0: Średnia różnic w populacji równa się zero. rowe, pozostałe klasyfikujemy jako dodatnie albo ujemne.
/fj-. Średnia różnic w populacji nie równa się zero. Dodatkowo, pomijając ich znaki, różnice porządkujemy
2. Zbieramy odpowiednie dane z dwóch powiązanych prób. w kierunku ich wzrostu i odpowiednio rangujemy. W ten
sposób najmniejsza różnica otrzymuje wartość 1, kolejna
3. Obliczamy wartość statystyki testowej właściwej dla HQ
najmniejsza wartość 2 itd., aż do największej różnicy, której
przyporządkowujemy wartość n', jeżeli wystąpiło n' niezero-
wych różnic. Jeżeli mamy dwie lub więcej takie same różni­
ce, to otrzymują one średnią z rang tych wartości, które
która podlega rozkładowi f z (n - 1) stopniami swobody. otrzymałyby, gdyby nie były związane. Gdy hipoteza zerowa
4. Porównujemy wartość statystyki testu z wartościa­ o braku różnicy jest prawdziwa, suma rang związanych
mi ze znanego rozkładu prawdopodobieństwa, odwołu­ z różnicami dodatnimi i ujemnymi powinna być jednakowa
jąc się do Dodatku A2. (patrz kolejna ramka).

20. Dane numeryczne: dwie grupy powiązane 51


1. Definiujemy podlegające badaniu hipotezy zerową z podlega rozkładowi normalnemu (jego wartość musi być
i alternatywną. skorygowana, jeżeli mamy wiele wartości związanych ).
1

H0'. Mediana różnic w populacji równa się zero. 4. Porównujemy wartość statystyki testowej z warto­
Hi, Mediana różnic w populacji nie jest równa zero. ściami znanego rozkładu prawdopodobieństwa.
2. Zbieramy odpowiednie dane z dwóch powiązanych prób. • Jeżeli ri S 25, należy porównać wartość Ti warto­
3. Obliczamy wartość statystyki testowej właściwej ściami w Dodatku A8
dla Hv • Jeżeli n' > 25, należy porównać wartość z z warto­
Obliczamy różnicę dla każdej pary wyników. Pomijając ściami w Dodatku Al.
ich znaki, rangujemy wszystkie ń niezerowe różnice przez 5. Interpretujemy wartość p i wyniki.
przyporządkowanie wartości 1 do najmniejszej różnicy Interpretujemy wartość p i obliczamy przedział ufności
i wartości n' do największej. Sumujemy rangi różnic dodat­ dla mediany różnic (rozdział 19) w całej próbie.
nich {TJ i ujemnych {T_).
* Jeżeli n' s 25, statystyka testowa Tprzybiera war­
tość równą liczbie mniejszej spośród T+ lub T_.
• Jeżeli n' > 25, obliczamy statystykę z, gdzie:

1
Siegel S., Gastellan N. J.: Nonparametric Statistics for the Behavioural Sciences. McGraw-Hill, Nowy Jork 1988.

PRZYKŁADY
Przebadano zęby 96 nowych rekrutów, mężczyzn w wie­ bia (głębsza kieszonka oznacza hardziej zaawansowaną
ku pomiędzy 16. a 20. rokiem życia, werbowanych do Kró­ chorobę). Głębokość kieszonki była wyznaczona dla każde­
lewskich Sil Powietrznych. Po przeprowadzeniu niezbęd­ go rekruta jako średnia głębokość kieszonek dla każdej
nego leczenia w celu uzyskania prawidłowego stanu uzę­ mierzonej strony w jego jamie ustnej.
bienia zostali oni przebadani ponownie rok później. Cała Ponieważ w tej próbie rekrutów różnice w głębokości
jama ustna, wyłączając zęby mądrości, ma 28 zębów. kieszonek miały w przybliżeniu rozkład normalny, zasto­
W tym badaniu każdy ząb ma cztery strony interesujące sowano test r dla zmiennych powiązanych w celu stwier­
poriodontologów; zatem każdy rekrut posiadał minimum dzenia, czy średnia głębokość kieszonki była taka sama
84 i maksimum 112 mierzonych powierzchni w obu bada­ przed i po leczeniu. Pełny wydruk komputerowy wyników
niach. (Jeleni badania było sprawdzenie wpływu leczenia jest załączony w Dodatku C.
na głębokość kieszonek, która jest miarą choroby przyzę­

1. /70: Średnia różnica głębokości kieszonki przed i po le­ 5. Mamy dowód pozwalający na odrzucenie hipotezy
czeniu w populacji rekrutów równa się zero. zerowej i możemy wnioskować, że średnia głębokość kie­
/fj: Średnia różnica głębokości kieszonki przed i po szonki rekruta po leczeniu zmniejszyła się. 95% prze­
leczeniu w populacji rekrutów nic równa się zero. dział -ufności dla prawdziwej średniej różnicy w prze­
2. Wielkość próby n - 96. Średnia różnica głębokości ciętnej głębokości kieszonki wynosi od 0,035 do 0,262
kieszonki x- 0,1486 mm. Odchylenie standardowe róż­ mm (tj. 0,1486 ± 1,95 x 0,5601/\/96). Oczywiście nie
nic .s,,= 0,5601 rum. wolno nam tu pochopnie wyciągać wniosków, że jest to
efekt leczenia, które zredukowało przeciętną głębokość
3. Statystyka testowa. kieszonki, gdyż nie mamy grupy kontrolnej rekrutów,
którzy nie byli leczeni. Poprawa może być konsekwencja
4. Porównujemy i z wartościami w Dodatku A2 z (96 - 1) czasu łub zmiany przyzwyczajeń w higienie jamy ustnej
= 95 stopniami swobody: 0,01 < p < 0,05 (obliczenia i może nie wynikać ze stosowanego leczenia.
komputerowe dają p = 0,011).

52 Podstawowe techniki analizy danych


Dane w poniższej tablicy pokazują procent zmierzonych zaawansowana, niż to wynika z głębokości kieszonki. Po­
, stron, w których zaobserwowano brak przyczepu w każ­ nieważ różnice w procentach nic podlegają rozkładowi
dym badaniu u każdego z 14 rekrutów wysianych do pew­ normalnemu, do zbadania, czy leczenie miało jakikolwiek
nej bazy sit powietrznych. Utrata przyczepu jest wskaźni­ wptyw na utratę przyczepu, użyliśmy testu rangowanych
kiem choroby przyzębia, która może być bardziej znaków Wilcoxona.

1. i/(); Mediana różnic (przed i po leczeniu) wyrażonych 5. Nie mamy wystarczającego dowodu pozwalającego na
w procentach stron z utrata, przyczepu równa się zero odrzucenie hipotezy zerowej o braku zmiany w procencie
w populacji rekrutów. stron z utratą przyczepu. Mediana różnic w procencie
Hf Mediana różnic (przed i po leczeniu) wyrażonych stron z utratą przyczepu wynosi -3,1% (tj. średnia
w procentach stron z utratą przyczepu nie równa się ze­ z -2,5% oraz z -3,6%), ujemna mediana różnic wskazuje,
ro w populacji rekrutów. że przeciętnie procent stron z utratą przyczepu jest więk­
2. Procent zmierzonych stron z utratą przyczepu przed szy po leczeniu, chociaż różnica ta nie jest istotna. Doda­
i po leczeniu dla każdego rekruta pokazany jest w poniż­ tek A7 pokazuje, że w przybliżeniu 95% przedział ufno
szej tabeli. ści dla mediany różnic w populacji jest dany przez trzecią
3. Istnieje jedna zerowa różnica; z pozostałych n' = 13 i dwunastą rangowaną różnicę (włączając różnice zero
różnic, trzy są dodatnie, a 10 ujemnych. Suma rang róż­ we); wynoszą one -12,8% oraz 0,9%. Chociaż więc wynik
nic dodatnich wynosi 7; = 3 15 + 13 = 21. testu nie jest istotny statystycznie, dolna granica wska­
4. Ponieważ ii < 25, porównujemy Tt z wartościami w Do­ zuje, że procent stron z utratą przyczepu może wynosić
datku A8: p > O.Of) (wynik komputerowy wynosi p - 0,09). aż 12,8% więcej po leczeniu rekruta!

Duffy S.: Iłemlta ofa three year longitiidinal study ofaarly periodontitis łn a group ofBritish niale adolescents. MSc Dissci taiiori, Uni-
yersily of London, EasLman Denlal Insliiute for Orał Health Care Sciences 1997.

20. Dane numeryczne: dwie grupy powiązane 53


21 DANE NUMERYCZNE:
DWIE GRUPY NIEPOWIĄZANE

PROBLEM
4. Porównujemy wartość statystyki testowej z warto­
Mamy próby z dwóch niezależnych (niepowiązanych) grup ściami znanego rozkładu prawdopodobieństwa.
osobników i jedną numeryczną lub porządkową zmienną Porównujemy t z wartościami w Dodatku A2. Jeżeli
podlegającą badaniu. Chcielibyśmy się dowiedzieć, czy śred­ wielkości próby w obu grupach są duże, rozkład t przy­
nia lub rozkład zmiennej jest taki sam w obu grupach. Na bliża rozkład normalny. Odrzucamy wtedy hipotezę ze­
przykład chcemy porównać masy ciaia w dwóch grupach rową na poziomie 5%, jeżeli wartość bezwzględna t (tj.
dzieci, gdzie każde dziecko przydzielono losowo albo do gru­ pomijająca znak) jest większa niż 1,96.
py z auplementem dietetycznym, albo z placebo. 5. Interpretujemy wartość p oraz wyniki.
Interpretujemy wartość p i obliczamy przedział ufno­
TEST t DLA ZMIENNYCH NIEPOWIĄZANYCH ści dla różnicy dwóch średnich. Przy założeniu, że wa­
riancje są równe, 95% przedział ufności dany jest jako:
(DWIE PRÓBY)
Założenia
W populacji zmienna ma rozkład normalny w każdej z grup, gdzie f0 05 jest punktem procentowym rozkładu f z (nr +
a wariancje są takie same. Oprócz tego mamy wystarczają­ + ng - 2) stopniami swobody, dającym dwustronne praw­
co duże próby, by móc sprawdzić założenia o normalności dopodobieństwo równe 0,05.
i równych wariancjach.

Uzasadnienie
Rozpatrujemy różnicę średnich w obu grupach. Zgodnie Interpretacja przedziału ufności
z hipoteza zerową średnie populacyjne w obu grupach są ta­ Górna i dolna granica przedziału ufności po2wala stwier­
kie same, więc różnica będzie równa zero. Dlatego używa­ dzić, czy różnica między dwoma wartościami średnimi jest
my statystyki, która jest oparta na różnicy dwóch średnich klinicznie ważna. Na przykład, jeżeli górna i/lub dolna gra­
z prób i na wartości różnicy między średnimi populacyjny­ nica jest bliska zero, prawdziwa różnica może być bardzo
mi przy założeniu słuszności hipotezy zerowej (tj. zero). Ta­ mała i bez znaczenia klinicznego, nawet wtedy, gdy test jest
ka statystyka testowa, często określana jako f, podlega roz­ statystycznie istotny.
kładowi t.
Jeżeli założenia nie są spełnione
Notacja Jeżeli próby są wystarczająco duże, test t jest całkiem od­
Nasze dwie próby mają wielkości odpowiednio oraz . Ich porny (rozdział 35) na odstępstwa od normalności. Jednakże
średnie wynoszą , a odchylenia standardowe jest on mniej odporny na brak równości wariancji. Istnieje
modyfikacja testu t dla zmiennych niepowiązanych, dopusz­
czająca różne wariancje, a jej wyniki są często przedstawia­
1. Definiujemy podlegające sprawdzeniu hipotezy ze­
ne na wydrukach komputerowych. Jeżeli założenia nie są
rową i alternatywną.
spełnione, możemy też albo przetransformować dane (roz­
Populacyjne średnie w obu grupach są sobie równe.
dział 9), aby otrzymać w przybliżeniu rozkład normalny
Populacyjne średnie w obu grupach nie są sobie
i/lub równe wariancje, albo też użyć testu nieparametrycz­
równe.
nego, takiego jak test sumy rang Wilcoxona.
2. Zbieramy odpowiednie dane z dwóch prób osobników.
3. Obliczamy wartość statystyki testowej właściwej
dla TEST WILCOXONA SUMY RANG
Jeżeli s jest estymatorem łączonego odchylenia stan­ (DWIE PRÓBY)
dardowego w obu grupach,
Uzasadnienie
Test sumy rang Wilcoxona nie wymaga żadnych założeń co
do rozkładu i jest nieparametrycznym testem odpowiadają­
cym testowi t dla zmiennych niepowiązanych. Test jest opar­
ty na sumie rang wartości z każdej z dwóch grup. Porównu­
jemy je, nawet jeśli próby są różnych wielkości, jeżeli tylko
grupy mają podobne rozkłady. Równoważny test, znany jako
wtedy statystyka testowa jest dana przez t, gdzie: test V Manna-Whitney'a, daje identyczne rezultaty, cho­
ciaż jest nieco bardziej skomplikowany przy obliczeniach
bez pomocy komputera.

i podlega rozkładowi t z stopniami swobody.


54 Podstawowe techniki analizy danych
1. Definiujemy podlegające badaniu hipotezy zerową
i alternatywna.
H§. Dwie grupy mają taki sam rozkład w populacji,
i/j: Dwie grupy mają różne rozkłady w populacji. a ns i nL są odpowiednio liczebnościami mniejszej i więk­
2. Zbieramy odpowiednie dane z dwóch prób osobników. szej grupy. Jeżeli występuje wiele pomiarów wiązanych1,
3. Obliczamy wartość statystyki testowej właściwej ^musi być skorygowane.
dla H0. 4. Porównujemy wartość statystyki testowej z warto­
Wszystkie obserwacje ranguje się tak, jakby pochodzi­ ściami znanego rozkładu prawdopodobieństwa.
ły z jednej próby. Obserwacjom wiązanym nadaje się • Jeżeli liczebność w każdej próbie wynosi 15 lub mniej,
średnia z rang, jakie otrzymałyby te wartości, gdyby nie porównujemy Tz wartościami w Dodatku A9.
były wiązane. Następnie oblicza się sumę rang Tw mniej- • Jeżeli co najmniej jedna z grup ma liczebność więk­
S2ej grupie. szą niż 15, porównujemy z z wartościami w Dodatku Al.
• Jeżeli wielkość każdej grupy wynosi 15 lub mniej, 5. Interpretujemy wartość p i wyniki.
statystyką testową jest T. Interpretujemy wartość p i uzyskujemy przedział ufności
* Jeżeli co najmniej jedna z grup jest większa niż 15, dla różnic dwóch median. Obliczenia bez pomocy kompute­
obliczamy statystykę testową ra są czasochłonne i dlatego nie zamieszczamy szczegółów;
niektóre pakiety statystyczne wyznaczają przedziały ufno­
ści CI. Jeżeli w Twoim pakiecie brak takiego przedziaiti
ufności, możesz zastosować przedział ufności dla mediany
podlegającą rozkładowi normalnemu, gdzie w każdej z dwóch grup.

i Siegel S., Castellan N. J.: Nonparametric Statistics for the Behavioural Sciences. McGraw-Hill, Nowy Jork 1988.

PRZYKŁAD 1
W celu określenia efektu regularnego, profilaktycznego wa (FEV1) po 6-miesięcznym okresie inhalowania. Po
inhalowania kortykosteroidów w trakcie napadów astma­ sprawdzeniu założeń o normalności i równości wariancji
tycznych związanych z infekcją wirusową u dzieci w wie­ (patrz rycina 4.2) wykonałyśmy test t dla zmiennych nie­
ku szkolnym przeprowadzono losowe, podwójnie ślepe powiązanych w celu porównania średnich w obu grupach.
badania, porównujące skutki inhalowania dipropionianu Pełny wydruk komputerowy wyników pokazany jest
beklomctazonu z placebo. W tym badaniu głównym w Dodatku C.
wskaźnikiem była średnia wymuszona objętość wydecho­

1. HQ. Średnia FEV1 w populacji dzieci w wieku szkol­ 4. Porównujemy t z wartościami Dodalku A2 z 50 +
nym jest taka sama w obu grupach badanych. + 48 - 2 = 96 stopniami swobody. Ponieważ Dodatek A2
Htf Średnia FŁV1 w populacji dzieci w wieku szkol­ jest ograniczony do pewnej liczby stopni swobody, doko­
nym nic jest taka sama w obu grupach badanych. nałyśmy interpolacji (oszacowania żądanej wartości le­
2. Grupa leczonych: wielkość próby n{ = 50; średnia 3q = żącej między dwoma znanymi wartościami) pomiędzy
1,64 litrów, odchylenie standardowe s, = 0,29 litrów. wartościami odpowiadającymi 50 i 100 stopniom SWOIKJ-
Grupa placebo: wielkość próby n-, = 48; średnia x, = dy. Stąd p > 0,05 (wynik komputerowy wynosi p = 0,06).
1,54 litrów; odchylenie standardowe sy = 0,25 litrów. 5. Nie mamy dostatecznego dowodu pozwalającego na
3. Połączone odchylenie standardowe, odrzucenie hipotezy zerowej na poziomie 5%. Ponieważ
jednak wartość p jest jedynie odrobinę większa niż 0,05,
może to wskazywać, że średnie naszych dwóch popula­
cji są różne. Oszacowana różnica między średnimi wy
nosi 1,64 - 1,54 = 0,10 litrów. 95% przedział ufności dla
prawdziwej różnicy między dwoma średnimi zawiera się
między -0,006 a 0,206 litrów

Dane uzyskane dzięki uprzejmości: dr-1. Doiill, Cystic Fibrosis/Hespiratory Unit, Department of Child Health, University Hospital of
Wales, Cardiff, Wielka Brytania i dr F. C. Lampe, Department of Primary Care and Popuiation Sciences, Royal Free and University
College Medical School, Londyn, Wielka Brytania.

21. Dane numeryczne: dwie grupy niepowiązane 55


PRZYKŁAD 2
W colu zbadania, czy mechanizm związany ze śmiertelną nej astmy wywołanej pyłem z nasion soi i dziesięciu przy­
astmą wywołana nasionami soi różni się od zwykłej padkach zwykłej astmy śmiertelnej. Z powodu małych li­
śmiertelnej astmy porównano liczbę komórek CD3+ T czebności prób i w sposób oczywisty skośnych danych
w warstwie podśluzówkowej, będących miarą systemu przeprowadziłyśmy test sumy rang Wilcoxona w colu po­
obronnego organizmu, w siedmiu przypadkach śmiertel­ równania rozkładów.

1. Iiozkktdy liczby komórek CD3+ T w dwóch gru­ 4. Ponieważ mamy 10 lub mniej wartości w każdej z grup,
pach w populacji są takie same. otrzymujemy wartość p z Dodatku A9: p < 0,01 (wynik
Rozktndy liczby komórek CD3+ T w dwóch gru­ komputerowy wynosi p = 0,002).
pach w populacji nie są lakie same. 5. Istnieje dowód pozwalający na odrzucenie hipotezy ze­
2. Grupa nasion soi: wielkość próby ns- 7, poziomy ko­ rowej, że rozkłady poziomów komórek CD3+ T są takie
mórek CD3+ 1' (komórek/mmz) wynosiły 34,45; 0,00; same w obu grupach. Mediany liczby komórek CD3+ T
1,36; 0,00; 1,43; 0.00; 4,01. w grupach astmy sojowej i zwykłej astmy śmiertelnej
Grupa astmy: wielkość próby nL - 10, poziomy komó­ wynoszą odpowiednio 1,36 (95% przedział ufności od
iek (T>3+ T (komórek/mm2) wynosiły 74,17; 13,75; 0 do 34,45) oraz (58,33 + 73,63)/2 = 65,98 (95% prze­
37,50; 1225,51; 99,99; 3,76; 58,33; 73,63; 4,32; 154,86. dział ufności od 4,32 do 154,86) komórek/mm2. Przy­
Dmie porangowane zamieszczono w tablicy poniżej. puszczamy więc, że liczba komórek CD3+ T jest zmniej­
li. Suma rang w grupie nasion s o i - 2 + 2 + 2 + 4 +5 + szona w śmiertelnej astmie sojowej, co sugeruje inny
+ 7 + 10 = 32. mechanizm od opisanego dla większości zgonów 2 powo­
Simm rang w grupie astmy = 6 + 8 + 9 + 11 + 12 + du astmy.
+ i;i+ 14 + 15 + 16 + 17 = 121.

Nasiona soi 0,00 0,00 0,00 1,36 1,43 4,01 34,45


Astma 3,76 4,32 13,75 37,50 58,33 73,63 74,17 99,99 154,86 1^5,51
Rouyu 2 2 2 4 5 6 7 8 9 A0 11 12 13 14 15 16 17

Dane uzyskano dzicki uprzejmości: dr M. Synek, Coldeast Hospital, Sarisbury i dr F. C. Lampe, Department of Primary Curc wid Pojiu-
lation ScioncoH, llayal Krce and University College Medical School, Londyn, Wielka Brytania.

56 Podstawowe techniki analizy danych


22 DANE NUMERYCZNE:
WIĘCEJ NIŻ DWIE GRUPY

PROBLEM
1. Definiujemy podlegające badaniu hipotezy zerowa
Mamy próby z pewnej liczby niezależnych grup. Rozważamy i alternatywną.
pojedynczą zmienną numeryczną lub porządkową i chcieli­ Wszystkie średnie grupowe w populacji są równe.
byśmy się dowiedzieć, czy przeciętna wartość tej zmiennej Co najmniej w jednej grupie w populacji średnia
ulega zmianom w różnych grupach, np. czy przeciętna licz­ różni się od innych.
ba płytek krwi różni się w grupach kobiet o różnym pocho­
2. Zbieramy odpowiednie dane z prób osobników.
dzeniu etnicznym. Chociaż możemy przeprowadzić porówna­
nia przeciętnych pomiędzy każdą parą grup, duże ryzyko 3. Obliczamy wartość statystyki testowej właściwej
błędu I rodzaju, wynikające z dużej liczby porównań, ozna­ dla
cza, że możemy wyciągnąć nieprawidłowe wnioski (rozdział Statystyka testowa dla ANOVA jest stosunkiem /wa­
18). Dlatego przeprowadzamy jeden łączny test sprawdzają­ riancji międzygrupowej i wariancji wewnątrzgrupowej.
cy, czy przeciętne różnią się w grupach. Statystyka .F podlega rozkładowi .F (rozdział 8) odpowied­
nio z {k- 1, n-1) stopniami swobody dla licznika i mia­
nownika.
JEDNOCZYNNIKOWA Obliczenia wykonywane w ANOVA są złożone, więc
ANALIZA WARIANCJI nie opisujemy ich tutaj. Większość pakietów komputero­
wych podaje wyniki bezpośrednio w postaci tablicy
Założenia
ANOVA, która zwykle zawiera stosunek foraz wartość p
Grupy są zdefiniowane przez poziomy pojedynczego czynni­ (patrz przykład 1).
ka (np. rozmaite pochodzenie etniczne). W badanej populacji
zmienna w każdej grupie ma rozkład normalny, a wariancje 4. Porównujemy wartości statystyki testowej z warto­
we wszystkich grupach są takie same. Mamy odpowiednio ściami znanego rozkładu prawdopodobieństwa.
duże próby, aby zbadać te założenia. Stosunek F porównujemy z wartościami w Dodatku
A5. Ponieważ wariancja międzygrupowa jest większa
Uzasadnienie lub równa wariancji wewnątrzgrupowej, bierzemy pod
uwagę jednostronne wartości p.
Jednoczynnikowa analiza wariancji pozwala rozdzielić cał­
kowitą zmienność danych na tę, która może być przypisana 5. Interpretujemy wartość p i wyniki.
różnicom między osobnikami z różnych grup (zmienność Jeżeli na tym początkowym etapie otrzymamy wynik
międzygrupowa), oraz losowe zmiany między osobnikami istotny, możemy rozważyć przeprowadzenie właściwych
wewnątrz każdej grupy (zmienność wewnątrzgrupowa, porównań par typu post-hoc. Możemy użyć jednego z wie­
zwana niekiedy niewyjaśnioną lub resztową). Te składowe lu testów stworzonych specjalnie do tego celu (np. Dunca-
zmienności mierzone są przy użyciu wariancji, stąd nazwa na, Scheffego) lub możemy użyć testu t dla zmiennych
analiza wariancji (ANOVA). Gdy prawdziwa jest hipoteza niepowiązanych (rozdział 21), dostosowanego do wielokrot­
zerowa, że średnie grupowe są takie same, wariancja mię­ nego testowania hipotez (rozdział 18). Możemy też obliczyć
dzygrupowa będzie zbliżona do wariancji wewnątrzgrupo­ przedział ufności dla średniej w każdej indywidualnej gru­
wej. Jeżeli jednak istnieją różnice między grupami, wtedy pie (rozdział 11). Należy zauważyć, że gdy obliczamy prze­
wariancja międzygrupowa będzie większa niż wariancja działy ufności lub przeprowadzamy test t, używamy wspól­
wewnątrzgrupowa. Test oparty jest na stosunku tych dwóch nego oszacowania wariancji ze wszystkich grup. Więk­
wariancji. szość pakietów statystycznych określa ten estymator wa­
riancji jako wariancję resztową lub resztowy kwadrat
Notacja średniej. Znajduje się ona w tablicy ANOVA.
Mamy k niezależnych prób, każda jest otrzymana z innej
grupy. Liczebności prób, średnie i odchylenia standardowe
w każdej grupie wynoszą odpowiednio oraz (i=l, Chociaż testy te wydają się różne, test t dla zmiennych
2 k). Całkowita liczebność próby wynosi niepowiązanych i ANOVA dają równoważne wyniki, gdy ma­
my tylko dwie grupy osobników.

22. Dane numeryczne: więcej niż dwie grupy 57


Jeżeli założenia nie są spełnione
1.Definiujemy hipotezę zerową i alternatywną.
Jakkolwiek ANOVA jest stosunkowo odporna (rozdział 35)
Każda grupa ma taki sam rozkład wartości w po­
na umiarkowane odstępstwa od normalności, nie jest ona
pulacji.
odporna na nierówne wariancje. Dlatego przed przeprowa­
Nie każda grupa ma taki sam rozkład wartości
dzeniem analizy badamy normalność rozkładu i sprawdza­
w populacji.
my, czy wariancje w grupach są podobne: albo dokonując
oceny wzrokowej, albo używając testu Levene'a lub testu 2. Zbieramy odpowiednie dane z prób osobników.
Bartletta (rozdział 35). Jeżeli założenia nie są spełnione, 3. Obliczamy wartość statystyki testowej właściwej
możemy albo transformować dane (rozdział 9), albo użyć te­ dla H0.
stu nieparametrycznego Kruskala-Wallisa, który jest rów­ Rangujemy wszystkie n wartości i obliczamy sumę
noważny jednoczynnikowej ANOVA. rang w każdej z grup: są to sumy /? 1( ..., Rk. Statyatyka
testowa (która musi zostać zmodyfikowana, jeżeli mamy
wiele wartości wiązanych1) ma postać:
TEST KRUSKAIA-WALLISA
Uzasadnienie
Ten nieparametryczny test jest rozszerzeniem testu sumy
i podlega rozkładowi Chi-kwadrat z (A:- 1) df.
rang Wilconona (rozdział 21). Jeżeli prawdziwa jest hipote­
4. Porównujemy wartość statystyki testowej z warto­
za zerowa o braku różnic w rozkładach między grupami, su­
ściami znanego rozkładu prawdopodobieństwa.
my rang w każdej z k grup powinny być porównywalne po
Porównujemy wartościami w Dodatku A3.
uwzględnieniu każdej różnicy w wielkości prób.
5. Interpretujemy wartość p i wyniki.
Interpretujemy wartość p i jeżeli jest ona istotna, wy­
konujemy testy nieparametryczne dla dwóch prób, do­
stosowując je do wielokrotnych porównań. Obliczamy
przedział ufności dla mediany w każdej grupie.

1
Siegel S., Castellan N. J.: Nonparametric Statisticsfor rfte Be-
hcwioral Sciences. McGraw-Hill, Nowy Jork 1988.

Gdy grupy odnoszą się do jednego czynnika i są nieza­


leżne, używamy jednoczynnikowej ANOVA lub jej odpowied­
nika nieparametrycznego. Jeżeli projekt badania jest bar­
dziej złożony, możemy użyć innych modeli ANOVAz.

2
Mickey R. M., Dunn O. J., Clark V. A.: Applied Statisttcs: Analy-
sis of Varian.ce and Regression, Wiley, Chichester 2004.

PRZYKŁAD 1
150 kobiet o różnym pochodzeniu etnicznym zostało włą­ czynnikową ANOVA. Uzasadnione było przyjęcie założe­
czonych do badania przekrojowego na temat czynników nia o normalności rozkładu i równości wariancji, co poka­
związanych z krzepnięciem krwi. Porównałyśmy średnie zuje wydruk komputerowy (Dodatek C).
poziomy płytek krwi w czterech grupach, stosując jedno-

1. HQ. Nie ma różnic pomiędzy średnimi poziomami pły­ 2. Poniższa tabela zawiera dane z każdej grupy.
tek w czterech grupach w populacji.
Hx\ Co najmniej jedna średnia grupowa poziomu pły­
tek różni się od pozostałych w populacji.

Grupa Wielkość Średnia Odchylenie 95% przedział ufności dla średniej (użyto
próby frlO9) standardowe wspólnego oszacowania odchylenia stan­
n(%) X (x 109), s dardowego — patrz pkt 3)
Kaukaska 90 (60,0) 268,1 77,08 252,7 do 283,5
Afrykańsko-karaibska 21 (14,0) 254,3 67,50 220,9 do 287,7
Śród zi emnomorska 19 (12,7) 281,1 71,09 245,7 do 316,5
Inna 20(13,3) 273,3 63,42 238,9 do 307,7

58 Podstawowe techniki analizy danych


3. Poniższa tabela ANOVA jest fragmentem wydruku komputerowego.

Źródło Suma kwadratów df Kwadrat średnich Stosunek F Wartość p


Pomiędzy grupami etnicznymi 7711,967 3 2570,656 0,477 0,6990
W obrębie grup etnicznych 787289,533 146 5392,394

Połączone odchylenie standardowe = \/5392,394 x 109 = 73,43 x 109.

4. Tablica ANOVA daje w wyniku p = 0,70. W celu wy­ 5. Nie ma wystarczającego dowodu do odrzucenia hipo­
znaczenia wartości p możemy porównać Fz wartościami tezy zerowej, że średnie poziomy w czterech grupach
w Dodatku A5 z (3, 146) stopniami swobody. w populacji są takie same.

Dane uzyskane dzięki uprzejmości dr R. A. Kadir, University Department of Obstetrics and Gynaecology i prof. C. A. Lee, Hacmophilia
Centrę and Haemostasis Unit, Royal Free Hospital, Londyn, Wielka Brytania.

PRZYKŁAD 2
W trzech grupach osobników, z ciężką hemofilią, z lek­
ką/umiarkowaną hemofilią oraz w grupie kontrolnej zdro­
wych zmierzono przy użyciu kwestionariusza SF-36 jakość
życia. Każda grapa składała się z próby 20 osobników.
W trzech grupach porównano punktacje wyrażone za po­
mocą Skali Fizycznego Funkcjonowania (PFS — physical
functbning scalę), które mogą przyjmować wartości od 0
do 100. Ocena wzrokowa ryciny 22.1 pozwala stwierdzić,
że dane nie mają rozkładu normalnego, więc wykonujemy
test Kruskala-Wallisa.

Rycina 22.1. Wykres punktowy przedstawiający punktację fizycz­


nego funkcjonowania (z kwestionariusza SF-36) osobników z cięż­
ką i lekką/umiarkowaną hemofilią oraz grupy kontrolnej osób
zdrowych. Linie poziome przedstawiają mediany.

1. Każda grupa w populacji ma taki sam rozkład 4. Porównujemy wartościami w Dodatku A3: p < 0,001.
punktacji PFS. 5. Nie ma dowodu pozwalającego odrzucić hipotezę ze­
Co najmniej jedna z grup w populacji ma rozkład rową, że rozkłady punktacji PFS są takie same w trzech
inny niż pozostałe grupy w populacji. grupach. Przeprowadzono porównania parami przy uży­
2. Dane przedstawiono na rycinie 22.1. ciu testu sumy rang Wilcoxona, z poprawką Bonferro-
3. Suma rang w grupie ciężkiej hemofilii = 372. niego dopasowującą wartości p, z uwagi na wielokrotne
Suma rang w grupie lekkiej/umiarkowanej hemofilii porównania (rozdział 18). Zarówno osobnicy z ciężką,
= 599. jak i lekką/umiarkowaną hemofilią mieli istotnie niższą
Suma rang w grupie kontrolnej zdrowych = 859. punktację PFS niż w grupie kontrolnej (odpowiednio
p = 0,0003 i p = 0,03), lecz rozkłady punktacji w gru­
pach hemofilii nie różniły się istotnie od pozostałych
(p = 0,09).

Dane uzyskane dzięki uprzejmości: dr A. Miners, Department of Primary Care and Population Sciences, Royal Free and University Col­
lege Medical School, Londyn, Wielka Brytania i dr C. Jenkinson, Health Services Research Unit, Universiiy of Oxford, Oxford, Wielka
Brytania.

22. Dane numeryczne: więcej niż dwie grupy 59


23 DANE KATEGORIALNE:
POJEDYNCZA PROPORCJA

PROBLEM
3. Obliczamy wartość statystyki testowej właściwej
Mamy jedną próbę n osobników; każdy z osobników albo po­ dla
siada cechę podlegającą badaniu (np. jest mężczyzną, jest
w ciąży, umarł), albo nie posiada takiej cechy (np. jest kobie­
tą, nie jest w ciąży, nadal żyje). Dane te można w efektywny
sposób podsumować przez obliczenie proporcji osobników
z tą cechą. Chcielibyśmy się dowiedzieć, czy prawdziwa pro­ Podlega ona rozkładowi normalnemu.
porcja w badanej populacji przyjmuje szczególną wielkość. Wartość l/2n w liczniku jest poprawką ze względu na
ciągłość: dodaje się ją, gdyż aproksymujemy dyskretny
TEST DLA POJEDYNCZEJ PROPORCJI rozkład dwumianowy ciągłym rozkładem normalnym.
4. Porównujemy wartość statystyki testowej do warto­
Założenia ści znanego rozkładu prawdopodobieństwa.
Nasza próba osobników została wybrana z populacji podle­ Porównujemy ^z wartością w Dodatku Al.
gającej badaniu. Każdy osobnik posiada określoną cechę lub 5. Interpretujemy wartość p oraz wyniki.
jej nie posiada. Interpretujemy wartość p i obliczamy przedział ufno­
ści dla prawdziwej proporcji w populacji n. 95% prze­
Notacja dział ufności dla n ma postać:
W naszej próbie o liczebności n cechę tę posiada r osobników.
Oszacowana proporcja osobników z cechą wynosi p = r/n.
Proporcja osobników z cechą w populacji wynosi JI. Chcemy
sprawdzić, czy n przyjmuje szczególną wartość jiy Możemy użyć tego przedziału ufności do oceny klinicz­
nego lub biologicznego znaczenia wyników. Szeroki prze­
Uzasadnienie dział ufności wskazuje, że nasz estymator jest mało do­
Liczba osobników z cechą podlega rozkładowi dwumianowe­ kładny.
mu (rozdział 8), lecz może być przybliżana rozkładem nor­
malnym, przy założeniu, że każda z wartości np oraz n(l - p)
jest większa niż 5. Wtedy p ma w przybliżeniu rozkład nor­
TEST ZNAKÓW W ZASTOSOWANIU
malny z oszacowaną średnią = p i oszacowanym odchyleniem
DO PROPORCJI
standardowym: Uzasadnienie
Dlatego nasza statystyka testowa oparta na p również Testu znaków (rozdział 19) można użyć, gdy badana odpo­
podlega rozkładowi normalnemu. wiedź może być wyrażona jako preferencja (np. w badaniu
naprzemiennym pacjenci mogą preferować leczenie A lub le­
czenie B). Jeżeli ogólnie brak jest preferencji, wtedy może­
my spodziewać się proporcji, np. preferencji A równej 1/2.
1.Definiujemy hipotezę zerową i alternatywną.
Testu znaków używamy w celu sprawdzenia, czy jest tak
Proporcja populacyjna n jest równa pewnej szcze­
w rzeczywistości.
gólnej wartości %v
Proporcja populacyjna n nie równa się nx. Chociaż takie sformułowanie problemu i statystyka testo­
2. Zbieramy odpowiednie dane z próby osobników. wa wydają się różnić od tych z rozdziału 19, przy obu podej­
ściach do testu znaków otrzymujemy takie same wyniki.

60 Podstawowe Techniki analizy danych


1.Definiujemy hipotezę zerową i alternatywną. gdzie z' podlega rozkładowi normalnemu. Należy zauwa­
Proporcja n preferencji A w populacji jest równa 1/2. żyć, że ten wzór oparty jest na statystyce z, użytej w po­
Proporcja preferencji A w populacji nie jest równa 1/2. przedniej ramce do testowania hipotezy zerowej, że pro­
2. Zbieramy odpowiednie dane z próby osobników. porcja populacyjna równa się jrx, z tym że zastąpiliśmy tu
3. Obliczamy wartość statystyki testowej właściwej dla n przez ri oraz nx przez 1/2.
Pomijamy każdego osobnika, który nie ma preferencji, 4. Porównujemy wartość statystyki testowej z warto­
i zmniejszamy w ten sposób wielkość próby z n do ń. Dla­ ściami ze znanego rozkładu prawdopodobieństwa.
tego p - r/n', gdzie r jest liczbą preferencji A. • Jeżeli ri ^ 10, porównujemy r z wartościami w Dodat­
• Jeżeli «'=£ 10, należy obliczyć r, liczbę preferencji dla A. ku A6.
• Jeżeli ń > 10, należy obliczyć statystykę testową: • Jeżeli ri > 10, porównujemy ź z wartościami w Dodat­
ku Al.
5. Interpretujemy wartość p i wyniki.
Interpretujemy wartość p i obliczamy przedział ufności
dla proporcji preferencji A w całej próbie o liczebności n.

PRZYKŁAD 1
Ludzki wirus opryszczki 8 (HHV-8) został powiązany z mię- w grupie 271 homo/biseksualnych mężczyzn leczących się
sakiem Kaposiego, pierwotnie naciekającym chtoniakiem, w londyńskiej klinice chorób przenoszonych drogą płciową.
oraz pewnymi typami choroby wieloogniskowego guza Ca- W populacji dawców krwi w Wielkiej Brytanii częstość wy­
stlemana. Zasugerowano, że HHV-8 może być przenoszony stępowania seropozytywności HHV-8 wynosi 2,7%. Naj­
drogą płciową. W celu sprawdzenia istnienia związku mię­ pierw częstość występowania seropozytywności z bieżące­
dzy zachowaniami seksualnymi i infekcją HHV-8 została go badania została porównana z 2,7% przy wykorzystaniu
wyznaczona częstość występowania przeciwciał HHV-8 testu dla pojedynczej proporcji.

1. Częstość występowania seropozytywności HHV-8 4. Porównujemy z z wartościami w Dodatku Al:


w populacji homo/biseksualnych mężczyzn wynosi 2,7%. p < 0,0001.
Częstość występowania seropozytywności HHV-8 5. Istnieje dowód na to, że częstość występowania sero­
w populacji homo/biseksualnych mężczyzn nie jest rów­ pozytywności HHV-8 u homo/biseksualnych mężczyzn le­
na 2,7%. czących się w londyńskiej klinice chorób przenoszonych
2. Liczebność próby n = 271; liczba osobników seropozy- drogą płciową jest wyższa niż w populacji dawców krwi.
tywnych do HHV-8: r = 50 95% przedział ufności dla częstości występowania seropo­
Częstość występowania seropozytywności p= 50/271 zytywności HHV-8 w populacji mężczyzn homo/biseksu­
= 0,185 (tj. 18,5%). alnych wynosi od 13,9% do 23,1%, wyznacza się go jako
3. Statystyka wynosi

Dane otrzymane dzięki uprzejmości: dr N. A. Smith, D. Barlow i B. S. Peters, Department of Genitourinary Medicinc, Guy's and St Tho­
mas' NIIS Trust, Londyn i dr J. Best, Department of Virology, Guy's, Kings College and St Thomass School of Medicinc, King's College,
Londyn, Wielka Brytania.

23. Dane kategorialne: pojedyncza proporcja 61


PRZYKŁAD 2
W podwójnie ślepym badaniu naprzemiennym 36 doro­ konywane codziennie przez określony czas. Pacjenci byli
słych 7 całorocznym alergicznym nieżytem nosa było leczo­ pytani, czy wolą aktywny lek, czy też placebo. W celu zba­
nych zastrzykami podskórnymi lub inhalacją alergenów, dania, czy proporcje osób preferujących oba preparaty są
allM) placebo, przy czym w obu grapach zastrzyki byty wy­ takie same, wykonano test znaków.

1. Proporcja w populacji preferujących aktywny pre­ 4. Porównujemy ^z wartościami w Dodatku Al:


parat równa się 0,5. p = 0,001.
Proporcja w populacji preferujących aktywny pre­ 5. Istnieje dowód pozwalający na odrzucenie hipotezy
parat nie jest równa 0,5. zerowej, że dwa preparaty są jednakowo preferowane
2. Spośród 3fi dorosłych 27 wyrażało jakąś preferencję; w populacji. 95% przedział ufności dla prawdziwej pro­
21 preferowało preparat aklywny. Spośród osób mają­ porcji wynosi od 0,62 do 0,94 i jest obliczony jako
cych jakąś preferencję proporcja preferujących preparat
aktywny wynosi p = 21/27 = 0,778.
3. Statystyka testowa

Możemy więc uznać, że niemal dwie trzecie osobni­


ków w populacji preferuje preparat aktywny.

Dane adnpiowane z pracy; Kadcliffe M. J., Lampe F. C, Brostoff J.: AUergen-specjfw low-dose immunotherapy in perermial alleryh; rfuitt
(tó; a doublellind placobocontrulled crosuwer stiidy. Journal of hwestigational Allergology and Clinical lumiuiiology, 1996, 6, 242-247.

62 Podstawowe techniki analizy danych


24 DANE KATEGORIALNE: DWIE PROPORCJE

PROBLEMY
1. Definiujemy hipotezę zerową i alternatywną.
• Mamy dwie niezależne grupy osobników (np. homosek­ H0: Proporcje osobników z pewną cechą są równe
sualnych mężczyzn, którzy chorowali bądź nie na rzeżączkę). w obu grupach w populacji.
Chcielibyśmy się dowiedzieć, czy proporcje osobników z pew­ Te proporcje w obu grupach w populacji nie są
ną cechą (np. zainfekowanych ludzkim wirusem opryszczki równe.
HHV-8) są takie same w obu grupach. 2. Zbieramy odpowiednie dane z prób osobników.
• Mamy dwie grupy powiązane, tzn. osobnicy mogą być 3. Obliczamy wartość statystyki testowej odpowied­
sparowani lub dwukrotnie poddawani badaniu w różnych niej dla Hą
sytuacjach (np. przed leczeniem i po nim). Chcielibyśmy się
dowiedzieć, czy proporcje osobników z daną cechą (np.
wzrost wyników w teście) są takie same w obu grupach.

GRUPY NIEPOWIĄZANE: TEST CHI-KWADRAT gdzie Oi Esą odpowiednio częstościami obserwowanymi


Terminologia i oczekiwanymi, w każdej z czterech komórek w tablicy.
Uzyskane dane miały .postać częstości, tj. liczby obiektów Pionowe linie wokół O- Ewskazują, że pomijamy znak tej
w każdej próbie posiadających cechę lub jej nieposiadają- różnicy. Wartość 1/2 w liczniku jest poprawką ze wzglę­
cych. Tablica, w której dane wejściowe są częstościami, na­ du na ciągłość (rozdział 19). Statystyka testowa podlega
zywana jest tablicą kontyngencji; jeżeli taka tablica ma rozkładowi Chi-kwadrat z jednym stopniem swobody.
dwa wiersze i dwie kolumny, nazywa się tablicą 2 x 2 . Ta­ 4. Porównujemy wartość statystyki testowej z warto­
blica 24.1 pokazuje częstości obserwowane w czterech ko­ ścią znanego rozkładu prawdopodobieństwa.
mórkach odpowiadających każdej kombinacji wiersz/ko­ Porównujemy %2 z wartościami w Dodatku A3.
lumna, cztery sumy brzegowe (częstości w określonym 5. Interpretujemy wartość p i wyniki.
wierszu lub kolumnie, np. a + b) oraz sumę całkowitą n. Interpretujemy wartość p i obliczamy przedział ufno­
Możemy obliczyć (patrz: uzasadnienie) częstości, których ści dla różnicy proporcji w prawdziwej populacji. 95%
moglibyśmy się spodziewać w każdej z czterech komórek, przedział ufności jest dany jako:
gdyby H0 byta prawdziwa (częstości oczekiwane).

Założenia
Mamy próby o liczebnościach nt oraz n^, które pochodzą
z dwóch niezależnych grup osobników. Chcielibyśmy się do­
wiedzieć, czy proporcje osobników posiadających pewną cechę Jeżeli założenia nie są spełnione
są takie same w obu grupach. Każdy osobnik jest reprezento­
Jeżeli w jakiejkolwiek z komórek E < 5, do obliczenia war­
wany w badaniu tylko raz. Wiersze (i kolumny) w tablicy wza­
tości p używamy dokładnego testu Fishera, który nie opie­
jemnie się wykluczają, więc każdy osobnik może należeć tyl­
ra się na przybliżeniu do rozkładu Chi-kwadrat. Obliczenia
ko do jednego wiersza i tylko do jednej kolumny. Zwyczajowe,
choć konserwatywne podejście wymaga, aby wartość oczeki­ te bez pomocy komputera są żmudne, więc najlepiej wyko­
wana w każdej z czterech komórek wynosiła co najmniej pięć. nać je przy użyciu programu komputerowego.

Uzasadnienie
GRUPY POWIĄZANE: TEST McNEMARA
Jeżeli proporcje osób z cechą w obu grupach są równe, mo­
żemy oszacować całkowitą proporcję osobników z cechą za Założenia
pomocą p = (a + b)/n; spodziewamy się, że nx x p z nich Dwie grupy są powiązane lub zależne, np. każdy osobnik
znajdzie się w grupie 1, a ^ x p w grupie 2. Podobnie wy­ może być badany w dwóch różnych okolicznościach. Każdy
znaczamy liczby oczekiwane osób bez cechy. Dlatego każda osobnik zostaje sklasyfikowany zgodnie z tym, czy cecha
wartość oczekiwana jest iloczynem odpowiadających sobie występuje w obu okolicznościach, tylko w jednej okoliczno­
sum brzegowych, podzielonych przez sumę całkowitą. Duża ści, czy też w żadnej (tablica 24.2).
rozbieżność pomiędzy częstościami obserwowanymi (O)
a odpowiadającymi im częstościami oczekiwanymi (E)
wskazuje na to, że proporcje w dwóch grupach się różnią.
Statystyka testowa opiera się na tej rozbieżności.
Tablica 24.2. Częstości obserwowane w parach, w których cecha
jest obecna lub nieobecna.
Tablica 24.1. Częstości obserwowane.
Cecha Grupa 1 Grupa 2 Suma Okoliczność 1
Obecna Nieobecna Całkowita liczba par
Obecna a b a+ b
Nieobecna c d c+ d Okoliczność 2
Suma rcj = a+c n2=b+d n= a+ b+ c+ d Obecna w x w+x
Proporcja _ a_ n = — D= a+ ^ Nieobecna y z y+z
z cechą ^1 n, 2
"2 n Razem w+y x+ z m= w + x + y + z

24. Dane kategorialne: dwie proporcje 63


Uzasadnienie nania proporcji osób z występującą cechą pomijamy tych
Obserwowane proporcje osób z cechą występującą w obu osobników, którzy w obu okolicznościach mają zgodne wy­
okolicznościach wynoszą (w + y)/m oraz (w + x)/m Różnią niki, i koncentrujemy się na niezgodnych parach x i y.
się tylko wtedy, gdy różnią się x i y. Dlatego w celu porów­

1. Definiujemy hipotezę zerową i alternatywną. 4. Porównujemy wartość statystyki testowej z warto­


Proporcje osób z cechą są równe w obu grupach ściami ze znanego rozkładu prawdopodobieństwa.
w populacji. 2
Porównujemy x z wartościami w Dodatku A3.
Proporcje te w obu grupach w populacji nie są równe. 5. Interpretujemy wartość p i wyniki.
2. Zbieramy odpowiednie dane z dwóch prób. Interpretujemy wartość p i obliczamy przedział ufności
3. Obliczamy wartość statystyki testowej właściwej dla HQ dla różnicy między prawdziwymi proporcjami w populacji.
Przybliżony 95% przedział ufności wynosi:

która podlega rozkładowi Chi-kwadrat z 1 stopniem swo­


body. Wartość 1 w liczniku jest poprawką ze względu na
ciągłość (rozdział 19).

PRZYKŁAD 1

W celu stwierdzenia związku między czynnikami ryzyka nych z przebytą rzeżączką i u tych, którzy nie mieli rze-
seksualnego i zakażeniem HHV-8 (badanie opisane w roz­ żączki. Porównania dokonano za pomocą testu Chi-kwa­
działo 23) porównano częstość występowania seropozytyw­ drat. Typowy wynik komputerowy przedstawiony jest
ności do IIIIV-8 w grupie mężczyzn homo/heteroseksual­ w Dodatku C.

1. Częstość występowania seropozytywności HHV-8 Statystyka testowa wynosi:


w popvlacji jest taka sama u mężczyzn, którzy mieli rze-

żączkę, i u tych, którzy jej nie mieli.


Częstość występowania seropozytywności nic jest
taka sama w obu grupach w populacji.
2. Częstości obserwowane są podane w poniższej tablicy
komyngencji: odpowiednio 14/43 (32,6%) oraz 36/228
(15,8%) mężczyzn, którzy przebyli rzeżączkę bądź jej nie 4. Porównujemy #2 z wartościami w Dodatku A3 z 1 stop
przebyli, jem seropozyiywnych dla HHV-8. niern swobody: 0,01 < p <0,05 (Wynik komputerowy wy­
3. Wartości oczekiwane podane w czterech komórkach nosi p = 0,017).
tablicy kontyngencji. 5. Istnieje dowód na rzeczywistą różnicę w częstości wy­
stępowania seropozytywności w dwóch grupach w popu­
lacji. Oszacowujemy tę różnicę jako 32,6% - 15,8% = 16,8%.
95% CI dla prawdziwej różnicy między dwoma częstościa­
mi wynosi od 2,0% do 31,6%,
tj. 16,8 ± 1,96 x V<{32,6 x 67,4}/43 + {15,8 x 84,2}/228).

Przebyta rzeżączką

Tak Nie
Suma
HHV-8 Obserwowane Oczekiwane Obserwowane Oczekiwane obserwowanych

Seropozylywne 14 (43x50/271) 36 (228 x 50/271) 50


= 7,93 = 42,07
Seroncgatywne 29 (43x221/271) 192 (228x221/271) 221
= 35,07 = 185,93
Razem 43 228 271

64 Podstawowe techniki analizy danych


PRZYKŁAD 2
W celu porównania dwóch metod określania stopnia ubyt­ ubytku. Wyniki te porównano z wynikami uzyskanymi
ków w zębach (obecne lub nieobecne), stosując metody ra­ przy zastosowaniu bardziej obiektywnej oceny przekroju
diograficzne, stomatolog określił stan pierwszych stu sta­ każdego zęba. Odsetki zębów, w których stwierdzono ubyt­
rych zębów trzonowych, które miały mały ubytek lub brak ki przy użyciu obu metod, porównano testem McNemara.

ł. Dwie metody oceny wskazują na taki sam procent


zębów z ubytkami w populacji. 3. Statystyka testowa, = 6,86.
Rozważane odsetki nie są równe.
2. Częstości dla powiązanych par podane są w tabeli: 4. Porównujemy z wartościami w Dodatku A3 z 1 stop­
niem swobody: 0,001 < p < 0,01 (wynik komputerowy
wynosi p = 0,009).
5. Istnieje dowód pozwalający na odrzucenie hipotezy ze­
rowej, że obie metody oceny pozwoliły wykryć taki sam
procent zębów z ubytkami. Metoda radiograficzna bywa
Brak ubytków 45 4 49
zawodna w wykrywaniu ubytków. Oszacowujemy różnicę
Wysiępuji} ubytki 17 34 51
w odsetkach zębów określonych jako posiadające ubyt­
Razem 62 38 100 ki na 51% - 38% = 13%. Przybliżony przedział ufności dla
prawdziwej różnicy w odsetkach wynosi od 4,496 do 21,696

Adaptowane z pracy: Ketley C. E., Holt R. D.: Visual and radiographic diagnosis ofocclusal caries in first permanent molars and in se-
condprimary molars. British Dental Journal, 1993, 174, 364-370.

24. Dane kategorialne: dwie proporcje 65


25 DANE KATEGORIALNE:
WIĘCEJ NIŻ DWIE KATEGORIE
TEST CHI-KWADRAT: Jeżeli założenia nie są spełnione
DUŻE TABLICE KONTYNGENCJI Jeżeli więcej niż 20% wartości oczekiwanych jest mniej­
Problem szych niż 5, możemy spróbować scalić w tablicy kontyngen­
cji odpowiednio (tzn. tak, by miało to naukowy sens) dwa
Można sklasyfikować osobników przy użyciu dwóch czynni­
lub więcej wierszy i/lub dwie lub więcej kolumn. Następ­
ków. Na przykład, jeden czynnik może być stanem nasilenia
choroby (łagodna, umiarkowana lub ciężka), a drugi — gru­ nie przeliczamy ponownie częstości oczekiwane w zmniej­
pą krwi (A, B, 0, AB). Interesuje nas, czy te dwa czynniki szonej tablicy i tak długo kontynuujemy zmniejszanie tabli­
są ze sobą powiązane. Czy jest bardziej prawdopodobne, że cy, aż upewnimy się, że warunek E 5 5 został spełniony.
osobnicy o określonej grupie krwi są ciężej chorzy? Jeżeli zmniejszyliśmy naszą tablicę do tablicy 2 x 2 tak, że
nie można dokonywać dalszej redukcji, a nadal mamy małe
Założenia wartości oczekiwane, to do wyznaczenia wartości p użyje­
Dane można przedstawić w postaci tablicy kontyngencji my dokładnego testu Fishera (rozdział 24). Niektóre pakiety
r*x c mającej r wierszy i c kolumn (tablica 25.1). Dane te są komputerowe liczą wartości p dokładnego testu Fishera
częstościami; każda komórka zawiera liczbę osobników, również dla większych tablic kontyngencji.
w określonym wierszu i określonej kolumnie. Każdy osob­
nik występuje tylko raz i może należeć tylko do jednego
wiersza i jednej kolumny, tj. kategorie poszczególnych czyn­
TEST CHI-KWADRAT DLA TRENDU
ników wzajemnie się wykluczają. Co najmniej 80% wartości Problem
oczekiwanych jest większych lub równych 5. Czasami badamy związek danych kategorialnych, gdy jeden
z dwóch czynników posiada tylko dwie kategorie (np. obec­
Uzasadnienie ność lub nieobecność cechy), a drugi czynnik może być zali­
Hipoteza zerowa zakłada brak związku między dwoma czyn­ czony do jednej z na przykład k wzajemnie wykluczających
nikami. Zauważmy, że jeżeli mamy tylko dwa wiersze i dwie się kategorii, które w jakiś sposób są uporządkowane. Na
kolumny, wtedy test braku związku jest taki sam jak test przykład, jeden czynnik może opisywać, czy osobnik reagu­
dwóch proporcji (rozdział 24). Obliczamy częstości, jakich je, czy też nie na leczenie, a uporządkowane kategorie inne­
spodziewamy się w każdej komórce tablicy, jeżeli hipoteza go czynnika mogą reprezentować cztery różne kategorie
zerowa jest prawdziwa. Jak wyjaśniono w rozdziale 24, czę­ wiekowe (w latach): 65-69, 70-74, 75-79 oraz ^ 80. Mo­
stość oczekiwana w określonej komórce jest iloczynem sumy
żemy określić, czy istnieje trend w proporcjach z występu­
brzegowej wierszowej i odpowiadającej jej sumy brzegowej
jącą cechą w zależności od kategorii drugiego czynnika. Na
kolumnowej, podzielonym przez sumę całkowitą. Obliczamy
przykład, możemy chcieć się dowiedzieć, czy proporcje re­
statystykę testową, która pozwala ocenić rozbieżności mię­
akcji na leczenie mają (na przykład) tendencję wzrostową
dzy częstościami obserwowanymi i oczekiwanymi w każdej
wraz ze wzrostem wieku.
komórce tablicy. Jeżeli całkowita rozbieżność jest duża, to
mało prawdopodobne, że hipoteza zerowa jest prawdziwa.

Tablica 25.1. Częstości obserwowane w tablicy rx c.


1.Definiujemy hipotezę zerową i alternatywną.
Nie istnieje związek między jednym i drugim
czynnikiem w populacji.
Istnieje związek między jednym i drugim czynni­
kiem w populacji.
2. Zbieramy odpowiednie dane z próby osobników.
3. Obliczamy wartość statystyki testowej właściwej dla H$

gdzie O i E są częstościami obserwowanymi i oczekiwany­


mi w każdej komórce tablicy. Statystyka testowa podlega
rozkładowi Chi-kwadrat z liczbą stopni swobody równą
(r-l)x(c-l). Tablica 25.2. Częstości obserwowane i przypisane punkty w tablicy
Ponieważ przybliżenie do rozkładu Chi-kwadrat jest 2x/c.
sensowne, gdy liczba stopni swobody jest większa niż je­
den, nie włączamy poprawki na ciągłość (jak to robiliśmy
w rozdziale 24).
4. Porównujemy wartość statystyki testowej z warto­
ściami ze znanego rozkładu prawdopodobieństwa.
Porównujemy x2 z wartościami w Dodatku A3.
5. Interpretujemy wartość p i wyniki.

66 Podstawowe techniki analizy danych


1.Definiujemy hipotezę zerową i alternatywną. 3. Obliczamy wartość statystyki testowej właściwej dla HQ.
W populacji nie istnieje trend w proporcjach z okre­
śloną charakterystyką.
W populacji istnieje trend w proporcjach.
2. Zbieramy odpowiednie dane z próby osobników.
Oszacowujemy proporcje z określoną charakterystyką
w każdej z k kategorii. Każdej kolumnie kategorii przypo­ Stosujemy notację z tablicy 25.2, gdzie sumy przekra­
rządkowujemy punktację (tablica 25.2). Zazwyczaj przypo­ czają każdą z k kategorii. Statystyka testowa podlega roz­
rządkowujemy kolejne wartości 1, 2, 3,..., k, ale zależnie kładowi Chi-kwadrat z 1 stopniem swobody.
od tego, w jaki sposób klasyfikowaliśmy czynnik kolumno­ 4. Porównujemy wartość statystyki testowej z warto­
wy, mogą to być liczby, które w jakiś sposób sugerują ściami znanego rozkładu prawdopodobieństwa.
względne wartości uporządkowanych kategorii (np. środki Porównujemy %2 z wartościami w Dodatku A3.
przedziałów grup wiekowych określających każdą katego­ 5. Interpretujemy wartość p i wyniki.
rię), lub trend, który chcemy zbadać (np. liniowy lub kwa­ Interpretujemy wartość p i obliczamy przedziały ufno­
dratowy). Użycie dowolnych liczb znajdujących się od sie­ ści dla każdej z k proporcji (rozdział 11).
bie w równych odległościach (np. 1, 2, 3, ..., k) pozwala na
zbadanie trendu liniowego.

PRZYKŁAD
Przeprowadzono badanie przekrojowe w populacji star­ w cztery grupy wiekowe (65-69, 70-74, 75-79 i 80+ lat).
szych osób mieszkających w Southampton, które miało na Użyłyśmy testu Chi-kwadrat w celu stwierdzenia, czy
celu zmierzenie częstości występowania chorób układu częstość występowania bólów w klatce piersiowej różni
krążenia. Przebadano łącznie 259 osobników, w wieku od się w czterech grupach wiekowych.
65 do 95 lat. W czasie badania osobników pogrupowano

1. Istnieje brak związku między wiekiem i bólem 4. Porównujemy %2 z wartościami w Dodatku A3 z 3 stop­
w klatce piersiowej w populacji. niami swobody: p > 0,10 (wynik komputerowy wynosi
Istnieje związek między wiekiem i bólem w klat­ p = 0,18).
ce piersiowej w populacji. 5. Brak jest dowodu pozwalającego odrzucić hipotezę ze­
2. Częstości obserwowane (%) oraz częstości oczekiwane rową o braku związku pomiędzy bólem w klatce piersio­
są przedstawione w poniższej tablicy. wej i wiekiem w populacji starszych osób. Estymowane
3. Statystyka testowa proporcje osób (95% przedziały ufności) z bólem w klatce
piersiowej w czterech kolejnych grupach wiekowych, po­
czynając od najmłodszych, wynoszą: 0,20 (0,11, 0,29),
0,12 (0,04, 0,19), 0,10 (0,02, 0,17) oraz 0,09 (0,02, 0,21).

Wiek (lata)
Ból w klatce piersiowej 65-69 70-74 75-79 80+ Razem

Tak
Wartości obserwowane 15 (20,3%) 9(11,5%) 6 (9,7%) 4 (8,9%) 34
Wartości oczekiwane 9.7 10,2 8,1 5,9
Nie
Wartości obserwowane 59 (79,7%) 69 (88,5%) 56 (90,3%) 41 (91,1%) 225
Wartości oczekiwane 64,3 67,8 53,9 39,1
Razem 74 78 62 45 259

25. Dane kategorialne: więcej niż dwie kategorie 67


Ponieważ cztery grupy wiekowe w tym badaniu są upo­ ne. Przyporządkowujemy punktację 1, 2, 3 oraz 4 odpo­
rządkowane, do analizy tych danych można również użyć wiednio do każdej z czterech grup wiekowych. Ponieważ są
testu Chi-kwadrat dla trendu, który bierze pod uwagę upo­ od siebie równomiernie oddalone, możemy testować trend
rządkowanie gnip. W teście tym możemy otrzymać istotne liniowy.
wyniki, mimo że ogólny test związku dawał wyniki nieistot­

1. HQ: Nie istnieje związek liniowy między wiekiem i bó­ 4. Porównujemy z wartościami w Dodatku A3 z 1 stop­
lem w klatce piersiowej w populacji. niem swobody: 0,05 < p < 0,10 (wynik komputerowy wy­
Hx: Istnieje związek liniowy między wiekiem i bólem nosi p = 0,052).
w klatce piersiowej w populacji. 5. Nie ma dowodu wystarczającego do odrzucenia hipo­
2. Dane zostały pokazane w poprzedniej tablicy. Przypo­ tezy zerowej o braku liniowego związku między bólem
rządkowujemy punktację 1, 2,3 i 4 odpowiednio do czte­ w klatce piersiowej a wiekiem w populacji starszych
rech grup wiekowych. osób. Jednakże wartość p jest bardzo bliska 0,05, co su­
3. Statystyką testową jest Chi-kwadrat. geruje, że proporcja starszych osób z bólem w klatce
piersiowej maleje wraz ze wzrostem wieku.

Adaptowane z pracy: Ucwhurst Ci., Wooil D. A., Walkfir F., i in.: A population survey of cardkwascular disease in elderly people: design,
methods and provaler>re resuli.s. Agp and Agninj!. 1991, 20, 353-360.

68 Podstawowa techniki analizy danych


26 KORELACJA

WSTĘP
Analiza korelacji pozwala zmierzyć stopień związku między
dwoma zmiennymi, x i y. Na początek zakładamy, że obie
zmienne x i y są numeryczne, np. wzrost i masa ciała.
Przypuśćmy, że mamy parę wartości (x, y), mierzonych
w populacji u każdego z n osobników. Na dwuwymiarowym
wykresie rozrzutu możemy zaznaczyć punkt odpowiadający
parze wartości dla każdego osobnika (rozdział 4). Zazwyczaj
zmienną x umieszczamy na osi poziomej tego diagramu,
a zmienną y na osi pionowej. Wykreślając punkty dla
wszystkich n osobników, uzyskujemy rozrzut punktów, któ­
ry wskazuje lub nie na związek między dwoma zmiennymi.

WSPÓŁCZYNNIK KORELACJI PEARSONA


Mówimy, że między x i y istnieje zależność liniowa, jeżeli
najlepszym przybliżeniem obserwowanego związku jest li­
nia prosta. Obliczając współczynnik korelacji w sensie mo­
mentu mieszanego Pearsona, zwykle zwanego po prostu
współczynnikiem korelacji, mierzymy, jak blisko linii pro­
stej najlepiej opisującej ich związek liniowy leżą punkty.
Jego prawdziwa wartość w populacji p (grecka litera ro)
jest oszacowana w próbie przez r, gdzie

co wyznaczamy zazwyczaj za pomocą komputera.

Właściwości
• r przyjmuje wartości od -1 do +1.
• Znak rwskazuje, czy jedna zmienna rośnie, gdy dru­
ga rośnie (dodatnie r), czy też jedna zmienna maleje, gdy
druga rośnie (ujemne r, patrz rycina 26.1).
• Wielkość r wskazuje, jak blisko linii prostej znajdują
się punkty. W szczególności, jeżeli r= +1 lub -1, to istnieje
idealna korelacja z wszystkimi punktami leżącymi na prostej
(w praktyce zdarza się to nadzwyczaj rzadko); jeżeli r = 0, to
brak jest liniowej korelacji (chociaż może istnieć związek
nieliniowy). Im r bliższe jest wartości krańcowych, tym
wyższy jest stopień związku liniowego (rycina 26.1).
• Jest bezwymiarowy, tzn. nie ma jednostek pomiaro­
wych.
• Wartość r dotyczy tylko zakresu wartości xi yw pró­
bie. Jego wartość bezwzględna (z pominięciem znaku) ma
tendencję do wzrostu, gdy zakres wartości x i/lub y wzra­
sta, i dlatego nie można wnioskować, że będzie miat taką
samą wartość, jeżeli weźmiemy pod uwagę wartości x i y
bardziej krańcowe niż wartości w próbie.
• x i y można zamieniać (miejscami) bez wpływu na
wartość r.
• Korelacja między x i y niekoniecznie oznacza związek
przyczynowy.
• r2 oznacza część zmienności zmiennej y, która może
być przypisana jej liniowemu związkowi ze zmienną x (roz­ Rycina 26.1. Pięć diagramów przedstawiających wartości r w róż­
dział 28). nych sytuacjach.

26. Korelacja 69
Kiedy nie należy obliczać r
Obliczanie r może wprowadzać w błąd, gdy:
• Istnieje nieliniowy związek między dwoma zmiennymi
(rycina 26.2a), np. związek kwadratowy (rozdział 33);
• Dane zawierają więcej niż jedną wartość dla każdego
osobnika;
• Występuje jedna lub więcej wartości odskakujących
(rycina 26.2b);
• Dane zawierają podgrupy osobników, dla których
średnie poziomy wartości dla co najmniej jednej zmiennej
są różne (rycina 26.2c).

Testowanie hipotez dla współczynnika korelacji


Pearsona
Chcemy się dowiedzieć, czy istnieje jakakolwiek liniowa kore­
lacja między dwoma zmiennymi numerycznymi. Nasza próba
składa się z n niezależnych par wartości x i y. Zakładamy, że
co najmniej jedna z dwóch zmiennych ma rozkład normalny.
Rycina 26.2. Diagramy pokazujące, kiedy nie należy obliczać
współczynnika korelacji, (a) Związek nie jest liniowy, r = 0. (b) Gdy
1. Definiujemy hipotezę zerową i alternatywną. występują wartości odskakujące, (c) Dane zawierają podgrupy.

2. Zbieramy odpowiednie dane z próby osobników. WSPÓŁCZYNNIK KORELACJI RANGOWEJ


3. Obliczamy wartość statystyki testowej właściwej SPEARMANA
dla H0. Współczynnik korelacji rangowej Spearmana, czyli niepa­
Obliczamy r. rametryczny odpowiednik współczynnika korelacji Pearso­
• Jeżeli n ś 150, statystyką testową jest r. na, obliczamy, gdy spełniony jest przynajmniej jeden z na­
stępujących warunków:
• Jeżeli n > 150, obliczamy , • Co najmniej jedna zmienna, x lub y, mierzona jest
w skali porządkowej;
które podlega rozkładowi tzn-2 stopniami swobody.
• Ani x, ani y nie mają rozkładu normalnego;
4. Porównujemy wartość statystyki z wartością ze zna­
• Liczebność próby jest mata;
nego rozkładu prawdopodobieństwa.
• Potrzebujemy miary związku między dwoma zmienny­
• Jeżeli n ^ 150, porównujemy rz wartościami w Do­
mi, gdy związek ten jest nieliniowy.
datku A10.
• Jeżeli n > 150, porównujemy Tz wartościami w Do­ Obliczenia
datku A2. W celu oszacowania populacyjnej wartości współczynnika
5. Interpretujemy wartość p i wyniki. korelacji rangowej Spearmana, ps, przez obliczenie jego
Obliczamy przedział ufności dla p. Przy założeniu, że wartości w próbie rs:
obie zmienne mają w przybliżeniu rozkład normalny, 1. Porządkujemy wartości xw kierunku wzrastającym,
95% przybliżony przedział ufności dla p wynosi: począwszy od wartości najmniejszej, i przyporządkowujemy
do nich kolejne rangi (liczby 1, 2, 3, ..., n). Wartości wiąza­
ne otrzymują średnią z rang tych wartości, które otrzyma­
łyby, gdyby nie było pomiarów wiązanych.
2. W podobny sposób przyporządkowujemy rangi do
wartości y.
3. rs jest współczynnikiem korelacji Pearsona dotyczącej
rang x i y.
Właściwości i testowanie hipotez
Właściwości tego współczynnika są takie same jak w kore­
Zauważmy, że gdy liczebność próby jest duża, H0 mo­
lacji Pearsona, z tym że r zastępujemy przez rs, a przy te­
że zostać odrzucone nawet, jeżeli r jest całkiem bliskie
stowaniu hipotez:
zeru. Odwrotnie, gdy liczebność próby jest mała, H0 mo­
że nie zostać odrzucone nawet wtedy, gdy r jest duże. • rs oznacza miarę związku (niekoniecznie liniowego)
Z tego powodu użyteczne jest obliczanie r2, proporcji pomiędzy x i y;
całkowitej wariancji jednej zmiennej, która jest wyzna­ • Gdy testujemy hipotezę zerową, że ps = 0, porównuje­
czona przez jej związek liniowy z drugą zmienną. Na my wynik z wartościami w Dodatku Ali, jeżeli liczebność
przykład, jeżeli r = 0,40, to p < 0,05 dla próby o liczeb­ próby jest mniejsza lub równa 10;
ności 25, lecz związek ten wyjaśnia jedynie 16% (= 0,402 • Nie obliczamy rs2 (nie oznacza proporcji całkowitej wa­
x 100) zmienności jednej zmiennej. riancji jednej zmiennej, która może być przypisana jej linio­
wemu związkowi z inną zmienną).

70 Podstawowe techniki analizy danych


PRZYKŁAD
Jako część badania nad czynnikami związanymi ze zmiana­ między wzrostem (cm) i ciśnieniem skurczowym krwi
mi ciśnienia krwi u dzieci zebrano informacje o czynnikach (mm Hg) w próbie 100 dzieci; istnieje tendencja, że wyższe
demograficznych i stylu życia oraz kliniczne i antropome­ dzieci w próbie mają wyższe ciśnienia krwi. Badano współ­
tryczne pomiary 4245 dzieci w wieku od 5 do 7 lat. Na dia­ czynnik korelacji Pearsona pomiędzy tymi dwoma zmien­
gramie rozrzutu (rycina 28.1) przedstawiony jest związek nymi. Dodatek C zawiera wyniki komputerowe tej analizy.

1. Populacyjna wartość współczynnika korelacji Pear-


sona p wynosi zero.
Populacyjna wartość współczynnika korelacji Pear-
sona p nie jest równa zero.
2. Możemy wykazać (rycina 37.1), że wartości w próbie
zarówno dla wzrostu, jak i ciśnienia skurczowego krwi
mają w przybliżeniu rozkład normalny.
3. r wynosi 0,33. Jest to statystyka testowa, gdyż n =§ 150.
4. Porównujemy rz wartościami w Dodatku A10, przy
liczebności próby 100: p < 0,001.
5. Istnieje silny dowód pozwalający na odrzucenie hipo­
tezy zerowej; stwierdzamy, że istnieje liniowa zależność
pomiędzy ciśnieniem skurczowym krwi i wzrostem w po­
pulacji takich dzieci. Jednakże r2 = 0,33 x 0,33 = 0,11.
Dlatego, mimo bardzo istotnego wyniku, związek między
wzrostem a ciśnieniem skurczowym krwi wyjaśnia
jedynie niewielki odsetek, (11%) zmian w skurczowym
ciśnieniu krwi.

Jak mogliśmy się spodziewać, przy założeniu, że każda nywalny estymator 0,32. W celu sprawdzenia = 0 po­
zmienna ma rozkład normalny, współczynnik korelacji ran­ równujemy tę wartość z wartościami Dodatku A10 i znowu
gowej Spearmana pomiędzy tymi zmiennymi dawał porów­ otrzymujemy p < 0,001.

Dane uzyskane dzięki uprzejmości: ms O. Papacosta, dr P. Whincup, Department of Primary Care and Population Sciences, Royal Frce
and University College Medical School, Londyn, Wielka Brytania.

26. Korelacja 71
27 TEORIA REGRESJI LINIOWEJ

CO TO JEST REGRESJA LINIOWA? METODA NAJMNIEJSZYCH KWADRATÓW


Aby zbadać zależność między dwoma zmiennymi numerycz­ Analizy regresji dokonujemy, używając wartości z próby.
nymi, x i y, mierzymy wartości x i y dla każdego z n osob­ Wartości a i b są próbkowymi estymatorami prawdziwych
ników w naszej próbie. Wykreślamy punkty na diagramie parametrów a i /?, które definiują prostą regresji liniowej
rozrzutu (rozdziały 4 i 26), i jeżeli przybliża je linia prosta, w populacji, a i b są wyznaczane metodą najmniejszych kwa­
mówimy, że mamy związek liniowy. Jeżeli uważamy, że dratów (zwaną często zwykłą metodą najmniejszych kwa­
y zależy od x, tak że zmiana w y jest przyporządkowana dratów) w ten sposób, że dopasowanie prostej Y= a + bx
zmianie w x, a nie odwrotnie, możemy wyznaczyć prostą do punktów na diagramie rozrzutu jest optymalne. Uzysku­
regresji liniowej (regresja y vt laleineści ed x\, która naj­ jemy te przez anafoą Yfarteśei resztowych. (cumowe odle­
lepiej opisuje prostoliniową zależność między dwoma głości każdego z punktów od prostej, tj. wartość resztowa =
zmiennymi. Ogólnie, opisujemy regresję jako regresję jed­ = wartość obserwowana y — wartość dopasowana Y, ryci­
nej zmiennej (prostą), ponieważ w analizie mamy do czynie­ na 27.2). Prostą najlepszego dopasowania wybiera się tak,
nia tylko z jedną zmienną x, jest to więc inna sytuacja niż by suma kwadratów wartości resztowych była minimalna.
w przypadku regresji wielu zmiennych, która obejmuje
dwie lub więcej zmiennych x (patrz rozdziały 29-31).
ZAŁOŻENIA
1. Istnieje zależność liniowa między xi y.
UNIA REGRESJI 2. Obserwacje w próbie są niezależne. Obserwacje są
Równanie matematyczne, które wyznacza prostą zwyczaj­ niezależne, jeżeli jednemu osobnikowi odpowiada nie wię­
nej regresji liniowej, ma postać: cej niż jedna para obserwacji.
Y = a + bx. 3. Dla każdej wartości x w populacji istnieje rozkład
• x jest nazywane zmienną niezależną, predyktorem wartości y; rozkład ten jest rozkładem normalnym. Śred­
lub zmienną wyjaśniającą; nia tego rozkładu wartości y leży na prawdziwej linii regre­
• Dla danej wartości x, Y jest wartością zmiennej sji (rycina 27.3).
y (zwanej zmienną zależną, zmienną wynikową lub od­ 4. Zmienność rozkładu wartości y w populacji jest taka
powiedzią), która leży na wyznaczonej prostej. Stanowi sama dła wszystkich wartości jr, tzn. wariancja a2, jest
oszacowanie wartości, której spodziewamy się dla y (tj. jej stała (rycina 27.3).
średnią), gdy znamy wartość x. Nazywana jest wartością 5. Zmienna x może być zmierzona bez błędu. Zwróćmy
dopasowaną y, uwagę, że nie przyjmujemy żadnego założenia o rozkładzie
• a jest współczynnikiem przecięcia wyznaczonej pro­ zmiennej x.
stej; jest to wartość Fdla x= 0 (rycina 27.1); Wiele założeń, którym podlega analiza regresji, wiąże
• b jest współczynnikiem nachylenia lub gradientem się z rozkładem populacji wartości y dla określonej warto­
wyznaczanej prostej; oznacza wielkość, o jaką przeciętnie ści x, ale można je przedstawić w postaci reszt. Łatwiej jest
wzrasta Y, jeżeli x zwiększymy o jednostkę (rycina 27.1). sprawdzić te założenia (rozdział 28) poprzez zbadanie war­
a i b są nazywane współczynnikami regresji wyznacza­ tości resztowych niż wartości y.
nej prostej, chociaż nazwa ta jest często rezerwowana wy­
łącznie dla b. W rozdziale 28 opisujemy, jak wyznaczyć te
współczynniki. Prosta regresja liniowa może być rozwinięta
przez włączenie więcej niż jednej zmiennej wyjaśniającej;
w tym przypadku nazywa się ją wielokrotną regresją linio­
wą (rozdział 29).

Rycina 27.1. Oszacowana prosta regresji liniowej z zaznaczonym Rycina 27.2. Oszacowana prosta regresji liniowej ukazująca war­
punktem przecięcia a i współczynnikiem nachylenia b (średni tości resztowe (pionowe linie przerywane) dla każdego punktu.
wzrost Ydla jednostkowego wzrostu x).

72 Podstawowe techniki analizy danych


cji; rozdział 26), pozwala nam subiektywnie określić dobroć
dopasowania równania regresji.
2. Testowanie hipotezy zerowej, że prawdziwe nachyle­
nie prostej /? jest równe zero. Wynik istotny wskazuje na li­
niowy związek między x i y.
3. Uzyskanie estymatora wariancji resztowej. Potrzebu­
jemy go do testowania hipotez o nachyleniu lub odcięciu
oraz do obliczania przedziałów ufności dla tych parametrów
oraz przewidywanych wartości y.
Szczegóły na temat częściej stosowanych procedur poda­
jemy w rozdziale 28.

Rycina 27.3. Ilustracja założeń przyjmowanych w regresji liniowej. REGRESJA DO ŚREDNIEJ


Statystyczne znaczenie słowa „regresja" pochodzi od zjawi­
ska znanego jako regresja do średniej, które w 1889 r. od­
krył sir Francis Galton. Wykazał on, że chociaż wysocy oj­
ANALIZA TABLICY WARIANCJI cowie mają zazwyczaj wysokich synów, to przeciętny
Opis wzrost synów jest mniejszy od wzrostu ich wysokich ojców.
Zwykle wydruk komputerowy z analizy regresji zawiera ta­ Przeciętny wzrost synów miał „regresję" lub „wracał"
blicę analizy wariancji. W analizie wariancji (rozdział 22) w kierunku średniego wzrostu wszystkich ojców w popula­
całkowita zmienność zmiennej podlegającej badaniu, w tym cji. Tak więc, przeciętnie wysocy ojcowie mają niższych
przypadku y, zostaje podzielona na części składowe. Ze (lecz nadal wysokich) synów, a niżsi ojcowie mają wyższych
względu na liniowy związek y oraz x spodziewamy się (lecz nadal niskich) synów.
zmian y, gdy zmienia się x; nazywamy to zmiennością z po­ Regresję do średniej obserwujemy w badaniach przesie­
wodu regresji lub wyjaśnioną przez regresję. Pozostała wowych (rozdział 38) i w badaniach klinicznych (rozdział
zmienność jest zwana błędem resztowym lub wariancją 14), gdy podgrupa pacjentów zostaje wybrana do leczenia ze
niewyjaśnioną. Wariancja resztowa powinna być jak naj­ względu na to, że poziomy pewnej zmiennej, powiedzmy cho­
mniejsza. Wtedy większość zmienności y zostanie wyjaśnio­ lesterolu, są u nich duże (lub małe). Gdy powtarzamy pomiar
na przez regresję i punkty będą leżały blisko prostej lub na jakiś czas później, przeciętna wartość drugiego odczytu dla
niej; tzn. że prosta będzie dobrym dopasowaniem. podgrupy jest zazwyczaj niższa niż ta z pierwszego odczytu
i przesuwa się w kierunku (tj. podlega regresji) przeciętnej
Cele wartości w dopasowanej pod względem wieku i płci popula­
Tablica analizy wariancji pozwala na: cji, niezależnie od jakiegokolwiek leczenia, któremu podgru­
1. Określenie, jak dobrze prosta jest dopasowana do pa mogłaby podlegać. Pacjenci włączeni do badania klinicz­
punktów. Na podstawie informacji zawartej w tablicy może­ nego na podstawie wysokiego poziomu cholesterolu w czasie
my obliczyć proporcje całkowitej zmienności w y, która mo­ pierwszego badania, najprawdopodobniej przeciętnie będą
że być wytłumaczona regresją. Proporcja ta, zazwyczaj wy­ mieli spadek cholesterolu podczas drugiego badania, nawet
rażona w procentach i oznaczona przez (w prostej wtedy, gdy przez ten okres nie byli leczeni.
regresji liniowej jest to r 2 , kwadrat współczynnika korela-

27. Teoria regresji liniowej 73


28 PRZEPROWADZANIE ANALIZY REGRESJI LINIOWEJ

PROSTA REGRESJI LINIOWEJ liwe znalezienie satysfakcjonującej transformacji. Najważ­


niejszymi założeniami są liniowość i niezależność. Jeżeli
Po wybraniu z naszej populacji próby o liczebności n i wy­
masz wątpliwości co do założeń o normalności i/lub stałości
kreśleniu diagramu rozrzutu dla potwierdzenia przybliże­
wariancji, możesz kontynuować postępowanie, lecz wartości p
nia linią prostą oszacowujemy regresję y od x jako:
w testowaniu hipotez i oszacowania błędów standardowych
mogą być zaburzone. Zauważmy, że zmienna x rzadko jest
mierzona bez błędu; zwykle akceptuje się założenie, że błąd
gdzie Y jest oszacowaną dopasowaną lub prognozowaną
jest maty, gdyż ma to minimalny wpływ na wnioski.
wartością y, a jest oszacowanym punktem przecięcia, nato­
miast b jest oszacowanym nachyleniem, które oznacza prze­
ciętną zmianę Fprzy jednostkowej zmianie x (rozdział 271. WARTOŚCI ODSKAKUJĄCE
I PUNKTY WPŁYWAJĄCE
WYKREŚLANIE PROSTEJ • Obserwacja wpływająca może, jeśli zostanie pominięta,
Aby wykreślić prostą Y= a + bx na diagramie rozrzutu, zmienić nawet więcej niż jeden z estymatorów parametrów
wybieramy w jego obrębie trzy wartości w modelu (tzn. nachylenie lub przecięcie). Formalne metody jej
Podstawiamy x1 do równania, aby uzyskać odpowiadającą wykrywania zostały krótko omówione w rozdziale 29. Jeżeli
mu wartość Y, a mianowicie jest naszą metody te są niedostępne, musimy polegać na intuicji.
oszacowaną dopasowaną wartością dla Xj, która odpowiada • Wartość odskakująca (obserwacja niezgodna z większo­
wartości obserwowanej yv Powtarzamy procedurę dla x2 ścią wartości w zbiorze danych, rozdział 3) może być lub nie
i x3, aby uzyskać odpowiadające im wartości Y2 i Y3. Zazna­ być punktem wpływającym i można ją często wykryć przez
czamy te punkty na diagramie rozrzutu i łączymy je, uzy­ przyjrzenie się diagramowi rozrzutu lub wykresowi reszt
skując linię prostą. (patrz również rozdział 29). Zarówno dla wartości odskakują­
cych, jak i dla punktów wpływających dopasowujemy model,
uwzględniając podejrzane dane osobnika i nie uwzględniając
SPRAWDZANIE ZAŁOŻEŃ
ich oraz badamy ich wpływ na estymator(y). Nie należy odrzu­
Dla każdej wartości obserwowanej x wartość resztowa (re­ cać rutynowo wartości odskakujących lub punktów wpływają­
siduum, reszta) jest równa wartości obserwowanej y po od­ cych, ponieważ ich pominięcie może zaburzyć wnioski. Zawsze
jęciu odpowiadającej jej wartości dopasowanej Y Każda badamy przyczyny ich występowania i opisujemy je.
wartość resztowa może być albo dodatnia, albo ujemna.
Wartości resztowych możemy użyć do sprawdzenia następu­
jących założeń, leżących u podstaw regresji liniowej. OKREŚLENIE DOBROCI DOPASOWANIA
1. Istnieje zależność liniowa między xi y: wykreślamy Możemy ocenić, jak dobrze prosta jest dopasowana do da­
albo y w zależności od x (dane powinny przybliżać linię pro­ nych przez obliczenie R2 (zwykle wyrażonego w procen­
stą) albo wartości resztowe w zależności od x (powinniśmy tach), które równa się kwadratowi współczynnika korelacji
obserwować raczej losowy rozrzut punktów niż jakiś syste­ (rozdziały 26 i 27). Oznacza ono procent zmienności y, któ­
matyczny wzór). ra może być wyjaśniona przez jej związek z x. Jego dopeł­
2. Obserwacje są niezależne: obserwacje są niezależne, nienie (100 - R2) oznacza procent zmienności y, która nie
jeżeli dla każdego osobnika mamy nie więcej niż jedną parę jest wyjaśniona przez ten związek. Nie ma formalnego te­
obserwacji. stu do oszacowania R2; musimy polegać na subiektywnej
3. Wartości resztowe mają rozkład normalny ze śred­ ocenie dopasowania prostej regresji.
nią równą zero: wykreślamy histogram, wykres „łodyga
z liśćmi", wykres skrzynkowy (rozdział 4) lub wykres roz­
kładu normalnego (rozdział 35) wartości resztowych, a wy­ BADANIE NACHYLENIA
niki oceniamy wzrokowo. Jeżeli nachylenie prostej jest równe zero, nie ma zależności li­
4. Wartości resztowe mają taką samą zmienność (sta­ niowej między x i y; zmiany x nie mają wpływu na y. Hipote­
łą wariancję) dla wszystkich dopasowanych wartości y: zę zerową, że prawdziwe nachylenie /} jest równe zero, moż­
wykreślamy wartości resztowe w funkcji wartości dopaso­ na testować na dwa sposoby, które dają jednakowe wyniki.
wanych Y zmiennej y, punkty powinny mieć rozrzut losowy. • Badamy stosunek F (będący stosunkiem średnich
Jeżeli rozrzut wartości resztowych wzrasta lub maleje ze kwadratów „wyjaśnionych" do „niewyjaśnionych") za pomo­
wzrostem Y, założenie to nie jest spełnione. cą tablicy analizy wariancji. Podlega on rozkładowi Fi ma
5. Zmienna x może być pomierzona bez błędu. dwa stopnie swobody (1, n - 2), odpowiednio dla licznika
i mianownika.
BRAK SPEŁNIENIA ZAŁOŻEŃ • Obliczamy statystykę testową = która podlega
Jeżeli mamy wątpliwości co do spełnienia założeń liniowości, rozkładowi f z n - 2 stopniami swobody, gdzie SE(b) jest
normalności i/lub stałości wariancji, możemy dokonać trans­ błędem standardowym b.
formacji x lub y (rozdział 9) i wyznaczyć nową prostą regre­ W każdym przypadku wynik istotny, zazwyczaj gdy
sji, dla której te założenia są spełnione. Nie zawsze jest moż­ p < 0,05, prowadzi do odrzucenia hipotezy zerowej.

74 Podstawowe techniki analizy danych


Obliczamy 95% przedział ufności dla jako Powtarzanie tej procedury dla różnych wartości x pozwa­
gdzie t0 05 jest punktem procentowym rozkładu f z n - 2 stop­ la nam na skonstruowanie przedziałów ufności dla prostej.
niami swobody, który daje dwustronne prawdopodobieństwo Jest to zakres lub obszar zawierający prawdziwą prostą
równe 0,05. Przedział ten zawiera prawdziwą wartość nachy­ z pewnym prawdopodobieństwem, na przykład 95%. Podob­
lenia z 95% pewnością. Dla dużych liczebności prób, na przy­ nie możemy wyznaczyć szerszy obszar, w którym, jak może­
kład n S 100, możemy przybliżyć t005 przez 1,96. my się spodziewać, leży większość (zwykle 95%) obserwacji.
Rzadko przeprowadza się regresję liniową bez pomocy
komputera; wydruk komputerowy z większości pakietów
statystycznych zawiera wszystkie te informacje.

UŻYCIE PROSTEJ DO PRZEWIDYWANIA


Prostej regresji możemy użyć do prognozowania wartości
y dla wartości x wewnątrz obserwowanego zakresu (nigdy
nie należy dokonywać ekstrapolacji poza te granice). Prze­
widujemy średnią wartość y dla osobników posiadających
pewną wartość x, podstawiając xdo równania prostej. Tak
wi^c, jeżeli x = xQ, prognozujemy y jako Y0 = a+ óx0. Tej
prognozowanej wielkości i jej błędu standardowego używa­
my do wyznaczenia przedziału ufności dla prawdziwej śred­
niej wartości j w populacji.

PRZYKŁAD
Na rycinie 2H. 1 pokazany jost związek między wzrostem Oszacowanie Biąd stan- Statystyka
(mierzonym w cm) i ciśnieniem skurczowym krwi (SBP — Zmienna parametru daniowy testowa Wartość p
sysiolic Mood pressure, mierzonym w mm Hg) w grupie
Przecięcie 46,2817 16,7845 2,7574 0,0070
100 dzieci opisanych w rozdziale 26. Wykonałyśmy anali­
Wzrost 0,4842 0,1396 3,4684 0,0008
zę prostej regresji liniowej ciśnienia skurczowego krwi
od wzrostu. Założenia leżące u podstaw lej analizy zwery­
fikowano na rycinach od 28.2 do 28.4. Typowy wydruk
komputerowy został załączony w dodatku C. Stosunek F
jest istotny, co można stwierdzić na podstawie tablicy ana­ p = 0,0008 dla hipotezy na temat wzrostu (tzn. Hai
lizy wariancji w Dodatku C (F= 12,03 z odpowiednio 1 i 98 prawdziwe nachylenie równa się zero). Tak jak oczekiwa­
stopniami swobody w liczniku i mianowniku, p = 0,0008), no, jest identyczne z wartością otrzymaną z tablicy anali­
więc istnieje Umowy związek między wzrostem a skurczo­ zy wariancji w Dodatku C.
wym ciśnieniem krwi. Wartość Rz modelu wynosi 10,9%. Skoro liczebność próby jest duża (wynosi 100), może­
Tylko około dziesiąta część zmienności ciśnienia skurczo­ my wartość przybliżyć przez 1,96 i obliczyć 95%
wego krwi może być więc wytłumaczona przez model, tzn. przedział ufności dla prawdziwego nachylenia jako:
przez różnice we wzrostach dzieci. Wyniki z wydruku kom­
puterowego zostały pokazane w tablicy.
Parametr estymatora dla „przecięcia" odpowiada war­
tości a, zaś parametr dla „wzrostu" odpowiada wartości Dlatego 95% przedział ufności dla nachylenia waha się
b (nachylenie linii regresji). Zatem równanie oszacowanej od 0,21 do 0,75 mm Hg na centymetr zmiany we wzro­
prostej regresji ma postać: ście. Ten przedział ufności nie zawiera zera, co potwier­
dza, że nachylenie jest istotnie różne od zera.
SBP = 46,28 + 0,48 x wzrost
Możemy użyć równania regresji do prognozowania
W tym przykładzie punkt przecięcia nie jest sam skurczowego ciśnienia krwi, jakiego spodziewalibyśmy się
Z siebie interesujący (dotyczy prognozowanego ciśnienia u dziecka o danym wzroście. Na przykład, dziecko o wzro­
krwi dla dziecka o wzroście zero cm, co całkowicie wy­ ście 115 cm ma prognozowaną wartość skurczowego ciśnie­
kracza poza zakres wartości obserwowanych w badaniu). nia krwi równą 46,28 + (0,48 x 115) = 101,48 mm Hg;
Jednakże możemy interpretować współczynnik nachyle­ dziecko o wzroście 130 cm ma prognozowaną wartość
nia; u badanych dzieci skurczowe ciśnienie krwi wzrasta skurczowego ciśnienia krwi równą 46,28 + (0,48 x 130) =
przeciętnie o 0,48 mm Hg na każdy centymetr wzrostu. = 108,68 mm Hg.

28. Przeprowadzanie analizy regresji liniowej 75


Kyr.ina 28.1. Wykres rozrzutu pokazujący zwią­
zek miedzy cińiiiciiicm skurczowym krwi (SBP)
i wzrosłem. Na wykresie zaznaczono oszacowaną
prosta regresji SBP = 46.281 0,48 x wzrost.

Rycina 28.2. Na tym diagramie widoczny jest brak


związku wskazujący na liniową zależność wzrostu
i ciśnienia skurczowego krwi.

Rycina 28.3. Rozkład reszt jest w przybliżeniu nor­


malny.

76 Podstawowe techniki analizy danych


Rycina 28.4. Brak tendencji systematycznego wzro­
stu lub spadku dla wartości dopasowanych. Stąd
spełnione jest założenie stałej warimicji.

28. Przeprowadzanie analizy regresji liniowej 77


29 WIELOKROTNA REGRESJA LINIOWA
CO TO TAKIEGO? gólną uwagę trzeba zwrócić na to, czy spełnione są założenia
o liniowości i niezależności. Jeżeli jest to wątpliwe, możemy
Czasami interesuje nas efekt wpływu kilku zmiennych wyja­ przetransformować (rozdział 9) zmienną y i/lub niektóre al­
śniających na zmienną odpowiedzi y. Jeżeli uwa­ bo wszystkie spośród zmiennych x i powtórzyć analizę (rów­
żamy, że zmienne te mogą być wewnętrznie powiązane, nie po­ nież sprawdzanie założeń) na danych przetransformowanych.
winniśmy osobno obserwować wpływu na y zmieniających się
wartości pojedynczego x, lecz jednocześnie wziąć pod uwagę
wartości pozostałych x-ów. Na przykład, ponieważ istnieje sil­ KATEGORIALNE ZMIENNE WYJAŚNIAJĄCE
ny związek między wzrostem a masą dziecka, chcielibyśmy się Możemy wykonać wielokrotną regresję liniową, używając kate-
dowiedzieć, czy zmieni się związek między wzrostem a ciśnie­ gorialnych zmiennych wyjaśniających. W szczególności, jeżeli
niem skurczowym krwi (rozdział 28), kiedy weźmiemy pod mamy zmienną binarną Xj (np. mężczyzna = 0, kobieta = 1)
uwagę również masę dziecka. Wielokrotna regresja liniowa po­ i zwiększymy xx o jednostkę, dokonamy zmiany z mężczyzn na
zwala na zbadanie łącznego wpływu tych zmiennych wyjaśnia­ kobiety. bx oznacza więc różnicę w oszacowanej wartości śred­
jących na y; jest to przykład analizy wielu zmiennych, gdzie niej pomiędzy kobietami i mężczyznami, po dokonaniu korekcji
wiążemy ze sobą pojedynczą zmienną wynikową jednocześnie ze względu na pozostałe zmienne x.
z co najmniej dwoma zmiennymi objaśniającymi. Zwróćmy Jeżeli mamy nominalną zmienną wyjaśniającą (rozdział 1),
uwagę, że chociaż zmienne objaśniające nazywa się czasami która ma więcej niż dwie kategorie, musimy wytworzyć pewną
zmiennymi niezależnymi, jest to błędna nazwa, gdyż mogą one liczbę zmiennych ślepych (fikcyjnych) lub wskaźnikowych .
1

być powiązane. Ogólnie dla zmiennej nominalnej z k kategoriami tworzymy


Wybieramy próbę n osobników i mierzymy wartości każdej ze k-\ binarnych zmiennych ślepych. Wybieramy jedną z katego­
zmiennych dla każdego osobnika. Równanie wielokrotnej regre­ rii jako reprezentującą naszą kategorię odniesienia, a każda
sji liniowej, które oszacowuje związki w populacji, ma postać: zmienna ślepa pozwoli nam na porównanie jednej z pozostałych
k-\ kategorii zmiennej z kategorią odniesienia. Na przykład,
możemy być zainteresowani porównaniem poziomów średniego
• x,jest i-tą zmienną wyjaśniającą lub współzmienną (i = ciśnienia skurczowego krwi u osobników mieszkających
= 1, 2, 3, ..., k); w czterech krajach Europy (Holandia, Wielka Brytania, Hiszpa­
• Fjest oszacowaną, prognozowaną, średnią lub dopasowa­ nia i Francja). Załóżmy, że jako kategorię odniesienia wybrali­
ną wartością y, odpowiadającą pewnemu określonemu zbioro­ śmy Holandię. Wytwarzamy jedną zmienną binarną identyfiku­
wi wartości jącą osoby mieszkające w Wielkiej Brytanii; zmienna ta przyj­
• a jest członem stałym, oszacowaną wartością przecięcia; mie wartość 1, jeżeli osobnik mieszka w Wielkiej Brytanii, a 0
jest to wartość Y, gdy wszystkie x są równe zero; w przeciwnym razie. Potem generujemy zmienne binarne, aby
• są oszacowanymi współczynnikami cząst­ podobnie zidentyfikować osoby mieszkające w Hiszpanii i Fran­
kowymi regresji; bx oznacza wielkość, o którą średnio wzro­ cji. Automatycznie, osobnicy mieszkający w Holandii mogą zo­
śnie Y, jeżeli zwiększymy o jednostkę, utrzymując wszyst­ stać zidentyfikowani jako ci, którzy mają wartość zero dla każ­
kie pozostałe wartości x niezmienione (tj. ich dopasowanie lub dej z trzech zmiennych binarnych. W analizie wielokrotnej re­
ich skorygowanie). Jeżeli istnieje związek między i pozosta­ gresji liniowej współczynnik regresji dla każdego z pozostałych
łymi x-ami, różni się od oszacowanego współczynnika re­ trzech państw oznacza wielkość, o którą przeciętnie różni się
gresji uzyskanego wyłącznie z regresji y na podstawie po­ Y (ciśnienie skurczowe krwi) u osób mieszkających w danym
nieważ w tym drugim przypadku nie został on skorygowany ze kraju w porównaniu z mieszkającymi w Holandii. Współczyn­
względu na pozostałe zmienne, oznacza wpływ na y, któ­ nik przecięcia pozwala oszacować średnie skurczowe ciśnienie
ry jest niezależny od pozostałych x-ów. krwi u osobników mieszkających w Holandii (gdy wszystkie po­
Analizę wielokrotnej regresji liniowej zawsze przeprowa­ zostałe zmienne objaśniające mają wartość zero). Niektóre pa­
dza się przy użyciu komputera, dlatego pomijamy wzory na te kiety komputerowe generują automatycznie zmienne ślepe, je­
oszacowywane parametry. żeli tylko wyspecyfikuje się zmienną jako kategorialną.
W przypadku zmiennej wyjaśniającej porządkowej może­
my przyporządkować trzy lub więcej kategorii na znaczącej
PO CO TO ROBIMY? skali liniowej (np. klasy socjalne 1-5). Możemy wtedy albo
By móc: użyć tych wartości bezpośrednio w równaniu wielokrotnej re­
• Zidentyfikować zmienne wyjaśniające, które wiążą się gresji liniowej (patrz też rozdział 33), albo wygenerować serię
ze zmienną zależną, w celu zrozumienia zasad stanowiących zmiennych ślepych, jak dla zmiennej nominalnej (lecz wtedy
podstawę zjawiska; nie wykorzystujemy informacji o uporządkowaniu kategorii).
• Wyznaczyć stopień, w jakim jedna lub więcej zmien­
nych wyjaśniających wiąże się ze zmienną zależną po doko­ ANALIZA KOWARIANCJI
naniu korekcji ze względu na pozostałe zmienne, które mogą
być z nimi związane; Rozszerzeniem analizy wariancji (ANOVA, rozdział 22) jest
analiza kowariancji, w której porównujemy odpowiedzi po­
• Prognozować wartości zmiennej zależnej tak dokładnie,
między grupami osobników (tj. dwoma lub więcej badanymi
jak to możliwe, na podstawie zmiennych wyjaśniających.
grupami), biorąc pod uwagę pozostałe zmienne mierzone dla
każdego osobnika. Takie zmienne mogą być analizowane przy
ZAŁOŻENIA
Założenia w wielokrotnej regresji liniowej są takie same (je­
żeli zastąpimy „x" przez „każdy z x-ów") jak w prostej re­ 1
Armitage P., Berry G., Matthews J. N. S.: Statistical Methods in
gresji liniowej (rozdział 27) i sprawdza się je tak samo. Szcze- Medical Research. Blackwell Science, Wielka Brytania 2001.

78 Podstawowe techniki analizy danych


użyciu techniki wielokrotnej regresji liniowej poprzez wyge­ 2. Test Fw tablicy ANOVA.
nerowanie jednej lub większej liczby ślepych zmiennych bi­ Sprawdza on hipotezę zerową, że wszystkie współczynniki
narnych służących do rozróżnienia grup. Dlatego, gdy chcemy cząstkowe regresji w populacji są równe zero.
porównać średnie wartości y w dwóch grupach leczonych, Wynik istotny wskazuje, że istnieje liniowa zależność mię­
kontrolując wpływ zmiennych (np. wiek, masa,...), tworzymy dzy y i co najmniej jednym z x-ów.
zmienną binarną x oznaczającą „leczenie" (np. = 0 dla le­ 3. Test t dla każdego współczynnika korelacji cząstko­
czenia A, =1 dla leczenia B). W równaniu wielokrotnej re­ wej
gresji liniowej jest oszacowaną różnicą w średnich odpo­ Każdy test t odnosi się do jednej zmiennej wyjaśniającej
wiedziach y między sposobami leczenia B i A, skorygowaną i można go stosować, gdy chcemy sprawdzić, czy zmienna wy­
ze względu na pozostałe zmienne x. jaśniająca ma wpływ na zmienną wynikową, a wpływ pozosta­
Analiza kowariancji jest stosowana w kontrolowanych łych wspóizmiennych jest ustalony. W celu testowania
eksperymentach randomizowanych, które porównują lecze­ = 0, obliczamy statystykę testową = która podlega
nie, gdy każdy osobnik w badaniu ma wykonane badanie rozkładowi tz(n— liczba zmiennych wyjaśniających - 1) stop­
przed leczeniem i po leczeniu. W tej sytuacji zmienna odpo­ niami swobody. Wydruk komputerowy podaje wartości każde­
wiedzi y jest pomiarem kontynuacyjnym powtarzanym, a dwie go oraz wartość odpowiedniej statystyki testowej
spośród zmiennych wyjaśniających w modelu regresyjnym są z jej wartością p. Czasami dołącza się przedział ufności dla
zmiennymi binarnymi oznaczającymi sposób leczenia xl i po­ jeżeli brak tego wyniku, można go obliczyć ze wzoru
czątkowy stan osobnika przy rozpoczęciu badania x 2 . Podej­
ście to jest ogólnie lepsze (tzn. ma większą moc — patrz roz­
dział 36) niż użycie jako zmiennej zmiany od wartości począt­ WARTOŚCI ODSKAKUJĄCE
kowej lub procentowej zmiany pomiaru kontynuacyjnego. I PUNKTY WPŁYWAJĄCE
Jak już zostało to krótko omówione w rozdziale 28, wartość od­
WYBÓR ZMIENNYCH WYJAŚNIAJĄCYCH skakująca (obserwacja, która jest niespójna 2 więks20śeią war­
Regułą jest, że nie dokonujemy analizy wielokrotnej regresji tości w zbiorze danych, rozdział 3) może być lub nie być warto­
liniowej, jeżeli lie2ba 2miennych pr2ekracza liczbę osobników ścią wpływającą [tzn. zaburzającą oszacowanie(a) paranie-
podzieloną przez 10. Większość pakietów komputerowych za­ tru(ów) modelu, jeżeli zostanie pominięta]. Wartość odskakują­
wiera automatyczne procedury doboru zmiennych, np. wybór ca i/lub obserwacja wpływająca mogą mieć jedną lub dwie
krokowy (rozdział 33). Przydają się one szczególnie Wtedy, z następujących cech:
gdy wisie zmiennych wyjaśniających jest wzajemnie powiąza­ • Wysoką wartość resztową (wartość resztowa jest różnicą
nych. Szczególny problem pojawia się w przypadku wspótli- między wartościami prognozowaną a obserwowaną zmiennej wy­
niowości (zależności liniowej, kolinearności), tj. kiedy pary nikowej y dla wartości zmiennej wyjaśniającej tego osobnika).
zmiennych wyjaśniających są niezwykle silnie skorelowane • Wysokie przełożenie (efekt dźwigni), gdy wartość x (lub
(rozdział 34). zbiór x-ów) danego osobnika jest odległa od średniej wartości
x(lub zbioru x-ów). Wartości o wysokim przełożeniu, są więk­
ANALIZA sze niż gdzie k jest liczbą zmiennych wyjaśniających
Większość wyników komputerowych zawiera pozycje: w modelu, natomiast n — liczbą obiektów w badaniu.
1. Oszacowanie jakości dopasowania. Dostępne są różne metody badania czułości modelu — stop­
Skorygowane oznacza proporcję (często wyrażoną nia, w jakim estymatory są zaburzane przez podzbiory danych.
w procentach) zmienności j, która może być wyjaśniona Możemy wyznaczyć podejrzane wartości wpływające na przy­
poprzez jej związek z jc-ami. jest skorygowane tak, że kład przez (1) badanie obiektów mających duże wartości reszto-
modele można porównywać z różnymi liczbami zmiennych we, wysokie przełożenie i/lub odległość Cooka (ogólna miara
wyjaśniających. Jeżeli ma małą wartość (ocenianą subiek­ łącząca w sobie zarówno wartości resztowe, jak i o wysokim
tywnie), model jest źle dopasowany. Jakość dopasowania jest przełożeniu) większą niż jeden, lub (2) badanie specjalnych wy­
szczególnie ważna wtedy, gdy równania wielokrotnej regre­ kresów diagnostycznych, na których punkty wpływające stają
sji liniowej używamy do predykcji. się wyraźnie widoczne.

PRZYKłAD
W rozdziale 28 badaliśmy związek między ciśnieniem skur­ nych wyjaśniających jest powiązana ze skurczowym ciśnie­
czowym krwi i wzrostem u 100 dzieci. Wiadomo, że wzrost niem krwi (F- 14,95 z 3 i 96 stopniami swobody odpowied­
i masa ciała są dodatnio skorelowane. Dlatego w celu zbada­ nio dla licznika i mianownika, p = 0,0001). Skorygowana war­
nia u tych dzieci wpływu wzrostu (cm), masy ciała (kg) i płci tość R2 wynosząca 0,2972 wskazuje, że 29,7% zmienności
(0 = chłopiec, 1 = dziewczynka) na skurczowe ciśnienie krwi w skurczowym ciśnieniu krwi jest wytłumaczone poprzez
(mm Hg) wykonujemy analizę wielokrotnej regresji linio­ model — to jest przez różnice we wzroście, masie ciała i płci
wej. Założenia leżące u podstaw tej analizy zweryfikowano dzieci. Pozwala lo na lepsze dopasowanie do danych niż model
na rycinach od 29.1 do 29.4. Typowy wydruk z komputerowej prostej regresji liniowej z rozdziału 28, w którym R2 = 0,11.
analizy tych danych został załączony w Dodatku C. Tablica Typowy wydruk komputerowy zawiera informacje o zmien­
analizy wariancji wskazuje, że co najmniej jedna ze zmień- nych wyjaśniających w modelu w poslaci tablicy:

Przecięcie 79,4395 17,1182 (45,89 do 112,99) 4,6406 0,0001


Wzrost -0,0310 0,1717 (-0,37 do 0,31) -0,1807 0,8507
Masa 1,1795 0,2614 (0,67 do 1,69) 4,5123 0,0001
Płeć 4,2295 1,6105 (1,07 do 7,39) 2,6261 0,0101

29. Wielokrotna regresja liniowa 79


Rycina 29.1. Nie ma systematycznego wzoru rozkładu reszt, gdy Rycina 29.2. Rozkład reszt jest w przybliżeniu normalny, a wa­
wykreśla się je w funkcji masy ciała. (Należy zwrócić uwagę, że riancja nieco mniejsza niż w przypadku prostego modelu regre­
podobnie jak na rycinie 28.2 wykres wartości resztowych z tego sji (rozdział 28). co odzwierciedla lepsze dopasowanio modolu
modelu nie daje systematycznego wzoru). wielokrotnej regresji liniowej w porównaniu 2 modelem prostym.

Rycina 29.3. Podobnie jak w modelu jednej zmiennej, nie ma Rycina 29.4. Rozkład wartości resztowych jest podobny w gru­
tendencji do systematycznego wzrostu lub spadku wartości reszt pie chłopców i dziewczynek, co sugeruje, że model jest dopaso­
dla wartości dopasowanych. Spełniony jest więc warunek stałej wany równie dobrze w obu grupach.
wariancji.

Równanie wielokrotnej regresji liniowej ma postać: niem krwi; u dziewcząt ciśnienie skurczowe jest przecięt­
nie 4,23 mm Hg wyższe niż u chłopców, nawet po wzięciu
SBP = 79,44 - (0,03 x wzrost) + (1,18 x masa) + pod uwagę możliwych różnic we wzrostach i masach ciała.
+ (4,23 x płeć). Stąd zarówno masa, jak i pleć są niezależnymi predykato-
rami skurczowego ciśnienia krwi u dzieci.
Związek między masą ciała a ciśnieniem skurczowym Możemy obliczyć spodziewane wartości skurczowego ci­
krwi jest wysoce istotny (p < 0,0001), ze średnim wzro­ śnienia krwi u dzieci z danymi wzrostami i masami. Jeżeli
stem skurczowego ciśnienia krwi o 1,18 mm Hg na kilo­ pierwsze dziecko wspomniane w rozdziale 28 jest dziew­
gram wzrostu masy po skorygowaniu wpływu wzrostu czynką o wzroście 115 cm i waży 37 kg, to ma ono progno­
i pici. Jednak po skorygowaniu ze względu na masę i pleć zowane ciśnienie skurczowe krwi 79,44 - (0,03 x 115) +
związek między wzrostem i ciśnieniem skurczowym krwi + (1,18 x 37) + (4,23 x 1) = 123,88 mm Hg (wyższe niż
staje się nieistotny (p = 0.86). Sugeruje to, że istotny zwią­ 101,48 mm Hg prognozowane w rozdziale 28); jeżeli drugie
zek między wzrostem i skurczowym ciśnieniem krwi dziecko jest chłopcem o wzroście 130 cm i waży 30 kg, ma
w prostej analizie regresji odzwierciedla fakt, że wyższe ono prognozowane ciśnienie skurczowe krwi 79,44 - (0,03 x
dzieci są zwykle cięższe niż dzieci niższe. Istnieje znaczą­ x 130) + (1,18 x 30) + (4,23 x 0) = 110,94 mm Hg (wyższe
cy związek (p = 0,01) między płcią i skurczowym ciśnie­ niż 108,68 mm Hg prognozowane w rozdziale 28).

80 Podstawowe techniki analizy danych


30 WYNIKI BINARNE I REGRESJA LOGISTYCZNA

ROZUMOWANIE Wówczas prawdopodobieństwo, że osobnik ma jednostkę


chorobową, jest określone jako:
Regresja logistyczna jest bardzo podobna do regresji liniowej;
używamy jej, gdy mamy binarną zmienną wynikową (np.
obecność/brak symptomu, osobnik mający/niemający jed­
nostki chorobowej) oraz pewną liczbę zmiennych wyjaśniają­ Ponieważ model regresji logistycznej jest dopasowany na
cych. Na podstawie równania regresji logistycznej możemy skali logarytmicznej, wpływy wartości ^ n a szansę wystą­
ocenić, które zmienne wyjaśniające wpływają na wynik, pienia choroby są multiplikatywne. Oznacza to, że ich łącz­
a mając wartości zmiennych wyjaśniających określonego ny wpływ jest iloczynem ich oddzielnych wpływów (przy­
osobnika, możemy oszacować prawdopodobieństwo, z jakim kład). Zjawisko takie nie zachodzi w regresji liniowej, gdzie
ona/on będzie mieć określony wynik. wpływy wartości xi na zmienną zależną są addytywne.
Rozpoczynamy od wygenerowania zmiennej binarnej re­
prezentującej dwie wartości (np. „jest chory" = 1, „nie jest WYDRUK KOMPUTEROWY
chory" = 0), Jednakże nie możemy tej zmiennej zależnej użyć Dla każdej zmiennej wyjaśniającej
w regresji liniowej, skoro pogwałcone zostało założenie nor­
Obszerny wydruk komputerowy wyników analizy regresji logi­
malności rozkładu i nie możemy interpretować wartości róż­
stycznej zawiera: dla każdej zmiennej wyjaśniającej oszacowa­
nych od zero lub jeden. Zamiast tego bierzemy po uwagę
ny współczynnik regresji logistycznej z błędem standardowym,
prawdopodobieństwo p, że osobnik został zaklasyfikowany do
oszacowany iloraz szans (tj. eksponentę tego współczynnika)
najwyżej zakodowanej kategorii zmiennej zależnej (tj. jest
z przedziałem ufności dla jego prawdziwej wartości oraz staty­
chory) i aby obejść trudności matematyczne, używamy trans­
stykę testową Walda (testującą hipotezę zerową, że współczyn­
formacji logistycznej lub logitowej (rozdział 9) w równaniu re-
nik regresji logistycznej równa się zero, co jest równoważne
gresyjnym. Logit prawdopodobieństwa jest logarytmem natu­
testowaniu hipotezy, że iloraz szans „choroby" związanej z tą
ralnym (tj. z podstawą e) szansy wystąpienia „choroby", tzn.
zmienną jest jednością) oraz oszacowaną wartość p. Używamy
tej informacji do stwierdzenia, czy każda zmienna jest powią­
zana z badanym wynikiem (np. chorobą) i dla kwantyfikacji
stopnia, w jakim to zjawisko zachodzi. Tak jak w przypadku
RÓWNANIE REGRESJI LOGISTYCZNEJ wielokrotnej regresji liniowej można użyć procedur automa­
tycznego wyboru (rozdział 33), w celu dobrania najlepszej kom­
Oszacowane równanie regresji logistycznej o postaci: binacji zmiennych wyjaśniających. Przyjętą regułą ekspery­
mentalną, że maksymalna liczba zmiennych wyjaśniających
powinna być taka, by było co najmniej 10 razy więcej wartości
pozwala wytworzyć na bazie danych próby proces iteracyj- odpowiedzi dla każdej z kategorii określających wynik (tj.
ny, zwany procesem najwyższej wiarygodności (rozdział obecność/brak symptomu), niż jest zmiennych1.
32), a nie zwykłą regresję najmniejszych kwadratów (dlate­
go nie używamy oprogramowania na regresję liniową). Ocena adekwatności modelu
• jest t-tą zmienna wyjaśniającą (i = 1, 2, 3, ..., k); Zwykle jesteśmy zainteresowani zmiennymi wyjaśniającymi
• p jest oszacowaną wartością prawdziwego prawdopo­ i ich wpływem na wynik. Informacja ta jest dostępna we
dobieństwa, że osobnik z określonym zestawem wartości dla wszystkich zaawansowanych komputerowych pakietach staty­
jest chory; p odpowiada proporcji osób chorych; stycznych. Jednakże między pakietami występują niezgodności
jest zgodne z rozkładem dwumianowym (rozdział 8); w tym, jak oceniają one adekwatność modelu oraz jak to opi­
• a jest oszacowanym członem stałym; sują. Twój komputer może podawać (w taki lub inny sposób):
• są oszacowanymi współczynnikami re­ • Wielkość zwaną -2 log wiarogodnością, ilorazem
gresji logistycznej. Eksponenta poszczególnego współczyn­ wiarogodności statystycznej (LRS — likelihood rado
nika, np. jest oszacowaniem ilorazu szans (rozdział 16). statistic) lub dewiancją: ma ona w przybliżeniu rozkład
Dla określonej wartości Xj jest ona oszacowaniem szansy Chi-kwadrat i wskazuje, jak słabe jest dopasowanie modelu
choroby dla w stosunku do oszacowania szansy cho­ uwzględniającego wszystkie zmienne wyjaśniające (istotny
roby dla po dokonaniu korekcji ze względu na wszystkie wynik wskazuje słabą predykcję — rozdział 32).
pozostałe zmienne w równaniu. Gdy iloraz szans równa się • Chi-kwadrat modelu lub Chi-kwadrat dla współ-
jeden (jest jednostkowy), wtedy obie szanse są takie same. zmiennych: Sprawdza hipotezę zerową, że wszystkie współ­
Wartość ilorazu szans powyżej jeden oznacza zwiększone czynniki regresji w modelu są równe zero (rozdział 32).
szanse wystąpienia choroby, a wartości poniżej jeden — Istotne wyniki sugerują, że co najmniej jedna ze współ-
zmniejszone szanse wystąpienia choroby, gdy x1 wzrasta zmiennych jest istotnie powiązana ze zmienną zależną.
o jednostkę. W przypadku rzadkich chorób iloraz szans mo­ • Procent osobników prawidłowo ocenionych w modelu
że być interpretowany jako ryzyko względne. jako „chorzy" lub „bez choroby". Informacja ta może być
Równania regresji logistycznej możemy użyć do wyzna­ przedstawiona w postaci tablicy klasyfikacyjnej.
czenia prawdopodobieństwa, że osobnik ma jednostkę cho­
robową. Dla każdego osobnika, z zestawem wartości współ-
zmiennych dla możemy obliczyć
1
Peduzzi P., Concato J., Kemper E., Holford T. R, Feinstein A. R: A si-
mulation studyofthe number ofevents per yariable in logistic regres-
sion analysis. Journal of Clinical Epidemiology, 1996, 49, 1373-9.

30. Wyniki binarne i regresja logistyczna 81


• Histogram: wzdłuż osi poziomej zaznaczone są pro­ np. pacjent ma jedno z trzech schorzeń krzyża: przepuklina
gnozowane prawdopodobieństwa, a do oznaczenia grupy dysku w części lędźwiowej, przewlekły zespól bólowy kręgo­
(„chorzy" lub „bez choroby"), do której należy osobnik, uży­ słupa lub ostry zespól bólowy kręgosłupa), używamy multi-
wa się symboli (takich jak 1 i 0). Dobry model przydziela nomialnej regresji logistycznej. Jeżeli zmienna zależna jest
symbole do dwóch grup, które pokazują jedynie niewielki porządkowa lub rangowa (np. ból łagodny, umiarkowany lub
stopień nałożenia się lub całkowity jego brak. ciężki), używamy porządkowej regresji logistycznej. Metody
Indeksy zdolności predykcyjnej: nie są one rutynowo te są bardziej złożone i jeżeli chce się je zastosować, trzeba
3
dostępne w każdym pakiecie komputerowym, lecz mogą za­ szukać informacji w bardziej zaawansowanych pozycjach
wierać proporcje fałszywie dodatnie i fałszywie ujemne i/lub szukać porady specjalisty. Prostą alternatywą jest
oraz czułość i swoistość modelu (rozdział 38). W celu uzy­ łączenie kategorii w taki sposób, by wygenerować nową
2
skania bardziej szczegółowych informacji radzimy odwołać binarną zmienną wynikową, i przeprowadzenie zwykłej
się do bardziej zaawansowanych publikacji. dwukategorialnej logistycznej analizy regresji (trzeba jednak
przyznać, że powoduje to utratę wielu informacji). Decyzję,
PORÓWNYWANIE ILORAZU SZANS jak połączyć kategorie, należy podjąć na początku, przed
analizą danych, tak by uniknąć obciążenia.
I RYZYKA WZGLĘDNEGO
Chociaż iloraz szans jest często wykorzystywany jako oce­
WARUNKOWA ANALIZA REGRESJI
na ryzyka względnego, daje on podobne wartości jedynie
wtedy, gdy wynik występuje rzadko. Gdy wynik nie jest Warunkowej regresji logistycznej możemy użyć, gdy mamy
rzadki, iloraz szans jest wyższy niż ryzyko względne, jeśli obiekty powiązane (tak jak w badaniu sparowanym przypa-
ryzyko względne jest większe od jedności, a mniejszy niż dek-kontrola, rozdział 16) i chcemy dokonać korekcji ze
ryzyko względne w przeciwnym przypadku. Chociaż iloraz względu na możliwe czynniki uwikłane. Analiza sparowanego
szans nie podlega łatwej interpretacji jak ryzyko względne, badania przypadek-kontrola przy użyciu zwykłej regresji logi­
ma atrakcyjne właściwości statystyczne i dlatego jest zwy­ stycznej lub metod opisanych w rozdziale 16 jest nieefektyw­
kle wybierany (i musi być wykorzystywany w badaniu przy- na i powoduje utratę mocy, ponieważ żadna z nich nie po­
padek-kontrola, gdy nie można w bezpośredni sposób ocenić twierdza tego, że przypadki i kontrole są ze sobą powiązane.
ryzyka względnego, rozdział 16). Warunkowa regresja logistyczna pozwala nam na porównanie
przypadków do grupy kontrolnej w tym samym sparowanym
zestawie (tj. każdej pary w przypadku parowania jeden do
MULTINOMIALNA I PORZĄDKOWA jednego). W tej sytuacji „wynik" jest zdefiniowany przez pa­
REGRESJA LOGISTYCZNA cjenta będącego przypadkiem (kodowanym zazwyczaj jako 1)
Multinomialna (zwana również polichotomiczną, wielowarto- lub kontrolą (zazwyczaj kodowanym jako 0). Jakkolwiek za­
śoiową) i porządkowa regresja logistyczna są rozszerzeniami awansowane pakiety statystyczne pozwalają niekiedy na bez­
regresji logistycznej, które stosujemy, gdy mamy do czynie­ pośrednie przeprowadzenie warunkowej regresji logistycznej,
nia z kategorialną zmienną zależną z więcej niż dwoma ka­ czasami jednak konieczne jest użycie modelu regresyjnego
tegoriami. Jeżeli zmienna zależna jest nominalna (rozdział 1, proporcjonalnego ryzyka wg Coxa (rozdział 44).

3
3
Menard S.: Applied logistic regression analysis. W: Sagę Univer- Ananth C. V., Kleinbaum D. G.: Regression methodsfor ordinal
sity Paper Sedes on Quantitative Applications in the Social Scien­ responses: a review of methods and applications. International
ces, Series no. 07-106. Sagę University Press, Thousand Oaks, Ca- Journal of Epidemiology, 1997, 27, 1323-33.
lifornia 1995.

PRZYKŁAD
W badaniu związku między zarażeniem ludzkim wirusem pomiędzy HHV-8 i pozostałymi zakażeniami i/łub wie­
opryszczki typu 8 (opisanym w rozdziale 23) i zachowania­ kiem mężczyzny. Zmienne wyjaśniające opisywały wystę­
mi seksualnymi zadano pytania 271 horno/biseksualnym powanie każdej z czterech infekcji, każda była kodowana
mężczyznom na temat wystąpienia u nich w przeszłości jako 0, jeżeli pacjent nie przebył tej choroby, lub 1, jeżeli
pewnych chorób przenoszonych drogą płciową (rzeżączka, ją przebył, oraz wiek pacjenta w latach. Typowy wynik
syfilis, opryszczka prosta typu 2 [HSV-2] oraz HIV). komputerowy zamieszczono w Dodatku C. Pokazuje on, że
W rozdziale 24 pokazałyśmy, że mężczyźni, którzy Chi-kwadrat dla współzmiennych wynosi 24,598 z 5 stop­
przebyli rzeżączkę, częściej byli seropozytywni do HHV-8 niami swobody (p = 0,0002), co oznacza, że co najmniej
od tych, którzy nie przebyli rzeżączki. Wykonałyśmy ana­ jedna ze współzmiennych jest istotnie związana ze statu­
lizę regresji logistycznej wielu zmiennych w celu zbada­ sem serologicznym HHV-8. Poniższa tabela podsumowuje
nia, czy efekt ten był prostym odzwierciedleniem związku informacje o każdej zmiennej w modelu.

Oszacowany Błąd Chi-kwadrat Oszacowany 95% CI dla


Zmienna parametr standardowy Walda Wartość p iloraz szans ilorazu szans
Przecięcie -2,2242 0.6512 11,6670 0,0006 - -
Rzeżaczka 0,5093 0,4363 1,3626 0,2431 1,664 (0,71-3,91)
Syfilis 1,1924 0.7111 2,8122 0,0935 3,295 (0,82-13,28)
HSV-2 pozvtvwnv 0,7910 0,3871 4,1753 0,0410 2,206 (1,03-4,71)
HIV 1,6357 0,6028 7,3625 0,0067 5,133 (1,57-16,73)
Wiek 0,0062 0,0204 0,0911 0,7628 1,006 (0,97-1,05)

82 Podstawowe techniki analizy danych


Wyniki te wskazują, że pozytywność HSV-2 (p = 0,04) W dodatku przebycie syfilisu wiąże się czasem (na po­
oraz obecność HIV (p = 0,007) są niezależnie powiązane ziomie tendencji) z serostatusem HHV-8. Chociaż związek
z infekcją HHV-8; osobnicy, którzy są HSV-2 seropozy- ten jest w zasadzie nieistotny (p = 0,09), należy zauważyć,
tywni mają 2,21 (= exp[0,7910]) razy większą szansę by­ że przedział ufności nie zawiera wartości ilorazu szans tak
cia HHV-8 seropozyfywnymi niż ci. którzy byli seroncga- dużego jak 13,28. Przeciwnie, brak niezależnego powiąza­
tywni pod względem HSV-2, po dokonaniu korekcji na nia pomiędzy przebyciem rzeżączki a seropozytywiiością
inne choroby. Innymi stówami, szansa seropozytywności HHV-8 sugeruje, że zmienna ta okazuje się, na podstawie
HHV-8 u tych osobników wzrasta o 121%. Górna granica testu Chi-kwadrat (rozdział 24), związana ze statusem sero­
przedziału ufności dla ilorazu szans pokazuje, że ta logicznym HHV-8 ze względu na to, że wiciu mężczyzn, któ­
zwiększona szansa muże wynosić aż 371%. Zakażenie rzy chorowali na jedną z innych chorób przenoszonych dro­
IISV-2 jest dobrze udokumentowanym wskaźnikiem ak­
gą płciową, w przeszłości miało również rzeżączkę. Brak
tywności seksualnej. Zatem, zamiast traktować HSV-2
jest istotnego związku pomiędzy seropozytywiiością HHV-8
jako przyczynę infekcji HHV-8, można posłużyć się nim
a wiekiem; iloraz szans wskazuje, że szacowana szansa se­
j.iko wskaźnikiem aktywności seksualnej osobnika.
ropozytywności HHV-8 rośnie o 0,6% z każdym rokiem.
Co więcej, efekt multiplikatywiiy modelu sugeruje, że
mężczyźni, którzy byli zarówno HSV-2, jak i HIV seropo- Prawdopodobieństwo, że 51-letni mężczyzna ma infek­
zyiywni, maj^ oszacowane szanse infekcji IIHV-8 jako cję HHV-8, jeżeli miał rzeżączkę i jest HSV-2 pozytywny
2,206 x 5,133 = 11,3 razy większe w porównaniu do męż­ (lecz nie miał syfilisu i nie jest HIV dodatni) jest os2aco-
czyzn, którzy byli w obu przypadkach seronegatywni, po wane na 0,35, tj. exp[-O,6077}/fl + exp(-0,6077)}, gdzie
dokonaniu korekcji na inne choroby. -0,6077 = 0,2242 + 0,5093 + 0,7910 + (0,0062 x 51).

30. Wyniki binarne i regresja logistyczna 83


31 CZĘSTOŚCI I REGRESJA POISSONA

CZĘSTOŚCI Porównanie częstości z ryzykiem


Ryzyko zdarzenia (rozdział 15) jest po prostu całkowitą liczbą
W każdym badaniu longitudinalnym (rozdział 12), analizu­
zdarzeń podzieloną przez liczbę osobników włączonych do ba­
jąc zajście jakiegoś zdarzenia (takiego jak śmierć), powinni­
dania w chwili jego rozpoczęcia, bez uwzględnienia długości
śmy wziąć pod uwagę, że osobnicy są obserwowani zwykle
obserwacji. Na skutek tego ryzyko zdarzenia będzie wyższe
przez różny czas. Dzieje się tak dlatego, że część osobników
dla osobników dłużej obserwowanych, gdyż mają oni większą
wypada z badania, albo dlatego, iż są oni włączani do bada­
szansę na to zdarzenie. Natomiast częstość zdarzenia może
nia w różnym czasie: stąd czasy obserwacji różnych osób
pozostawać w takich okolicznościach stosunkowo stabilna,
mogą się różnić na końcu badania. Ponieważ ci z dłuższym
gdyż bierze się w niej pod uwagę czas trwania obserwacji.
czasem obserwacji mają większą szansę doświadczyć zda­
rzenia niż ci z krótszym czasem obserwacji, bierzemy pod
Częstości względne
uwagę częstość, z jaką w pewnym okresie pojawia się zda­
Możemy być zainteresowani porównaniem częstości wystę­
rzenie. Często dogodną jednostką czasu jest rok (lecz może
powania choroby w grupie osobników narażonych na bada­
to być również minuta, dzień, tydzień itp.). Wtedy częstość
zdarzeń na osobę w ciągu roku (tj. na osoborok obserwacji) ny czynnik (CzęstoścWażeni) z częstością w grupie osobni­
jest dana jako: ków nienarażonych (CzęstOŚĆnienarażeni).
CzęstOŚĆnarażeni
Liczba pojawiających się zdarzeń Częstość względna = -— —
Częstość = CzęstOŚĆnienarażeni
Całkowita liczba lat obserwacji
Częstość względna (lub stosunek częstości, czasami
dla wszystkich osobników
określany jako stosunek częstości zachorowalności) jest in­
Liczba pojawiających się zdarzeń terpretowana w podobny sposób jak ryzyko względne (roz­
Osobolata obserwacji dział 15) i jak iloraz szans (rozdziały 16 i 30); częstość
względna równa 1 (jedności) wskazuje, że częstość choroby
Długość obserwacji każdego osobnika jest zwykle zdefi­ jest taka sama w obu grupach, częstość względna większa
niowana jako czas od włączenia go do badania do chwili, niż jeden wskazuje, że częstość jest większa dla narażonych
kiedy pojawiło się zdarzenie lub badanie zakończyło się, na­ na czynnik niż u nienarażonych, a częstość względna mniej­
wet jeśli zdarzenie się nie pojawiło. Całkowity czas obser­ sza niż jeden wskazuje, że częstość jest mniejsza w grupie
wacji jest sumą czasów obserwacji wszystkich osobników. eksponowanych na czynnik.
Częstość nazywana jest zachorowalnością, jeżeli zdarze­
Chociaż częstość względną często traktuje się jako osza­
niem jest nowy przypadek (np. choroby), lub umieralnością, cowanie ryzyka względnego, częstość względna i ryzyko
jeżeli zdarzeniem jest śmierć. względne będą zbliżone, gdy zdarzenie (np. choroba) jest
W przypadku bardzo małej częstości często wygodnie rzadkie. Gdy jednak zdarzenie nie jest rzadkie i osobnicy
jest przemnożyć ją przez dogodny czynnik, taki jak 1 000, są obserwowani przez zmieniające się okresy, częstość,
i wyrazić jako częstość na 1000 osobolat obserwacji. a przez to również częstość względna nie będą zaburzane
przez różne czasy obserwacji. Nie dzieje się tak w przypad­
Cechy częstości
ku ryzyka względnego i ryzyka, dlatego ryzyko względne
• Gdy obliczamy częstość, nie rozróżniamy pomiędzy osobo- ulega zmianom, gdy osobnicy podlegają obserwacjom przez
latami obserwacji dotyczącymi tego samego, czy też różnych dłuższy czas. Stąd, gdy w badaniu czasy obserwacji ulegają
osobników. Na przykład, liczba osobolat obserwacji 10 osob­ zmianom między osobnikami, zwykle stosujemy częstość
ników, z których każdy był obserwowany 1 rok, będzie taka względną.
sama jak 1 osobnika obserwowanego przez 10 lat.
• To, czy włączamy również zdarzenia wielokrotne do­
tyczące każdego osobnika (tzn. jeżeli zdarzenie może zacho­ REGRESJA POISSONA
dzić więcej niż jeden raz), zależy od badanej hipotezy. Jeże­ Co to jest?
li interesują nas tylko pierwsze zdarzenia, musimy uciąć Rozkład Poissona jest rozkładem prawdopodobieństwa (roz­
obserwację w punkcie, w którym następuje pierwsze zda­ dział 8) zliczeń rzadkich zdarzeń, które pojawiają się losowo
rzenie u danego osobnika, gdyż od tej pory nie dotyczy go w czasie (lub przestrzeni) ze stałą przeciętną częstością. Sta­
ryzyko zajścia pierwszego zdarzenia. Gdy do obliczenia czę­ nowi on podstawę regresji Poissona, której używa się do ana­
stości włączamy zdarzenia wielokrotne dotyczące tego sa­ lizy częstości niektórych zdarzeń (np. choroby), gdy osobnicy
mego osobnika, otrzymujemy szczególny rodzaj danych kla- mają różne czasy obserwacji. Kontrastuje ona z regresją logi­
steryzowanych (rozdział 41) i należy stosować specjalne styczną (rozdział 30), która zajmuje się tylko tym, czy zdarze­
metody statystyczne (rozdziały 41 i 42). nie wystąpiło, czy też nie, i jest używana do estymacji ilora­
• Częstość nie może być obliczana w badaniach przekro­ zu szans.
jowych (rozdział 12), ponieważ tego typu badanie nie zawie­ W regresji Poissona zakładamy, że częstość zdarzenia
ra informacji o czasie. u osobników z takimi samymi zmiennymi wyjaśniającymi
(np. wiek i płeć) jest stała w całym okresie badania. Ogól-

84 Podstawowe techniki analizy danych


nie, chcemy wiedzieć, które zmienne wyjaśniające wpływa­ o wiele mniej wymagający pod względem obliczeniowym.
ją na częstość zdarzeń, a także możemy chcieć porównać te Jednakże wyniki otrzymane na podstawie tego modelu są ta­
częstości w różnych grupach ryzyka i/lub prognozować czę­ kie same, jakie otrzymalibyśmy, tworząc model częstości.
stość dla grup osobników z określoną charakterystyką.
Wprowadzanie danych dla grup
Równanie i jego interpretacja Zauważmy, że kiedy wszystkie zmienne wyjaśniające są kate-
Model regresji Poissona przybiera bardzo podobną formę do gorialne, możemy skorzystać z faktu, iż w obliczeniach często­
modelu regresji logistycznej (rozdział 30); oba modele mają ści w celu uproszczenia procesu wprowadzania danych nie
(zwykle) liniową kombinację zmiennych wyjaśniających po rozróżnia się między osobolatami obserwacji dla tego samego
prawej strome równania. Analiza regresji Poissona jest także osobnika a osobolatami u różnych osobników. Na przykład,
zwierciadlanym odbiciem analizy regresji logistycznej, ponieważ możemy być zainteresowani wpływem tylko dwóch zmiennych
transformujemy w niej zmienną wynikową w celu ominięcia wyjaśniających, płci (mężczyzna lub kobieta) oraz wieku {< 16,
trudności matematycznych. Stosujemy transformację logaryt- 16-20 i 21-25 lat), na częstość jakiegoś zdarzenia. Te dwie
mowania z podstawą naturalną (In) częstości oraz proces ite- zmienne definiują sześć grup (tj. mężczyźni w wieku < 16 łat,
racyjny (największa wiarygodność, rozdział 32) do stworzenia kobiety w wieku < 16 lat, ..., kobiety w wieku 21-25 lat). Mo­
z danych z próby oszacowanego równania regresji o postaci: żemy uprościć wprowadzanie tych danych przez wyznaczenie
całkowitej liczby zdarzeń dla wszystkich osobników w obrębie
tej samej grupy i wszystkich osobolat dla tych osobników.
Oszacowana częstość w każdej grupie jest wtedy obliczana ja­
• x. jest f-tą zmienną wyjaśniającą (i= 1, 2, 3,..., k);
ko całkowita liczba zdarzeń podzielona przez liczbę osobolat
* r jest oszacowaną wartością średnią lub oczekiwaną
obserwacji w tej grupie. W tym podejściu nie wprowadzamy
częstością dla osobników z określonym zestawem wartości
danych po kolei dla każdego z n osobników, ale dla każdej
dla
z 6 grup, wprowadzając do modelu binarne i ślepe zmienne
• a jest oszacowanym członem stałym, pozwalającym na
(rozdział 29), osobno dla płci i wieku. Zauważmy, że wprowa­
obliczenie logarytmu częstości, gdy wszystkie xt w równaniu
dzając dane w ten sposób, nie możemy dostosować współ-
przybierają wartość zero (logarytm częstości podstawowej);
zmiennych numerycznych do zdefiniowania grup lub włącze­
• są oszacowywanymi współczynnikami re­
nia do modelu dodatkowej współzmiermej, która dla
gresji Poissona. Eksponenta poszczególnych współczynni­
osobników w grupie przybiera różne wartości.
ków, np. e°i, jest oszacowaną częstością względną powiąza­
ną z odpowiednią zmienną. Dla pewnej wartości xx jest
oszacowaną częstością choroby dla (xl + 1) w stosunku do Włączanie zmiennych zmieniających się w czasie
os2acowanej częstości choroby dla x ] ; przy skorygowaniu Możliwe jest włączenie do modelu zmiennych zmian w cza­
wszystkich pozostałych x( w równaniu. Gdy częstość względ­ sie przez podzielenie okresu obserwacji na krótsze odcinki.
na jest równa jedności, wtedy częstość zdarzeń pozostaje Na przykład, może nas interesować powiązanie palenia pa­
taka sama, gdy Xj wzrasta o jednostkę. Wartość częstości pierosów z częstością wystąpienia raka płuc w grupie męż­
względnej powyżej jedności wskazuje na zwiększoną czę­ czyzn w średnim wieku. Podczas długiego okresu obserwa­
stość, a wartość poniżej jedności wskazuje na zmniejszoną cji wielu z tych mężczyzn może rzucić palenie i w rezultacie
częstość zdarzeń, gdy Xj wzrasta o jednostkę. częstości wystąpienia raka płuc mogą być zaniżone. Zatem
Podobnie jak w przypadku regresji logistycznej, modele kategoryzowanie mężczyzn zgodnie z ich statusem palenia
regresji Poissona dopasowuje się na skali logarytmicznej. Za­ na początku badania może w słabym stopniu odzwierciedlać
tem wpływ xrów na częstość choroby jest multiplikatywny. wpływ palenia na raka płuc. Zamiast tego dzielimy obserwa­
Z równania regresji Poissona możemy korzystać w celu cje każdego mężczyzny na krótsze przedziały czasowe w ten
oszacowania częstości zdarzeń dla osobnika z określoną sposób, że jego status palenia pozostaje stały w każdym
kombinacją wartości xl? ..., xk. Dla każdego zbioru wartości przedziale. Przeprowadzamy następnie analizę regresji Po­
współzmiennych xv ..., xk, obliczamy issona, traktując informacje o krótkich przedziałach czaso­
wych dla każdego mężczyzny (tj. wystąpienie/niewystąpie-
nie zdarzenia, czas obserwacji i status palenia) tak, jakby
pochodziły one od różnych mężczyzn.
Wtedy częstość zdarzenia dla tego osobnika jest określo­
na jako 9*.
Wynik komputerowy
Użycie wartości wyrównujących Obszerny wydruk komputerowy wyników analizy regresji
Chociaż tworzymy model częstości, z jaką pojawia się zdarze­ Poissona zawiera dla każdej zmiennej wyjaśniającej oszaco­
nie (tj. liczbę zdarzeń podzieloną przez liczbę osobolat obser­ wany współczynnik regresji Poissona wraz z błędem stan­
wacji), większość pakietów statystycznych wymaga podania dardowym, oszacowaną częstość względną (tj. eksponentę
jako zmiennej zależnej liczby pojawiających się zdarzeń, a nie współczynnika) z przedziałem ufności dla jego prawdziwej
częstości jako takiej. Jako wartość wyrównująca do modelu wartości oraz statystykę Walda (testowanie hipotezy zero­
włączany jest wtedy logarytm osobolat obserwacji każdego wej, że współczynnik regresji jest równy zero lub że czę­
osobnika. Zakładając, że jesteśmy zainteresowani wyłącznie stość względna „choroby" związana z tą zmienną jest jedno­
włączaniem pojedynczego zdarzenia dla osobnika, liczba zda­ ścią) i związaną z nią wartość p. Podobnie jak w przypadku
rzeń pojawiających się dla każdego osobnika przyjmuje albo wyników regresji logistycznej (rozdział 30), możemy ocenić
wartość 0 (gdy zdarzenie nie pojawiło się) lub 1 (gdy zdarze­ adekwatność modelu, używając -2 log wiarygodności (LRS
nie się pojawiło). Jest to więc nieco odmienne sformułowanie lub dewiancję) i modelu Chi-kwadrat lub Chi-kwadrat dla
modelu, które pozwala generować estymatory w sposób współzmiennych (patrz również rozdział 32).

31. Częstości i regresja Poissona 85


Zmienność ekstra-Poissonowska wskazywać na zwiększony rozrzut. Może się również pojawić
Podczas dopasowywania modelu regresji Poissona należy zaniżony rozrzut, gdzie wariancja resztowa jest mniejsza, niż
zwrócić uwagę na możliwość wystąpienia zmienności ekstra- należałoby się spodziewać na podstawie modelu Poissona
-Poissonowskiej, która zwykle zwiększa rozrzut. Dzieje się i gdzie stosunek -2 log wiarogodności do n - k jest istotnie
tak, gdy wariancja resztowa jest większa, niż należałoby mniejszy od jedności (np. jeżeli nie można dokładnie zareje­
oczekiwać na podstawie modelu Poissona, co prawdopodob­ strować dużych zliczeń). Zaniżony i zawyżony rozrzut może
nie wynika z obecności wartości odskakujących (rozdział 3) również stanowić problem przy regresji logistycznej (rozdział
lub z powodu niewłączenia do modelu ważnej zmiennej wyja­ 30), gdzie odnosi się on do zmienności ekstradwumianowej.
śniającej. Wtedy błędy standardowe są zwykle niedoszaco-
wane i w konsekwencji przedziały ufności dla parametrów są Alternatywa dla analizy Poissona
zbyt wąskie, a wartość p jest za mała. Sposobem badania Gdy obserwujemy grupę osobników od naturalnego „punk­
możliwości wystąpienia zwiększonego rozrzutu jest podziele­ tu startowego" (np. operacji) do czasu, kiedy osoba osiąga
nie -2 log wiarogodności (LRS lub dewiancji) przez liczbę badany punkt końcowy, możemy użyć alternatywnego
stopni swobody n-k, gdzie n jest liczbą obserwacji w zbio­ podejścia, znanego jako analiza przeżycia, która w przeci­
rze danych, a k jest liczbą dopasowywanych parametrów wieństwie do regresji Poissona nie zakłada, że ryzyko (czę­
w modelu (przy uwzględnieniu członu stałej). Ten iloraz powi­ stość zdarzenia w krótkim okresie) jest stałe w C2asie.
nien w przybliżeniu równać się 1, gdy nie występuje zmien­ Podejście to zostało opisane w rozdziale 44.
ność ekstra-Poissonowska, wartości dużo powyżej 1 mogą

PRZYKŁAD
Osobnicy zarażeni HIV, leczeni bardzo aktywną terapią Podczas całkowitej obserwacji 718 osobolat 61 pacjentów
antyretrowirusową (HAART), doświadczają zazwyczaj za­ doznało BETPLP, nieskorygowana częstość zdarzenia wynosi
niku obciążenia wirusem HIV do poziomu poniżej granicy 8,50 na 100 osobolat (95% przedział ufności: 6,61, 10,92),
wykrywalności (odpowiedź pierwotna). Jednakże część Nieskorygowane częstości BETPLP wynosiły 8,13 (6,31,
7. nich może po tej fazie doświadczyć braku efektu terapeu­ 10,95) w pierwszym roku od pierwotnej odpowiedzi na tera­
tycznego po leczeniu przeciwwirusowym (BETPLP); zda­ pię, 12,22 (7,33, 17,12) w drugim roku oraz 3,99 (1,30, 9,31)
rza się lak, gdy obciążenie wirusem osobnika staje się w późniejszych latach. Wyniki z rrrodelu regresji Poissona za­
ponownie wykrywalne podczas terapii. Identyfikacja czyn­ wierają tylko dwie zmienne ślepe (rozdział 29) odzwierciedla­
ników związanych ze wzrastającą częstością BETPLP jące kategorie 1-2 i > 2 lat. Każda była porównywana z < 1
może po/wolk": na podjecie kroków mających na celu zapo- lat, gdyż początkowa odpowiedź na terapię sugerowała, ze
bieganifi lakiin zdarzeniom. Istnieją podstawy, by sądzić, czas od początkowej odpowiedzi wirusologicznej był istotnie
yr. częstość BETPLP może wzrastać z czasem terapii. powiązany z BETPLP (p = 0,04). Dodatkowo, w modelach re­
Ponirważ w badaniu tym pacjenci są obserwowani przez gresji Poissona jednej zmiennej BETPLP była znacząco zwią­
rożny okres, należy zastosować analizę regresji Poissona. zana z płcią (p - 0,03), jego/jej początkową liczbą CD8 (p =
Zidentyfikowano 516 pacjentów, u których wystąpiła = 0,01) oraz statusem leczenia w chwili rozpoczęcia bieżące­
pierwotna odpowiedź na leczenie, i obserwowano ich do go trybu leczenia (uprzednio otrzymywał leczenie, nigdy nie
czasu BETPLP lub do czasu ostatniej obserwacji, jeżeli ob­ otrzymywał leczenia, p = 0,008). Wykonano zatem analizę re­
ciążenie wirusem pozostawało w tym czasie stłumione. Ob­ gresji Poissona wielu zmiennych w celu określenia związku
serwacja rozpoczynała się od pierwszej chwili, gdy obciąże­ pomiędzy BETPLP i czasem trwania terapii po uwzględnieniu
nie wirusem stawało się niewykrywalne. Najbardziej pozostałych zmiennych. Wyniki podsumowano w tablicy 31.1;
interesującą zmienną wyjaśniającą był czas leczenia, jaki pełny wynik komputerowy zawiera Dodatek C.
upłyną! od odpowiedzi początkowej, lecz wartości tej zmien­ Wyniki z tego wielowymiarowego modelu sugerują, że
nej W okresie badania nieustannie się zmieniają dla każde­ istnieje trend w kierunku wyższych częstości BETPLP
go pacjenta. Dlatego, w celu zbadania, czy częstość BETPLP w okresie 1-2 łat po początkowej odpowiedzi w porówna­
zmieniała sie w czasie, czas leczenia od odpowiedzi począt­ niu z widoczną w pierwszym roku (częstość BETPLP wzro­
kowej podzielono na trzy przedziały czasowe: < 1, 1-2 oraz sła o 53% w okresie 1-2 lat), lecz po drugim roku częstość
> 2 lat (powstało w ten sposób 988 zestawów obserwacji), została obniżona (częstość BETPLP została zredukowana
przyjęto ogólne założenie, że częstość BETPLP była w przy­ o 44% w tym okresie w porównaniu z poziomem widocz­
bliżeniu stała w każdym przedziale. Porównano potem nym w pierwszym roku po pierwotnej odpowiedzi), żaden
częstości BETPLP w trzech przedziałach czasowych. Wpro­ z tych wyników nie byt jednak istotny statystycznie. Po
wadzono dane do arkusza (długość okresu obserwacji skorygowaniu ze względu na wszystkie inne zmienne
w przedziałach, wystąpienie lub nie BETPLP w tych prze­ w modelu pacjenci, którzy otrzymywali swoje pierwsze le­
działach i odpowiednie zmienne wyjaśniające) dla każdego czenie, mieli oszacowaną częstość BETPLP o 44% niższą od
pacieula w każdym przedziale, w którym był on obserwo­ tych pacjentów, którzy wcześniej byli leczeni, oszacowana
wany. Rozważane zmienne wyjaśniające zawierały dane częstość BETPLP u mężczyzn była o 39% mniejsza niż u ko­
demograficzne, informację o etapie choroby w chwili rozpo­ biet (nie było to statystycznie istotne), a oszacowana czę­
częcia leczenia, roku rozpoczęcia HAART oraz o tym, czy stość BETPLP została zredukowana o 65%, jeżeli pierwot­
pacjent otrzymywał leczenie w przeszłości. na liczba CD8 była o 100 komórek/mm3 wyższa.
W celu ograniczenia liczby współzmiennych w modelu Przykłady opisane w rozdziałach 32 i 33 pozwalają zapo­
regresji Poissona z wieloma zmiennymi do zidentyfikowa­ znać się z dodatkowymi analizami, które dotyczą tego mode­
nia współzmiennych związanych z BETPLP użyto osob­ lu Poissona, zawierającymi oszacowania podwyższonego roz­
nych modeli Poissona jednej zmiennej dla każdej współ- rzutu, jakości dopasowania oraz liniowości współzmiennych.
zmieruiej (patrz rozdział 34).

86 Podstawowe techniki analizy danych


Tablica 31.1. Wyniki wielozmiennej analizy regresji Poissona czynników związanych z brakiem efektu terapeutycznego po leczeniu
przeciwwirusowym (BETPLP).

Oszacowana 95% przedział Wartość p


Oszacowanie Błąd częstość ufności dla dla statystyki
Zmienna* parametru standardowy względna częstości względnej Walda"
Czas od początkowej odpowiedzi
na leczenie (lata) < 1 odniesienie 1
1-2 0,4256 0,2702 1,53 0,90, 2,60 0,12
>2 -0,5835 0,4825 0,56 0,22, 1,44 0,23
Status leczenia
Leczenie stosowane uprzednio (0) odniesienie 1
Nigdy nio stosowano leczenia (1) -0,5871 0,2587 0,56 0,33, 0,92 0,02
PlCó
Kobieta (0) odniesienie 1
Mężczyzna (1) -0,4868 0,2664 0,61 0,36, 1,04 0,07
Liczba CD8 (na 100 komórek/mm )
3
-1,0558 0,0267 0,35 0,33, 0,37 0,04

* W nawiasach podano kody dla zmiennych binarnych (płeć i status leczenia). Czas od początkowej odpowiedzi na leczenie uwzględnio­
no przez włączenie zmiennej ślepej, co miało na celu odzwierciedlenie okresów 1-2 lat oraz > 2 lata od początkowej odpowiedzi.
** Alternatywna metoda oszacowania istotności zmiennej kategorialnej z więcej niż dwoma kategoriami została opisana w rozdziałach
32 i 33.

Adaptowano z pracy; Ms Coletto Smith, Department of Primary Care and Population Sciences, Royal Free and University College Me-
dical School, liindyn. Wielka Brytania.

31. Częstości i regresja Poissona 87


32 UOGÓLNIONE MODELE LINIOWE

Modelowanie statystyczne obejmuje prostą i wielokrotną re­ dy odpowiednim modelem będzie regresja logistyczna.
gresję liniową (rozdziały 27-29), regresję logistyczną (roz­ Zauważmy, że dzięki modyfikacji formatu naszej zmiennej za­
dział 30), regresję Poissona (rozdział 31) oraz pewne metody leżnej możemy Wybrać różne rodzaje modelu. W szczególno­
używane w przypadku danych przeżycia (rozdział 44). ści, jeżeli mamy ciągłą numeryczną zmienną wynikowa, lecz
Wszystkie one polegają na tworzeniu modelu matematycz­ co najmniej jedno z założeń regresji liniowej nie zostało speł­
nego, który najlepiej opisuje związek między zmienną wyj­ nione, możemy dokonać kategoryzacji naszej zmiennej wyni­
ściowa a jedną lub większą liczbą zmiennych wyjaśniają­ kowej na dwie grupy w celu wytworzenia nowej wynikowej
cych. Tworzenie takiego modelu pozwala na określenie zmiennej binarnej. Na przykład, jeżeli nasza zmienna zależ­
stopnia, w jakim każda zmienna wyjaśniająca jest powiąza­ na jest skurczowym ciśnieniem krwi (zmienna ciągła nume­
na Ze zmienną wynikową, po wzięciu pod uwagę wszystkich ryczna) po okresie sześciomiesięcznej terapii przeciwnadci-
pozostałych zmiennych wyjaśniających w modelu. Pozwala śnieniowej, możemy wykonać przy użyciu określonej
to również na prognozowanie wartości wyjściowej na pod­ wartości odcięcia dychotomizację skurczowego ciśnienia
stawie tych danych wyjaśniających. krwi na wysokie lub niskie, a następnie zastosować regresję
Uogólniony model liniowy (GLM - generalized linear logistyczną do identyfikacji czynników związanych z tą binar­
model) można wyrazić w postaci ną zmienną wyjściową. Jakkolwiek dychotomizacja tym spo­
sobem zmiennej zależnej może uprościć dopasowanie i inter­
g(Y) = a+ bxxx + b2x2 + ... + bkxk pretację modelu statystycznego, część informacji o zmiennej
gdzie Fjest oszacowaną wartością średnią lub oczekiwaną zależnej zostanie zwykle pominięta. Dlatego należy dokładnie
zmiennej zależnej, która podlega znanemu rozkładowi praw­ rozważyć zalety i wady tego podejścia.
dopodobieństwa (np. normalnemu, dwumianowemu, Poisso­
na); g(Y), zwana funkcją łączącą, jest transformacją Y, która WIARYGODNOŚĆ I ESTYMACJA
tworzy liniowy związek z x 1 ? ..., xk, zmiennymi predykcyjny-
mi lub wyjaśniającymi; bh ..., bksą oszacowanymi współczyn­ NAJWIĘKSZEJ WIARYGODNOŚCI
nikami regresji, które odnoszą się do tych zmiennych wyja­ Gdy dopasowujemy GLM, do oszacowania parametrów mode­
śniających; a jest członem stałej. lu odwołujemy się na ogół do koncepcji wiarygodności. Dla
Każdy z modeli predykcyjnych opisany we wcześniej­ każdego GLM scharakteryzowanego przez znany rozkład
szych rozdziałach może być wyrażony jako szczególny rodzaj prawdopodobieństwa, zbiór zmiennych wyjaśniających oraz
GLM (tablica 32.1). Funkcja wiążąca jest logitem proporcji pewnych potencjalnych wartości dla każdego z ich współ­
(tj. loź s z szans) w regresji logistycznej oraz log e częstości czynników regresji, wiarygodnością modelu (L) jest prawdo­
W regresji Poissona. W prostej i wielokrotnej regresji linio­ podobieństwo, które uzyskalibyśmy, biorąc współczynniki re­
wej nie ma potrzeby transformowania zmiennej zależnej; gresji otrzymane z wartości obserwowanych. Oszacowujemy
funkcja wiążąca odnosi się wtedy do funkcji tożsamościo­ współczynniki modelu przez dobór wartości dla współczynni­
wej. Jeżeli określimy typ regresji, jaki chcemy przeprowa­ ków regresji, które maksymalizują L (tj. są tymi wartościami,
dzić, większość pakietów statystycznych wbuduje do obli­ które najprawdopodobniej wytworzyły obserwowane przez
czeń w sposób automatyczny funkcję wiążącą tak, że nie nas wyniki); proces nazywa się oszacowaniem największej
będzie potrzeby dokonywania dalszych specyfikacji. wiarygodności (MLE — mcucimum likelihood estimatiori)
i wyznacza estymatory największej wiarygodności. MLE
jest procesem iteracyjnym i dlatego wymaga specjalnego
JAKI WYBIERZEMY RODZAJ MODELU? oprogramowania komputerowego. Jedynym wyjątkiem dla
Wybór odpowiedniego modelu zależy od badanej zmiennej MLE jest przypadek modelu prostej i wielokrotnej regresji li­
wynikowej (tablica 32.1). Na przykład, jeżeli nasza zmienna niowej (z tożsamościową funkcją łączącą), gdzie zwykle osza­
zależna jest ciągłą zmienną numeryczną, możemy użyć pro­ cowujemy parametry, stosując metodę najmniejszych kwa­
stej lub wielokrotnej regresji liniowej w celu zidentyfikowa­ dratów (estymatory są często określane jako estymatory zwy­
nia czynników związanych z tą zmienną. Jeżeli mamy binar­ czajnych najmniejszych kwadratów (OLS — ordinary least
ną zmienną wynikową (np. pacjent zmarł lub nie zmarł), squares, rozdział 27); w tej sytuacji estymatory OLS i MLE
a wszyscy pacjenci są obserwowani przez ten sam czas, wte­ są identyczne.

Tablica 32.1. Wybór odpowiedniego typu GLM w zależności od różnych typów wyników.

Typ wyniku Zwykle stosowany typ GLM Patrz rozdział


Ciągły numeryczny Prosty lub wielokrotny liniowy 28, 29
Binarny
Zachorowalność w badaniach longitudinalnych Logistyczny 30
(pacjenci badani w różnych odstępach czasu)
Wynik binarny w badaniu przekrojowym Logistyczny 30
Niesparowane badanie przekrojowe Logistyczny 30
Sparowane badanie przekrojowe Warunkowy logistyczny 30
Wynik kategorialny z więcej niż dwoma kategoriami Wielopoziomowa lub porządkowa regresja logistyczna 30
Częstość zdarzeń lub liczba Poissona 31
Czas do zdarzenia* Model Eksponencjalny, Weibulla lub Gompertza 44

88 Podstawowe techniki analizy danych


OSZACOWANIE ADEKWATNOŚCI cie). Hipoteza zerowa stwierdza, że wszystkie dodatkowe pa­
rametry w większym, wysycanym modelu są równe zero;
DOPASOWANIA
duże wartości LRS dają wynik istotny, wskazujący, że ja­
Chociaż MLE maksymalizuje L dla danego zestawu zmiennych kość dopasowania modelu jest słaba.
wyjaśniających, zawsze możemy dalej poprawić L przez włą­ LRS stosuje się także w innych sytuacjach. W szczególno­
czenie dodatkowych zmiennych wyjaśniających. W najbardziej ści LRS można użyć do porównania dwóch modeli, z których
krańcowym przypadku model wysycony to taki, który zawiera żaden nie jest wysycony, gdy jeden model jest zagnieżdżony
osobną 2mienną dla każdej obserwacji w zestawie danych. w drugim (tj. większy model zawiera wszystkie 2mienne włą­
Chociaż model taki będzie wyjaśnia! dane idealnie, w prakty­ czone do mniejszego modelu, również zmienne dodatkowe).
ce ma ograniczone zastosowanie, gdyż prognozy przyszłych W tej sytuacji statystyka testowa jest różnicą pomiędzy war­
obserwacji z tego modelu będą prawdopodobnie słabe. Model wy­ tościami LRS z modelu zawierającego dodatkowe zmienne
sycony pozwala jednak obliczyć wartość L, którą uzyskalibyśmy, oraz z modelu, który te zmienne wyklucza. Statystyka testo­
gdybyśmy w idealny sposób mogli modelować dane. Porównanie wa podlega rozkładowi Chi-kwadrat z liczbą stopni swobody
tej wartości L z wartością otrzymaną po dopasowaniu prostszym równą liczbie dodatkowych parametrów włączonych do więk­
modelem z mniejszą liczbą zmiennych pozwala określić ade- szego modelu i jest stosowana do testowania hipotezy zero­
kwatność dopasowania modelu. W celu porównania tych dwóch wej, że wszystkie dodatkowe parametry w większym modelu
modeli bierzemy pod uwagę stosunek wiarygodności, stosunek są równe zero. LRS możemy również użyć do testowania hipo­
wartości L uzyskanej z modelu wysycanego do wartości uzyska­ tezy zerowej, że wszystkie parametry związane ze współ-
nej z modelu dopasowanego. Statystykę stosunku wiarygodno­ zmiennymi modelu są równe zero, porównując LRS modelu,
ści (LRS) obliczamy jako: który zawiera współzmienne, z LRS modelu, który je wyklu­
cza. Określa się to często jako Model Chi-kwadrat lub
Chi-kwadrat dla wspólzmiennych (rozdziały 30 i 31).

DIAGNOSTYKA REGRESYJNA
Gdy przeprowadzamy jakąkolwiek analizę regresji, ważne
LRS, często określany jako -2 log wiarygodność (rozdzia­ jest uwzględnienie serii diagnostyk regresyjnych. Pozwalają
ły 30 i 31) lub jako dewiancja sumy kwadratów odchy­ one na zbadanie dopasowanych modeli regresji i przyjrzenie
leń względem średniej, podlega w przybliżeniu rozkładowi się defektom, które mogą wpływać na estymatory parame­
Chi-kwadrat z liczbą stopni swobody równą różnicy liczby pa­ trów i ich błędów standardowych. W szczególności musimy
rametrów dopasowanych w dwóch modelach (tj. n - k, gdzie rozważyć, czy założenia leżące u podstaw modelu nie zosta­
n oznacza liczbę obserwacji w zestawie danych, a k jest licz­ ły pogwałcone (rozdział 28) i czy nasze wyniki nie są silnie
bą parametrów prostszego modelu, uwzględniającą przecie- zaburzone przez pomiary wpływające (rozdział 29).

PRZYKŁAD
W przykładzie w rozdziale 31 użyliśmy testu Walda do iden­ nicę pomiędzy wartościami uzyskanymi dla -2 log wiary­
tyfikacji poszczególnych czynników związanych z nawrotem godności (tj. LRS lub dewiancja) z każdego z modeli (tablica
wiremii w grupie 516 pacjentów z HIV (z 988 zbiorami ob­ 32.2). Pełny wydruk komputerowy został załączony w Do­
serwacji), którzy byli leczeni wysoce aktywną terapią anty- datku C. Włączenie dwóch zmiennych ślepych było związa­
retrowirusowa (HAAHT). W szczególności chcielibyśmy się ne z redukcją -2 log wiarygodności o wartość 5,53 (= 393,12 -
dowiedzieć, czy częstość braku efektu terapeutycznego po - 387,59). Statystyka tego testu podlega rozkładowi
leczeniu przeciwwirusowym (BETPLP) wzrosła w czasie, po Chi-kwadrat z 2 stopniami swobody (2 dodatkowe parame­
uwzględnieniu innych potencjalnie uwikłanych zmiennych, try dołączono do większego modelu). Wartość p związana
które byiy związane z BETPLP. Chociaż najbardziej intere­ z tym testem statystycznym wynosiła 0,06, więc związek
sujący nas wynik jest binarny (pacjent miał BETPLP, pa­ między BETPLP a czasem od odpowiedzi pierwotnej jest
cjent nie miał BETPLP), wybrałyśmy model regresji Poisso- w zasadzie nieistotny. Wartość -2 log wiarygodności dla mo­
na zamiast modelu logistycznego, ponieważ poszczególni delu 2 pozwala również określić adekwatność dopasowania
pacjenci byli obserwowani przez różny czas. Zatem zmienną tego modelu przez porównanie jego wartości -2 log wiary
wyjściową dla wykonywanej analizy była częstość zdarzeń. godności z rozkładem Chi-kwadrat z 982 stopniami swobo­
W tym rozdziale wartości p dla zmiennych wyznaczono przy dy. Wartość p uzyskana z tego porównania wynosiła > 0,99,
użyciu statystyki stosunku wiarygodności. W szczególno­ co sugeruje, że jakość dopasowania modelu jest do zaakcep­
ści, do obliczenia wartości p związanej z oboma ślepymi towania. Należy jednak zauważyć, że po włączeniu tych pię­
zmiennymi oznaczającymi czas od pierwszej odpowiedzi na ciu zmiennych do modelu mamy dowód na zaniżenie rozrzu­
leczenie zostały dopasowane dwa modele. Pierwszy zawie­ tu, gdyż stosunek -2 log wiarygodności podzielony przez
rał zmienne związane ze statusem leczenia (uprzednio otrzy­ jego liczbę stopni swobody wynosił 0,39, więc byt znacznie
mywał leczenie, nigdy nie otrzymywał leczenia), płeć i po­ mniejszy od jedności, co sugeruje, że wielkość zmienności
czątkową liczbę CD8 (Model 1); drugi obejmował te zmienne resztowej była mniejsza, niż można by się spodziewać z mo­
i dwie zmienne ślepe (Model 2). Następnie zanalizowano róż­ delu Poissona (rozdział 31).

Tablica 32.2. Wartości -2 Log wiarygodności, liczba stopni swobody i liczba dopasowywanych w modelu parametrów, które wykluczają
i wtaczają czas od początkowej odpowiedzi na leczenie.
Model Włączone zmienne -2 log wiary- Liczba stopni swo- Liczba parametrów dopasowywanych
godności body dla modelu modelu, przy uwzględnieniu przecięcia
1 Status leczenia, płeć. i początkowa liczba CD8 393,12 984 4
2 Status leczenia, pleć i początkowa liczba CD8
oraz 2 zmienne ślepe dla czasu od początkowej
odpowiedzi na leczenie 387,59 982 6

32. Uogólnione modele liniowe 89


33 ZMIENNE WYJAŚNIAJĄCE
W MODELACH STATYSTYCZNYCH

Bez względu na to, jaki wybierzemy rodzaj modelowania sta­ więc związek liniowy między każdą zmienną wyjaśniającą
tystycznego, musimy podjąć decyzję, które zmienne wyjaśnia­ a zmienną zależną. W regresji Poissona oraz logistycznej
jące należy włączyć do modelu i jak najlepiej to uczynić. Decy­ estymator parametru daje miarę wpływu wzrostu o jednost­
zje te będą zależały od typu zmiennych wyjaśniających (nomi­ kę zmiennej wyjaśniającej na logarytm zmiennej zależnej
nalna kategorialna, porządkowa kategorialna lub numeryczna) (tzn. model zakłada związek liniowy pomiędzy zmienną wy­
oraz związku między tymi zmiennymi a zmienną zależną. jaśniającą a logarytmem częstości lub szansy, ale związek
eksponencjalny z aktualną częstością lub szansą). Ważną
NOMINALNE ZMIENNE WYJAŚNIAJĄCE rzeczą jest sprawdzenie poprawności założenia liniowości
(patrz następna sekcja) przed włączeniem numerycznych
Zwykle w celu zbadania w analizie regresji wpływu zmien­ zmiennych wyjaśniających do modeli regresyjnych.
nej wyjaśniającej, nominalnej kategorialnej trzeba stworzyć
zmienne ślepe lub wskazujące (rozdział 29). Zwróćmy uwa- Badanie założenia liniowości
^e, ze przy określaniu adekwatności dopasowania modelu za­ W celu zbadania założenia liniowości w modelu regresyj-
wierającego zmienną nominalną o więcej niż dwóch katego­ nym prostym lub wielokrotnym wykreślamy numeryczną
riach lub przy określaniu istotności tej zmiennej ważne jest zmienną zależną y w funkcji zmiennej wyjaśniającej x lub
włączenie wszystkich zmiennych ślepych w modelu w tym wykreślamy wartości resztowe modelu w funkcji X (rozdział
samym czasie. Jeżeli tego nie zrobimy (tzn. jeżeli włączymy 28). Surowe dane powinny przybliżać linię prostą, a warto­
tylko jedną ze zmiennych ślepych dla określonego poziomu ści resztowe nie powinny mieć charakterystycznego rozkła­
zmiennej kategorialnej), będziemy mogli jedynie częściowo du. Możemy określić założenie liniowości w regresji logi­
określić wpływ tej zmiennej na wynik. Z tego powodu lepiej stycznej (rozdział 30) lub regresji Poissona (rozdział 31),
oceniać istotność zmiennej przy użyciu statystyki testowej kategoryzując osobników na mniejsze podgrupy równej
stosunku wiarygodności (LRS — rozdział 32) niż poprzez ba­ wielkości (5-10 osobników) w zależności od ich wartości dla
danie poszczególnych wartości p dla każdej ślepej zmiennej. x. W regresji Poissona obliczamy logarytm częstości wystę­
powania wyniku w każdej podgrupie i wykreślamy go
PORZĄDKOWE ZMIENNE WYJAŚNIAJĄCE w funkcji środków zakresów wartości x dla odpowiednich
podgrup (rycina 33.1). W regresji logistycznej dla każdej
W sytuacji, gdy mamy zmienną porządkową z więcej niż dwo­ podgrupy wyznaczamy logarytm szans i wykreślamy go
ma kategoriami, możemy zastosować jedno z dwóch podejść. znowu w funkcji środków zakresów. W każdym przypadku,
• Potraktuj zmienną kategorialna jako pomiar ciągły nu­ jeżeli założenie liniowości jest sensowne, powinniśmy się
meryczny, przyporządkowując wartość numeryczną do każ­ spodziewać podobnego stopnia krokowego wzrostu (lub
dej kategorii zmiennej. To podejście w pełni wykorzystuje spadku) w logarytmie częstości lub szans, gdy przechodzi­
uporządkowanie kategorii, lecz zwykle zakłada związek li­ my pomiędzy przyległymi kategoriami x.
niowy (gdy wartości numeryczne są w równych odległo­
ściach) pomiędzy zmienną wyjaśniającą i zmienną zależną
(lub jej transformatą), a to należy sprawdzić.
Radzenie sobie z nieliniowością
Istnieje kilka sposobów postępowania, jeżeli wykryjemy
• Potraktuj zmienną kategorialna jako zmienną wyja­
nieliniowość na którymś z tych wykresów.
śniającą nominalną i stwórz dla niej serię zmiennych ślepych
lub wskaźnikowych (rozdział 29). To podejście nie bierze pod
uwagę uporządkowania kategorii i dlatego traci się w nim
część informacji. Jednakże nie zakłada ono związku liniowe­
go ze zmienną zależną i dlatego jest czasem wybierane.
Różnica w wartościach LRS z obu modeli pozwala uzy­
skać statystykę testową do testowania liniowego trendu
(tj. oszacowania, czy model zakładający liniową zależność
daje lepsze dopasowanie niż model niezakładający związku
liniowego). Statystyka ta podlega rozkładowi Chi-kwadrat
z liczbą stopni swobody równą różnicy w liczbie parame­
trów w obu modelach; istotność wyniku sugeruje nielinio­
wość.

NUMERYCZNE ZMIENNE WYJAŚNIAJĄCE


Gdy do modelu włączamy numeryczną zmienną wyjaśniają­
cą, estymator jej współczynnika regresji wskazuje na Rycina 33.1. Wykres log (częstości) pierwotnej liczby CD8 w funk­
wpływ wzrostu o jednostkę zmiennej wyjaśniającej na wy­ cji czasu od pierwotnej odpowiedzi na HAART. Żadna ze zmiennych
nik. Dla prostej i wielokrotnej regresji liniowej zakłada się nie przejawia liniowości.

90 Podstawowe techniki analizy danych


• Zastępujemy x zbiorem ślepych zmiennych stworzonych wtedy przydają się komputerowe intensywne procedury au­
przez kategoryzację osobników do trzech lub czterech podgrup, tomatycznej selekcji, które pozwalają określić optymalny
zgodnie z wielkością x (często zdefiniowanych przy użyciu ter- model poprzez wybór niektórych z tych zmiennych.
tyli lub kwartyli rozkładu). Taki zbiór zmiennych ślepych może • Wszystkie podzbiory — rozważana jest każda kombi­
zostać włączony do wielowymiarowego modelu regresyjnego nacja zmiennych wyjaśniających; wybierana jest ta, która
jako kategorialne zmienne wyjaśniające (przykład). zapewnia najlepsze dopasowanie opisywane przez R2 mode­
• Dokonujemy jakiegoś typu transformacji zmiennej x, np. lu (rozdział 27) lub LRS (rozdział 32).
przez wzięcie logarytmu lub pierwiastka kwadratowego z x, • Selekcja wsteczna — włącza się wszystkie możliwe
(rozdział 9), tak aby związek pomiędzy transformowaną war­ zmienne; te, które ocenia się jako najmniej ważne dla mode­
tością x a zmienną zależną (lub jej logarytmem dla regresji lu (decyzja oparta jest na Rz lub LRS) są sukcesywnie usu­
Poissona lub jej logitem dla regresji logistycznej) byt liniowy. wane z modelu do chwili, aż żadna z pozostałych zmiennych
• Znajdujemy jakąś algebraiczną zależność, która przybli­ nie może zostać usunięta bez znaczącego zaburzenia dopa­
ża nieliniową zależność przy użyciu wyższych potęg x (np. za­ sowania modelu.
leżność kwadratowa lub sześcienna). Procedura ta jest znana • Selekcja progresywna — włącza się kolejno te zmien­
pod nazwą regresji wielomianowej. W ten sposób wprowa­ ne, które wnoszą największy wkład do dopasowania mode­
dzamy do równania człony oznaczające wyższe potęgi x. Gdy lu (oceniane na podstawie zmian w R2 lub LRS), do czasu,
mamy na przykład zależność sześcienną, nasze oszacowane aż żadna kolejna zmienna nie poprawi dopasowania modelu
równanie wielokrotnej regresji liniowej przyjmuje postać Y= w znaczący sposób.
= a+ 6)X+ bp? + 6j3x3. Dopasowanie tego modelu i postępowa­ • Selekcja krokowa — kombinacja wyboru progresyw­
nie w jego analizie przebiega tak samo, jak gdyby człony kwa­ nego i wstecznego, która zaczyna się od progresji, a na za­
dratowy i sześcienny oznaczały różne zmienne (powiedzmy kończenie każdego „kroku" dokonywane jest sprawdzenie
x2 i x3) w wielokrotnej analizie regresji. Na przykład, może­ wsteczne w celu upewnienia się, że wszystkie włączone
my dopasować model kwadratowy, który zawiera w sobie zmienne są nadal potrzebne.
„zmienne" wzrost i wzrost2. Możemy testować liniowość, po­
równując LRS modeli liniowego i kwadratowego (rozdział 32) Wady
lub testując współczynnik przy członie kwadratowym. Chociaż dzięki tym procedurom praca bez pomocy kompute­
ra może zostać w dużym stopniu ograniczona w dopasowa­
WYBÓR ZMIENNYCH WYJAŚNIAJĄCYCH niu modelu, mają one jednak pewne wady.
• Możliwe, że dwa lub więcej modeli będzie dopasowy­
Zawsze istnieje niebezpieczeństwo zbyt dokładnego dopa­ wało dane równie dobrze lub że zmiany w zbiorach danych
sowania modeli przez włączenie bardzo dużej liczby zmien­ będą tworzyły różne modele.
nych wyjaśniających, nawet gdy model nie jest wysycany • Z powodu wielokrotnego testowania, które ma miejsce,
(rozdział 32). Może to prowadzić do fałszywych rezultatów, gdy po wielokroć porównujemy jeden model z innym w ra­
niespójnych z oczekiwaniami, zwłaszcza gdy zmienne są sil­ mach procedury automatycznego wyboru, prawdopodobień­
nie skorelowane. W modelu wielokrotnej regresji liniowej stwo błędu I rodzaju (rozdział 18) staje się niezwykle wyso­
przyjmuje się regułę, że trzeba się upewnić, czy mamy co kie. Zatem niektóre istotne wyniki mogą powstać przez
najmniej 10 razy więcej przypadków niż zmiennych wyja­ przypadek. Można uniknąć tego problemu przez wybór bar­
śniających. W regresji logistycznej powinno być co najmniej dziej przekonywającego poziomu istotności (powiedzmy 0,01
10 razy więcej odpowiedzi lub zdarzeń w każdej z dwóch zamiast 0,05).
kategorii wynikowych, niż jest zmiennych wyjaśniających.
• Jeżeli model jest ponownie dopasowywany do danych
Często mamy dużą liczbę zmiennych wyjaśniających, o któ­ przy użyciu, na przykład, m zmiennych pozostających w koń­
rych sądzimy, że są powiązane ze zmienną zależną. Na przy­ cowym modelu automatycznej selekcji, jego oszacowane
kład, wiele czynników może wiązać się ze skurczowym ciśnie­ parametry mogą się różnić od tych z modelu automatycznej
niem krwi, również wiek i styl życia. Zmienne wyjaśniające selekcji. Dzieje się tak dlatego, że w procedurze automatycz­
powinniśmy włączyć do modelu tylko wtedy, gdy przypuszcza­ nej selekcji bierze się pod uwagę w analizie jedynie tych
my na podstawie przesłanki biologicznej lub klinicznej, że są osobników, którzy mają komplet informacji we wszystkich
one związane ze zmienną zależną. Niektóre zmienne możemy zmiennych wyjaśniających, natomiast wielkość próby może
wyeliminować przez przeprowadzenie analizy jednowymiaro­ być większa, gdy włączamy osobników, którzy nie mają bra­
wej (używając raczej mniej przekonującego poziomu istotności kujących danych w odpowiednich m zmiennych.
0,10 aniżeli bardziej konwencjonalnego 0,05) dla każdej zmien­
• Uzyskane modele, choć uzasadnione matematycznie,
nej wyjaśniającej w celu określenia, czy prawdopodobny jest
mogą nie być sensowne. W szczególności, gdy włączamy
związek ze zmienną zależną, np. gdy mamy numeryczną
serię zmiennych ślepych do przedstawienia pojedynczej
zmienną zależną, możemy przeprowadzić prostą analizę regre­
zmiennej kategorialnej (rozdział 29), automatyczne modele
sji, a gdy jest ona binarna — prosty niepowiązany test f. Bie­
mogą uwzględniać jedynie niektóre ze zmiennych ślepych
rzemy pod uwagę jedynie te zmienne wyjaśniające, które
i prowadzić do problemów z interpretacją.
w pierwszym etapie były istotne dla naszego wielowymiarowe­
Dlatego przy wyborze najlepiej pasującego modelu nale­
go modelu (patrz przykład w rozdziale 31).
ży kierować się nie tylko tymi procedurami, ale też zdro­
wym rozsądkiem. Modele generowane za pomocą procedur
Procedury automatycznego wyboru automatycznej selekcji powinny być, jeśli to możliwe, spraw­
Gdy jesteśmy zainteresowani bardziej wykorzystaniem mo­ dzane na innych, zewnętrznych zbiorach danych (patrz
delu do predykcji niż sprawdzeniem, czy zmienna wyjaśnia­ „sprawdzanie punktacji", rozdział 34).
jąca wpływa na wynik, oraz oszacowaniem tego wpływu,

33. Zmienne wyjaśniające w modelach statystycznych 91


PRZYKŁAD
W rozdziałach 31 i 32 badaliśmy czynniki związane z bra­ wodu braku liniowości pomiędzy częstością BETPLP oraz
kiem ofckrn terapeutycznego po leczeniu przeciwwiruso- aktualną liczbą CD8, ciągła zmienna wyjaśniająca, repre­
wym (BETPLP) u pacjentów HIV pozytywnych, otrzymu­ zentująca liczbę CD8 w modelu regresji Poissona, została
jących wysoce aktywną terapie antyretrowirusową zastąpiona przez serię czterech ślepych zmiennych (patrz
(HAAKT). W tej wielowymiarowej analizie regresji Pois­ rozdział 29). Osobnicy z" początkową liczbą CD8 w pr7e-
sona włączona zosiala początkowa liczba CD8 osobnika dziale 825 < CD8 < 1100 komórek/mm3 zostali potrakto­
jako cięgla zmienna wyjaśniająca (podzielono ją przez wani jako grupa odniesienia dla tych zmiennych. Każda
100, tak że każdy wzrost o jednostkę przeskalowanej z trzech ślepych zmiennych umożliwiała porównanie
zmiennej odpowiada! wzrostowi liczby CD8 o 100 komó- jednej z pozostałych grup CD8 z grupą odniesienia,
i'i:h/miri'!). Wyniki wskazują, że wyższy poziom początko­ a czwarta zmienna ślepa pozwoliła na porównanie grup
wy liczby CD8 wiązał sic z iatotnie zredukowaną często­ z brakującą liczbą CD8 z grupą odniesienia. Wyniki pod­
ścią BFTPLP. W celu określenia poprawności założenia sumowano w tablicy 33.1; pełny wydruk komputerowy za­
liniowości związanej z tą zmienną zdefiniowano pięć grup wiera dodatek C. Porównanie wartości -2 log wiarygod­
na podstawie kwintyli rozkładu CD8 i wyznaczono czę­ ności (tj. LRS lub dewiancji) z modelu zawierającego
stość BETPLP w każdej z pięciu grup. Wykres logfczęsto- cztery ślepe zmienne dla liczby CD8 (387,15) z wartością
ści) w każdej z tych grup ukazuje, że związek nie był li­ z modelu, który zawierał te same zmienne oprócz wspo­
niowy, ponieważ nie było progresji krokowej (rycina 33.1). mnianych zmiennych ślepych (392,50), dato wartość
W yzczpgólności, podczas gdy log(częstości) był ogólnie po­ p równą 0,25 (statystyka testowa 5,35 przy A stopniach
dobny w czterech najniższych grupach, w najwyższej gru­ swobody). Zatem, po włączeniu jej w ten sposób liczba
pie O i 495 komórek/mrn3) zdarzenia nie pojawiły się CD8 nie ma już dłużej istotnego statystycznie związku
w ogóle, co dało dla loglczęsto.ści) wartość minus nieskoń- z BETPLP w przeciwieństwie do modelu, w którym licz­
liMiOÓć, Dlatego dla dalszej analizy dwie górne grupy ba CD8 została włączona jako ciągła zmienna wyjaśniają­
zoHtnJy połączone. Co więcej, znacząca liczba pacjentów ca. Związek między BETPLP i stalusem leczenia, płcią
musiała zostać wykluczona z tej analizy, ponieważ nie oraz czasem od odpowiedzi początkowej na leczenie pozo­
mieli oni oznaczonej początkowej liczby CD8. Zatem, z po­ stał jednak podobny.

Tablica 33.1. Wyniki wiolozmionnoj analizy regresji Poissona czynników związanych z brakiem efektu terapeutycznego po leczeniu
przeciwwirnwiwym (HrTPJ.P), po wleczeniu liczby CD8 jako zmiennej kategorialnej w modelu.
Oszacowana 95% przedział
Oszacowanie Bla.d częstość ufności dla
Zmienna psrameini standardowy względna częstości względnej Wartość p"
Czas od pierwszej odpowiedzi
na leczenie (lata) <1 odniesienie — l —
1-2 0,4550 0,2715 1,58 0.93,2,68
>2 -0,5386 0,4849 0,58 0,23, 1,51 0,06
Status leczenia
Uprzednio stosowano leczenie (0) odniesienie — 1 —
Nigdy nic stosowano leczenia (1) -0,5580 0,2600 0,57 0,34,0,95 0,03
ltoć
Kobiety (0) odniesienie — 1 —
Mężczyźni (1) -0,4970 0,2675 0,61 0,36,1.03 0,07
Liczba CD8
3
(100komorek/mm ) < 625 -0,2150 0,6221 0,81 0,24,2,73
5=625, <825 -0,3646 0,7648 0,63 0,16,3,11
?825, < 1100 odniesienie — 1 —
SI 100 -0,3270 1,1595 0,78 0,07,7,00
Braki -0,8264 0,6057 0,44 0,13, 1,43 0,25
W nawiasach podano kody dla zmiennych binarnych (płeć i status leczenia). Czas od odpowiedzi pierwotnej na leczenie uwzględniono
przez włączenie dwóch zmiennych ślepych odpowiadających okresom 1-2 lat i > 2 lat po pierwotnej odpowiedzi. Początkowa liczba CD8
została włączona w sposób opisany powyżej.
"Wartości p otrzymane przy użyciu LRS (rozdział 32); tam, gdzie ślepe zmienne zostały użyte do włączenia więcej niż 2 kategorii
w zmiennej, wartość p odzwierciedla łączny efekt tych zmiennych.

92 Podstawowe techniki analizy danych


34 ZAGADNIENIA ZWIĄZANE
Z MODELOWANIEM STATYSTYCZNYM

INTERAKCJA UWIKŁANIE
Co to jest? Co to jest?
Statystyczna interakcja, znana również jako modyfikacja Zmienna uwikłana lub mieszająca to zmienna wyjaśniająca,
wpływu (rozdział 13) pomiędzy dwoma zmiennymi wyja­ powiązana zarówno ze zmienną zależną, jak i z jedną lub
śniającymi w analizie regresji pojawia się, gdy związek po­ większą liczbą zmiennych wyjaśniających w modelu. Na
między jedną ze zmiennych wyjaśniających a zmienną zależ­ przykład, możemy być zainteresowani badaniem wpływu sta­
ną nie jest taki sam dla różnych poziomów drugiej ze tusu palenia i spożywania alkoholu na zapadalność na choro­
zmiennych wyjaśniających, tj. dwie zmienne wyjaśniające bę wieńcową (CHD — coronary heart disease) w kohorcie
nie oddziałują na zmienną zależną niezależnie. Na przykład, mężczyzn w średnim wieku. Jakkolwiek spożycie alkoholu
przypuśćmy, że obecny status palenia tytoniu i status spoży­ i palenie tytoniu są znane jako czynniki stowarzyszone
wania alkoholu mogą być skategoryzowane na dwóch pozio­ z rozwojem CHD, obie zmienne również są ze sobą związa­
mach (palacz/niepalący i pijący/niepijący) i każdy osobnik ne (tj. bardziej prawdopodobne jest, że mężczyzna pijący
przynależy do jednej z kategorii każdej zmiennej. Jeżeli róż­ alkohol będzie palił, niż że będzie palii mężczyzna niepiją-
nica w rozkurczowym ciśnieniu krwi (zmienna zależna) po­ cy alkoholu). Każdy model regresyjny, w którym rozpatruje
między palącymi i niepalącymi jest przeciętnie większa się wpływ jednej ze zmiennych wyjaśniających na wynik,
u tych, którzy nie piją alkoholu, niż u tych, którzy piją, wte­ lecz nie włącza się zmiennej wikłającej (np. model wiążący
dy mówimy, że istnieje interakcja między paleniem a spo­ status palenia z zapadalnością na CHD bez uwzględnienia
żywaniem alkoholu. spożywania alkoholu) może zakłamać prawdziwą rolę zmien­
nej wyjaśniającej. Uwikłanie może albo ukrywać prawdziwy
Testowanie interakcji związek, albo sztucznie wytwarzać fałszywy związek miedzy
W modelu represyjnym statystyczną interakcję sprawdza się zmienną wyjaśniającą a zmienną wynikową. Brak uwzględ­
zazwyczaj bezpośrednio i wiele pakietów statystycznych po­ nienia czynników wikłających w analizie regresji prowadzi
zwala na włączenie członów interakcyjnych. Jeżeli w pakie­ do obciążenia (rozdział 12) estymatorów parametrów modelu.
cie nie ma takiego ułatwienia, wtedy człon interakcyjny
można wytworzyć bez pomocy oprogramowania przez włą­ Rozwiązywanie problemu uwikłania
czenie iloczynu odpowiednich zmiennych jako dodatkowej Z uwikłaniem można radzić sobie w dwojaki sposób:
zmiennej wyjaśniającej. Zatem w celu uzyskania zmiennej, • Tworzymy podgrupy, tworząc warstwy zbioru danych
która oznacza interakcję pomiędzy dwoma zmiennymi (obie ze względu na poziomy zmiennej wikłającej (np. utworze­
binarne, obie numeryczne lub jedna binarna, jedna nume­ nie dwóch podgrup, pijących i niepijących), i przeprowa­
ryczna), mnożymy przez siebie wartości obu tych zmiennych dzamy analizy osobno w każdej podgrupie. Chociaż jest to
dla osobnika. Gdy obie zmienne są numeryczne, interpreta­ proste podejście i bardzo polecane, gdy liczba zmiennych
cja jest łatwiejsza, gdy stworzymy człon interakcyjny wikłających jest niewielka, to: (1) Podgrupy mogą być małe
z dwóch zmiennych binarnych uzyskanych z dychotomizacji i na skutek tego analiza ma zmniejszoną moc wykrywania
każdej zmiennej numerycznej. Jeżeli jedna z dwóch zmien­ istotnych efektów. (2) Z powodu wielokrotnego testowania
nych jest zmienną kategorialną z więcej niż dwoma katego­ (rozdział 18) mogą pojawiać się nieprawdziwe istotne wyni­
riami, tworzymy z nich serię ślepych zmiennych (rozdział ki, jeżeli hipotezy testuje się dla każdej podgrupy. (3) Kombi­
29) i używamy każdej z nich, w połączeniu z drugą badaną nowanie osobnych estymatorów badanego efektu dla każdej
zmienną binarną lub numeryczną, do wygenerowania serii podgrupy może sprawiać trudność.
członów interakcyjnych. Procedurę tę można rozszerzyć • Dokonujemy skorygowania ze względu na zmienne
w przypadku, gdy obie zmienne są kategorialne i każda ma wikłające w wielowymiarowym modelu regresji. To podej­
więcej niż dwie kategorie. ście jest szczególnie użyteczne, gdy w badaniu mamy wiele
Człony interakcyjne powinny być włączane do modelu re- zmiennych wikłających, pozwala na oszacowanie związku
gresyjnego tylko po wprowadzeniu efektów prostych (wpły­ pomiędzy zmienną wyjaśniającą a zmiennymi zależnymi,
wy zmiennych bez jakiejkolwiek interakcji). Zwróćmy uwa­ których nie można wyjaśnić przez związek między zmienną
gę, że statystyczne testy interakcji mają zwykle niską moc zależną i zmienną wikłającą.
(rozdział 18). Jest to szczególnie ważne, gdy obie zmienne
wyjaśniające są kategorialne i w podgrupach pojawiają się Uwikłanie w badaniach nierandomizowanych
rzadkie zdarzenia tworzone przez kombinację każdego po­ Ze zjawiskiem uwikłania musimy być szczególnie ostrożni,
ziomu jednej zmiennej z każdym poziomem drugiej zmien­ gdy porównujemy leczenie w nierandomizowanych klinicz­
nej lub jeżeli te podgrupy zawierają bardzo małą liczbę osob­ nych badaniach kohort owych (rozdział 15). W tym typie bada­
ników. nia cechy osobników mogą być rozłożone w różnych grupach
leczenia w sposób nierównomierny. Na przykład, osobnicy
mogą zostać wybrani do określonego leczenia na podstawie
historii choroby, czynników demograficznych lub stylu życia.
Niektóre z nich mogą się wiązać ze zmienną wynikową i dla-

34. Zagadnienia związane z modelowaniem statystycznym 93


tego będą uwikłane z leczeniem. Wielowymiarowe modele re­ INDEKSY PROGNOSTYCZNE I PUNKTACJA
gresji mogą być używane do korygowania dowolnych różnic RYZYKA DLA ODPOWIEDZI BINARNEJ
w rozkładach czynników w różnych grupach leczenia tylko
wtedy, gdy prowadzący badanie wystrzegają się czynników Mając dużą liczbę cech demograficznych lub klinicznych, mo­
wikłających i zarejestrowali je w zestawie danych. Ekspery­ żemy chcieć prognozować, czy jest prawdopodobne, że u da­
menty randomizowane kontrolowane (rozdział 14) rzadko są nego osobnika rozwinie się choroba. Do identyfikacji czynni­
narażone na uwikłanie, jako że pacjenci są przydzielani do ków istotnie związanych ze zmienną wynikową mogą zostać
grup leczenia w sposób losowy i dlatego wszystkie współ- użyte modele, często dopasowywane przy użyciu regresji
zmienne, zarówno mieszające, jak i inne zmienne wyjaśnia­ proporcjonalnego hazardu (rozdział 44), regresji logistycznej
jące, powinny być równomiernie rozłożone w różnych gru­ (rozdział 30) lub podobnej metody znanej jako analiza dys­
pach leczenia. kryminacyjna. Można następnie ze współczynników tego
modelu utworzyć indeks prognostyczny lub punktację ryzy­
ka dla osobnika w celu określenia prawdopodobieństwa je­
KOREKCJA DLA ZMIENNYCH POŚREDNICH go/jej zachorowania. Jednakże model, który wyjaśnia dużą
część zmienności w danych, niekoniecznie pozwala na dobrą
Jeżeli o zmiennej wiadomo, że leży na ścieżce przyczynowej
predykcję, u których pacjentów rozwinie się choroba. Jeżeli
pomiędzy zmienną wyjaśniającą a badaną zmienną wyniko­
więc wytworzyliśmy punktację predykcyjną opartą na mode­
wą, określa się ją terminem zmienna pośrednia. W modelach
lu, powinniśmy oszacować ważność tej punktacji.
wielowymiarowych powinniśmy uważać, gdy dokonujemy ko­
rekcji dla zmiennych pośrednich. Rozważmy sytuację, w któ­
rej prowadzimy eksperyment randomizowany kontrolowany Walidacja punktacji
grupą placebo, mający na celu zbadanie wpływu nowego leku Możemy dokonać walidacji naszej skali na różne sposoby.
obniżającego poziom lipidów na zapadalność na CHD. • Tworzymy tablicę predykcji opartą na naszym zbiorze
Chociaż możemy dokonać korekcji dla dowolnych rozbież­ danych, określając liczbę osobników, u których prawidłowo
ności w poziomie lipidów na początku badania u pacjentów i nieprawidłowo przewidzieliśmy stan choroby (podobną do
w obu grupach leczenia (nie powinno to być jednak koniecz­ tablicy w rozdziale 38). Można obliczyć dla tej tablicy miary,
ne, jeżeli randomizacja byta skuteczna), nie powinniśmy ko­ takie jak czułość i swoistość.
rygować żadnych zmian w lipidach, które pojawiają się • Kategoryzujemy osobników zgodnie z ich punktacją
w okresie badania. Jeżeli dokonamy korekcji dla tych zmian, i rozważamy częstości choroby w różnych kategoriach (patrz
będziemy kontrolować korzystny efekt działania leku i w ten przykład); powinniśmy zaobserwować związek między kate­
sposób każdy efekt działania leku prawdopodobnie zniknie goriami a częstością choroby, np. kategorie wyżej punktowa­
(chociaż otrzymamy wskazówkę, jaką część wpływu leku ne mają wyższe częstości choroby.
można wytłumaczyć przez jego oddziaływanie na wartości Oczywiście, każdy model zazwyczaj działa dobrze na
poziomu lipidów, co samo w sobie może być użyteczne). zbiorze danych, który został użyty do jego wygenerowania.
Dlatego, aby prawidłowo ocenić przydatność skali, należy ją
poddać walidacji na innych, niezależnych zbiorach danych.
WSPÓŁLINIOWOŚĆ Jakkolwiek jest to niepraktyczne, możemy rozdzielić da­
Gdy dwie zmienne wyjaśniające są silnie skorelowane, trud­ ne na dwie, w przybliżeniu równe podgrupy. Pierwsza pod­
ne może być określenie ich indywidualnego wpływu w wie­ grupa, znana jako próba ucząca, zostaje użyta do stworzenia
lowymiarowym modelu regresji. W konsekwencji, podczas modelu. Druga podgrupa, znana jako próba walidacyjna (te­
gdy zmienna może być istotnie powiązana ze zmienną zależ­ stująca), zostaje użyta do sprawdzenia wyników uzyskanych
ną w modelu jednowymiarowym (tj. gdzie występuje jedna z próby uczącej. Na skutek tego zmniejszamy wielkość pró­
zmienna wyjaśniająca), może okazać się nawet nieistotnie by, przez co możemy do modelu włączyć mniej zmiennych
związana, gdy obie zmienne wyjaśniające zostają włączone wyjaśniających.
jednocześnie do modelu wielowymiarowego. Taką kolinear-
ność (zwaną również współliniowością) można wykryć po­ Jackknifing
przez zbadanie współczynników korelacji dla każdej pary Jackknifing jest sposobem szacowania parametrów i uzyski­
zmiennych wyjaśniających (zwykle przedstawionych w po­ wania przedziałów ufności w sposób nieobciążony. Z próby
staci macierzy korelacji) lub poprzez wizualną ocenę błędów usuwamy wszystkich osobników, za każdym razem po jed­
standardowych współczynników regresji w modelu wielowy­ nym, a pozostałych (n - 1) używamy do oszacowania parame­
miarowym. W przypadku współliniowości są one znacząco trów modelu. Proces ten jest powtarzany dla każdego
większe niż w osobnych modelach jednowymiarowych. Naj­ z n osobników w próbie, a uzyskane estymatory są uśrednia­
prostszym rozwiązaniem tego problemu jest włączenie do ne po n próbach. Ponieważ uzyskana w ten sposób punkta­
modelu tylko jednej z tych zmiennych, chociaż w sytuacjach, cja jest generowana z wielu różnych zbiorów danych, może
gdy wiele zmiennych jest silnie skorelowanych, konieczne być sprawdzona na kompletnym zbiorze danych, bez tworze­
może się okazać szukanie porady u statystyka. nia podgrup.

94 Podstawowe techniki analizy danych


PRZYKŁAD
Chociaż istnieją duże rozbieżności w prognozach dotyczą­ Walidację punktacji otrzymano przez analizę częstości
cych pacjentów z AIDS, często uważa się ich za pojedyn­ wystąpienia śmierci (liczba zgonów dzielona przez całko­
cza, jednorodna grapę. W celu pogrupowania pacjentów witą liczbę osobolat obserwacji) w każdym ze stopni.
zgodnie z rokowaniem stworzono punktację prognostyczną
na podstawie praktyki klinicznej dotyczącej 363 pacjentów Obserwacja Częstość
z AIDS w jednym z centrów w Londynie. Spośród nich Stopień AIDS Zgony (osobolata) zgonów
zmarło łącznie 159 (43,8%) w okresie 6 lat obserwacji.
I 17 168,0 1.0
Punktacja była ważona sumą liczby wszystkich typów
H 54 153,9 3,5
chorób (lugodni;, umiarkowane lub ciężkie) wywołanych
ffl 71 81,2 8,7
prze/, AIDS, jakich doświadczył pacjent i jego/jej liczby ko­
mórek CD4 (mierzonej w komórkach/mm3). Wynosiła ona:
Istnieje zatem wyraźny trend w kierunku wzrostu czę­
Punktacja = 300 x liczba bardzo ciężkich zdarzeń AIDS
stości zgonów ze wzrostem punktacji. Punktacja została
(chloniak)
również sprawdzona na grupie pacjentów z drugiego cen­
+ 100 x liczba ciężkich zdarzeń AIDS (wszyst­
trum w Londynie.
kie inne zdarzenia nie wyszczególnione jako
bardzo ciężkie lub łagodne)
+ 20 x liczba łagodnych zdarzeń AIDS (droż- Obserwacja Częstość
dżyca przełyku, skórny mięsak Kaposiego, za­ Stopień AIDS Zgony (osobolata) zgonów
palenie płuc wywołane Prieumocystis carinii, I 65 828,5 0,8
gruźlica pozaptuciia) II 229 579,6 4,0
-1 x minimalna liczba komórek CD4 od czasu ffl 322 361,3 8,9
wystąpienia AIDS.
W celu interpretacji tej punktacji i jej walidacji ziden­ Wyniki są w znacznym stopniu podobne, co potwierdza
tyfikowano trzy grupy. wartość tego systemu punktacji.
AIDS Stopień I Punktacja < 0
AIDS Stopień II Punktacja 0-39
AIDS Stopień III Punktacja 3 100

Adaptowane z pracy: Mocrofl A. J., Jołmson M. A., Sabin C. A., i in.: Staging system for clinical AIDS patients. Lancet 1995, 346, 12-17;
za zgodą Elscvicr.

34. Zagadnienia związane z modelowaniem statystycznym 95


35 SPRAWDZANIE ZAŁOŻEŃ
CZEMU SIĘ TYM ZAJMOWAĆ? ny (test nie jest odporny na pogwałcenie tego założenia). Obli­
czone zostały dwie wariancje s"- i s|, wyznaczone odpowied­
Komputerowa analiza danych pozwala na badanie dużych
nio z n} i n2 obserwacji. Zgodnie z konwencją, jeżeli różnią sie
zbiorów danych, co bez niej byłoby niemożliwe. Jednakże
one wielkościami, wybieramy s* jako większą z wariancji.
w analizie statystycznej nie należy kierować się zasadą „bierz
i korzystaj" po prostu dlatego, że analiza ta jest dostępna • Jednorodność wariancji zakładamy również w resztach
w komputerze. Słuszność wyciągniętych wniosków zależy za­ w regresji prostej i wielokrotnej (rozdziały 28, 29) oraz
wsze od tego, czy analiza została przeprowadzona prawidło­ w modelach efektów losowych (rozdział 42). Jak sprawdzić
wo i czy założenia leżące u jej podstaw zostały spełnione. Mó­ to założenie, wyjaśniłyśmy w rozdziałach 28 i 29.
wimy; ze analiza jest odporna na pogwałcenie założeń leżą­
cych u jej podstaw, jeżeli jej wartość p i moc (rozdział 18) nie 1. Definiujemy badane hipotezy zerową i alternatywna.
sa przez to znacznie zaburzone. Przeprowadzenie analizy nie­ H0: Wariancje w dwóch populacjach są równe.
odpornej na pogwałcenie założeń może prowadzić do mylą­ H{: Wariancje w dwóch populacjach nie są równe.
cych wniosków. 2. Zbieramy odpowiednie dane z próby osobników.
3. Obliczamy wartość statystyki testowej odpowiedniej
CZY DANE MAJĄ ROZKŁAD NORMALNY? dlatf0

W wielu analizach przyjmuje się założenia na temat rozkła­


du danych. Następujące procedury weryfikują normalność która podlega rozkładowi stopniami swobody
ro2kładu, co stanowi najczęstsze założenie o rozkładach. w liczniku oraz n2 - 1 stopniami swobody w mianowni­
• Tworzymy wykres punktowy (dla małych prób) lub hi­ ku. Wybierając upewniliśmy się, że stosunek F
stogram, wykres „łodyga z liśćmi" (rycina 4.2) lub wykres będzie zawsze 3= 1. Pozwala to na użycie tablic rozkładu /",
skrzynkowy w celu ukazania empirycznego rozkładu często­ w których umieszczono jedynie wartości > 1.
ści danych (rozdział A). Wnioskujemy, że rozkład jest w przy­ 4. Porównujemy wartość statystyki testowej z warto­
bliżeniu normalny, jeżeli ma kształt dzwonu i jest symetrycz­ ściami znanego rozkładu prawdopodobieństwa.
ny. Jeżeli dane mają rozkład normalny, mediana na wykresie
Porównujemy wartość Fz wartościami w Dodatku A5.
skrzynkowym powinna przecinać w połowie prostokąt zdefi­
Naszą dwustronną hipotezę alternatywną sprawdzamy za
niowany przez pierwszy i trzeci kwartyl, a dwa wąsy powin­
pomocą testu dwustronnego.
ny mieć równą długość.
5. Interpretujemy wartość p i wyniki.
• Alternatywnie możemy stworzyć wykres normalności Zauważmy, że rzadko jesteśmy zainteresowani warian­
(preferowany przy analizie komputerowej), który przedsta­ cjami per se, więc zwykle nie obliczamy dla nich przedzia­
wia skumulowany rozkład częstości danych (na osi poziomej) łów ufności.
w funkcji rozkładu normalnego. Brak normalności na tym
wykresie przejawia się tym, że krzywa odchyla się od linii
prostej (rycina 35.1).
Chociaż w obu przypadkach ocena jest subiektywna, wy­
kres normalności jest bardziej efektywny dla małych prób.
Do bardziej obiektywnego oszacowania normalności można
użyć w komputerze testów Kolmogorowa-Smirnowa lub Sha-
piro-Wilka.

CZY WARIANCJE SĄ SOBIE RÓWNE?


Wytłumaczyłyśmy, jak używać testu t (rozdział 21) do porów­
nywania dwóch średnich lub ANOVA (rozdział 22) do porówny­
wania większej liczby średnich. U podstaw tych analiz leży zało­
żenie, że zmienność obserwacji w każdej z grup jest taka sama,
tj. wariancje muszą być równe, co określamy jako jednorod­
ność wariancji lub homoscedastyczność. Z niejednorodnością
wariancji mamy do czynienia, gdy wariancje nie są równe.
• Za pomocą komputera możemy użyć testu Levene'a do
testowania jednorodności wariancji w dwóch lub więcej gru­
pach. Hipoteza zerowa zakłada, że wszystkie wariancje są
równe. Zaletą testu Levene'a jest brak silnej zależności od
założenia o normalności rozkładu. Do porównania większej
liczby wariancji można też użyć testu Bartletta, z tym że nie Rycina 35.1. (a) Wykres normalności nietransformowanego rozkła­
jest on odporny na odchylenia od normalności rozkładu. du poziomów trójglicerydów opisanych w rozdziale 19. Są one skośne
i dlatego wykres normalności przedstawia krzywą, (b) Wykres nor­
• Możemy użyć testu F (testu stosunku wariancji) opisa­ malności log (poziomów trójglicerydów). Niemal prosta linia wskazuje
nego w ramce, do porównywania dwóch wariancji, zakładając, na to, że transformacja logarytmiczna z powodzeniem usunęła sko-
że dane w każdej grupie mają w przybliżeniu rozkład normal­ śność w danych.

96 Podstawowe techniki analizy danych


CZY ZMIENNE SĄ POWIĄZANE LINIOWO? waż w przeszłości inni to zrobili w podobnych okoliczno­
ściach!
Większość technik, o których dyskutowałyśmy w rozdziałach
• Dokonujemy prawidłowej transformacji surowych da­
26-31 i które opisałyśmy w rozdziale 42, zakłada, że istnie­
nych, tak by przetransformowane dane spełniały założenia
je liniowy związek (linia prosta) między dwoma zmiennymi.
proponowanej analizy (rozdział 9). W analizie regresji ozna­
Wszystkie związki stwierdzone w tych analizach opierają się
cza to zwykle transformowanie zmiennej x, choć możliwe też
na założeniu liniowości. W rozdziałach 28 i 29 wyjaśniłyśmy,
są inne podejścia (rozdział 32).
jak w analizie regresji sprawdzać liniowość i jak obchodzić
• Jeżeli to możliwe, przeprowadzamy test nieparame­
się z nieliniowościami w przypadku regresji prostej i wielo­
tryczny (rozdział 17), w którym nie ma żadnych założeń na
krotnej, a w rozdziale 33 — dla innych uogólnionych modeli
temat rozkładu danych (np. normalności). Możesz również
liniowych, np. regresji logistycznej i Poissona.
użyć nieparametrycznej analizy regresji1; jej celem jest osza­
cowanie formy funkcjonalnej (a nie parametrów) związku po­
CO SIĘ DZIEJE, JEŻELI ZAŁOŻENIA między zmienną odpowiedzi a jedną lub większą liczbą
zmiennych wyjaśniających. Używając regresji nieparame­
N i t SĄ SPEŁNIONE?
trycznych uwalniamy się od założenia liniowości modelu i do­
Mamy rozmaite możliwości. pasowujemy gładką krzywą do danych, tak że możemy doko­
• Postępujemy tak, jak to zostało wcześniej zaplanowa­ nać wizualizacji trendów bez konieczności specyfikowania
no, biorąc pod uwagę to, że analizy mogą być nieodporne. modelu parametrycznego.
Jeżeli tak czynimy, musimy jednak być świadomi, jakie
skutki to ze sobą. niesie. Nie wolno dać się ogłupić stwier­ 1
Eubank R. L.: Nonparametric Regression and Spline Smoothmg.
dzeniem, że można wykonać nieprawidłowa analizę, ponie­ Marcel Dekker, 1999.

PRZYKŁAD
Weźmy pod uwagę przykład dla testu t z rozdziału 21.W ce­ dej z grup przez 6 miesięcy, lecz musimy upewnić się, że
lu określenia wpływu leku na świszczący oddech przypo­ zostały spełnione niezbędne założenia (normalność i stała
rządkowano losowo 98 dzieci w wieku szkolnym do grupy wariancja). Wykresy typu „łodyga z liśćmi" na rycinie -4.2
inhalującej albo diprapionian beklometazonu, albo placebo. pokazują, że dane są w przybliżeniu rozłożone zgodnie
Użyłyśmy niepowiązanego testu z do porównania średniej z rozkładem normalnym. Wykonujemy test FVJ celu zbada­
wartości wymuszonej objętości wydechowej (FEV1) w każ­ nia założenia o stałej wariancji w obu grupach.

1. łl0: Wariancja pomiarów FEV1 w populacji dzieci 4. Porównujemy F= 1,34 z wartościami w Dodatku A5
w wieku szkolnym jest taka sama w obu badanych gru­ dla testu dwustronnego na 5% poziomie istotności. Ponie­
pach. waż Dodatek A5 jest ograniczony do liczby stopni swobo­
Wariancja pomiarów FEV1 w populacji dzieci w wie­ dy 25 i nieskończoności (500) dla licznika oraz 30 i 50 dla
ku szkolnym nie jest taka sama w obu badanych grupach. mianownika, musimy dokonać interpolacji (rozdział 21).
2. Grupa leczonych: wielkość próby nx = 50, odchylenie Potrzebna wartość tablicowa na 5% poziomie istotności
standardowe s, = 0,29 litra. leży pomiędzy 1,57 a 2,12; zatem p > 0,05, ponieważ 1,34
Grupa placebo: wielkość próby n2 - 48, odchylenie jest mniejsze niż mniejsza z tych wartości (wynik kom­
standardowe s2 = 0, 25 litra. puterowy wynosi p = 0,32).
3. Statystyka testowa 5. Brak zatem dowodu pozwalającego na odrzucenie hi­
potezy zerowej, że wariancje są równe. Jest rzeczą sen­
= 1,336, która podlega rozkła­ sowną użycie do porównania średnich wartości FEV1
w obu grupach niepowiązanego testu t, który zakłada
dowi F z 50 - 1 = 49 i 48 - 1 = 47 stopniami swobody, normalność i jednorodność wariancji.
odpowiednio dla licznika i mianownika.

35. Sprawdzanie założeń 97


36 WYZNACZANIE WIELKOŚCI PRÓBY

ZNACZENIE WIELKOŚCI PRÓBY 1


• Wzory ogólne — mogą one być skomplikowane, ale
Jeżeli liczba pacjentów w naszym badaniu jest mała, nie mamy w niektórych sytuacjach są potrzebne, np. dla zachowania
wystarczającej mocy (rozdział 18) do wykrycia ważnych, istnie­ mocy w klasteryzowanym eksperymencie randomizowanym
jących efektów i na skutek tego marnujemy nasze zasoby. Z dru­ (rozdziały 14 i 41) mnożymy wielkość próby, której wymaga­
giej strony, jeżeli próba będzie zbyt duża, badanie niepotrzebnie libyśmy przy prowadzeniu indywidualnej randomizacji, przez
Steinie się czasochłonne, drogie i nieetyczne, gdyż pozbawi nie­ czynnik wpływu projektu równy [1 + (m- l)p], gdzie m jcat
których pacjentów możliwości lepszego leczenia. Dlatego musi­ średnią wielkością klasteru, a p jest wewnątrzklasowym
my wybrać optymalną wielkość próby, która zachowuje równo­ współczynnikiem korelacji (rozdział 42).
wagę pomiędzy skutkami błędów I i II rodzaju (rozdział 18). Nie­ • Wzory szybkie - istnieją dla szczególnych wartości
stety, aby wyznaczyć potrzebną wielkość próby, musimy mieć mocy i poziomów ufności dla niektórych testów hipotez (np.
2
jakieś pojęcie o wynikach, których spodziewamy się w badaniu. wzory Lehra , patrz poniżej).
1
• Specjalne tablice — stosowane w różnych sytuacjach
(np. dla testu t, testów Chi-kwadrat, testu współczynnika ko­
WYMAGANIA relacji, porównywania dwóch krzywych przeżycia i dla bada­
Wytłumaczymy, jak należy obliczać wielkość próby w pro­ nia równoważności).
stych sytuacjach; bardziej złożone projekty można natomiast • Nomogram Altmana — to prosty do użycia diagram,
uprościć w celu obliczenia wielkości próby. Jeżeli nasze bada­ który można stosować dla różnych testów. Szczegóły opisano
nie zawiera pewną liczbę testów, koncentrujemy się na naj­ w następnej części rozdziału.
ważniejszym lub wyznaczamy wielkość próby wymaganą dla • Programy komputerowe — ich zaletą jest to, że wyniki
każdego z nich i wybieramy największą. mogą być prezentowane graficznie lub w tablicach w celu
Naszym celem jest obliczenie optymalnej wielkości próby ukazania wpływu zmian czynników (np. mocy, wielkości
dla proponowanego testu hipotez. Jednakże obliczenia wielko­ efektu) na żądaną wielkość próby.
ści próby można oprzeć na innym aspekcie badania, takim jak
dokładność estymatora czy szerokość przedziału ufności (zwy­ NOMOGRAM ALTMANA
kle czyni się tak przy badaniach równoważności i braku po­
gorszenia, rozdział 17),
Notacja
W oelu obliczenia dla testu optymalnej wielkości próby W tablicy 36.1 przedstawiamy notację używaną w nomogra-
musimy w fazie projektowania badania wyspecyfikować na­ mie Altmana (Dodatek B) do określenia wielkości próby
stępujące wielkości: w przypadku dwóch równolicznych grup obserwacji dla
• Moc (rozdział 18) — szansa wykrycia jako statystycznie trzech często stosowanych testów hipotez dotyczących śred­
istotnego efektu, jeżeli rzeczywiście on istnieje. Zwykle wy­ nich i proporcji.
bieramy moc co najmniej 80%. Metoda
• Poziom istotności a (rozdział 17) — poziom odcięcia, po­ Dla każdego testu obliczamy standaryzowaną różnicę i łączy­
niżej którego odrzucimy hipotezę zerową, tzn. maksymalne my jej wartość na osi po lewej stronie nomogramu z mocą
prawdopodobieństwo nieprawidłowego stwierdzenia, że efekt wyspecyfikowaną na pionowej osi po prawej stronie. Wyma­
zachodzi. Zwykle ustalamy je na poziomie 0,05 lub czasami na ganą wielkość próby wskazuje punkt, w którym uzyskana li­
poziomie 0,01 i odrzucamy hipotezę zerową, gdy wartość nia przecina się z osią wielkości próby.
p jest mniejsza od tej wartości. Zauważmy, że nomogramu możemy użyć do oszacowania
• Zmienność obserwacji, np. odchylenie standardowe, gdy mocy testu dla danej wielkości próby. Czasami jest to przydat­
mamy zmienną numeryczną. ne, jeżeli chcemy retrospektywnie dowiedzieć się, czy brak
• Najmniejszy badany efekt — wielkość efektu, który jest istotności w testowaniu hipotezy wynika z niewystarczająco
klinicznie ważny i którego nie chcielibyśmy przeoczyć. Często dużej próby. Pamiętajmy również, że szeroki przedział ufności
jest to różnica (np. różnica w średnich lub proporcjach). Cza­ dla badanego efektu oznacza niską moc (rozdział 11).
sami wyrażona jest jako wielokrotność odchylenia standardo­
wego wartości (różnica standaryzowana). Szybkie wzory
Stosunkowo łatwo jest wybrać moc i poziom istotności testu W przypadku niepowiązanego testu r i testu Chi-kwadrat
tak, aby odpowiadał wymaganiom naszego badania. Zależy to możemy użyć wzoru Lehra2 do obliczenia wielkości próby
zwykle od tego, jakie skutki niosą błędy I i II rodzaju, lecz przy mocy 80% i przy dwustronnym poziomie istotności 0,05.
w niektórych badaniach nad dopuszczeniem leków może też Wymagana wielkość próby w każdej z grup wynosi:
być określony przez ciała ustawodawcze. Mając określony scena­
16
riusz kliniczny, możemy określić efekt, który traktujemy jako
ważny klinicznie. Prawdziwa trudność leży w określeniu zmien­ (Różnica standaryzowana)2
ności zmiennej numerycznej przed zebraniem danych. Uzysku­ Jeżeli różnica standaryzowana jest mała, wzór daje zbyt
jemy tę informację z uprzednio publikowanych prac z podobny­ dużą wielkość próby. Zauważmy, że licznik równy 21 (zamiast
mi wynikami lub przeprowadzamy badanie pilotażowe. 16) daje wynik dla mocy 90%.

METODOLOGIA 1
Machin D., Campbell M. J., Fayers P. M., Pinol A. P. Y.: Samplesize
Możemy obliczyć wielkość próby na wiele sposobów, z któ­ Tablesfor Clinical Studies. Blackwell, Oxford 1997.
rych właściwie każdy wymaga tej samej (opisanej w wyma­ 2
Lehr R.: Sbcteen s squared over d sąuared: a relationfor crude
ganiach) informacji. sample size estitnates. Statistic in Medicine, 1992, 11, 1099-1102.

98 Podstawowe techniki analizy danych


Tablica 36.1. Informacje potrzebne do użycia nomogramu Altmana.
Testowanie Różnica Wyjaśnienie znaczenia N
hipotez standaryzowana na nomogramie Terminologia
Niepowiązany test t N/Z obserwacji w każdej grupie najmniejsza ważna klinicznie różnica w średnich,
(rozdział 21) przyjęte równe odchylenie standardowe w każdej z dwóch
grup. Możemy je oszacować, używając wyników z podobne­
go, wcześniej przeprowadzonego badania lub z publikowanej
informacji. Alternatywnie w celu jego oszacowania można
przeprowadzić badanie pilotażowe. Innym sposobem jest
wyrażenie ó jako wielokrotność odchylenia standardowego
(np. zdolność wykrycia różnicy dwóch odchyleń standardo­
wych).

Powiązany test t # par obserwacji najmniejsza ważna klinicznie różnica w średnich,


(rozdział 20) odchylenie standardowe różnic w odpowiedzi, zwykle osza­
cowywane na podstawie badania pilotażowego.

Test Chi-kwadrat N/2 obserwacji w każdej grupie : najmniejsza ważna klinicznie różnica proporcji „sukce­
(rozdział 24) sów" w obu grupach. Jedna z tych proporcji jest często
znana i odpowiednią różnicę szacuje się przez rozważe­
nie, jaką wartość druga proporcja musi przyjąć, by sta­
nowić godną uwagi zmianę.

OKREŚLENIE MOCY • aby uzyskać niezależne grupy o różnych wielkościach.


Może to być pożądane, gdy jedna grupa ma ograniczoną
Często zasadniczą, a zawsze pożyteczną rzeczą jest włącze­
wielkość, na przykład w badaniu przypadek-kontrola z po­
nie do protokołu badania lub do części o metodyce pracy
wodu rzadkości występowania choroby (rozdział 1(5) lub gdy
(patrz deklaracja CONSORT, rozdział 14) określenia mocy
leczenie nowym lekiem jest krótko stosowane. Zauważmy
w celu pokazania, że na etapie projektowania badania przy­
jednak, że brak równowagi w liczbach powoduje zwykle
wiązywano wagę do wielkości próby. Można na przykład
wzrost ogólnej wielkości próby w porównaniu z projektem
stwierdzić, że „w każdej grupie wymagana jest liczba 84 pa­
zbalansowanym, jeżeli ma zostać utrzymany podobny po­
cjentów dla niepowiązanego testu t do uzyskania 90% szan­
ziom mocy. Gdy stosunek wielkości prób w dwóch grupach
sy wykrycia różnicy w średnich 2,5 dni (SD = 5 dni) na 5%
wynosi /c(np. k = 3, jeżeli wielkość jednej grupy ma być trzy
poziomie istotności" (patrz: przykład 1).
razy większa od drugiej), skorygowana wielkość całkowita
próby wynosi
PRZYSTOSOWANIA
N' = N(l + k)2/(4k),
Możemy chcieć przystosować wielkość próby:
• aby pozwolić na straty w obserwacjach, przez rekruto­ gdzie Njest nieskorygowaną, całkowitą wielkością próby, ob­
wanie na początku większej liczby pacjentów. Jeżeli spodzie­ liczoną dla grup o równych wielkościach. Wówczas N'/(l + k)
wamy się, że częstość wypadania z grupy wyniesie r%, wtedy z tych pacjentów należy do grupy mniejszej, a pozostali do
dostosowana wielkość próby obliczana jest przez przemnoże­ większej.
nie nieskorygowanej wielkości próby przez 100/(100 - r).

PRZYKŁAD 1
Porównywanie średnich w grupach niepowiązanych przy użyciu niepowiązanego testu f

Cel — badanie skuteczności zawiesiny acicloviru Pytanie dotyczące wielkości próby — jak wiele dzieci
(15 mg/kg) w leczeniu dzieci w wieku 1-7 lat z opryszcz- musi wziąć udział w eksperymencie dla uzyskania 90%
kowym zapaleniem dziąseł, trwającym krócej niż 72 go­ mocy wykrywania 2,5-dniowej różnicy średniego czasu
dziny. trwania zmian patologicznych w jamie ustnej w dwóch
Projekt — randomizowany, podwójnie ślepy ekspery­ grupach na poziomie istotności 5%? Autorzy zakładają, że
ment kontrolowany grupą placebo z „leczeniem" stosowa­ odchylenie standardowe czasu trwania zmian patologicz­
nym 5 razy dziennie przez 7 dni. nych w jamie ustnej wynosi w przybliżeniu 5 dni.
Główna miara wyniku dla wyznaczenia wielkości
próby — czas trwania zmian patologicznych w jamie ust­
nej.

36. Wyznaczanie wielkości próby 99


Użycie nomogramu: niż przy użyciu placebo (tj. k = 2), wtedy skorygowana
6 = 2,5 dni oraz o = 5 dni. Zatem standaryzowana różnica wielkość próby wyniesie

wynosi
z 180/3 = 60 dziećmi w grupie placebo, a pozostałymi
120 dziećmi w grupie acicloviru. Rycina 18.1 przedsta­
Linia łącząca standaryzowaną różnicę 0,50 oraz moc wia krzywe mocy dla tego przykładu.
90% przecina oś wielkości próby w pobliżu wartości 160.
Dlatego w każdej grupie potrzeba około 80 dzieci. Szybki wzór:
Zauważmy: (i) jeżeli ó wzrosła do 3 dni, różnica standa­ Przy mocy 90%, wymagana wielkość próby w każdej
ryzowana równa się 0,6, a wymagana wielkość próby z grup wynosi:
spada do całkowitej liczby 118, tj. po 59 w każdej grupie,
oraz (ii) jeżeli używając oryginalnej specyfikacji, badacze
chcą mieć dwa razy więcej dzieci w leczeniu aciclovirem (

Amir J., Haiel L., Smettana Z., Varsano I.: Treatment: ofherpes simplex gingwostomatitis with aciclovir in children: a randomized double-
-blind placebo controlled study. British Medical Journal, 1997, 314, 1800-1803.

PRZYKŁAD 2
Porównanie dwóch proporcji w niezależnych grupach przy użyciu testu Chi-kwadrat

Cel — porównanie skuteczności zastrzyków z kortyko- Zatem standaryzowana różnica wynosi:


steroidów oraz fizjoterapii w leczeniu bolesnej sztywno­
ści barku.
Projekt — randomizowany eksperyment kontrolowany
(RCT — randornized controlled trial), w którym pacjenci
są losowo przydzieleni do grupy 6-tygodniowego leczenia Linia łącząca standaryzowaną różnicę 0,50 oraz moc
obejmującego albo maksymalnie trzy zastrzyki, albo 80% przecina oś wielkości próby w punkcie 120. Zatem
dwanaście 30-minutowych sesji fizjoterapeutycznych w każdej grupie potrzebujemy w przybliżeniu 60 pacjen­
przeprowadzanych dla każdego pacjenta. tów. Zauważmy: (i) jeżeli moc wzrosła do 85%, żądana
Gtmmy wynik pomiarowy dla wyznaczenia wielkości wielkość próby wzrośnie w przybliżeniu do całkowitej
próby — leczenie jest traktowane po 7 tygodniach jako liczby 140, tj. w każdej grupie musi być 70 pacjentów,
.sukces, jeżeli pacjent ocenia siebie jako całkowicie wyle­ oraz (ii) jeżeli częstość wypadania z badania oszacowano
czonego lub mającego znaczną poprawę (na sześciopunk- na około 20%, skorygowana całkowita wielkość próby (dla
towej skali Likcrta). mocy 80%) wyniesie 120 x 100/(100 - 20) = 150, czyli po
Pytanie o wielkość próby — jak wielu pacjentów mu­ 75 pacjentów w każdej grupie). Rycina 18.2 pokazuje
si wziąć udział w badaniu dla otrzymania 80% mocy wy­ krzywe mocy dla tego przykładu.
krywania klinicznie ważnej różnicy w częstości sukce­
sów wynoszącej 25% pomiędzy dwoma grupami na 5% Szybki wzór:
poziomic istotności? Autorzy zakładają częstość sukce­ Dla mocy 80% wymagana wielkość próby w każdej
sów około 40% w grupie mającej co najmniej jedno lecze­ z grup wynosi:
nie zakończone sukcesem.

Użycie nomogramu:

van der Windt D. A. W. M, Kocs B. W., Derillc W., de Jong B. A., Bouter M.: Effectiveness of cortkosteroid injections with physiotherapy
for treatment ofpainful shoulder in prima/y care: randomised trial British Medical Journal, 1998,317, 1292-6.

100 Podstawowe techniki analizy danych


37 PREZENTACJA WYNIKÓW

WSTĘP • Nazywaj wszystkie osie, segmenty i słupki oraz wyja­


śniaj znaczenie symboli.
Ważną cechą statystyki jest to, że pozwala na podsumowywa­ • Unikaj zniekształcania wyników poprzez wyolbrzymia­
nie ważnych cech analizy. Musimy wiedzieć, co należy włą­ nie osi na skali.
czyć do analizy i jak opisać nasze wyniki, aby inni mogli ła­ • Wskazuj, gdzie w tym samym miejscu na diagramie
two uzyskać odpowiednią, ważną informację oraz wyciągnąć rozrzutu leżą dwie lub więcej wartości, np. stosując odmien­
poprawne wnioski. Ten rozdział opisuje najważniejsze cechy ne symbole.
takiej prezentacji. • Upewnij się, że na diagramie zamieszczono całą po­
trzebną informację (np. połączenie sparowanych wartości).
WYNIKI NUMERYCZNE
• Podawaj liczby wyłącznie w odpowiednim stopniu do­ PREZENTACJA WYNIKÓW
kładności (wskazówka: jedna cyfra znacząca więcej niż W PRACACH NAUKOWYCH
w danych surowych). Jeżeli analizujesz dane bez pomocy Gdy wyniki prezentowane są w publikacji, musimy się
komputera, ostatecznego zaokrąglenia w górę lub w dół do­ upewnić, czy praca zawiera informację wystarczającą czytel­
konuj na samym końcu obliczeń. nikowi do zrozumienia tego, co zostało wykonane. Czytelnik
• Określaj liczbę przypadków, na których opiera się każ­ powinien być w stanie odtworzyć wyniki, mając odpowiedni
da miara podsumowująca (np. procenty). pakiet komputerowy i dane. W petni trzeba opisać wszystkie
• Opisz wszystkie wartości odskakujące oraz to, jak so­ aspekty projektu badania i jego metodologię statystyczną
bie z nimi poradziłeś (rozdział 3). (patrz także Deklaracja CONSORT - rozdział 14).
• Dołączaj jednostki pomiaru.
• Gdy interesujesz się przede wszystkim parametrem Wyniki testowania hipotez
(np. średnią, współczynnikiem korelacji), zawsze podawaj • We właściwych sytuacjach dodawaj odpowiednie wykresy.
dokładność jego oszacowania. Polecamy użycie w tym celu • Wskazuj badane hipotezy.
przedziałów ufności, lecz błąd standardowy też jest do zaak­ • Nazwij test i określ, czy jest jedno- czy dwustronny.
ceptowania. Unikaj użycia symbolu ±, np. średnia ±SEM • Sprawdź założenia (jeżeli takie istnieją) leżące u pod­
(rozdział 10), ponieważ dodając i odejmując SEM, tworzymy staw testu (np. normalność, stałość wariancji; rozdział 35)
67% przedział ufności, który może być mylący dla tych, któ­ i opisuj każdą transformację (rozdział 9) niezbędną do speł­
rzy używają 95% przedziałów ufności. Lepiej przedstawić nienia tych założeń (np. logarytmowanie).
błąd standardowy w nawiasach, po estymatorze parametru • Specyfikuj wartość obserwowaną statystyki testowej,
[np. średnia = 16,6 g (SEM 0,5 g)]. jej rozkład (i w odpowiednich sytuacjach liczbę stopni swo­
• Gdy interesujesz się przede wszystkim rozkładem da­ body) oraz jeżeli to możliwe, dokładną wartość p (np.
nych, zawsze wskazuj miarę rozrzutu danych. Użytecznym p = 0,03), a nie jej estymator przedziałowy (np. 0,01 < p <
deskryptorem jest zakres wartości, który wyklucza wartości < 0,05), lub system gwiazdek (np. *, **, *** dla wzrastającego
odskakujące (zazwyczaj zakres wartości zawierający central­ poziomu istotności). Unikaj zapisu n.s. [ang. not significant—
ne 95% obserwacji — rozdział 6). Gdy dane mają rozkład nor­ nieistotny], gdy p > 0,05; dokładna wartość p jest lepsza na­
malny, zakres ten jest przybliżony przez wartość średnią wet wtedy, gdy wynik nie jest istotny.
±1,96 x odchylenie standardowe (rozdział 7). Można zamiast • Załączaj estymator odpowiedniego efektu badanego (np.
tego podawać średnią i odchylenie standardowe [np. średnia dla testu f różnicę w średnich dwóch prób lub średnią różnic
= 35,9 mm (SD 2,8 mm)], lecz pozostawia się wówczas czytel­ zmiennych powiązanych) z przedziałem ufności (lepiej) lub
nikowi obliczenie zakresu. błędem standardowym.
• Wyciągnij z wyników wnioski (np. odrzuć hipotezę zero­
wą), zinterpretuj każdy przedział ufności i wyjaśnij wnioski.
TABLICE
• W tablicy nie zamieszczaj zbyt dużo informacji. Wyniki analizy regresji
• Dołączaj zwięzły, niosący właściwą informację i jedno­ Chodzi tu o prostą (rozdział 27 i 28) i wielokrotną regresję li­
znaczny tytuł. niową (rozdział 29), regresję logistyczną (rozdział 30), regre­
• Dodawaj nagłówki do każdego wiersza i każdej kolumny. sję Poissona (rozdział 31), regresję proporcjonalnego hazar­
• Pamiętaj, że łatwiej jest przeglądać informacje w dót du (rozdział 44) oraz metody regresji dla danych sklastery-
kolumn niż w poprzek wierszy. zowanych (rozdział 42). Pełne szczegóły tych analiz są wyja­
śnione w odpowiednich rozdziałach.
• Załączaj stosowne diagramy (np. wykres rozrzutu z do­
DIAGRAMY pasowaną linią dla prostej regresji).
• Twórz proste diagramy i unikaj niepotrzebnych udziw­ • W jasny sposób ustal, co stanowi zmienną zależną, a co
nień (np. tworzenia trójwymiarowych wykresów kołowych). zmienną wyjaśniającą.
• Dołączaj zwięzłe, niosące właściwą informację i jedno­ • Sprawdź założenia leżące u podstaw analizy i wytłumacz
znaczne tytuły. wyniki diagnostyki regresyjnej, o ile została ona wykonana.

37. Prezentacja wyników 101


• Opisz wszelkie transformacje i wyjaśnij ich cele. • Podaj wyniki testowania hipotez dla współczynników
• Tam, gdzie trzeba, opisz możliwe wartości numerycz­ (np. załącz wartość statystyki testowej i wartość phWycią-
ne, przybierane przez zmienną kategorialną (np. mężczyzna gnij z tych testów odpowiednie wnioski.
= 0, kobieta = 1), to, jak utworzono zmienne ślepe (rozdział
29), oraz jednostki zmiennych ciągłych. Analizy złożone
• Podaj opis jakości dopasowania modelu, np. R (roz­
2
Brak jest prostych reguł prezentacji bardziej złożonych form
dział 29) lub LRS (rozdział 32). analizy statystycznej. Pamiętaj o szczegółowym opisie pro­
• W odpowiednich sytuacjach (np. w regresji wielokrot­ jektu badania (np. czynników wanalizie wariancji oraz tego,
nej) podawaj wyniki całościowego testu Fz tablicy ANOVA. czy istnieje struktura hierarchiczna) i załącz sprawdzenie
• Podaj estymatory wszystkich współczynników w mode­ założeń leżących u jego podstaw, statystyk testowych i war­
lu (również te nieistotne) wraz z przedziałami ufności dla tości p. Krótki opis tego, czemu służy analiza, pomaga w zro­
współczynników lub błędami standardowymi ich estymatorów. zumieniu badania osobom niewtajemniczonym; należy dołą­
W regresji logistycznej (rozdział 30), regresji Poissona (roz­ czyć do niego literaturę omawiającą to w sposób bardziej
dział 31) i regresji proporcjonalnego hazardu (rozdział 44) do­ szczegółowy. Opisz też, jaki pakiet statystyczny został zasto­
konuj konwersji współczynników do oszacowywanych ilorazów sowany.
szans, ryzyka względnego lub względnego hazardu (z przedzia­
łami ufności). Interpretuj odpowiednie współczynniki.

102 Podstawowe techniki analizy danych


Rycina 37.1. Histogramy przedstawiające rozkład (a) skurczowego ciśnienia krwi oraz (b) wzrostu w próbie 100 dzieci (rozdział 26).

37. Prezentacja wyników 103


38 NARZĘDZIA DIAGNOSTYCZNE

Stan zdrowia osobnika jest często scharakteryzowany przez mieć prosty test, zależny od obecności lub braku jakiegoś
zbiór pomiarów numerycznych lub kategorialnych. W tym wskaźnika, który dostarcza rozsądnej wskazówki, czy u pa­
kontekście można użyć odpowiednich przedziałów odniesie­ cjenta zachodzi czy nie zachodzi dana sytuacja.
nia (rozdział 6 i 7) i/lub testów diagnostycznych: Bierzemy grupę osobników, u których prawdziwy status
• do wykorzystania przez klinicystę, wraz z badaniami choroby jest znany na podstawie złotego standardu. Możemy
klinicznymi, w celu zdiagnozowania lub wykluczenia kon­ stworzyć tablicę częstości 2 x 2 (tablica 38.1):
kretnej choroby u pacjenta;
• jako narzędzia przesiewu do sprawdzenia, którzy
Tablica 38.1. Tablica częstości.
osobnicy w pozornie zdrowej populacji prawdopodobnie ma­
ją badaną chorobę (lub czasami jej nie mają). Wyznaczone Test złotego standardu
w ten sposób osoby będą przedmiotem bardziej dokładnych Brak
badań w celu potwierdzenia postawionej im diagnozy. Wyko­ Wynik testu Choroba choroby Razem
nanie badań przesiewowych dla wykrycia choroby jest sen­ Dodatni a b a+ b
sowne wtedy, gdy istnieją odpowiednie ułatwienia w lecze­ Ujemny c d c+ d
niu choroby w stadiach przedobjawowych, leczenie to jest Razem a+ c b+d n-a +b+c + d
tańsze i/lub bardziej efektywne niż stosowane w później­
szych etapach (lub gdy wierzymy, że osoby zdiagnozowane
z tą jednostką chorobową zmienią swoje zachowania w celu Spośród badanych nosobników a+ cosobników ma cho­
zapobieżenia rozprzestrzenianiu się choroby). robę. Prewalencja (rozdział 12) choroby w tej próbie wynosi
(a + c)
PRZEDZIAŁY ODNIESIENIA n
Przedziały odniesienia (często określane jako zakres nor­
my) dla pojedynczej zmiennej numerycznej, wyznaczone na Spośród a+ c osobników, którzy chorują, a ma pozytyw­
podstawie wielkiej próby, oznaczają zakres typowych warto­ ne wyniki testu (prawdziwie dodatnie), a c — wyniki nega­
ści obserwowanych u zdrowych osobników. tywne (fałszywie ujemne). Spośród b+d osobników, któ­
Jeżeli wartość jest powyżej górnej lub poniżej dolnej gra­ rzy nie mają choroby, d ma wyniki testu negatywne
nicy, uważamy ją za nienaturalnie wysoką (lub niską) w po­ (prawdziwie ujemne), a b ma dodatnie wyniki testu (fał­
równaniu ze zdrowymi osobnikami. szywie dodatnie).

Obliczanie przedziałów odniesienia Określenie wiarygodności: czułość i swoistość


Można to robić na dwa sposoby. Czułość = proporcja osobników z chorobą, prawidłowo wy­
• Zakładamy, że dane mają rozkład normalny. Około 95% krytych przez test
wartości danych leży w obrębie 1,96 odchylenia standardo­ a
wego od wartości średniej (rozdział 7). Używamy naszych (a+ c) '
danych do obliczenia tych dwóch granic (średnia ±1,96 x od­
chylenie standardowe). Specyficzność = proporcja osobników bez choroby, prawi­
dłowo wykrytych przez test
• Alternatywnym podejściem, które nie zakłada żadnego
warunku wstępnego o rozkładzie pomiarów, jest użycie za­ d
kresu centralnego, który obejmuje 95% wartości danych (roz­ (b+d)'
dział 6). Układamy nasze wartości w kierunku rosnącym
i jako nasze granice przyjmujemy 2,5 oraz 97,5 percentyl. Wartości te są zwykle wyrażane w procentach. Tak jak
w przypadku wszystkich estymatorów, powinniśmy dla tych
Wpfyw pozostałych czynników miar wyznaczyć przedziały ufności (rozdział 11).
na przedziały odniesienia Chcielibyśmy, aby zarówno czułość, jak i specyficzność
Czasami wartości zmiennej numerycznej zależą od innych były tak bliskie 1 (lub 100%), jak to możliwe. Jednakże
czynników, takich jak wiek i płeć. Ważne jest, by interpretować w praktyce możemy zwiększać czułość kosztem specyficzno­
poszczególne wartości dopiero po uwzględnieniu pozostałych ści i vice verscL To, czy naszym celem będzie duża czułość,
czynników. Na przykład, przedziały odniesienia dla skurczowe­ czy specyficzność, zależy od warunków, które staramy się
go ciśnienia krwi tworzymy osobno dla mężczyzn i kobiet. wykryć, oraz od tego, jakie konsekwencje ma dla pacjenta
i/lub populacji uzyskanie wyników testu fałszywie ujem­
nych lub fałszywie dodatnich. W przypadku chorób, które się
TESTY DIAGNOSTYCZNE łatwo leczy, wybieramy wysoką czułość; w przypadku po­
Test złotego standardu, który pozwala na ostateczną diagno­ ważnych i nieuleczalnych wybieramy wysoką specyficzność
zę w szczególnej sytuacji, może czasami być niepraktyczny w celu uniknięcia postawienia diagnozy fałszywie dodatniej.
lub nie dawać się stosować w rutynowej pracy. Wolelibyśmy Jest rzeczą istotną, by przed skriningiem badani zrozumieli

104 Zagadnienia dodatkowe


implikacje dodatniej diagnozy, jak i rozumieli, czym są czę­ Krzywe ROC
stości fałszywie dodatnie i fałszywie ujemne testu. Krzywe ROC (ang. recewer operating characteristic curves)
określają, czy dany typ testu daje użyteczną informację i czy
Wartości predykcyjne może być użyty do porównania dwóch różnych testów oraz do
Dodatnia wartość predykcyjna = proporcja osobników z po­ wybrania optymalnej dla testu wartości odcięcia.
zytywnym wynikiem testu, Dla danego testu bierzemy pod uwagę wszystkie punkty
którzy mają chorobę odcięcia dające niepowtarzalne wartości czułości i swoisto­
ści oraz wykreślamy czułość w funkcji (jeden — specyficzno­
ści), porównując w ten sposób prawdopodobieństwa dodat­
niego wyniku testu u tych, którzy mają jednostkę chorobową
Ujemna wartość predykcyjna = proporcja osobników z ujem­ lub jej nie mają, oraz łączymy je liniami (rycina 38.1).
nym wynikiem testu, którzy Krzywa ROC dla mającego jakąś przydatność testu bę­
nie mają choroby dzie leżała na lewo od przekątnej (tj. linii pod kątem 45°). Za­
leżnie od implikacji wyników fałszywie dodatnich i fałszywie
ujemnych oraz rozpowszechnienia choroby możemy z tego
rysunku wybrać optymalną wartość odcięcia dla testu. Moż­
Dla tych wartości predykcyjnych obliczamy przedziały uf­ na porównać dwa lub więcej testów dla tej samej choroby po­
ności, często wyrażone w procentach, stosując metody opisa­ przez badanie pola pod każdą krzywą; pole to obliczone jest
ne w rozdziale 11. przy użyciu statystyki C (dostępnej w wielu pakietach staty­
Wspomniane wartości predykcyjne dostarczają informa­ stycznych). Skutki choroby lepiej różnicuje test z większym
cji o tym, jakie jest prawdopodobieństwo, że osobnik miał polem powierzchni (tj. z większą statystyką C).
chorobę lub jej nie miał, mając takie a nie inne wyniki testu.
Wartości predykcyjne są zależne od rozpowszechnienia cho­ Czy test jest przydatny?
roby w badanej populacji. W populacjach, gdzie choroba jest Iloraz wiarygodności (LR — likelihood rado) dla wyniku
powszechna, dodatnia wartość predykcyjna testu będzie dodatniego jest stosunkiem szansy wyniku dodatniego u pa­
znacznie wyższa niż w populacjach, gdzie choroba jest rzad­ cjenta mającego chorobę do szansy wyniku dodatniego
ka. Odwrotna sytuacja zachodzi w przypadku ujemnych war­ u pacjenta nie mającego choroby (patrz także rozdział 32).
tości predykcyjnych. Ilorazy wiarygodności można również zbudować dla nega­
tywnych wyników testu. Na przykład, LR = 2 dla wyniku do­
Użycie wartości odcięcia datniego wskazuje, że wynik dodatni jest dwa razy bardziej
Czasami chcemy postawić diagnozę na podstawie pomiaru prawdopodobny u osobnika mającego chorobę niż u osobnika
ciągłego. Często nie ma progu, powyżej (lub poniżej) którego nie chorującego na tę chorobę. Wysoki iloraz wiarygodności
choroba zawsze się pojawia. W tych sytuacjach sami musimy dla wyników dodatnich wskazuje, że test niesie użyteczną
zdefiniować wartość odcięcia, powyżej (lub poniżej) której informację, dając stosunek wiarygodności bliski zero dla wy­
uznajemy, że osobnik ma bardzo dużą szansę bycia chorym. ników ujemnych.
Praktycznym sposobem jest użycie górnej (lub dolnej) Można pokazać, że:
granicy przedziału odniesienia. Możemy wyznaczyć taką
wartość odcięcia przez wyznaczenie związanej z nią czuło­ LR dla wyniku dodatniego =
ści, swoistości i wartości predykcyjnych. Jeżeli wybierzemy
inne wartości odcięcia, wartości te będą mogły ulec zmianie,
w miarę jak przyjmować będziemy mniej lub bardziej suro­ Tę wartość LR omawiamy w ramach metod Bayesowskich
we kryteria. Wybieramy wartość odcięcia tak, by optymali­ w Rozdziale 45.
zowała wspomniane miary zgodnie z naszymi potrzebami.

38. Narzędzia diagnostyczne 105


PRZYKŁAD
Wirus cytomegalii (CMV) jest powszechnym schorzeniem Dla tej wartości odcięcia mamy więc stosunkowo wyso­
wirusowym, na które w dzieciństwie zapada około 50% ką swoistość, a umiarkowaną czułość. Wartość LR równa
osobników. Chociaż infekcja wirusem nie prowadzi do żad­ 2,6 wskazuje, że test ten jest użyteczny z tego względu, że
nych większych problemów, osoby, które zostały zainfeko­ wynik obciążenia wirusem > 4,5 log10 genomów/ml jest
wane w przeszłości CMV, mogą doświadczyć poważnych przeszło dwa razy bardziej prawdopodobny u osobników
chorób po pewnych procedurach transplantacyjnych, ta- z ciężką chorobą niż u tych bez ciężkiej choroby. Jednakże
kinh jak transplantacja szpiku kostnego, gdy ich własny w celu zbadania innych wartości odcięcia wykreślono
wirus ulegnie reaktywacji lub zostaną powtórnie zakażone krzywą ROC (ryc. 38.1). Wykreślona krzywa przebiega na
przez dawców. Powstał pomysł, że ilość wirusa w ich krwi lewo od przekątnej. W naszym przykładzie najbardziej
po transplantacji (obciążenie wirusem) może prognozować, użyteczną wartością odcięcia (5,0 log10 genomów/mi) jest
esy osobnik będzie ciężko chorował. W celu zbadania tej ta, która daje czułość 40% i swoistość 97%; wówczas war­
potezy zmierzono obciążenie wirusem CMV w grupie 49 tość LR równa się 13,3.
pAćjóntow, którym przeszczepiono szpik kostny.
U piętnastu spośród 49 pacjentów w trakcie obserwa­
cji rozwinęta sie ciężka choroba. Wartości obciążenia wiru­
sem ii wszystkich pacjentów wahały się od 2,7 log10 geno­
mów/ml rio fi,0 logI0 genomów/ml. W chwili początkowej
wartości przekraczające 4,5 k>g10 gcnomów/ml uznano za
wskazówkę możliwego w przyszłości rozwoju choroby.
Uzyskano wyniki przedstawia tablica częstości; w ramce
umieszczono wartości estymatorów badanych miar.

Ciężka choroba
Obciążenie w i r u s e m
(log,fl genomów/ml) Tak Nie Razem
s.4,5 7 6 13
£4.5 8 28 36
Razem 15 34 49

Prewalcncja = (15/49) x 100% = 31% (95% CI 18% do 45%). Rycina 38.1. Krzywa ROC wyjaśniająca wyniki dla dwóch możli­
flzufcw; = (7/15) x 100% = 47% (95% CI 22% do 72%). wych wartości odcięcia, optymalnej i stosowanej w testach diagno­
stycznych.
Swoisiość = (28/34) x 100% = 82% (95% CI 69% do 95%).
Wartość prognostyczna dodatnia = (7/13) x 100% = 54%
m%az7%óo8m.
Wartość prognostyczna ujemna = (28/36) x 100% = 78%
(95% CI 65% do 92%).
Stosunek wiarygodności dla wyniku dodatniego =
0,47/(1-0,82) = 2,6 (95% CI 1,1% do 6,5%, uzyskane
z wydruku komputerowego).

Dano uzyskane dzięki uprzejmości: prof. V. C. Emery i dr D. Gor, Department of Virology, Royal Free and University College Medical School,
Londyn, Wielka Brytania.

106 Zagadnienia dodatkowe


39 SZACOWANIE ZGODNOŚCI

WSTĘP Często jednak zgodność otrzymana z kappa1 jest opisy­


wana jako:
Często zdarza się, że chcemy porównać wyniki, które powin­
ny być zgodne. W szczególności możemy chcieć ocenić i, jeśli
to możliwe, oszacować dwie formy zgodności lub rzetelności:
• Odtwarzalność (zgodność metody/obserwatora). Czy
dwie techniki użyte do zmierzenia pewnej zmiennej, w iden­
tycznych warunkach dają takie same wyniki? Czy dwóch lub
więcej obserwatorów, stosując te same metody pomiaru, Chociaż można ocenić błąd standardowy dla kappa, zwykle
otrzymuje takie same rezultaty? nie testujemy hipotezy, że kappa jest równa zero, gdyż w ba­
• Powtarzalność. Czy pojedynczy obserwator otrzymuje daniach rzetelności nie jest to ani sensowne, ani realistyczne.
takie same wyniki, gdy powtarza zbieranie wyników w iden­ Zauważmy, że kappa jest zależna zarówno od liczby kate­
tycznych warunkach? gorii (tj. jej wartość jest większa, gdy mamy mniej kategorii),
Do oceny odtwarzalności i powtarzalności można podejść jak i prewalencji choroby, należy zatem być ostrożnym przy
w ten sam sposób. W każdym przypadku metoda analizy zale­ porównywaniu kappa z różnych badań. Dla danych porządko­
ży od tego, czy zmienna jest kategorialna (np. slaby, średni, wych możemy również wyznaczyć kappa ważoną2, która bie­
dobry), czy też numeryczna (np. ciśnienie skurczowe krwi). rze pod uwagę, w jakim stopniu obserwatorzy nie są zgodni
Dla uproszczenia ograniczymy się jedynie do problemu porów­ (częstości poza przekątną), jak i częstości odpowiecki 2god-
nywania wyników sparowanych (tj. dwie metody/dwóch ob­ nych (wzdłuż przekątnej). Ważona kappa jest bardzo podob­
serwatorów/podwójne pomiary). na do wewnątrzklasowego współczynnika korelacji (patrz
następna część i Rozdział 42).
ZMIENNE KATEGORIALNE
ZMIENNE NUMERYCZNE
Przypuśćmy, że dwóch obserwatorów ocenia stopień ciężkości
choroby tych samych pacjentów, używając kategorialnej skali Przypuśćmy, że obserwator dokonuje podwójnych pomiarów
pomiarowej, a my chcemy ocenić, w jakim stopniu są oni zgod­ zmiennej numerycznej u n osobników (gdy rozważamy po­
ni. Przedstawiamy wyniki w dwuwymiarowej tablicy kontyn- dobny problem zgodności metod, zastępujemy tylko słowo
gencji częstości z wierszami i kolumnami wskazującymi kate­ „powtarzalność" przez „odtwarzalność", pamiętając o okre­
gorie odpowiedzi dla każdego obserwatora. Tablica 39.1 zawie­ śleniu powtarzalności każdej z metod przed przeprowadze­
ra przykładowe wyniki oceny powierzchni zębowych przez niem badania zgodności metody).
dwóch obserwatorów. Częstości przypadków, w których obser­ • Jeżeli średnia różnica między podwójnymi pomiarami
watorzy są zgodni, ukazano wzdłuż przekątnej tablicy. Obli­ wynosi zero (oszacowana testem t dla zmiennych powiąza­
czamy odpowiadające im częstości, których należałoby się spo­ nych, testem znaków lub testem rangowanych znaków — roz­
dziewać, gdyby kategoryzacji dokonywano w sposób losowy, działy 19 i 20), możemy wnioskować, że nie istnieje systema­
w taki sam sposób, jak obliczaliśmy częstości oczekiwane tyczna różnica między parami wyników; jeżeli jeden zbiór
w teście Chi-kwadrat dla zależności (rozdział 24) — tzn. każ­ odczytów reprezentuje prawdziwe wartości, jak to zdarza się
da wartość oczekiwana jest iloczynem odpowiednich sum w badaniach porównujących metody, oznacza to, że nie ma ob­
brzegowych wierszowych i kolumnowych, podzielonym przez ciążenia. Wówczas pomiary podwójne są przeciętnie zgodne.
sumę całkowitą. Następnie mierzymy zgodność za pomocą • Oszacowane odchylenie standardowe dla różnic (sd) da­
wzoru: je miarę zgodności dla osobnika. Jednakże częściej oblicza
się współczynnik powtarzalności Brytyjskiego Instytutu
Standaryzacji = 2sd. Jest to największa różnica, która może
się pojawić między dwoma pomiarami. Przyjmując rozkład
normalny różnic, oczekujemy, że w przybliżeniu 95% różnic
w populacji leży pomiędzy d ± 2sd, gdzie d jest średnią ob­
który daje poprawioną szansę proporcjonalnej zgodności, serwowanych różnic. Granice górna i dolna tego przedziału
gdzie: nazywane są granicami zgodności; możemy na ich podsta­
• m = całkowita częstość obserwowana (np. całkowita liczba wie zadecydować (subiektywnie), czy zgodność między para­
pacjentów). mi odczytów jest do zaakceptowania.
• s u m a obserwowanych częstości wzdłuż przekątnej. • Indeks rzetelności, stosowany często do mierzenia po­
• suma oczekiwanych częstości wzdłuż przekątnej. wtarzalności i odtwarzalności, jest współczynnikiem kore­
• 1 w mianowniku reprezentuje maksymalną zgodność. lacji wewnątrzklasowej (ICC — intraclass correlation coef-
ficient, rozdział 42), który przybiera wartości od zera (brak
K = 1 oznacza pełną zgodność, a« = 0 sugeruje, że zgodność
nie jest lepsza od tej, którą uzyskalibyśmy przypadkowo.
Nie ma obiektywnych kryteriów do oceny wartości pośred­ 1
Landis J. R, Koch G. G.: The measurement ofobserver agreement
nich. for categorical data. Biometrics 1977, 33, 159-174.
2
Cohen J.: Weighted Kappa: nominał scalę agreement with provi-
sionfor scalę disagreement or partia! credit. Psychological Bulletin,
1968, 70, 213-220.

39. Szacowanie zgodności 107


zgodności) do 1 (idealna zgodność). Gdy mierzymy zgodność punktów (jednakowo rozłożony powyżej i poniżej zera, gdy
między parami obserwacji, ICC jest proporcją zmienności brak jest systematycznych różnic między parami), wtedy
w obserwacjach wynikającą z różnicy między parami, tj. wa­ można przyjąć pojedynczą miarę powtarzalności. Jednakże
riancja między parami, wyrażoną jako proporcja całkowitej jeżeli obserwujemy efekt lejka, ze wzrastającą (na przykład)
•wariancji obserwacji. zmiennością różnic dla większych wartości średnich, wtedy
Gdy nie ma dowodu na istnienie systematycznych różnic należy problem rozpatrzyć ponownie. Możemy znaleźć odpo­
między parami, możemy obliczyć ICC jako współczynnik ko­ wiednią transformację surowych danych (rozdział 9) i gdy
relacji Pearsona (rozdział 26) pomiędzy 2n parami obserwa­ powtórzymy procedurę na obserwacjach przetransformowa-
cji uzyskanymi przez dwukrotne włączenie każdej pary: raz, nych, wymagany warunek zostanie spełniony. Możemy też
gdy wartość jest obserwowana, i raz, gdy podlegają one wy­ użyć wykresu do wykrycia wartości skrajnych (rozdział 3).
mianie (patrz przykład 2). • Należy zachować ostrożność przy obliczaniu współ­
Gdy chcemy wziąć pod uwagę systematyczną różnicę czynnika korelacji (rozdział 26) pomiędzy dwoma zbiorami
między obserwacjami w parze, obliczamy ICC jako: odczytów (na przykład z pierwszego i z drugiego zdarzenia
lub z dwóch metod/obserwatorów). W rzeczywistości nie in­
teresuje nas, czy punkty na diagramie rozrzutu (np. wyni­
ków z pierwszego zdarzenia, wykreślonych w funkcji tychże
z drugiego zdarzenia) leżą na linii prostej; chcemy wiedzieć,
^dzie obliczamy różnice i sumy obserwacji w każdej z n par czy dostosowują się one do linii równoważności (tj. linii pod
i gdzie; kątem 45°, gdy obie skale są takie same). Nie możemy tego
jest oszacowana wariancją z n sum; ustalić, testując hipotezę zerową, że prawdziwy współczyn­
jest oszacowaną wariancją z n różnic; nik korelacji jest równy zero. W każdym razie, ze względu
na naturę badania, byłoby niezwykle dziwne, gdyby pary po­
jest oszacowana średnią z różnic (estymatorem różnicy
miarów nie były powiązane. Co więcej, pamiętajmy o fakcie,
systematycznej).
że możliwy jest wzrost wielkości współczynnika korelacji na
Zazwyczaj przeprowadzamy badanie rzetelności jako
skutek zwiększenia zakresu wartości pomiarowych.
cześć większego eksperymentu badawczego. Próba użyta do
badania rzetelności powinna stanowić odbicie próby użytej
Sytuacje bardziej złożone
do te^o eksperymentu. Nie powinniśmy porównywać warto­
Czasami, oceniając zgodność, napotykamy bardziej złożone sy­
ści ICC w różnych zbiorach danych, gdyż na ICC mają wpływ
tuacje. Na przykład, możemy mieć do czynienia z więcej niż
takie cechy danych, jak zmienność (ICC będzie większe, gdy
dwoma pomiarami powtarzanymi łub więcej niż dwoma ob­
obserwacje są bardziej zmienne). Co więcej, ICC nie jest
serwatorami, lub każdy z zespołu obserwatorów może wyko­
związane z aktualną skalą pomiarową oraz akceptowaną pod
nywać powtarzane pomiary. Szczegóły dotyczące analizy ta­
względem klinicznym wielkością błędu.
kich zagadnień można znaleźć w pracy Streinera i Normana 4 .
Środki ostrożności
• Nie ma sensu obliczanie powtarzalności pojedynczego po­ 3
Bland J. M., Altman D. G.: Statistical methods for assessing
miaru, jeżeli stopień niezgodności obserwacji w parze zale­ agreement between two pairs of clinical m9asurement Lancet,
ży od wielkości pomiaru. Możemy to sprawdzić poprzez obli­ 1986, 307-310.
4
czenie średniej i różnicy w parach odczytów oraz przez wy­ Streiner D. R., Norman G. L.: Health measurement scales: A prac-
kreślenie n różnic w funkcji odpowiadających im śred­ tical guide to their development and use. Oxford University Press,
nich3 (rycina 39.1). Gdy zaobserwujemy losowy rozrzut tych Oxford 2003.

PRZYKŁAD 1
Ocena zgodności - zmienna kategorialna Okazuje się, że istnieje duża zgodność pomiędzy studen­
Dwóch obserwatorów, doświadczony dentysta i student sto­ tem a doświadczonym dentystą w kodowaniu powierzchni
matologii, oceniło stan 2104 powierzchni zębowych u dzieci zębowych u dzieci.
w wieku szkolnym. Każda powierzchnia była kodowana Tablica 39.1. Częstości obserwowane (i oczekiwane) oceny po­
przez każdego obserwatora jako „0" (zdrowa), „r (z co naj­ wierzchni zębowych.
mniej jednym „małym" ubytkiem), „2" (z co najmniej jed­
nym „dużym" ubytkiem) lub „3" (z co najmniej jednym wy­
pełnieniem, z ubytkami lub bez nich). Obserwowane często­
ści pokazano w tablicy 39.1. Pogrubione pozycje wzdłuż
przekątnej pokazują częstości obserwowane oceny zgodnej;
odpowiadające im wartości oczekiwane znajdują się w na­
wiasach. Obliczamy współczynnik kappa Cohena w celu
określenia zgodności pomiędzy dwoma obserwatorami.
Oszacowanie kappa Cohena:

Dane otrzymane dzięki uprzejmości: dr R. D. Holt, Eastman Dental Institnte, University College London, Londyn, Wielka Brytania.

108 Zagadnienia dodatkowe


PRZYKŁAD 2
Oszacowanie zgodności — zmienne numeryczne (39, 41), (50, 49), (45, 42) oraz (25, 28). Jeżeli odwrócimy
Indeks poczucia własnej godności Rosenberga służy do kierunek w każdej parze, otrzymamy zestaw kolejnych
określania samooceny pacjenta. Wartość maksymalna in­ 5 par: (27, 30), (41, 39), (49, 50), (42, 45) oraz (28, 25).
deksu wynosi 50 (wysoka samoocena), jest sumą wartości Powtarzając ten proces dla pozostałych 20 par, otrzymamy
z dziesięciu pytań, każdego punktowanego od zera do pię­ 50 par, których użyjemy do ohliczenia współczynnika ko­
ciu. Część badania, które analizowało skuteczność pewne­ relacji jako estymatora ICC.
go typu zabiegu chirurgicznego, usuwającego deformację Skoro różnica między powtórzonymi pomiarami wynosi
twai-ny, została poświęcona zmianie profilu psychologicz­ najprawdopodobniej około 3,7 i skoro niemal calu zmien­
nego pacjenta poprzez porównanie wartości indeksu Ro­ ność w wynikach (tj. 98%) może być przypisana różnicom
senberga przed operacją i po niej. Badaczy interesowało, między pacjentami, badacze ocenili, że indeks Roscnbcrga
dn jakiego stopnia punktacja Rosenberga jest wiarygodna był wiarygodny i użyli go do określenia odczucia pacjentów
dla zespołu pacjentów, i postanowili określić powtarzal­ co do efektywności chirurgii twarzy.
ność pomiaru na pierwszych 25 pacjentach wymagających
leczenia deformacji twarzy. Mierzyli oni wartości indeksu Tablica 39.2. Wartości indeksu Rosetiberga (pierwszy i drugi) uzy­
Rosenberga podczas pierwszego pojawienia się w klinice, skane dla 25 pacjentów przed leczeniem.
a następnie przy drugim przyjęciu, 4 tygodnie później. Wy­
niki zosuily przedstawione w tablicy 39.2.
Można pokazać, że różnice (wartość pierwsza — war­
tość druga) mają w przybliżeniu rozkład normalny; średnią
1 odchylenie standardowe = 1,83. Statystyka
dla testu /dla zmiennych powiązanych wynosi 1,53 (liczba
stopni swobody = 24) i daje P = 0,14. Ten nieistotny staty­
stycznie wynik wskazuje na to, że nie ma dowodu na istnie­
nie systematycznych różnic [X)między wynikami w obu sytu­
acjach. Współczynnik powtarzalności Brytyjskiego Instytutu
Standaryzacji wynosi = 2 x 1,83 = 3,7. Spodziewamy się,
że w przybliżeniu 95% różnic w populacji takich pacjentów
leży pomiędzy tj. pomiędzy -3,1 i 4,3. Granice te za­
znaczono na rycinie 39.1, pokazującej, że różnice są losowo
rozproszone wokół średniej równej około zero. Indeks rzetel­
ności oszacowano jako

Skoro można zaniedbać istnienie systematycznych róż­


nic, wartość ICC jest taka sarna jak ta, którą otrzymamy,
licząc współczynnik korelacji Pearsona z 50 par wyników,
otrzymanych przez wzięcie każdej pary dwukrotnie, Rycina 39.1. Różnica pomiędzy pierwszą i drugą wartością indek­
w tym raz w kierunku odwróconym. Jako ilustrację tej su Rosenberga poczucia własnej godności — wartości wykreślone
techniki weźmy 5 par wartości przed leczeniem: (30, 27), w funkcji ich średniej dla 25 pacjentów.

Cunningham S. J., Hunt N. R, Feinnman C: Perceptions of outcome followłng othognathic surgery. British Journal of Orał and MaxiIlo-
facial Surgery 1996, 34, 210-213.

39. Szacowanie zgodności 109


40 MEDYCYNA POPARTA DOWODAMI (EBM)

Sackett i in.1 opisują medycynę popartą dowodami (EBM) 4. WYCIĄGANIE NAJBARDZIEJ UŻYTECZNYCH
jako „sumienny, formalny i rozsądny użytek z aktualnych, WYNIKÓW I OKREŚLANIE, CZY SĄ ONE
najlepszych dowodów w podejmowaniu decyzji na temat
WAŻNE
opieki nad indywidualnym pacjentem". W celu praktykowa­
nia EBM musisz umieć odnaleźć badania związane z proble­ Wyciąganie najbardziej użytecznych wyników
mem opieki nad twoimi pacjentami i ocenić ich jakość. Tylko Powinieneś postawić następujące pytania:
wtedy możesz myśleć o stosowaniu tych wniosków w prak­ (a) Co jest główną zmienną wynikową (tj. tą, która wiąże się
tyce klinicznej. z głównym celem)?
Sackett i in. sugerują następujące podejście do EBM. Dla (b) Jak wielki jest badany efekt, wyrażony przez główną
wygody trzeci i czwarty punkt opisaliśmy w kontekście eks­ zmienną wynikową? Jeżeli zmienna jest:
perymentów klinicznych (rozdział 14) i badań obserwacyj­ • Binarna (np. zmarł/przeżył)
nych (rozdziały 15 i 16), lecz można je zmodyfikować tak, aby (i) Jakie są częstości/ryzyko/szanse pojawienia się tego
pasowały do innych form badań (np. testów diagnostycznych, zdarzenia (np. śmierci) w (dwóch) porównywanych
rozdział 38). grupach?
(ii) Badany efekt może być różnicą częstości lub ryzyka
(redukcja bezwzględna) albo stosunkiem (ryzyko
1. SFORMUŁUJ PROBLEM względne lub iloraz szans) — jaka jest jego wielkość?
Musisz zdecydować, co cię interesuje — jak definiujesz po­ • Numeryczna (np. skurczowe ciśnienie krwi)
pulację pacjentów, jakie zabiegi (np. leczenie) lub porówna­ (i) Jaka jest średnia (lub mediana) wartości w każdej
nia są odpowiednie oraz jakiego oczekujesz wyniku (np. z porównywanych grup?
zmniejszonej śmiertelności). (ii) Jaki jest badany efekt, np. różnica w średnich (media­
nach)?
(c) Jak dokładny jest badany efekt? W idealnej sytuacji pod­
2. ZNAJDŹ ODPOWIEDNIĄ INFORMACJĘ dane szczegółowej analizie badanie zawiera przedział ufno­
(NP, NA TEMAT DIAGNOZY, PROGNOZY ści dla prawdziwego efektu (szeroki przedział ufności wska­
LUB TERAPII) zuje na słabą dokładność). Czy ten przedział jest podany? Je­
żeli nie, to czy podano informacje wystarczające (np. błąd
Często można znaleźć potrzebną informację w publikacjach,
standardowy badanego efektu) do wyznaczenia przedziału
lecz należy wziąć pod uwagę również inne możliwości, np.
ufności?
abetrakty ze zjazdów. Musisz wiedzieć, jakie są dostępne ba­
zy danych (np. Medline) i inne źródła dowodów, jak są one
Podejmowanie decyzji, czy wyniki są ważne
zorganizowane oraz jak posługiwać się wyszukiwarkami.
• Rozważ przedział ufności dla badanego efektu (np. różni­
ce między średnimi w grupach leczenia):
3. KRYTYCZNIE OSZACUJ METODY (i) Czy będziesz traktować obserwowany efekt jako waż­
W CELU OCENY WAŻNOŚCI DOWODU ny klinicznie (niezależnie od tego, czy wyniki stoso­
(NA ILE JEST ON BLISKI PRAWDY) wanego testu hipotez są, czy nie są istotne statystycz­
nie), jeżeli dolna granica przedziału ufności oznacza
Należy zadać następujące pytania. prawdziwą wartość efektu?
• Czy rozważono wszystkie ważne wyniki? (ii) Czy będziesz uważać obserwowany efekt za klinicznie
• Czy w badaniu został przeprowadzony odpowiedni do­ istotny, jeżeli górna granica przedziału ufności ozna­
bór pacjentów? cza prawdziwą wartość efektu?
• Czy wyniki mają sens biologiczny? (iii) Czy twoje odpowiedzi na powyższe dwa punkty są
• Czy badanie zaprojektowano tak, że zostało wyelimino­ wystarczająco podobne, aby uznać wyniki badania za
wane obciążenie błędów systematycznych? Na przykład, jednoznaczne i ważne?
w eksperymentach klinicznych, czy badanie miało próbę kon­ • Aby ocenić leczenie w eksperymencie randomizowa-
trolną, czy przy przydzielaniu pacjentów użyto randomizacji, nym kontrolowanym, oblicz liczbę pacjentów, którzy muszą
czy ocena odpowiedzi była ślepa, czy pojawili się pacjenci podlegać leczeniu eksperymentalnemu (NNT — number of
„straceni" dla obserwacji, czy grupy były traktowane w po­ patients you need to treat) a nie leczeniu kontrolnemu, żeby
dobny sposób, poza tym, że otrzymywaty inne leczenie, czy jeden z nich nie otrzymał „złego wyniku" (takiego jak krwa­
wykonano analizę „z zamiarem leczenia"? wienie poporodowe, patrz: przykład). NNT można wyznaczyć
• Czy metody statystyczne są odpowiednie (np. czy zwe­ na wiele sposobów, zależnie od dostępnej informacji. Na
ryfikowano leżące u ich podstaw założenia; czy w analizie przykład, jest ona równa odwrotności różnicy w proporcjach
wzięto pod uwagę zależności między danymi)? osobników z nieprawidłowym wynikiem w grupie kontrolnej
i eksperymentalnej (patrz: przykład).
1
Sackett D. L., Straus S., Richardson S., Rosenberg W., Haynes R. B.:
Evidence-based Medicine: How to Practice and Teach EBM. Chur-
chill-Livingstone, Londyn 2000.

110 Zagadnienia dodatkowe


5. WYKORZYSTAJ WYNIKI 6. OCEN SWOJĄ SKUTECZNOŚĆ
W PRAKTYCE KLINICZNEJ Samoocena zawiera pytania dotyczące twoich możliwości od­
Jeżeli wyniki mają ci pomóc w opiece nad pacjentami, mu- niesienia sukcesu w realizacji zadań od 1 do 5. Czy masz
sisz upewnić się, że: wtedy możliwość zintegrowania oceny krytycznej z praktyką
• Twój pacjent jest podobny do tych, od których uzyska­ kliniczną oraz czy sprawdziłeś swoją skuteczność? Powinie­
no 'wyniki; neś również zapytać siebie, czy na podstawie przeszłych do­
• Wyniki mogą być zastosowane do twojego pacjenta; świadczeń wyciągnąłeś stosowne wnioski, jesteś teraz bar­
• Wszystkie ważne klinicznie wyniki zostały rozważone; dziej efektywny i oceniasz cały proces EBM jako prostszy.
• Prawdopodobne zyski są warte potencjalnej szkody
i kosztów.

Adaptowane z pracy: Rogcrs J., Wood J., McCandish R., Ayers S., Truesdale A., Elbourne D.: Active versns expectant management oj
thirdstagc oflabour the Hinchmgbrooke jnndomised controlled trial. Lancet, 1998, 351, 693-699, za zgodą Elscvicr.

40. Medycyna poparta dowodami 111


41 METODY DLA DANYCH KLASTERYZOWANYCH

Dane klasteryzowane odpowiadają hierarchicznej lub zagnież­ rozdział 22) w celu porównywania grup, ponieważ metody te
dżonej strukturze, w której w najprostszej postaci (dwupozio­ nie biorą pod uwagę pomiarów powtarzanych na tym samym
mowa struktura jednej zmiennej) wartość pojedynczej zmien­ pacjencie. Co więcej, niepoprawne również jest porównywa­
nej zależnej jest mierzona w zbiorze jednostek 1 poziomu za­ nie średnich w grupach osobno dla każdej chwili przy uży­
wartych w różnych grupach lub klasterach (jednostki 2 pozio­ ciu testów f dla zmiennych niepowiązanych (rozdział 21) lub
mu). Na przykład, jednostki poziomu 1 i poziomu 2, to odpo­ jednoczynnikowej ANOVA, gdyż:
wiednio zęby w jamie ustnej, kolana u pacjentów, pacjenci • Pomiary u jednego pacjenta w różnych chwilach nie są
w szpitalu, kliniki w regionie, dzieci w klasie, daty kolejnych niezależne, tak że interpretacja wyników jest trudna. Na
Wizyt dla pacjenta (np. dane longitudinalne, rycina 41.1) etc. przykład, jeżeli porównanie jest istotne w jednym punkcie
Analiza statystyczna takich danych z powtarzanymi pomiara­ czasowym, prawdopodobne jest też istotne w innych punk­
mi powinna brać pod uwagę fakt, że obserwacje w klasterze tach czasu, niezależnie od jakichkolwiek zmian w okresie
m^ mieć tendencję do skorelowania, tj. mogą nie być nie­ przejściowym.
zależne. Nieuznanie tego faktu zazwyczaj skutkuje niedosza­ • Duża liczba przeprowadzonych testów powoduje, że
cowaniem błędów standardowych badanych estymatorów prawdopodobne jest uzyskanie istotnych wyników tylko
i w konsekwencji zwiększa częstości wystąpienia błędu I ro­ przez przypadek (rozdział 18).
dzaju ora2 powoduje wyznaczenie zbyt wąskich przedziałów • Tracimy informacje na temat zmian zachodzących u da­
ufności. nego pacjenta.
Aby to zilustrować, przyjmijmy w tym rozdziale, że mamy
dane longitudinalne, a nasze pomiary powtarzane obejmują
PORÓWNYWANIE GRUP:
wartości zmiennej dla każdego pacjenta w różnych chwilach,
tj. pacjent tworzy klaster. Podsumowujemy dane poprzez opi­
ANALIZY PRAWIDŁOWE
sanie wzorców dla każdego pacjenta i poprzez określenie, czy Użycie miar podsumowujących
wzorce te różnią się pomiędzy dwoma lub więcej grupami pa­ Możemy oprzeć naszą analizę na mierze podsumowującej,
cjentów, która wychwytuje ważne aspekty danych i wyznacza taką
miarę podsumowującą dla każdego pacjenta. Typowymi mia­
PREZENTACJA DANYCH rami podsumowującymi są:
• zmiana od wartości początkowej w określonej chwili;
Wykres pomiarów przeprowadzanych w badaniu u każdego • osiągnięcie wartości maksimum (pik) lub minimum (nadir);
pacjenta w różnych momentach pozwala na ocenę wzrokową • czas potrzebny do osiągnięcia wartości maksymalnej
wzorca w funkcji czasu. Gdy badamy tylko małą grupę pa­ (lub minimalnej);
cjentów, możliwe jest zamieszczenie wszystkich indywidual­ • czas potrzebny do osiągnięcia jakiejś innej, uprzednio
nych przebiegów na jednym wykresie. Staje się to jednak wyspecyfikowanej wartości;
trudne, gdy badamy duża grupę i możemy zilustrować wy­ • wartość przeciętna (np. średnia);
łącznie pewien wybór „reprezentatywnych", indywidualnych • pole pod krzywą (AUC, rycina 41.2);
przebiegów (rycina 41.3), prawdopodobnie przesianych dla • nachylenie i przecięcie linii regresji pacjenta (opisują­
każdej grupy leczenia. Zwróćmy uwagę, że przeciętny wzór ce związek między pomiarem i czasem).
generowany przez wykreślenie średnich dla wszystkich pa­ Jeżeli parametr (np. średnia lub nachylenie) jest u niektó­
cjentów w każdej chwili może różnić się od wzorów widocz­ rych pacjentów wyznaczony dokładniej niż u innych (prawdo­
nych u indywidualnych pacjentów. podobnie dlatego, że mamy więcej obserwacji dla tych pacjen­
tów), powinniśmy w analizie wziąć to pod uwagę, dając
wyższą wagę tym pomiarom, które są wyznaczone dokładniej.
PORÓWNYWANIE GRUP: ANALIZY
Wybór miary podsumowującej zależy od tego, co badamy,
NIEPRAWIDŁOWE i powinien być dokonany przed zebraniem danych. Na przy­
Nieprawidłowe jest użycie wszystkich wartości w grupie do kład, jeżeli rozważamy stężenie leku po leczeniu dwoma te­
dopasowania pojedynczej linii regresji (rozdziały 27, 28) lub rapiami, możemy wybrać czas potrzebny do osiągnięcia mak­
wykonania jednoczynnikowej analizy wariancji (ANOVA; symalnej koncentracji leku (Cmax) lub AUC. Jednakże, gdy

Rycina 41.1. Graficzna prezentacja


dwupoziomowej hierarchicznej struk­
tury dla badania longitudinalnego.

112 Zagadnienia dodatkowe


jesteśmy zainteresowani miareczkowaniem antyciai po szcze­ punktach czasowych różnice te stają się widoczne , można
1

pieniu, wtedy może nas interesować, po jakim czasie miano wykonać testy f dla zmiennych powiązanych, które biorą pod
antyciai spada poniżej określonego, ochronnego poziomu. uwagę zależności między danymi i mają wartości p skorygo­
Porównujemy wartości miar podsumowujących w róż­ wane ze względu na wielokrotne testowanie (rozdział 18).
nych grupach, stosując standardowe testy hipotez [np. test Jednakże ANOVA z powtarzanymi pomiarami ma pewne
8umy rang Wilcoxona (rozdział 21) lub Kruskala-Wallisa niedoskonałości:
(rozdział 22)]. Ponieważ liczbę pomiarów zależnych dla jed­ • Jest często trudna do wykonania.
nego osobnika mamy zmniejszoną do pojedynczej wartości, • Wyniki mogą być trudne w interpretacji.
wartości uwzględnione w analizie są teraz niezależne. • Zakłada ogólnie, że wartości są mierzone w regular­
Chociaż analizy oparte na miarach podsumowujących są nych odstępach czasu i nie ma danych brakujących, tj. zakła­
proste do wykonania, trudną rzeczą może być znalezienie da, że projekt eksperymentu jest zbalansowany. W rzeczywi­
odpowiQdniQj miary, która adekwatnie opisuje dane, więc stości wartości rzadko są mierzone we wszystkich chwilach,
czasami potrzebujemy dwóch lub więcej miar podsumowują­ gdyż pacjenci często opuszczają wizyty lub przychodzą kie­
cych. W dodatku te podejścia nie w pełni wykorzystują dy indziej, niż to zaplanowano.
•wszystkie dane.
Metody regresji
ANOVA z powtarzanymi pomiarami Do analizy danych klasteryzowanych można używać różnych
Możemy wykonać szczególny typ ANOVA (rozdział 22), zwa­ metod regresyjnych, takich jak te, w wyniku których otrzy­
ny ANOVA z powtarzanymi pomiarami, w której rozmaite muje się estymatory parametru z elastycznymi błędami stan­
punkty czasowe są rozważane jako poziomy jednego czynni­ dardowymi lub w których wykorzystuje się uogólnione rów­
ka w analizie, a zmienna grupująca jest drugim czynnikiem nania estymacyjne (GEE — generalised estimańng equnńorb
w analizie. ANOVA z powtarzanymi pomiarami możemy trak­ lub modele efektów losowych (patrz rozdział 42).
tować jako rozszerzenie testu r dla zmiennych powiązanych,
§dy mamy więcej niż dwie powiązane obserwacje. Jeżeli
w ANOVA z powtarzanymi pomiarami powstają istotne róż­ 1
Mickey R. M., Dunn O. J., Clark V. A.: Applied Statistics: Analysis
nice między grupami, wtedy w celu określenia, w których of Yariance and Regression. Wiley 2004.

Rycina 41.2. Obliczenie AUC dla pojedyn­


czego pacjenta. Całkowite pole pod linią
może być podzielone na pewną liczbę prosto­
kątów i trójkątów (oznaczonych od a do j).
Łatwo obliczyć pole każdego z nich. Pole
całkowite AUC = Pole (a) + Pole (b) + ... +
Pole (/).

PRZYKŁAD
W ramach praktycznych ćwiczeń zaprojektowanych w ce­ krzywą" (AUC) jako miary podsumowującej. Obliczenie
lu określenia efektów dwóch wziewnych leków rozszerza­ AUC dla jednego studenta ilustruje rycina 41.3.
jących oskrzela, bromowodorku fenoterolu i bromku ipra- Mediana (zakres) AUC wynosiła 1552,5 (417,5 - 3875),
tropium, 99 studentów medycyny zostało losowo przy­ 1215 (457,5 - 2500) oraz 1130 (547,5 - 2625) sekund2 od­
dzielonych do grup otrzymujących jeden z leków (n = 33 powiednio u otrzymujących bromowodorek fenoterolu, bro­
dla każdego leku) lub placebo (n = 33). W krótkim czasie mek ipratropium i placebo. Wartości w trzech grupach zosta­
każdy student dokonywał czterokrotnej inhalacji. Drżenia ły porównane testem Kruskala-Wallisa, który dał wynik
oszacowywano poprzez pomiar całkowitego czasu po­ p = 0,008. Otrzymaliśmy zatem silny dowód na to, że miary
trzebnego do nanizania pięciu igieł do szycia zamocowa­ AUC różniły się w tych trzech grupach. Nieparametryczne
nych na korku: pomiary wykonywano w chwili początko­ porównania post-hoc, skorygowane ze względu na wielokrot­
wej przed inhalacją oraz w 5, 15, 30, 45 i 60 minucie po ne testowanie, wskazały, że wartości były znacznie wyższe
inhalacji. Pomiary reprezentatywnej próby studentów w grupie otrzymującej bromowodorek fenoterolu, co po­
w każdej z grup eksperymentalnych pokazane zostały na twierdza obserwację farmakologiczną, że ten lek jako agoni-
rycinie 41.2. sta • adrenoceptorów wzbudza drżenia poprzez stymulację
Zdecydowano się na porównywanie wartości „pola pod -adrenoceptorów w mięśniach szkieletowych.

Dane uzyskane dzięki uprzejmości: dr R. Morris, Department of Primary Care and Population Sciences, zebrane w ramach praktyk studenc­
kich zorganizowanych przez dr T. J. Allen, Department of Pharmacology, Royal Free and University College Medical School, Londyn, Wielka
Brytania.

41. Metody dla danych klasteryzowanych 113


Rycina 41.3. Czas potrzebny do nawleczenia pięciu igieł do szycia przez trzech reprezentatywnych studentów W każdej grupie leczenia.

114 Zagadnienia dodatkowe


42 METODY REGRESJI DLA DANYCH
KLASTERYZOWANYCH
Do analizy dwupoziomowej struktury hierarchicznej, opisa­ MODELE EFEKTÓW LOSOWYCH
nej w rozdziale 41, w której każdy klaster (jednostka drugie­ 1
go poziomu) zawiera pewną liczbę jednostek z pierwszego Modele efektów losowych znane są również jako hierarchicz­
poziomu, można użyć rozmaitych metod regresyjnych. Na ne, wielopoziomowe, mieszane, klasterowe lub przekrojowe
przykład, w badaniu reumatoidalnego zapalenia stawów mo­ modele szeregów czasowych. Można je dopasować za pomocą
żemy mierzyć kąt zgięcia zarówno na lewym, jak i na prawym różnych wszechstronnych komputerowych pakietów statystycz­
kolanie (poziom 1) każdego pacjenta (poziom 2). Alternatyw­ nych, takich jak SAS czy Stata, lub programów specjalistycz­
nie, możemy mieć zestaw danych longitudinalnych z pomiara­ nych, takich jak MLwiN (http://multileveI,ioe.ac.uk), Wszyst­
mi (np. całkowitego cholesterolu) powtarzanymi (poziom 1) dla kie one wykorzystują estymację maksymalnej wiarygodności.
każdego pacjenta (poziom 2). Główne zalety i wady każdej Dla każdego z klasterów efekt szacuje się przy użyciu zarówno
z metod podsumowano w tablicy 42.1. Większość z tych me­ informacji z poszczególnych klasterów, jak i tej z pozostałych
tod jest niemiarodajna, chyba że mamy wystarczającą liczbę klasterów, tak że uzyskujemy zyski z „dzielonej" informacji.
klasterów, oprócz tego mogą być trudne do wykonania i pra­ W szczególności powszechnie wyznaczane są estymatory
widłowej interpretacji. Dlatego sugerujemy skonsultowanie kurczące, za pomocą których, stosując odpowiedni współczyn­
ich ze specjalista statystykiem. nik kurczliwości, każdy badany estymator klasteru możemy
skurczyć w kierunku oszacowanej średniej całkowitej. Stopień
skurczenia zależy od wielkości klasteru (małe klastery mają
ANALIZA ZAGREGOWANYCH POZIOMÓW większy stopień skurczenia) i od zmienności danych (skurcze­
Bardzo prostym podejściem jest zagregowanie danych i wy­ nie jest dla estymatorów większe, gdy zmienność w obrębie
konanie analizy przy użyciu odpowiedniej numerycznej mia­ klasteru jest duża w porównaniu z tą pomiędzy klasterami).
ry podsumowującej (np. średniej) dla każdego klasteru (np. Model efektów losowych traktuje klastery jako próbę
pacjenta, rozdział 41).Wybór tej miary podsumowującej za­ z rzeczywistej lub hipotetycznej populacji klasterów. Poszcze­
leży od właściwości danych i badanych hipotez. Przeprowa­ gólne klastery nie stanowią głównego przedmiotu zaintereso­
dzamy zwykłą wielokrotna analizę regresji metodą najmniej­ wania; przyjmuje się, że ogólnie są one podobne, a różnice
szych kwadratów (OLS), używając klasteru jako jednostki między nimi zostały spowodowane losową zmiennością lub in­
badania i miary podsumowującej jako zmiennej wynikowej. nym „ustalonym" czynnikiem, takim jak płeć, wiek etc. Dwu­
Jeżeli każdy klaster przyporządkowano konkretnemu trybo­ poziomowy model efektów losowych różni się od modelu nie
wi leczenia (w przykładzie z kolanem pacjent może być loso­ biorącego pod uwagę klasteryzacji tym, że chociaż oba
wo przyporządkowany do jednej z dwóch grup leczenia — uwzględniają błąd losowy lub niewyjaśniony z powodu zmien­
z wykonywanymi ćwiczeniami lub bez nich), to wraz ze ności między jednostkami poziomu 1 (wariancja wewnątrz-
zmiennymi niezależnymi z innych poziomów klasterów (np. klasterowa, model efektów losowych dodatkowo włącza
płci, wieku) możemy do modelu regresyjnego włączyć „lecze­ błąd losowy wywołany zmiennością między klasterami (<rc£).
nie" jako zmienną ślepą, przy użyciu kodów 0 i 1 (lub przy Wariancja pojedynczej obserwacji w modelu efektów loso­
użyciu serii ślepych zmiennych, gdy mamy więcej niż dwa wych jest zatem sumą obu składowych wariancji.
sposoby leczenia (rozdział 29).
Szczególne modele
Gdy zmienna wynikowa y jest numeryczna i istnieje jedna ba­
ELASTYCZNE BŁĘDY STANDARDOWE dana zmienna wyjaśniająca x, prosty, liniowy, dwupoziomowy
Jeżeli w analizie regresji o strukturze dwupoziomowej nie model losowych przecięć zakłada, że istnieje związek liniowy
bierze się pod uwagę klasteryzacji, zostaje pogwałcone ważne między y i x w każdym klasterze, przy czym wszystkie klaste­
założenie leżące u podstaw modelu regresji liniowej — nieza­ rowe linie regresji mają wspólne nachylenie /?, a różne prze­
leżność obserwacji (patrz rozdziały 27 i 28). W konsekwencji cięcia (rycina 42. la). Średnia linia regresji ma nachylenie rów­
błędy standardowe estymatorów parametrów będą najprawdo­ ne fi, a przecięcie równe a, które jest średnim przecięciem,
podobniej zbyt małe, a wyniki w sposób sztuczny istotne. uśrednionym po wszystkich klasterach. Błąd losowy (reszto-
W celu rozwiązania tego problemu możemy wyznaczyć wy) dla każdego klasteru jest wielkością, o jaką różni się
elastyczne błędy standardowe estymatorów parametru, w kierunku pionowym przecięcie linii regresji dla danego kla­
wykorzystując do naszych obliczeń zmienność danych (osza­ steru od przecięcia średniego a (rycina 42.1a). Zakłada się, że
cowaną na podstawie odpowiednich reszt), zamiast oszaco­ reszty klasterowe podlegają rozkładowi normalnemu z zerową
wywać je na podstawie modelu regresji. W wielokrotnej średnią i wariancją W obrębie każdego klasteru przyjmu­
analizie regresji z elastycznymi błędami standardowymi je się, że reszty dla jednostek poziomu 1 podlegają rozkładowi
estymatory współczynników regresji są takie same jak w re­ normalnemu z zerową średnią i z tą samą wariancją a2. Gdy
gresji liniowej OLS, lecz błędy standardowe są bardziej od­ wielkości klasterów są podobne, prostym sposobem zbadania
porne na pogwałcenie założeń leżących u podstaw analizy, co normalności i stałej wariancji reszt jest sprawdzenie normal­
jest dla nas powodem szczególnego zmartwienia, gdyż kla- ności na histogramie reszt i wykreślenie reszt w funkcji war­
steryzacja danych powoduje brak niezależności. tości prognozowanych (patrz rozdział 28).

1
Goldstein H.: Multilevel Statistical Models 3rd edn. Kendall Libra-
ry of Statistics 3, Arnold 2003.

42. Metody regresji dla danych klasteryzowanyeh 115


Model ten można modyfikować na wiele sposobów (patrz UOGÓLNIONE RÓWNANIA ESTYMACYJNE
także tablica 42.1), na przykład poprzez zezwolenie na loso­
(GEE)
wa zmianę nachyleń fi między klasterami. Model ten jest
zwany modelem losowych nachyleń, w którym właściwe dla W GEE {generalized estimating equationsf korygujemy zarów­
klasterów linie regresji nie są równoległe do średniej linii re­ no estymatory parametru GLM, jak i błędy standardowe ze
gresji (rycina 42.Ib). względu na klasteryzację danych w strukturze dwupoziomo­
wej. Przyjmujemy założenia co do rozkładu zmiennej zależnej,
Oszacowanie efektu klasteryzacji lecz w przeciwieństwie do modelu efektów losowych, nie za­
Efekt klasteryzacji można oszacować poprzez: kładamy, że reszty międzyklasterowe mają rozkład normalny.
• Obliczenie współczynnika korelacji wewnątrzklaso- Traktujemy klasteryzację jako niedogodność, ale nie koncen­
wej (ICC — Intraclass correlation coofficient, czasami ozna­ trujemy na niej uwagi i postępujemy dalej, zakładając roboczą
czonej przez p — patrz również rozdział 39), który w struk­ strukturę dla korelacji między obserwacjami w obrębie każde­
turze dwupoziomowej oznacza korelację między dwoma go klasteru. Nie musi ona być poprawna, gdyż zakładając, że
losowo wybranymi jednostkami poziomu 1 W jednym losowo mamy dostateczme wiele klasterów, elastyczne błędy standar­
wybranym klasterze. dowe i estymatory parametrów są do zaakceptowania. Jednak­
że otrzymamy lepsze estymatory parametru, gdy struktura bę­
dzie wiarogodna. Zazwyczaj przyjmujemy wymienną struktu­
rę korelacji, która zakłada, że wymiana dwóch jednostek po­
ziomu 1 w obrębie klasteru nie zaburzy oszacowania.
ICC wyraża zmienność pomiędzy klasterami jako propor­ Podejście GEE jest czasami zwane podejściem uśrednie­
cję catkowitGj wariancji; często wyrażany jest w procentach. nia populacji lub brzegowym, ponieważ estymatory parame­
ICC = 1, gdy nie ma zmian w obrębie klasterów i cała wa­ tru oznaczają efekty uśrednione pomiędzy klasterami (mimo
riancja wynika ze zmienności między klasterami; ICC = 0, gdy iż cała informacja na temat jednostek 1 poziomu jest włą­
brak jest zmienności między klasterami. Możemy użyć ICC do czona do analizy). Podejście GEE jest często preferowane
podjęcia subiektywnej decyzji na temat wagi klasteryzacji. w stosunku do bardziej złożonego modelu efektów losowych
» Porównanie dwóch modeli, z których jeden jest pełnym dla regresji logistycznej (rozdział 30) i czasami dla regresji
modelem efektów losowych, a drugi modelem regresyjnym z tą Poissona (rozdział 31), chociaż wiadomo, że struktura wy­
samą zmienną wyjaśniającą (tymi samymi zmiennymi wyja­ miennej korelacji jest wówczas nieprawidłowa,
śniającymi), ale który nie bierze pod uwagę klasteryzacji. Od­
powiedni test stosunku wiarygodności ma statystykę równą
różnicy stosunku wiarygodności obu modeli (patrz rozdział 32) * Liang K.-Y., Zeger 5. L.: Longitudinal data analysis usinggenera­
i podlega rozkładowi Chi-kwadrat z jednym stopniem swobody. lized linear models. Biometrika 1986, 73, 13-22.

Tablica 42.1. Główne zalety i wady stosowania metod regresji do analizowania danych klasteryzowanych.

Metoda Zalety Wady


Analna • Prosta. • Nie pozwala na włączenie współzmiennych,
zatfregowariyc - Łatwa do przeprowadzenia przy użyciu podstawowego które zmieniają się dla poziomu 1.
poziomów oprogramowania. • Ignoruje różnice między wielkościami klasterów
i w dokładności oszacowania miary podeumo-
wującej każdego klasteru.
• Możemy nie być w stanie znaleźć odpowiedniej
zmiennej podsumowującej.
Elastyczne błędy • Stosunkowo prosta. • Niewiarygodny, chyba że liczba klasterów jest
standardowe • Pozwala na włączenie wspótzmiennych, które zmieniają się dla duża, na przykład > 30.
pozwalające na poziomu 1. • Nie koryguje estymatorów parametru ze wzglę­
klasteryzację • Koryguje błędy standardowe, przedziały ufności i wartości p, du na klasteryzację.
z uwzględnieniem klasteryzacji.
• Pozwala na użycie różnej liczby jednostek poziomu 1 w klasterze.
Model efektów • W sposób jawny pozwala na klasteryzację poprzez włączenie do • Niewiarygodny, chyba że liczba klasterów jest
losowych modelu zarówno zmienności między-, jak i wewnątrzklasterowej. wystarczająca.
• Estymatory klasterowe korzystają z dzielonej informacji • Estymatory parametrów są często obciążone.
ze wszystkich klasterów. • Dla modeli rozbudowanych wymagane jest wy­
• Koryguje błędy standardowe, przedziały ufności i wartości p, sokie doświadczenie w zakresie modelowania.
z uwzględnieniem klasteryzacji. • Problematyczne oszacowanie modelu efektów
• Pozwala na włączenie współzmiennych, które zmieniają się dla losowych dla modelu logistycznego.
poziomu 1.
• Pozwala na użycie różnej liczby jednostek poziomu 1 w klasterze.
• Pozwala na rozwinięcie hierarchii z dwu- do wielopoziomowej.
• Pozwala na dostosowanie różnych form GLM (np. Poissona).
GEE • Stosunkowo prosty. Niewiarygodny, chyba że liczba klasterów jest
• Nie są wymagane założenia na temat rozkładu efektów losowych duża, na przykład > 30.
(z powodu klasteryzacji). Traktuje klasteryzację jako niedogodność bez
• Pozwala na włączenie współzmiennych, które zmieniają się dla faktycznego znaczenia .
poziomu 1. Wymaga specyfikacji roboczej struktury
• Pozwala na użycie różnej liczby jednostek poziomu 1 w klasterze. korelacji .
• Koryguje błędy standardowe, przedziały ufności i wartości p, Oszacowane parametry są przeciętnymi dla kla­
z uwzględnieniem klasteryzacji. steru i nie wiążą się z osobnikami w populacji .

* Te wady mogą czasami być traktowane jako zalety, zależnie od stawianego pytania.

116 Zagadnienia dodatkowe


Rycina 42.1. Dwupozio­
mowe efekty losowe li­
niowych modeli regresyj-
nych pojedynczej współ-
zmiennej.
(a) Model losowego przecięcia. Linia pogrubio­ (b) Model losowych nachyleń. Linia pogrubiona oznacza śred­
na oznacza średnią linię regresji dla wszyst­ nią linię regresji dla wszystkich klasterów, a każda z cienkich
kich klasterów, a każda z cienkich linii — linię linii — linię regresji dla innego klasteru. Przecięcie linii regre­
regresji dla innego klasteru. Przecięcie linii re­ sji specyficznych dla i-tego klasteru różni się od linii uśred­
gresji specyficznych dla t-tego klasteru różni nionej o resztę = a nachylenia linii regresji specyficz­
się od linii uśrednionej o resztę = gdzie nych dla i-tego klasteru różnią się od tego dla linii uśrednionej
reszty te są rozłożone zgodnie z rozkładem nor­ o resztę = gdzie reszty te są rozłożone zgodnie z rozkła­
malnym ze średnią zero i wariancją Każda dem normalnym ze średnią zero i wariancjami odpowiednio
linia ma nachylenie =

PRZYKŁAD
Uans dotyczące choroby przyzębia uzyskano od 96 białych Estymatory współczynników regresji dla palenia i/lub We­
mężczyzn, praKtykantów inżynieryjnych w wieku 16-20 dy standardowe zmieniają się zgodnie z typem wykonanej
laU locpocaynajijcych praktyki w Royal Air Force Halton analizy. Dwie analizy OLS mają identyczne estymatory
w Anglii (patrz takie rozdział 20). Przebadano cztery stro­ współczynników regresji (większe od uzyakanych z pozo
ny (dośrodkowo policzkową, dośrodkowo-językową, od- stałych trzech analiz), lecz ich błędy standardowe są róż­
śrndkowo-poliezkowa oraz odśrodkowo- językową) każde­ ne. Błąd standardowy oszacowanych współczynników yyy
go z. możliwych 28 zębów (z wyjątkiem zębów mądrości) gresji w analizie OLS, która ignoruje klastoryzację, jest
u każdego praktykanta. Dla uproszczenia analizy rozważy­ znacząco mniejszy niż błędy standardowe z pozostałych
łyśmy podzbiór danych, na przykład (1) wyłącznie stronę czterech analiz, tzn. ignorowanie klasteryzacji powoduje
dośrodkowo-policzkową każdego zęba; daje to strukturę niedoszacowanie błędu standardowego współczynnika re­
dwupoziomową w obrębie każdego obiektu (każdy obiekt gresji — w konsekwencji przedział ufności jest zbyt wąski,
odpowiada klasterowi); oraz (2) dwie badane zmienne: a wartość p zbyt mała. Współczynnik korelacji wewnątrz-
utratę przyczepu (loa, mierzoną w mm) pomiędzy zębem klastcrowej z modelu efektów losowych jest oszacowany
a kością szczękową, oszacowaną po stronie dośrodkowo- jako 0,224. Około 22% zmienności w utracie przyczepu,
-policzkowej, oraz aktualny status palenia papierosów przy uwzględnieniu palenia, zachodziło więc między prak­
przez praktykanta (tak = 1, nie = 0). Chcemy zbadać, czy tykantami.
palenie jest czynnikiem ryzyka w chorobie dziąseł (gdzie W tym szczególnym przykładzie, na podstawie wszyst­
większa utrata przyczepności oznacza cięższy stan choro­ kich pięciu analiz wnioskujemy, że palenie nie jest istotnie
bowy). Tablica 42.2 zawiera część wyników z rozmaitych związane z utratą przyczepu. Ten brak istotności dla pale­
analiz regresyjnych, w których zmienną wynikową jest nia jest wynikiem niespodziewanym, ale można go wyja­
utrata przyczepności (mm), a wspótzmienną — palenie. śnić tym, że praktykanci byli bardzo młodzi i palacze znaj­
Pełny wydruk komputerowy zamieszczono w Dodatku C. dujący się między nimi palili przez krótki czas.

Tablica 42.2. Podsumowanie wyników analizy regresji, w których loa (mm) jest zmienną wynikową.
Oszacowany współ- Błąd stan- 95% CI dla Statystyka
Analiza czynnik (palący) dardowy (SE) współczynnika testowa* Wartość p
OLS ** regresja ignorująca klasteryzację -0,0105 0.0235 -0,057 do 0,036 r=-0,45 0,655
Regresja OLS z elastycznymi błędami
standardowymi -0,0105 0,0526 -0,115 do 0,094 i = -0,20 0,842
Analiza zagregowana (regresja OLS
na średnich grupowych) -0,0046 0,0612 -0,126 do 0,117 t=-0,07 0,941
Model efektów losowych -0,0053 0,0607 -0,124 do 0,114 2=-0,09 0,930
GEE z elastycznymi SE i wymienną
strukturą korelacyjną " -0,0053 0,0527 -0,108 do 0,098 z = -0,10 0,920
* t = statystyka testowa podlegająca rozkładowi t; z = statystyka testowa Walda podlegająca standaryzowanemu rozkładowi normalnemu.
** OLS = zwykła metoda najmniejszych kwadratów.
Dane otrzymane dzięki uprzejmości: dr Gareth Griffiths, Dept of Periodontology, Eastman Dental Institute. University College London,
Wielka Brytania.

42. Metody regresji dla danych klasteryzowanyeh 117


43 PRZEGLĄDY SYSTEMATYCZNE I METAANALIZA

PRZEGLĄD SYSTEMATYCZNY niego, wraz z oceną związanych z nim przedziałów ufności


i wyników testowania hipotez, mogą zostać użyte do podjęcia
Co to jest?
1
decyzji na temat badanej terapii i opieki nad pacjentami.
Przegląd systematyczny jest sformalizowanym i ściśle okre­
ślonym procesem łączenia informacji ze wszystkich źródeł
Podejście statystyczne
(zarówno publikowanych, jak i niepublikowanych) dotyczą­
1. Decydujemy, co jest efektem leczenia, i jeżeli dostępne sa
cych tej samej jednostki chorobowej; badania te są zazwyczaj
dane surowe, oszacowujemy go dla każdego badania. Jed­
eksperymentami klinicznymi (rozdział 14) badającymi takie
nakże w praktyce często musimy te efekty wydobyć z wyni­
same lub zbliżone procesy leczenia, lecz mogą też być bada­
ków opublikowanych. Jeżeli wynik w eksperymencie klinicz­
niami obserwacyjnymi (rozdziały 15 i 16). Przegląd systema­
nym porównującym dwa sposoby leczenia jest:
tyczny stanowi integralną część medycyny popartej dowoda­
• numeryczny — efekt może być różnicą w średnich le­
mi (EBM; rozdział 40), która polega na tym, że w opiece nad
czenia. Różnica zerowa oznacza brak efektu leczenia;
pacjentem stosuje się najlepsze dostępne dane wraz z do­
• binarny (np. zmarł/przeżył) — rozważamy na przykład
świadczeniem klinicznym. Jego rola w EBM jest tak ważna,
ryzyko wyniku (np. śmierci) w grupach leczenia. Efektem
ze stał się przedmiotem zainteresowania klinicystów, metodo­
może być różnica w wartościach ryzyka lub ich stosunek RR,
logów i użytkowników z wielu krajów, którzy utworzyli Co­
Jeżeli różnica w ryzyku równa się zero lub RR = 1, wtedy
chrane Collaboration. Powstała dzięki temu biblioteka Co­
nie ma efektu leczenia.
chrane Library zawierająca regularnie uaktualniane bazy da­
2. Sprawdzamy jednorodność statystyczną i otrzymuje­
nych na temat opieki zdrowotnej popartej dowodami, włącza­
my estymator statystycznej niejednorodności — z niejed­
jąc w to Cochrane Database of Systematic Reviews — baza
norodnością statystyczną mamy do czynienia wtedy, gdy ist­
przeglądów systematycznych Cochrane; pełny dostęp do tych
nieje realna zmienność pomiędzy wynikami pochodzącymi
przeglądów wymaga subskrypcji, lecz abstrakty są dostępne
z różnych badań. Możemy przeprowadzić testowanie hipote­
bezpłatnie przez Internet (www.cochrane.org/reviews).
zy o jednorodności w celu zbadania, czy zmienność w indy­
widualnych wynikach jest czysto losowa. Jednakże ten test
Co nam daje?
ma małą moc (rozdział 18) wykrycia niejednorodności, gdy
• Oczyszczenie i redukcję — wielkie porcje informacji liczba badań w metaanalizie jest mała, i odwrotnie, może da­
zostają oczyszczone i zredukowane do wielkości umożliwia­ wać wysoce istotne wyniki, gdy metaanaliza obejmuje dużą
jących anali2ę. liczbę badań, nawet wtedy, gdy jest mało prawdopodobne, by
• Efficiency — przegląd systematyczny jest zwykle szyb­ niejednorodność zaburzyła wyniki. Do oszacowania wpływu
szy i mniej kosztowny niż przeprowadzenie nowego badania. niejednorodności i niezgodności 2 można użyć wskaźnika / 9
Może zapobiec podejmowaniu niepotrzebnych badań oraz (patrz przykład), który nie zależy od liczby badań, typu da­
może zmniejszyć czas pomiędzy odkryciami medycznymi nych wynikowych lub wyboru efektu leczenia (np. ryzyka
a ich praktycznym zastosowaniem. względnego). Wartość I2 oznacza procent całkowitej warian­
• Możliwość uogólnienia i spójność — często wyniki cji we wszystkich badaniach spowodowanej niejednorodno­
można uogólnić na szerszą populację pacjentów, niż byłoby to ścią; przybiera wartości od 0% do 100%, z wartością 0%
możliwe na podstawie pojedynczego badania. Można oszaco­ wskazującą na brak niejednorodności. Gdy mamy dowód sta­
wać spójność wyników z różnych badań i określić wszystkie tystycznej niejednorodności, powinniśmy postępować ostroż­
niezgodności. nie, badając jej przyczyny i odpowiednio modyfikując nasze
• Wiarygodność — systematyczny przegląd pozwala na podejście, być może poprzez podzielenie badań na podgrupy
zredukowanie błędów i w ten sposób poprawia wiarygodność o podobnych charakterystykach.
oraz dokładność zaleceń w porównaniu z przeglądem przy­ 3. Szacujemy średni badany efekt (z przedziałami ufno­
padkowym lub pojedynczymi badaniami. ści) i wykonujemy odpowiednie testy hipotez dla efektu
• Moc i dokładność — ilościowy przegląd systematyczny (np. że prawdziwe RR = 1) — możemy tu zastosować modele
(patrz metaanaliza) ma większą moc (rozdział 18) przy wy­ „efektów stałych" i „efektów losowych" (patrz także rozdział
krywaniu badanych efektów i dostarcza bardziej dokładnych 42). Gdy nie ma dowodu statystycznej niejednorodności, na
estymatorów niż pojedyncze badanie. ogół stosujemy model efektów stałych (zakładający, że efekt
leczenia jest taki sam w każdym badaniu i każda obserwo­
wana zmienność jest wynikiem błędu próbkowania). W prze­
METAANALIZA
ciwnym wypadku używamy modelu efektów losowych (za­
Co to jest? kładający, że osobne badania reprezentują losową próbę
Metaanaliza jest szczególnym typem przeglądu systematyczne­ z populacji badań, która ma średni efekt leczenia, wokół któ­
go, który skupia się na wynikach numerycznych. Głównym ce­ rego zmieniają się efekty leczenia z poszczególnych badań).
lem metaanalizy jest połączenie wyników z poszczególnych ba­ 4. Interpretujemy i opisujemy wyniki — pomocne jest
dań w celu stworzenia, o ile to możliwe, estymatora całościo­ podsumowanie w tablicy wyników każdego badania (np. wiel­
wego lub przeciętnego badanego efektu, np. ryzyka względne­ kość próby, wyjściowa charakterystyka, badany efekt, taki
go, (RR — rozdział 15). Kierunek i wielkość tego efektu śred- jak RR, oraz odpowiadający mu przedział ufności CI, patrz

2
1
Chalmers I., Altman D. G.: Systematic Reviews. British Medical Jour­ Higgins P. T., Thompson S. G., Deeks J. J., Altman D. G.: Measu-
nal Publishing Group, Londyn 1995. ring inconsistency in meta-analysis. British Medical Journal, 2003,
237, 557-560.

118 Zagadnienia dodatkowe


przykład). Najczęściej stosowanym przedstawieniem graficz­ • Obciążenie publikacyjne — tendencja do włączania do
nym jest wykres „leśny" (rycina 43.1), na którym wzdłuż pio­ analizy wyłącznie wyników z prac publikowanych; te fawo­
nowej linii prostej, oznaczającej „brak efektu leczenia" (np. ta ryzują wyniki statystycznie istotne. O tym, czy obciążenie
linia odpowiada wartości „jeden", gdy efektem leczenia jest publikacyjne stanowi problem, możemy przekonać się, rysu­
RR), dla każdego eksperymentu zaznaczony zostaje badany jąc wykres lejkowy, diagram rozrzutu, który zwykle na osi
efekt (-wraz z przedziałem ufności). Często symbolem ilustru­ poziomej odwzorowuje wielkość próby, a na osi pionowej
jącym badany efekt dla każdego badania jest prostokąt, któ­ efekt leczenia (np. iloraz szans). Gdy nie ma obciążenia pu­
rego powierzchnia jest proporcjonalna do wielkości tego blikacyjnego, rozrzut punktów (każdy punkt reprezentuje
badania. Najpierw analizujemy, czy oszacowane efekty z róż­ jedno badanie) na wykresie lejkowym będzie duży na dole,
nych badań leżą po tej samej stronie linii. Następnie możemy gdzie wielkość badania jest mała, i będzie się zawężał
użyć przed2iałów ufności do rozsądzenia, czy wyniki są zgod­ (w kształcie lejka) ku górze, gdzie wielkość badania jest
ne (jeżeli CI pokrywają się), co pozwoli nam stwierdzić, czy duża. W przypadku obecności obciążenia publikacyjnego
brak zgodności wyników można wyjaśnić małą wielkością wykres lejkowy będzie prawdopodobnie skośny lub niesyme­
próby (gdy CI są szerokie) oraz ocenić istotności poszczegól­ tryczny, z luką po stronie dolnego lewego rogu, gdzie zarów­
nych i całościowych efektów (poprzez obserwację, czy linia no efekt leczenia, jak i wielkość badania są małe (tj. gdy ba­
pionowa przechodzi przez niektóre lub wszystkie CI). danie ma małą moc wykrycia małych efektów).
• Niejednorodność kliniczna — różnice między popula­
Zaloty i wady cjami pacjentów, miarami wyników, definicjami zmiennych
Meta&naliza jest szczególną formą przeglądu systematycznego, i/lub czasem obserwacji w badaniach włączonych do anali­
zawiera więc wszystkie jego zalety (patrz „Co nam daje?"). zy mogą stwarzać problemy polegające na tym, że badania te
W szczególności, ze względu na powiększoną liczebność pró­ nie dadzą się porównać.
by daje możliwość wykrycia efektów leczenia z większą mo­ • Różnice jakości — projekt i sposób przeprowadzenia
cą oraz oszacowania ich z większą dokładnością niż w poje­ badań może wpływać na ich jakość. Jakkolwiek rozwiąza­
dynczym badaniu. Jej zalety, a także wprowadzenie oprogra­ niem tego problemu może być przydzielenie większej wagi do
mowania do metaanalizy, spowodowały rozpowszechnienie lepszych badań, każdy system wagowy można skrytykować
tej techniki. Jednakże jej nieprawidłowe użycie może prowa- za jego arbitralność.
d2ić do błędnych wniosków na temat skuteczności leczenia. • Zależność — włączone do analizy wyniki badań mogą
Przed wykonaniem metaanalizy należy dokładnie zbadać nie być niezależne, np. gdy wyniki z badania są publikowane
i roswiązać następujące, główne problemy. przy więcej niż jednej okazji.

PRZYKŁAD
Pacjenci z ciezką dusznicą są często kwalifikowani albo do ka, to wszystkie przedziały ufności do pewnego stopnia się
Wihicgi! przezskówicj naczyniowej angioplastyki wieńcowej pokrywają. Na bardziej formalne oszacowanie niejednorod­
(PTCA), albo zabiegu pomostowania aortalno-wieńcowego ności pozwala test jednorodności Chi-kwadrat Coclu una,
(CABG). Wyniki z ośmiu publikowanych eksperymentów który daje wynik nieistotny (statystyka testu Q= 13,2, licz­
randomizowanych połączono w jedną metaanalizę, opartą ba stopni swobody df= 8 - 1 = 7, p = 0,07). Jednakże I'
na :.«71 pacjentach (1661 CABG, 1710 PTCA), podlegają­ = 100 x (Q- dfi/Q= 100 x (13,2 - 7)/13,2 = 47% (95% CI
cych obserwacji średnio przez 2,7 lat. Główne wyniki ba­ od 0% do 76%), co sugeruje umiarkowaną niespójność ana­
dań zestawiono w tablicy 43.1. Wyniki dla punktu końco­ liz i z czego wynika zalecenie ostrożnej interpretacji kom­
wego złożonego ze śmierci sercowej oraz niezakończonego binowanego estymatora ryzyka względnego opartego na
.śmiercią zawału serca (MI) w pierwszym roku obserwacji wszystkich badaniach. Wspomniane ryzyko względne osza­
pokazano na rycinie 43.1. Porównano oszacowane ryzyko cowano jako 1,03 (95% CI od 0,79 do 1,50), z czego wynika,
względne (RR) między grupami PTCA i CABG. Na rycinie że nie ma dowodu istnienia prawdziwej, całkowitej różnicy
wykorzystano dla RR skedę logarytmiczną, by uzyskać sy­ pomiędzy oboma strategiami rewaskularyzacji. Warto za­
metryczne przedziały ufności (CI). Chociaż poszczególne es­ uważyć, że we wczesnych obserwacjach prewałencja obja­
tymatory ryzyka względnego różnią się dość znacznie, od wów dławicy piersiowej była większa u pacjentów po PTCA
zmniejszenia ryzyka do całkiem znacznego wzrostu ryzy­ niż u pacjentów po CABG.

Rycina 43.1. Wykres „leśny" ryzyka względnego (RR) z 95% CI śmierci sercowej lub zawału serca dla grupy po PTCA w porównaniu
z grupą po CABG w pierwszym roku od randomizacji.

43. Przeglądy systematyczne i metaanaliza 119


Tablica 43.1. Charakterystyka ośmiu badań zrandomizowanych przezskóniej naczyniowej angioplastyki wieńcowej oraz zabiegu pomo-
stowania aorlalno-wieńcowego.
Liczba pacjentów
Główny Pojedynczo- lub Obserwacja
Kraj badacz wielonaczyniowe CABG PTCA (lata)
Badania nad rpwaskiilaryzaria metodami
<nig'oplasivlil! pomoMiowania (CADRI) Europa A. E. Rickards Wielo 513 541 1
F.kftperyme-nt rrmdomizowanej interwencji
W leczeniu dławicy piersiowej (RITA) UK J. R. Hampton Pojedynczo (n = 456) 501 510 4,7
Wielo (n - 555)
Eksperyment w Emory. Angioplastyka
vcraua fflhlrg pomosiowaiiia (KAST) USA S. B. King Wielo 194 198 3+
NicuucG&c iKuluuia iiud imgioplastyką
i BihiPgami pomofttowania (GABI) Niemcy C. W. Hamm Wielo 177 182 1
Kk«porymont i Tuluzy (Toulouse) Francja J. Puel Wielo 76 76 2,8
nadania Medycznej Anyioplasiyki
U> CMnirgi; (MASS Brazylia W. Hueb Pojedynczo 70 72 3,2
Eksperyment Lozański (Lausanno) Szwajcaria J.-J. Goy Pojedynczo 66 68 ó,Z
KkHpnrymonr Argentyński PTCA
versus CABG (ERACD Argentyna A. Rodikmez Wielo 64 63 3,8
Adapluwuuo L pracy; Focock S. J., Henderson R. A., Rickards A. E. i in.: A meta-analysis of randomised trials comparing coronary <m-
/swpkisty with hypass surgery. Lancet, 1995, 346, 1184-1189, za zgodą Elsevier.

120 Zagadnienia dodatkowe


44 ANALIZA PRZEŻYCIA

Dane przeżycia związane są z czasem, jaki zabiera osobniko­ z innych powodów niż AIDS. Takie dane określa się jako pra­
wi osiągnięcie badanego punktu końcowego (często, lecz nie wostronnie ucięte. O tych pacjentach wiemy, że nie osiągnęli
zawsze, śmierci), i charakteryzują je dwie następujące cechy. punktu końcowego, kiedy po raz ostatni byli poddani obserwa­
• Po pierwsze, jest to okres czasu, w którym pacjent cji, i ta informacja powinna zostać włączona do analizy.
osiąga stan końcowy, a nie fakt, czy osiągnął ten stan. Na Tam, gdzie obserwacja nie rozpoczęła się do czasu osią­
przykład może nas interesować czas przeżycia przyjętych gnięcia daty odniesienia początkowej, czasy przeżycia mogą
pacjentów z marskością wątroby. być także lewostronnie ucięte.
• Często dane mogą być ucięte (patrz poniżej).
Standardowe metody analizy, takie jak regresja logistycz­
na lub porównanie średniego czasu potrzebnego do osiągnię­
PREZENTACJA DANYCH PRZEŻYCIA
cia stanu końcowego u pacjentów leczonych nową techniką • Dla każdego pacjenta narysowana jest osobna, pozioma li­
i bez niej, mogą dawać mylące wyniki z uwagi na dane ucię­ nia, której długość wskazuje na czas przeżycia. Linie ryso­
te. Dlatego, aby radzić sobie z takimi sytuacjami, opracowa­ wane są od lewej strony do prawej, a ci pacjenci, którzy osią­
no pewną liczbę technik statystycznych, znanych jako meto­ gnęli punkt końcowy, mogą być odróżnieni od tych uciętych
dy analizy przeżycia1. różnymi symbolami umieszczonymi na końcu linii (rycina
44.1). Jednakże te wykresy nie podsumowują danych i trud­
no jest ocenić przeżycie całościowo.
DANE UCIĘTE • Krzywe przeżycia, zwykle obliczane metodą Kaplana-
Czasy przeżycia oblicza się od pewnej daty bazowej, która od­ -Meiera, ukazują skumulowane prawdopodobieństwo (praw­
zwierciedla naturalny „punkt startu" badania (na przykład dopodobieństwo przeżycia) osobników, którzy nie osiągnęli
czas zabiegu lub zdiagnozowania stanu), do czasu, gdy pacjent stanu końcowego w żadnym czasie od chwili początkowej (ry­
osiąga badany punkt końcowy. Jednakże często możemy nie cina 44.2). Prawdopodobieństwo przeżycia zmieni się tylko
wiedzieć, kiedy pacjent osiągnął punkt końcowy, a jedynie to, wtedy, gdy pojawi się punkt końcowy, i dlatego powatająoa
C2y osiągnął punkt końcowy w czasie trwania badania. Na w ten sposób „krzywa" jest rysowana jako seria schodków.
przykład, w badaniu nowego leku pr2eciw infekcji HIV pacjen­ Alternatywna metoda obliczania prawdopodobieństwa prze­
ci mogą nadal nie chorować na AIDS, gdy kończą badanie. Mo­ życia, przy użyciu tablic przeżycia, może zostać użyta, gdy
że tak się zdarcye, jeśli eksperyment skończy się, nim oni za­ czas do osiągnięcia punktu końcowego jest znany wyłącznie
chorują na AIDS, albo jeśli wypadną z badania przed zachoro­ w obrębie pewnego interwału czasowego (np. w obrębie roku).
waniem na AIDS, albo jeśli umrą przed końcem obserwacji Obliczanie prawdopodobieństwa przeżycia za pomocą każdej
z metod jest proste, lecz czasochłonne, i łatwo może być wy­
konane przy użyciu większości pakietów statystycznych.
1
Collett D.: Modelling Survival Data in Medical Research. Chap­
man and Hall/CRC, Londyn 2003.
PODSUMOWANIE PRZEŻYCIA
Często podsumowujemy przeżycie przez podanie prawdo­
podobieństwa przeżycia (z przedziałami ufności) w pew­
nych punktach czasowych na krzywej, na przykład, czę-

Lata po przyjęciu
Liczba w grupie ryzyka w każdej chwili
HVP6<16 46 33 22 11 9 5
Lata po przyjęciu WPG s 16 59 41 20 10 4 9

Rycina 44.1. Czasy przeżycia 105 pacjentów przyjętych z marsko­ Rycina 44.2. Krzywe Kaplana-Meiera pokazujące prawdopodobień­
ścią wątroby. Kółka wypełnione wskazują pacjentów, którzy zmarli, stwo przeżycia po przyjęciu z powodu marskości wgtroby. wyrażone
kotka niewypełnione wskazują pacjentów, którzy żyli w momencie w procentach, po stratyfikacji na podstawie wyjściowego pomiaru
zakończenia obserwacji. HVPG.

44. Analiza przeżycia 121


stość przeżycia pacjentów 5 lat po leczeniu raka piersi. Al­ Do testowania niezależnych efektów pewnej liczby zmien­
ternatywnie można podawać medianę czasu do osiągnięcia nych wyjaśniających (czynników) możemy użyć modelu pro­
punktu końcowego (czas, który przekroczyło 50% osobni­ porcjonalnych hazardów wg Coxa. Ma on postać:
ków).

PORÓWNYWANIE PRZEŻYCIA gdzie kj(t) jest hazardem dla osobnika i w chwili


Czasami chcemy określić wpływ na przeżycie pewnej liczby jest arbitralnym hazardem bazowym (którym nie jeeteśmy za-
badanych czynników, na przykład leczenia, stopnia ciężkości interesowani), są zmiennymi wyjaśniającymi
choroby. Można wykreślić krzywe przeżycia osobno dla pod­ w modelu, a są odpowiadającymi im współczynni­
grup pacjentów; pozwalają one na ocenę wizualną, czy róż­ kami. Estymatory tych parametrów otrzymujemy,
ne grupy pacjentów osiągają punkt końcowy z różnymi czę­ stosując technikę maksymalnej wiarygodności, znanej jako
stościami (rycina 44.2). Możemy też testować w sposób for­ cząstkowa wiarogodność. Eksponenty tych wartości (np.
malny, czy istnieją istotne różnice w zmianie częstości po­ exp są oszacowanymi wartościami hazardu względ­
między grupami, na przykład przy użyciu testu log-rank lub nego lub stosunku hazardów. Dla szczególnej wartości x^ sto­
modeli regresyjnych. sunek hazardu jest oszacowanym hazardem choroby dla (xx +
+ 1) w stosunku do estymowanego hazardu dla xu po skory­
Test log-rank gowaniu ze względu na wszystkie pozostałe x w równaniu.
Ten nieparametryczny test dotyczy hipotezy, że nie ma róż­ Hazard względny jest interpretowany w podobny sposób jak
nic w czasach przeżycia w badanych grupach, i porównuje iloraz szans w regresji logistycznej (rozdział 30) lub częstość
zdarzenia zachodzące w każdej chwili na krzywej przeżycia. względna w regresji Poissona (rozdział 3D, dlatego wartości
Używając testu log-rank, nie możemy za jednym razem oce­ powyżej jeden oznaczają zwiększony hazard, wartości poniżej
nić niezależnego wpływu na punkt końcowy więcej niż jed­ jeden — zmniejszony hazard, a wartości równe jeden — że nie
nego czynnika. ma zwiększonego lub zmniejszonego hazardu osiągnięcia
punktu końcowego. Dla hazardu względnego można obliczyć
Modele regresyjne przedział ufności oraz przeprowadzić test istotności, aby ossa~
Możemy stworzyć model regresyjny, kwantyfikujący związki cować, na ile różni się od wartości jeden.
pomiędzy jednym czynnikiem lub większą ich liczbą a przeży­ Założono, że w tym modelu hazard względny jest stały
ciem. W każdej chwili t osobnik i ma chwilowe ryzyko osią­ w czasie (tzn. hazardy w grupach, które mają być porówna­
gnięcia punktu końcowego [znane często pod nazwą hazardu ne, są proporcjonalne). Warunek ten trzeba sprawdzić albo
lub 1,-M], pod warunkiem że jeszcze go nie osiągnął. Na przy­ przy pomocy metod graficznych, albo przez włączenie inter­
kład, jeżeli punktem końcowym jest śmierć, hazard jest ryzy­ akcji między wspótzmienną oraz log(czasu) w modelu i prze­
kiem śmierci w chwili t. Ten chwilowy hazard jest zwykle konanie się, że jest ona nieistotna1.
bardzo mały i mało interesujący. Jednakże możemy chcieć się Do opisu danych przeżycia można też użyć innych modeli,
dowiedzieć, czy we wszystkich punktach czasowych istnieją np. Eksponencjalnego, Weibulla lub Gompertza, przy czym
jakieś systematyczne różnice w hazardzie między osobnikami każdy z nich zakłada specyficzny rozkład prawdopodobień­
o różnych charakterystykach. Na przykład, czy hazard jest stwa funkcji hazardu. Wykraczają one jednak poza zakres te­
ogólnie zredukowany u osobników leczonych nową techniką matyczny tej książki1.
w porównaniu z osobnikami leczonymi placebo, jeśli weźmie­
my pod uwagę inne czynniki, takie jak wiek lub ciężkość cho­ 1
Collett, D.: Modelling Survival Data in Medical Research. Chap­
roby? man and Hall/CRC, Londyn 2003.

122 Zagadnienia dodatkowe


PRZYKtAD
Wiadomo, że wysokość ciśnienia w żyle wrotnej (HVPG) W celu stwierdzenia, czy związek len może być wytłu­
jest związana ze stopniem ciężkości marskości wątroby maczony różnicami w znanych czynnikach progno­
wywołanej alkoholizmem, lecz rzadko stosuje się ją jako stycznych i demograficznych, użyto modelu represyjnego
predyktor przeżycia pacjentów z marskością. W celu osza­ proporcjonalnego hazardu wg Coxa. Uwzględniono w nim
cowania przydatności klinicznej tego pomiaru 105 pacjen­ dwadzieścia zmiennych demograficznych, klinicznych
tów przyjętych do szpitala z marskością wątroby poddano i markerów laboratoryjnych. Metody graficzne sugerowa­
flebografii wątrobowej i obserwowano przez okres o me­ ły, że dla tych zmiennych rozsądne jest założenie propor­
dianie równej 566 dni. Losy tych pacjentów zilustrowano cjonalnego hazardu. Do wyboru optymalnego modelu uży­
na rycinie 44.1. W okresie obserwacji zmarło 33 pacjen­ to procedury selekcji krokowej (rozdział 33), a wyniki
tów. Krzywe Kaplana-Meiera ukazują skumulowany pro­ przedstawiono w tablicy 44.1.
cent przeżycia w każdej chwili od początku obserwacji, Wyniki w tablicy 44.1 wskazują, że podwyższone HVPG
osobno dla osobników, u których HVPG było mniejsze niż pozostaje niezależnie związane z krótszymi czasami prze­
16 mm Hg (wartość uprzednio sugerowana jako dostarcza­ życia, po skorygowaniu ze względu na inne czynniki, o któ­
jąca znaczącej informacji prognostycznej), i dla tych, u któ­ rych wiadomo, że są związane z gorszymi wynikami.
rych HVPG wynosiło 16 mm Hg lub więcej (rycina 44.2). W szczegómości osobnicy z HVPG 16 mm Hg lub wyższym
Komputerowy wynik testu log-rank zawierał następu­ mieli 2,46 (= exp[0,90}) razy wyższe ryzyko śmierci
jącą informację: w porównaniu z osobnikami z niższymi poziomami HVFG
(p = 0,04), po dokonaniu korekcji ze względu na pozostałe
Tost Chi-kwadrat df Wartość p czynniki. Innymi słowy, u tych osobników ryzyko śmierci
wzrosło o 146%. W dodatku wzrost czasu protnmibinowego
Log-rank 5,2995 1 0,0213
(ryzyko rośnie o 5% z każdą dodatkową sekundą), wzrost po­
ziomu bilirubiny (ryzyko rośnie o 5% z każdymi 10 dodntko
Istnieje zatem istotna różnica (p = 0,02) między czasa­ wymi mmol/1), obecność wodobrztisza (ryzyko rośnie
mi przeżycia w obu grupach. Trzy lata po przyjęciu nadal o 126% z każdą jednostką wzrostu) oraz wcześniejsze dłu­
żyło 73,1% pacjentów z niskimi wartościami pomiaru goterminowe leczenie endoskopowe (ryzyko rośnie o 246%),
HVPG, w porównaniu z 49,6% pacjentów z wartościami były niezależnie i istotnie związane z wynikiem.
wyższymi (rycina 44.2).

Tablica 44.1. Wyniki analizy regresji metodą proporcjonalnego hazardu Coxa.


Oszamwaiiip JKiJKUnTit
Estymator Błąd względnego wz£lu(lii(j£0
Zmienna (i kodowanie) df parametru standardowy Wartość p
IIVPG* <0 = <16, 1 = > 16 nim Hg) 1 0,90 0,44 0,04 2.46 (UB-aS.'))
Czas pretrombinowy (sekund) 1 0,05 0,01 0,0002 1,0.1 (i,02-1,07)
Diliiubiuu (10 mmol/D 1 0,05 0,02 0,04 1.0.1 (1.00-1.10)
Puchlina breuszna (0 = brak,
1 = łagodna, 2 = umiarkowana/ciężka) 1 0,82 0,18 0,0001 2,26 (1,56-3,24)
Wezsśniejsza długoterminowa terapia
eiidostopowa (0 = nie, 1 = tak) 1 1,24 0,41 0,003 3,48 (1.S4-7JW

HVPC - wysokość ciśnienia w żyle wrotnej.

Dano otrzymane dzięki uprzejmości: dr D. Patch i prof. A. K. Burroughs, Liver Unit, Royal Free Hospital, Londyn, Wielka Brytania.

44. Analiza przeżycia 123


45 METODY BAYESOWSKIE

PODEJŚCIE CZĘSTOŚCIOWE Twierdzenie Bayesa


Przypuśćmy, że badamy hipotezę (np. że efekt leczenia rów­
Opisane w tej książce testy hipotez oparte są na częstościo-
ny jest jakiejś wartości). Twierdzenie Bayesa dokonuje kon­
wym podejściu do prawdopodobieństwa (rozdział 7) i wnio­
wersji prawdopodobieństwa a priori opisującego wiarę
skowaniu na temat tego, ile razy powinno pojawić się zdarze­
osobnika W hipotezę p r z e d p r z e p r o w a d z e n i e m badania,
nie, jeżeli powtórzymy eksperyment wielką liczbę razy. Podej­
w prawdopodobieństwo a posteriori, opisujące wiarę po
ście to jest czasami krytykowane z następujących powodów.
przeprowadzeniu badania. Prawdopodobieństwo a posteriori
• Wykorzystuje się w nim jedynie informację uzyskaną
jest tak naprawdę prawdopodobieństwem warunkowym hi­
z kieżącego badania i nie włącza się do procesu wnioskowa­
potezy, po uwzględnieniu wyników z badania. Twierdzenie
nia żadnej innej informacji na temat badanego efektu, np. po­
Bayesa określa, że prawdopodobieństwo a posteriori jest
glądu lekarza na temat względnej efektywności dwóch tera­
proporcjonalne do prawdopodobieństwa a priori, pomnożo­
pii przed podjęciem eksperymentu klinicznego.
nego przez wartość prawdopodobieństwa obserwowanych
• Nie odnosimy się w nim do najbardziej interesujących wyników, które opisuje możliwość przyjęcia wyników, o ile
problemów. Przy porównywaniu leków zazwyczaj rzeczywi­ hipoteza jest prawdziwa (rozdział 32).
ście chcemy wiedzieć, czy jeden lek jest bardziej skuteczny
niż inny. Jednakże w podejściu częstościowym testujemy hi­
potezę, że oba leki są równie skuteczne. Chociaż wnioskuje­ TESTY DIAGNOSTYCZNE
my, że jeden lek jest lepszy od drugiego, jeżeli wartość p jest W UJĘCIU BAYESOWSKIM
mała, to prawdopodobieństwo (tj. wartość p) opisuje raczej
szanse otrzymania obserwowanych wyników, gdy leki są Niemal wszyscy klinicyści przy stawianiu diagnozy intuicyj­
równie skuteczne, niż szansę, że jeden lek jest skuteczniej­ nie stosują podejście Bayesowskie. Budują wizerunek pa­
szy niż inny (tym interesujemy się naprawdę). cjenta na podstawie historii klinicznej i/lub obecności symp­
• W podejściu tym nadmierną wagę przywiązuje się do tomów i oznak. W ten sposób decydują o najbardziej praw­
testowania hipotez oraz tego, czy wynik jest, czy nie jest dopodobnej diagnozie i eliminują inne możliwości, domnie-
znaczący, zamiast do implikacji wyniku. mując, że jest mało prawdopodobne, by były one prawdziwe,
jeśli weźmie się pod uwagę to, co wiadomo o pacjencie. Na­
stępnie mogą potwierdzić lub poprawić tę diagnozę w świe­
PODEJŚCIE BAYESOWSKIE tle nowych dowodów, np. jeżeli pacjent reaguje na leczenie
Alternatywne podejście do wnioskowania, Bayesowskie1,
odzwierciedla osobisty stopień wiary osobnika w hipotezę,
oparty, gdy to możliwe, na znanej już informacji. Osobnicy
zazwyczaj różnią się stopniem wiary w hipotezę; dodatkowo
ta wiara może ulegać zmianie, gdy pojawia się nowa infor­
macja. W podejściu Bayesowskim oblicza się prawdopodo­
bieństwo, że hipoteza jest prawdziwa (co jest przedmiotem
naszego zainteresowania), przez uaktualnianie uprzednich
apriorycznych opinii o hipotezie w miarę zwiększania dostę­
pu do nowych danych.

Prawdopodobieństwo warunkowe
Podstawą analiz Bayesowskich jest szczególny typ prawdopo­
dobieństwa, znany jako prawdopodobieństwo warunkowe.
Jest to prawdopodobieństwo zdarzenia występującego pod
warunkiem, że miato już miejsce inne zdarzenie. Dla ilustra­
cji rozważmy następujący przykład. Zachorowalność na hemo­
filię A w ogólnej populacji wynosi około 1 na 10 000 męskich
urodzeń. Jednakże, jeżeli wiemy, że nosicielem hemofilii jest
kobieta, zachorowalność ta wzrasta z jednego na dwa męskie
urodzenia. Dlatego prawdopodobieństwo, że męski potomek
ma hemofilię, przy założeniu, że jego matka jest nosicielką,
różni się bardzo od prawdopodobieństwa bezwarunkowego, że
będzie miał hemofilię, jeżeli nie wiadomo, czy matka jest no­
sicielką.

Rycina 45.1. Nomogram Fagana dla interpretacji diagnostycznych


wyników testu. Adaptowane z: Sackett D. L., Richardson W. S.,
Freedman L.: Bayesian statistical methods. A natura! way to as- Rosenberg W., Haynes R. ES.: Evidence-based Medicine: How to
1

sess clinical evidence. British Medical Journal, 1996, 313, 569-570. Practice and Teach EBM, Churchill-Livingstone, Londyn 1997.

124 Zagadnienia dodatkowe


lub rozwija się nowy symptom. Gdy osobnik przybywa do Prawdopodobieństwo a posteriori lub prawdopodobień­
kliniki, klinicysta ma zwykle pewną koncepcję na temat tego, stwo po teście jest prawdopodobieństwem, że pacjent ma
jakie jest prawdopodobieństwo, że osobnik ma daną jednost­ chorobę, oszacowanym, gdy znane są już dodatnie wyniki te­
kę chorobową — prawdopodobieństwo a priori czy prawdo­ stu. Jest ono podobne do dodatniej wartości predykcyjnej
podobieństwo przed testem. Jeżeli nic więcej nie wiadomo (rozdział 38), lecz bierze pod uwagę prawdopodobieństwo
o pacjencie, to jest ono po prostu prewalencją choroby w po­ a prbri, że osobnik ma chorobę.
pulacji (rozdziały 12 i 38). W celu zmiany prawdopodobień­ Prostszym sposobem wykonania tych obliczeń jest nomo-
stwa a priori w prawdopodobieństwo a posteriori możemy gram Fagana (patrz rycina 45.1): łącząc prawdopodobieństwo
użyć twierdzenia Bayesa. Można to najprościej uzyskać po­ przed testem (wyrażone w procentach) ze stosunkiem wiary­
przez włączenie do twierdzenia Bayesa stosunku wiarygod­ godności i przedłużając tę linię, możemy obliczyć prawdopo­
ności (rozdział 32), opartego na informacji z najnowszych ba­ dobieństwo po teście.
dań (np. na wynikach testu diagnostycznego). Stosunek wia­
rygodności dodatniego wyniku testu jest szansą otrzymania
wyniku dodatniego, jeżeli pacjent miał chorobę, podzieloną WADY METOD BAYESOWSKICH
przez szansę otrzymania takiego wyniku, jeżeli tej choroby W każdej analizie Bayesowskiej trzeba określić prawdopodo­
nie miał. Omawiałyśmy stosunek wiarygodności w tym kon­ bieństwo a priori hipotezy (np. prawdopodobieństwo przed
tekście w rozdziale 38 i pokazałyśmy, że można go użyć do testem, że pacjent ma chorobę). Z subiektywnej natury tych
określenia przydatności testu diagnostycznego. Użyjemy go prawdopodobieństw wynika, że poszczególni badacze i klini­
teraz do wyrażenia twierdzenia Bayesa w kategoriach szans cyści mogą dla nich wybierać różne wartości. Z tego powodu
(rozdział 16): metody Bayesowskie są często krytykowane jako arbitralne.
Gdy najświeższe dowody z badań (np. wiarygodność) są bar­
Szansa choroby a posteriori = szansa a priori x stosunek dzo silne, wpływ informacji apriorycznej jest minimalny
wiarygodności dodatniego (w krańcowym przypadku wyniki w ogóle nie będą zmienio­
wyniku testu, ne przez informację aprioryczną).
gdzie Obliczenia stosowane w wielu analizach Bayesowskich są
. . prawdopodobieństwo a priori skomplikowane i zwykle przeprowadza się je za pomocą wy­
szansa a priori - — . rafinowanych pakietów statystycznych, które wymagają dużej
(1 -prawdopodobieństwo a priori) mocy obliczeniowej komputera. Dlatego, mimo że aą intuicyj­
Szansę a posteriori można prosto obliczyć, lecz dla ła­ ne, metody bayesowskie nie są szeroko wykorzystywano.
twiejszej interpretacji zamieniamy szanse z powrotem na Jednak dostępność komputerów osobistych o duaej mocy
prawdopodobieństwo, korzystając z relacji: oznacza, że ich użycie stanie się bardziej powszechne i
„ , , ,. . , . . . szansa a posteriori
Prawdopodobieństwo a posteriori = .
(1 + szansa a posteriori)

PRZYKŁAD
W przykładzie w rozdziale 38 pokazałyśmy, że u biorców (tj. 33%), wtedy wierzymy, że osobnik ma H7% szans roz­
szpiku kostnego obciążenie wirusem powyżej 5 log]0 geno­ woju ciężkiej choroby. Można to również oszacować bezpo­
mów/ml daje optymalną czułość i swoistość testu predykcji średnio z nomogramu Fagana (rycina 43.1) poprzez pola-
rozwoju ciężkiej choroby klinicznej. Iloraz wiarygodności czenie prawdopodobieństwa przed testem równego 33%
testu dodatniego dla tej wartości odcięcia wynosił 13,3. Je­ z ilorazem wiarygodności równym 13,3 i przedłużenie linii
żeli uważamy, żo prcwalencja ciężkiej choroby jako wyniku do przecięcia z osią prawdopodobieństwa po toście. Jeżeli
zakażenia cytomegalowirusem (CMV) po przeszczepieniu natomiast uważamy, że prawdopodobieństwo tego, że
szpiku kostnego wynosi około 33%, prawdopodobieństwo osobnik zachoruje na ciężką chorobę, wynosi tylko 0,2
aprioryczne ciężkiej choroby u tych pacjentów wynosi 0,33. (tj. prawdopodobieństwo przed testem wynosi 20%), wte­
dy prawdopodobieństwo po teście będzie równe 77%.
Szansa o priori - 0,33/0,67 = 0,493. W obu przypadkach prawdopodobieństwo po tośeie jest
Szansa a posteriori - 0,493 x stosunek prawdopodo­ znacznie wyższe niż prawdopodobieństwo przed lesiem,
bieństwa = 0,493 x 13,3 = 6,557. co wskazuje na przydatność dodatniego wyniku lesiu. Co
Prawdopodobieństwo a posteriori = 6,557/(1 + 6,557) więcej, oba rezultaty wskazują, że pacjent ma wysokie ry
= 6,557/7,557 = 0,868. zyko zachorowania na ciężka chorobę po transplantacji
i rozpoczęcie terapii przeciw CMV może być sensowne.
Dlatego, jeżeli osobnik ma obciążenie CMV powyżej Dlatego też, mimo że prawdopodobieństwa aprioryczne
5 log10 genomów/ml. i jeżeli przyjmiemy, że prawdopodo­ bardzo się różnią, to w każdym przypadku ogólny wniosek
bieństwo przed testem ciężkiej choroby wynosi 0,33 pozostaje taki sam.

45. Metody Bayesowskie 125


DODATEK A: TABLICE STATYSTYCZNE

Dodatek ten zawiera tablice statystyczne omówione W tek­ ri odpowiedzi. Dla testu jednopróbkowego r równa się licz­
ście. Zamieszczamy tylko pewien zakres wartości p, gdyż da­ bie wartości powyżej (lub poniżej) mediany (rozdział 19). Dla
ne zazwyczaj analizowane są za pomocą komputera, a warto­ testu zmiennych powiązanych r równa się liczbie dodatnich
ści p włączane do wyników. Inne podręczniki, takie jak (lub ujemnych) różnic (rozdział 20) albo liczbie preferencji
1
Fiehera i Yatesa , zawierają bardziej rozbudowane tablice. szczególnego typu leczenia (rozdział 23). ri równa się odpo­
Wartości p możemy otrzymać bezpośrednio z niektórych pa­ wiednio liczbie wartości, które nie sa równe medianie, róż­
kietów komputerowych, podając wartość statystyki testowej. nicom niezerowym lub aktualnym preferencjom. Na przy­
Puste komórki w tablicy wskazują, że wartości nie istnieją. kład, jeżeli obserwujemy trzy różnice dodatnie spośród
ośmiu różnic niezerowych, wtedy p = 0,726.
Tablica Al zawiera dwustronne prawdopodobieństwo
rozkładu zmiennej Ą która podlega standaryzowanemu roz­ Tablica A7 zawiera rangi wartości, które wyznaczają
kładowi normalnemu. Wartości p w Tablicy Al odnoszą się górne i dolne granice przybliżonych 90%, 95% i 99% prze­
do wartości bezwzględnych z, tak więc gdy z jest ujemne, działów ufności (CI) dla mediany. Na przykład, jeżeli wiel­
pomijamy znak. Na przykład, jeżeli statystyka testowa pod­ kość próby wynosi 23, wtedy granice 95% przedziału ufności
legająca standaryzowanemu rozkładowi normalnemu ma są określone przez 7. i 17. uporządkowaną wartość.
wartość 1,1, to p = 0,271. Dla prób o wielkościach większych niż 50 należy znaleźć
obserwacje, które odpowiadają rangom (najbliższej wartości
Tablica A2 i Tablica A3 zawierają dwustronne prawdo­ całkowitej) równym: (i) n/2 — z\Tn/2; oraz (ii) 1 + n/2 -t-
podobieństwo dla zmiennej podlegającej rozkładowi f (Tabli­ + z\fn~/2; gdzie n jest wielkością próby, a z= 1,64 dla 90%
ca A2) lub rozkładowi Chi-kwadrat (Tablica A3) z określoną CI, z = 1,96 dla 95% CI, oraz z = 2,58 dla 99% CI (wartości
liczbą stopni swobody (df). W Tablicy A2 i Tablicy A3, gdy z wzięto z tablicy A4 standaryzowanego rozkładu normalne­
wartość bezwzględna statystyki testowej (z określoną liczbą go). Te obserwacje definiują (i) dolną i (ii) górną granicę prze­
stopni swobody df) leży pomiędzy wartościami stabelaryzo- działu ufności dla mediany.
wanymi w dwóch kolumnach, wtedy dwustronna wartość p
leży pomiędzy wartościami p wyspecyfikowanymi w nagłów­ Tablica A8 zawiera wartości dla sumy rang (T lub T_),
kach tych kolumn. Gdy wartość statystyki testu jest na pra­ która określa istotność testu rangowanych znaków Wilcosc-
wo od ostatniej kolumny, p < 0,001; jeżeli jest na lewo od na (Rozdział 20). Jeżeli suma rang różnic dodatnich (T+) lub
drugiej kolumny, p > 0,10. Na przykład, (i) Tablica A2: jeżeli ujemnych (71), pochodzących spośród ri niezerowych różnie,
wartość statystki testu wynosi 2,62 z df - 17, wtedy jest równa lub jest poza stabelaryzowanymi granicami, test
0,01 •> p % 0,05; (ii) Tablica A3: jeżeli wartość statystyki jest istotny dla podanej wartości p. Na przykład, gdy mamy
testu wynosi 2,62 z df= 17, wtedy p < 0,001. 16 niezerowych różnic, a T+ = 21, wtedy 0,01 c p <0,05.

Tablica A4 zawiera często używane wartości p i odpowia­ Tablica A9 zawiera zakres wartości dla sumy rang (T)
dające im wartości dla z, zmiennej o standaryzowanym roz­ określającej istotność testu sumy rang Wilcoxona (rozdział 21)
kładzie normalnym. Tablicy tej można użyć przy obliczaniu na poziomie (a) 5% i (b) 1%. Przypuśćmy, że mamy dwie próby
mnożników do wyznaczania przedziałów ufności (CI) dla o wielkościach ns i nu gdzie ns ^ nL. Jeżeli suma rang w mniej­
zmiennych o rozkładzie normalnym. Na przykład, dla 95% szej grupie ins) jest równa wartościom stabelaryzowanym lub
przedziału ufności mnożnik wynosi 1,96. wykracza poza ich zakres, test jest istotny na poziomie (a) 5%
lub (b) 1%. Na przykład, jeżeli ns = 6 i nL - 8, a suma rang
Tablica A5 zawiera wartości p dla zmiennej podlegającej w grupie z sześcioma obserwacjami wynosi 39, to p > 0,05.
rozkładowi Fz określoną liczbą stopni swobody dla licznika
i mianownika. Gdy porównujemy wariancje (Rozdział 35), uży­ Tablica A10 i Tablica Ali zawierają dwustronne warto­
wamy zazwyczaj wartości dwustronnego prawdopodobień­ ści p dla współczynników korelacji Pearsona (Tablica A10)
stwa p. Do analizy wariancji (rozdział 22) używamy wartości i Spearmana (Tablica Al 1), gdy testujemy hipotezę zerową, że
jednostronnego prawdopodobieństwa p. Przy danej liczbie współczynnik korelacji jest równy zero (rozdział 26). Dla
stopni swobody dla licznika i mianownika test jest istotny na określonej wielkości próby współczynnik jest istotny przy
poziomie p podanym w tablicy, gdy wartość statystyki testu ustalonej wartości p, gdy wartość bezwzględna (tj. bez
jest większa niż stabelaryzowana wartość. Na przykład, jeżeli uwzględnienia znaku) współczynnika korelacji w próbie prze­
statystyka testu wynosi 2,99 z df - 5 w liczniku i df = 15 kracza wartość tablicową. Na przykład, jeżeli wielkość próby
w mianowniku, wtedy p < 0,05 dla testu jednostronnego. wynosi 24, a współczynnik korelacji Pearsona r = 0,58, wte­
dy 0,001 < p < 0,01. Jeżeli wielkość próby wynosi 7, a współ­
Tablica A6 zawiera dwustronne wartości p testu znaków czynnik korelacji Spearmana rs = -0,63, wtedy p > 0,05.
z r odpowiedzi szczególnego typu spośród całkowitej liczby
Tablica A12 cyfry 0-9 ustawiono w porządku losowym.
1
Fisher R. A., Yates F.: Statistical Tablesfor Biological, Agricultu-
ral and Medical Research. 01iver and Boyd, Edinburgh 1963.

126 Dodatki
Tablica Al. Tablica A2. Rozkład t. Tablica A3. Rozkład Chi-kwadrat.
Standaryzowany
rozkład normalny.

Uzyskane przy użyciu Microsoft Excel wersja 5.0

Uzyskane przy użyciu Uzyskane przy użyciu Microsoft Exeel wersja S.O.
Microsoft Excel
wersja 5.0.
Tablica A4. Standaryzowany rozkład normalny. Tablica A6. Test znaków.

Dwustronna wartość p r = liczba „dodatnich różnic" (patrz wyjaśnienie)

0,50 0,10 0,05 0,01 0,001 n' 0 1 2 3 4 5

Odpowiedni przedział 4 0,125 0,624 1,000


ufności (Cl) 50% 90% 95% 99% 99,9% 5 0,062 0,376 1,000
sit), mnożnik CD 0,67 1,64 1,96 2,58 3,29
6 0,032 0,218 0,688 1,000
Uzyskane przy użyciu Microsoft Excel wersja 5.0. 7 0,016 0,124 0,454 1,000
8 0,008 0,070 0,290 0,726 1,000
9 0,004 0,040 0,180 0,506 1,000
10 0,001 0,022 0,110 0,344 0,754 1,000

Uzyskane przy użyciu Microsoft jlxcel wersja 5.0.

Tablica A5. Rozkład F.

Liczba stopni swobody licznika


Liczba stopni Dwu­ Jedno­
swobody stronna stronna
mianownika •wartość p "wartość p 1 2 3 4 5 6 7 8 9 10 15 25 500

1 0,05 0,025 647,8 799,5 864,2 899,6 921,8 937,1 948,2 956,6 963,3 968,6 984,9 998,1 1017,0
1 0,10 0,05 161,4 199,5 215,7 224,6 230,2 234,0 236,8 238,9 240,5 241,9 245,9 249,3 254,1
2 0,05 0,025 38,51 39,00 39,17 39,25 39,30 39,33 39,36 39,37 39,39 39,40 39,43 39,46 39,50
2 0,10 0,05 18,51 19,00 19,16 19,25 19,30 19,33 19,35 19,37 19,38 19,40 19,43 19,46 19,49
3 0,05 0,025 17,44 16,04 15,44 15,10 14,88 14,73 14,62 14,54 14,47 14,42 14,25 14,12 13,01
3 0,10 0,05 10,13 9,55 9.28 9,12 9,01 8,94 8,89 8,85 8,81 8,79 8,70 8,63 8,03
k 0.05 0,025 12,22 10,65 9,98 9,60 9,36 9,20 9,07 8,98 8,90 8,84 8,66 8,50 8,27
4 0,10 0,05 7,71 6,94 6,59 6,39 6,26 6,16 6,09 6,04 6,00 5,96 5,86 5,77 5,64
5 0,05 0,025 10,01 8,43 7,76 7,39 7,15 6,98 6,85 6,76 6,68 6,62 6,43 6,27 6.03
5 0,10 0,05 6,61 5,79 5,41 5,19 5,05 4,95 4,88 4,82 4,77 4,74 4,62 4,52 4,07
6 0,03 0,025 8,81 7,26 6,60 6,23 5,99 5,82 5,70 5,60 5,52 5,46 5,27 5.11 4,86
6 0,10 0,05 5,99 5,14 4,76 4,53 4,39 4,28 4,21 4,15 4,10 4,06 3,94 3,83 3,68
r7 0,05
0,10
0,025
0,05
8,07
5,59
6,54
4,74
5,89
4,35
5,52
4,12
5,29
3,97
5,12
3,87
4,99
3,79
4,90
3,73
4,82
3,68
4,76
3,64
4,57
3,51
4,40
3,40
4,16
3,24
8 0,05 0.025 7,57 6,06 5,42 5,05 4,82 4,65 4,53 4,43 4,36 4,30 4,10 3,94 3,68
S 0,10 0,05 5,32 4,46 4,07 3,84 3,69 3,58 3,50 3,44 3,39 3,35 3,22 3,11 2,94
9 0,05 0,025 7,21 5,71 5,08 4,72 4,48 4,32 4,20 4,10 4,03 3,96 3,77 3,60 3,35
9 0,10 0,05 5,12 4,26 3,86 3,63 3,48 3,37 3,29 3,23 3,18 3,14 3,01 2,89 2,72
10 0,05 0,025 6,94 5,46 4,83 4,47 4,24 4,07 3,95 3,85 3,78 3,72 3,52 3,35 3,09
10 0,10 0,05 4,96 4,10 3,71 3,48 3,33 3,22 3,14 3,07 3,02 2,98 2,85 2,73 2,55

15 0,05 0,025 6,20 4,77 4,15 3,80 3,58 3,41 3,29 3,20 3,12 3,06 2,86 2,69 2,41
15 0,10 0,05 4,54 3,68 3,29 3,06 2,90 2,79 2,71 2,64 2,59 2,54 2,40 2,28 2,08
20 0,05 0,025 5,87 4,46 3,86 3,51 3,29 3,13 3,01 2,91 2,84 2,77 2,57 2,40 2.10
20 0,10 0,05 4,35 3,49 3.10 2,87 2,71 2,60 2,51 2,45 2,39 2,35 2,20 2,07 1,86
30 0,05 0,025 5,57 4,18 3.59 3,25 3,03 2,87 2,75 2,65 2,57 2,51 2,31 2,12 1,81
30 0,10 0,05 4,17 3,32 2,92 2,69 2,53 2,42 2,33 2,27 2,21 2,16 2,01 1,88 1,64
50 0,05 0,025 5,34 3,97 3,39 3,05 2,83 2,67 2,55 2,46 2,38 2,32 2,11 1,92 1,57
50 0,10 0,05 4,03 3,18 2,79 2,56 2,40 2,29 2,20 2,13 2,07 2,03 1,87 1,73 1,46
100 0,05 0,025 5,18 3,83 3,25 2,92 2,70 2,54 2,42 2,32 2,24 2,18 1,97 1,77 1,38
100 0,10 0,05 3,94 3,09 2,70 2,46 2,31 2,19 2,10 2,03 1,97 1,93 1,77 1,62 1,31
1000 0,05 0,025 5,04 3,70 3,13 2,80 2,58 2,42 2,30 2,20 2,13 2,06 1,85 1,64 1,16
1000 0,10 0,05 3,85 3,00 2,61 2,38 2,22 2,11 2,02 1,95 1,89 1,84 1,68 1,52 1,13

Uzyskane przy użyciu Microsoft Excel wersja 5.0.

128 Dodatki
Tablica A7. Rangi dla przedziałów ufności dla mediany. Tablica A8. Test rangowanych znaków Wilcoxona.

Przybliżenie Dwustronna wartość p


Wielkość próby 90% CI 95% CI 99% CI n' 0,05 0,01 0,001
6 1,6 1,6 — 6 0-21 — —
7 1,7 1,7 - 7 2-26 - -
8 2,7 1,8 - 8 3-33 0-36
9 2,8 2,8 1,9 9 5-40 1-44 -
10 2,9 2,9 1,10 10 8-47 3-52 -
11 3,9 2,10 1,11 11 10-56 5-61 0-66
12 3,10 3,10 2,11 12 13-65 7-71 1-77
13 4,10 3,11 2,12 13 17-74 9-82 2-89
14 4,11 3,12 2,13 14 21-84 12-93 4-101
15 4,12 4,12 3,13 15 25-95 15-105 6-114
16 5,12 4,13 3,14 16 29-107 19-117 9-127
17 5,13 4,14 3,15 17 34-119 23-130 11-142
18 6,13 5,14 4,15 18 40-131 27-144 14-157
19 6,14 5,15 4,16 19 46-144 32-158 18-172
20 6,15 6,15 4,17 20 52-158 37-173 21-189
21 7,15 6,16 5,17 21 58-173 42-189 26-205
22 7,16 6,17 5,18 22 66-187 48-205 30-223
23 8,16 7,17 5,19 23 73-203 54-222 35-241
24 8,17 7,18 6,19 24 81-219 61-239 40-260
25 8,18 8,18 6,20 25 89-236 68-257 45-280
26 9,18 8,19 6,21
27 9,19 8,20 7,21 Adaptowany za zgodą z Altman D. G.: Practical Statistics for Medi-
28 10,19 9,20 7,22 cal Research. Copyright CRC Press, Boca Raton 1991.
29 10,20 9,21 8,22
30 11,20 10,21 8,23
31 11,21 10,22 8,24
32 11,22 10,23 9,24
99 12,22 11,23 9,25
34 12,23 11,24 9,26
35 12,23 12,24 10,26
36 13,24 12,25 10,27
37 14,24 13,25 11,27
38 14,25 13,26 11,28
39 14,26 13,27 11,29
40 15,26- 14,27 12,29
41 15,27 14,28 12,30
42 16,27 15,28 13,30
43 16,28 15,29 13,31
44 17,28 15,30 13,32
45 17,29 16,30 14,32
46 17,30 16,31 14,33
47 18,30 17,31 15,33
48 18,31 17,32 15,34
49 19,31 18,32 15,35
50 19,32 18,33 16,35

Uzyskane przy użyciu Microsoft Excel wersja 5.0.

Dodatek A: Tablice statystyczne 129


Tablica A9(a). Test sumy rang Wilcoxona dla dwustronnego p = 0,05.

ns (liczba obserwacji w mniejszej próbie

nL 4 5 6 7 8 9 10 11 12 13 14 15
4 10-26 16-34 23-43 31-53 40-64 49-77 60-90 72-104 85-119 99-135 114-152 130-170
5 11-29 17-38 24-48 33-58 42-70 52-83 63-97 75-112 89-127 103-144 118-162 134-181
6 12-3Z 18-42 26-52 34-64 44-76 55-89 66-104 79-119 92-136 107-153 122-172 139-191
7 13-35 20-45 27-57 36-69 46-82 57-96 69-111 82-127 96-144 111-162 127-181 144-201
8 14-38 21-49 29-61 38-74 49-87 60-102 72-118 85-135 100-152 115-171 131-191 149-211
9 14-42 22-53 31-65 40-79 51-93 62-109 75-125 89-142 104-160 119-180 136-200 154-221
10 15-45 23-57 32-70 42-84 53-99 65-115 78-132 92-150 107-169 124-188 141-209 159-231

11 16-48 24-61 34-74 44-89 55-105 68-121 81-139 96-157 111-177 128-197 145-219 164-241
12 17-51 26-64 35-79 46-94 58-110 71-127 84-146 99-165 115-185 132-206 150-228 169-251
19 18-54 27-G8 37-83 48-99 60-116 73-134 88-152 103-172 119-193 136-215 155-237 174-261
14 19-57 28-72 38-88 50-104 62-122 76-140 91-159 106-180 123-201 141-223 160-246 179-271
15 20-60 29-76 40-92 52-109 65-127 79-146 94-166 110-187 127-209 145-232 164-256 184-281

Tablica A9(b), Test sumy rang Wilcoxona dla dwustronnego p = 0,01.

ns (liczba obserwacji w mniejszej próbie

nL 4 5 6 7 8 9 10 11 12 13 14 15
4 - - 21-45 28-56 37-67 46-80 57-93 68-108 81-123 94-140 109-157 125-175
5 - 15-40 22-50 29-62 38-74 48-87 59-101 71-116 84-132 98-149 112-168 128-187
6 10-34 16-44 23-55 31-67 40-80 50-94 61-109 73-125 87-141 101-159 116-178 132-198
7 10-38 16-49 24-60 32-73 42-86 52-101 64-116 76-133 90-150 104-169 120-186 136-209
S 11-48 17-53 25-65 34-78 43-93 54-108 66-124 79-141 93-159 108-178 123-199 140-120
9 11-45 18-57 26-70 35-84 45-99 56-115 68-132 82-149 96-168 111-188 127-209 144-231
10 12-48 19-61 27-75 37-89 47-105 58-122 71-139 84-158 99-177 115-197 131-219 149-241

11 12-52 20-65 28-80 38-95 49-111 61-128 73-147 87-166 102-186 118-207 135-229 153-252
12 13-55 21-69 30-84 40-100 51-117 63-135 76-154 90-174 105-195 122-216 139-239 157-263
19 13-59 22-73 31-89 41-106 53-123 65-142 79-161 93-182 109-203 125-226 143-249 162-273
14 14-62 22-78 32-94 43-111 54-130 67-149 81-169 96-190 112-212 129-235 147-259 166-284
15 15-65 23-82 33-99 44-117 56-136 69-156 84-176 99-198 115-221 133-244 151-269 171-294

Wybrane za zgodą z pracy: Diem K. Documenta Geigy Scientific Tables, Wyd. 7, Blackwell Publishing, Oxford 1970.

130 Dodatki
Tablica A10. Współczynnik korelacji Pearsona. Tablica Ali. Współczynnik korelacji Spearmana.

5 0,878 0,959 0,991 5 1,000


6 0,881 0,917 0,974 6 0,886 1,000
7 0,755 0,875 0,951 7 0,786 0,929 1,000
8 0,707 0,834 0,925 8 0,738 0,881 0,976
9 0,666 0,798 0,898 9 0,700 0,883 0,933
10 0,632 0,765 0,872 10 0,648 0,794 0,903
11 0,602 0,735 0,847 Adaptowane z pracy: Siegel S. i Castellan N. J.: Nonparametric
12 0,576 0,708 0,823 Statistics for the Behavioural Sciences, Wyd. 2, McGraw-Hill,
13 0,553 0,684 0,801 Nowy Jork, za zgodą McGraw-Hill Companies.
14 0,532 0,664 0,780
15 0,514 0,641 0,760
16 0,497 0,623 0,742
17 0,482 0,606 0,725
18 0,468 0,590 0,708
19 0,456 0,575 0,693
20 0,444 0,561 0,679
21 0,433 0,549 0,665
22 0,423 0,537 0,652
23 0,413 0,526 0,640
24 0,404 0,515 0,629
25 0,396 0,505 0,618
26 0,388 0,496 0,607
27 0,381 0,487 0,597
28 0,374 0,479 0,588
29 0,367 0,471 0,579
30 0,361 0,463 0,570
35 0,334 0,430 0,532
40 0,312 0,403 0,501
45 0,294 0,380 0,474
50 0,279 0,361 0,451
05 0,266 0,345 0,432
60 0,254 0,330 0,414
ro 0,235 0,306 0,385
80 0,220 0,286 0,361
90 0,207 0,270 0,341
100 0,217 0,283 0,357
150 0,160 0,210 0,266

Wybrane za zgodą z pracy: Diem K. Docu.men.ta Geigy Scientific


Tables, Wyd. 7, Blackwell Publishing, Oxford 1970.
Tablica A12. Liczby losowe.

3 4 8 14 68020 2 8 9 9 8 5 16 8 7 4 0 0 8 8 3 5 4 5 8 2 4 7 0 8 0 1 8 1 5 5 3 7 7 6
9 9 10 6 50 8 9 9 0 7 3 9 4 9 10 7 1 2 2 4 11 6 16 4 3 6 4 4 3 5 6 2 5 5 2 6 4316
4 7 18 5 3 1 7 82 4 8 8 9 4 6 8 7 9 0 5 18 5 2 3 6 9 18 0 5 7 3 7 9 0 6 5 3 6 112 3
8 13 5 4 57 2 96 3 9 3 2 9 5 2 2 6 3 4 3 19 4 5 16 2 4 4 2 4 2 9 6 1 3 6 7 4 12 0 7
8 3 4 6 7 85 6 2 2 9 5 7 7 8 0 5 3 4 7 0 0 4 4 5 5 13 3 4 2 9 4 4 5 9 9 1 76 3 00 9 1
2 7 9 2 4 34 1 6 7 5 7 0 6 0 5 7 5 3 5 3 2 2 7 8 16 9 4 9 0 4 9 6 0 0 4 1 1 6 9 14 6 7
5 8 3 19 88 1 6 4 9 4 1 30 0 7 7 4 3 1 6 9 17 15 6 8 1 9 3 5 7 2 9 9 7 5 3 4 9 117
4 9 7 3 2 66702 7 2 4 2 5 9 9 117 4 9 2 9 8 8 7 2 6 5 14 1 9 5 8 3 39 1 19 7 9 4
6 9 5 9 4 26749 6 8 7 4 3 3 9 13 9 4 4 4 9 5 119 4 4 12 9 7 0 5 6 5 2 3 6 2 4 11
3 0 0 7 4 97 5 1 7 9 7 4 5 0 5 4 2 5 1 5 17 7 7 2 10 7 3 0 3 9 0 9 2 6 5 1 9 3 95 76
8 114 7 57 5 0 8 9 3 4 7 9 8 7 8 2 6 2 8 9 6 5 7 4 4 7 4 9 7 4 6 8 8 0 1 49 17834
74 6 8 9 28 9 3 3 5 9 8 1 9 9 3 0 5 2 6 13 2 5 8 3 14 5 4 4 6 8 4 7 2 9 5 8 9 18 2 4
14 8 0 2 25 9 82 4 8 0 2 4 15 4 6 1 3 7 5 7 0 4 4 6 8 5 4 7 3 8 6 0 9 5 0 4 778 3 1
G85 0 1 34 1 94 8 5 3 5 5 3 8 4 11 4 6 5 5 9 4 16 9 4 9 9 6 7 8 8 8 2 6 8 8 66 74
4 8 7 3 4 92 6 71 8 5 2 5 2 8 5 9 8 5 3 4 2 2 8 9 12 8 9 5 6 3 3 1 1 4 6 8 3 3 6 4 93
8 4 10 2 81 6 99 9 7 3 5 2 5 4 5 0 9 9 3 19 6 5 12 0 4 4 3 3 5 1 1 1 8 1 8 4 1179
2 8 4 3 2 32 8 7 3 8 3 8 3 4 0 9 8 6 2 1 2 7 2 0 6 4 5 6 9 4 2 2 18 2 6 7 2 6 8 0606
9 14 5 6 82 5 24 7 5 5 2 3 0 12 7 6 1 9 5 9 1 4 7 4 7 3 9 0 2 5 1 9 9 1 03 7 2 9 4 7
4 5 4 3 5 30 3 8 9 6 9 7 3 2 8 19 6 2 3 0 2 4 3 9 6 19 9 3 3 5 4 6 3 9 67Z 8 37 6 0
2 3 5 5 7 78 4 3 7 4 4 9 5 7 9 8 7 2 8 6 5 6 7 4 3 4 7 0 1 8 3 3 9 8 5 4 1 02 6 58 4 5
3 0 3 9 5 918 5 0 5 2 0 0 4 0 4 8 4 4 2 8 8 4 8 19 7 2 8 9 6 5 7 1 1 3 3 1 7 7 08 59
6 9 9 9 1 12 7 5 5 9 7 9 1 6 5 7 6 3 9 4 3 4 4 5 9 0 4 6 3 8 5 5 5 6 3 5 4 6 9 19 7 4 9
3 2 9 9 0 43 6 0 8 2 0 5 9 2 7 2 5 2 7 6 3 5 8 3 4 6 4 4 3 5 3 9 2 9 8 7 2 1 9 5 5 19 8
5 9 7 7 6 37035 5 3 7 6 5 5 5 19 6 6 8 6 5 9 7 14 2 9 2 5 2 2 5 9 1 9 4 2 5 1132
7 3 7 14 79868 2 3 8 8 0 9 2 2 5 4 7 2 9 8 4 0 7 7 9 2 8 13 0 6 2 4 2 7 7 8 23 6 6
G 1 54 7 IG 5 7 5 6 8 5 2 0 5 9 8 6 9 6 7 2 9 9 7 3 5 6 5 7 7 3 16 9 6 6 8 2 18 0 3 1
8 7 7 3 7 010 58 7 6 0 1 2 7 6 2 4 7 7 5 6 16 5 13 3 5 7 0 3 6 4 7 8 9 4 2 4 05 6 4
9 8 6 6 0 08 3 3 4 4 0 5 2 0 7 8 3 8 9 5 6 4 9 8 7 4 3 3 6 0 2 4 3 4 4 8 5 9 9 6 75 7 9
8 15 3 5 4G G 9 0 9 2 8 1 4 4 4 4 5 6 2 9 2 2 7 4 8 12 2 3 0 5 2 2 1 3 8 5 2 4 84 3 6
0 5 9 7 5 47 1 10 3 2 7 3 3 4 6 9 2 9 9 8 2 6 1 5 2 19 3 8 3 2 15 5 3 1 92 8 3 10 9

Uzyskane pr2y użyciu Microsoft Excel Wersja 5.0.

132 Dodatki
DODATEK B: NOMOGRAM ALTMANA DO OBLICZEŃ
WIELKOŚCI PRÓBY (ROZDZIAŁ 36)

Wybrane z pracy: Altman D. G. How large a sample? W: Statistics in Practice (red. S. M. Gore & D. G. Altman). DMA, Londyn 1962, m zgodą
Blackwell Publishing Ltd.

Dodatek B: Nomogram Altmana do obliczeń wielkości próby (rozdział 36) 133


DODATEK C: TYPOWE WYDRUKI KOMPUTEROWE

Analiza danych głębokości kieszonek opisana w rozdziale 20, przeprowadzona za pomocą pakietu SPSS

134 Dodatki
Analiza danych dla płytek opisana w rozdziale 22, przeprowodzana za pomocą pakietu SPSS

5% Trimmed Mean — 5% błąd oszacowania Kurtosis — Kurtoza Sig. (2-tailed) — Istotność (dwustronna)
średniej Levene Statistic — Statystyka Levene'a Skewness — Skoaność
95% Confidence Interval for Mean — 95% Lower — Dolny Statistic — Statystyka
przedział ufności dla średniej Lower Bound — Dolna granica 5td. Deviation - Odchylenie standardowe
95% Confidence Interval of the difference Mean — Średnia S t d . E r r o r — Błą^ł s t a n d a r d o w y
— 95% przedział ufności dla różnic Mean Sąuare — Średni Kwadrat Std. Error Mean — Błąd standardowy śred­
Afro-caribbean — Afrokaraibska Median — Mediana niej
Anova - ANOYA Mediterranean — Śródziemnomorska Stem-and Leaf Plot - Wykres typu „łodyga
Between Groups — Pomiędzy grupami Missing — Braki z liśćmi"
Case Processing Summary - Podsumowa­ Other — Inni Stern width — Szerokość łodygi
nie przetwarzania danych Pair — Para Sum of Squares — Suma kwadratów
Cases - Przypadki Paired Differences — Różnice powiązane Test of Homogenity of Varianees — Test
Caucasian — Kaukaska Paired Samples Statistics — Statystyka jednorodności wariancji
Descriptiyes — Statystyka opisowa prób powiązanych Total — Razem
Each leaf — Każdy liść Paired Samples Test — Test prób powiąza­ Upper — Górny
Extremes — Ekstrema nych Upper Bound — Górna granica
Prequency stem 80 Leaf — Wykres typu Percent — Procent Yalid — Ważne
„łodyga z liśćmi" dla częstości Platelet - Płytki Variance — Wariancja
Group — Grupa Rangę — Rozstęp Within Groups — Wewnątrz grup
Interąuartile Rangę — Rozstęp między- Report — Raport
kwartylowy Sig. — Istotność

Dodatek C: Typowe wydruki komputerowe 135


Analiza danych FEVI opisana w rozdziale 21, przeprowadzona za pomocą pakietu SAS

136 Dodatki
Equal — Równe Obs — Numer obserwacji Treated — Leczeni
Extremes — Ekstrema Rangę — Rozstęp Treatment Group=Placebo - Grupa =
For HO: Yariances are equal - Dla H0: Quantiles — Kwantyle Placebo
Wariancje są równe Skewness — Skośność Treatment Group=Treated — Grupa =
GRP - Grupa Std Dev — Odchylenie stand. Leczeni
Highest — Górne Std Error — Bfąd standardowy Uneąual — Nierówne
Kurtosis — Kurtoza Std Mean — Błąd standardowy średniej Univariate Procedurę — Procedura jednej
Lowest — Dolne Sum — Suma zmiennej
Mean — Średnia Sum Wgts — Suma wag Variable — Zmienna
Modę — Modalna T Test procedurę — Procedura testu t Variance — Wariancja
Moments — Momenty The SAS System - System SAS Yariances — Wariancje

Dodatek C: Typowe wydruki komputerowe 137


Analiza danych antropometrycznych opisanych w rozdziałach 26, 28 i 29 przeprowadzona za pomocą
pakietu SAS

Analysis of anthropometric data described in Topics 26, 28 and


29 generated by SAS
4 'VAH' Variables — 4 zmienne Mean Sąuare — Średni kwadrat Simple Statlstics — S t a t y s t y k a o p i s o w a
Age - Wiek Model — Model Spearman Correlation Coefficients -
Adj R-sq — Skorygowany kwadrat R ModelrMODELl - Model = MODEL 1 Współczynniki korelacji Spearmana
Analysis of Yariance - Analiza wariancji OBS — Numer obserwacji Standard Error - Biad standardowy
Correlation Analysis — Analiza korelacji Parameter Estimate — Estymator parame­ Std Dev — Odchylenie standardowe
C Total — C Razem tru Source — Żródto
Dependent Variable: SBP — Zmienna za­ Parameter Estimates — Estymatory para­ Sum — Suma
leżna; SBP metru Sum of Squares - Suma kwadratów
Dep Mean — Średnia zmiennej zależnej Pearson Correlation Coefficients —Współ­ T for HO; Parameter = 0 T dla tf0;
Error - Błąd czynniki korelacji Pearsona Parametr = 0
F Value — Wartość F R-square — Kwadrat R Variable DF — Zmienna DF
Height - Wzrost Root MSE - Pierwiastek MSE Variable — Zmienna
Intercep — Przecięcie SBP — Skurczowe ciśnienie krwi Weight — Masa
Mean — Średnia Sex — Płeć

Dodatek C: Typowe wydruki komputerowe 139


Analiza danych HHV-8 opisana w rozdziałach 23, 24 i 30, przeprowadzona przy użyciu STATA

140 Dodatki
Analiza danych na temat braku efektu terapeutycznego po leczeniu przeciwwirusowym (BETPLP)
opisanych w rozdziałach 31-33, przeprowadzona przy użyciu programu SAS

. Logit hhv8 gonorrho syphilis hsv2 hiv Failure — Niepowodzenie Pearson chi2, Pearson Chi-5quare — Chi 3
age or tab — . Logit hhv8 rzeżączka Gonorrho; gonorrhoe — Rzeżączka Pearsona
syfilis hsv2 hiv wiek lub tab History — Wystąpienie Period - Okres
95% Conf. Interral — 95% przedział ufności Interaction — Interakcja Positive — Pozytywne
Age — Wiek Intercept — Przecięcie Scalę — Skala
Analysis Of Parameter Estimates — Link Function — Funkcja łącząca Scaled Deviance — Dewiancja skatowana
Analiza estymatorów parametru Log Likelihood — Log wiarygodności Scaled Pearson X2 — Skalowany Chi 2
GM-Square — Chi-kwadrat Logit Estimates — Logit oszacowanie Pearsona
Coef. — Współczynnik LR Statistics For Type 3 Analysis — Sex - Płeć
Comparison of outcomes and probabilities Statystyka LR dla analizy typu 3 Source — Źródło
— Porównanie wyników i prawdopodo­ Model Information — Informacja S t a n d a r d Error; Std. E r r . — Błąd standar­
bieństw o modelu dowy
Constont — Stalą Negative — Ujemne Success — Sukcea
Criteria For Assessing Goodness Of Fit — No history — Brak wystąpienia Syphilis - Syfilis
Kryteria oszacowania jakości dopasowa­ Number of obs — Liczba obserwacji Tabulatc; gonorrho hhy8, chi row col —
nia Observations Used — Użyte wartości Stabelaryzuj: rzeżączka hhv8, chi row col
Criterion - Kryterium OBS — Numer obserwacji The GENMOD Proceduro — Procedura
Data S e t — Zbiór danych Odds Ratio — Iloraz szans GENMOD
Dependent Variable — Zmienna zależna Offset Variable — Zmienna offsetu Total — Razem
Deviance — Dewiancja Outcome — Wynik Value — Wartość
Distribution — Rozkład Parameter — Parametr Value/DF - Wartość/DF
Estimate — Estymator Patient — Pacjent Wald 95% Confidence Limit — 95% granice
Event —Zdarzenie PDAYS - Dni ufności statystyki Walda

Dodatek C: Typowe wydruki komputerowe 141


142 Dodatki
Analysis Of Parameter Estimates - Analiza Estimate — Estymator Scaled Deviance — Skalowana dewlancja
estymatorów parametrów Intercept — Przecięcie Scaled Pearson X2 - Skalowana Chi-2
Chi-Sąnare — Chi-kwadrat Levels — Poziomy Pearsona
Clasa - Klasa Link Function — Funkcja wiążąca Sex - Piec
Class Level Information — Informacja Log Likelihood — Log wiarygodności Source - Źródło
o poziomach klas LR Statistics For Type 3 Analysis — Standard Error — Błąd s t a n d a r d o w y
Criteria For Assessing Goodness Of Fit - Statystyka LR dla analizy typu 3 Value - Wartość
Kryteria oszacowania jakości dopaso­ Model Information - Informacja o modelu Values — Wartości
wania Observations Used — Użyte obserwacje Value/DF - Wartość/DF
Criterion — Kryterium Offset Variable - Zmienna offsetu Wald 95% Confidence Limits — 95% granice
Data Set — Zbiór danych Parameter — Parametr ufności statystyki Walda
Dependent Variable — Zmienna zależna Pearson Chi-Square — Chi-kwadrat
Deviance — Dewiancja Pearsona
Distribution - Rozkład Scalę — Skala

Dodatek C: Typowe wydruki komputerowe 1 4 3


Analiza danych okoiozębowych użytych w rozdz. 42, uzyskanych za pomocą programu Stata
Analysis of periodontal data used in Cbapter 42, generated by Stata

. regress loa smoke — . regresja loa palenie Correlation — Korelacja Group variable — Zmienna grupowa
. regress loa smoke, robust — . regresja loa Exchangeable — wymienna Group variable (i): subj — Zmienna grupowa
palenie, elastyczny Family — Rodzina (i): subj
95% Conf. Inteiral — 95% przedział ufności Fitting constant-only model — Dopasowa­ Identity — Tożsamościowa
Adj R-squared — skorygowane R2 nie modelu zawierającego wyłącznie Iteration — Iteracja
avg — średnia stałą Link — Funkcja wiążąca
Between — Między Fitting fuli model — Dopasowanie pełnego loa — utrata przyczepu
Between regression (regression on group modelu Log likelihood — log wiarygodności
means) — Regresja na średnich grupo­ Gaussian — gaussowska Likelihood-ratio test of sigma_u=0
wych GEE population averaged model — Model — Test stosunku wiarygodności
Coef. — współczynnik GEE uśrednionej populacji sigma_u=0:

144 Dodatki
Number of clusters (subj) — Liczba klaste- Regression with robust standard errors — Standard errors adjusted Tor clusterincf on
rów (subj) Regresja z elastycznymi błędami stan- subj — Skorygowane ze względu na Ma-
Number of groups — Liczba grup dardowymi steryzację błędy standardowe
Number of obs — Liczba obserwacji Residual — Reszta Std. Err. — Błąd standardowy
Obs per group — Obserwacje w grupie Robust Std. Err. — Elastyczny błąd Smoke — Palenie
Overall — Całkowity standardowy Tolerance — Tolerancja
Random-effects ML regression — Regresja Root MSE — pierwiastek MSE Total — Razem
typu ML efektów końcowych R-squared; R-sq — R2 Within — Wewnątrz
Random effects u_i ~ Gaussian — Efekty Scalę Parameter — Parametr skali
losowe u_i - gaussowskie Source — Źródło

Dodatek C: Typowe wydruki komputerowe 145


DODATEK D: SŁOWNICZEK TERMINÓW
STATYSTYCZNYCH
-2 log wiarygodność -4 statystyka ilorazu wiarygodności. Błąd I rodzaju — odrzucenie hipotezy zerowej, gdy była ona
Analiza dyskryminacyjna — metoda zbliżona do regresji lo­ prawdziwa.
gistycznej, której można użyć do identyfikacji czynników Błąd II rodzaju — nieodrzucenie hipotezy zerowej, gdy była
istotnie związanych z odpowiedzią binarną. ona fałszywa.
Analiza kowariancji — specjalna postać analizy wariancji, któ­ Błąd próbkowania — różnica pomiędzy parametrem popula­
ra porównuje wartości zmiennej zależnej między grupami cyjnym a estymatorem z próby, wynikająca z pobrania je­
osobników po dokonaniu korekcji ze względu na wpływ dynie przykładowych wartości.
jednej lub większej liczby zmiennych wyjaśniających. Błąd standardowy elastyczny — błąd oparty na zmienności
Analiza na bazie leczenia — pacjenci w eksperymencie kli­ w danych, a nie na założonym modelu regresyjnym. Bar­
nicznym sa włączani do analizy tylko wtedy, gdy ukończą dziej odporny na pogwałcenie założeń leżących u podstaw
leczenie, do którego zostali losowo przyporządkowani. modelu regresyjnego niż estymatory OLS.
Analiza przeżycia — bada czas potrzebny, by osobnik osią­ Błąd standardowy proporcji — miara dokładności proporcji
gną! badany punkt końcowy (np. śmierć), gdy pewne da­ w próbie. Jest odchyleniem standardowym rozkładu
ne są ucięte. próbkowania proporcji.
Analiza wariancji jednoczynnikowa — szczególna postać Btąd standardowy średniej (SEM - standard error of
ANOYA używana do porównywania średnich więcej niż mean) — miara precyzji średniej w próbie. Jest odchyle­
dWÓCh niezależnych grup obserwacji. niem standardowym rozkładu próbkowania średniej.
Analiza wariancji (ANOVA) — ogólny termin dotyczący ze­ Bootstrapping— proces symulacyjny używany do wyznacze­
społu analiz porównujących średnie grup wartości po­ nia przedziału ufności dla parametru. Opiera się na esty­
przez podział całkowitej wariancji zmiennej na części macji parametru na podstawie każdej z wielu prób loso­
składowe, z których każda jest przyporządkowana pew­ wych uzyskanych z próbkowania ze zwracaniem z próby
nemu czynnikowi. oryginalnej; przedział ufności otrzymuje się na podstawie
Analiza z zamiarem leczenia — wszyscy pacjenci w ekspe­ oceny zmienności rozkładu tych estymatorów.
rymencie klinicznym są analizowani w grupach, do któ­ CI —> przedział ufności.
rych zostali pierwotnie przyporządkowani. Częstość — liczba pojawiających się zdarzeń wyrażona jako
Analizy przejściowe — analizy zaplanowane w pośrednich proporcja całkowitego czasu obserwacji wszystkich pa­
etapach badania. cjentów w badaniu.
ANOVA -4 analiza wariancji. Częstość skumulowana — liczba osobników, którzy mają
ANOVA powtarzanych pomiarów — specjalna postać anali­ wartości równe lub poniżej określonej wartości zmiennej.
zy wariancji używana, gdy zmienna numeryczna jest Częstość spodziewana — częstość, której należy się spodzie­
mierzona dla każdego członka grupy osobników więcej wać przy założeniu słuszności hipotezy zerowej.
niż jeden raz (np. przy różnych okazjach). Częstość względna — częstość wyrażona jako procent lub
Badanie epidemiologiczne — badanie obserwacyjne, oszaco­ proporcja częstości całkowitej.
wujące związek między czynnikami ryzyka a chorobą. Częstość względna — stosunek dwóch częstości (zwykle czę­
Badanie eksperymentalne — badanie, w którym badacz in­ stość choroby u osób narażonych na czynnik podzielona
geruje w pewien sposób, wpływając na wynik. przez częstość choroby u nienarażonych na czynnik).
Badanie kohortowe — badanie, w którym grupa osobników, Częstość zachorowalności — liczba nowych przypadków
wszyscy bez badanego wyniku (np. choroby), są obserwo­ choroby w określonym czasie podzielona przez liczbę oso-
wani (najczęściej prospektywnie) w celu zbadania wpły­ bolat obserwacji osobników podatnych w chwili rozpoczę­
wu ekspozycji na czynnik ryzyka na wyniki uzyskiwane cia okresu.
w przyszłości. Czułość — proporcja osobników posiadających jednostkę
Badanie longitudinalne — obserwacja osobników w pew­ chorobową, którzy zostali prawidłowo zdiagnozowani
nym okresie czasu. przez test.
Badanie obserwacyjne — badanie, w którym badacz nie ro­ Czułość modelu — stopień, co do którego estymatory w mo­
bi niczego, co mogłoby wpłynąć na wynik. delu regresyjnym są zaburzane przez jednego osobnika lub
Badanie pilotażowe — pierwotne badanie o małej wielkości. większą ich liczbę, lub przez błędną specyfikację modelu.
Badanie prospektywne — badanie, w którym osobnicy są Czynnik ryzyka — wpływa na zapadalność, np. na chorobę.
obserwowani od pewnego momentu. Dane — obserwacje jednej iub większej liczby zmiennych.
Badanie przekrojowe — badanie przeprowadzane w poje­ Dane transformowane — uzyskane przez dokonanie na każdej
dynczym punkcie czasowym. obserwacji jakiejś transformacji matematycznej (np. log).
Badanie retrospektywne — badanie, w którym się wybiera Dane ucięte — pojawiają się w analizie przeżycia z powodu
osobników i bada czynniki, które pojawiły się w ich prze­ niepełnej informacji na początku (—> dane ucięte prawo-
szłości. i lewostronnie).
Blok — jednorodna grupa jednostek eksperymentalnych po­ Dane ucięte lewostronnie — pochodzą od pacjentów, u któ­
siadających podobną charakterystykę. Inaczej nazywany rych obserwacja rozpoczęta się dopiero po dacie począt­
warstwą. kowej.

146 Dodatki
Dane ucięte prawostronnie — pochodzą od pacjentów, o któ­ Eksperyment kliniczny — dowolna forma planowanego ba­
rych wiadomo, że nie osiągnęli badanego punktu końco­ dania na ludziach, pozwalającego na ocenę wpływu nowe­
wego w trakcie, gdy byli obserwowani. go leczenia na wynik kliniczny.
Decyle — wartości, które dzielą uporządkowany ciąg obser­ Eksperyment kontrolowany randomizowany (RCT — rando-
wacji na 10 równych części. mized controlled trial) — porównawczy eksperyment
Deklaracja CONSORT — ułatwia krytyczną ocenę i inter­ kliniczny, w którym pacjenci przydzielani są do leczenia
pretację eksperymentów randomizowanych kontrolowa­ losowo.
nych (RCT). Autorzy opisujący swoje badania znajdą tam Eksperyment przewagi — używany do wykazania, że dwa
wakazówki w postaci listy kontrolnej lub diagramu sposoby leczenia lub większa ich liczba różnią się klinicz­
przepływu. nie.
Dowiancja -4 statystyka stosunku wiarygodności. Eksperyment przypadek-kontrola — identyfikuje się grupę
df-A liczba stopni swobody statystyki. osobników z jednostką chorobową (przypadki) i bez niej
Diagram rozrzutu — wykres dwuwymiarowy jednej zmien­ (kontrola) oraz porównuje się w tych grupach stopień na­
nej w funkcji drugiej zmiennej, z każdą para obserwacji rażenia na czynniki ryzyka.
zaznaczoną jako punkt, Eksperyment równoległy — każdy pacjent otrzymuje tylko
Dokładność — dotyczy tego, w jakim stopniu wartość obser­ jedno leczenie.
wowana wielkości jest zgodna z jej prawdziwą wielko­ Eksperyment równoważności — stosowany do pokazania, że
ścią. dwa sposoby leczenia są równoważne klinicznie.
Dokładność — miara błędu próbkowania. Określa, w jakim Estymator — wielkość uzyskana na podstawie próby, repre­
stopniu zgadzają się ze sobą powtarzane obserwacje. zentująca parametr w populacji.
Dokładny test Fiehera — test oszacowujący dokładne praw­ Estymator przedziałowy — zakres wartości, w obrębie któ­
dopodobieństwa (tzn. nie opierający się na przybliżeniu do rego, jak podejrzewamy, leży parametr populacji.
rozkładu Chi-kwadrat) w tablicy kontyngencji (zwykle Estymator punktowy — pojedyncza wartość uzyskana z pró­
w tablicy 2 X 2 ), stosowany, gdy częstości oczekiwane są by, która oszacowuje parametr populacyjny.
małe. Fałszywie dodatni — osobnik, który nie ma określonej cho­
Dopaaowania porównań post-hoc — stosowane są do korek­ roby, ale został zdiagnozowany jako chory.
cji wartości p, gdy wykonuje się porównania wielokrotne, Fałszywie ujemny — osobnik, który ma określoną chorobę,
np. poprawka Bonferroniego. ale został zdiagnozowany jako niemający tej choroby.
Dopasowanie modelu zbyt dokładne — model zawierający Format ASCII lub pliku tekstowego — dane dostępne
zbyt wiele zmiennych, np. więcej niż jedną dziesiątą licz­ w komputerze jako wiersze tekstu.
by osobników w modelu wielokrotnej regresji liniowej. Format danych swobodny — każda zmienna w pliku kompu­
Efekt badany — wartość zmiennej odpowiedzi odzwiercie­ terowym odseparowana jest od następnej pewnym ogra­
dlająca badane porównanie, np. różnica w średnich. nicznikiem, często spacją lub przecinkiem.
Efekt leczenia — badany efekt, np. różnica między średnimi Funkcja gęstości prawdopodobieństwa — równanie określa­
łub ryzykami względnymi pozwalająca na porównanie jące rozkład prawdopodobieństwa.
efektów leczenia. Funkcja wiążąca — w uogólnionym modelu liniowym jest to
Efekt losowy — wpływ czynnika, o którego poziomach zakła­ transformacja wartości średniej zmiennej zależnej, mode­
da się, że reprezentują losową próbę z populacji. lowanej poprzez liniową kombinację współzmiennych.
Efekt przeniesienia — resztowy efekt poprzedniego leczenia GEE —> uogólnione równanie oszacowania.
w eksperymencie naprzemiennym. GLM —> uogólniony model liniowy.
Efekt stały — efekt, w którym poziomy czynnika obejmują ca­ Granice ufności — górna i dolna wartość przedziału ufności.
łą badaną populację (np. czynnik „leczenie", którego pozio­ Granice zgodności — w ocenie powtarzalności jest to zakres
mami są farmakoterapia, leczenie chirurgiczne i radiotera­ wartości, pomiędzy którymi spodziewamy się napotkać
pia). Jest przeciwieństwem efektu losowego, w którym w populacji 95% różnic pomiędzy powtarzanymi pomiarami.
poziomy są reprezentowane tylko przez próbę z populacji Grupa kontrolna — termin używany w badaniach porów­
(np. czynnik „pacjent", którego poziomy reprezentują 20 nawczych, np. eksperymentach klinicznych, do oznacze­
pacjentów w randomizowanym eksperymencie kontrolowa­ nia grupy porównawczej —> kontrola pozytywna i nega­
nym). tywna.
Efekt wprowadzenia zdrowych osobników — na skutek włą­ Hazard — chwilowe ryzyko osiągnięcia punktu końcowego
czenia do badania osobników nie mających jednostki cho­ w analizie przeżycia.
robowej interesująca odpowiedź (np. śmiertelność) jest Hazard względny (stosunek hazardu) — stosunek dwóch ha­
niższa na początku badania, niż oczekiwano by tego zardów, interpretowany w podobny sposób jak ryzyko
w ogólnej populacji. względne.
Eksperyment czynnikowy — pozwala na jednoczesną anali­ Hipoteza alternatywna — hipoteza na temat badanego efek­
zę pewnej liczby badanych czynników. tu, która nie jest zgodna z hipotezą zerową i jest słuszna,
Eksperyment braku pogorszenia — używany do wykazania, gdy hipoteza zerowa jest fałszywa.
że dane leczenie nie jest klinicznie gorsze od innego. Hipoteza zerowa — stwierdzenie przyjmujące brak efektu
Eksperyment klasterowy randomizowany — badanie, w któ­ w populacji.
rym grupy (klastery) osobników są randomizowane do Histogram — diagram ilustrujący częstości rozkładu zmien­
rozmaitych „sposobów leczenia" tak, że każdy osobnik nej ciągłej (względne) przy użyciu połączonych słupków.
w obrębie określonej grupy (klasteru) otrzymuje to samo Pole słupka jest proporcjonalne do częstości (względnej)
leczenie. w zakresie określonym przez granice słupka.

Dodatek D: Słowniczek terminów statystycznych 147


Homoscedastyczność — równość wariancji. Zwana również Kohorta kliniczna — grupa pacjentów z tym samym warun­
jednorodnością wariancji. kiem klinicznym, których wyniki obserwujemy w czasie.
I2 — indeks, który może być użyty do kwantyfikacji wpływu Komórka tablicy kontyngencji — oznaczenie poszczególne­
niejednorodności statystycznej pomiędzy badaniami go wiersza i poszczególnej kolumny w tablicy.
w metaanalizie. Kontrola — osobnik bez jednostki chorobowej podlegającej
ICC —» współczynnik korelacji wewnątrzklasowej. badaniu w eksperymencie przypadek-kontrola albo osob­
Iloraz szans — stosunek dwóch szans (np. szansy choroby nik nieotrzymujący w eksperymencie klinicznym nowego
u osobników narażonych i nienarażonych na czynnik). leczenia.
Często wykorzystywany jako estymator ryzyka względ­ Kontrole dodatnie — pacjenci w randomizowanym ekspery­
nego w badaniu przypadek-kontrola. mencie kontrolowanym (RCT), którzy otrzymują pewną
Iloraz wiarygodności (LR - likelifwod ratio) — stosunek postać leczenia aktywnego porównywanego z nowym spo­
dwóch wiarygodności; w testach diagnostycznych LR jest sobem leczenia.
stosunkiem szansy otrzymania określonego wyniku testu Kontrole historyczne — osobnicy, którzy nie zostali włącze­
u tych, którzy mają jednostkę chorobową, i u tych, którzy ni do grupy leczenia na początku badania, lecz którzy
jej nie mają. otrzymywali leczenie w przeszłości i zostali wykorzysta­
Indeks prognostyczny - określa prawdopodobieństwo, że ni jako grupa porównawcza.
osobnik ma jednostkę chorobową. Zwany również punk­ Kontrole ujemne — pacjenci w randomizowanym ekspery­
tacją ryzyka. mencie kontrolowanym (RCT), którzy nie otrzymują lecze­
Interakcja (modyfikacja wpływu) — pojawia się pomiędzy nia aktywnego.
dwoma zmiennymi wyjaśniającymi w analizie regresji, Korekcja Bonferroniego — dopasowanie posthoc wartości p
£dy wpływ jednej ze zmiennych na zmienną zależną zmie­ W celu uwzględnienia liczby testów wykonywanych
nia się zgodnie z poziomem drugiej zmiennej. W kontek­ w wielokrotnym testowaniu hipotez.
ście analizy wariancji o interakcji między dwoma czynni­ Kruskala-Wallisa test — alternatywny test nieparametrycz­
kami mówi się, gdy różnice między poziomami jednego ny w stosunku do jednoczynnikowej ANOVA; stosowany
czynnika są różne dla dwóch lub większej liczby poziomów do porównywania rozkładów więcej niż dwóch nie2ależ-
drugiego czynnika. Zwana również efektem modyfikacji. nych grup obserwacji.
Interpolowanie — oszacowanie żądanej wartości, która leży Krzywe Charakterystyki Działającego Odbiornika (ROC
pomiędzy dwoma znanymi wartościami. — receirer operating characteristic curve) — dwu­
Istotność statystyczna - wynik testu hipotezy jest istotny wymiarowy wykres czułości w funkcji jeden minus
statystycznie na określonym poziomie (np. 1%), jeżeli ma­ swoistości dla różnych wartości odcięcia zmiennej cią­
my wystarczający dowód do odrzucenia hipotezy zerowej głej w teście diagnostycznym; używany do wyboru
na tym poziomie (np. kiedy p < 0,01). optymalnej wartości odcięcia lub do porównania te­
Jackkniftng — metoda oszacowania parametrów i przedzia­ stów.
łów ufności; każdy z n osobników jest sukcesywnie usu­ Kwartyle — wartości, które dzielą uporządkowane obserwa­
wany z próby, parametr oszacowuje się na podstawie po­ cje na cztery równe części.
zostałych n - 1 osobników, a ostatecznie uśrednia się Liczba pacjentów wymaganych do leczenia (NNT - number
estymatory każdego parametru. of patients needed to treaf) — liczba pacjentów, której
Jakość dopasowania - miara określająca, w jakim stopniu potrzebujemy w eksperymentalnej grupie leczenia, a nie
wartości uzyskane z modelu zgadzają się z danymi obser­ w grupie kontrolnej, aby uniknąć uzyskania złego wyni­
wowanymi. ku przez jednego z nich.
Jednostka eksperymentalna — najmniejsza grupa osobni­ Liczba stopni swobody (df) statystyki — wielkość próby mi­
ków, których dla celów analizy traktujemy jako niezależ­ nus liczba parametrów, które należy oszacować do wy­
nych. znaczenia statystyki. Wskazuje stopień, co do którego ob­
Jednostki drugiego poziomu — osobnicy na drugim, najniż­ serwacje mogą się swobodnie zmieniać.
szym poziomie struktury hierarchicznej; każda jednost­ LRS —> statystyka ilorazu wiarygodności.
ka poziomu drugiego (np. oddział) obejmuje klaster jed­ Maskowanie —> zaślepianie.
nostek pierwszego poziomu (np. pacjentów). Mediana — miara położenia będąca wartością środkową upo­
Jednostki pierwszego poziomu — osobnicy na najniższym rządkowanych obserwacji.
poziomie struktury hierarchicznej; grupa jednostek po­ Medycyna poparta dowodami (EBM — evidence-based me-
ziomu pierwszego (np. pacjenci) składa się na klaster dicine) — stosowanie aktualnie najlepszych dowodów
osobników zagnieżdżonych w obrębie jednostek poziomu w podejmowaniu decyzji na temat opieki nad poszczegól­
drugiego (np. oddział). nymi pacjentami.
Kappa Cohena (K) — miara zgodności między dwoma zbio­ Metaanaliza — systematyczny, ilościowy przegląd łączący
rami pomiarów kategorialnych tych samych osobników. wyniki odpowiednich badań w celu wytworzenia i zbada­
Gdy K = 1, występuje idealna zgodność; gdy K = 0, zgod­ nia całościowego estymatora badanego efektu.
ność nie jest lepsza niż uzyskana przez przypadek. Metoda najmniejszych kwadratów — metoda oszacowania
Kappa ważona — udoskonalona kappa Cohena, mierząca parametrów w analizie regresji, oparta na minimalizacji
zgodność, uwzględniająca stopień, co do którego niezgod­ sumy kwadratów reszt.
ne są dwa zbiory powiązanych porządkowych kategorial­ Metody rangowe —> testy nieparametryczne.
nych pomiarów. MLE —¥ oszacowanie największej wiarygodności.
Kategorie wzajemnie się wykluczające — każdy osobnik Moc — prawdopodobieństwo odrzucenia hipotezy zerowej,
może należeć wyłącznie do jednej kategorii. gdy jest ona fałszywa.

148 Dodatki
Modalna — wartość pojedynczej zmiennej, która w zbiorze Modyfikacja wpływu —> interakcja.
danych pojawia się najczęściej. Nachylenie — gradient linii regresji, pokazujący średnią
Model — w ujęciu algebraicznym opisuje związek między zmianę zmiennej zależnej dla jednostkowej zmiany
dwoma lub większą liczbą zmiennych. zmiennej wyjaśniającej.
Model brzegowy —> uogólnione równanie oszacowania. Niejednorodność kliniczna — występuje, gdy włączone do
Model efektów losowych — model dla struktury hierar­ metaanalizy badania obejmują rozmaite populacje pacjen­
chicznej danych, takiej jak struktura dwupoziomowa tów, mają różne definicje zmiennych etc, co stwarza pro­
z jednostkami poziomu 1 zagnieżdżonymi w obrębie jed­ blemy z brakiem kompatybilności.
nostek poziomu 2, w którym efekt losowy jest źródłem Niejednorodność statystyczna — występuje w metaanalizie,
błędu przypisywanym do jednostek poziomu 2. gdy istnieje istotna zmienność między poszczególnymi es~
Model efektów stałych - zawiera wyłącznie efekty stałe. tymatorami badanego efektu.
Stosowany w metaanalizie, gdy brak jest dowodu staty­ Niejednorodność wariancji — nierówność wariancji.
stycznej niejednorodności. Nieobciążony — nieposiadający obciążenia.
Model hierarchiczny —> model wielopoziomowy. Nomogram Altmana — diagram, który wiąże ze sobą liczeb­
Model losowych nachyleń - hierarchiczny model efektów ność próby z mocą testu statystycznego, poziomem istot­
losowych, który zakłada dla struktury dwupoziomowej, ności i standaryzowaną różnicą.
źe związek liniowy pomiędzy wartością średnią zmiennej Nomogram Pagana — diagram, który wiąże ze sobą praw­
zależnej i pojedynczą wspólzmienną dla każdej jednostki dopodobieństwo przedtestowe testu diagnostycznego
drugiego poziomu ma nachylenie losowo zmieniające się z wiarygodnością i prawdopodobieństwem po wykona­
wokói nachylenia średniego i przecięcie losowo zmienia­ niu testu. Stosowany jest zwykle do zamiany tego
jące sie wokół przecięcia średniego. pierwszego prawdopodobieństwa w prawdopodobień­
Model losowych przecięć — hierarchiczny model efektów stwo a posteriori
logowych, który zakłada dla struktury dwupoziomowej, Obciążenie — systematyczna różnica między wynikami uzy­
że związek liniowy pomiędzy wartością średnią zmien­ skanymi z badania a prawdziwym stanem rzeczy.
nej zależnej i pojedynczą współzmienną dla każdej jed­ Obciążenie odwołania do pamięci - systematyczne znie­
nostki drugiego poziomu ma takie samo nachylenie dla kształcenie danych, wynikające ze sposobu, w jaki osob­
wszystkich jednostek poziomu drugiego i przecięcie lo­ nicy przypominają sobie przeszłe zdarzenia.
sowo zmieniające się wokói przecięcia średniego. Obciążenie przydziału — systematyczne zniekształcenie da­
Model mieszany — niektóre parametry w modelu mają efek­ nych, wynikające ze sposobu, w jaki osoby są przypo­
ty losowe, pozostałe mają efekty stałe. rządkowane do grup leczenia.
Model regresji Poissona — postać uogólnionego modelu li­ Obciążenie publikacyjne — tendencja do publikowania przez
niowego używana do powiązania jednej lub większej licz­ czasopisma wyłącznie prac zawierających wyniki istotne
by zmiennych wyjaśniających z logarytmem oczekiwanej statystycznie.
częstości 2darzenia (np. choroby), gdy obserwacja osobni­ Obciążenie wyboru — systematyczne zniekształcenie da­
ków ulega zmianie, lecz zakłada się, że częstość w okre­ nych, wynikające ze sposobu, w jaki osobnicy są włącza­
sie badania pozostaje stała. ni do badania.
Model regresyjny jednej zmiennej — zawiera jedną zmien­ Obserwacja — czas, przez który osobnik pozostaje w bada­
ną wynikową i jedną zmienną wyjaśniającą. niu, od chwili wejścia do chwili, gdy uzyska określony
Model regresyjny proporcjonalnych hazardów wg Coxa — wynik (np. zachoruje) lub opuści badanie, lub badanie się
używany w analizie przeżycia do badania równoczesnych zakończy.
wpływów pewnej liczby zmiennych wyjaśniających na Obserwacje powiązane — odnoszą się do odpowiedzi osobni­
przeżycie. ków dopasowanych lub tych samych osobników w dwóch
Model regresyjny wielowymiarowy — zawiera co najmniej różnych sytuacjach.
dwie zmienne wynikowe i co najmniej dwie zmienne wy­ Odchylenie standardowe (SD - standardized difference) —
jaśniające. miara rozrzutu równa pierwiastkowi kwadratowemu
Model regresyjny wielu zmiennych — dowolny model regre­ z wariancji.
syjny mający pojedynczą zmienną wynikową i co naj­ Odchylenie standaryzowane normalne (SND - Standardi­
mniej dwie zmienne wyjaśniające. zed Normal Deviate) — zmienna losowa o rozkładzie nor­
Model wielopoziomowy — używany do analizy danych hie­ malnym ze średnią zero i jednostkową wariancją.
rarchicznych. Jednostki poziomu pierwszego (np. pacjen­ Odporność — test jest odporny na pogwałcenie jego założeń,
ci) są zagnieżdżone w obrębie jednostek drugiego pozio­ gdy wartość p i moc nie są w sposób znaczny zaburzone
mu (np. oddziały), które mogą być zagnieżdżone wewnątrz przez te pogwałcenia.
jednostek poziomu trzeciego (np. szpitale), itd. Zwany Odstępstwa od protokołu — pacjenci wprowadzeni do ekspe­
również modelem hierarchicznym. rymentu klinicznego, niespełniający kryteriów protokołu.
Model wymienny — zakłada, że procedura oszacowania nie Odtwarzalność — stopień, w którym można uzyskać te same
zostanie zaburzona, jeżeli w obrębie klastera zostaną wy­ wyniki w różnych okolicznościach, np. przy użyciu dwóch
mienione dwie obserwacje. metod pomiaru lub przez dwóch obserwatorów.
Model wysycony — model, w którym liczba zmiennych jest Okres wymywania — przedział czasu pomiędzy końcem jed­
większa od liczby osobników lub jej równa. nego leczenia i początkiem drugiego leczenia w ekspery­
Modele zagnieżdżone — dwa modele regresyjne, z których mencie naprzemiennym. Pozwala na rozproszenie efek­
większy włącza współzmienne modelu mniejszego i do­ tów resztowych pierwszego leczenia.
datkowe wspótzmienne. Operat losowania — lista wszystkich osobników w populacji.

Dodatek D: Słowniczek terminów statystycznych 149


Osobolata obserwacji — suma liczby lat, w których w bada­ Prawdopodobieństwo przed testem — prawdopodobieństwo
niu był obserwowany każdy osobnik. a priori, że osobnik ma jednostkę chorobową, oszacowa­
Oszacowanie największej wiarygodności (MLE — maxi- ne, zanim dostępny jest wynik testu diagnostycznego.
mum likelihood estimatioris — iteracyjny proces oszaco­ Prawdopodobieństwo subiektywne — stopień osobistego
wania parametru maksymalizujący wiarygodność. przekonania o zajściu zdarzenia.
Parametr — miara podsumowująca (np. średnia, proporcja), Prawdopodobieństwo warunkowe — prawdopodobieństwo
która charakteryzuje rozkład prawdopodobieństwa. Jego zdarzenia pojawiającego się, jeżeli pojawiło się inne zda­
wartość odnosi się do populacji. rzenie.
Percentyle — wartości, które dzielą uporządkowane obser­ Projekt naprzemienny — każdy osobnik otrzymuje więcej
wacje na 100 równych części, niż jeden sposób leczenia podlegającego badaniu, jeden
Placebo — leczenie obojętne, zewnętrznie identyczne z lecze­ po drugim, w porządku losowym.
niem aktywnym, porównywane z leczeniem aktywnym Projekt całkowicie zrandomizowany — jednostki ekspery­
w ujemnie kontrolowanym eksperymencie w celu określe­ mentalne są przyporządkowane losowo do grup leczenia.
nia efektu terapeutycznego leczenia aktywnego poprzez Proporcja — stosunek liczby badanych zdarzeń do całkowi­
wyłączenie z niego efektu samego otrzymywania leku; uży­ tej liczby zdarzeń w próbie lub w populacji.
wane również przy wprowadzaniu procedury zaślepiania. Prosta regresja liniowa — prostoliniowy związek między
Podejście Bayesowekie do wnioskowania — w celu oceny pojedynczą zmienną zależną i pojedynczą zmienną wyja­
przekonania a posteriori na temat hipotezy używa się nie śniającą.
tylko bieżącej informacji (np. z eksperymentu), lecz rów­ Prosta regresji liniowej — linia prosta, która określa wyra­
nież uprzedniego przekonania osobnika (często subiek­ żenie algebraiczne wiążące dwie zmienne.
tywnego) na temat sprawdzanej hipotezy. Protokół — pełny, pisemny opis wszystkich aspektów ekspe­
Podejście do analizy przeżycia odwołujące się do tablic rymentu klinicznego.
trwania życia — sposób wyznaczenia prawdopodobieństw Próba — podzbiór populacji.
przeżycia, gdy czas potrzebny do osiągnięcia punktu koń­ Próba dogodna — grupa osobników, co do której przyjmuje­
cowego jest znany wyłącznie w obrębie określonego inter­ my, że jest reprezentatywna w populacji, z której aostala
wału. pobrana. Nie została ona wybrana losowo, ale ze względu
Pomiary powtarzane — badana zmienna jest mierzona dla na łatwy dostęp do niej.
tego samego osobnika w wielu okolicznościach (np. przy Próba ucząca — pierwsza próba, używana do wytworzenia
różnych okazjach). modelu (np. w regresji łub analizie dyskryminacyjnej).
Poprawka ze względu na ciągłość - poprawka stosowana Wyniki są poświadczane przez drugą próbę (walidacyjną).
w statystykach testowych w celu korekcji dopasowania Próba walidacyjną — druga próba, używana do poświadcze­
rozkładu dyskretnego rozkładem ciągłym. nia wyników uzyskanych z próby uczącej.
Populacja — cala grupa osobników, którymi jesteśmy zainte- Próbkowania losowe — każda możliwa próba o określonej
reaowani. wielkości, mająca jednakowe prawdopodobieństwo wy­
Powiązanie — proces wyboru osobników podobnych do sie­ brania z populacji.
bie ze względu na zmienne, które mogą wpływać na ba­ Próbkowanie kwotowe — próbkowanie o charakterze nielo-
daną odpowiedź. sowym, w którym badacz wybiera próbę osobników speł­
Powtarzalność — stopień, w którym pomiary powtarzane niających określone „normy".
przez tego samego obserwatora w identycznych warun­ Próbkowanie systematyczne — próba zostaje wybrana z po­
kach pomiaru zgadzają się ze sobą. pulacji przy zastosowaniu jakiejś systematycznej metody,
Poziom — określona kategoria zmiennej jakościowej lub a nie metody opartej na przypadku.
czynnika. Próby niezależne — żadna jednostka w żadnej próbie nie
Poziom istotności — prawdopodobieństwo wybrane na po­ jest powiązana z jednostkami w innych próbach.
czątku badania, które pozwala na odrzucenie hipotezy ze­ Przecięcie — wartość zmiennej zależnej w równaniu regre­
rowej, gdy wartość p jest od niego mniejsza. Zazwyczaj sji, odpowiadająca wartości (wartościom) zmiennej zależ­
wybiera się poziom 0,05. nej (zmiennych zależnych) równej zero.
Prawdopodobieństwo — miara szansy zajścia zdarzenia. Przeciętna — ogólne określenie dla miary położenia.
Zmienia się od 0 do 1. —> prawdopodobieństwo warunko­ Przedział odniesienia (zakres normalny) — zakres wartości
we, a priori i a posteriori (zwykle centralnych 95%) zmiennej, które są zazwyczaj
Prawdopodobieństwo częstościowe — proporcja liczby przy­ obserwowane u zdrowych osobników. Zwany również za­
padków zajścia zdarzenia, jeżeli eksperyment powtarza­ kresem normalnym lub zakresem odniesienia.
ny byt wielokrotnie. Przedział ufności (CI — confidence interval) dla parame­
Prawdopodobieństwo a posteriori — późniejsze prawdopo­ tru — zakres wartości, w obrębie którego jesteśmy pew­
dobieństwo, stopień wiary osobnika, że zdarzenie się po­ ni na 95% (zazwyczaj), że leży w nim prawdziwa wartość
jawi, oparty na wierze uprzedniej i nowych faktach (np. populacyjna parametru. Ściślej mówiąc, przy powta­
wynikach testu). rzanym próbkowaniu, leży w nim 95% estymatorów para­
Prawdopodobieństwo a priori — stopień wiary osobnika, że metru.
zdarzenie się pojawi, oparty na spostrzeżeniach subiek­ Przegląd —> metaanaliza.
tywnych i/lub obserwacjach retrospektywnych. Przegląd systematyczny — sformalizowane i przekonujące
Prawdopodobieństwo po teście — prawdopodobieństwo a po­ łączenie wyników ze wszystkich odpowiednich prac uzy­
steriori, że osobnik ma jednostkę chorobową, wyznaczone skanych z podobnych badań na temat tego samego stanu
na podstawie informacji o wyniku testu diagnostycznego. zdrowotnego.

150 Dodatki
Przełożenie — miara stopnia, w jakim wartość zmiennej wy­ Replikacja — osobnik ma więcej niż jeden pomiar zmiennej
jaśniającej dla danego osobnika różni się od średniej przy danej okazji.
zmiennej wyjaśniającej w analizie regresji. Reszta — w analizie regresji różnica między wartościami ob­
Przesiew — proces mający na celu sprawdzenie, którzy serwowaną i dopasowaną dla zmiennej zależnej.
osobnicy w pozornie zdrowej populacji mają najprawdo­ 2
Rozkład Chi-kwadrat (%) — rozkład ciągły prawoskośny,
podobniej (lub czasami, którzy nie mają) badaną jednost­ określony przez liczbę stopni swobody, użyteczny w ana­
kę chorobową. lizie danych kategorialnych.
Przydział systematyczny — w eksperymencie klinicznym pa­ Rozkład częstości — pokazuje częstość pojawiania się każ­
cjenci są przydzielani do leczenia w systematyczny, nie dej możliwej obserwacji lub kategorii.
zaś losowy sposób. Rozkład dwumianowy — dyskretny rozkład prawdopodo­
Przypadek - osobnik mający jednostkę chorobową, podlega­ bieństwa binarnej zmiennej losowej, użyteczny pr2y
jący badaniu w eksperymencie przypadek-kontrola. wnioskowaniu na temat proporcji.
Przypadki rozpowszechnienia — pacjenci, którzy mają jed­ Rozkład dwumodalny — dane, których rozkład ma dwa „piki".
nostkę chorobową w określonej chwili lub w określonym Zwany również rozkładem bimodalnym.
przedziale czasu, lecz którzy uprzednio zostali zdiagnozo- Rozkład empiryczny — obserwowany rozkład zmiennej.
wani. Rozkład F — prawoskośny rozkład ciągły, określony prze2
Przypadki zapadalności — pacjenci, którzy właśnie zostali liczbę stopni swobody licznika i mianownika stosunku,
zdiagnozowani. który go definiuje; użyteczny w porównywaniu dwóch
Punkt końcowy pierwszorzędny — wynik, który w ekspery­ wariancji i więcej niż dwóch średnich w analizie wa­
mencie klinicznym najlepiej odzwierciedla zyski płynące riancji.
z nowego typu leczenia. Rozkład Gaussa —> rozkład normalny.
Punkt procentowy - percentyl rozkładu. Wskazuje propor­ Rozkład jednomodalny — ma pojedynczy „pik".
cję rozkładu, która leży na prawo (tj. ogon po prawej stro­ Rozkład lognormalny — prawoskośny rozkład prawdopodo­
nie), na lewo (tj. ogon po lewej stronie) lub oba ogony: pra­ bieństwa, którego logarytm podlega rozkładowi normal­
wo- i lowostronny. nemu.
Punkt wpływający — wartość, która jeżeli zostanie usunię­ Rozkład normalny standaryzowany — szczególny rozkład
ta z analizy regresji, doprowadzi do zmiany jednego lub normalny, ze średnią równą zero i wariancją równą je­
kilku estymatorów parametru. den.
Punktacja ryzyka —> indeks prognostyczny. Rozkład normalny (Gaussa) — ciągły rozkład prawdopodo­
Punkty końcowe drugorzędne — wyniki w eksperymentach bieństwa o kształcie dzwonu, symetryczny; jego parame­
klinicznych, które nie mają zasadniczej wagi. trami są średnia i wariancja.
R2 — proporcja zmienności całkowitej zmiennej zależnej Rozkład Poissona — dyskretny rozkład prawdopodobieństwa
w analizie prostej lub wielokrotnej regresji wytłumaczo­ zmiennej losowej, reprezentującej liczbę zdarzeń poja­
na przez model. Jest subiektywną miarą jakości dopaso­ wiających się losowo i niezależnie z ustaloną przeciętną
wania. częstością.
Randomizacja — pacjenci zostają przydzieleni do grupy le­ Rozkład prawdopodobieństwa — rozkład teoretyczny opisa­
czenia w sposób losowy (oparty na przypadkowości). ny modelem matematycznym. Pokazuje prawdopodobień­
Może podlegać stratyfikacji (kontroli wpływu ważnych stwa wszystkich możliwych wartości zmiennej losowej.
efektów) lub klasterowaniu (zapewniającemu w przybli­ Rozkład prawdopodobieństwa ciągły — zmienna losowa
żeniu równe wielkości grupy leczenia). określająca rozkład jako ciągły.
Randomizacja klasterowa — losowe przyporządkowanie do Rozkład prawdopodobieństwa dyskretny — zmienna losowa
leczenia grup osobników, a nie poszczególnych osobni­ definiująca rozkład przyjmujący wartości dyskretne.
ków. Rozkład próbkowania proporcji — rozkład proporcji z próby
RCT —» eksperyment kontrolowany randomizowany. uzyskany po wzięciu z populacji powtarzanych prób
Regresja do średniej — zjawisko, w którym podzbiór warto­ o ustalonej wielkości.
ści ekstremalnych powoduje pojawienie się wyników, któ­ Rozkład próbkowania średniej — rozkład średnich z próby
re przeciętnie są mniej ekstremalne, np. wysocy ojcowie uzyskany po wzięciu z populacji powtarzanych prób
mają niższych (lecz nadal wysokich) synów. o ustalonej wielkości.
Regresja logistyczna — rodzaj uogólnionego modelu liniowe­ Rozkład równomierny — nie ma „pików", ponieważ każda
go, używanego do powiązania jednej lub większej liczby wartość jest równie prawdopodobna.
zmiennych wyjaśniających z logitem oczekiwanej propor­ Rozkład skośny — rozkład danych jest asymetryczny, ma
cji osobników z określonym wynikiem, gdy odpowiedź długi ogon z prawej strony z kilkoma dużymi wartościa­
jest binarna. mi (skośny dodatnio) lub długi ogon z lewej strony z kilko­
Regresja logistyczna porządkowa — postać regresji logi­ ma niskimi wartościami (skośny ujemnie).
stycznej używana, gdy zwykła zmienna wynikowa ma Rozkład symetryczny — dane centrowane wokół jakiegoś
więcej niż dwie kategorie. punktu środkowego. Kształt rozkładu po lewej stronie
Regresja logistyczna warunkowa — postać regresji logistycz­ punktu środkowego jest lustrzanym odbiciem kształtu po
nej stosowana, gdy osobnicy w badaniu są sparowani. stronie prawej.
Regresja wielomianowa — nieliniowa (np. kwadratowa, sze­ Rozkład t (t-Studenta) — rozkład ciągły, którego kształt jest
ścienna, czwartego stopnia) zależność pomiędzy zmienną podobny do rozkładu normalnego, określony przez liczbę
zależną a jedną lub większą liczbą zmiennych wyjaśnia­ stopni swobody. Jest szczególnie użyteczny przy wnio­
jących. skowaniu na temat średniej.

Dodatek D: Słowniczek terminów statystycznych 151


Rozkład t- Studenta —> rozkład t. tość jest porównywana ze znanym rozkładem prawdopo­
Rozpowszechnienie — liczba (proporcja) osobników z jed­ dobieństwa w celu uzyskania wartości p.
nostką chorobową w danej chwili (rozpowszechnienie Statystyka testu Walda — używana do testowania istotności
punktowe) lub w obrębie określonego przedziału czasu parametru w modelu regresyjnym; podlega standaryzo­
(rozpowszechnienie okresowe). wanemu rozkładowi normalnemu.
Rozpowszechnienie punktowe — liczba osobników z jednost­ Stosunek częstości zachorowalności — częstość względna
ką chorobową (lub procent podatnych na chorobę) w okre­ zdefiniowana jako stosunek dwóch częstości zachoro­
ślonej chwili. walności.
Rozrzut zaniżony — pojawia się, gdy wariancja resztowa jest Stosunek hazardu —> hazard względny.
mniejsza niż przewidywana przez określony model regre- Suma brzegowa w tablicy kontyngencji — suma częstości
syjny (np. dwumianowy lub Poissona). w danym wierszu tablicy (lub w kolumnie).
Rozrzut zawyżony — pojawia się, gdy wariancja resztowa Swoistość — proporcja osobników niemających jednostki
jest większa niż przewidywana przez określony model chorobowej, prawidłowo zidentyfikowanych przez test
regresyjny (np. dwumianowy lub Poissona). diagnostyczny.
Rozstęp — różnica między największą i najmniejszą obser­ Szansa — stosunek prawdopodobieństw dwóch dopełniają­
wacją. cych się zdarzeń, zazwyczaj prawdopodobieństwa po­
Rozstęp międzydecylowy — różnica między 10. a 90. per- siadania choroby i prawdopodobieństwa jej nieposiada­
centylem; zawiera 80% centralnych uporządkowanych ob­ nia.
serwacji. Ślepa podwójnie -> zaślepianie.
Rozstęp międzykwartylowy — różnica między 25. a 75. per- Średnia —> średnia arytmetyczna.
centylem; zawiera 50% centralnych uporządkowanych ob­ Średnia arytmetyczna — miara położenia uzyskana przez
serwacji. podzielenie sumy wartości przez liczbę wartości.
Różnica standaryzowana — iloraz używany w nomogramie Średnia geometryczna — miara położenia dla danych, któ­
Altmana i wzorach Lehra, wyrażający klinicznie ważną rych rozkład jest prawoskośny. Jest antylogarytmem
różnicę w leczeniu jako wielokrotność odchylenia stan­ średniej arytmetycznej logarytmów danych.
dardowego. Średnia ważona — modyfikacja średniej arytmetycznej uzy­
RR —5> ryzyko względne. skana przez dołączenie wag do każdej wartości 2miennej
Ryzyko choroby — prawdopodobieństwo zachorowania w zbiorze danych.
w określonym czasie. Obliczane jako liczba nowych przy­ Tablica 2x2 — tablica kontyngencji częstości z dwoma wier­
padków choroby w tym okresie, podzielona przez liczbę szami i dwoma kolumnami.
osobników bez tej choroby na początku okresu. Tablica kontyngencji — dwuwymiarowa tablica, której ele­
Ryzyko względne (RR) — stosunek dwóch wartości ryzyka, mentami są częstości.
zwykle ryzyka choroby w grupie osobników narażonych Test Bartletta — używany do porównywania wariancji.
na pewien czynnik, podzielonego przez ryzyko u osobni­ Test Chi-kwadrat — używany dla danych częstości; testuje
ków nienarażonych. hipotezę zerową o braku powiązania między czynnikami
Rzetelność — ogólne pojęcie obejmujące powtarzalność, od­ definiującymi tablice kontyngencji. Używany również do
twarzalność i zgodność. sprawdzania różnic w proporcjach.
SD —» odchylenie standardowe. Test Chi-kwadrat modelu — zazwyczaj odnosi się do testo­
Selekcja krokowa —> wybór modelu automatyczny. wania hipotezy zerowej w analizie regresji, że wszystkie
Selekcja postępująca —> wybór modelu automatyczny. parametry związane ze współzmiennymi są równe zero;
Selekcja wsteczna -> wybór modelu automatyczny. jest oparty na statystyce różnicy dwóch ilorazów wiary­
SEM —» błąd standardowy średniej. godności.
Skurczenie — proces stosowany przy estymacji parametrów Test diagnostyczny — stosowany we wspomaganiu lub sta­
w modelu efektów losowych, mający na celu przeniesie­ wianiu diagnozy określonego stanu.
nie estymatora badanego efektu dla każdego klasteru bli­ Test dwustronny — w hipotezie alternatywnej nie zostaje
żej średniego efektu dla wszystkich klasterów. określony kierunek badanego efektu.
SND —> odchylenie standaryzowane normalne. Test F —> test F stosunku wariancji.
Statystyka — estymator parametru populacyjnego w próbie. Test F stosunku wariancji (test F) — używany do porówny­
Statystyka — obejmuje metody zbierania, podsumowywania, wania dwóch wariancji przez porównanie ich stosunku
analizy i wyciągania wniosków z danych. z rozkładem F.
Statystyka C — mierzy pole pod krzywą ROC i może być uży­ Test hipotezy (test istotności) — proces, w którym używa
ta do porównania testów diagnostycznych dla tego samego się próby do oszacowania tego, jak silny jest dowód bra­
stanu. ku słuszności hipotezy zerowej w populacji.
Statystyka ilorazu wiarygodności (LRS) — równa jest wy­ Test ilorazu wiarygodności — porównywanie dopasowania
rażeniu -2 razy stosunek log wiarygodności modelu wy- dwóch modeli regresyjnych lub testowania istotności jed­
syconego do log wiarygodności modelu badanego. Jest nego lub zespołu parametrów w modelu regresyjnym za
używana do oszacowania adekwatności dopasowania pomocą statystyki ilorazu wiarygodności.
i może być nazywana dewiancją lub częściej -2 log wia­ Test istotności —> test hipotezy.
rygodności. Różnica w LRS w dwóch modelach zagnież­ Test jednostronny — hipoteza alternatywna specyfikuje kie­
dżonych może służyć do porównywania modeli. runek badanego efektu.
Statystyka testu — wielkość uzyskana z danych z próby, Test Kolmogorowa-Smirnowa — określa, czy dane mają roz­
używana do testowania hipotezy statystycznej. Jej war­ kład normalny.

152 Dodatki
Test Levene'a — testuje hipotezę zerową, że co najmniej Uwikłanie — gdy co najmniej jedna zmienna wyjaśniająca
dwie wariancje są równe. wiąże się zarówno ze zmienną wyjściową, jak i z innymi
Test Log-rank — nieparametryczne podejście do porównywa­ zmiennymi wyjaśniającymi, tak że trudno jest oszacować
nia dwóch krzywych przeżycia. niezależny wpływ każdej pojedynczej zmiennej wyjaśnia­
Test McNemary — porównuje proporcje w dwóch powiązanych jącej na zmienną wyjściową.
grupach przy użyciu statystyki testowej Chi-kwadrat. Wariancja — miara rozproszenia równa kwadratowi odchy­
Test parametryczny — test hipotezy, w którym przyjmuje lenia standardowego.
się pewne założenia na temat rozkładu danych. Wariancja niewyjaśniona —> zmienność resztowa.
Test Shapiro-Wilka — określa, czy dane mają rozkład nor­ Warstwa — podgrupa osobników; zwykle osobnicy w war­
malny. stwie mają zbliżoną charakterystykę. Zwana czasami blo­
Test t dla dwóch prób —> test f dla zmiennych niepowiąza­ kiem.
nych. Wartości dopasowane — prognozowane wartości zmiennej
Test t dla jednej próby — bada, czy średnia zmiennej różni odpowiedzi w analizie regresji odpowiadające szczególnej
się od jakiejś wartości hipotetycznej. wartości (wartościom) zmiennej wyjaśniającej (zmien­
Test f dla zmiennych niepowiązanych (test f dla dwóch nych wyjaśniających).
prób) — testuje hipotezę zerową, że dwie średnie z grup Wartości predykcyjne ujemne — proporcja osobników
niezależnych są równe. z ujemnymi wynikami testu, którzy nie mają jednostki
Test t dla zmiennych powiązanych — testuje hipotezę zero­ chorobowej.
wą, że średnia zbioru różnic wartości powiązanych jest Wartość odskakująca — obserwacja wyróżniająca się wśród
równa zero. większości danych i niezgodna z pozostałymi danymi.
Test U Manna-Whitneya —> test sumy rang Wilcoxona. Wartość p — prawdopodobieństwo uzyskania pewnych wy­
Test Wilcoxona rangowanych znaków — test nieparame­ ników lub nieco silniejszych, gdy prawdziwa jest hipote­
tryczny porównujący powiązane wartości. za zerowa.
Test sumy rang Wilcoxona (dwie próby) — test nieparame­ Wartość predykcyjna dodatnia — proporcja osobników z do­
tryczny porównujący rozkłady dwóch niezależnych grup datnim wynikiem testu, którzy mają jednostkę chorobową.
wartości. Równoważny testowi U Manna- Whitneya. Wartość wyrównująca (offset) — zmienna wyjaśniająca,
Test złotego standardu — pozwala ustalić ostateczną diagno­ której współczynnik regresji jest ustalony w uogólnionym
zę co do określonego stanu. modelu liniowym jako jedność; jest logarytmem całkowi­
Test znaków — test nieparametryczny, który bada, czy róż­ tej liczby osobolat (miesięcy/dni, etc.) obserwacji w mo­
nice mają tendencję do posiadania dodatniego, czy ujem­ delu Poissona, gdy zmienna zależna jest zdefiniowana nie
nego znaku; czy obserwacje mają tendencję do posiada­ jako częstość, lecz jako liczba pojawiających się zdarzeń.
nia wyższych (lub niższych) wartości niż mediana; czy Ważność — zbliżenie do prawdy.
proporcja wartości z daną cechą jest większa (lub mniej­ Wiarygodność — prawdopodobieństwo danych w znanym
sza) niż 0,5. modelu. W kontekście testów diagnostycznych opisuje
Testy nieparametryczne (testy niezależne od rozkładu) — prawdopodobieństwo obserwowanych wyników testu,
testy hipotez niewykorzystujące założeń na temat rozkła­ gdy jednostka chorobowa jest obecna (lub nie występuje).
du danych. Zwane czasami testami wolnymi od rozkładu Wielokrotna regresja liniowa — liniowy model regresyjny,
lub metodami rangowymi. w którym istnieje pojedyncza zmienna numeryczna zależ­
Testy niezależne od rozkładu —> testy nieparametryczne. na i dwie lub większa liczba zmiennych wyjaśniających.
Transformacja logitowa (logistyczna) — transformacja sto­ Wielomianowa regresja logistyczna — postać regresji logi­
sowana do proporcji lub prawdopodobieństwa p taka, że stycznej używana, gdy nominalna zmienna wynikowa ma
logit(p) = ln{p/(l - p)] = In (szansy). więcej niż dwie kategorie. Zwana również polichotomicz-
Trend — wartości zmiennej wykazują tendencję do wzrostu ną regresją logistyczną.
lub spadku z upływem czasu. Wnioskowanie — proces wyciągania wniosków o populacji
Twierdzenie Bayesa — prawdopodobieństwo a posteriori na podstawie danych z próby.
zdarzenia/hipotezy jest proporcjonalne do iloczynu jego Współczynnik korelacji Pearsona —> współczynnik korela­
prawdopodobieństwa a priori i wiarygodności. cji.
Uogólnione równanie oszacowania (GEE — generalized es- Współczynnik korelacji (Pearsona) — miara ilościowa, zmie­
timating equation) — używane w dwupoziomowej struk­ niająca się od -1 do +1, określająca, do jakiego stopnia
turze hierarchicznej do oszacowania parametrów i ich punkty na diagramie rozrzutu dostosowują się do linii
błędów standardowych, biorące pod uwagę klasteryzację prostej. —> współczynnik korelacji rangowej Spearmana.
danych bez odnoszenia się do parametrycznego modelu Współczynnik korelacji rangowej —> współczynnik korela­
dla efektów losowych; czasami określane jako uśrednia­ cji rangowej Spearmana.
nie populacyjne lub brzegowe. Współczynnik korelacji rangowej Spearmana — nieparame­
Uogólniony model liniowy (GLM — generalized linear mo­ tryczna alternatywa współczynnika korelacji Pearsona;
del) — model regresyjny w ogólnej postaci, wyrażony daje miarę związku między dwoma zmiennymi.
przez funkcję wiążącą, która wiąże ze sobą średnią war­ Współczynnik korelacji wewnątrzklasowej (ICC — intra-
tość zmiennej zależnej (której rozkład znamy, np. normal­ class correlation coefficient) — w strukturze dwupo­
ny, dwumianowy lub Poissona) z liniową funkcją współ- ziomowej wyraża zmienność między klasterami jako pro­
zmiennych. porcję całkowitej zmienności; reprezentuje korelacje
Uśredniany model populacyjny —¥ uogólnione równanie pomiędzy dwoma losowo wybranymi jednostkami pozio­
oszacowania. mu 1 w jednym losowo wybranym klasterze.

Dodatek D: Słowniczek terminów statystycznych 153


Współczynnik powtarzalności Brytyjskiego Instytutu Zachorowalność —> zapadalność.
Standaryzacji — maksymalna różnica, która ma szan­ Zakres normalny —» przedział odniesienia.
sę pojawić się pomiędzy dwoma powtarzanymi pomia­ Zależność liniowa — narzuca związek prostoliniowy między
rami. dwoma zmiennymi.
Współczynnik regresji logistycznej — współczynnik regre­ Zapadalność (zachorowalność) — liczba nowych przypadków
sji cząstkowej w równaniu regresji logistycznej. choroby w określonym okresie podzielona przez liczbę po­
Współczynnik śmiertelności — częstość zgonów. datnych osobników w chwili rozpoczęcia lub w punkcie
Współczynnik zmienności — odchylenie standardowe po­ środkowym okresu.
dzielone przez średnią (często wyrażany w procentach). Zaślepienie (iriaskowanie) — sytuacja, kiedy pacjent, klini­
Współczynniki regresji — parametry (np. nachylenie i prze­ cysta i osoba oceniająca wynik badania w eksperymencie
cięcie w prostej regresji) opisujące równanie regresji. klinicznym nie są świadomi przydziału do badania (po­
Współczynniki regresji cząstkowej — parametry, inne niż dwójne zaślepienie), lub kiedy pacjent jest świadomy
parametr przecięcia, opisujące model regresji wielu otrzymywanego leczenia, lecz osoba oceniająca wyniki
zmiennych. nie jest tego świadoma.
Wspulliniowość — pary zmiennych wyjaśniających w anali­ Zaślepienie pojedyncze —> zaślepienie.
zie regresji, które są bardzo silnie skorelowane, tj. któ­ Zmienna — dowolna zmieniająca się wielkość.
rych współczynniki korelacji są bardzo bliskie ±1. Zmienna binarna (dychotomiczna) — zmienna kategorialna
Współpraca Cochrane — międzynarodowa sieć klinicystów, z dwoma kategoriami.
metodologów i użytkowników, którzy w sposób ciągły Zmienna ciągła — zmienna numeryczna nieposiadająca dla
uaktualniają przeglądy systematyczne i udostępniają je wartości innych ograniczeń niż narzucone stopniem do­
innym, kładności techniki pomiarowej.
Współzmienna —t zmienna wyjaśniająca. Zmienna dychotomiczna —^ zmienna binarna.
Wybór modelu automatyczny — metoda wyboru zmiennych, Zmienna dyskretna — zmienna numeryczna przybierająca
które mają zoetać włączone do modelu matematycznego, wyłącznie wartości dyskretne.
np. postępująca, wsteczna, krokowa, wybór wszystkich Zmienna ilościowa —> zmienna numeryczna.
podzbiorów. Zmienna jakościowa —> zmienna kategorialna.
Wybór wszystkich podzbiorów —> wybór modelu automa­ Zmienna kategorialna (jakościowa) — każdy osobnik należy
tyczny. do jednej z pewnej liczby rozdzielnych kategorii zmien­
Wykres leśny — diagram używany w metaanalizie, pokazu­ nej.
jący oszacowywane efekty w każdym badaniu lub ich Zmienna losowa — wielkość, która może przybierać każdą
średnie (wraz z przedziałami ufności). ze zbioru wzajemnie wykluczających się wartości z okre­
Wykres „łodyga z liśćmi" — połączenie diagramu i tablicy ślonym prawdopodobieństwem.
używane do ilustracji rozkładu danych. Podobny jest do Zmienna niezależna —> zmienna wyjaśniająca.
histogramu i pokazuje dane w kierunku wzrostu ich Zmienna nominalna — zmienna kategorialna, której katego
wielkości. rie nie mają naturalnego uporządkowania.
Wykres Kaplana-Meiera — krzywa przeżycia, na której wy­ Zmienna numeryczna (ilościowa) — zmienna przyjmująca
kreśla się prawdopodobieństwo przeżycia w funkcji cza­ wartości dyskretne lub ciągłe.
su od chwili początkowej. Używany jest, gdy znane są do­ Zmienna odpowiedzi —» zmienna zależna.
kładne czasy osiągnięcia punktu końcowego. Zmienna porządkowa — zmienna kategorialna, której kate­
Wykres kołowy — diagram pokazujący rozkład częstości gorie są w jakiś sposób uporządkowane.
zmiennej kategorialnej lub dyskretnej. Koło podzielone Zmienna predykcyjna —> zmienna niezależna.
jest na podobszary po jednym dla każdej „kategorii"; po­ Zmienna tymczasowa — zmienna leżąca na drodze przyczy­
le każdego podobszaru jest proporcjonalne do częstości nowej między zmienną wyjaśniającą a badanym wyni­
występowania tej kategorii. kiem.
Wykres normalności — diagram służący do wizualnego Zmienna wyjaśniająca (współzmienna, niezależna, pre­
oszacowania normalności rozkładu danych; linia prosta dykcyjna) — zmienna (zazwyczaj oznaczana jako x) uży­
na tym wykresie wskazuje na normalność. wana do prognozowania zmiennej zależnej w analizie re­
Wykres punktowy — diagram, na którym każda wartość gresji.
zmiennej jest reprezentowana przez punkt na osi pozio­ Zmienna wynikowa główna — zmienna odnosząca się do
mej (lub pionowej). głównego celu badania.
Wykres skrzynkowy — diagram ilustrujący rozkład zmien­ Zmienna zależna (odpowiedzi) — zmienna (zwykle oznacza­
nej; wskazuje medianę, górny i dolny kwartyl, często tak­ na przez y), która jest prognozowana przez zmienne wy­
że wartości maksimum i minimum. jaśniające w analizie regresji. Zwana jest również zmien­
Wykres słupkowy lub kolumnowy — wykres ilustrujący ną wynikową.
rozkład zmiennej kategorialnej albo dyskretnej, ukazują­ Zmienna zależna od czasu — zmienna wyjaśniająca w ana­
cy osobne poziome lub pionowe słupki dla każdej „kate­ lizie regresji (np. regresji Poissona lub analizie przeżycia
gorii", o długościach proporcjonalnych do (względnej) Coxa), która przybiera różne wartości dla danego osobni­
częstości występowania tej „kategorii". ka w różnych chwilach czasu podczas badania.
Wzory Lehra — mogą być stosowane do obliczania optymal­ Zmienne ślepe (zmienne wskaźnikowe indeksujące) — k - 1
nych wielkości prób, wymaganych dla niektórych testów zmiennych binarnych tworzonych w analizie regresji ze
hipotez, gdy moc określona jest jako 80% lub 90%, a po­ zmiennych kategorialnych nominalnych lub porządkowych
ziom istotności jako 0,05. z liczbą kategorii k > 2, pozwalających na porównanie

154 Dodatki
każdej z k - 1 kategorii z kategorią odniesienia. Zwane są nie) lub mniejsza (zaniżone rozproszenie) niż oczekiwana
również zmiennymi wskaźnikowymi indeksującymi. na podstawie modelu Poissona.
Zmienne wskaźnikowe indeksujące —> zmienne ślepe. Zmienność losowa — zmienność, która nie może być przypo­
Zmienność błędu —> zmienność resztowa. rządkowana do żadnych wyjaśnionych źródeł.
Zmienność ekstradwumianowa — pojawia się, gdy warian­ Zmienność resztowa (wariancja niewyjaśniona, zmienność
cja resztowa jest większa (podwyższone rozproszenie) lub błędu) — wariancja zmiennej, która pozostaje po usunię­
mniejsza (zaniżone rozproszenie) niż oczekiwana na pod­ ciu zmienności przyporządkowanej badanym czynnikom.
stawie modelu dwumianowego. Jest to zmienność niewyjaśniona przez model, a w tabli­
Zmienność ekstra-Poissonowska — pojawia się, gdy wa­ cy ANOVA jest kwadratem średniej reszt.
riancja resztowa jest większa (podwyższone rozprosze­

Dodatek D: Słowniczek terminów statystycznych 155


SKOROWIDZ

Analiza(y) dyskryminacyjna 94, 146 Błąd systematyczny informacyjny 33 Efekt losowy 147
— kowariancji 78, 146 obserwatora 33 — prosty 93
— na bazie leczenia 38, 146 odwołania do pamięci i wyboru 40 — przeniesienia 147
— przejściowe 36, 146 publikacyjny 33 — resztkowy 34
— przeżycia 8 6 , 1 2 1 , 146 uwikłania 33, 36 — stały 147
-regresji 117 — w testowaniu hipotez 46 — wprowadzenia zdrowych osobników
liniowej 74 Bootstrapping 31, 146 33, 39, 147
— — — wielokrotnej 79 Eksperyment 32
Poissona 86, 87 — braku pogorszenia 45, 147
— — — wielozmienna 92 Chi-kwadrat 140, 145 — czynnikowy 34, 147
warunkowa 82 — dla wspótzmiennych 81, 89 - I fazy 3 6
wielozmienna Poissona 92 Chorobowość 42 - I I fazy 3 6
— wariancji (ANOYA) 133, 146 Cochrane Collaboration 118,154 - I I I fazy 36
jednoczynnikowa 57, 58, 146 Czas przeżycia 121 — klasterowy randomi2owany 147
powtarzanych pomiarów 113, 146 Częstość 11, 84, 146 — kliniczny 36, 147
— z zamiarem leczenia 146 — obserwowana 43, 63, 66, 140 — kontrolowany randomizowany (stero­
— zagregowanych poziomów 115,116 — oczekiwana 63 wany losowo, RCT) 36, 100, 147
ANOVA patrz: Analiza wariancji — skumulowana 146 — podwójnie ślepy 37
— spodziewana 146 — pojedynczo ślepy 37
— względna 16, 84, 85, 146 — przewagi 147
Badanie braku pogorszenia 45 — zachorowalności 146 — równoległy 147
— eksperymentalne 32, 146 Czułość 146 — równoważności 45, 147
— epidemiologiczne 32, 146 — modelu 79, 82, 146 — sterowany losowo 36, 100, 147
— kliniczne 73 — testu 104 — ślepy podwójnie 37
— koliortowe 32, 39, 146 Czynnik ryzyka 39, 146 pojedynczo 37
dynamiczne 39 Estymator 147
ustalone 39 — jednorodności statystycznej 118
— longitudinalne 33, 146 Dane 10, 146 — kwadratów zwyczajnych najmniej­
— nierandomizowane 93 — brakujące 14 szych 88
— obserwacyjne 3 2 , 146 — ciągłe 10 -precyzyjny 28
— pilotażowe 98, 146 — dyskretne 10 — przedziałowy 28, 30, 1-47
— prospektywne 33, 146 — kategorialne 12, 14, 16, 60, 63, 66 — punktowy 28, 147
— przekrojowe 32, 33, 146 — klasteryzowane 84, 112, 115, 116 — średniej w populacji nieobciążony 28
powtarzalne 32, 33 — nominalne 10 — wiarygodności największej 88
— przesiewowe 73 — numeryczne (ilościowe) 10, 12, 14,
— przypadek-kontrola 32, 42, 43, 82, 16, 48, 51, 54, 57
147 — pochodne 11 Format ASCII lub pliku tekstowego 12,
— retrospektywne 33, 146 — porządkowe 10 147
— równoważności 45 — przeżycia 121 — danych swobodny 12, 147
Baza obserwacyjna danych 40 — transformowane 146 — wprowadzania danych 12
Blok 34, 146 -ucięte 11,121,146 Funkcja gęstości prawdopodobieństwa
Błąd doboru systematyczny 33 lewostronnie 121, 146 22, 147
— informacyjny systematyczny 33 prawostronnie 121, 147 — łącząca 88
— obserwatora systematyczny 33 Daty 12, 14 — tożsamościowa 88
— odwołania do pamięci i wyboru syste­ Decyle 20, 147 — wiążąca 147
matyczny 40 Deklaracja CONSORT 36, 37, 38, 147
— próbkowania 28, 146 Dewiancja 89, 147
— przydziału systematycznego 36 Diagram 16 GEE patrz: Uogólnione równanie oszaco­
— publikacyjny systematyczny 33 — rozrzutu 74, 147 wania
— resztowy 73 Dodatni fałszywie 147 Granice ufności 147
— I rodzaju 46, 146 Dokładność 147 — zgodności 107, 147
— II rodzaju 46, 146 Dopasowania porównań post-hoc 147 Grupa(y) kontrolna 33, 147
— spowodowany odwołaniem do pamięci Dopasowanie 42, 73, 74, 78, 79, 89, 91 — niepowiązane 63
33 — modelu zbyt dokładne 147 — powiązane 63
oszacowaniem 33 Dyspersja 20
przydziałem 33
— standardowy 28, 29 EBM patrz: Medycyna poparta dowodami Hazard 147
elastyczny 115, 116, 146 Efekt badany 46, 47, 110, 147 — względny 122, 147
proporcji 29, 146 najmniejszy 98 Hipoteza alternatywna 44, 147
średniej (SEM) 28, 146 — klasteryzacji 116 — zerowa 44, 46, 147
— systematyczny doboru 33 — leczenia 147 Histogram 16, 82, 147

156 Indeks
Homoscedastyczność (jednorodność) wa­ Metoda Bayesowska 124, 125 Obserwacje 10, 149
riancji 96, 148 — Kaplana-Meiera 121 — niezależne 74
— najmniejszych kwadratów 72, 148 — powiązane 149
— rangowa 148 Odchylenie standardowe 21, 29, 149
Iloraz szans 42, 82, 148 — regresji dla danych klasteryzowanych — standaryzowane normalne 149
oszacowany 42 113, 115, 116 Odległość Cooka 79
— wiarygodności (LR) 105, 148 Miara niepewności 22 Odporność 149
statystycznej 81 — podsumowująca 112,115 Odstępstwa od protokołu 149
Indeks prognostyczny 94, 148 MLE patrz: Oszacowanie największej Odtwarzalność 107, 149
— rzetelności 107 wiarygodności Ogranicznik 12
— zdolności predykcyjnej 82 Moc 46, 93, 98, 99, 148 Okres wymywania 34, 149
Interakcja 35, 93, 148 Modalna 18, 19, 149 Operat losowania 28, 149
Interpolowanie 148 Model 149 Osobo-lata obeerwacji 150
Istotność statystyczna 148 — brzegowy 149 Oszacowanie największej wiarygodności
— Chi-kwadrat 89 (MLE) 88, 150
— efektów losowych 115, 116, 117,
Jaokhnifing 94, 148 145, 149
Jakość dopasowania 148 stałych 149 Parametr 22, 26, 28, 150
Jednorodność statystyczna 118 — ekspotencjalny 122 Percentyle 20, 150
— wariancji (homoscedaatyczność) 96, — Gompertza 122 Placebo 36, 150
148 — hierarchiczny 149 Plik ASCII 12
Jednostka(i) doświadczalna 34 — liniowy uogólniony 88, 153 — tekstowy 12
— eksperymentalna 148 — matematyczny 88 Podejście aprioryczne 23
— poziomu drugiego 148 — mieszany 149 — Bayesowskie do prawdopodobieństwa
pierwszego 148 — nachyleń losowych 117, 149 124
— przecięć losowych 115,117,149 do wnioskowania 150
— regresji Poissona 149 — brzegowe 116
Kappa Cohena H8 — regresyjny 122 — częstościowe 22, 124
— ważona 107, 148 jednej zmiennej 149 — do analizy przeżycia odwołujące sie do
Kategoria(e) odniesienia 78 proporcjonalnych hazardów (ryzyka) tablic trwania życia 150
— wzajemnie sie wykluczające 148 wg Coxa 82, 123, 149 — subiektywne 22
Kohorta historyczna 39 wielowymiarowy 149 — uśrednienia populacji 116
— kliniczna 40, 148 wielu zmiennych 149 Podsumowanie przeżycia 121
Komórka tablicy łtontyngencji 148 — szeregów czasowych hierarchiczny Pole pod krzywą 23
Kontrola 42, 43, 148 115 Pomiary powtarzane 112,150
— błędów 14 klasterowy 115 Poprawka ze względu na ciągłość 150
— dodatnia 36, 148 mieszany 115 Populacja 10, 28, 150
— historyczna 148 przekrojowy 115 Porównywanie przeżycia 122
— negatywna 36, 148 wielopoziomowy 115 Powiązanie 150
— pozytywna 36, 148 -Weibulla 122 Powtarzalność 107, 150
— ujemna 36, 148 — wielopoziomowy 149 Powtarzanie pomiarów 34
Korekcja Bonferroniego 148 — wymienny 149 Poziom 150
Korelacja 69 — wysycony 89, 149 — istotności 45, 46, 47, 98, 150
— liniowa 69 — zagnieżdżony 89, 149 Prawdopodobieństwo 22, 150
Kryteria włączenia 38 Modelowanie statystyczne 93 — a posteriori 124, 125, 150
— wykluczenia 38 Modyfikacja wpływu 149 — a priori 124, 125, 150
Krzywa(e) Kaplana-Meiera 121, 123 Moment mieszany Pearsona 69 — częstościowe 150
— mocy 47 — po teście 125, 150
— ROC 105, 106, 148 — przed testem 125, 150
Kwadrat średniej resztowy 57 Nachylenie 74, 149 — przeżycia 121
Kwartyle 20, 148 Narzędzie przesiewu 104 — subiektywne 150
Niejednorodność kliniczna 119,149 — warunkowe 124, 150
— statystyczna 149 Prewalencja choroby 104, 125
Leczenie kontrolne 36 — wariancji 96, 149 Procenty 11
Liczba(y) losowe 132 Nieobciążony 149 Proces najwyższej wiarygodności 81
— pacjentów wymaganych do leczenia NNT patrz: Liczba pacjentów wymaga­ Projekt całkowicie zrandomizowany 34,
(NNT) 110, 148 nych do leczenia 150
— stopni swobody 24, 31, 148 Nomogram Altmana 98, 99, 100, 133, — czynnikowy 34
Linearyzacja wariancji 26, 27 149 — naprzemienny 34, 35, 150
Linia regresji 72 — Fagana 124, 149 — równoległy 34, 35
Liniowość 26 Normalizacja wariancji 26, 27 Proporcja 11, 150
— fałszywie dodatnia 82
ujemna 82
Maskowanie 36, 37, 148 Obciążenie 107, 149 — pojedyncza 60, 61
Mediana 18, 19, 20, 148 — odwołania do pamięci 149 Protokół 37, 150
Medycyna poparta dowodami (EBM) — przydziału 149 — rozbieżności 38
110, 118, 148 — publikacyjne 119,149 Próba(y) 10, 28, 150
Metaanaliza 118, 119, 148 — wyboru 149 — dogodna 28, 150

Indeks 157
Próba(y) kwotowa 28 Rozkład dwumodalny 151 Stosunek częstości 84
— losowa 28 — empiryczny 151 zachorowalności 152
— niezależne 150 — F 24, 128, 151 - F 74
— reprezentatywna 28 — Gaussa 22, 23, 26, 27, 28, 29, 30, — hazardu 122, 152
— ślepa podwójnie 152 96, 136, 137, 151 — wiarygodności 89, 125
— ucząca 94, 150 — jednomodalny 151 Struktura dwupoziomowa zmiennej
— walidacyjna 94, 150 — lognormalny 24, 151 112
Próbkowanie 28 — normalny 22, 23, 26, 27, 28, 29, 30, Suma brzegowa w tablicy kontyngencji
— kwotowe 150 96, 136, 137, 151 63, 152
— losowo 150 standaryzowany 127, 128, 151 — całkowita 63
— ro2kladu proporcji 29 — Poissona 25, 151 Swoistość 82, 152
— średniej 28 — prawdopodobieństwa 22, 24, 44, 151 Szansa 152
— systematyczne 28, 150 ciągły 22, 151
Pracciccie 150 dyskretny 22, 25, 151
Przecie tna 150 — próbkowania proporcji 29,151 Ślepa podwójnie 152
Przedział odniesienia 2 0 , 104, 150 średniej 28, 151 Średnia arytmetyczna 18, 19, 20, 21,
— ufności 30, 45, 48, 54, 75, 110 — przekrzywiony w lewo (ujemnie sko­ 23, 25, 29, 152
dla parametru 150 śny) 17 — geometryczna 18, 19, 152
— - dla proporcji 30, 31 w prawo (dodatnio skośny) 17 — ważona 18, 19, 152
— — dla średniej 30, 31 — reszt 76, 80
Przegląd systematyczny 118, 150 — równomierny 151
Przełożenie 78, 151 — skośny 151 Tablica 2x2 152
Przesiew 151 ujemnie 17 — analizy wariancji 73
Przeżycie, podsumowanie 121 dodatnio 17 — klasyfikacyjna 81
— porównywanie 122 — symetryczny 17, 151 — kontyngencji 63, 66, 140, 152
— prawdopodobieństwo 121 — t 24, 30, 127, 151 — przeżycia 121
Przyczynowość 33 — teoretyczny 22, 24 Test Barletta 58, 96, 152
Przydział losowy 36 Rozpowszechnienie 152 — Chi-kwadrat 63, 66, 67, 100, 152
— systematyczny 36, 151 — punktowe 33, 152 jednorodności Cochrana 119
Przypadek 4 2 , 4 9 , 151 Rozproszenie 20, 21 modelu 152
— chorobowości 42 Rozrzut zaniżony 152 dla trendu 66, 68
— rozpowszechnienia 151 — zawyżony 152 — diagnostyczny 104, 152
— zapadalności 42, 151 Rozstęp 20, 21, 152 w ujęciu Bayesowskim 124
Punht Końcowy drugorzędny 151 — międzydecylowy 20, 152 — dla pojedynczej proporcji 60
— — pierwszorzędny 151 — międzykwartylowy 20, 152 — dokładny Fishera 63
— procentowy 3 0 , 151 — oparty na percentylach 21 — Duncana 57
— wpływający 74, 151 Równanie estymacyjne uogólnione — dwustronny 44, 152
Punktacja 11 116 — F (stosunku wariancji) 79, 96, 97,
— ryzyka 94, 95, 151 — oszacowania uogólnione (GEE) 116, 152
145, 153 — Fishera dokładny 147
— regresji logistycznej 81 — hipotezy (istotności) 44, 152
Randomizacja 36, 37, 38, 151 Różnica(e) jakości 119 — ilorazu wiarygodności 152
— blokowa 36 — standaryzowana 98, 152 — jednorodności Chi-kwadrat Cochrana
— klasterowa 36, 151 RTC patrz: Eksperyment kontrolowany 119
— warstwowa 36 randomizowany — jednostronny 44, 152
Rangi dla przedziałów ufności dla media­ Ryzyko 84 — Kolmogorowa-Smirnowa 96, 152
ny 129 — choroby 40, 152 — Kruskala-Wallisa 58, 59, 148
Rangowanie 51 — względne 40, 41, 81, 82, 152 — Levene'a 58, 96, 135, 153
Regresja do średniej 73, 151 Rzetelność 152 — Long-rank 122, 123, 153
— liniowa 72, 73 — McNemary 63, 65, 153
— - prosta 72, 74, 75, 76, 139, 150 — nieparametryczny 45, 97, 153
wielokrotna 72, 78, 139, 153 Selekcja automatyczna 91 — parametryczny 153
— logistyczna 82, 151 — kontroli 42 — Scheffego 57
multinominalna 82 — krokowa 91, 152 — Shapiro-Wilka 96, 153
porządkowa 82, 151 — postępująca (progresywna) 91, 152 — sumy rang Wilcoxona 54, 56, 130,
warunkowa 82, 151 — wsteczna 91, 152 153
wielomianowa 153 SEM patrz: Błąd standardowy średniej — t 48, 49, 79, 99, 134, 137
— Poissona 84, 85 Skorygowanie 78, 79 — t dla zmiennych niepowiązanych (dla
— wielomianowa 91, 151 Skurczenie 152 dwóch prób) 54, 153
Reguła dodawania prawdopodobieństwa Specyficzność testu 104 powiązanych (dla jednej próby)
22 Stabilizacja wariancji 26, 27 51, 52, 153
— mnożenia prawdopodobieństwa 22 Statystyka 10, 22, 152 — U Manna-Whitney'a 54, 153
Replikacja 151 — podsumowująca 16 — Wilcoxona rangowanych znaków 51,
Reszta 151 — próby 28 53, 129, 153
Rozkład Chi-kwadrat 24, 127, 151 — stosunku wiarygodności (-2 log wiary­ — złotego standardu 104, 153
— częstości 16, 17, 151 godność) 89 — znaków 49, 50, 60, 61, 128, 153
empiryczny 16, 22 — testu 44, 152 Testowanie hipotez 44, 45, 46
— dwumianowy 25, 151 Walda 141, 152 wielokrotne 46

158 Indeks
Transformacja 26 Współczynnik nachylenia (gradient) 72 Zgodność wyników 107, 108, 109
— hiperboliczna 27 — powtarzalności Brytyjskiego Instytutu Zmiany w czasie 85
— logarytmiczna 26 Standaryzacji 107, 154 Zmienna 10, 154
— logitowa (logistyczna) 27, 153 — przecięcia 72 -binarna 10,12,78,110,154
— pierwiastkowania kwadratowego 26 — regresji 72, 154 — ciągła 13, 154
— podnoszenia do kwadratu 27 cząstkowej 78, 154 — dychotomiczna 10, 12, 78, 110,
Trend 153 logistycznej 81, 154 154
Twierdzenie Bayesa 124, 153 Poissona 85 — dyskretna 13, 154
— śmiertelności 154 — ilościowa 10, 90, 107, 110, 154
— zmienności 154 — indeksująca 78, 90, 141, 142, 143,
Ujemny fałszywie 147 Wybór modelu automatyczny 154 154
Umieralność 84 — wszystkich podzbiorów 154 — jakościowa 10, 17, 78, 107, 154
Uogólnione równanie oszacowania (GEE) Wykres Kaplana-Meiera 154 — kategorialna 10, 17, 78, 107, 154
116, 145, 153 — kolumnowy klasteryzowany 17 — kodowana pojedynczo 12
Uwikłanie 153 segmentowany 16, 17 — kodowana wielokrotnie 12, 13
— kołowy 16, 154 — losowa 22, 154
— lejkowy 119 — mieszająca 93
Wariancja 20, 21, 23, 25,153 -leśny 119,154 — niezależna 72, 79, 90, 154
— niewyjaśniona 73, 153 — „łodyga z liśćmi" 17, 154 — nominalna 12, 13, 90, 154
— próbkowania 28 — normalności 96, 154 — numeryczna 10, 90, 107, 110, 154
— resztowa 57, 73 — punktowy 16, 17, 60, 154 — porządkowa 13, 78, 90, 154
Warstwa 153 — rozrzutu 16, 17 — pośrednia 94
Wartość brakująca 13, 15 — skrzynkowy 17, 20, 135, 154 — predykcyjna 72, 79, 90, 154
— dopasowana 72, 74, 77, 153 — słupkowy (kolumnowy) 16, 17, 154 — standaryzowana 23
-- obserwowana 43, 72, 74 Wynikli) binarny 118 — ślepa 78, 90, 141, 142, 143, 154
— odcięcia 105 — istotny 44 — wskaźnikowa 78, 90, 141, 142, 143,
— odskakująca 14, 15, 17, 74, 79, 153 — końcowy podstawowy 36 154
— p 44, 153 wtórny 36 — tymczasowa 154
— predykcyjna dodatnia 105, 153 — leczenia 46 — uwikłana 93
ujemna 105, 153 — nieistotny 44 — wskaźnikowa 78, 90, 141, 142, 143,
— przeciętna 18, 19 — numeryczny 118 154
— resztowa 72, 74, 79, 80 — sparowane 107 — wyjaśniająca 72, 79, 90, 154
— wpływająca 79 — ujemny fałszywie 147 — wynikowa binarna 81
— wyrównująca 85, 153 Wzory Lehra 98, 154 główna 154
Ważność 153 — zależna (wynikowa, odpowiedzi) 72,
:
— 2 log wiarygodność 146 154
Wiarygodność 88, 153 Zachorowalność 33, 84, 154 — zależna od czasu 154
— cząstkowa 122 Zakres normalny 20, 154 Zmienność 20, 21
— testu 104 — odniesienia 20 — ekstradwumianowa 155
Wielkość badania 38 — równoważności 45 — ekstra-Poisaonowska 86, 155
— efektu 46 Zależność 119 — losowa 155
-próby 34,46,98,99 — liniowa (współliniowość, kolinearność) niewyjaśniona 34
Wnioskowanie 153 74, 79, 94, 154 — miedzygrupowa 21, 57
Współc2ynnik korelacji Pearsona 69, Założenie dystrybucyjne 26 — obserwacji 46, 98
70, 71, 131, 138, 153 — liniowości 90, 92 — wewnątrzgrupowa (niewyjaśniona,
Spearmana 131, 138 Zapadalność 42, 151 resztowa) 21, 57, 155
rangowej 70, 71, 153 Zaślepienie 36, 37, 154 Związek liniowy 72, 97
wewnątrzklasowej (ICC) 107, 116, Zdarzenie dopełniające 22
145, 153 — warunkowe 22

Indeks 159

You might also like