Professional Documents
Culture Documents
at a Glance
Aviva Petrie
Head of Biostatistics Unit and Senior Lecturer
Eastman Dental Institute
University College London
256 Grays Inn Road
London WC1X 8LD and
Honorary Lecturer in Medical Statistics
Medical Statistics Unit
London School of Hygiene and Tropical Medicine
Keppel Street
London WC1E7HT
Caroline Sabin
Prof essor of Medical Statistics and Epidemiology
Department of Primary Care and Population Sciences
Royal Free and University College Medical School
Rowland Hill Street
London NW3 2PF
Second edition
Aviva Petrie, Caroline Sabin
Statystyka
medyczna
w zarysie
Ttumaczenie prof. dr hab. J e r z y M o c z k o
© Copyright by Wydawnictwo Lekarskie PZWL, Warszawa 2006
Tłumaczone z Aviva Petrie, Caroline Sabin, Medical Statistics at a Glance, Second edition
© 2005 Aviva Petrie and Caroline Sabin
Published by Blackwell Publishing Ltd
Blackwell Publishing, Inc., 350 Main Street, Malden, Massachusetts 02148-5020, USA
Blackwell Publishing Ltd, 9600 Garsington Road, Oxford 0X4 2DQ, UK
Blackwell Publishing Asia Pty Ltd, 550 Swanston Street, Carlton, Victoria 3053, Australia
The right of the Authors of this Work has been asserted in accordance with the Copyright, Design and Patents Act 1988.
This edition is published by arrangement with Blackwell Publishing Ltd, Oxford. Translated by Wydawnictwo Lekarskie
PZWL from the original English language version.
Responsibility of the accuracy of the translation rests solely with the Wydawnictwo Lekarskie PZWL and is not the respon-
sibility of Blackwell Publishing Ltd.
ISBN 83-200-3312-8
Wydanie I
5
PRZEDMOWA TŁUMACZA
White lie, damned lie, statistics (Małe kłamstwo, wielkie kurs, który trzeba zaliczyć, by dostać się do wymarzonej kli
łgarstwo, statystyka) — te słowa przypisywane Markowi niki. Prawdziwa potrzeba użycia statystyki pojawia się na
Twainowi, w których opisał stopnie nieprawdy, chyba najle wyższych latach, np. przy pisaniu pierwszych prac w ra
piej oddają stosunek większości „normalnych ludzi" do sta mach studenckich towarzystw naukowych. Wtedy to po raz
tystyki. Uważa się ją za narzędzie do manipulowania dany pierwszy student staje przed problemem, jak sformułować
mi, pozwalające na pseudonaukowe udowadnianie swoich hipotezy badawcze, jak zebrać materiał do analizy, jak powi
racji. Wielu z nas, obserwując prognozy statystyczne prezen nien być on obszerny, co oznacza termin reprezentatywność,
towane w środkach masowego przekazu, stwierdza, że wie jakiego użyć testu statystycznego, jak zinterpretować wyni
lokrotnie nie zgadzają się one ze stanem faktycznym. Lubi ki itd. Powszechny dostęp do komputerów i zainstalowanych
my sytuacje jasne, niedwuznaczne, z których moglibyśmy w nich pakietów statystycznych znakomicie ułatwia sytu
wywnioskować, że „białe jest białe, a czarne — czarne". Ma ację, lecz niestety tylko pozornie. Pojawiają się prace „na
ło kto zdaje sobie sprawę z faktu, iż statystyka jest tak samo ukowe", w których niezdarne próby użycia statystyki gene
dobrym i precyzyjnym działem matematyki jak algebra, try rują wyłącznie szum informacyjny, a nie prawdziwą wiedzę.
gonometria czy rachunek różniczkowy i całkowy. Stanowi Podobna sytuacja przydarza się słuchaczom studium dokto
ona część rachunku prawdopodobieństwa i bez problemu ranckiego. Przygotowywana rozprawa doktorska wymaga
stosuje się ją w fizyce, chemii i naukach technicznych. Sto bowiem rygorystycznego podejścia metodycznego, z reguły
sowanie statystyki w ekonomii (np. prognozowanie kursów surowo ocenianego przez recenzentów pracy. Również próba
giełdowych, analizy ubezpieczeniowe) również nie budzi publikowania swoich wyników w czasopismach medycznych
większych zastrzeżeń. Nieco inaczej przedstawia się sytu często kończy się zwróceniem pracy w celu wykonania po
acja z zastosowaniem statystyki w naukach medycznych. prawek dotyczących użytych technik statystycznych. W tej
Dane medyczne charakteryzuje duży stopień zmienności sytuacji pozostaje jedynie zlecenie wykonania analiz staty
zarówno międzyosobniczej, jak i wewnątrzosobniczej. Do stykowi, albo też ambitna próba odkurzenia notatek z biosta
datkowym problemem jest uzyskanie próby o wystarczają tystyki i przegryzienia się przez trudny materiał.
cej liczebności (rzadkie jednostki chorobowe, kosztowne Na polskim rynku wydawniczym nie ma niestety dużego
procedury badawcze, zagadnienia etyczne w leczeniu inwa wyboru książek poświęconych tej tematyce. Z reguły są to
zyjnym) i z tego względu standardowe techniki statystyczne albo dość stare pozycje, nie uwzględniające najnowszych
często nie mogą być stosowane. Dlatego też w ramach staty dokonań w tej dziedzinie, albo przeładowane wiedzą teore
styki ogólnej wyodrębniła się osobna gałąź wiedzy, zwana tyczną. Dlatego też niezwykle istotna wydaje się inicjatywa
biostatystyką. U źródeł jej dynamicznego rozwoju leżą pra skorzystania z najlepszych wzorców dydaktycznych dostęp
ce Galtona, Pearsona i Fishera z pierwszej połowy XX wie nych w literaturze obcojęzycznej. Jedną z takich pozycji jest
ku, aczkolwiek wykorzystuje ona również teorie opracowa książka Avivy Petrie i Caroline Sabin, pt. Statystyka me
ne o wiele wcześniej przez Gaussa, Gosseta i Poissona. Nie dyczna w zarysie, wydana po raz pierwszy przez Blackwell
ma roku, by nie pojawiły się nowe techniki analizy danych Publishing w roku 2000 w ramach serii książek przezna
biomedycznych, istotnie wzbogacane przez rozwój technolo czonych dla lekarzy ...ata Glance. W ciągu pięciu lat książ
gii komputerowej. Bez użycia komputerów trudno wyobra ka ta doczekała się siedmiu (!) wznowień, a w 2005 roku zo
zić sobie użycie takich metod, jak bootstrapping, jackkni- stała wydana w przeredagowanej i uzupełnionej wersji.
fing, metoda Monte Carlo. W Stanach Zjednoczonych jest polecana przy przygotowa
Próbę przedstawienia aktualnego stanu wiedzy z tej dzie niach do zdania egzaminu państwowego USMLE step 1.
dziny stanowi wydana w 2005 roku ośmiotomowa Encyclo- Jej niezwykła popularność bierze się stąd, że Autorkom
pedia of Biostatistics pod redakcją P. Armitage'a i T. Coltona udało się w znakomity sposób wyważyć ilość wiedzy teore
— ogromne dzieło o ponad sześciu tysiącach stron zapisa tycznej niezbędną do zrozumienia podstawowych pojęć sta
nych drobnym drukiem. Niestety wiedza ta ma charakter tystycznych i zastosowania praktyczne pojawiające się
hermetyczny i jest niemal całkowicie niedostępna dla prze w pracy lekarza. Opisane prostym, lecz precyzyjnym języ
ciętnego człowieka. Cóż bowiem ma zrobić lekarz, który stu kiem rzeczywiste problemy z różnych dziedzin medycyny
diując artykuły naukowe ze swojej dziedziny, napotka takie bardzo dobrze ilustrują sposób użycia rozmaitych technik
sformułowania jak przedział ufności, regresja logistyczna statystycznych przedstawionych w tekście. Autorki w roz
czy rozkład Poissona? Próba poszukiwania tych terminów sądny sposób podają wzory (tam, gdzie to rzeczywiście ko
w wydawnictwach encyklopedycznych lub fachowych z za nieczne) i całkowicie pomijają dowody potrzebne matematy
kresu statystyki z miejsca stawia go na przegranej pozycji kom, a nie lekarzom. Nie ogranicza to jednak w żaden
z uwagi na sformalizowany język i kompletnie niezrozumia sposób precyzji przekazywanej informacji. Autorki przy
łe dla niego wzory. wiązują dużą wagę do intuicyjnego zrozumienia zasad leżą
Na całym świecie w szkolnictwie medycznym wykładane cych u podstaw stosowania rozmaitych technik statystycz
są metody biostatystyki. Niestety, z reguły przedmiot ten zo nych, nie wdając się niepotrzebnie w ich uzasadnianie.
staje umiejscowiony na początkowych latach studiów w ra Na książkę tę zwróciłem uwagę już w roku 2000 po jej
mach tzw. przedmiotów podstawowych. Powoduje to najczę pierwszym wydaniu, prowadząc zajęcia z biostatystyki dla
ściej, że student traktuje go jako jeszcze jeden niepotrzebny studentów anglojęzycznych w Akademii Medycznej im. Ka-
6
rola Marcinkowskiego w Poznaniu. Kolejne roczniki studen nikom studentów wydziałów lekarskich i stomatologicznych,
tów potwierdzają jej niezwykłą przydatność przy przygoto jak i słuchaczom studiów doktoranckich na akademiach me
waniu zarówno do testów w okresie studiów, jak i egzami dycznych. Jako niezwykle przydatną znajdą ją również stu
nu USMLE step 1. Ucieszyła mnie zatem propozycja denci wydziałów fizyki uniwersytetów i politechnik tam,
Wydawnictwa Lekarskiego PZWL przetłumaczenia tej książ gdzie otwarte zostały kierunki fizyki medycznej. Może ona
ki na język polski i udostępnienia tej cennej pozycji polskie stanowić również znakomity materiał dydaktyczny dla pro
mu odbiorcy. Jak każdy tłumacz, zdaję sobie sprawę z fak wadzących wykłady i ćwiczenia z biostatystyki na wspo
tu, iż tłumaczenie jest jak kobieta — „wierna nie jest mnianych kierunkach studiów. Może też stanowić nieocenio
piękna, a piękna nie jest wierna". Problem stanowią nie tyl ne źródło fachowych informacji dla każdego lekarza,
ko nieprzetłumaczalne na język polski (ale w pełni zrozu zarówno naukowca pracującego w akademickich klinikach,
miale dla naukowców) słowa, takie jak bootstrapping, jack- jak i lekarza praktyka pragnącego poprzez samokształcenie
knifing, ale i specyfika językowa uniemożliwiająca krótkie, poszerzać i doskonalić swoje umiejętności. W sprawdzeniu
jednoznaczne odwzorowanie tekstu. Na przykład, zwięzły zdobytej wiedzy z zakresu biostatystyki może pomóc test za
angielski termin virological Jailure po konsultacji z wiruso mieszczony na stronie internetowej www.medstatsaag.com
logami rozrósł się do „braku efektu terapeutycznego po le (niestety nie został jeszcze spolszczony). Mam nadzieję, że
czeniu przeciwwirusowym". Dziękuję serdecznie Kolegom książka ta zdobędzie podobną popularność u polskiego Czy
lekarzom za poświęcenie mi czasu na skonsultowanie termi telnika, jak w krajach zachodnich, i dostarczy mu dużo war
nologii medycznej i będę wdzięczny za wszystkie uwagi, tościowych i przystępnie podanych informacji.
które mogłyby udoskonalić prezentowaną pracę.
Książka Avivy Petrie i Caroline Sabin, pt. Statystyka Jerzy A. Moczko
medyczna w zarysie jest polecana zarówno kolejnym rocz
WSTĘP
Książka Statystyka medyczna w zarysie jest skierowana bardziej dostępne i efektywne, niż było w przeszłości. Zmo
do studentów akademii medycznych, badaczy medycznych, dyfikowałyśmy rozdział o wynikach binarnych i regresji lo
słuchaczy studiów podyplomowych w zakresie dyscyplin gistycznej (rozdział 30), włączając nowy rozdział o często
biomedycznych oraz personelu przemysłu farmaceutyczne ściach i regresji Poissona (rozdział 31) oraz znacząco
go. Oni wszyscy na pewnym etapie życia zawodowego rozwinęłyśmy pierwotny rozdział „Modelowanie statystycz
zetkną się z wynikami ilościowymi (własnymi lub innych ba ne", tak że składa się on teraz z trzech rozdziałów: „Uogól
daczy), które będą wymagały krytycznej analizy i interpre nione modele liniowe" (rozdział 32), „Zmienne wyjaśniające
tacji. A niektórzy będą oczywiście musieli zdać ten straszli w modelach statystycznych" (rozdział 33) oraz „Zagadnienia
wy egzamin ze statystyki! Z tego powodu nieocenione jest związane z modelowaniem statystycznym" (rozdział 34).
właściwe zrozumienie statystycznych koncepcji i metodolo Zmodyfikowałyśmy również rozdział 41, który opisuje róż
gii. W równym stopniu chciałybyśmy rozbudzić entuzjazm ne podejścia do analizy danych sklasteryzowanych, i doda
Czytelnika dla statystyki co dostarczyć mu praktycznej wie łyśmy rozdział 42, o różnych metodach regresyjnych, które
dzy. W tym nowym wydaniu, podobnie jak to było w wyda mogą być użyte do analizy tego typu danych, W wydaniu
niu poprzednim, naszym celem jest zapewnienie studentowi pierwszym zamieszczono krótki opis analizy szeregów cza
i badaczowi, jak również klinicyście napotykającemu w lite sowych, z czego zdecydowałyśmy się zrezygnować w dru
raturze medycznej koncepcje statystyczne, książki, która gim wydaniu, jako że wydawał się zbyt skrótowy, aby być
jest solidna, łatwa w czytaniu, wszechstronna, związana praktycznie użytecznym, a jego rozwinięcie wymagałoby
z tematem i użyteczna w praktycznym zastosowaniu. wyjścia poza przyjęte granice trudności. Z powodu usunię
Wierzymy, że książka Statystyka medyczna w zarysie cia, jak i dodania pewnych rozdziałów, numeracja rozdzia
będzie szczególnie użyteczna jako pomoc dla wykładowców łów w wydaniu drugim różni się od tej z poprzedniego wy
statystyki, również jako źródło odnośników. Struktura wy dania, począwszy od rozdziału 30. Większość rozdziałów
dania drugiego pozostaje taka sama jak wydania pierwsze w dalszej części książki, które były również w wydaniu
go. Tak jak inne książki z serii ...w zarysie składa się z od pierwszym, jeżeli w ogóle, to zmieniła się nieznacznie,
rębnych, dwu-, trzy- lub rzadko czterostronicowych Opisowi każdej techniki statystycznej towarzyszy przy
rozdziałów, z których każdy omawia inny aspekt statystyki kład jej użycia. Ogólnie, dane do tych przykładów wzięłyśmy
medycznej. Z naszych własnych doświadczeń dydaktycz ze wspólnych badań, w których uczestniczyłyśmy my lub na
nych znałyśmy trudności, jakie napotykali nasi studenci si koledzy; w niektórych przypadkach zaczerpnęłyśmy rze
podczas zgłębiania statystyki medycznej, i starałyśmy się czywiste dane z wydanych publikacji. Tam, gdzie było to
wziąć je tu pod uwagę. Z tego względu zdecydowałyśmy się możliwe, użyłyśmy tych samych danych w więcej niż jednym
ograniczyć teoretyczną zawartość książki do poziomu wy rozdziale, aby odzwierciedlić rzeczywistość analizy danych,
starczającego do zrozumienia użytych procedur, lecz który która rzadko jest ograniczona do jednej techniki lub podej
nie zaciemnia jeszcze ich praktycznych zastosowań. ścia. Chociaż uważamy, że należy podawać wzory i wyja
Statystyka medyczna jest obszernym przedmiotem obej śniać logikę postępowania, starałyśmy się unikać szczegółów
mującym wielką liczbę zagadnień. W książce podajemy pod złożonych obliczeń — większość Czytelników ma dostęp
stawowe koncepcje statystyki medycznej i przewodnik do komputerów i jest mato prawdopodobne, że będą Oni do
po najczęściej stosowanych procedurach statystycznych. konywali ręcznie obliczeń, może poza tymi najprostszymi.
Epidemiologia jest ściśle powiązana ze statystyką medycz Uznałyśmy, że rzeczą niezwykle ważną dla Czytelnika
ną, omawiamy więc podstawowe zagadnienia tej dziedziny, jest umiejętność interpretacji wyników z pakietu kompute
związane z planowaniem i interpretacją badania. Załączamy rowego. Dlatego tam, gdzie to możliwe, dla zobrazowania
również rozdziały, którymi Czytelnik zainteresuje się jedy wyników wybrałyśmy wydruki komputerowe. W pewnych
nie okazjonalnie, lecz które mimo wszystko są fundamental sytuacjach, gdy podejrzewałyśmy trudności interpretacyj
ne dla wielu obszarów badań medycznych; na przykład me ne, załączyłyśmy (Dodatek C) kompletne wydruki kompute
dycyna oparta na dowodach, przeglądy systematyczne rowe z analizy danych i opatrzyłyśmy je adnotacjami. W po
i metaanaliza, analiza przeżycia i metody bayesowskie. Tłu wszechnym użyciu istnieje wiele pakietów statystycznych;
maczymy zasady leżące u podstaw tych zagadnień tak, by chcąc dać Czytelnikowi wskazówkę, jak może się zmieniać
Czytelnik był w stanie zrozumieć i zinterpretować ich wyni postać wyników, nie ograniczyłyśmy się do wydruku z ja
ki, jeżeli takowe zostaną zamieszczone w literaturze. kiegoś szczególnego pakietu, lecz użyłyśmy trzech dobrze
Porządek pierwszych 30 rozdziałów tego wydania odpo znanych - SAS, SPSS oraz Stata.
wiada wydaniu pierwszemu. Większość tych rozdziałów po W całym tekście jest wiele odwołań mających Czytelniko
została nie zmieniona w nowym wydaniu. Niektóre zawierają wi ułatwić dotarcie do różnych procedur. Podstawowy ze
stosunkowo małe zmiany, uwzględniające ostatnie zdobycze, staw tablic statystycznych jest zawarty w Dodatku A. Książ
oraz odwołania, zmiany wynikają również z reorganizacji ki Neave H. R.: Elementary Statistical Tables, Routledge
materiału. Większe dodatki odnoszą się do stosunkowo zło 1981, i Diem K.: Documenta Geigy Scientific Tables, 7. wyd.,
żonych form analizy regresji, które obecnie są używane sze Blackwell Publishing, Oxford 1970, obok wielu innych, za
rzej niż wtedy, gdy przygotowywałyśmy pierwsze wydanie, wierają wersje pełniejsze, których Czytelnik potrzebuje
częściowo dlatego, że związane z tym oprogramowanie jest przy bardziej precyzyjnych obliczeniach przeprowadzanych
8
bez użycia komputera. Słowniczek terminów (Dodatek D) po Armitage R, Berry G., Matthews J. F. N.: Statistkal Methods
daje przystępne wyjaśnienia większości użytej terminologii. in Medical Research. Blackwell Science, Oxford 2001.
Wiemy, że największą trudnością, jaką napotyka niesta- Pocock S. J.: Clinical Trials: A Practical Approach. Wiley,
tystyk, jest dobór odpowiedniej techniki. Dlatego przygoto Chichester 1983.
wałyśmy dwa schematy blokowe, których można użyć za
równo w celu podjęcia decyzji co do odpowiedniej metody Jesteśmy niezmiernie wdzięczne Markowi GilthorpeWi
w danej sytuacji, jak i w celu znalezienia jej w prezentowa i Jonathanowi Sterne'owi, którzy opracowali nieocenione
nej książce. Oba schematy blokowe zamieszczono przezor komentarze i sugestie do drugiego wydania, oraz Richardo
nie na wewnętrznej stronie okładek, aby zapewnić do nich wi Morrisowi, Fionie Lampe, Shak Hajat i Abulowi Basaro-
łatwy dostęp. wi za ich uwagi na temat pierwszego wydania. Chcemy
Jako narzędzie pomocne w ocenie własnych postępów podziękować każdemu, kto pomógł nam zdobyć dane do
Czytelnik znajdzie interaktywne ćwiczenia zamieszczone przykładów. Oczywiście, bierzemy pełną odpowiedzialność
na naszej stronie internetowej (www.medstatsaag.com). za jakiekolwiek błędy, które pozostały w tekście lub przy
Strona ta zawiera również pełny zestaw cytowań (niektóre kładach. Chcemy również podziękować Mikowi, Geraldowi,
z nich prowadzą bezpośrednio do Medline) uzupełniających Ninie, Andrew i Karen, którzy ze stoickim spokojem znosili
odnośniki zawarte w tekście i pozwalających odnaleźć nasze przygotowania do wydania pierwszego i żyli z nami
bazowe informacje dotyczące przykładów. Czytelnikom, któ podczas trudnych prób opracowania wydania drugiego.
rzy chcieliby dokładniej zgłębić poszczególne dziedziny sta
tystyki medycznej, możemy polecić następujące książki: Aviva Petrie
Caroline Sabin
Altman D. G.: Practical Statistics for Medical Research. Londyn
Chapman and Hall, Londyn 1991.
1 RODZAJE DANYCH
10 Opracowywanie danych
Wszystkie wymienione powyżej zmienne w większości
DANE POCHODNE
analiz mogą być traktowane jako zmienne numeryczne. Tam,
W badaniach medycznych możemy też napotkać inne rodza gdzie zmienną uzyskuje się z więcej niż jednej wartości (np.
je danych. Obejmują one: licznik i mianownik w procentach), jest rzeczą istotną zapisa
• Procenty — mogą pojawić się, gdy oceniamy poprawę nie wszystkich tych wartości. Na przykład, 10% poprawa
stanu zdrowia u pacjentów podlegających leczeniu, np. para wskaźnika oceny leczenia może mieć rozmaite znaczenie kli
metr funkcji oddechowej pacjenta (wymuszona objętość wyde niczne w zależności od wartości tego wskaźnika przed lecze
chowa w 1 sekundzie, FEV1) może wzrosnąć o 24% w następ niem.
stwie leczenia nowym lekiem. W tym przypadku interesuje
nas raczej stopień poprawy, a nie wartość bezwzględna.
• Proporcje lub ilorazy — czasami możemy napotkać
DANE UCIĘTE
proporcje lub iloraz dwóch zmiennych. Na przykład wskaź Dane ucięte możemy napotkać w takich na przykład sytu
nik masy ciała (BMI), obliczany jako masa osobnika (kg) po acjach:
2
dzielona przez kwadrat jego/jej wzrostu (m ), jest często • Jeżeli mierzymy dane laboratoryjne, używając narzę
używany w celu oszacowania nadwagi lub niedowagi. dzia, które jest w stanie zarejestrować dane powyżej pew
• Częstości — częstości chorób. Liczba zachorowań nego poziomu, to żadne wartości pomiarowe leżące poniżej
wśród obiektów badania jest dzielona przez całkowitą licz tego poziomu nie zostają zidentyfikowane. Na przykład, je
bę lat obserwacji wszystkich osobników w tym badaniu żeli mierzymy poziomy wirusa poniżej poziomu jego wykry
(rozdział 31). Dane takie są powszechnie stosowane w na walności, to wartości te opisujemy jako „nieoznaczalne",
ukach epidemiologicznych (rozdział 12). mimo że w próbce mogło być nieco wirusów.
• Punktacja — czasami, gdy nie możemy zmierzyć wiel • W badaniach, w których część pacjentów wypada
kości, stosujemy wartości arbitralne, np. punktację. Na przy z grupy badanej przed czasem zakończenia badania. Ten typ
kład, odpowiedzi na pytania dotyczące jakości życia mogą danych jest omówiony bardziej szczegółowo w rozdziale 44.
zostać zsumowane w celu uzyskania pewnej ogólnej wielko
ści charakteryzującej jakość życia każdego osobnika.
/. Rodzaje danych 11
2 WPROWADZANIE DANYCH
Przy wykonywaniu jakichkolwiek badań niemal zawsze przyporządkować kody 1, 2, 3 i 4 do kategorii: brak bólu,
wprowadza się dane do pakietu oprogramowania kompute ból slaby, ból umiarkowany i ból silny. Kody te mogą zostać
rowego. Komputery są nieocenione, jeśli chodzi o poprawę dodane do formularzy w trakcie zbierania danych. Dla da
dokładności i prędkości zbierania danych oraz ich analizy, nych binarnych, np. dla odpowiedzi tak/nie, często wygod
ułatwiają wyszukiwanie błędów, pozwalają tworzyć graficz nie jest przyporządkować kody 1 (np. dla „tak") oraz 0 (dla
ne podsumowania danych i generować nowe zmienne. War „nie").
to poświęcić nieco czasu na zaplanowanie wprowadzania • Zmienne kodowane pojedynczo — istnieje jedna moż
danych — może to zaoszczędzić wiele wysiłku w później liwa odpowiedź na to pytanie, np. czy pacjent zmarł. Nie
szych etapach. można udzielić na to pytanie jednocześnie odpowiedzi „tak"
i „nie".
• Zmienne kodowane wielokrotnie — dla każdego re
FORMATY WPROWADZANIA DANYCH spondenta możliwa jest więcej niż jedna odpowiedź.
Istnieje wiele sposobów wprowadzania i zapamiętywania Na przykład: jakie symptomy występują u tego pacjenta.
danych w komputerze. Większość pakietów statystycznych W tym przypadku osobnik może mieć dowolną liczbę symp
pozwala na bezpośrednie wprowadzenie danych. Jednakże tomów. Istnieją dwie metody kodowania tego typu danych
ograniczeniem takiego podejścia jest fakt, że niejednokrot w zależności od tego, która z sytuacji ma miejsce.
nie nie można przenieść tych danych do innego pakietu. Pro • Istnieje tylko kilka możliwych symptomów, a każdy
stą alternatywą jest zapamiętanie danych albo w arkuszu osobnik może mieć kilka z nich. Można stworzyć pew
kalkulacyjnym, albo w pakiecie baz danych. Niestety zakres ną liczbę zmiennych binarnych, które oznaczają, czy
dostępnych w nich procedur statystycznych jest najczęściej pacjent odpowiedział tak lub nie na temat obecności każ
mocno ograniczony i dla przeprowadzenia analiz trzeba dego możliwego symptomu. Na przykład: czy pacjent
zwykle przenieść dane do specjalistycznego pakietu staty kaszle?, czy pacjenta boli gardło?
stycznego. • Istnieje wielka liczba możliwych symptomów, lecz
Bardziej elastycznym sposobem rozwiązania problemu spodziewamy się, że każdy pacjent ma tylko kilka
jest umieszczenie danych w plikach ASCII lub plikach tek z nich. Można stworzyć pewną liczbę zmiennych nomi
stowych. Dane zapisane w formacie ASCII mogą być odczy nalnych; każda kolejna zmienna pozwala wtedy nazwać
tywane przez większość pakietów. Format ASCII składa się symptom występujący u pacjenta. Na przykład: jaki wy
po prostu z wierszy tekstu, który można oglądać na ekranie stąpił pierwszy symptom u pacjenta?, jaki był drugi
komputera. Zazwyczaj każda zmienna w pliku jest oddzielo symptom? Z góry trzeba tu zadecydować o maksymalnej
na od następnej pewnym ogranicznikiem, najczęściej spa liczbie symptomów, jakie mogą wystąpić u pacjenta.
cją lub przecinkiem. Jest to tzw. format swobodny.
Najprostszym sposobem wprowadzenia danych w forma
cie ASCII jest użycie edytora tekstowego lub pakietu edycyj
DANE NUMERYCZNE
nego. W formacie tym można też zapisać dane złożone w ar Dane numeryczne należy wprowadzać z taką samą dokład
kuszach kalkulacyjnych. Przy obu sposobach każdy wiersz nością, z jaką zostały one zmierzone, a jednostka pomiaru
danych odpowiada zazwyczaj innemu obiektowi badania, powinna być jednakowa dla wszystkich obserwacji w obrę
a każda kolumna odpowiada innej zmiennej, chociaż czasa bie zmiennej. Na przykład, masa powinna być wyrażona
mi stosowane są wiersze kontynuacyjne — gdy dla każdego w kilogramach lub funtach, lecz nigdy w obu jednostkach
obiektu zbierana jest duża liczba zmiennych. na zmianę.
12 Opracowywanie danych
własnego kodu dla wartości brakującej (najczęściej stosowa
KODOWANIE BRAKUJĄCYCH WARTOŚCI
ne wartości to 9,999 lub -99). Wybrana wartość musi być ta
Przed rozpoczęciem wprowadzania danych należy rozważyć, ką wartością, która nie może zaistnieć w tej zmiennej.
co chce się zrobić z danymi brakującymi. W większości przy Na przykład, przy wprowadzaniu zmiennej kategorialnej za
padków do reprezentowania brakujących danych trzeba użyć wierającej cztery kategorie (kodowane jako 1, 2,3 i 4) dla re
specjalnego symbolu. Pakiety statystyczne obsługują braki prezentowania wartości brakujących można wybrać kod 9.
danych w rozmaity sposób. Niektóre z nich używają znaków Jednakże, jeżeli zmienną jest wiek dziecka, należy wybrać
specjalnych (np. kropka lub gwiazdka) do wskazania braku inny kod. Zmienne brakujące zostaną dokładniej omówione
jących danych, podczas gdy inne wymagają zdefiniowania w rozdziale 3.
PRZYKŁAD
Rycina 2.1. Fragment arkusza kalkulacyjnego pokazujący dane zebrane w próbie 64 kobiet z wrodzonymi zaburzeniami krzepnięcia.
Dane zebrano w próbie 64 kobiet zarejestrowanych Schematy kodowania dla zmiennych kategorialnych
w centrum hemofilii w Londynie jako część badania znajdują się w dolnej części ryciny 2.1. Każdy wiersz ar
nad wpływem wrodzonych zaburzeń krzepnięcia na cią kusza reprezentuje kolejny obiekt badania; każda kolum
żę i poród. Kobietom zadawano pytania związane z ich na przedstawia inną zmienną. Jeżeli kobieta jest nadal
problemami krzepnięcia oraz pierwszą ciążą (lub ich w ciąży, jej wiek w chwili porodu został przeliczony
obecną ciążą, jeżeli w trakcie przeprowadzanego wywia na podstawie oszacowanej daty narodzin dziecka. Dane
du były po raz pierwszy w ciąży). Ryc. 2.1 zawiera nie związane z żywymi urodzeniami przedstawiono w roz
wielką część danych po ich wprowadzeniu do arkusza dziale 37.
kalkulacyjnego, lecz przed dokonaniem poprawek.
Dane uzyskane dzięki uprzejmości: dr. R. A. Kadira z University Department of Obstetrics and Gynaecology oraz profesora C. A. Lee
z Haemophilia Centrę and Haemostasis Unit, Royal Free Hospital, w Londynie.
2. Wprowadzanie danych 13
3 KONTROLA BŁĘDÓW I
W każdym badaniu zawsze istnieje możliwość pojawienia popełniony błąd. Nie należy zmieniać wartości tylko dlatego,
się błędów w zbiorze danych albo w fazie początkowej pod że wyglądają nietypowo.
czas dokonywania pomiarów, albo podczas ich zbierania,
przepisywania czy wprowadzania do komputera. Jednakże
liczbę błędów powstających przy wprowadzaniu i przepisy
OPRACOWYWANIE DANYCH BRAKUJĄCYCH
waniu można zredukować poprzez uważne sprawdzanie da Zawsze istnieje możliwość wystąpienia braku niektórych da
nych po ich wprowadzeniu. Proste wzrokowe przejrzenie nych. Jeżeli brakuje dużej części danych, to mało prawdopo
danych często pozwala wychwycić wartości, które są w spo dobne jest uzyskanie wiarygodnych rezultatów. Należy za
sób oczywisty błędne. W tym rozdziale sugerujemy pewne wsze zbadać przyczynę pojawiania się braków danych
techniki, których można używać przy sprawdzaniu danych. — jeżeli braki danych mają tendencję do skupiania się
w pewnej zmiennej i/lub w określonej podgrupie obiektów,
może to oznaczać, że zmienna nie jest stosowalna lub nigdy
BŁĘDY PRZY WPROWADZANIU nie została pomierzona dla tej grupy osób badanych. Jeżeli
Najczęstszym źródłem błędów przy wprowadzaniu danych to jest rzeczywistą przyczyną, może okazać się konieczne
jest tzw. palcówka. Przy małej liczbie danych można je porów wykluczenie tej zmiennej lub grupy obiektów z analizy.
nać z danymi na oryginalnych formularzach/kwestionariu Szczególne problemy możemy napotkać, kiedy szansa wystą
szach, aby sprawdzić, czy nie popełniono omyłki przy wprowa pienia zmiennych brakujących jest silnie związana z najbar
dzaniu. Jednakże przy dużej liczbie danych procedura ta jest dziej interesującą nas w badaniu zmienną (np. zmienną wy
niezwykle czasochłonna. Można również dwukrotnie wprowa nikową w analizie regresji — rozdział 27). W tej sytuacji
dzić te same dane i porównać oba pliki programem kompute nasze wyniki mogą być silnie obciążone (rozdział 12). Załóż
rowym. Każda różnica między oboma zestawami danych my na przykład, że jesteśmy zainteresowani pomiarem, któ
wskazuje na błąd przy wprowadzaniu. Chociaż podejście to ry odzwierciedla stan zdrowia pacjentów i dla niektórych
nie wyklucza możliwości, że ten sam błąd pojawi się w obu ze pacjentów brakuje tej informacji, ponieważ nie czuli się wy
stawach, lub tego, że sama wartość na formularzu/kwestiona starczająco dobrze, by pojawić się na zaplanowanej wizycie
riuszu jest nieprawidłowa, to jednak minimalizuje liczbę błę w klinice: jeżeli nie weźmiemy pod uwagę brakujących da
dów. Wadą tej metody jest fakt, iż zabiera ona dwukrotnie nych w analizie, najprawdopodobniej otrzymamy zbyt opty
więcej czasu przy wprowadzaniu danych, co powoduje konse mistyczny obraz ogólnego stanu zdrowia pacjentów. Możliwe
kwencje finansowe i czasowe. jest zredukowanie tego obciążenia przez zastosowanie odpo
wiednich metod statystycznych1 lub przez oszacowanie jakąś
metodą brakujących danych2, jednakże najbardziej pożąda
KONTROLA BŁĘDÓW ną opcją jest minimalizacja od samego początku liczby bra
kujących danych.
• Dane kategorialne — Stosunkowo łatwo można spraw
dzić dane kategorialne, skoro każda zmienna może przyjmo
wać tylko jedną z ograniczonej liczby wartości. Dlatego też
wartość niedozwolona musi być błędem. WARTOŚCI ODSKAKUJĄCE
• Dane numeryczne — Dane numeryczne są często trud Czym są wartości odskakujące?
ne do sprawdzenia, a jednocześnie podatne na błędy. Wartości odskakujące są obserwacjami, które różnią się
Na przykład, podczas wprowadzania danych numerycznych od większości danych i są niezgodne z pozostałymi danymi.
łatwo jest przestawić cyfry lub pozycję przecinka dziesięt Wartości te mogą być prawdziwymi obserwacjami osób ba
nego. Dane numeryczne można sprawdzać przez badanie danych z bardzo ekstremalnymi poziomami zmiennej. Jed
zakresu — dolnej i górnej granicy określonej dla danej nakże mogą też być wynikiem błędów przy wprowadzaniu
zmiennej. Jeżeli wartość leży poza zakresem, to zostaje za lub błędnego doboru jednostek i dlatego należy sprawdzić
znaczona dla dalszego badania. wszelkie podejrzane wartości. Istotną rzeczą jest wykrycie,
• Daty — Często sprawdzenie poprawności daty jest trud czy w zbiorze danych mamy do czynienia z wartościami od
ne, chociaż czasami wiadomo, że powinna ona należeć do skakującymi, gdyż mogą one mieć znaczący wpływ na wy
pewnego okresu czasu. Daty można sprawdzać w celu upew niki niektórych typów analiz (rozdział 29).
nienia się, że są one prawidłowe. Na przykład, 30 lutego mu Na przykład, kobieta o wzroście 7 stóp (213,5 cm) będzie
si być błędem, tak jak każdy dzień miesiąca powyżej 31 lub stanowiła wartość odskakującą w większości zbiorów da
każdy miesiąc powyżej 12. Można również stosować pewne nych. Chociaż wartość ta jest istotnie bardzo duża w porów
reguły logiczne. Na przykład, data urodzin pacjenta powinna naniu z przeciętnym wzrostem kobiet, może być wartością
odpowiadać jego/jej wiekowi, a pacjenci powinni zwykle ro
dzić się przed włączeniem do badania (przynajmniej w więk 1
szości badań). Dodatkowo, pacjenci, którzy zmarli, nie powin Laird N. M.: Missing data in longitudinal studies. Statistics in
ni się pojawiać na kolejnych wizytach kontrolnych! Medicine, 1988, 7, 305-315.
2
Engels J. M., Diehr R: Imputation of missing longitudinal data:
Przy poprawianiu wszystkich błędów wartość powinna a comparison of methods. Journal of Clinical Epidemiology, 2003,
zostać zmieniona jedynie wtedy, gdy mamy dowód, że został 56, 968-976.
14 Opracowywanie danych
prawdziwą, a kobieta ta może być po prostu bardzo wysoka.
W tym przypadku, zanim podejmiesz decyzję o ważności wy Radzenie sobie z wartościami odskakującymi
niku, jeśli to możliwe, powinieneś dalej zbadać tę wielkość, Jest rzeczą istotną, aby nie usuwać osoby badanej z analizy
kontrolując inne zmienne, takie jak wiek i masa ciała. War tylko dlatego, że jego/jej wartości pomiarowe są wyższe lub
tość powinna zostać zmieniona jedynie wtedy, gdy istnieje niższe, niż można się tego spodziewać.
wyraźny dowód, że jest ona nieprawdziwa. Jednakże włączenie wartości odskakujących może mieć
wpływ na wyniki niektórych technik statystycznych. Pro
Badanie wartości odskakujących stym wyjściem z tej sytuacji jest wykonanie analizy naj
Najprostszą metodą jest wydrukowanie danych i ich wzro pierw przy uwzględnieniu, a potem przy wykluczeniu tych
kowa kontrola. Przydaje się ona, gdy liczba obserwacji nie wartości. Jeżeli wyniki są zbliżone, oznacza to, że wartości
jest za duża i gdy potencjalna wartość odskakująca jest odskakujące nie mają na nie wielkiego wpływu.
o wiele mniejsza lub o wiele większa od pozostałych danych. Jednakże jeżeli wyniki drastycznie się zmieniają, należy
Badanie rozstępu również powinno pozwolić zidentyfikować zastosować odpowiednie metody, które podczas analizy da
możliwe wartości odskakujące. Alternatywę stanowi wykre nych nie zostają zaburzane przez wartości odskakujące. Me
ślenie w jakiś sposób danych (rozdział 4) — wartości odska tody te obejmują użycie transformacji (rozdział 9) i testów
kujące można łatwo identyfikować na histogramach i wy nieparametrycznych (rozdział 17).
kresach rozrzutu (zobacz również dyskusję o wartościach
odskakujących w analizie regresji w rozdziale 29).
Fo wprowadzeniu danych (rozdział 2), plik z danymi spraw wieku ciążowego i masy ciała) też są najprawdopodobniej
dzany jesr w celu usunięcia błędów. Niektóre ze wskaza błędami, lecz przed powzięciem decyzji należy sprawdzić
nych niezgodności su prostymi błędami popełnionymi materiały źródłowe, jako że mogą one być prawdziwymi
przy wprowadzaniu. Na przykład, kod „41" w kolumnie wartościami odskakującymi. W naszym przykładzie wiek
„płeć dziecka" dla pacjentki 'dO. jest nieprawidłowy i wyni ciążowy u pacjentki 27. wynosił 41 tygodni; zadecydowa
ka z pominięcia informacji o pici: pozostała część danych no, że masa 11,19 kg była nieprawidłowa. Ponieważ nie
pacjentki 20. została wprowadzona do nieprawidłowych można było odnaleźć prawidłowej masy ciała tego dziecka,
kolumn. 1'nzosiate (up. nietypowe wartości w kolumnach wartość wprowadzono jako brakującą.
Jedną z pierwszych rzeczy, które przydają się po wprowa • Wykres słupkowy lub kolumnowy — dla każdej katego
dzeniu danych do komputera, jest jakaś forma ich podsumo rii rysujemy osobny pionowy lub poziomy słupek, którego dłu
wania, tak abyśmy mogli „wyczuć" te dane. Można to uczynić gość jest proporcjonalna do częstości występowania danych
za pomocą diagramów, tabel i statystyk podsumowujących w tej kategorii. Słupki oddzielamy małymi przerwami, aby
(rozdziały 5 i 6). Diagramy są często skutecznymi narzędzia wskazać, że dane są kategorialne lub dyskretne (rycina 41a).
mi do przedstawiania danych, tworzenia prostych, podsumo • Wykres kołowy — dzielimy kółko na sekcje, po jednej
wujących rycin oraz wykrywania wartości odskakujących dla każdej kategorii, tak by powierzchnia każdej sekcji była
i trendów, zanim zostaną przeprowadzone jakiekolwiek for proporcjonalna do częstości występowania danych w tej ka
malne analizy. tegorii (rycina 4.Ib).
Często trudniej jest przedstawić dane numeryczne cią
gle, gdyż najpierw muszą być one wstępnie opisane suma
JEDNA ZMIENNA rycznie. Najczęściej stosuje się następujące diagramy:
Rozkłady częstości • Histogram — jest podobny do wykresu słupkowego,
Empiryczny rozkład częstości zmiennej wiąże każdą moż ale ponieważ dane są ciągłe, pomiędzy słupkami nie powin
liwą obserwację, klasę obserwacji (tj. zakres wartości) lub no być przerw (rycina 4.Id). Szerokość każdego słupka jest
kategorię z obserwowaną częstością jej pojawiania się. Je uzależniona od zakresu wartości dla danej zmiennej.
żeli zastąpimy każdą częstość przez częstość względną Na przykład, masa ciała dziecka (rycina 4.Id) może być ska
(procent całkowitej częstości), możemy porównywać rozkła tegoryzowana w przedziałach: 1,75-1,99 kg, 2,00-2,24 kg,
dy częstości w dwóch lub więcej grupach osób badanych. ..., 4,25-4,49 kg. Powierzchnia słupka jest proporcjonalna
do częstości występowania danych w tym zakresie. Dlatego,
Prezentacja rozkładów częstości jeżeli jedna grupa pokrywa szerszy zakres wartości niż in
Jeżeli wyznaczyliśmy częstości (lub częstości względne) dla ne, jej podstawa będzie szersza, a wysokość mniejsza.
danych kategorialnych lub niektórych numerycznych dys Zwykle stosuje się od 5 do 20 grup: zakresy powinny być
kretnych, możemy je przedstawić graficznie. na tyle wąskie, by mogły zilustrować charakterystyczne
Rycina 4.1. Wybór graficznych metod, które mogą służyć do prezentacji danych położniczych dla kobiet z zaburzeniami krzepliwości (rozdział 2).
(a) Wykres słupkowy pokazujący procent kobiet w badaniu, które wymagały znieczulenia przy użyciu każdego z wymienionych zabiegów podczas
porodu; (b) Wykres kołowy ukazujący procent kobiet w badaniu z każdym typem zaburzeń krzepliwości; (c) Segmentowany wykres kolumnowy
pokazujący częstość występowania krwawienia z dziąseł u kobiet z różnego typu zaburzeniami krwawienia; (d) Histogram pokazujący masę uro-
dzeniową noworodka; (e) Wykres punktowy pokazujący wiek matki w chwili porodu, z medianą wieku zaznaczoną jako linia pozioma; (f) Wykres
rozrzutu ukazujący zależność między wiekiem matki w chwili porodu (na osi poziomej, osi xl i masą ciała noworodka (na osi pionowej, osi y).
16 Opracowywanie danych
3 1,0 0,4 odpowiedni percentyl, np. piąty i dziewięćdziesiąty piąty
(rozdział 6, rycina 6.1). Na wykresie tym można również za
665 1,1 39
znaczyć wartości odskakujące.
53 1,2 99
9751 1,3 1135677999 Kształt rozkładu częstości
955410 1,4 0148
Wybór najodpowiedniejszej metody statystycznej często za
leży od kształtu rozkładu. Rozkład danych jest najczęściej
987655 1,5 00338899
jednomodalny, przez co posiada jeden pik. Czasami rozkład
9531100 1,6 001355 jest bimodalny (dwa piki) lub równomierny (każda wartość
731 1,7 00114569 jest jednakowo prawdopodobna, na skutek czego nie wystę
puje żaden pik). W przypadku rozkładu jednomodalnego za
99843110 1,8 6
sadniczym celem jest wskazanie, gdzie leży większość da
654400 1,9 01 nych w stosunku do wartości maksymalnej i minimalnej.
6 2,0 W szczególności należy oszacować, czy rozkład jest:
7 2,1 19 • symetryczny — scentrowany wokół pewnego punktu
środkowego, z jedną stroną będącą lustrzanym odbiciem
10 2,2
drugiej strony (rycina 5.1);
dipropionian placebo • przekrzywiony w prawo (dodatnio skośny) — ma dłu
beklometazonu gi ogon złożony z jednej lub większej liczby wysokich war
tości. Takie dane są często spotykane w badaniach medycz
nych (rycina 5.2);
Rycina 4.2. Wykres typu „łodyga z liśćmi" ukazujący FEV1 (1) u dzie
• przekrzywiony w lewo (ujemnie skośny) — ma długi
ci inhalujących dipropionian beklometazonu lub placebo (rozdział 21).
ogon złożony z jednej lub większej liczby niskich wartości
(rycina 4.Id).
wzory w rozkładzie danych, lecz nie aż tak wąskie, by
przedstawiały indywidualne dane. Histogram powinien zo
DWIE ZMIENNE
stać opisany starannie, tak aby granice między kategoriami
byty wyraźnie zdefiniowane. Jeżeli jedna zmienna jest kategorialna, możemy narysować
• Wykres punktowy — każda obserwacja jest reprezen osobne diagramy pokazujące rozkłady drugiej zmiennej dla
towana przez jedną kropkę na poziomej (lub pionowej) linii każdej z kategorii. Inne wykresy odpowiednie dla takich da
(rycina 4.1e). Jest to bardzo prosty sposób przedstawiania nych to wykresy słupkowe, kolumnowe klasteryzowane lub
danych, lecz może być niewygodny przy dużych zbiorach. segmentowane (rycina 4.1c).
Często na diagramach pokazuje się miarę zbiorczą, taką jak Jeżeli obie zmienne są numeryczne lub porządkowe,
średnia czy mediana (rozdział 5). Taki typ wykresu może można przedstawić związek między nimi za pomocą wykre
być stosowany również dla danych dyskretnych. su rozrzutu (rycina 4. ID. Na diagramie dwuwymiarowym
• Wykres typu „łodyga z liśćmi" — jest to połączenie wykreśla się wartość jednej zmiennej w zależności od dru
diagramu i tablicy; przypomina histogram położony na boku giej. Jedna zmienna jest zwykle nazywana zmienną x i jest
i jest faktycznie zbiorem wartości danych zapisanych w kie przedstawiana na osi poziomej. Druga zmienna, nazywana
runku rosnącym. Zazwyczaj rysuje się pionową „łodygę", zmienną y, jest wykreślana na osi pionowej.
złożoną z pierwszych kilku cyfr mierzonych wartości, upo
rządkowanych w jakimś kierunku. Z „łodygi" wystają „li
IDENTYFIKACJA WARTOŚCI ODSKAKUJĄCYCH
ście" — tj. końcowe cyfry każdej uporządkowanej wielkości,
które zapisujemy w układzie poziomym (rycina 4.2) we METODAMI GRAFICZNYMI
wzrastającym porządku numerycznym. Często wartości skrajne możemy wykrywać przy użyciu pre
• Wykres skrzynkowy (zwany często „pudełkiem z wą zentacji danych jednej zmiennej. Na przykład, bardzo długi
sami") — jest to ustawiony pionowo lub poziomo prostokąt, ogon po jednej stronie histogramu może wskazywać na war
którego boki odpowiadają górnemu lub dolnemu kwartylowi tość odskakującą. Jednakże czasami wartości odskakujące
wartości pomiarowych (rozdział 6). Linia przeprowadzona stają się widoczne dopiero wtedy, gdy analizujemy związek
przez prostokąt oznacza medianę (rozdział 5). Wąsy rozpo pomiędzy dwoma zmiennymi. Na przykład, masa 55 kg nie
czynające się na bokach prostokąta zazwyczaj reprezentują będzie niespotykana u kobiety o wzroście 1,6 m, lecz będzie
wartości minimalną i maksymalną, lecz czasami oznaczają nieprawdopodobnie niska u kobiety o wzroście 1,9 m.
ŚREDNIA WAŻONA
MEDIANA
Średniej ważonej używamy wtedy, gdy pewne wartości in
Jeżeli uporządkujemy dane w kierunku ich wzrostu, rozpo teresującej nas zmiennej są ważniejsze niż inne. W celu
czynając od najmniejszej wartości i kończąc na największej, uwidocznienia stopnia ważności dołączamy wagi w{ do każ
wtedy medianą będzie wartość środkowa uporządkowane dej wartości x; z naszej próbki. Jeżeli wartości
go szeregu. Mediana dzieli uporządkowany zbiór wartości xn mają odpowiadające wagi średnia wa
na dwie polowy, z równą liczbą wartości powyżej i poniżej żona jest określona jako:
mediany. Łatwo jest wyznaczyć medianę, gdy liczba obser
wacji n jest nieparzysta. Jest ona (n + D/2 obserwacją
w uporządkowanym szeregu. Tak więc, jeśli na przykład
n = 11, to mediana jest (11 + D/2 = 12/2 = 6 (szóstą) war
18 Opracowywanie danych
Tablica 5.1. Zalety i wady miar przeciętnych.
Miara
przeciętna Zalety Wady
Średnia • Można ją stosować • Zniekształcana przez
w przypadku wszystkich wartości odskakujące.
wartości. • Zniekształcana w przy
• Zdefiniowana algebra padku rozkładów sko
icznie, łatwa w algo- śnych.
rytmizacji.
• Znany rozkład próbko
wania (rozdział 9).
Mediana • Nie jest zniekształca * Pomija większość do
na przez wartości stępnych informacji.
odskakujące. • Nie zdefiniowana alge
• Nie zniekształcana braicznie.
przez dane skośne. • Skomplikowany rozkład
Wiek matki w chwili narodzin dziecka (w latach) próbkowania.
Modalna • Łatwo daje się wyzna • Pomija większość do
Rycina 5.1. Średnia, mediana i średnia geometryczna wieku kobiet czać dla danych kate- stępnych informacji.
w chwili narodzin dziecka, w badaniu opisanym w rozdziale 2. Ja gorialnych. • Nie zdefiniowana alge
ko że rozkład wartości oznaczających wiek wygląda na symetrycz braicznie.
ny, trzy miary „przeciętnej" dają podobne wyniki, jak wskazuje • Nieznany rozkład prób
przerywana linia. kowania.
Średnia • Przed transformacją • Daje się stosować jedy
geome- odwrotną ma takie nie w przypadku, gdy
tryczna same zalety jak średnia. transformacja logaryt
• Odpowiednia dla roz miczna wytwarza roz
kładów prawoskośnych. kład symetryczny.
Średnia • Takie same zalety jak • Wagi muszą być znane
ważona średnia. lub oszacowane.
• Przypisuje względną
wagę do każdej obser
wacji.
• Zdefiniowana algebra
icznie.
Rycina 6.1. Wykres skrzynkowy masy urodzeniowej noworodka Rycina 6.2. Diagram pokazujący rozproszenie wybranych wartości
(rozdział 2). Na rycinie znajduje się mediana, rozstęp międzykwar wieku matki w chwili porodu (rozdział 2) wokół wartości średniej.
tylowy, rozstęp zawierający centralne 95% obserwacji oraz maksi Wariancja jest obliczana przez dodanie podniesionych do kwadratu
mum i minimum. odległości między poszczególnymi punktami a średnią i następnie
podzielenie przez (n - 1).
20 Opracowywanie danych
i - £x,- /AI, obliczamy wariancję tych obserwacji, zwykle wynikami. Może się to zdarzyć dlatego, że dany osobnik nie
omaczoną pr2ez s 2 , jako zawsze odpowiada w dokładnie ten sam sposób i/lub
z powodu błędu pomiarowego. Jednakże wariancja we
wnątrzgrupowa jest z reguły mniejsza niż wariancja, którą
wyznaczymy, biorąc pojedynczy pomiar każdego osobnika
Jak widać, nie jest to dokładnie sama średnia arytme w grupie (zmienność międzygrupowa). Na przykład, 17-let-
tyczna kwadratów odległości, ponieważ dokonujemy dziele ni chłopiec ma pojemność życiową płuc pomiędzy 3,60
nia przez n - 1 zamiast przez n. Przyczyną tego jest fakt, że a 3,87 1, gdy pomiar jest wykonywany dziesięciokrotnie.
w naszych badaniach niemal zawsze opieramy się na próbie Wartość pojedynczych pomiarów zebranych u 10 chłopców
danych (rozdział 10). Można wykazać teoretycznie, że otrzy w tym samym wieku zawiera się natomiast między 2,98
mamy lepsze oszacowanie wariancji w populacji, gdy doko a 4,33 1. Te pojęcia są ważne przy planowaniu badania (roz
namy dzielenia przez (n- 1). dział 13).
Jednostką wariancji jest jednostka oryginalnej obserwa
cji podniesiona do kwadratu, tj. jeżeli zmienna mierzona
Tablica 6.1. Zalety i wady miar rozproszenia.
jest w kg, jednostką wariancji jest kg2.
Miara
rozproszenia Zalety Wady
ODCHYLENIE STANDARDOWE Rozstęp • Łatwo daje się wy • Można go stosować
Odchylenie standardowe jest pierwiastkiem kwadratowym znaczyć. w przypadku tylko
2 wariancji. W próbie n obserwacji jest równe: dwóch wartości.
• Zniekształcany przez
wartości odskakujące.
• Ma tendencję do wzro
stu, gdy rośnie wiel
kość próby.
Możemy wyobrazić sobie odchylenie standardowe jako
Rozstęp • Zazwyczaj nie znie • Trudny do policzenia.
rodzaj wartości przeciętnej odległości obserwacji od warto
oparty kształcany przez • Nie może być stosowany
ści średniej. Jest ono wyrażone w tych samych jednostkach,
o percentyle wartości odskakujące. dla małych prób.
co dane surowe.
• Niezależny od wiel • Bierze pod uwagę jedy
Jeżeli podzielimy odchylenie standardowe przez wartość kości próby. nie dwie wartości.
średnią i wyrazimy ten iloraz w procentach, otrzymamy • Odpowiedni dla • Niezdefiniowany alge
tzw. współczynnik zmienności. Jest on miarą rozproszenia danych skośnych. braicznie.
niezależną od jednostek, lecz powoduje pewne teoretyczne • Jednostka miary jest
Wariancja • Wykorzystuje
niedogodności, na skutek czego nie jest lubiany przez staty wszystkie wartości. kwadratem jednostki
styków. • Zdefiniowana alge pomiaru surowego.
braicznie.
Odchylenie • Te same zalety jak • Czułe na wartości
ZMIENNOŚĆ W OBRĘBIE OBIEKTÓW standardowe wariancji. odskakujące.
I MIĘDZY NIMI • Jednostka miary jest • Niewłaściwe dla danych
taka sama jak jedno skośnych.
Jeżeli wykonamy powtórzone pomiary zmiennej ciągłej dla
stka pomiaru surowego.
jednego osobnika, możemy się spodziewać, że wystąpi pew • Łatwe w interpretacji.
na zmienność (zmienność wewnątrzgrupowa) między jego
W rozdziale 4 pokazałyśmy, jak z danych obserwacyjnych wtedy prawdopodobieństwo, że pacjent ma zęby, wynosi
utworzyć empiryczny rozkład częstości. Rozkład ten kontra 0,67 + 0,24 = 0,91.
stuje z teoretycznym rozkładem prawdopodobieństwa, który • Reguła mnożenia — jeżeli dwa zdarzenia, A i B, są
jest opisany modelem matematycznym. Jeżeli nasz ekspery niezależne (tj. wystąpienie jednego ze zdarzeń nie warun
mentalny rozkład przybliża jakiś szczególny rozkład częstotli kuje drugiego zdarzenia), wtedy prawdopodobieństwo, że
wości, wtedy możemy wykorzystać wiedzę teoretyczną o tym zajdą oba zdarzenia, jest równe iloczynowi prawdopodo
rozkładzie do udzielenia odpowiedzi na temat danych. Często bieństw zajścia każdego z nich:
trzeba w tym celu obliczyć prawdopodobieństwo.
Prób (A i B) = Prob(A) x ProWB)
Jeżeli np. dwóch niespokrewnionych pacjentów czeka u chi
ZROZUMIENIE PRAWDOPODOBIEŃSTWA rurga stomatologicznego, prawdopodobieństwo, że obaj nie
Prawdopodobieństwo (prób — probability) jest miarą nie mają brakujących zębów wynosi 0,67 x 0,67 = 0,45.
pewności; leży u podstaw teorii statystyki. Mierzy ono
szanaę wystąpienia danego zdarzenia i jest liczbą dodatnią
leżąca pomiędzy zerem a jedynką. Jeżeli jest równe zero, to ROZKŁADY PRAWDOPODOBIEŃSTWA:
zdarzenie nie może się pojawić. Jeżeli jest równe jeden, to TEORIA
zdar2enie musi się pojawić. Zjawisko zdarzenia dopełniają Zmienna losowa jest wielkością, którą może przyjąć każda ze
cego (zdarzenia niepojawiającego się) jest równe jeden mi zbioru wzajemnie wykluczających się wielkości z określonym
nus prawdopodobieństwo zdarzenia pojawiającego się. prawdopodobieństwem. Rozkład prawdopodobieństwa poka
Prawdopodobieństwo zdarzenia warunkowego, tzn. praw zuje prawdopodobieństwa wszystkich możliwych wartości
dopodobieństwa zdarzenia, które zachodzi, jeżeli wystąpiło zmiennej losowej. Jest to rozkład teoretyczny, wyrażony ma
inne zdarzenie, omówimy w rozdziale 45. tematycznie, posiadający średnią i wariancję, podobnie jak
Prawdopodobieństwo możemy wyznaczyć, stosując róż posiada je rozkład empiryczny. Każdy rozkład prawdopodo
ne podejścia. bieństwa jest zdefiniowany pewnymi parametrami, które są
• Subiektywne — stopień naszej osobistej wiary, że miarami podsumowującymi (np. średnia, wariancja), charak
zdarzenie nastąpi (np. że koniec świata nastąpi pod koniec teryzującymi ten rozkład (tzn. znajomość tych parametrów
2050 roku). pozwala w pełni opisać rozkład). Parametry te są oszacowy
• Częstościowe — proporcja liczby zdarzeń zjawiska wane w próbie przez odpowiednie statystyki. W zależności
przy eksperymencie powtarzanym wielką liczbę razy (np. od tego, czy zmienna losowa jest dyskretna, czy ciągła, roz
ile razy otrzyma się „orła" przy tysiąckrotnym rzucaniu nie kład prawdopodobieństwa może być dyskretny lub ciągły.
zafałszowanej monety). • Dyskretny (np. dwumianowy, Poissona) — możemy
• Aprioryczne — wymaga znajomości modelu teoretycz otrzymać prawdopodobieństwa odpowiadające każdej moż
nego, zwanego rozkładem częstości, który opisuje prawdo liwej wartości zmiennej losowej. Suma wszystkich tych
podobieństwa wszystkich możliwych wyników eksperymen prawdopodobieństw wynosi jeden.
tu. Na przykład, teoria genetyczna pozwala opisać rozkład • Ciągły (np. normalny, Chi-kwadrat, r i F) — możemy
prawdopodobieństwa otrzymania określonego koloru oczu jedynie wyznaczyć prawdopodobieństwo, że zmienna loso
u dziecka zrodzonego z niebieskookiej kobiety i mężczyzny wa x przybierze wartość z pewnego przedziału (ponieważ
o oczach brązowych. Odbywa się to przez wyszczególnienie istnieje nieskończenie wiele wartości dla x). Jeżeli pozioma
wszystkich możliwych genotypów koloru oczu i prawdopo oś przedstawia wartości x, możemy narysować krzywą
dobieństw ich wystąpienia. z równania rozkładu (funkcja gęstości rozkładu prawdopo
dobieństwa); przypomina ona empiryczny, względny roz-
REGUŁY PRAWDOPODOBIEŃSTWA
Catkowite pole pod krzywą = 1 (lub 100%)
Możemy stosować reguły dodawania i mnożenia prawdopo
dobieństw.
• Reguła dodawania — jeżeli dwa zdarzenia, A i B, wza
jemnie się wykluczają (tzn. każde wystąpienie jednego zda
rzenia wyklucza pojawienie się drugiego), wtedy prawdopo
dobieństwo pojawienia się jednego lub drugiego zdarzenia
jest równe sumie prawdopodobieństw pojawienia się każde
go ze zdarzeń.
Prób (A lub B) = Prób (A) + Prób (B)
Jeżeli np. prawdopodobieństwo, że w pewnym gabinecie
dentystycznym pojawi się dorosły pacjent bez brakujących
zębów, z niektórymi brakującymi zębami lub bezzębny (tzn.
nie mający zębów), wynosi odpowiednio 0,67, 0,24 i 0,09, Rycina 7.1. Funkcja gęstości prawdopodobieństwa (pdf) zmiennej x.
22 Opracowywanie danych
Rycina 7.2. Funkcja gęstości praw
dopodobieństwa rozkładu normalne
go zmiennej x.
(a) Symetryczna wokói średniej fi:
wariancja = a .
2
Rycina 8.1. Rozkłady t z liczbą stopni swobody (df) = 1, 5, 50 i 500. Rycina 8.2. Rozkłady Chi-kwadrat z liczbą stopni swobody (df) = 1,
2, 5 i 10.
24 Opracowywanie danych
Rycina 8.3. (a) Rozkład lognormalny
poziomów trójglicerydów u 232 męż
czyzn, u których wystąpiła choroba
serca (rozdział 19); (b) przybliżony roz
kład normalny wartości log10 (poziom
trójglicerydów).
Rycina 8.4. Rozkład dwumianowy pokazujący liczbę sukcesów r, gdy prawdopodobieństwo sukcesu wynosi n - 0,20 dla wielkości próby
ta) n = 5, (b) n = 10, i (c) n - 50. (Notabene, w rozdziale 23 obserwowana częstość występowania seropozytywności HHV-8 wynosi
p= 0,187 = 0,2, a wielkość próby wynosiła 271; przyjęto, że proporcja podlega rozkładowi normalnemu).
26 Opracowywanie danych
Rycina 9.2. Efekt transforma
cji podnoszenia do kwadratu:
(a) normalizacja, (b) linearyza-
cja, (c) stabilizacja wariancji.
9. Transformacje 27
10 PRÓBKOWANIE I ROZKŁADY PRÓBKOWANIA
28 Próbkowanie i estymacja
SD CZY SEM?
Chociaż oba parametry wyglądają podobnie, są używane do gdzie r jest liczbą obiektów w próbie posiadających pewną
różnych celów. Odchylenie standardowe opisuje zmiany war własność. Jeżeli wielokrotnie losujemy z naszej populacji pró
tości danych i powinno być używane, gdy chcemy ilustrować by o wielkości n i wykreślamy estymator proporcji w postaci
ich zmienność. W przeciwieństwie do tego, błąd standardowy histogramu, to rozkład próbkowania proporcji będzie
opisuje precyzję estymacji średniej w próbie i powinien być w przybliżeniu rozkładem normalnym z wartością średnią n.
używany, gdy jesteśmy zainteresowani średnią w zbiorze da Odchylenie standardowe tego rozkładu estymowanych pro
nych. porcji jest błędem standardowym proporcji. Jeżeli losujemy
tylko pojedynczą próbę, jest on określany przez wyrażenie:
PRZYKŁAD
Rycina 10.1. la) Teoretyczny rozkład normalny log10 (poziomów trójglicerydów), ze średnią = 0,31 log10 (mmol/L) i odchyleniem stan
dardowym = 0,24 log]0 (mmol/L), oraz obserwowane rozkłady średnich 100 próbek losowych o wielkościach: (b) 10, (c) 20 i (d) 50, po
chodzących z tfgo rozkładu teoretycznego.
30 Próbkowanie i estymacja
ryczną, od zmienności danych. Dlatego matę badania na da dwa stopnie swobody. Podobnie, liczba stopni swobody wa
nych o dużej zmienności dają szersze przedziały ufności niż riancji próby (rozdział 6), jest równa wielko
większe badania z mniej zmiennymi danymi.
ści próby minus jeden, ponieważ w celu obliczenia s2 musi
• Jakie z tego można wyciągnąć wnioski kliniczne?
Górna i dolna granica zapewniają określenie, czy wyniki są my obliczyć średnią próby (x), czyli estymator średniej po
klinicznie istotne (patrz przykład). pulacyjnej.
• Czy zawiera szczególnie interesujące wielkości? Mo
żemy sprawdzić, czy hipotetyczna wartość dla parametru po
pulacyjnego wpada do przedziału ufności. Jeżeli tak, to nasze
BOOTSTRAPPING
wyniki są zgodne z wartością hipotetyczną. Jeżeli nie, wtedy Bootstrappingjest procesem komputerowej intensywnej sy
jest nieprawdopodobne, aby parametr miał taką wartość (dla mulacji, który możemy wykorzystać w celu otrzymania prze
95% przedziału ufności szansa wynosi co najwyżej 5%). działu ufności dla parametru, jeżeli nie chcemy przyjmować
założeń na temat rozkładu próbkowania jego estymatora (np.
rozkładu normalnego dla średniej próby). Z próby oryginalnej
LICZBA STOPNI SWOBODY tworzymy wielką liczbę próbek losowych (zwykle co naj
W statystyce spotyka się określenie „liczba stopni swobody". mniej 1000), wszystkie o tej samej wielkości co próba orygi
Ogólnie można je wyznaczyć jako wielkość próby minus licz nalna, poprzez próbkowanie ze zwracaniem, tzn. pozwalając
ba ograniczeń w określonych obliczeniach; ograniczenia te obiektowi, który został wybrany, na ponowne włączenie do
mogą być parametrami, które mamy wyznaczyć. Jako prostą losowania, tak że obiekt może być wybrany więcej niż raz
ilustrację tego zagadnienia rozważmy zespół trzech liczb, w danej próbie. Każda próba dostarcza estymator parame
które dają sumę (T). Dwie z tych liczb mogą „swobodnie" tru, a zmienność rozkładu tych estymatorów wykorzystywa
przyjąć dowolną wielkość, podczas gdy trzecia jest ustalona na jest do uzyskania przedziału ufności dla parametru (np.
przez ograniczenia nałożone przez 71 Dlatego liczby mają percentyle 2,5 oraz 97,5 dają 95% przedział ufności).
PRZYKŁAD
Przedział ufności dla średniej Przedział ufności dla proporcji
Chcemy wyznaczyć średni wiek podczas pierwszego poro 27 (42,2%) spośród 64 włączonych do badania kobiet zgła
du u kobiet z zaburzeniami krwawienia. W próbie mamy szało, że co najmniej raz w tygodniu mają krwawienie
49 takich kobiet (rozdział 2): z dziąseł. Jest to stosunkowo wysoki procent i może służyć
jako sposób identyfikacji nie zdiagnozowanych kobiet z za
Średni wiek w chwili porodu x - 27,01 lat. burzeniami krwawienia w całej populacji. Obliczamy 95%
Odchylenie standardowe s = 5,1282 lat. przedział ufności dla proporcji kobiet z krwawiącymi dzią
słami w populacji.
Błąd standardowy SEM = = 0,7326 lat.
Proporcja w próbie = 27/64 = 0,422.
Zmienna ma w przybliżeniu rozkład normalny, ale po
nieważ wariancja jest nieznana, do wyznaczenia przedzia
Błąd standardowy proporcji = =0,0617.
łu ufności używamy rozkładu t. 95% przedział ufności dla
średniej wynosi:
95% przedział ufności = 0,422 ± (1,96 x 0,0617) =
27,01 ± (2,011 x 0,7326) = (25,54, 28,48) lat,
= (0,301, 0,543).
gdzie 2,011 jest punktem procentowym rozkładu t
z (49 - 1) = 48 stopniami swobody dającym dwustronne Jesteśmy pewni na 95%, że prawdziwy procent kobiet
prawdopodobieństwo równe 0,05 (Dodatek A2). z zaburzeniami krwawienia w populacji, które doświad
Jesteśmy na 95% pewni, że prawdziwy wiek średni czyły krwawienia z dziąseł, leży pomiędzy 30,1% i 54,3%.
przy pierwszym porodzie w populacji kobiet z zaburzenia Jest to całkiem szeroki przedział ufności, sugerujący małą
mi krzepnięcia wynosi pomiędzy 25,54 i 28,48 lat. Ten dokładność; większa próba pozwoli nam uzyskać bardziej
przedział jest całkiem wąski, co wskazuje na to, że esty dokładny estymator. Jednakże zarówno górna, jak i dolna
mator jest dokładny. W całej populacji w roku 1997 śred granica tego przedziału ufności wskazują na to, że duża
ni wiek przy pierwszym porodzie wynosił 26,8 lat. Jako że część tych kobiet miała prawdopodobnie krwawienie
26,8 wpada do naszego przedziału ufności, nie ma dowodu z dziąseł. Musimy więc zdobyć oszacowanie częstości tych
na to, że kobiety z zaburzeniami krzepnięcia rodzą dzieci dolegliwości w całej populacji, zanim wyciągniemy jakie
w starszym wieku niż pozostałe. kolwiek wnioski o wykorzystaniu tej wartości w diagnozo
Należy zwrócić uwagę, że 99% przedział ufności (25,05, waniu kobiet z zaburzeniami krzepnięcia.
2H,97 lat) jest nieco szerszy niż przedział 95%, co odzwier
ciedla zwiększony poziom ufności, że średnia leży w prze
dziale.
Zaplanowanie badania jest nadzwyczaj ważne, gdyż badania nik. Badania kliniczne (rozdział 14) są przykładem badań
źle zaprojektowane mogą dać mylące rezultaty. Duża liczba eksperymentalnych, w których eksperymentator wprowadza
danych ze słabego badania nie zrekompensuje problemów pewien sposób leczenia. Należą do nich również badania ze
związanych z tym, jak zostało zaprojektowane. W tym roz zwierzętami lub badania laboratoryjne, które przeprowadza
dziale oraz w rozdziale 13 przedyskutujemy główne aspekty ne są w warunkach eksperymentalnych. Badania ekspery
planowania badania. W rozdziałach 14-16 omówimy specy mentalne dostarczają najbardziej przekonujących dowodów
ficzne typy badań: badania kliniczne, kohortowe i przypa- dla każdej hipotezy, gdyż ogólnie rzecz biorąc, pozwalają na
dek-kontrola. kontrolę czynników, które mogą wpływać na wynik. Jednak
Na samym początku należy jasno sformułować cel każde że nie zawsze badania te są wykonalne, a gdy angażują lu
go badania. Możemy chcieć oszacować parametr w populacji, dzi albo zwierzęta, mogą być nieetyczne.
taki jak ryzyko wystąpienia jakiegoś zdarzenia (rozdział 15), • Badania obserwacyjne, na przykład kohortowe (rozdział
rozpatrywać związek między określonym czynnikiem etiolo 15) lub badania przypadek-kontrola (rozdział 16), polegają na
gicznym a wynikiem badania lub zbadać efekt jakiegoś zabie tym, że badacz nie robi niczego, co mogłoby wpłynąć na wy
gu (takiego jak nowy sposób leczenia). Istnieje wiele możli nik, lecz po prostu obserwuje zdarzenia. Badania te mogą do
wych sposobów planowania każdego takiego badania. starczyć mniej informacji niż badania eksperymentalne, po
Ostateczny wybór schematu będzie zależał nie tylko od ce nieważ często nie mamy możliwości kontrolowania wszystkich
lów, lecz także od dostępnych źródeł i argumentów etycznych czynników zaburzających wynik. Jednakże, w pewnych sytu
(patrz tablica 12.1). acjach, mogą one być jedynym sposobem badania, który jest
pomocny lub możliwy. Badania epidemiologiczne, określają
ce związek między interesującymi czynnikami a chorobą
BADANIA EKSPERYMENTALNE w populacji są badaniami obserwacyjnymi.
CZY OBSERWACYJNE
• Badania eksperymentalne mają taki charakter, że in
terwencja badacza może w pewien sposób wpływać na wy
32 Planowanie badania
OKREŚLENIE PRZYCZYNOWOŚCI ści ze stwierdzeniem, czy zmiany w czasie po prostu nie od
W BADANIACH OBSERWACYJNYCH zwierciedlają istniejących różnic między grupami badanych
osobników.
Chociaż najbardziej przekonujący dowód na sprawczą rolę • Badania longitudinalne polegają na śledzeniu próby
czynnika w chorobie zwykle pochodzi z badań eksperymen osobników w czasie. Z reguły są badaniami prospektywny
talnych, można również wykorzystać informację z badań ob mi, w których obiekty obserwuje się od pewnego momentu
serwacyjnych przy założeniu, że spełnione są pewne kryte (rozdział 15). Czasami badania retrospektywne, w których
ria. Najbardziej znane kryteria określania przyczynowości wybiera się osobników i identyfikuje czynniki (rozdział 16),
1
zostały zaproponowane przez Hilla . jakie pojawiły się w przeszłości, również są traktowane jako
• Przyczyna musi poprzedzać skutek. longitudinalne. Badania longitudinalne trwają z reguły dłu
• Związek powinien być wiarogodny, tzn. wyniki powin żej niż badania przekrojowe, więc wymagają więcej zasobów
ny być sensowne pod względem biologicznym. i jeżeli polegają na pamięci pacjenta lub na rejestrach medycz
• Wyniki z wielu źródeł powinny być ze sobą zgodne. nych, mogą podlegać obciążeniu (zob. koniec tego rozdziału).
• Związek między przyczyną a skutkiem powinien być Badania eksperymentalne są na ogół prospektywne, gdyż
silny. analizują wpływ interwencji na wynik, który pojawi się
• W odniesieniu do skutku powinien występować zwią w przyszłości. Jednakże badania obserwacyjne mogą być za
zek typu dawka-odpowiedź, tzn. wyższe poziomy oddziały równo prospektywne, jak i retrospektywne.
wania powinny prowadzić do cięższych chorób lub bardziej
gwałtownego napadu choroby.
• Usunięcie badanego czynnika powinno zmniejszać ry GRUPY KONTROLNE
zyko wystąpienia choroby. Użycie grup porównawczych lub grup kontrolnych jest rze
czą istotną przy planowaniu badania i interpretowaniu ja
BADANIA PRZEKROJOWE kichkolwiek jego wyników. Na przykład, kiedy oceniamy
LUB LONGITUDINALNE przyczynową rolę określonego czynnika w wystąpieniu cho
roby, ryzyko choroby powinno być oceniane zarówno u nara
• Badania przekrojowe wykonywane są w konkretnym żonych, jak i nienarażonych na interesujący czynnik (rozdzia
momencie. Należą do nich przegląd literatury i spisy ludno ły 15 i 16). Patrz także „Porównywanie sposobów leczenia"
ści w populacji. Są one szczególnie przydatne w oszacowaniu w rozdziale 14.
punktowego rozpowszechnienia warunków w populacji.
34 Planowanie badania
stopnia przydatności aspiryny i beta-karotenu w zapobiega Oceniamy efekt poziomu beta-karotenu przez porównanie
niu chorobom serca i nowotworom. Użyto w nim schematu pacjentów z lewej kolumny z tymi z prawej kolumny. Podob
czynnikowego 2 x 2 z dwoma czynnikami będącymi dwoma nie możemy ocenić efekt poziomu aspiryny przez porównanie
różnymi związkami i dwoma poziomami każdego z nich, pacjentów w górnym wierszu z tymi z dolnego wiersza. Do
wskazującymi, czy lekarz otrzyma! związek aktywny, czy je datkowo możemy ocenić, czy oba czynniki wchodzą w inte
go placebo (patrz rozdział 14). Tablica 13.1 pokazuje możliwe rakcję, tzn. czy efekt poziomu beta-karotenu jest różny dla
kombinacje leczenia. dwóch poziomów aspiryny.
Jeżeli efekty się różnią, mówimy, że istnieje interakcja
między dwoma czynnikami (rozdział 34). W tym przypadku
interakcja sugerowałaby, że kombinacja aspiryny i beta-ka
Tablica 13.1. Kombinacje aktywnego leczenia. rotenu razem wziętych jest bardziej (lub mniej) efektywna,
Beta-karoten niż moglibyśmy się spodziewać z prostego dodawania osob
Aspiryna Nie Tak nych efektów każdego leku. Schemat ten pozwala więc uzy
skać dodatkową informację w stosunku do dwóch osobnych
Nie Żaden Beta-karoten badań i jest bardziej efektywnym sposobem wykorzystania
Tak Aspiryna Aspiryna + beta-karoten zasobów informacji, gdyż wymaga mniej licznej próby dla
uzyskania estymatorów o określonym stopniu dokładności.
(a)Równolegty
Populacja
Stosowanie Ocena
terapii odpowiedz,
Porównanie
Ocena odpowiedzi
Próba wstępna
(między
pacjentami)
Stosowanie Ocena
leczenia odpowiedzi.
kontrolnego
(b) Naprzemienny
Porównanie odpowiedzi
(w obrębie pacjentów)
Populacja
Stosowanie Stosowanie
Ocena ' Ocena ł
terapii leczenia
odpowiedzi. odpowiedzi.
washout kontrolnego
Ocena
Próba wstępna
Porównanie odpowiedzi
(w obrębie pacjentów)
Rycina 13.1. Schematy (a) równoległy oraz (b) naprzemienny.
1
Eksperyment kliniczny jest jakąkolwiek formą planowanego listy liczb losowych lub za pomocą tablic liczb losowych (Doda
badania doświadczalnego sprawdzającego wpływ nowego le tek A12). Na przykład, w celu alokacji pacjentów do dwóch ro
czenia na wyniki kliniczne u ludzi. Eksperymenty kliniczne dzajów leczenia możemy podążać za sekwencją liczb losowych
mogą być badaniami przedklinicznymi, małymi badaniami kli i przydzielać pacjenta do leczenia A, jeżeli liczba jest parzysta
nicznymi oceniającymi wpływ i bezpieczeństwo (Eksperymen (traktując zero jako liczbę parzystą) lub do leczenia B, jeżeli
ty I/II fazy) lub pełną ocenę nowego sposobu leczenia (Ekspe liczba jest nieparzysta. Proces ten sprzyja podobieństwu mię
rymenty III fazy). W tym rozdziale omówimy główne aspekty dzy grupami leczenia pod względem charakterystyki pierwot
eksperymentów III fazy, z których każdy powinien być opisa nej (charakterystyki odniesienia) przy wprowadzaniu do ba
ny w publikacji (patrz lista ustaleń CONSORT w tablicy 14.1 dania, tj. unika się błędu systematycznego przydziału,
oraz ryciny 14.1 i 14.2). a w konsekwencji uwikłania (rozdziały 12 i 34), co maksyma
lizuje efektywność eksperymentu. Jeżeli zastosowano rando-
mizację, a charakterystyka pierwotna nie jest jednakowo roz
PORÓWNANIA LECZENIA
łożona w grupach leczenia (określa się ją przez zbadanie
Eksperymenty kliniczne są badaniami prospektywnymi, po odpowiednich miar podsumowujących, np. średnich i odchy
nieważ mierzą wpływ leczenia realizowanego obecnie na wy leń standardowych), rozbieżność musi być dziełem przypadku.
niki, z którymi będzie można się zapoznać w przyszłości. Dlatego błędem jest przeprowadzanie formalnego, statystycz
Ogólnie, w eksperymentach klinicznych ocenia się nowe za nego testowania hipotez (np. testu t, rozdział 21) do porówna
biegi (np. rodzaj lub dawka leku, procedura chirurgiczna). nia jakiejkolwiek pierwotnej charakterystyki w grupach le
Dla uproszczenia, w całym tym rozdziale założymy, że czenia, ponieważ testy hipotez określają, czy różnica między
w eksperymencie oceniamy tylko jedną nową formę leczenia. grupami jest otrzymana przez przypadek.
Ważną cechą eksperymentów klinicznych jest to, że powin
Eksperymenty, w których pacjenci są randomizowani,
ny być porównawcze (rozdział 12). Bez leczenia kontrolnego
tak aby otrzymali albo nowe leczenie, albo leczenie kontrolne,
nie mamy pewności, że każdy wynik jest wyłącznie skutkiem
znane są jako eksperymenty sterowane losowo (określane
leczenia, można też przecenić to, jak ważne jest nowe lecze
skrótem RCT — randomized controlled trials) i uważa się
nie. Kontrolą może być standardowe leczenie (kontrola pozy
je za optymalne.
tywna) lub, jeżeli takowe nie istnieje, kontrola negatywna,
którą może być placebo (które wygląda i smakuje jak nowy Istnieją dalsze udoskonalenia randomizacji, włączające
lek, lecz które nie zawiera żadnego aktywnego związku) lub randomizację warstwową (w której bierze się pod uwagę
brak leczenia, gdy zezwalają na to względy etyczne. ważne czynniki) i randomizację blokową (która gwarantuje
w przybliżeniu jednakowe wielkości grup leczenia). Przy
dział systematyczny, w którym pacjenci są przydzielani do
WYNIKI KOŃCOWE grup leczenia systematycznie, np. w zależności od dnia wi
Na wstępie musimy zadecydować, które wyniki najlepiej od zyty lub daty urodzin, powinien być unikany zawsze, gdy jest
zwierciedlają korzyści z nowej terapii. Nazywa się je podsta to możliwe; klinicysta może określić proponowany schemat
wowymi wynikami końcowymi badania i zwykle dotyczą leczenia dla poszczególnego pacjenta, zanim zostanie on włą
skuteczności terapii. Wtórne wyniki końcowe, które często czony do eksperymentu, a to może wpłynąć na jego/jej de
są związane z toksycznością, są interesujące i także powin cyzję co do włączenia pacjenta do eksperymentu. Czasami
ny być na początku wzięte pod uwagę. Ogólnie, wszystkie te używamy randomizacji klasterowej, w której do leczenia
wyniki końcowe są analizowane na końcu badania. Jednak przydzielamy grupy osobników (np. wszystkich ludzi zareje
że możemy sobie zażyczyć przeprowadzenia pewnych analiz strowanych u pojedynczego lekarza domowego) zamiast po
przejściowych (chwilowych), gdy na przykład chcemy się jedynczych osobników. W takich badaniach powinniśmy za
upewnić, że toksyczność nie jest nadmierna i nie wymaga chować szczególną uwagę przy planowaniu wielkości próby
przerwania eksperymentu. Należy uważać na problemy wy i analizowaniu danych (patrz również rozdziały 36, 41 i 42)2.
nikające z wielokrotnego testowania hipotez (rozdział 18),
gdy porównuje się wyniki powtarzanego leczenia.
ZAŚLEPIANIE LUB MASKOWANIE
PRZYDZIELANIE Obciążenie oszacowania może pojawić się wtedy, gdy pa
cjenci i/lub klinicyści są świadomi przydziału do grupy le
DO GRUPY TERAPEUTYCZNEJ czenia, zwłaszcza wtedy, gdy reakcja na nie jest subiektyw
Gdy pacjent formalnie został włączony do badania, przydziela na. Świadomość przydziału do grupy leczenia może wpływać
się go do grupy terapeutycznej. Generalnie pacjent jest przy na zauważanie oznak poprawy lub zdarzeń niepomyślnych.
dzielany W sposób losowy (tj. oparty na szansie), za pomocą Dlatego tam, gdzie to możliwe, wszyscy uczestnicy ekspery
procesu znanego jako przydział losowy lub randomizacja. mentu (klinicyści, pacjenci, oceniający) powinni być „zaśle
Przebiega to często przy użyciu wygenerowanej komputerowo piani" lub „maskowani" co do przydziału do grupy leczenia.
2
Pocook S. J.; Clmical Trials: A Practical Approach. Wiley, Chiche Kerry S. M., Bland J. M.: Santple size in cluster randomization.
1
36 Planowanie badania
Eksperyment, w którym pacjent, zespół leczący i oceniający która osądza, czy nie narusza on Deklaracji Helsińskiej. Od
nie są świadomi przydziału do grupy leczenia, jest ekspery każdego pacjenta trzeba uzyskać zgodę poinformowanego pa
mentem podwójnie ślepym. Eksperymenty, w których nie cjenta (lub od legalnego opiekuna czy rodziców, gdy pacjent nie
możliwe jest „zaślepienie" pacjenta, mogą być pojedynczo jest pełnoletni) zanim zostanie on włączony do eksperymentu.
ślepe, przy założeniu, że klinicysta i/lub oceniający są „za
ślepieni" (nieświadomi) co do przydziału do leczenia.
PROTOKÓŁ
Zanim zostanie przeprowadzony jakikolwiek eksperyment
DANE PACJENTA
kliniczny, należy przygotować pisemny opis wszystkich
Jako że eksperymenty kliniczne prowadzone są na ludziach, aspektów badania, nazywany protokołem badania. Zawiera
dane pacjenta mają wielkie znaczenie. W szczególności, każdy on informację o celach i przedmiocie eksperymentu, wraz
eksperyment kliniczny musi przejść przez komisję etyczną, z opisem pacjentów, których należy włączyć do badania (kry-
Tablica 14.1. Lista tematów z deklaracji CONSORT (Consolidation of Standards for Reporting Trials), które należy włączyć do opisu ekspe
rymentu randomizowanego (www.consort-statement.org).
SEKCJA PRACY Pozy Opisane na
i temat cja Opis stronie *
TYTUŁ 1. Jak pacjenci zostali przyporządkowani do zabiegu (np. przydział losowy, randomizowany, lub lo
I STRESZCZENIE sowo przyporządkowany).
WSTĘP 2. Podstawy naukowe i uzasadnienie.
Podstawy
METODY 3. Kryteria wyboru uczestników oraz ustaleń i miejsca, gdzie dane zostały zebrane.
Uczestnicy
Zabiegi 4. Dokładne szczegóły zabiegów planowanych dla każdej grupy oraz informacje na temat tego, jak i kie
dy byty faktycznie wykonane.
Cele 5. Wyszczególnienie celów oraz hipotez.
Wyniki 6. Jasno zdefiniowane pierwotne i wtórne wyniki pomiarów, a tam, gdzie to możliwe, wszystkie metody
użyte do poprawy jakości pomiarów (np. obserwacje wielokrotne, szkolenie osób oceniających).
Wielkość próby 7. W jaki sposób wyznaczono wielkość próby i, gdy to było zastosowane, wyjaśnienie wszelkich analiz
przejściowych i reguł zatrzymania.
Randomizacja — 8. Metody użyte do tworzenia sekwencji przydziału losowego, uwzględniające szczegóły każdego
generacja sekwencji ograniczenia (np. blokowanie, stratyfikacja).
Randomizacja — 9. Metody użyte do implementacji sekwencji losowego przydziału, wyjaśnienie, czy sekwencja zosta
ukrywanie przydziału ła ukryta do czasu przypisania zabiegów.
Randomizacja — 10. Kto generował sekwencje przydziału, kto włączał do badania uczestników, kto przyporządkował
implementacja uczestników do ich grup.
Zaślepianie 11. Czy uczestnicy, osoby wykonujące zabiegi i oceniające wyniki byli nieświadomi przydziału do grupy.
(maskowanie) Tam, gdzie je zastosowano, jak oceniono powodzenie maskowania.
Metody statystyczne 12. Metody statystyczne użyte do porównywania grup w celu otrzymania wyniku(ów) pierwotnego(ych). Do
datkowe metody analiz, takie jak analizy w podgrupach lub analizy skorygowane.
WYNIKI 13. Przepływ uczestników w każdym etapie (bardzo pożądany jest diagram, patrz rycina 14.1). Dla każ
Przepływ uczestników dej grupy należy podać liczbę uczestników przyporządkowanych losowo, otrzymujących planowa
ne leczenie, kończących badanie i analizowanych w celu otrzymania wyników pierwotnych. Nale
ży opisać rozbieżności z planowanym badaniem, wraz z ich przyczynami.
Wtaczanie do badania 14. Daty określające okresy włączania i dalszego postępowania.
Dane bazowe 15. Dane demograficzne i charakterystyki kliniczne każdej grupy.
Analizowane liczby 16. Liczba uczestników (mianownik) w każdej grupie włączonej do każdej analizy i to, czy analiza była
wykonana z zamiarem leczenia. Tam, gdzie to możliwe, należy podać wyniki przy użyciu liczb bez
względnych (np. 10/20 zamiast 50%).
Wyniki i oszacowania 17. Podsumowanie rezultatów dla każdej grupy, dla wszystkich wyników pierwotnych i wtórnych oraz
oszacowana wielkość efektu i jego dokładność (np. 95% przedział ufności).
Analizy pomocnicze 18. Określenie różnorodności przez podanie wszystkich pozostałych wykonanych analiz, także analiz
w podgrupach i analiz skorygowanych, ze wskazaniem na wcześniej zaplanowane oraz robocze.
Zdarzenia niepomyślne 19. Wszystkie ważne zdarzenia niepomyślne lub efekty uboczne w każdej grupie zabiegowej.
DYSKUSJA 20. Interpretacja wyników, z uwzględnieniem hipotezy badania, źródeł możliwego błędu systematycz
Interpretacja nego oraz niedokładności i ryzyka błędu związanego z wielokrotnością analiz i wyników.
Uogólnienie 21. Możliwość uogólnienia (zewnętrzna ważność) wyników eksperymentu.
Ogólny dowód 22. Ogólna interpretacja wyników w kontekście współczesnej wiedzy.
Rycina 14.1. Profil przebiegu eksperymentu randomizowanego Rycina 14.2. Przykład profilu eksperymentu (adaptowany za zgodą
zgodnie z deklaracją CONSORT (www.consort-statement.org). z eksperymentu opisanego w rozdziale 40).
38 Planowanio badania
15 BADANIA KOHORTOWE
W badaniu kohortowym obserwujemy zwykle przez jakiś chorowaniem byli narażeni na czynnik ryzyka, co pozwala na
czas grupę osobników w celu zbadania, czy narażenie na postulowanie przyczynowej roli tego czynnika. Ponieważ
szczególny czynnik etiologiczny wpłynie w przyszłości na za osobnicy na początku badania są wolni od choroby, często ob
padalność na jednostkę chorobową (rycina 15.1). Jeżeli tak, serwujemy efekt włączania osób zdrowych. Współczynniki
to czynnik ten zostaje uznany za czynnik ryzyka choroby. Na śmiertelności w pierwszym okresie badania są zatem często
przykład, wiele badań kohortowych sprawdzało związek niższe, niż moglibyśmy oczekiwać w ogólnej populacji. Stanie
między czynnikami dietetycznymi a rakiem. Chociaż więk się to oczywiste, gdy współczynniki śmiertelności zaczną na
szość badań kohortowych ma charakter prospektywny, moż gle rosnąć w kolejnych latach badania.
na również badać kohorty historyczne, w których informację
uzyskuje się retrospektywnie. Jednakże jakość studiów hi
storycznych jest często zależna od zapisów medycznych i od OBSERWACJA OSOBNIKÓW
pamięci, a te mogą podlegać obciążeniu. Gdy obserwujemy osobników przez pewien czas, istnieje za
Badania kohortowe mogą być ustalone lub dynamiczne. wsze ryzyko, że mogą oni wypaść z postępowania. Osobnicy
W pierws2ym przypadku, jeżeli osobnik opuszcza ustaloną mogą zmienić adres bez zostawienia informacji o zmianie
kohortę, nie jest zastępowany innym. Natomiast w kohortach miejsca zamieszkania lub mogą zdecydować, że chcą zakoń
dynamicznych osobnicy mogą wypadać z kohorty, a nowi do czyć badanie. Jeżeli duża liczba osobników wypada z postę
niej dołączać, gdy jest taka potrzeba. powania, zyski z badania kohortowego zoatają zmniejszone.
Powinniśmy zatem znaleźć sposób zminimalizowania takiego
wypadania, np. przez utrzymywanie regularnych kontaktów
WYBÓR KOHORTY z osobnikami.
Kohorta powinna być reprezentatywna dla populacji, co do
której będziemy uogólniali wyniki. Często jest korzystne, aby
osobnicy byli rekrutowani z podobnego źródła, takiego jak
INFORMACJA O WYNIKACH I NARAŻENIU
określona grupa zawodowa (np. pracownicy cywilni, lekarze Ważne jest uzyskanie pełnej i dokładnej informacji o skut
praktycy), gdyż można wtedy łatwo uzyskać informację kach choroby, np. śmiertelności i chorowaniu z innych przy
o śmiertelności i zachorowalności z zapisów w miejscu pracy, czyn. Można to osiągnąć dzięki przeszukiwaniu rejestrów
a z osobnikami można nawiązać ponowny kontakt, o ile będzie chorób, statystyk śmiertelności i zapisów szpitalnych oraz le
to konieczne. Taka kohorta może jednak nie być prawdziwie karzy rodzinnych.
reprezentatywna dla ogólnej populacji i może być zdrowsza. Narażenie na badany czynnik ryzyka może się zmieniać
Kohorty można też rekrutować z list lekarzy domowych, jeśli w czasie badania. Na przykład, jeżeli określamy związek
włączy się do badania grupy osobników o różnym stanie zdro między spożyciem alkoholu i chorobami serca, poziom typo
wia. Jednakże pacjenci ci będą mieli zbliżone warunki socjal wego spożycia alkoholu przez osobnika najprawdopodobniej
ne, gdyż mieszkają w tym samym obszarze. będzie się zmieniał w czasie. Dlatego w celu zbadania zmian
Gdy próbujemy określić efekt etiologiczny czynnika ryzy narażenia na ten czynnik z upływem czasu należy powtarzać
ka, osobnicy rekrutowani do kohorty powinni być zdrowi na wywiad przy kolejnych okazjach.
początku badania. Ma to na celu upewnienie się, że przed za
Niechorujący
Rozwój
choroby (a)
Narażeni
na czynnik
Niechorujący (c)
Niechorujący
Rozwój
choroby \b)
Nienarażeni
na czynnik
Niechorujący (d)
Teraz Przysztość
Rycina 15.1. Prezentacja w postaci dia
Uptyw czasu
gramu badania kohortowego (częstości
w nawiaeach, patrz tablica 15.1). Punkt początkowy
KOHORTY KLINICZNE
Czasami wybieramy kohortę pacjentów z tymi samymi wa
runkami klinicznymi, którzy są leczeni w jednym lub kilku
Ryzyko względne (RR — relaxive risk) oznacza zwiększo szpitalach, i obserwujemy ich (albo jako chorych hospitalizo
ne (lub zmniejszone) ryzyko choroby związane z ekspozycją wanych, albo jako ambulatoryjnych) w celu sprawdzenia, jak
na badany czynnik. Ryzyko względne równe jeden oznacza, wielu pacjentów doświadczyło ustąpienia choroby (w przy
Że ryzyko jest takie samo w grupach eksponowanej i nie eks padku pozytywnego wyniku badania) lub postępu choroby,
ponowanej. Ryzyko względne większe niż jeden oznacza, że takiego jak śmierć lub nawrót. Informacja o każdym pacjen
w grupie narażonej na czynnik istnieje zwiększone ryzyko cie, której szukamy, jest zwykle tą, którą zbiera się jako
w porównaniu z grupą nienarażoną; ryzyko względne mniej część rutynowego postępowania klinicznego. Cel kohort kli
sze od jeden wakazuje na redukcję ryzyka choroby w grupie nicznych lub obserwacyjnych baz danych może obejmować
eksponowanej. Na przykład, ryzyko względne równe 2 wska opis wyników dla osobników w określonym stanie i określe
zywałoby, że osobnicy w grupie narażonej mają dwa razy nie efektów rozmaitych podejść do leczenia (np. różne leki
większe ryzyko zachorowania niż ci z grupy nienarażonej. lub rozmaite techniki leczenia). W przeciwieństwie do eks
Ryzyko względne zawsze należy interpretować wraz z ry perymentów randomizowanych (rozdział 14), które często za
zykiem zachorowania. Nawet wysokie ryzyko względne ma wierają bardzo wybiórczą próbę osobników chcących uczest
ograniczone implikacje kliniczne, gdy ryzyko zachorowania niczyć w eksperymencie, kohorty kliniczne niejednokrotnie
jest bardzo małe. obejmują wszystkich pacjentów w określonym stanie w szpi
Wyznaczenie przedziału ufności dla ryzyka względnego talach objętych badaniem. Dlatego wyniki z tych kohort trak
pozwala sprawdzić, czy ryzyko względne jest równe jedno tuje się jako bardziej dokładne odzwierciedlenie wyników
ści. Obliczenia te przeprowadza się prosto przy użyciu kom widocznych w praktyce klinicznej. Jednakże, ponieważ przy
putera i dlatego pomijamy szczegóły. dział do leczenia w tych badaniach nie jest randomizowany
(rozdział 14), kohorty kliniczne są szczególnie narażone na
obciążenie uwikłania (rozdziały 12 i 34).
40 Planowanie badania
PRZYKŁAD
British Regional Heart Study1 jest wielkim badaniem ko- MI w następnych 10 latach
hortowym na bazie 7735 mężczyzn w wieku 40-59 lat, lo Palenie na
sowo wybranych z baz lekarzy domowych w 24 brytyj początku badania Tak Nie Razem
skich miastach. Ma na celu zidentyfikowanie czynników Zawsze palii 563 (9,5%) 5336 (90,5%) 5899
wywołujących niedokrwienną chorobę serca. Przy rekru Nigdy nie palił 87 (4,8%) 1732 (95,2%) 1819
towaniu do badania mężczyzn pytano o pewne czynniki de
Razem 650 (8,4%) 7068 (71,6%) 7718
mograficzne i dotyczące stylu życia, m.in. o zwyczaje doty
czące palenia papierosów. Spośród 7718 mężczyzn, od
których uzyskano informację o tym, czy palą, 5899 (76,4%)
Oszacowane ryzyko względne = = 2,00.
paliło na jakimś etapie swego życia (włączając tych, którzy
są aktualnymi palaczami i którzy kiedyś palili). W ciągu 10
następnych lat 650 spośród 7718 mężczyzn (8,4%) miało Można wykazać, że 95% przedział ufności dla prawdzi
zawał serca (MI — myocardial infarctiord. Wyniki przed wego ryzyka względnego wynosi: (1,60, 2,49).
stawione w tablicy pokazują liczbę i procent palaczy i nie Ryzyko względne możemy interpretować tak, że ozna
palących, którzy mieli zawał serca lub nie mieli go w okre cza, iż mężczyźni w średnim wieku, którzy kiedykolwiek
sie 10 lat. palili, najprawdopodobniej dwukrotnie częściej doznają
zawahi serca w ciągu najbliższych 10 lat, niż ci, którzy ni
gdy nie palili. Mówiąc inaczej, ryzyko zawału serca u męż
czyzn, którzy kiedykolwiek palili, jest o 100% większe niż
u tych, którzy nigdy nie palili.
1
Dane uzyskane dzięki uprzejmości: dr F. C. Lampe, ms M. Walker i dr P. Whincup, Department of Primary Care and Population Scien
ces, Royal Free and Unwersity College Medical School, Londyn, Wielka Brytania.
szansaexp szansa
unexp:
42 Planowanie badania
Tablica 16.1. Wartości obserwowane (patrz rycina 16.1). ZALETY BADAŃ PRZYPADEK-KONTROLA
Narażenie na czynnik
• Są one ogólnie względnie szybkie, tanie i łatwe do wy
Tak Nie Suma
konania.
Stan choroby • Są szczególnie przydatne w rzadkich chorobach.
Przypadek a b a+ b • Można badać szeroki zakres czynników ryzyka.
Kontrola c d c+ d • Nie istnieje utrata obserwacji.
Suma a+c b+d n= a+ b + c+ d
PRZYKŁAD
1327 kobiol w wieku 50-81 lat ze złamaniem biodra, Tak więc szansa złamania biodra u kobiet po menopau-
mieszkających w dużej aglomeracji miejskiej w Szwecji, zie w analizowanym zakresie wieku w Szwecji, które aktu
zostało przebadanych w badaniu niedopasowanych przy- alnie podlegają HRT, wynosiła 39% szansy tego zdarzenia
padków-kontroli. Zostały one porównane z 3262 kobietami u kobiet, które nigdy nie używały lub uprzednio używały
7. grupy kontrolnej w tym samym zakresie wiekowym, wy HRT, tj. aktualne leczenie HRT zmniejsza szansę złamania
branymi losowo z rejestru narodowego. W badaniu skon biodra o 61%.
centrowano się na sprawdzeniu, czy kobiety podlegające
obecnie postmenopauzalnej hormonalnej terapii zastępczej Częstości obserwowane w badaniu ztamań
(HRT — łwrmone replacement therapy) rzadziej łamały bio Nigdy nie
dra niż niepodlegające terapii. Wyniki w tablicy pokazują Obecnie leczone HRT/
liczbę kobiet leczonych obecnie HRT i tych, które nigdy nie leczone /wcześniej
HRT leczone HRT Razem
miały terapii lub podlegały jej wcześniej, w grupie badanej
i kontrolnej. Obserwowany iloraz szans = (40 x 3023)/(239 Ze złamaniem biodra (chore) 40 1287 1327
x 1287) = 0,39. Można wykazać, że 95% przedział ufności Bez złamania biodra (kontrola) 239 3023 3262
dla ilorazu szans wynosi (0,28, 0,56). • Razem 279 4310 4589
Dano pobrane / pracy: Michaelsson K., Baron J. A., Farahmand B. Y., i in.: Hormone replacement therapy and risk of hipfracture: popu-
lathn basfd rase-control study. British Medical Journal, 1998, 316, 1858-1863.
44 Testowanie hipotez
Wybór 5% jest arbitralny. W 5% sytuacji błędnie odrzuci BADANIA RÓWNOWAŻNOŚCI
my hipotezę zerową, chociaż jest ona prawdziwa. W sytu I BRAKU POGORSZENIA
acjach, w których implikacje kliniczne błędnego odrzucenia
hipotezy zerowej są poważne, możemy żądać silniejszego do W większości eksperymentów zrandomizowanych kontrolo
wodu przed jej odrzuceniem (np. możemy się zdecydować na wanych (rozdział 14) dwóch lub większej liczby sposobów le
odr2ueenie hipotezy zerowej, jeżeli wartość p jest mniejsza czenia jesteśmy zwykle zainteresowani wykazaniem wyż
niż 0,01 lub 0,001). Wybrana wartość odcięcia dla p (np. 0,05 szości co najmniej jednego leczenia nad pozostałymi. Jednak
lub 0,01) zwana jest poziomem istotności testu; trzeba go w pewnych sytuacjach możemy uważać, że nowe leczenie
wybrać przed zebraniem danych. (np. lek) nie jest bardziej efektywne niż leczenie aktualnie
Opisywanie wyników jako istotnych tylko na pewnym po stosowane, lecz posiada inne ważne zalety, prawdopodobnie
ziomie odcięcia (np. stwierdzenie tylko, że p < 0,05) może być w postaci zmniejszenia efektów ubocznych, wielkości pigułek
mylące. Na przykład, jeżeli p = 0,04, odrzucimy /f0; jeżeli lub kosztów. Wtedy możemy chcieć pokazać, że skuteczność
jednak p = 0,06, nie odrzucimy jej. Czy rzeczywiście są one nowego leczenia jest podobna (w eksperymencie równoważ
różne? Dlatego polecamy podawanie dokładnej wartości p, ności) lub nie jest znacząco gorsza (w eksperymencie braku
otrzymywanej często w wynikach komputerowych. pogorszenia) od skuteczności aktualnego leczenia.
Podczas przeprowadzania eksperymentu równoważności
TESTY NIEPARAMETRYCZNE lub testu braku pogorszenia nie stosuje się procedury używa
nej do testowania hipotezy w zwykłym eksperymencie prze
Testowanie hipotez oparte na znajomości rozkładów prawdo
wagi, który testuje hipotezę zerową zakładającą, że oba sposo
podobieństwa, któremu podlegają dane, określane jest jako
testowanie parametryczne. Często się zdarza, że dane nie by leczenia są takie same. Dzieje się tak dlatego, że (1) wynik
spełniają założeń, które leżą u podstaw tych metod (rozdział nieistotny nie implikuje braku pogorszenia/równoważności,
35). W tej sytuacji możemy użyć tegtów nieparametrycznych a (2) nawet jeżeli zostanie wykryty efekt istotny statystyc2nie,
(czasami określanych jako testy niezależne od rozkładów lub może on być nieważny z klinicznego punktu widzenia. Zamiast
metod rangowych). Testy te ogólnie zastępują dane poprzez tego, w eksperymencie równoważności odwracamy hipotezy
ich rangi (tj. liczby 1, 2, 3 etc. opisujące ich pozycje w upo zerową i alternatywną tak, że hipoteza zerowa wyraża różni
rządkowanym zestawie danych) i nie wymagają żadnych za cę, a hipoteza alternatywna wyraża równoważność.
łożeń co do rozkładu prawdopodobieństwa w danych. Zamiast obliczania statystyki testowej, podchodzimy ogól
Testy nieparametryczne przydają się szczególnie wtedy, nie do problemu oszacowania równoważności lub braku po
gdy próby są mało liczne (tak, że nie ma możliwości oszaco gorszenia1 poprzez sprawdzenie, czy przedział ufności dla
wania rozkładu danych) i/lub gdy dane są podawane w skali badanego efektu (np. różnica w średnich pomiędzy dwoma
kategorialnej. Jednakże testy nieparametryczne generalnie badanymi grupami) leży całkowicie lub częściowo w zdefinio
trwonią informacje; dlatego w przypadku spełnienia wszyst wanym uprzednio zakresie równoważności (tj. zakresie war
kich założeń niezbędnych do użycia testów parametrycznych tości, określonym przez ekspertów klinicznych, który odpo
posiadają one mniejszą moc (rozdział 18) wykrycia rzeczywi wiada efektowi braku istotności klinicznej). Jeżeli cały
stego efektu niż odpowiednie testy parametryczne. Co więcej, przedział ufności dla badanego efektu leży wewnątrz zakre
są one przede wszystkim testami istotności, które nie pozwa su równoważności, wtedy wnioskujemy, że dwa sposoby le
lają na uzyskanie estymatorów interesujących nas efektów; czenia są równoważne; w tej sytuacji, nawet gdy górna i dol
prowadzą raczej do podjęcia decyzji, a nie do oceny i zrozu na granica przedziału ufności sugerują, że istnieje przewaga
mienia danych. jednego sposobu leczenia nad drugim, nie jest prawdopodob
ne, by było to ważne z punktu widzenia klinicznego. W eka-
KTÓREGO TESTU UŻYĆ? perymencie braku pogorszenia chcemy pokazać, że nowy
sposób leczenia nie jest istotnie gorszy od sposobu standar
Decyzja, którego testu statystycznego należy użyć, zależy od dowego (jeżeli nowe leczenie okazuje się lepsze niż standar
projektu badania, typu zmiennej i rozkładu, jakiemu podlega dowe, będzie to dla nas dodatkowa korzyść!). W tej sytuacji,
ją dane z badania. Pomocą w podjęciu decyzji może być sche jeżeli dolna granica odpowiedniego przedziału ufności nie
mat blokowy zamieszczony na wewnętrznej stronie okładki.
wypada poniżej dolnej granicy zakresu równoważności, mo
żemy wnioskować, że nowe leczenie nie jest gorsze.
TESTOWANIE HIPOTEZ Jeżeli nie zostanie inaczej zaznaczone, testy hipotez w ko
A PRZEDZIAŁY UFNOŚCI lejnych rozdziałach są testami przewagi Należy zwrócić uwa
Przedziały ufności (rozdział 11) i testowanie hipotez są ze so gę, że metody wyznaczania wielkości próby opisane w rozdzia
bą ściśle powiązane. Podstawowym celem testowania hipotez le 36 nie stosują się do eksperymentów równoważności lub
jest podjecie decyzji i znalezienie dokładnej wartości p. braku pogorszenia. Wielkość próby niezbędna w eksperymen
2
Przedziały ufności kwantyfikują interesujący nas wynik (np. tach równoważności lub braku pogorszenia jest ogólnie więk
różnicę średnich) i pozwalają na określenie klinicznych apli sza niż w eksperymencie porównywania przewagi, jeżeli
kacji wyników. Ponieważ jednak określają one zakres wiaro- wszystkie czynniki wpływające na wielkość próby (tzn. po
godnych wartości prawdziwego wyniku, mogą być również ziom istotności statystycznej, moc) są takie same.
użyte do podejmowania decyzji, aczkolwiek nie pozwalają na
znalezienie dokładnej wartości p. Na przykład, jeżeli hipote
tyczna wartość wyniku (np. zero) leży poza 95% przedziałem
* John B., Janas P., Lewis J. A., Ebbutt, A. F.: Trials to assess equr
ufności, wtedy uznajemy, że wartość hipotetyczna nie jest ivalence: the importance of rigorous methods. British Medical Jour
wiarogodna i odrzucamy H0. W naszym przypadku wiemy, nal 1996, 313, 36-39.
że wartość p jest mniejsza niż 0,05, ale nie wiemy, jaka jest ** Julious, S. A.: Tutorial in Biostatistics: Sample sizesfor clinical
dokładnie. trials with Normal data Statistics in Medicine, 2004, 23, 1921-1986.
46 Testowanie hipotez
Rycina 18.1. Krzywe mocy, ukazujące zwią
zek między mocą a wielkością próby w każ
dej z dwóch grup przy porównywaniu dwóch
średnich za pomocą testu t dla zmiennych
niepowiązanych (rozdział 21). Każda krzywa
odnosi się do testu dwustronnego przy przy
jętym poziomie istotności 0,05 oraz efekcie
(np. różnicy pomiędzy średnimi) wynoszą
cym 2,5. Założone odchylenia standardowe
pomiarów w obu grupach są rozmaite dla
każdej krzywej mocy (patrz przykład, roz
dział 36).
PROBLEM
2. Zbieramy odpowiednie dane z próby osobników.
Mamy próbę jednej grupy obiektów i jedną interesującą nas 3. Obliczamy wartość statystyki właściwej dla
zmienną numeryczną lub porządkową. Chcemy się dowie
dzieć, czy wartość przeciętna tej zmiennej przybiera okre
śloną wielkość. Na przykład, możemy mieć próbę pacjentów
w określonym stanie klinicznym. We krwi zdrowych osobni
ków monitorowaliśmy poziomy trójglicerydów i wiemy, że która podlega rozkładowi t z (n - 1) stopniami swobody.
mają one średnią geometryczną równą 1,74 mmol/1. Chcemy 4. Porównujemy wartość statystyki testowej z warto
wiedzieć, czy przeciętny poziom u naszych pacjentów jest ta ściami znanego rozkładu prawdopodobieństwa.
ki sam, jak wspomniana wartość. Dodatek A2.
5. Interpretujemy wartość p i wyniki.
TEST f DLA JEDNEJ PRÓBY Interpretujemy wartość p i obliczamy przedział ufno
ści dla prawdziwej średniej w populacji (rozd2iał 11).
Założenia 95% przedział ufności jest dany jako:
W populacji zmienna ma rozkład normalny z daną (na ogół
nieznaną) wariancją. Pobieramy próbę rozsądnej wielkości,
tak byśmy mogli sprawdzić założenie o normalności rozkła gdzie t005 jest punktem procentowym rozkładu tz (n- 1)
du (rozdział 35). stopniami swobody, który daje dwustronne prawdopodo
bieństwo 0,05.
Uzasadnienie
Chcemy się dowiedzieć, czy średnia /* zmiennej w interesu
jącej nas populacji różni się od pewnej hipotetycznej warto Interpretacja przedziału ufności
ści Hi. W tym celu stosujemy statystykę testową opartą na 95% przedział ufności określa zakres wartości, w którym
różnicy między średnią próby 5c~ oraz juv Załóżmy, że nie z pewnością 95% leży prawdziwa średnia populacyjna. Jeże
2namy wariancji w populacji; wtedy rozważana statystyka li 95% przedział ufności nie zawiera hipotetycznej wartości
testowa, często określana jako Z, podlega rozkładowi t. Jeże dla średniej odrzucamy hipotezę zerową na poziomie 5%.
li znamy wariancję w populacji lub wielkość próby jest du Jeżeli jednak przedział ufności zawiera to wtedy, odrzu
ża, możemy użyć alternatywnego testu opartego na rozkła cając hipotezę zerową na tym poziomie, popełniamy błąd.
dzie normalnym (tzw. £-test). Jednakże w obu sytuacjach
wyniki obu testów są prawie identyczne. Jeżeli założenia nie są spełnione
Może się zdarzyć, że zmienna nie podlega rozkładowi nor
Dodatkowa uwaga malnemu. Chociaż test f jest stosunkowo odporny na brak
Mamy próbę o wielkości n i oszacowanym odchyleniu stan normalności, to należy zwracać uwagę na silne skośności.
dardowym s. Możemy wtedy albo przetransformować dane, aby zmienna
miała rozkład normalny (rozdział 9), albo użyć testu niepara
metrycznego, takiego jak test znaków lub rangowy test Wil-
1. Definiujemy podlegające badaniu hipotezy zerową coxona (rozdział 20).
i alternatywną
Średnia w populacji, równa się
Średnia w populacji nie równa się
1. Definiujemy podlegające badaniu hipotezy zerową my pod uwagę bezwzględną wartość (tzn. dodatnią) liczby
i alternatywną podanej między kreskami. Rozkład 2 jest w przybliżeniu
HQ: Mediana w populacji równa się X. normalny. Odjęcie wartości V2 stanowi tzw. poprawkę na
H^. Mediana w populacji nie równa się X. ciągłość, którą musimy uwzględnić z uwagi na fakt, że
2. Zbieramy odpowiednie dane z próby osobników. wiążemy wartość dyskretną (r) z rozkładem ciągłym (roz
3. Obliczamy wartości statystyki specyficznej dla HQ kładem normalnym).
Pomijamy wszystkie wartości równe X, pozostawiając 4. Porównujemy wartość statystyki testowej z warto
n' wartości. Zliczamy wartości, które są większe od X. Po ściami ze znanego rozkładu prawdopodobieństwa.
dobnie, zliczamy wszystkie wartości, które są mniejsze od • Jeżeli n ś 10, należy porównać r z wartościami w Do
X. (W praktyce obliczamy różnicę między każdą wartością datku A6.
w próbie i X, biorąc pod uwagę znak tej różnicy.) Bierze • Jeżeli n > 10, należy porównać z z wartościami w Do
my pod uwagę wartość r, będącą mniejszą z tych dwóch datku Al.
zliczeń. 5. Interpretujemy wartość p i wyniki.
• Gdy n' s 10, wartością statystyki jest r. Interpretujemy wartość p i obliczamy przedział ufności
dla mediany — niektóre pakiety statystyczne wykonują to
automatycznie; jeżeli nie, możemy porangować wartości
• Gdy n' > 10, obliczamy w kierunku ich wzrostu i porównać z wartościami w Do
datku A7 w celu określenia rang wartości, których należy
użyć do zdefiniowania granic przedziału ufności. Ogólnie,
gdzie n'/2 jest liczbą wartości powyżej (lub poniżej) me przedziały ufności dla mediany będą szersze niż dla śred
diany, której moglibyśmy oczekiwać, gdyby hipoteza zero niej.
wa była prawdziwa. Pionowe kreski wskazują, że bierze-
PRZYKŁAD
foUiiejif pewne dowody aa to, że wysokie poziomy trójgli- populacji. Do zbadania tego użyto testu I dla jednej pró
cerydów we krwi są powiązane z chorobą serca. W ra by. Poziomy trójglicerydów są prawoskośne (rycina 8.3a);
mach dużego badania kohortowego nad chorobami serca logarytmy poziomu trójglicerydów mają w przybliżeniu
Tebrano dane na temat poziomu trójglicerydów u 232 męż rozkład normalny (rycina 8.3b), tak więc wykonujemy na
czyzn, u których rozwinęła się choroba serca w okresie szą analizę na wartościach logarytmowanych. U mężczyzn
5 lat po włączeniu do badania. Chcielibyśmy dowiedzieć w ogólnej populacji średnia wartości logarytmowanych
się, czy średni poziom trójglicerydów w populacji męż wynosi 0,24 log10 (mmol/1), co jest równoważne średniej
czyzn, /. której pobrano próbę, jesl taki sam jak w ogólnej geometrycznej 1,74 mmol/1.
1. Średnia IogjQ (poziom trójgliccrydów) w populacji 4. Porównujemy f z wartościami w Dodatku A2 przy 231
mężczyzn, u których rozwija się choroba serca, równa stopniach swobody: p < 0,001.
się 0,24 loy (inmol/1). 5. Istnieje silny dowód przemawiający za odrzuceniem
Średnia log10 (poziom trójglicerydów) w populacji hipotezy zerowej, że średnia geometryczna poziomu trój
mężczyzn, u których rozwija sie choroba serca, nic rów glicerydów w populacji mężczyzn z rozwijającą się cho
na się 0,24 log (mmol/1). robą serca wynosi 1,74 mmol/1. Średnia geometryczna
2. Wielkość próby n = 232. poziomu trójglicerydów w populacji mężczyzn z rozwija
Średnia wartości zlogarytmowanych x - 0,31 log jącą się chorobą serca jest obliczana jako antylogaryliii
(mmol/1). (0,31) = 100-31, który wynosi 2,04 mmol/1. 95% przedział
Odchylenie standardowe wartości zlogarytmowanych ufności dla średniej geometrycznej poziomu trójglicery
.*= 0,23 log (mmol/1). dów zawiera się między 1,90 a 2,19 mmol/1 (tj. antyloga-
3. Statystyka testowa, rytm 10,31 ± 1,96 x 0,23/\/232]). Dlatego w tej populacji
pacjentów średnia geometryczna poziomu irójglicerydów
0,31-0,24 ^
/= 4 6 4
jest istotnie wyższa od poziomu w ogólnej populacji.
0,23/vr232
Dane uzyskane dzięki uprzejmości: dr F. C. Lampe, ms M. Walker i dr P. Whincup, Department of Primary Care and Popułation Scien
ces, Royal Free and University College Medioal School, Londyn, Wielka Brytania.
PROBLEM
5. Interpretujemy wartość p i wyniki.
Mamy dwie próby, które są ze sobą powiązane, i jedną inte Interpretujemy wartość p i obliczamy przedział ufno
resującą nas zmienną numeryczną lub porządkową. ści dla prawdziwej średniej różnic w populacji. 95%
• Zmienna może być zmierzona dla każdego obiektu przedział ufności jest dany jako
w dwu okolicznościach. Na przykład, w badaniu naprze
miennym (rozdział 13) każdy pacjent ma wykonane dwa po
miary zmiennej, raz, gdy bierze lek aktywny, i raz, gdy bie gdzie f005 jest punktem procentowym rozkładu tz(n-l)
rze placebo. stopniami swobody, który daje dwustronne prawdopodo
• Obiekty w każdej próbie mogą być różne, lecz są ze bieństwo równe 0,05.
sobą w jakiś sposób powiązane. Na przykład, w badaniu
przypadek-kontrola (rozdział 16) pacjenci w jednej grupie
mogą być indywidualnie dopasowani do pacjentów w dru
giej grupie. Jeżeli założenia nie są spełnione
Takie dane są znane jako dane powiązane. Przy analizo Jeżeli różnice nie podlegają rozkładowi normalnemu, zało
waniu danych trzeba wziąć pod uwagę zależności między żenie leżące u podstaw testu t nie jest spełnione. Możemy
oboma próbami, w przeciwnym razie korzyści wynikające wtedy albo przetransformować dane (rozdział 9), albo użyć
z parowania (rozdział 13) zostają utracone. Dokonujemy te testu nieparametrycznego, takiego jak test znaków (rozdział
go, biorąc pod uwagę różnice wartości w każdej parze i re 19), lub testu rangowanych znaków Wilcoxona w celu osza
dukując przez to dwie próby do jednej próby różnic. cowania, czy różnice są skupione wokół zera.
H0'. Mediana różnic w populacji równa się zero. 4. Porównujemy wartość statystyki testowej z warto
Hi, Mediana różnic w populacji nie jest równa zero. ściami znanego rozkładu prawdopodobieństwa.
2. Zbieramy odpowiednie dane z dwóch powiązanych prób. • Jeżeli ri S 25, należy porównać wartość Ti warto
3. Obliczamy wartość statystyki testowej właściwej ściami w Dodatku A8
dla Hv • Jeżeli n' > 25, należy porównać wartość z z warto
Obliczamy różnicę dla każdej pary wyników. Pomijając ściami w Dodatku Al.
ich znaki, rangujemy wszystkie ń niezerowe różnice przez 5. Interpretujemy wartość p i wyniki.
przyporządkowanie wartości 1 do najmniejszej różnicy Interpretujemy wartość p i obliczamy przedział ufności
i wartości n' do największej. Sumujemy rangi różnic dodat dla mediany różnic (rozdział 19) w całej próbie.
nich {TJ i ujemnych {T_).
* Jeżeli n' s 25, statystyka testowa Tprzybiera war
tość równą liczbie mniejszej spośród T+ lub T_.
• Jeżeli n' > 25, obliczamy statystykę z, gdzie:
1
Siegel S., Gastellan N. J.: Nonparametric Statistics for the Behavioural Sciences. McGraw-Hill, Nowy Jork 1988.
PRZYKŁADY
Przebadano zęby 96 nowych rekrutów, mężczyzn w wie bia (głębsza kieszonka oznacza hardziej zaawansowaną
ku pomiędzy 16. a 20. rokiem życia, werbowanych do Kró chorobę). Głębokość kieszonki była wyznaczona dla każde
lewskich Sil Powietrznych. Po przeprowadzeniu niezbęd go rekruta jako średnia głębokość kieszonek dla każdej
nego leczenia w celu uzyskania prawidłowego stanu uzę mierzonej strony w jego jamie ustnej.
bienia zostali oni przebadani ponownie rok później. Cała Ponieważ w tej próbie rekrutów różnice w głębokości
jama ustna, wyłączając zęby mądrości, ma 28 zębów. kieszonek miały w przybliżeniu rozkład normalny, zasto
W tym badaniu każdy ząb ma cztery strony interesujące sowano test r dla zmiennych powiązanych w celu stwier
poriodontologów; zatem każdy rekrut posiadał minimum dzenia, czy średnia głębokość kieszonki była taka sama
84 i maksimum 112 mierzonych powierzchni w obu bada przed i po leczeniu. Pełny wydruk komputerowy wyników
niach. (Jeleni badania było sprawdzenie wpływu leczenia jest załączony w Dodatku C.
na głębokość kieszonek, która jest miarą choroby przyzę
1. /70: Średnia różnica głębokości kieszonki przed i po le 5. Mamy dowód pozwalający na odrzucenie hipotezy
czeniu w populacji rekrutów równa się zero. zerowej i możemy wnioskować, że średnia głębokość kie
/fj: Średnia różnica głębokości kieszonki przed i po szonki rekruta po leczeniu zmniejszyła się. 95% prze
leczeniu w populacji rekrutów nic równa się zero. dział -ufności dla prawdziwej średniej różnicy w prze
2. Wielkość próby n - 96. Średnia różnica głębokości ciętnej głębokości kieszonki wynosi od 0,035 do 0,262
kieszonki x- 0,1486 mm. Odchylenie standardowe róż mm (tj. 0,1486 ± 1,95 x 0,5601/\/96). Oczywiście nie
nic .s,,= 0,5601 rum. wolno nam tu pochopnie wyciągać wniosków, że jest to
efekt leczenia, które zredukowało przeciętną głębokość
3. Statystyka testowa. kieszonki, gdyż nie mamy grupy kontrolnej rekrutów,
którzy nie byli leczeni. Poprawa może być konsekwencja
4. Porównujemy i z wartościami w Dodatku A2 z (96 - 1) czasu łub zmiany przyzwyczajeń w higienie jamy ustnej
= 95 stopniami swobody: 0,01 < p < 0,05 (obliczenia i może nie wynikać ze stosowanego leczenia.
komputerowe dają p = 0,011).
1. i/(); Mediana różnic (przed i po leczeniu) wyrażonych 5. Nie mamy wystarczającego dowodu pozwalającego na
w procentach stron z utrata, przyczepu równa się zero odrzucenie hipotezy zerowej o braku zmiany w procencie
w populacji rekrutów. stron z utratą przyczepu. Mediana różnic w procencie
Hf Mediana różnic (przed i po leczeniu) wyrażonych stron z utratą przyczepu wynosi -3,1% (tj. średnia
w procentach stron z utratą przyczepu nie równa się ze z -2,5% oraz z -3,6%), ujemna mediana różnic wskazuje,
ro w populacji rekrutów. że przeciętnie procent stron z utratą przyczepu jest więk
2. Procent zmierzonych stron z utratą przyczepu przed szy po leczeniu, chociaż różnica ta nie jest istotna. Doda
i po leczeniu dla każdego rekruta pokazany jest w poniż tek A7 pokazuje, że w przybliżeniu 95% przedział ufno
szej tabeli. ści dla mediany różnic w populacji jest dany przez trzecią
3. Istnieje jedna zerowa różnica; z pozostałych n' = 13 i dwunastą rangowaną różnicę (włączając różnice zero
różnic, trzy są dodatnie, a 10 ujemnych. Suma rang róż we); wynoszą one -12,8% oraz 0,9%. Chociaż więc wynik
nic dodatnich wynosi 7; = 3 15 + 13 = 21. testu nie jest istotny statystycznie, dolna granica wska
4. Ponieważ ii < 25, porównujemy Tt z wartościami w Do zuje, że procent stron z utratą przyczepu może wynosić
datku A8: p > O.Of) (wynik komputerowy wynosi p - 0,09). aż 12,8% więcej po leczeniu rekruta!
Duffy S.: Iłemlta ofa three year longitiidinal study ofaarly periodontitis łn a group ofBritish niale adolescents. MSc Dissci taiiori, Uni-
yersily of London, EasLman Denlal Insliiute for Orał Health Care Sciences 1997.
PROBLEM
4. Porównujemy wartość statystyki testowej z warto
Mamy próby z dwóch niezależnych (niepowiązanych) grup ściami znanego rozkładu prawdopodobieństwa.
osobników i jedną numeryczną lub porządkową zmienną Porównujemy t z wartościami w Dodatku A2. Jeżeli
podlegającą badaniu. Chcielibyśmy się dowiedzieć, czy śred wielkości próby w obu grupach są duże, rozkład t przy
nia lub rozkład zmiennej jest taki sam w obu grupach. Na bliża rozkład normalny. Odrzucamy wtedy hipotezę ze
przykład chcemy porównać masy ciaia w dwóch grupach rową na poziomie 5%, jeżeli wartość bezwzględna t (tj.
dzieci, gdzie każde dziecko przydzielono losowo albo do gru pomijająca znak) jest większa niż 1,96.
py z auplementem dietetycznym, albo z placebo. 5. Interpretujemy wartość p oraz wyniki.
Interpretujemy wartość p i obliczamy przedział ufno
TEST t DLA ZMIENNYCH NIEPOWIĄZANYCH ści dla różnicy dwóch średnich. Przy założeniu, że wa
riancje są równe, 95% przedział ufności dany jest jako:
(DWIE PRÓBY)
Założenia
W populacji zmienna ma rozkład normalny w każdej z grup, gdzie f0 05 jest punktem procentowym rozkładu f z (nr +
a wariancje są takie same. Oprócz tego mamy wystarczają + ng - 2) stopniami swobody, dającym dwustronne praw
co duże próby, by móc sprawdzić założenia o normalności dopodobieństwo równe 0,05.
i równych wariancjach.
Uzasadnienie
Rozpatrujemy różnicę średnich w obu grupach. Zgodnie Interpretacja przedziału ufności
z hipoteza zerową średnie populacyjne w obu grupach są ta Górna i dolna granica przedziału ufności po2wala stwier
kie same, więc różnica będzie równa zero. Dlatego używa dzić, czy różnica między dwoma wartościami średnimi jest
my statystyki, która jest oparta na różnicy dwóch średnich klinicznie ważna. Na przykład, jeżeli górna i/lub dolna gra
z prób i na wartości różnicy między średnimi populacyjny nica jest bliska zero, prawdziwa różnica może być bardzo
mi przy założeniu słuszności hipotezy zerowej (tj. zero). Ta mała i bez znaczenia klinicznego, nawet wtedy, gdy test jest
ka statystyka testowa, często określana jako f, podlega roz statystycznie istotny.
kładowi t.
Jeżeli założenia nie są spełnione
Notacja Jeżeli próby są wystarczająco duże, test t jest całkiem od
Nasze dwie próby mają wielkości odpowiednio oraz . Ich porny (rozdział 35) na odstępstwa od normalności. Jednakże
średnie wynoszą , a odchylenia standardowe jest on mniej odporny na brak równości wariancji. Istnieje
modyfikacja testu t dla zmiennych niepowiązanych, dopusz
czająca różne wariancje, a jej wyniki są często przedstawia
1. Definiujemy podlegające sprawdzeniu hipotezy ze
ne na wydrukach komputerowych. Jeżeli założenia nie są
rową i alternatywną.
spełnione, możemy też albo przetransformować dane (roz
Populacyjne średnie w obu grupach są sobie równe.
dział 9), aby otrzymać w przybliżeniu rozkład normalny
Populacyjne średnie w obu grupach nie są sobie
i/lub równe wariancje, albo też użyć testu nieparametrycz
równe.
nego, takiego jak test sumy rang Wilcoxona.
2. Zbieramy odpowiednie dane z dwóch prób osobników.
3. Obliczamy wartość statystyki testowej właściwej
dla TEST WILCOXONA SUMY RANG
Jeżeli s jest estymatorem łączonego odchylenia stan (DWIE PRÓBY)
dardowego w obu grupach,
Uzasadnienie
Test sumy rang Wilcoxona nie wymaga żadnych założeń co
do rozkładu i jest nieparametrycznym testem odpowiadają
cym testowi t dla zmiennych niepowiązanych. Test jest opar
ty na sumie rang wartości z każdej z dwóch grup. Porównu
jemy je, nawet jeśli próby są różnych wielkości, jeżeli tylko
grupy mają podobne rozkłady. Równoważny test, znany jako
wtedy statystyka testowa jest dana przez t, gdzie: test V Manna-Whitney'a, daje identyczne rezultaty, cho
ciaż jest nieco bardziej skomplikowany przy obliczeniach
bez pomocy komputera.
i Siegel S., Castellan N. J.: Nonparametric Statistics for the Behavioural Sciences. McGraw-Hill, Nowy Jork 1988.
PRZYKŁAD 1
W celu określenia efektu regularnego, profilaktycznego wa (FEV1) po 6-miesięcznym okresie inhalowania. Po
inhalowania kortykosteroidów w trakcie napadów astma sprawdzeniu założeń o normalności i równości wariancji
tycznych związanych z infekcją wirusową u dzieci w wie (patrz rycina 4.2) wykonałyśmy test t dla zmiennych nie
ku szkolnym przeprowadzono losowe, podwójnie ślepe powiązanych w celu porównania średnich w obu grupach.
badania, porównujące skutki inhalowania dipropionianu Pełny wydruk komputerowy wyników pokazany jest
beklomctazonu z placebo. W tym badaniu głównym w Dodatku C.
wskaźnikiem była średnia wymuszona objętość wydecho
1. HQ. Średnia FEV1 w populacji dzieci w wieku szkol 4. Porównujemy t z wartościami Dodalku A2 z 50 +
nym jest taka sama w obu grupach badanych. + 48 - 2 = 96 stopniami swobody. Ponieważ Dodatek A2
Htf Średnia FŁV1 w populacji dzieci w wieku szkol jest ograniczony do pewnej liczby stopni swobody, doko
nym nic jest taka sama w obu grupach badanych. nałyśmy interpolacji (oszacowania żądanej wartości le
2. Grupa leczonych: wielkość próby n{ = 50; średnia 3q = żącej między dwoma znanymi wartościami) pomiędzy
1,64 litrów, odchylenie standardowe s, = 0,29 litrów. wartościami odpowiadającymi 50 i 100 stopniom SWOIKJ-
Grupa placebo: wielkość próby n-, = 48; średnia x, = dy. Stąd p > 0,05 (wynik komputerowy wynosi p = 0,06).
1,54 litrów; odchylenie standardowe sy = 0,25 litrów. 5. Nie mamy dostatecznego dowodu pozwalającego na
3. Połączone odchylenie standardowe, odrzucenie hipotezy zerowej na poziomie 5%. Ponieważ
jednak wartość p jest jedynie odrobinę większa niż 0,05,
może to wskazywać, że średnie naszych dwóch popula
cji są różne. Oszacowana różnica między średnimi wy
nosi 1,64 - 1,54 = 0,10 litrów. 95% przedział ufności dla
prawdziwej różnicy między dwoma średnimi zawiera się
między -0,006 a 0,206 litrów
Dane uzyskane dzięki uprzejmości: dr-1. Doiill, Cystic Fibrosis/Hespiratory Unit, Department of Child Health, University Hospital of
Wales, Cardiff, Wielka Brytania i dr F. C. Lampe, Department of Primary Care and Popuiation Sciences, Royal Free and University
College Medical School, Londyn, Wielka Brytania.
1. Iiozkktdy liczby komórek CD3+ T w dwóch gru 4. Ponieważ mamy 10 lub mniej wartości w każdej z grup,
pach w populacji są takie same. otrzymujemy wartość p z Dodatku A9: p < 0,01 (wynik
Rozktndy liczby komórek CD3+ T w dwóch gru komputerowy wynosi p = 0,002).
pach w populacji nie są lakie same. 5. Istnieje dowód pozwalający na odrzucenie hipotezy ze
2. Grupa nasion soi: wielkość próby ns- 7, poziomy ko rowej, że rozkłady poziomów komórek CD3+ T są takie
mórek CD3+ 1' (komórek/mmz) wynosiły 34,45; 0,00; same w obu grupach. Mediany liczby komórek CD3+ T
1,36; 0,00; 1,43; 0.00; 4,01. w grupach astmy sojowej i zwykłej astmy śmiertelnej
Grupa astmy: wielkość próby nL - 10, poziomy komó wynoszą odpowiednio 1,36 (95% przedział ufności od
iek (T>3+ T (komórek/mm2) wynosiły 74,17; 13,75; 0 do 34,45) oraz (58,33 + 73,63)/2 = 65,98 (95% prze
37,50; 1225,51; 99,99; 3,76; 58,33; 73,63; 4,32; 154,86. dział ufności od 4,32 do 154,86) komórek/mm2. Przy
Dmie porangowane zamieszczono w tablicy poniżej. puszczamy więc, że liczba komórek CD3+ T jest zmniej
li. Suma rang w grupie nasion s o i - 2 + 2 + 2 + 4 +5 + szona w śmiertelnej astmie sojowej, co sugeruje inny
+ 7 + 10 = 32. mechanizm od opisanego dla większości zgonów 2 powo
Simm rang w grupie astmy = 6 + 8 + 9 + 11 + 12 + du astmy.
+ i;i+ 14 + 15 + 16 + 17 = 121.
Dane uzyskano dzicki uprzejmości: dr M. Synek, Coldeast Hospital, Sarisbury i dr F. C. Lampe, Department of Primary Curc wid Pojiu-
lation ScioncoH, llayal Krce and University College Medical School, Londyn, Wielka Brytania.
PROBLEM
1. Definiujemy podlegające badaniu hipotezy zerowa
Mamy próby z pewnej liczby niezależnych grup. Rozważamy i alternatywną.
pojedynczą zmienną numeryczną lub porządkową i chcieli Wszystkie średnie grupowe w populacji są równe.
byśmy się dowiedzieć, czy przeciętna wartość tej zmiennej Co najmniej w jednej grupie w populacji średnia
ulega zmianom w różnych grupach, np. czy przeciętna licz różni się od innych.
ba płytek krwi różni się w grupach kobiet o różnym pocho
2. Zbieramy odpowiednie dane z prób osobników.
dzeniu etnicznym. Chociaż możemy przeprowadzić porówna
nia przeciętnych pomiędzy każdą parą grup, duże ryzyko 3. Obliczamy wartość statystyki testowej właściwej
błędu I rodzaju, wynikające z dużej liczby porównań, ozna dla
cza, że możemy wyciągnąć nieprawidłowe wnioski (rozdział Statystyka testowa dla ANOVA jest stosunkiem /wa
18). Dlatego przeprowadzamy jeden łączny test sprawdzają riancji międzygrupowej i wariancji wewnątrzgrupowej.
cy, czy przeciętne różnią się w grupach. Statystyka .F podlega rozkładowi .F (rozdział 8) odpowied
nio z {k- 1, n-1) stopniami swobody dla licznika i mia
nownika.
JEDNOCZYNNIKOWA Obliczenia wykonywane w ANOVA są złożone, więc
ANALIZA WARIANCJI nie opisujemy ich tutaj. Większość pakietów komputero
wych podaje wyniki bezpośrednio w postaci tablicy
Założenia
ANOVA, która zwykle zawiera stosunek foraz wartość p
Grupy są zdefiniowane przez poziomy pojedynczego czynni (patrz przykład 1).
ka (np. rozmaite pochodzenie etniczne). W badanej populacji
zmienna w każdej grupie ma rozkład normalny, a wariancje 4. Porównujemy wartości statystyki testowej z warto
we wszystkich grupach są takie same. Mamy odpowiednio ściami znanego rozkładu prawdopodobieństwa.
duże próby, aby zbadać te założenia. Stosunek F porównujemy z wartościami w Dodatku
A5. Ponieważ wariancja międzygrupowa jest większa
Uzasadnienie lub równa wariancji wewnątrzgrupowej, bierzemy pod
uwagę jednostronne wartości p.
Jednoczynnikowa analiza wariancji pozwala rozdzielić cał
kowitą zmienność danych na tę, która może być przypisana 5. Interpretujemy wartość p i wyniki.
różnicom między osobnikami z różnych grup (zmienność Jeżeli na tym początkowym etapie otrzymamy wynik
międzygrupowa), oraz losowe zmiany między osobnikami istotny, możemy rozważyć przeprowadzenie właściwych
wewnątrz każdej grupy (zmienność wewnątrzgrupowa, porównań par typu post-hoc. Możemy użyć jednego z wie
zwana niekiedy niewyjaśnioną lub resztową). Te składowe lu testów stworzonych specjalnie do tego celu (np. Dunca-
zmienności mierzone są przy użyciu wariancji, stąd nazwa na, Scheffego) lub możemy użyć testu t dla zmiennych
analiza wariancji (ANOVA). Gdy prawdziwa jest hipoteza niepowiązanych (rozdział 21), dostosowanego do wielokrot
zerowa, że średnie grupowe są takie same, wariancja mię nego testowania hipotez (rozdział 18). Możemy też obliczyć
dzygrupowa będzie zbliżona do wariancji wewnątrzgrupo przedział ufności dla średniej w każdej indywidualnej gru
wej. Jeżeli jednak istnieją różnice między grupami, wtedy pie (rozdział 11). Należy zauważyć, że gdy obliczamy prze
wariancja międzygrupowa będzie większa niż wariancja działy ufności lub przeprowadzamy test t, używamy wspól
wewnątrzgrupowa. Test oparty jest na stosunku tych dwóch nego oszacowania wariancji ze wszystkich grup. Więk
wariancji. szość pakietów statystycznych określa ten estymator wa
riancji jako wariancję resztową lub resztowy kwadrat
Notacja średniej. Znajduje się ona w tablicy ANOVA.
Mamy k niezależnych prób, każda jest otrzymana z innej
grupy. Liczebności prób, średnie i odchylenia standardowe
w każdej grupie wynoszą odpowiednio oraz (i=l, Chociaż testy te wydają się różne, test t dla zmiennych
2 k). Całkowita liczebność próby wynosi niepowiązanych i ANOVA dają równoważne wyniki, gdy ma
my tylko dwie grupy osobników.
1
Siegel S., Castellan N. J.: Nonparametric Statisticsfor rfte Be-
hcwioral Sciences. McGraw-Hill, Nowy Jork 1988.
2
Mickey R. M., Dunn O. J., Clark V. A.: Applied Statisttcs: Analy-
sis of Varian.ce and Regression, Wiley, Chichester 2004.
PRZYKŁAD 1
150 kobiet o różnym pochodzeniu etnicznym zostało włą czynnikową ANOVA. Uzasadnione było przyjęcie założe
czonych do badania przekrojowego na temat czynników nia o normalności rozkładu i równości wariancji, co poka
związanych z krzepnięciem krwi. Porównałyśmy średnie zuje wydruk komputerowy (Dodatek C).
poziomy płytek krwi w czterech grupach, stosując jedno-
1. HQ. Nie ma różnic pomiędzy średnimi poziomami pły 2. Poniższa tabela zawiera dane z każdej grupy.
tek w czterech grupach w populacji.
Hx\ Co najmniej jedna średnia grupowa poziomu pły
tek różni się od pozostałych w populacji.
Grupa Wielkość Średnia Odchylenie 95% przedział ufności dla średniej (użyto
próby frlO9) standardowe wspólnego oszacowania odchylenia stan
n(%) X (x 109), s dardowego — patrz pkt 3)
Kaukaska 90 (60,0) 268,1 77,08 252,7 do 283,5
Afrykańsko-karaibska 21 (14,0) 254,3 67,50 220,9 do 287,7
Śród zi emnomorska 19 (12,7) 281,1 71,09 245,7 do 316,5
Inna 20(13,3) 273,3 63,42 238,9 do 307,7
4. Tablica ANOVA daje w wyniku p = 0,70. W celu wy 5. Nie ma wystarczającego dowodu do odrzucenia hipo
znaczenia wartości p możemy porównać Fz wartościami tezy zerowej, że średnie poziomy w czterech grupach
w Dodatku A5 z (3, 146) stopniami swobody. w populacji są takie same.
Dane uzyskane dzięki uprzejmości dr R. A. Kadir, University Department of Obstetrics and Gynaecology i prof. C. A. Lee, Hacmophilia
Centrę and Haemostasis Unit, Royal Free Hospital, Londyn, Wielka Brytania.
PRZYKŁAD 2
W trzech grupach osobników, z ciężką hemofilią, z lek
ką/umiarkowaną hemofilią oraz w grupie kontrolnej zdro
wych zmierzono przy użyciu kwestionariusza SF-36 jakość
życia. Każda grapa składała się z próby 20 osobników.
W trzech grupach porównano punktacje wyrażone za po
mocą Skali Fizycznego Funkcjonowania (PFS — physical
functbning scalę), które mogą przyjmować wartości od 0
do 100. Ocena wzrokowa ryciny 22.1 pozwala stwierdzić,
że dane nie mają rozkładu normalnego, więc wykonujemy
test Kruskala-Wallisa.
1. Każda grupa w populacji ma taki sam rozkład 4. Porównujemy wartościami w Dodatku A3: p < 0,001.
punktacji PFS. 5. Nie ma dowodu pozwalającego odrzucić hipotezę ze
Co najmniej jedna z grup w populacji ma rozkład rową, że rozkłady punktacji PFS są takie same w trzech
inny niż pozostałe grupy w populacji. grupach. Przeprowadzono porównania parami przy uży
2. Dane przedstawiono na rycinie 22.1. ciu testu sumy rang Wilcoxona, z poprawką Bonferro-
3. Suma rang w grupie ciężkiej hemofilii = 372. niego dopasowującą wartości p, z uwagi na wielokrotne
Suma rang w grupie lekkiej/umiarkowanej hemofilii porównania (rozdział 18). Zarówno osobnicy z ciężką,
= 599. jak i lekką/umiarkowaną hemofilią mieli istotnie niższą
Suma rang w grupie kontrolnej zdrowych = 859. punktację PFS niż w grupie kontrolnej (odpowiednio
p = 0,0003 i p = 0,03), lecz rozkłady punktacji w gru
pach hemofilii nie różniły się istotnie od pozostałych
(p = 0,09).
Dane uzyskane dzięki uprzejmości: dr A. Miners, Department of Primary Care and Population Sciences, Royal Free and University Col
lege Medical School, Londyn, Wielka Brytania i dr C. Jenkinson, Health Services Research Unit, Universiiy of Oxford, Oxford, Wielka
Brytania.
PROBLEM
3. Obliczamy wartość statystyki testowej właściwej
Mamy jedną próbę n osobników; każdy z osobników albo po dla
siada cechę podlegającą badaniu (np. jest mężczyzną, jest
w ciąży, umarł), albo nie posiada takiej cechy (np. jest kobie
tą, nie jest w ciąży, nadal żyje). Dane te można w efektywny
sposób podsumować przez obliczenie proporcji osobników
z tą cechą. Chcielibyśmy się dowiedzieć, czy prawdziwa pro Podlega ona rozkładowi normalnemu.
porcja w badanej populacji przyjmuje szczególną wielkość. Wartość l/2n w liczniku jest poprawką ze względu na
ciągłość: dodaje się ją, gdyż aproksymujemy dyskretny
TEST DLA POJEDYNCZEJ PROPORCJI rozkład dwumianowy ciągłym rozkładem normalnym.
4. Porównujemy wartość statystyki testowej do warto
Założenia ści znanego rozkładu prawdopodobieństwa.
Nasza próba osobników została wybrana z populacji podle Porównujemy ^z wartością w Dodatku Al.
gającej badaniu. Każdy osobnik posiada określoną cechę lub 5. Interpretujemy wartość p oraz wyniki.
jej nie posiada. Interpretujemy wartość p i obliczamy przedział ufno
ści dla prawdziwej proporcji w populacji n. 95% prze
Notacja dział ufności dla n ma postać:
W naszej próbie o liczebności n cechę tę posiada r osobników.
Oszacowana proporcja osobników z cechą wynosi p = r/n.
Proporcja osobników z cechą w populacji wynosi JI. Chcemy
sprawdzić, czy n przyjmuje szczególną wartość jiy Możemy użyć tego przedziału ufności do oceny klinicz
nego lub biologicznego znaczenia wyników. Szeroki prze
Uzasadnienie dział ufności wskazuje, że nasz estymator jest mało do
Liczba osobników z cechą podlega rozkładowi dwumianowe kładny.
mu (rozdział 8), lecz może być przybliżana rozkładem nor
malnym, przy założeniu, że każda z wartości np oraz n(l - p)
jest większa niż 5. Wtedy p ma w przybliżeniu rozkład nor
TEST ZNAKÓW W ZASTOSOWANIU
malny z oszacowaną średnią = p i oszacowanym odchyleniem
DO PROPORCJI
standardowym: Uzasadnienie
Dlatego nasza statystyka testowa oparta na p również Testu znaków (rozdział 19) można użyć, gdy badana odpo
podlega rozkładowi normalnemu. wiedź może być wyrażona jako preferencja (np. w badaniu
naprzemiennym pacjenci mogą preferować leczenie A lub le
czenie B). Jeżeli ogólnie brak jest preferencji, wtedy może
my spodziewać się proporcji, np. preferencji A równej 1/2.
1.Definiujemy hipotezę zerową i alternatywną.
Testu znaków używamy w celu sprawdzenia, czy jest tak
Proporcja populacyjna n jest równa pewnej szcze
w rzeczywistości.
gólnej wartości %v
Proporcja populacyjna n nie równa się nx. Chociaż takie sformułowanie problemu i statystyka testo
2. Zbieramy odpowiednie dane z próby osobników. wa wydają się różnić od tych z rozdziału 19, przy obu podej
ściach do testu znaków otrzymujemy takie same wyniki.
PRZYKŁAD 1
Ludzki wirus opryszczki 8 (HHV-8) został powiązany z mię- w grupie 271 homo/biseksualnych mężczyzn leczących się
sakiem Kaposiego, pierwotnie naciekającym chtoniakiem, w londyńskiej klinice chorób przenoszonych drogą płciową.
oraz pewnymi typami choroby wieloogniskowego guza Ca- W populacji dawców krwi w Wielkiej Brytanii częstość wy
stlemana. Zasugerowano, że HHV-8 może być przenoszony stępowania seropozytywności HHV-8 wynosi 2,7%. Naj
drogą płciową. W celu sprawdzenia istnienia związku mię pierw częstość występowania seropozytywności z bieżące
dzy zachowaniami seksualnymi i infekcją HHV-8 została go badania została porównana z 2,7% przy wykorzystaniu
wyznaczona częstość występowania przeciwciał HHV-8 testu dla pojedynczej proporcji.
Dane otrzymane dzięki uprzejmości: dr N. A. Smith, D. Barlow i B. S. Peters, Department of Genitourinary Medicinc, Guy's and St Tho
mas' NIIS Trust, Londyn i dr J. Best, Department of Virology, Guy's, Kings College and St Thomass School of Medicinc, King's College,
Londyn, Wielka Brytania.
Dane adnpiowane z pracy; Kadcliffe M. J., Lampe F. C, Brostoff J.: AUergen-specjfw low-dose immunotherapy in perermial alleryh; rfuitt
(tó; a doublellind placobocontrulled crosuwer stiidy. Journal of hwestigational Allergology and Clinical lumiuiiology, 1996, 6, 242-247.
PROBLEMY
1. Definiujemy hipotezę zerową i alternatywną.
• Mamy dwie niezależne grupy osobników (np. homosek H0: Proporcje osobników z pewną cechą są równe
sualnych mężczyzn, którzy chorowali bądź nie na rzeżączkę). w obu grupach w populacji.
Chcielibyśmy się dowiedzieć, czy proporcje osobników z pew Te proporcje w obu grupach w populacji nie są
ną cechą (np. zainfekowanych ludzkim wirusem opryszczki równe.
HHV-8) są takie same w obu grupach. 2. Zbieramy odpowiednie dane z prób osobników.
• Mamy dwie grupy powiązane, tzn. osobnicy mogą być 3. Obliczamy wartość statystyki testowej odpowied
sparowani lub dwukrotnie poddawani badaniu w różnych niej dla Hą
sytuacjach (np. przed leczeniem i po nim). Chcielibyśmy się
dowiedzieć, czy proporcje osobników z daną cechą (np.
wzrost wyników w teście) są takie same w obu grupach.
Założenia
Mamy próby o liczebnościach nt oraz n^, które pochodzą
z dwóch niezależnych grup osobników. Chcielibyśmy się do
wiedzieć, czy proporcje osobników posiadających pewną cechę Jeżeli założenia nie są spełnione
są takie same w obu grupach. Każdy osobnik jest reprezento
Jeżeli w jakiejkolwiek z komórek E < 5, do obliczenia war
wany w badaniu tylko raz. Wiersze (i kolumny) w tablicy wza
tości p używamy dokładnego testu Fishera, który nie opie
jemnie się wykluczają, więc każdy osobnik może należeć tyl
ra się na przybliżeniu do rozkładu Chi-kwadrat. Obliczenia
ko do jednego wiersza i tylko do jednej kolumny. Zwyczajowe,
choć konserwatywne podejście wymaga, aby wartość oczeki te bez pomocy komputera są żmudne, więc najlepiej wyko
wana w każdej z czterech komórek wynosiła co najmniej pięć. nać je przy użyciu programu komputerowego.
Uzasadnienie
GRUPY POWIĄZANE: TEST McNEMARA
Jeżeli proporcje osób z cechą w obu grupach są równe, mo
żemy oszacować całkowitą proporcję osobników z cechą za Założenia
pomocą p = (a + b)/n; spodziewamy się, że nx x p z nich Dwie grupy są powiązane lub zależne, np. każdy osobnik
znajdzie się w grupie 1, a ^ x p w grupie 2. Podobnie wy może być badany w dwóch różnych okolicznościach. Każdy
znaczamy liczby oczekiwane osób bez cechy. Dlatego każda osobnik zostaje sklasyfikowany zgodnie z tym, czy cecha
wartość oczekiwana jest iloczynem odpowiadających sobie występuje w obu okolicznościach, tylko w jednej okoliczno
sum brzegowych, podzielonych przez sumę całkowitą. Duża ści, czy też w żadnej (tablica 24.2).
rozbieżność pomiędzy częstościami obserwowanymi (O)
a odpowiadającymi im częstościami oczekiwanymi (E)
wskazuje na to, że proporcje w dwóch grupach się różnią.
Statystyka testowa opiera się na tej rozbieżności.
Tablica 24.2. Częstości obserwowane w parach, w których cecha
jest obecna lub nieobecna.
Tablica 24.1. Częstości obserwowane.
Cecha Grupa 1 Grupa 2 Suma Okoliczność 1
Obecna Nieobecna Całkowita liczba par
Obecna a b a+ b
Nieobecna c d c+ d Okoliczność 2
Suma rcj = a+c n2=b+d n= a+ b+ c+ d Obecna w x w+x
Proporcja _ a_ n = — D= a+ ^ Nieobecna y z y+z
z cechą ^1 n, 2
"2 n Razem w+y x+ z m= w + x + y + z
PRZYKŁAD 1
W celu stwierdzenia związku między czynnikami ryzyka nych z przebytą rzeżączką i u tych, którzy nie mieli rze-
seksualnego i zakażeniem HHV-8 (badanie opisane w roz żączki. Porównania dokonano za pomocą testu Chi-kwa
działo 23) porównano częstość występowania seropozytyw drat. Typowy wynik komputerowy przedstawiony jest
ności do IIIIV-8 w grupie mężczyzn homo/heteroseksual w Dodatku C.
Przebyta rzeżączką
Tak Nie
Suma
HHV-8 Obserwowane Oczekiwane Obserwowane Oczekiwane obserwowanych
Adaptowane z pracy: Ketley C. E., Holt R. D.: Visual and radiographic diagnosis ofocclusal caries in first permanent molars and in se-
condprimary molars. British Dental Journal, 1993, 174, 364-370.
PRZYKŁAD
Przeprowadzono badanie przekrojowe w populacji star w cztery grupy wiekowe (65-69, 70-74, 75-79 i 80+ lat).
szych osób mieszkających w Southampton, które miało na Użyłyśmy testu Chi-kwadrat w celu stwierdzenia, czy
celu zmierzenie częstości występowania chorób układu częstość występowania bólów w klatce piersiowej różni
krążenia. Przebadano łącznie 259 osobników, w wieku od się w czterech grupach wiekowych.
65 do 95 lat. W czasie badania osobników pogrupowano
1. Istnieje brak związku między wiekiem i bólem 4. Porównujemy %2 z wartościami w Dodatku A3 z 3 stop
w klatce piersiowej w populacji. niami swobody: p > 0,10 (wynik komputerowy wynosi
Istnieje związek między wiekiem i bólem w klat p = 0,18).
ce piersiowej w populacji. 5. Brak jest dowodu pozwalającego odrzucić hipotezę ze
2. Częstości obserwowane (%) oraz częstości oczekiwane rową o braku związku pomiędzy bólem w klatce piersio
są przedstawione w poniższej tablicy. wej i wiekiem w populacji starszych osób. Estymowane
3. Statystyka testowa proporcje osób (95% przedziały ufności) z bólem w klatce
piersiowej w czterech kolejnych grupach wiekowych, po
czynając od najmłodszych, wynoszą: 0,20 (0,11, 0,29),
0,12 (0,04, 0,19), 0,10 (0,02, 0,17) oraz 0,09 (0,02, 0,21).
Wiek (lata)
Ból w klatce piersiowej 65-69 70-74 75-79 80+ Razem
Tak
Wartości obserwowane 15 (20,3%) 9(11,5%) 6 (9,7%) 4 (8,9%) 34
Wartości oczekiwane 9.7 10,2 8,1 5,9
Nie
Wartości obserwowane 59 (79,7%) 69 (88,5%) 56 (90,3%) 41 (91,1%) 225
Wartości oczekiwane 64,3 67,8 53,9 39,1
Razem 74 78 62 45 259
1. HQ: Nie istnieje związek liniowy między wiekiem i bó 4. Porównujemy z wartościami w Dodatku A3 z 1 stop
lem w klatce piersiowej w populacji. niem swobody: 0,05 < p < 0,10 (wynik komputerowy wy
Hx: Istnieje związek liniowy między wiekiem i bólem nosi p = 0,052).
w klatce piersiowej w populacji. 5. Nie ma dowodu wystarczającego do odrzucenia hipo
2. Dane zostały pokazane w poprzedniej tablicy. Przypo tezy zerowej o braku liniowego związku między bólem
rządkowujemy punktację 1, 2,3 i 4 odpowiednio do czte w klatce piersiowej a wiekiem w populacji starszych
rech grup wiekowych. osób. Jednakże wartość p jest bardzo bliska 0,05, co su
3. Statystyką testową jest Chi-kwadrat. geruje, że proporcja starszych osób z bólem w klatce
piersiowej maleje wraz ze wzrostem wieku.
Adaptowane z pracy: Ucwhurst Ci., Wooil D. A., Walkfir F., i in.: A population survey of cardkwascular disease in elderly people: design,
methods and provaler>re resuli.s. Agp and Agninj!. 1991, 20, 353-360.
WSTĘP
Analiza korelacji pozwala zmierzyć stopień związku między
dwoma zmiennymi, x i y. Na początek zakładamy, że obie
zmienne x i y są numeryczne, np. wzrost i masa ciała.
Przypuśćmy, że mamy parę wartości (x, y), mierzonych
w populacji u każdego z n osobników. Na dwuwymiarowym
wykresie rozrzutu możemy zaznaczyć punkt odpowiadający
parze wartości dla każdego osobnika (rozdział 4). Zazwyczaj
zmienną x umieszczamy na osi poziomej tego diagramu,
a zmienną y na osi pionowej. Wykreślając punkty dla
wszystkich n osobników, uzyskujemy rozrzut punktów, któ
ry wskazuje lub nie na związek między dwoma zmiennymi.
Właściwości
• r przyjmuje wartości od -1 do +1.
• Znak rwskazuje, czy jedna zmienna rośnie, gdy dru
ga rośnie (dodatnie r), czy też jedna zmienna maleje, gdy
druga rośnie (ujemne r, patrz rycina 26.1).
• Wielkość r wskazuje, jak blisko linii prostej znajdują
się punkty. W szczególności, jeżeli r= +1 lub -1, to istnieje
idealna korelacja z wszystkimi punktami leżącymi na prostej
(w praktyce zdarza się to nadzwyczaj rzadko); jeżeli r = 0, to
brak jest liniowej korelacji (chociaż może istnieć związek
nieliniowy). Im r bliższe jest wartości krańcowych, tym
wyższy jest stopień związku liniowego (rycina 26.1).
• Jest bezwymiarowy, tzn. nie ma jednostek pomiaro
wych.
• Wartość r dotyczy tylko zakresu wartości xi yw pró
bie. Jego wartość bezwzględna (z pominięciem znaku) ma
tendencję do wzrostu, gdy zakres wartości x i/lub y wzra
sta, i dlatego nie można wnioskować, że będzie miat taką
samą wartość, jeżeli weźmiemy pod uwagę wartości x i y
bardziej krańcowe niż wartości w próbie.
• x i y można zamieniać (miejscami) bez wpływu na
wartość r.
• Korelacja między x i y niekoniecznie oznacza związek
przyczynowy.
• r2 oznacza część zmienności zmiennej y, która może
być przypisana jej liniowemu związkowi ze zmienną x (roz Rycina 26.1. Pięć diagramów przedstawiających wartości r w róż
dział 28). nych sytuacjach.
26. Korelacja 69
Kiedy nie należy obliczać r
Obliczanie r może wprowadzać w błąd, gdy:
• Istnieje nieliniowy związek między dwoma zmiennymi
(rycina 26.2a), np. związek kwadratowy (rozdział 33);
• Dane zawierają więcej niż jedną wartość dla każdego
osobnika;
• Występuje jedna lub więcej wartości odskakujących
(rycina 26.2b);
• Dane zawierają podgrupy osobników, dla których
średnie poziomy wartości dla co najmniej jednej zmiennej
są różne (rycina 26.2c).
Jak mogliśmy się spodziewać, przy założeniu, że każda nywalny estymator 0,32. W celu sprawdzenia = 0 po
zmienna ma rozkład normalny, współczynnik korelacji ran równujemy tę wartość z wartościami Dodatku A10 i znowu
gowej Spearmana pomiędzy tymi zmiennymi dawał porów otrzymujemy p < 0,001.
Dane uzyskane dzięki uprzejmości: ms O. Papacosta, dr P. Whincup, Department of Primary Care and Population Sciences, Royal Frce
and University College Medical School, Londyn, Wielka Brytania.
26. Korelacja 71
27 TEORIA REGRESJI LINIOWEJ
Rycina 27.1. Oszacowana prosta regresji liniowej z zaznaczonym Rycina 27.2. Oszacowana prosta regresji liniowej ukazująca war
punktem przecięcia a i współczynnikiem nachylenia b (średni tości resztowe (pionowe linie przerywane) dla każdego punktu.
wzrost Ydla jednostkowego wzrostu x).
PRZYKŁAD
Na rycinie 2H. 1 pokazany jost związek między wzrostem Oszacowanie Biąd stan- Statystyka
(mierzonym w cm) i ciśnieniem skurczowym krwi (SBP — Zmienna parametru daniowy testowa Wartość p
sysiolic Mood pressure, mierzonym w mm Hg) w grupie
Przecięcie 46,2817 16,7845 2,7574 0,0070
100 dzieci opisanych w rozdziale 26. Wykonałyśmy anali
Wzrost 0,4842 0,1396 3,4684 0,0008
zę prostej regresji liniowej ciśnienia skurczowego krwi
od wzrostu. Założenia leżące u podstaw lej analizy zwery
fikowano na rycinach od 28.2 do 28.4. Typowy wydruk
komputerowy został załączony w dodatku C. Stosunek F
jest istotny, co można stwierdzić na podstawie tablicy ana p = 0,0008 dla hipotezy na temat wzrostu (tzn. Hai
lizy wariancji w Dodatku C (F= 12,03 z odpowiednio 1 i 98 prawdziwe nachylenie równa się zero). Tak jak oczekiwa
stopniami swobody w liczniku i mianowniku, p = 0,0008), no, jest identyczne z wartością otrzymaną z tablicy anali
więc istnieje Umowy związek między wzrostem a skurczo zy wariancji w Dodatku C.
wym ciśnieniem krwi. Wartość Rz modelu wynosi 10,9%. Skoro liczebność próby jest duża (wynosi 100), może
Tylko około dziesiąta część zmienności ciśnienia skurczo my wartość przybliżyć przez 1,96 i obliczyć 95%
wego krwi może być więc wytłumaczona przez model, tzn. przedział ufności dla prawdziwego nachylenia jako:
przez różnice we wzrostach dzieci. Wyniki z wydruku kom
puterowego zostały pokazane w tablicy.
Parametr estymatora dla „przecięcia" odpowiada war
tości a, zaś parametr dla „wzrostu" odpowiada wartości Dlatego 95% przedział ufności dla nachylenia waha się
b (nachylenie linii regresji). Zatem równanie oszacowanej od 0,21 do 0,75 mm Hg na centymetr zmiany we wzro
prostej regresji ma postać: ście. Ten przedział ufności nie zawiera zera, co potwier
dza, że nachylenie jest istotnie różne od zera.
SBP = 46,28 + 0,48 x wzrost
Możemy użyć równania regresji do prognozowania
W tym przykładzie punkt przecięcia nie jest sam skurczowego ciśnienia krwi, jakiego spodziewalibyśmy się
Z siebie interesujący (dotyczy prognozowanego ciśnienia u dziecka o danym wzroście. Na przykład, dziecko o wzro
krwi dla dziecka o wzroście zero cm, co całkowicie wy ście 115 cm ma prognozowaną wartość skurczowego ciśnie
kracza poza zakres wartości obserwowanych w badaniu). nia krwi równą 46,28 + (0,48 x 115) = 101,48 mm Hg;
Jednakże możemy interpretować współczynnik nachyle dziecko o wzroście 130 cm ma prognozowaną wartość
nia; u badanych dzieci skurczowe ciśnienie krwi wzrasta skurczowego ciśnienia krwi równą 46,28 + (0,48 x 130) =
przeciętnie o 0,48 mm Hg na każdy centymetr wzrostu. = 108,68 mm Hg.
PRZYKłAD
W rozdziale 28 badaliśmy związek między ciśnieniem skur nych wyjaśniających jest powiązana ze skurczowym ciśnie
czowym krwi i wzrostem u 100 dzieci. Wiadomo, że wzrost niem krwi (F- 14,95 z 3 i 96 stopniami swobody odpowied
i masa ciała są dodatnio skorelowane. Dlatego w celu zbada nio dla licznika i mianownika, p = 0,0001). Skorygowana war
nia u tych dzieci wpływu wzrostu (cm), masy ciała (kg) i płci tość R2 wynosząca 0,2972 wskazuje, że 29,7% zmienności
(0 = chłopiec, 1 = dziewczynka) na skurczowe ciśnienie krwi w skurczowym ciśnieniu krwi jest wytłumaczone poprzez
(mm Hg) wykonujemy analizę wielokrotnej regresji linio model — to jest przez różnice we wzroście, masie ciała i płci
wej. Założenia leżące u podstaw tej analizy zweryfikowano dzieci. Pozwala lo na lepsze dopasowanie do danych niż model
na rycinach od 29.1 do 29.4. Typowy wydruk z komputerowej prostej regresji liniowej z rozdziału 28, w którym R2 = 0,11.
analizy tych danych został załączony w Dodatku C. Tablica Typowy wydruk komputerowy zawiera informacje o zmien
analizy wariancji wskazuje, że co najmniej jedna ze zmień- nych wyjaśniających w modelu w poslaci tablicy:
Rycina 29.3. Podobnie jak w modelu jednej zmiennej, nie ma Rycina 29.4. Rozkład wartości resztowych jest podobny w gru
tendencji do systematycznego wzrostu lub spadku wartości reszt pie chłopców i dziewczynek, co sugeruje, że model jest dopaso
dla wartości dopasowanych. Spełniony jest więc warunek stałej wany równie dobrze w obu grupach.
wariancji.
Równanie wielokrotnej regresji liniowej ma postać: niem krwi; u dziewcząt ciśnienie skurczowe jest przecięt
nie 4,23 mm Hg wyższe niż u chłopców, nawet po wzięciu
SBP = 79,44 - (0,03 x wzrost) + (1,18 x masa) + pod uwagę możliwych różnic we wzrostach i masach ciała.
+ (4,23 x płeć). Stąd zarówno masa, jak i pleć są niezależnymi predykato-
rami skurczowego ciśnienia krwi u dzieci.
Związek między masą ciała a ciśnieniem skurczowym Możemy obliczyć spodziewane wartości skurczowego ci
krwi jest wysoce istotny (p < 0,0001), ze średnim wzro śnienia krwi u dzieci z danymi wzrostami i masami. Jeżeli
stem skurczowego ciśnienia krwi o 1,18 mm Hg na kilo pierwsze dziecko wspomniane w rozdziale 28 jest dziew
gram wzrostu masy po skorygowaniu wpływu wzrostu czynką o wzroście 115 cm i waży 37 kg, to ma ono progno
i pici. Jednak po skorygowaniu ze względu na masę i pleć zowane ciśnienie skurczowe krwi 79,44 - (0,03 x 115) +
związek między wzrostem i ciśnieniem skurczowym krwi + (1,18 x 37) + (4,23 x 1) = 123,88 mm Hg (wyższe niż
staje się nieistotny (p = 0.86). Sugeruje to, że istotny zwią 101,48 mm Hg prognozowane w rozdziale 28); jeżeli drugie
zek między wzrostem i skurczowym ciśnieniem krwi dziecko jest chłopcem o wzroście 130 cm i waży 30 kg, ma
w prostej analizie regresji odzwierciedla fakt, że wyższe ono prognozowane ciśnienie skurczowe krwi 79,44 - (0,03 x
dzieci są zwykle cięższe niż dzieci niższe. Istnieje znaczą x 130) + (1,18 x 30) + (4,23 x 0) = 110,94 mm Hg (wyższe
cy związek (p = 0,01) między płcią i skurczowym ciśnie niż 108,68 mm Hg prognozowane w rozdziale 28).
3
3
Menard S.: Applied logistic regression analysis. W: Sagę Univer- Ananth C. V., Kleinbaum D. G.: Regression methodsfor ordinal
sity Paper Sedes on Quantitative Applications in the Social Scien responses: a review of methods and applications. International
ces, Series no. 07-106. Sagę University Press, Thousand Oaks, Ca- Journal of Epidemiology, 1997, 27, 1323-33.
lifornia 1995.
PRZYKŁAD
W badaniu związku między zarażeniem ludzkim wirusem pomiędzy HHV-8 i pozostałymi zakażeniami i/łub wie
opryszczki typu 8 (opisanym w rozdziale 23) i zachowania kiem mężczyzny. Zmienne wyjaśniające opisywały wystę
mi seksualnymi zadano pytania 271 horno/biseksualnym powanie każdej z czterech infekcji, każda była kodowana
mężczyznom na temat wystąpienia u nich w przeszłości jako 0, jeżeli pacjent nie przebył tej choroby, lub 1, jeżeli
pewnych chorób przenoszonych drogą płciową (rzeżączka, ją przebył, oraz wiek pacjenta w latach. Typowy wynik
syfilis, opryszczka prosta typu 2 [HSV-2] oraz HIV). komputerowy zamieszczono w Dodatku C. Pokazuje on, że
W rozdziale 24 pokazałyśmy, że mężczyźni, którzy Chi-kwadrat dla współzmiennych wynosi 24,598 z 5 stop
przebyli rzeżączkę, częściej byli seropozytywni do HHV-8 niami swobody (p = 0,0002), co oznacza, że co najmniej
od tych, którzy nie przebyli rzeżączki. Wykonałyśmy ana jedna ze współzmiennych jest istotnie związana ze statu
lizę regresji logistycznej wielu zmiennych w celu zbada sem serologicznym HHV-8. Poniższa tabela podsumowuje
nia, czy efekt ten był prostym odzwierciedleniem związku informacje o każdej zmiennej w modelu.
PRZYKŁAD
Osobnicy zarażeni HIV, leczeni bardzo aktywną terapią Podczas całkowitej obserwacji 718 osobolat 61 pacjentów
antyretrowirusową (HAART), doświadczają zazwyczaj za doznało BETPLP, nieskorygowana częstość zdarzenia wynosi
niku obciążenia wirusem HIV do poziomu poniżej granicy 8,50 na 100 osobolat (95% przedział ufności: 6,61, 10,92),
wykrywalności (odpowiedź pierwotna). Jednakże część Nieskorygowane częstości BETPLP wynosiły 8,13 (6,31,
7. nich może po tej fazie doświadczyć braku efektu terapeu 10,95) w pierwszym roku od pierwotnej odpowiedzi na tera
tycznego po leczeniu przeciwwirusowym (BETPLP); zda pię, 12,22 (7,33, 17,12) w drugim roku oraz 3,99 (1,30, 9,31)
rza się lak, gdy obciążenie wirusem osobnika staje się w późniejszych latach. Wyniki z rrrodelu regresji Poissona za
ponownie wykrywalne podczas terapii. Identyfikacja czyn wierają tylko dwie zmienne ślepe (rozdział 29) odzwierciedla
ników związanych ze wzrastającą częstością BETPLP jące kategorie 1-2 i > 2 lat. Każda była porównywana z < 1
może po/wolk": na podjecie kroków mających na celu zapo- lat, gdyż początkowa odpowiedź na terapię sugerowała, ze
bieganifi lakiin zdarzeniom. Istnieją podstawy, by sądzić, czas od początkowej odpowiedzi wirusologicznej był istotnie
yr. częstość BETPLP może wzrastać z czasem terapii. powiązany z BETPLP (p = 0,04). Dodatkowo, w modelach re
Ponirważ w badaniu tym pacjenci są obserwowani przez gresji Poissona jednej zmiennej BETPLP była znacząco zwią
rożny okres, należy zastosować analizę regresji Poissona. zana z płcią (p - 0,03), jego/jej początkową liczbą CD8 (p =
Zidentyfikowano 516 pacjentów, u których wystąpiła = 0,01) oraz statusem leczenia w chwili rozpoczęcia bieżące
pierwotna odpowiedź na leczenie, i obserwowano ich do go trybu leczenia (uprzednio otrzymywał leczenie, nigdy nie
czasu BETPLP lub do czasu ostatniej obserwacji, jeżeli ob otrzymywał leczenia, p = 0,008). Wykonano zatem analizę re
ciążenie wirusem pozostawało w tym czasie stłumione. Ob gresji Poissona wielu zmiennych w celu określenia związku
serwacja rozpoczynała się od pierwszej chwili, gdy obciąże pomiędzy BETPLP i czasem trwania terapii po uwzględnieniu
nie wirusem stawało się niewykrywalne. Najbardziej pozostałych zmiennych. Wyniki podsumowano w tablicy 31.1;
interesującą zmienną wyjaśniającą był czas leczenia, jaki pełny wynik komputerowy zawiera Dodatek C.
upłyną! od odpowiedzi początkowej, lecz wartości tej zmien Wyniki z tego wielowymiarowego modelu sugerują, że
nej W okresie badania nieustannie się zmieniają dla każde istnieje trend w kierunku wyższych częstości BETPLP
go pacjenta. Dlatego, w celu zbadania, czy częstość BETPLP w okresie 1-2 łat po początkowej odpowiedzi w porówna
zmieniała sie w czasie, czas leczenia od odpowiedzi począt niu z widoczną w pierwszym roku (częstość BETPLP wzro
kowej podzielono na trzy przedziały czasowe: < 1, 1-2 oraz sła o 53% w okresie 1-2 lat), lecz po drugim roku częstość
> 2 lat (powstało w ten sposób 988 zestawów obserwacji), została obniżona (częstość BETPLP została zredukowana
przyjęto ogólne założenie, że częstość BETPLP była w przy o 44% w tym okresie w porównaniu z poziomem widocz
bliżeniu stała w każdym przedziale. Porównano potem nym w pierwszym roku po pierwotnej odpowiedzi), żaden
częstości BETPLP w trzech przedziałach czasowych. Wpro z tych wyników nie byt jednak istotny statystycznie. Po
wadzono dane do arkusza (długość okresu obserwacji skorygowaniu ze względu na wszystkie inne zmienne
w przedziałach, wystąpienie lub nie BETPLP w tych prze w modelu pacjenci, którzy otrzymywali swoje pierwsze le
działach i odpowiednie zmienne wyjaśniające) dla każdego czenie, mieli oszacowaną częstość BETPLP o 44% niższą od
pacieula w każdym przedziale, w którym był on obserwo tych pacjentów, którzy wcześniej byli leczeni, oszacowana
wany. Rozważane zmienne wyjaśniające zawierały dane częstość BETPLP u mężczyzn była o 39% mniejsza niż u ko
demograficzne, informację o etapie choroby w chwili rozpo biet (nie było to statystycznie istotne), a oszacowana czę
częcia leczenia, roku rozpoczęcia HAART oraz o tym, czy stość BETPLP została zredukowana o 65%, jeżeli pierwot
pacjent otrzymywał leczenie w przeszłości. na liczba CD8 była o 100 komórek/mm3 wyższa.
W celu ograniczenia liczby współzmiennych w modelu Przykłady opisane w rozdziałach 32 i 33 pozwalają zapo
regresji Poissona z wieloma zmiennymi do zidentyfikowa znać się z dodatkowymi analizami, które dotyczą tego mode
nia współzmiennych związanych z BETPLP użyto osob lu Poissona, zawierającymi oszacowania podwyższonego roz
nych modeli Poissona jednej zmiennej dla każdej współ- rzutu, jakości dopasowania oraz liniowości współzmiennych.
zmieruiej (patrz rozdział 34).
* W nawiasach podano kody dla zmiennych binarnych (płeć i status leczenia). Czas od początkowej odpowiedzi na leczenie uwzględnio
no przez włączenie zmiennej ślepej, co miało na celu odzwierciedlenie okresów 1-2 lat oraz > 2 lata od początkowej odpowiedzi.
** Alternatywna metoda oszacowania istotności zmiennej kategorialnej z więcej niż dwoma kategoriami została opisana w rozdziałach
32 i 33.
Adaptowano z pracy; Ms Coletto Smith, Department of Primary Care and Population Sciences, Royal Free and University College Me-
dical School, liindyn. Wielka Brytania.
Modelowanie statystyczne obejmuje prostą i wielokrotną re dy odpowiednim modelem będzie regresja logistyczna.
gresję liniową (rozdziały 27-29), regresję logistyczną (roz Zauważmy, że dzięki modyfikacji formatu naszej zmiennej za
dział 30), regresję Poissona (rozdział 31) oraz pewne metody leżnej możemy Wybrać różne rodzaje modelu. W szczególno
używane w przypadku danych przeżycia (rozdział 44). ści, jeżeli mamy ciągłą numeryczną zmienną wynikowa, lecz
Wszystkie one polegają na tworzeniu modelu matematycz co najmniej jedno z założeń regresji liniowej nie zostało speł
nego, który najlepiej opisuje związek między zmienną wyj nione, możemy dokonać kategoryzacji naszej zmiennej wyni
ściowa a jedną lub większą liczbą zmiennych wyjaśniają kowej na dwie grupy w celu wytworzenia nowej wynikowej
cych. Tworzenie takiego modelu pozwala na określenie zmiennej binarnej. Na przykład, jeżeli nasza zmienna zależ
stopnia, w jakim każda zmienna wyjaśniająca jest powiąza na jest skurczowym ciśnieniem krwi (zmienna ciągła nume
na Ze zmienną wynikową, po wzięciu pod uwagę wszystkich ryczna) po okresie sześciomiesięcznej terapii przeciwnadci-
pozostałych zmiennych wyjaśniających w modelu. Pozwala śnieniowej, możemy wykonać przy użyciu określonej
to również na prognozowanie wartości wyjściowej na pod wartości odcięcia dychotomizację skurczowego ciśnienia
stawie tych danych wyjaśniających. krwi na wysokie lub niskie, a następnie zastosować regresję
Uogólniony model liniowy (GLM - generalized linear logistyczną do identyfikacji czynników związanych z tą binar
model) można wyrazić w postaci ną zmienną wyjściową. Jakkolwiek dychotomizacja tym spo
sobem zmiennej zależnej może uprościć dopasowanie i inter
g(Y) = a+ bxxx + b2x2 + ... + bkxk pretację modelu statystycznego, część informacji o zmiennej
gdzie Fjest oszacowaną wartością średnią lub oczekiwaną zależnej zostanie zwykle pominięta. Dlatego należy dokładnie
zmiennej zależnej, która podlega znanemu rozkładowi praw rozważyć zalety i wady tego podejścia.
dopodobieństwa (np. normalnemu, dwumianowemu, Poisso
na); g(Y), zwana funkcją łączącą, jest transformacją Y, która WIARYGODNOŚĆ I ESTYMACJA
tworzy liniowy związek z x 1 ? ..., xk, zmiennymi predykcyjny-
mi lub wyjaśniającymi; bh ..., bksą oszacowanymi współczyn NAJWIĘKSZEJ WIARYGODNOŚCI
nikami regresji, które odnoszą się do tych zmiennych wyja Gdy dopasowujemy GLM, do oszacowania parametrów mode
śniających; a jest członem stałej. lu odwołujemy się na ogół do koncepcji wiarygodności. Dla
Każdy z modeli predykcyjnych opisany we wcześniej każdego GLM scharakteryzowanego przez znany rozkład
szych rozdziałach może być wyrażony jako szczególny rodzaj prawdopodobieństwa, zbiór zmiennych wyjaśniających oraz
GLM (tablica 32.1). Funkcja wiążąca jest logitem proporcji pewnych potencjalnych wartości dla każdego z ich współ
(tj. loź s z szans) w regresji logistycznej oraz log e częstości czynników regresji, wiarygodnością modelu (L) jest prawdo
W regresji Poissona. W prostej i wielokrotnej regresji linio podobieństwo, które uzyskalibyśmy, biorąc współczynniki re
wej nie ma potrzeby transformowania zmiennej zależnej; gresji otrzymane z wartości obserwowanych. Oszacowujemy
funkcja wiążąca odnosi się wtedy do funkcji tożsamościo współczynniki modelu przez dobór wartości dla współczynni
wej. Jeżeli określimy typ regresji, jaki chcemy przeprowa ków regresji, które maksymalizują L (tj. są tymi wartościami,
dzić, większość pakietów statystycznych wbuduje do obli które najprawdopodobniej wytworzyły obserwowane przez
czeń w sposób automatyczny funkcję wiążącą tak, że nie nas wyniki); proces nazywa się oszacowaniem największej
będzie potrzeby dokonywania dalszych specyfikacji. wiarygodności (MLE — mcucimum likelihood estimatiori)
i wyznacza estymatory największej wiarygodności. MLE
jest procesem iteracyjnym i dlatego wymaga specjalnego
JAKI WYBIERZEMY RODZAJ MODELU? oprogramowania komputerowego. Jedynym wyjątkiem dla
Wybór odpowiedniego modelu zależy od badanej zmiennej MLE jest przypadek modelu prostej i wielokrotnej regresji li
wynikowej (tablica 32.1). Na przykład, jeżeli nasza zmienna niowej (z tożsamościową funkcją łączącą), gdzie zwykle osza
zależna jest ciągłą zmienną numeryczną, możemy użyć pro cowujemy parametry, stosując metodę najmniejszych kwa
stej lub wielokrotnej regresji liniowej w celu zidentyfikowa dratów (estymatory są często określane jako estymatory zwy
nia czynników związanych z tą zmienną. Jeżeli mamy binar czajnych najmniejszych kwadratów (OLS — ordinary least
ną zmienną wynikową (np. pacjent zmarł lub nie zmarł), squares, rozdział 27); w tej sytuacji estymatory OLS i MLE
a wszyscy pacjenci są obserwowani przez ten sam czas, wte są identyczne.
Tablica 32.1. Wybór odpowiedniego typu GLM w zależności od różnych typów wyników.
DIAGNOSTYKA REGRESYJNA
Gdy przeprowadzamy jakąkolwiek analizę regresji, ważne
LRS, często określany jako -2 log wiarygodność (rozdzia jest uwzględnienie serii diagnostyk regresyjnych. Pozwalają
ły 30 i 31) lub jako dewiancja sumy kwadratów odchy one na zbadanie dopasowanych modeli regresji i przyjrzenie
leń względem średniej, podlega w przybliżeniu rozkładowi się defektom, które mogą wpływać na estymatory parame
Chi-kwadrat z liczbą stopni swobody równą różnicy liczby pa trów i ich błędów standardowych. W szczególności musimy
rametrów dopasowanych w dwóch modelach (tj. n - k, gdzie rozważyć, czy założenia leżące u podstaw modelu nie zosta
n oznacza liczbę obserwacji w zestawie danych, a k jest licz ły pogwałcone (rozdział 28) i czy nasze wyniki nie są silnie
bą parametrów prostszego modelu, uwzględniającą przecie- zaburzone przez pomiary wpływające (rozdział 29).
PRZYKŁAD
W przykładzie w rozdziale 31 użyliśmy testu Walda do iden nicę pomiędzy wartościami uzyskanymi dla -2 log wiary
tyfikacji poszczególnych czynników związanych z nawrotem godności (tj. LRS lub dewiancja) z każdego z modeli (tablica
wiremii w grupie 516 pacjentów z HIV (z 988 zbiorami ob 32.2). Pełny wydruk komputerowy został załączony w Do
serwacji), którzy byli leczeni wysoce aktywną terapią anty- datku C. Włączenie dwóch zmiennych ślepych było związa
retrowirusowa (HAAHT). W szczególności chcielibyśmy się ne z redukcją -2 log wiarygodności o wartość 5,53 (= 393,12 -
dowiedzieć, czy częstość braku efektu terapeutycznego po - 387,59). Statystyka tego testu podlega rozkładowi
leczeniu przeciwwirusowym (BETPLP) wzrosła w czasie, po Chi-kwadrat z 2 stopniami swobody (2 dodatkowe parame
uwzględnieniu innych potencjalnie uwikłanych zmiennych, try dołączono do większego modelu). Wartość p związana
które byiy związane z BETPLP. Chociaż najbardziej intere z tym testem statystycznym wynosiła 0,06, więc związek
sujący nas wynik jest binarny (pacjent miał BETPLP, pa między BETPLP a czasem od odpowiedzi pierwotnej jest
cjent nie miał BETPLP), wybrałyśmy model regresji Poisso- w zasadzie nieistotny. Wartość -2 log wiarygodności dla mo
na zamiast modelu logistycznego, ponieważ poszczególni delu 2 pozwala również określić adekwatność dopasowania
pacjenci byli obserwowani przez różny czas. Zatem zmienną tego modelu przez porównanie jego wartości -2 log wiary
wyjściową dla wykonywanej analizy była częstość zdarzeń. godności z rozkładem Chi-kwadrat z 982 stopniami swobo
W tym rozdziale wartości p dla zmiennych wyznaczono przy dy. Wartość p uzyskana z tego porównania wynosiła > 0,99,
użyciu statystyki stosunku wiarygodności. W szczególno co sugeruje, że jakość dopasowania modelu jest do zaakcep
ści, do obliczenia wartości p związanej z oboma ślepymi towania. Należy jednak zauważyć, że po włączeniu tych pię
zmiennymi oznaczającymi czas od pierwszej odpowiedzi na ciu zmiennych do modelu mamy dowód na zaniżenie rozrzu
leczenie zostały dopasowane dwa modele. Pierwszy zawie tu, gdyż stosunek -2 log wiarygodności podzielony przez
rał zmienne związane ze statusem leczenia (uprzednio otrzy jego liczbę stopni swobody wynosił 0,39, więc byt znacznie
mywał leczenie, nigdy nie otrzymywał leczenia), płeć i po mniejszy od jedności, co sugeruje, że wielkość zmienności
czątkową liczbę CD8 (Model 1); drugi obejmował te zmienne resztowej była mniejsza, niż można by się spodziewać z mo
i dwie zmienne ślepe (Model 2). Następnie zanalizowano róż delu Poissona (rozdział 31).
Tablica 32.2. Wartości -2 Log wiarygodności, liczba stopni swobody i liczba dopasowywanych w modelu parametrów, które wykluczają
i wtaczają czas od początkowej odpowiedzi na leczenie.
Model Włączone zmienne -2 log wiary- Liczba stopni swo- Liczba parametrów dopasowywanych
godności body dla modelu modelu, przy uwzględnieniu przecięcia
1 Status leczenia, płeć. i początkowa liczba CD8 393,12 984 4
2 Status leczenia, pleć i początkowa liczba CD8
oraz 2 zmienne ślepe dla czasu od początkowej
odpowiedzi na leczenie 387,59 982 6
Bez względu na to, jaki wybierzemy rodzaj modelowania sta więc związek liniowy między każdą zmienną wyjaśniającą
tystycznego, musimy podjąć decyzję, które zmienne wyjaśnia a zmienną zależną. W regresji Poissona oraz logistycznej
jące należy włączyć do modelu i jak najlepiej to uczynić. Decy estymator parametru daje miarę wpływu wzrostu o jednost
zje te będą zależały od typu zmiennych wyjaśniających (nomi kę zmiennej wyjaśniającej na logarytm zmiennej zależnej
nalna kategorialna, porządkowa kategorialna lub numeryczna) (tzn. model zakłada związek liniowy pomiędzy zmienną wy
oraz związku między tymi zmiennymi a zmienną zależną. jaśniającą a logarytmem częstości lub szansy, ale związek
eksponencjalny z aktualną częstością lub szansą). Ważną
NOMINALNE ZMIENNE WYJAŚNIAJĄCE rzeczą jest sprawdzenie poprawności założenia liniowości
(patrz następna sekcja) przed włączeniem numerycznych
Zwykle w celu zbadania w analizie regresji wpływu zmien zmiennych wyjaśniających do modeli regresyjnych.
nej wyjaśniającej, nominalnej kategorialnej trzeba stworzyć
zmienne ślepe lub wskazujące (rozdział 29). Zwróćmy uwa- Badanie założenia liniowości
^e, ze przy określaniu adekwatności dopasowania modelu za W celu zbadania założenia liniowości w modelu regresyj-
wierającego zmienną nominalną o więcej niż dwóch katego nym prostym lub wielokrotnym wykreślamy numeryczną
riach lub przy określaniu istotności tej zmiennej ważne jest zmienną zależną y w funkcji zmiennej wyjaśniającej x lub
włączenie wszystkich zmiennych ślepych w modelu w tym wykreślamy wartości resztowe modelu w funkcji X (rozdział
samym czasie. Jeżeli tego nie zrobimy (tzn. jeżeli włączymy 28). Surowe dane powinny przybliżać linię prostą, a warto
tylko jedną ze zmiennych ślepych dla określonego poziomu ści resztowe nie powinny mieć charakterystycznego rozkła
zmiennej kategorialnej), będziemy mogli jedynie częściowo du. Możemy określić założenie liniowości w regresji logi
określić wpływ tej zmiennej na wynik. Z tego powodu lepiej stycznej (rozdział 30) lub regresji Poissona (rozdział 31),
oceniać istotność zmiennej przy użyciu statystyki testowej kategoryzując osobników na mniejsze podgrupy równej
stosunku wiarygodności (LRS — rozdział 32) niż poprzez ba wielkości (5-10 osobników) w zależności od ich wartości dla
danie poszczególnych wartości p dla każdej ślepej zmiennej. x. W regresji Poissona obliczamy logarytm częstości wystę
powania wyniku w każdej podgrupie i wykreślamy go
PORZĄDKOWE ZMIENNE WYJAŚNIAJĄCE w funkcji środków zakresów wartości x dla odpowiednich
podgrup (rycina 33.1). W regresji logistycznej dla każdej
W sytuacji, gdy mamy zmienną porządkową z więcej niż dwo podgrupy wyznaczamy logarytm szans i wykreślamy go
ma kategoriami, możemy zastosować jedno z dwóch podejść. znowu w funkcji środków zakresów. W każdym przypadku,
• Potraktuj zmienną kategorialna jako pomiar ciągły nu jeżeli założenie liniowości jest sensowne, powinniśmy się
meryczny, przyporządkowując wartość numeryczną do każ spodziewać podobnego stopnia krokowego wzrostu (lub
dej kategorii zmiennej. To podejście w pełni wykorzystuje spadku) w logarytmie częstości lub szans, gdy przechodzi
uporządkowanie kategorii, lecz zwykle zakłada związek li my pomiędzy przyległymi kategoriami x.
niowy (gdy wartości numeryczne są w równych odległo
ściach) pomiędzy zmienną wyjaśniającą i zmienną zależną
(lub jej transformatą), a to należy sprawdzić.
Radzenie sobie z nieliniowością
Istnieje kilka sposobów postępowania, jeżeli wykryjemy
• Potraktuj zmienną kategorialna jako zmienną wyja
nieliniowość na którymś z tych wykresów.
śniającą nominalną i stwórz dla niej serię zmiennych ślepych
lub wskaźnikowych (rozdział 29). To podejście nie bierze pod
uwagę uporządkowania kategorii i dlatego traci się w nim
część informacji. Jednakże nie zakłada ono związku liniowe
go ze zmienną zależną i dlatego jest czasem wybierane.
Różnica w wartościach LRS z obu modeli pozwala uzy
skać statystykę testową do testowania liniowego trendu
(tj. oszacowania, czy model zakładający liniową zależność
daje lepsze dopasowanie niż model niezakładający związku
liniowego). Statystyka ta podlega rozkładowi Chi-kwadrat
z liczbą stopni swobody równą różnicy w liczbie parame
trów w obu modelach; istotność wyniku sugeruje nielinio
wość.
Tablica 33.1. Wyniki wiolozmionnoj analizy regresji Poissona czynników związanych z brakiem efektu terapeutycznego po leczeniu
przeciwwirnwiwym (HrTPJ.P), po wleczeniu liczby CD8 jako zmiennej kategorialnej w modelu.
Oszacowana 95% przedział
Oszacowanie Bla.d częstość ufności dla
Zmienna psrameini standardowy względna częstości względnej Wartość p"
Czas od pierwszej odpowiedzi
na leczenie (lata) <1 odniesienie — l —
1-2 0,4550 0,2715 1,58 0.93,2,68
>2 -0,5386 0,4849 0,58 0,23, 1,51 0,06
Status leczenia
Uprzednio stosowano leczenie (0) odniesienie — 1 —
Nigdy nic stosowano leczenia (1) -0,5580 0,2600 0,57 0,34,0,95 0,03
ltoć
Kobiety (0) odniesienie — 1 —
Mężczyźni (1) -0,4970 0,2675 0,61 0,36,1.03 0,07
Liczba CD8
3
(100komorek/mm ) < 625 -0,2150 0,6221 0,81 0,24,2,73
5=625, <825 -0,3646 0,7648 0,63 0,16,3,11
?825, < 1100 odniesienie — 1 —
SI 100 -0,3270 1,1595 0,78 0,07,7,00
Braki -0,8264 0,6057 0,44 0,13, 1,43 0,25
W nawiasach podano kody dla zmiennych binarnych (płeć i status leczenia). Czas od odpowiedzi pierwotnej na leczenie uwzględniono
przez włączenie dwóch zmiennych ślepych odpowiadających okresom 1-2 lat i > 2 lat po pierwotnej odpowiedzi. Początkowa liczba CD8
została włączona w sposób opisany powyżej.
"Wartości p otrzymane przy użyciu LRS (rozdział 32); tam, gdzie ślepe zmienne zostały użyte do włączenia więcej niż 2 kategorii
w zmiennej, wartość p odzwierciedla łączny efekt tych zmiennych.
INTERAKCJA UWIKŁANIE
Co to jest? Co to jest?
Statystyczna interakcja, znana również jako modyfikacja Zmienna uwikłana lub mieszająca to zmienna wyjaśniająca,
wpływu (rozdział 13) pomiędzy dwoma zmiennymi wyja powiązana zarówno ze zmienną zależną, jak i z jedną lub
śniającymi w analizie regresji pojawia się, gdy związek po większą liczbą zmiennych wyjaśniających w modelu. Na
między jedną ze zmiennych wyjaśniających a zmienną zależ przykład, możemy być zainteresowani badaniem wpływu sta
ną nie jest taki sam dla różnych poziomów drugiej ze tusu palenia i spożywania alkoholu na zapadalność na choro
zmiennych wyjaśniających, tj. dwie zmienne wyjaśniające bę wieńcową (CHD — coronary heart disease) w kohorcie
nie oddziałują na zmienną zależną niezależnie. Na przykład, mężczyzn w średnim wieku. Jakkolwiek spożycie alkoholu
przypuśćmy, że obecny status palenia tytoniu i status spoży i palenie tytoniu są znane jako czynniki stowarzyszone
wania alkoholu mogą być skategoryzowane na dwóch pozio z rozwojem CHD, obie zmienne również są ze sobą związa
mach (palacz/niepalący i pijący/niepijący) i każdy osobnik ne (tj. bardziej prawdopodobne jest, że mężczyzna pijący
przynależy do jednej z kategorii każdej zmiennej. Jeżeli róż alkohol będzie palił, niż że będzie palii mężczyzna niepiją-
nica w rozkurczowym ciśnieniu krwi (zmienna zależna) po cy alkoholu). Każdy model regresyjny, w którym rozpatruje
między palącymi i niepalącymi jest przeciętnie większa się wpływ jednej ze zmiennych wyjaśniających na wynik,
u tych, którzy nie piją alkoholu, niż u tych, którzy piją, wte lecz nie włącza się zmiennej wikłającej (np. model wiążący
dy mówimy, że istnieje interakcja między paleniem a spo status palenia z zapadalnością na CHD bez uwzględnienia
żywaniem alkoholu. spożywania alkoholu) może zakłamać prawdziwą rolę zmien
nej wyjaśniającej. Uwikłanie może albo ukrywać prawdziwy
Testowanie interakcji związek, albo sztucznie wytwarzać fałszywy związek miedzy
W modelu represyjnym statystyczną interakcję sprawdza się zmienną wyjaśniającą a zmienną wynikową. Brak uwzględ
zazwyczaj bezpośrednio i wiele pakietów statystycznych po nienia czynników wikłających w analizie regresji prowadzi
zwala na włączenie członów interakcyjnych. Jeżeli w pakie do obciążenia (rozdział 12) estymatorów parametrów modelu.
cie nie ma takiego ułatwienia, wtedy człon interakcyjny
można wytworzyć bez pomocy oprogramowania przez włą Rozwiązywanie problemu uwikłania
czenie iloczynu odpowiednich zmiennych jako dodatkowej Z uwikłaniem można radzić sobie w dwojaki sposób:
zmiennej wyjaśniającej. Zatem w celu uzyskania zmiennej, • Tworzymy podgrupy, tworząc warstwy zbioru danych
która oznacza interakcję pomiędzy dwoma zmiennymi (obie ze względu na poziomy zmiennej wikłającej (np. utworze
binarne, obie numeryczne lub jedna binarna, jedna nume nie dwóch podgrup, pijących i niepijących), i przeprowa
ryczna), mnożymy przez siebie wartości obu tych zmiennych dzamy analizy osobno w każdej podgrupie. Chociaż jest to
dla osobnika. Gdy obie zmienne są numeryczne, interpreta proste podejście i bardzo polecane, gdy liczba zmiennych
cja jest łatwiejsza, gdy stworzymy człon interakcyjny wikłających jest niewielka, to: (1) Podgrupy mogą być małe
z dwóch zmiennych binarnych uzyskanych z dychotomizacji i na skutek tego analiza ma zmniejszoną moc wykrywania
każdej zmiennej numerycznej. Jeżeli jedna z dwóch zmien istotnych efektów. (2) Z powodu wielokrotnego testowania
nych jest zmienną kategorialną z więcej niż dwoma katego (rozdział 18) mogą pojawiać się nieprawdziwe istotne wyni
riami, tworzymy z nich serię ślepych zmiennych (rozdział ki, jeżeli hipotezy testuje się dla każdej podgrupy. (3) Kombi
29) i używamy każdej z nich, w połączeniu z drugą badaną nowanie osobnych estymatorów badanego efektu dla każdej
zmienną binarną lub numeryczną, do wygenerowania serii podgrupy może sprawiać trudność.
członów interakcyjnych. Procedurę tę można rozszerzyć • Dokonujemy skorygowania ze względu na zmienne
w przypadku, gdy obie zmienne są kategorialne i każda ma wikłające w wielowymiarowym modelu regresji. To podej
więcej niż dwie kategorie. ście jest szczególnie użyteczne, gdy w badaniu mamy wiele
Człony interakcyjne powinny być włączane do modelu re- zmiennych wikłających, pozwala na oszacowanie związku
gresyjnego tylko po wprowadzeniu efektów prostych (wpły pomiędzy zmienną wyjaśniającą a zmiennymi zależnymi,
wy zmiennych bez jakiejkolwiek interakcji). Zwróćmy uwa których nie można wyjaśnić przez związek między zmienną
gę, że statystyczne testy interakcji mają zwykle niską moc zależną i zmienną wikłającą.
(rozdział 18). Jest to szczególnie ważne, gdy obie zmienne
wyjaśniające są kategorialne i w podgrupach pojawiają się Uwikłanie w badaniach nierandomizowanych
rzadkie zdarzenia tworzone przez kombinację każdego po Ze zjawiskiem uwikłania musimy być szczególnie ostrożni,
ziomu jednej zmiennej z każdym poziomem drugiej zmien gdy porównujemy leczenie w nierandomizowanych klinicz
nej lub jeżeli te podgrupy zawierają bardzo małą liczbę osob nych badaniach kohort owych (rozdział 15). W tym typie bada
ników. nia cechy osobników mogą być rozłożone w różnych grupach
leczenia w sposób nierównomierny. Na przykład, osobnicy
mogą zostać wybrani do określonego leczenia na podstawie
historii choroby, czynników demograficznych lub stylu życia.
Niektóre z nich mogą się wiązać ze zmienną wynikową i dla-
Adaptowane z pracy: Mocrofl A. J., Jołmson M. A., Sabin C. A., i in.: Staging system for clinical AIDS patients. Lancet 1995, 346, 12-17;
za zgodą Elscvicr.
PRZYKŁAD
Weźmy pod uwagę przykład dla testu t z rozdziału 21.W ce dej z grup przez 6 miesięcy, lecz musimy upewnić się, że
lu określenia wpływu leku na świszczący oddech przypo zostały spełnione niezbędne założenia (normalność i stała
rządkowano losowo 98 dzieci w wieku szkolnym do grupy wariancja). Wykresy typu „łodyga z liśćmi" na rycinie -4.2
inhalującej albo diprapionian beklometazonu, albo placebo. pokazują, że dane są w przybliżeniu rozłożone zgodnie
Użyłyśmy niepowiązanego testu z do porównania średniej z rozkładem normalnym. Wykonujemy test FVJ celu zbada
wartości wymuszonej objętości wydechowej (FEV1) w każ nia założenia o stałej wariancji w obu grupach.
1. łl0: Wariancja pomiarów FEV1 w populacji dzieci 4. Porównujemy F= 1,34 z wartościami w Dodatku A5
w wieku szkolnym jest taka sama w obu badanych gru dla testu dwustronnego na 5% poziomie istotności. Ponie
pach. waż Dodatek A5 jest ograniczony do liczby stopni swobo
Wariancja pomiarów FEV1 w populacji dzieci w wie dy 25 i nieskończoności (500) dla licznika oraz 30 i 50 dla
ku szkolnym nie jest taka sama w obu badanych grupach. mianownika, musimy dokonać interpolacji (rozdział 21).
2. Grupa leczonych: wielkość próby nx = 50, odchylenie Potrzebna wartość tablicowa na 5% poziomie istotności
standardowe s, = 0,29 litra. leży pomiędzy 1,57 a 2,12; zatem p > 0,05, ponieważ 1,34
Grupa placebo: wielkość próby n2 - 48, odchylenie jest mniejsze niż mniejsza z tych wartości (wynik kom
standardowe s2 = 0, 25 litra. puterowy wynosi p = 0,32).
3. Statystyka testowa 5. Brak zatem dowodu pozwalającego na odrzucenie hi
potezy zerowej, że wariancje są równe. Jest rzeczą sen
= 1,336, która podlega rozkła sowną użycie do porównania średnich wartości FEV1
w obu grupach niepowiązanego testu t, który zakłada
dowi F z 50 - 1 = 49 i 48 - 1 = 47 stopniami swobody, normalność i jednorodność wariancji.
odpowiednio dla licznika i mianownika.
METODOLOGIA 1
Machin D., Campbell M. J., Fayers P. M., Pinol A. P. Y.: Samplesize
Możemy obliczyć wielkość próby na wiele sposobów, z któ Tablesfor Clinical Studies. Blackwell, Oxford 1997.
rych właściwie każdy wymaga tej samej (opisanej w wyma 2
Lehr R.: Sbcteen s squared over d sąuared: a relationfor crude
ganiach) informacji. sample size estitnates. Statistic in Medicine, 1992, 11, 1099-1102.
Test Chi-kwadrat N/2 obserwacji w każdej grupie : najmniejsza ważna klinicznie różnica proporcji „sukce
(rozdział 24) sów" w obu grupach. Jedna z tych proporcji jest często
znana i odpowiednią różnicę szacuje się przez rozważe
nie, jaką wartość druga proporcja musi przyjąć, by sta
nowić godną uwagi zmianę.
PRZYKŁAD 1
Porównywanie średnich w grupach niepowiązanych przy użyciu niepowiązanego testu f
Cel — badanie skuteczności zawiesiny acicloviru Pytanie dotyczące wielkości próby — jak wiele dzieci
(15 mg/kg) w leczeniu dzieci w wieku 1-7 lat z opryszcz- musi wziąć udział w eksperymencie dla uzyskania 90%
kowym zapaleniem dziąseł, trwającym krócej niż 72 go mocy wykrywania 2,5-dniowej różnicy średniego czasu
dziny. trwania zmian patologicznych w jamie ustnej w dwóch
Projekt — randomizowany, podwójnie ślepy ekspery grupach na poziomie istotności 5%? Autorzy zakładają, że
ment kontrolowany grupą placebo z „leczeniem" stosowa odchylenie standardowe czasu trwania zmian patologicz
nym 5 razy dziennie przez 7 dni. nych w jamie ustnej wynosi w przybliżeniu 5 dni.
Główna miara wyniku dla wyznaczenia wielkości
próby — czas trwania zmian patologicznych w jamie ust
nej.
wynosi
z 180/3 = 60 dziećmi w grupie placebo, a pozostałymi
120 dziećmi w grupie acicloviru. Rycina 18.1 przedsta
Linia łącząca standaryzowaną różnicę 0,50 oraz moc wia krzywe mocy dla tego przykładu.
90% przecina oś wielkości próby w pobliżu wartości 160.
Dlatego w każdej grupie potrzeba około 80 dzieci. Szybki wzór:
Zauważmy: (i) jeżeli ó wzrosła do 3 dni, różnica standa Przy mocy 90%, wymagana wielkość próby w każdej
ryzowana równa się 0,6, a wymagana wielkość próby z grup wynosi:
spada do całkowitej liczby 118, tj. po 59 w każdej grupie,
oraz (ii) jeżeli używając oryginalnej specyfikacji, badacze
chcą mieć dwa razy więcej dzieci w leczeniu aciclovirem (
Amir J., Haiel L., Smettana Z., Varsano I.: Treatment: ofherpes simplex gingwostomatitis with aciclovir in children: a randomized double-
-blind placebo controlled study. British Medical Journal, 1997, 314, 1800-1803.
PRZYKŁAD 2
Porównanie dwóch proporcji w niezależnych grupach przy użyciu testu Chi-kwadrat
Użycie nomogramu:
van der Windt D. A. W. M, Kocs B. W., Derillc W., de Jong B. A., Bouter M.: Effectiveness of cortkosteroid injections with physiotherapy
for treatment ofpainful shoulder in prima/y care: randomised trial British Medical Journal, 1998,317, 1292-6.
Stan zdrowia osobnika jest często scharakteryzowany przez mieć prosty test, zależny od obecności lub braku jakiegoś
zbiór pomiarów numerycznych lub kategorialnych. W tym wskaźnika, który dostarcza rozsądnej wskazówki, czy u pa
kontekście można użyć odpowiednich przedziałów odniesie cjenta zachodzi czy nie zachodzi dana sytuacja.
nia (rozdział 6 i 7) i/lub testów diagnostycznych: Bierzemy grupę osobników, u których prawdziwy status
• do wykorzystania przez klinicystę, wraz z badaniami choroby jest znany na podstawie złotego standardu. Możemy
klinicznymi, w celu zdiagnozowania lub wykluczenia kon stworzyć tablicę częstości 2 x 2 (tablica 38.1):
kretnej choroby u pacjenta;
• jako narzędzia przesiewu do sprawdzenia, którzy
Tablica 38.1. Tablica częstości.
osobnicy w pozornie zdrowej populacji prawdopodobnie ma
ją badaną chorobę (lub czasami jej nie mają). Wyznaczone Test złotego standardu
w ten sposób osoby będą przedmiotem bardziej dokładnych Brak
badań w celu potwierdzenia postawionej im diagnozy. Wyko Wynik testu Choroba choroby Razem
nanie badań przesiewowych dla wykrycia choroby jest sen Dodatni a b a+ b
sowne wtedy, gdy istnieją odpowiednie ułatwienia w lecze Ujemny c d c+ d
niu choroby w stadiach przedobjawowych, leczenie to jest Razem a+ c b+d n-a +b+c + d
tańsze i/lub bardziej efektywne niż stosowane w później
szych etapach (lub gdy wierzymy, że osoby zdiagnozowane
z tą jednostką chorobową zmienią swoje zachowania w celu Spośród badanych nosobników a+ cosobników ma cho
zapobieżenia rozprzestrzenianiu się choroby). robę. Prewalencja (rozdział 12) choroby w tej próbie wynosi
(a + c)
PRZEDZIAŁY ODNIESIENIA n
Przedziały odniesienia (często określane jako zakres nor
my) dla pojedynczej zmiennej numerycznej, wyznaczone na Spośród a+ c osobników, którzy chorują, a ma pozytyw
podstawie wielkiej próby, oznaczają zakres typowych warto ne wyniki testu (prawdziwie dodatnie), a c — wyniki nega
ści obserwowanych u zdrowych osobników. tywne (fałszywie ujemne). Spośród b+d osobników, któ
Jeżeli wartość jest powyżej górnej lub poniżej dolnej gra rzy nie mają choroby, d ma wyniki testu negatywne
nicy, uważamy ją za nienaturalnie wysoką (lub niską) w po (prawdziwie ujemne), a b ma dodatnie wyniki testu (fał
równaniu ze zdrowymi osobnikami. szywie dodatnie).
Ciężka choroba
Obciążenie w i r u s e m
(log,fl genomów/ml) Tak Nie Razem
s.4,5 7 6 13
£4.5 8 28 36
Razem 15 34 49
Prewalcncja = (15/49) x 100% = 31% (95% CI 18% do 45%). Rycina 38.1. Krzywa ROC wyjaśniająca wyniki dla dwóch możli
flzufcw; = (7/15) x 100% = 47% (95% CI 22% do 72%). wych wartości odcięcia, optymalnej i stosowanej w testach diagno
stycznych.
Swoisiość = (28/34) x 100% = 82% (95% CI 69% do 95%).
Wartość prognostyczna dodatnia = (7/13) x 100% = 54%
m%az7%óo8m.
Wartość prognostyczna ujemna = (28/36) x 100% = 78%
(95% CI 65% do 92%).
Stosunek wiarygodności dla wyniku dodatniego =
0,47/(1-0,82) = 2,6 (95% CI 1,1% do 6,5%, uzyskane
z wydruku komputerowego).
Dano uzyskane dzięki uprzejmości: prof. V. C. Emery i dr D. Gor, Department of Virology, Royal Free and University College Medical School,
Londyn, Wielka Brytania.
PRZYKŁAD 1
Ocena zgodności - zmienna kategorialna Okazuje się, że istnieje duża zgodność pomiędzy studen
Dwóch obserwatorów, doświadczony dentysta i student sto tem a doświadczonym dentystą w kodowaniu powierzchni
matologii, oceniło stan 2104 powierzchni zębowych u dzieci zębowych u dzieci.
w wieku szkolnym. Każda powierzchnia była kodowana Tablica 39.1. Częstości obserwowane (i oczekiwane) oceny po
przez każdego obserwatora jako „0" (zdrowa), „r (z co naj wierzchni zębowych.
mniej jednym „małym" ubytkiem), „2" (z co najmniej jed
nym „dużym" ubytkiem) lub „3" (z co najmniej jednym wy
pełnieniem, z ubytkami lub bez nich). Obserwowane często
ści pokazano w tablicy 39.1. Pogrubione pozycje wzdłuż
przekątnej pokazują częstości obserwowane oceny zgodnej;
odpowiadające im wartości oczekiwane znajdują się w na
wiasach. Obliczamy współczynnik kappa Cohena w celu
określenia zgodności pomiędzy dwoma obserwatorami.
Oszacowanie kappa Cohena:
Dane otrzymane dzięki uprzejmości: dr R. D. Holt, Eastman Dental Institnte, University College London, Londyn, Wielka Brytania.
Cunningham S. J., Hunt N. R, Feinnman C: Perceptions of outcome followłng othognathic surgery. British Journal of Orał and MaxiIlo-
facial Surgery 1996, 34, 210-213.
Sackett i in.1 opisują medycynę popartą dowodami (EBM) 4. WYCIĄGANIE NAJBARDZIEJ UŻYTECZNYCH
jako „sumienny, formalny i rozsądny użytek z aktualnych, WYNIKÓW I OKREŚLANIE, CZY SĄ ONE
najlepszych dowodów w podejmowaniu decyzji na temat
WAŻNE
opieki nad indywidualnym pacjentem". W celu praktykowa
nia EBM musisz umieć odnaleźć badania związane z proble Wyciąganie najbardziej użytecznych wyników
mem opieki nad twoimi pacjentami i ocenić ich jakość. Tylko Powinieneś postawić następujące pytania:
wtedy możesz myśleć o stosowaniu tych wniosków w prak (a) Co jest główną zmienną wynikową (tj. tą, która wiąże się
tyce klinicznej. z głównym celem)?
Sackett i in. sugerują następujące podejście do EBM. Dla (b) Jak wielki jest badany efekt, wyrażony przez główną
wygody trzeci i czwarty punkt opisaliśmy w kontekście eks zmienną wynikową? Jeżeli zmienna jest:
perymentów klinicznych (rozdział 14) i badań obserwacyj • Binarna (np. zmarł/przeżył)
nych (rozdziały 15 i 16), lecz można je zmodyfikować tak, aby (i) Jakie są częstości/ryzyko/szanse pojawienia się tego
pasowały do innych form badań (np. testów diagnostycznych, zdarzenia (np. śmierci) w (dwóch) porównywanych
rozdział 38). grupach?
(ii) Badany efekt może być różnicą częstości lub ryzyka
(redukcja bezwzględna) albo stosunkiem (ryzyko
1. SFORMUŁUJ PROBLEM względne lub iloraz szans) — jaka jest jego wielkość?
Musisz zdecydować, co cię interesuje — jak definiujesz po • Numeryczna (np. skurczowe ciśnienie krwi)
pulację pacjentów, jakie zabiegi (np. leczenie) lub porówna (i) Jaka jest średnia (lub mediana) wartości w każdej
nia są odpowiednie oraz jakiego oczekujesz wyniku (np. z porównywanych grup?
zmniejszonej śmiertelności). (ii) Jaki jest badany efekt, np. różnica w średnich (media
nach)?
(c) Jak dokładny jest badany efekt? W idealnej sytuacji pod
2. ZNAJDŹ ODPOWIEDNIĄ INFORMACJĘ dane szczegółowej analizie badanie zawiera przedział ufno
(NP, NA TEMAT DIAGNOZY, PROGNOZY ści dla prawdziwego efektu (szeroki przedział ufności wska
LUB TERAPII) zuje na słabą dokładność). Czy ten przedział jest podany? Je
żeli nie, to czy podano informacje wystarczające (np. błąd
Często można znaleźć potrzebną informację w publikacjach,
standardowy badanego efektu) do wyznaczenia przedziału
lecz należy wziąć pod uwagę również inne możliwości, np.
ufności?
abetrakty ze zjazdów. Musisz wiedzieć, jakie są dostępne ba
zy danych (np. Medline) i inne źródła dowodów, jak są one
Podejmowanie decyzji, czy wyniki są ważne
zorganizowane oraz jak posługiwać się wyszukiwarkami.
• Rozważ przedział ufności dla badanego efektu (np. różni
ce między średnimi w grupach leczenia):
3. KRYTYCZNIE OSZACUJ METODY (i) Czy będziesz traktować obserwowany efekt jako waż
W CELU OCENY WAŻNOŚCI DOWODU ny klinicznie (niezależnie od tego, czy wyniki stoso
(NA ILE JEST ON BLISKI PRAWDY) wanego testu hipotez są, czy nie są istotne statystycz
nie), jeżeli dolna granica przedziału ufności oznacza
Należy zadać następujące pytania. prawdziwą wartość efektu?
• Czy rozważono wszystkie ważne wyniki? (ii) Czy będziesz uważać obserwowany efekt za klinicznie
• Czy w badaniu został przeprowadzony odpowiedni do istotny, jeżeli górna granica przedziału ufności ozna
bór pacjentów? cza prawdziwą wartość efektu?
• Czy wyniki mają sens biologiczny? (iii) Czy twoje odpowiedzi na powyższe dwa punkty są
• Czy badanie zaprojektowano tak, że zostało wyelimino wystarczająco podobne, aby uznać wyniki badania za
wane obciążenie błędów systematycznych? Na przykład, jednoznaczne i ważne?
w eksperymentach klinicznych, czy badanie miało próbę kon • Aby ocenić leczenie w eksperymencie randomizowa-
trolną, czy przy przydzielaniu pacjentów użyto randomizacji, nym kontrolowanym, oblicz liczbę pacjentów, którzy muszą
czy ocena odpowiedzi była ślepa, czy pojawili się pacjenci podlegać leczeniu eksperymentalnemu (NNT — number of
„straceni" dla obserwacji, czy grupy były traktowane w po patients you need to treat) a nie leczeniu kontrolnemu, żeby
dobny sposób, poza tym, że otrzymywaty inne leczenie, czy jeden z nich nie otrzymał „złego wyniku" (takiego jak krwa
wykonano analizę „z zamiarem leczenia"? wienie poporodowe, patrz: przykład). NNT można wyznaczyć
• Czy metody statystyczne są odpowiednie (np. czy zwe na wiele sposobów, zależnie od dostępnej informacji. Na
ryfikowano leżące u ich podstaw założenia; czy w analizie przykład, jest ona równa odwrotności różnicy w proporcjach
wzięto pod uwagę zależności między danymi)? osobników z nieprawidłowym wynikiem w grupie kontrolnej
i eksperymentalnej (patrz: przykład).
1
Sackett D. L., Straus S., Richardson S., Rosenberg W., Haynes R. B.:
Evidence-based Medicine: How to Practice and Teach EBM. Chur-
chill-Livingstone, Londyn 2000.
Adaptowane z pracy: Rogcrs J., Wood J., McCandish R., Ayers S., Truesdale A., Elbourne D.: Active versns expectant management oj
thirdstagc oflabour the Hinchmgbrooke jnndomised controlled trial. Lancet, 1998, 351, 693-699, za zgodą Elscvicr.
Dane klasteryzowane odpowiadają hierarchicznej lub zagnież rozdział 22) w celu porównywania grup, ponieważ metody te
dżonej strukturze, w której w najprostszej postaci (dwupozio nie biorą pod uwagę pomiarów powtarzanych na tym samym
mowa struktura jednej zmiennej) wartość pojedynczej zmien pacjencie. Co więcej, niepoprawne również jest porównywa
nej zależnej jest mierzona w zbiorze jednostek 1 poziomu za nie średnich w grupach osobno dla każdej chwili przy uży
wartych w różnych grupach lub klasterach (jednostki 2 pozio ciu testów f dla zmiennych niepowiązanych (rozdział 21) lub
mu). Na przykład, jednostki poziomu 1 i poziomu 2, to odpo jednoczynnikowej ANOVA, gdyż:
wiednio zęby w jamie ustnej, kolana u pacjentów, pacjenci • Pomiary u jednego pacjenta w różnych chwilach nie są
w szpitalu, kliniki w regionie, dzieci w klasie, daty kolejnych niezależne, tak że interpretacja wyników jest trudna. Na
Wizyt dla pacjenta (np. dane longitudinalne, rycina 41.1) etc. przykład, jeżeli porównanie jest istotne w jednym punkcie
Analiza statystyczna takich danych z powtarzanymi pomiara czasowym, prawdopodobne jest też istotne w innych punk
mi powinna brać pod uwagę fakt, że obserwacje w klasterze tach czasu, niezależnie od jakichkolwiek zmian w okresie
m^ mieć tendencję do skorelowania, tj. mogą nie być nie przejściowym.
zależne. Nieuznanie tego faktu zazwyczaj skutkuje niedosza • Duża liczba przeprowadzonych testów powoduje, że
cowaniem błędów standardowych badanych estymatorów prawdopodobne jest uzyskanie istotnych wyników tylko
i w konsekwencji zwiększa częstości wystąpienia błędu I ro przez przypadek (rozdział 18).
dzaju ora2 powoduje wyznaczenie zbyt wąskich przedziałów • Tracimy informacje na temat zmian zachodzących u da
ufności. nego pacjenta.
Aby to zilustrować, przyjmijmy w tym rozdziale, że mamy
dane longitudinalne, a nasze pomiary powtarzane obejmują
PORÓWNYWANIE GRUP:
wartości zmiennej dla każdego pacjenta w różnych chwilach,
tj. pacjent tworzy klaster. Podsumowujemy dane poprzez opi
ANALIZY PRAWIDŁOWE
sanie wzorców dla każdego pacjenta i poprzez określenie, czy Użycie miar podsumowujących
wzorce te różnią się pomiędzy dwoma lub więcej grupami pa Możemy oprzeć naszą analizę na mierze podsumowującej,
cjentów, która wychwytuje ważne aspekty danych i wyznacza taką
miarę podsumowującą dla każdego pacjenta. Typowymi mia
PREZENTACJA DANYCH rami podsumowującymi są:
• zmiana od wartości początkowej w określonej chwili;
Wykres pomiarów przeprowadzanych w badaniu u każdego • osiągnięcie wartości maksimum (pik) lub minimum (nadir);
pacjenta w różnych momentach pozwala na ocenę wzrokową • czas potrzebny do osiągnięcia wartości maksymalnej
wzorca w funkcji czasu. Gdy badamy tylko małą grupę pa (lub minimalnej);
cjentów, możliwe jest zamieszczenie wszystkich indywidual • czas potrzebny do osiągnięcia jakiejś innej, uprzednio
nych przebiegów na jednym wykresie. Staje się to jednak wyspecyfikowanej wartości;
trudne, gdy badamy duża grupę i możemy zilustrować wy • wartość przeciętna (np. średnia);
łącznie pewien wybór „reprezentatywnych", indywidualnych • pole pod krzywą (AUC, rycina 41.2);
przebiegów (rycina 41.3), prawdopodobnie przesianych dla • nachylenie i przecięcie linii regresji pacjenta (opisują
każdej grupy leczenia. Zwróćmy uwagę, że przeciętny wzór ce związek między pomiarem i czasem).
generowany przez wykreślenie średnich dla wszystkich pa Jeżeli parametr (np. średnia lub nachylenie) jest u niektó
cjentów w każdej chwili może różnić się od wzorów widocz rych pacjentów wyznaczony dokładniej niż u innych (prawdo
nych u indywidualnych pacjentów. podobnie dlatego, że mamy więcej obserwacji dla tych pacjen
tów), powinniśmy w analizie wziąć to pod uwagę, dając
wyższą wagę tym pomiarom, które są wyznaczone dokładniej.
PORÓWNYWANIE GRUP: ANALIZY
Wybór miary podsumowującej zależy od tego, co badamy,
NIEPRAWIDŁOWE i powinien być dokonany przed zebraniem danych. Na przy
Nieprawidłowe jest użycie wszystkich wartości w grupie do kład, jeżeli rozważamy stężenie leku po leczeniu dwoma te
dopasowania pojedynczej linii regresji (rozdziały 27, 28) lub rapiami, możemy wybrać czas potrzebny do osiągnięcia mak
wykonania jednoczynnikowej analizy wariancji (ANOVA; symalnej koncentracji leku (Cmax) lub AUC. Jednakże, gdy
pieniu, wtedy może nas interesować, po jakim czasie miano wykonać testy f dla zmiennych powiązanych, które biorą pod
antyciai spada poniżej określonego, ochronnego poziomu. uwagę zależności między danymi i mają wartości p skorygo
Porównujemy wartości miar podsumowujących w róż wane ze względu na wielokrotne testowanie (rozdział 18).
nych grupach, stosując standardowe testy hipotez [np. test Jednakże ANOVA z powtarzanymi pomiarami ma pewne
8umy rang Wilcoxona (rozdział 21) lub Kruskala-Wallisa niedoskonałości:
(rozdział 22)]. Ponieważ liczbę pomiarów zależnych dla jed • Jest często trudna do wykonania.
nego osobnika mamy zmniejszoną do pojedynczej wartości, • Wyniki mogą być trudne w interpretacji.
wartości uwzględnione w analizie są teraz niezależne. • Zakłada ogólnie, że wartości są mierzone w regular
Chociaż analizy oparte na miarach podsumowujących są nych odstępach czasu i nie ma danych brakujących, tj. zakła
proste do wykonania, trudną rzeczą może być znalezienie da, że projekt eksperymentu jest zbalansowany. W rzeczywi
odpowiQdniQj miary, która adekwatnie opisuje dane, więc stości wartości rzadko są mierzone we wszystkich chwilach,
czasami potrzebujemy dwóch lub więcej miar podsumowują gdyż pacjenci często opuszczają wizyty lub przychodzą kie
cych. W dodatku te podejścia nie w pełni wykorzystują dy indziej, niż to zaplanowano.
•wszystkie dane.
Metody regresji
ANOVA z powtarzanymi pomiarami Do analizy danych klasteryzowanych można używać różnych
Możemy wykonać szczególny typ ANOVA (rozdział 22), zwa metod regresyjnych, takich jak te, w wyniku których otrzy
ny ANOVA z powtarzanymi pomiarami, w której rozmaite muje się estymatory parametru z elastycznymi błędami stan
punkty czasowe są rozważane jako poziomy jednego czynni dardowymi lub w których wykorzystuje się uogólnione rów
ka w analizie, a zmienna grupująca jest drugim czynnikiem nania estymacyjne (GEE — generalised estimańng equnńorb
w analizie. ANOVA z powtarzanymi pomiarami możemy trak lub modele efektów losowych (patrz rozdział 42).
tować jako rozszerzenie testu r dla zmiennych powiązanych,
§dy mamy więcej niż dwie powiązane obserwacje. Jeżeli
w ANOVA z powtarzanymi pomiarami powstają istotne róż 1
Mickey R. M., Dunn O. J., Clark V. A.: Applied Statistics: Analysis
nice między grupami, wtedy w celu określenia, w których of Yariance and Regression. Wiley 2004.
PRZYKŁAD
W ramach praktycznych ćwiczeń zaprojektowanych w ce krzywą" (AUC) jako miary podsumowującej. Obliczenie
lu określenia efektów dwóch wziewnych leków rozszerza AUC dla jednego studenta ilustruje rycina 41.3.
jących oskrzela, bromowodorku fenoterolu i bromku ipra- Mediana (zakres) AUC wynosiła 1552,5 (417,5 - 3875),
tropium, 99 studentów medycyny zostało losowo przy 1215 (457,5 - 2500) oraz 1130 (547,5 - 2625) sekund2 od
dzielonych do grup otrzymujących jeden z leków (n = 33 powiednio u otrzymujących bromowodorek fenoterolu, bro
dla każdego leku) lub placebo (n = 33). W krótkim czasie mek ipratropium i placebo. Wartości w trzech grupach zosta
każdy student dokonywał czterokrotnej inhalacji. Drżenia ły porównane testem Kruskala-Wallisa, który dał wynik
oszacowywano poprzez pomiar całkowitego czasu po p = 0,008. Otrzymaliśmy zatem silny dowód na to, że miary
trzebnego do nanizania pięciu igieł do szycia zamocowa AUC różniły się w tych trzech grupach. Nieparametryczne
nych na korku: pomiary wykonywano w chwili początko porównania post-hoc, skorygowane ze względu na wielokrot
wej przed inhalacją oraz w 5, 15, 30, 45 i 60 minucie po ne testowanie, wskazały, że wartości były znacznie wyższe
inhalacji. Pomiary reprezentatywnej próby studentów w grupie otrzymującej bromowodorek fenoterolu, co po
w każdej z grup eksperymentalnych pokazane zostały na twierdza obserwację farmakologiczną, że ten lek jako agoni-
rycinie 41.2. sta • adrenoceptorów wzbudza drżenia poprzez stymulację
Zdecydowano się na porównywanie wartości „pola pod -adrenoceptorów w mięśniach szkieletowych.
Dane uzyskane dzięki uprzejmości: dr R. Morris, Department of Primary Care and Population Sciences, zebrane w ramach praktyk studenc
kich zorganizowanych przez dr T. J. Allen, Department of Pharmacology, Royal Free and University College Medical School, Londyn, Wielka
Brytania.
1
Goldstein H.: Multilevel Statistical Models 3rd edn. Kendall Libra-
ry of Statistics 3, Arnold 2003.
Tablica 42.1. Główne zalety i wady stosowania metod regresji do analizowania danych klasteryzowanych.
* Te wady mogą czasami być traktowane jako zalety, zależnie od stawianego pytania.
PRZYKŁAD
Uans dotyczące choroby przyzębia uzyskano od 96 białych Estymatory współczynników regresji dla palenia i/lub We
mężczyzn, praKtykantów inżynieryjnych w wieku 16-20 dy standardowe zmieniają się zgodnie z typem wykonanej
laU locpocaynajijcych praktyki w Royal Air Force Halton analizy. Dwie analizy OLS mają identyczne estymatory
w Anglii (patrz takie rozdział 20). Przebadano cztery stro współczynników regresji (większe od uzyakanych z pozo
ny (dośrodkowo policzkową, dośrodkowo-językową, od- stałych trzech analiz), lecz ich błędy standardowe są róż
śrndkowo-poliezkowa oraz odśrodkowo- językową) każde ne. Błąd standardowy oszacowanych współczynników yyy
go z. możliwych 28 zębów (z wyjątkiem zębów mądrości) gresji w analizie OLS, która ignoruje klastoryzację, jest
u każdego praktykanta. Dla uproszczenia analizy rozważy znacząco mniejszy niż błędy standardowe z pozostałych
łyśmy podzbiór danych, na przykład (1) wyłącznie stronę czterech analiz, tzn. ignorowanie klasteryzacji powoduje
dośrodkowo-policzkową każdego zęba; daje to strukturę niedoszacowanie błędu standardowego współczynnika re
dwupoziomową w obrębie każdego obiektu (każdy obiekt gresji — w konsekwencji przedział ufności jest zbyt wąski,
odpowiada klasterowi); oraz (2) dwie badane zmienne: a wartość p zbyt mała. Współczynnik korelacji wewnątrz-
utratę przyczepu (loa, mierzoną w mm) pomiędzy zębem klastcrowej z modelu efektów losowych jest oszacowany
a kością szczękową, oszacowaną po stronie dośrodkowo- jako 0,224. Około 22% zmienności w utracie przyczepu,
-policzkowej, oraz aktualny status palenia papierosów przy uwzględnieniu palenia, zachodziło więc między prak
przez praktykanta (tak = 1, nie = 0). Chcemy zbadać, czy tykantami.
palenie jest czynnikiem ryzyka w chorobie dziąseł (gdzie W tym szczególnym przykładzie, na podstawie wszyst
większa utrata przyczepności oznacza cięższy stan choro kich pięciu analiz wnioskujemy, że palenie nie jest istotnie
bowy). Tablica 42.2 zawiera część wyników z rozmaitych związane z utratą przyczepu. Ten brak istotności dla pale
analiz regresyjnych, w których zmienną wynikową jest nia jest wynikiem niespodziewanym, ale można go wyja
utrata przyczepności (mm), a wspótzmienną — palenie. śnić tym, że praktykanci byli bardzo młodzi i palacze znaj
Pełny wydruk komputerowy zamieszczono w Dodatku C. dujący się między nimi palili przez krótki czas.
Tablica 42.2. Podsumowanie wyników analizy regresji, w których loa (mm) jest zmienną wynikową.
Oszacowany współ- Błąd stan- 95% CI dla Statystyka
Analiza czynnik (palący) dardowy (SE) współczynnika testowa* Wartość p
OLS ** regresja ignorująca klasteryzację -0,0105 0.0235 -0,057 do 0,036 r=-0,45 0,655
Regresja OLS z elastycznymi błędami
standardowymi -0,0105 0,0526 -0,115 do 0,094 i = -0,20 0,842
Analiza zagregowana (regresja OLS
na średnich grupowych) -0,0046 0,0612 -0,126 do 0,117 t=-0,07 0,941
Model efektów losowych -0,0053 0,0607 -0,124 do 0,114 2=-0,09 0,930
GEE z elastycznymi SE i wymienną
strukturą korelacyjną " -0,0053 0,0527 -0,108 do 0,098 z = -0,10 0,920
* t = statystyka testowa podlegająca rozkładowi t; z = statystyka testowa Walda podlegająca standaryzowanemu rozkładowi normalnemu.
** OLS = zwykła metoda najmniejszych kwadratów.
Dane otrzymane dzięki uprzejmości: dr Gareth Griffiths, Dept of Periodontology, Eastman Dental Institute. University College London,
Wielka Brytania.
2
1
Chalmers I., Altman D. G.: Systematic Reviews. British Medical Jour Higgins P. T., Thompson S. G., Deeks J. J., Altman D. G.: Measu-
nal Publishing Group, Londyn 1995. ring inconsistency in meta-analysis. British Medical Journal, 2003,
237, 557-560.
PRZYKŁAD
Pacjenci z ciezką dusznicą są często kwalifikowani albo do ka, to wszystkie przedziały ufności do pewnego stopnia się
Wihicgi! przezskówicj naczyniowej angioplastyki wieńcowej pokrywają. Na bardziej formalne oszacowanie niejednorod
(PTCA), albo zabiegu pomostowania aortalno-wieńcowego ności pozwala test jednorodności Chi-kwadrat Coclu una,
(CABG). Wyniki z ośmiu publikowanych eksperymentów który daje wynik nieistotny (statystyka testu Q= 13,2, licz
randomizowanych połączono w jedną metaanalizę, opartą ba stopni swobody df= 8 - 1 = 7, p = 0,07). Jednakże I'
na :.«71 pacjentach (1661 CABG, 1710 PTCA), podlegają = 100 x (Q- dfi/Q= 100 x (13,2 - 7)/13,2 = 47% (95% CI
cych obserwacji średnio przez 2,7 lat. Główne wyniki ba od 0% do 76%), co sugeruje umiarkowaną niespójność ana
dań zestawiono w tablicy 43.1. Wyniki dla punktu końco liz i z czego wynika zalecenie ostrożnej interpretacji kom
wego złożonego ze śmierci sercowej oraz niezakończonego binowanego estymatora ryzyka względnego opartego na
.śmiercią zawału serca (MI) w pierwszym roku obserwacji wszystkich badaniach. Wspomniane ryzyko względne osza
pokazano na rycinie 43.1. Porównano oszacowane ryzyko cowano jako 1,03 (95% CI od 0,79 do 1,50), z czego wynika,
względne (RR) między grupami PTCA i CABG. Na rycinie że nie ma dowodu istnienia prawdziwej, całkowitej różnicy
wykorzystano dla RR skedę logarytmiczną, by uzyskać sy pomiędzy oboma strategiami rewaskularyzacji. Warto za
metryczne przedziały ufności (CI). Chociaż poszczególne es uważyć, że we wczesnych obserwacjach prewałencja obja
tymatory ryzyka względnego różnią się dość znacznie, od wów dławicy piersiowej była większa u pacjentów po PTCA
zmniejszenia ryzyka do całkiem znacznego wzrostu ryzy niż u pacjentów po CABG.
Rycina 43.1. Wykres „leśny" ryzyka względnego (RR) z 95% CI śmierci sercowej lub zawału serca dla grupy po PTCA w porównaniu
z grupą po CABG w pierwszym roku od randomizacji.
Dane przeżycia związane są z czasem, jaki zabiera osobniko z innych powodów niż AIDS. Takie dane określa się jako pra
wi osiągnięcie badanego punktu końcowego (często, lecz nie wostronnie ucięte. O tych pacjentach wiemy, że nie osiągnęli
zawsze, śmierci), i charakteryzują je dwie następujące cechy. punktu końcowego, kiedy po raz ostatni byli poddani obserwa
• Po pierwsze, jest to okres czasu, w którym pacjent cji, i ta informacja powinna zostać włączona do analizy.
osiąga stan końcowy, a nie fakt, czy osiągnął ten stan. Na Tam, gdzie obserwacja nie rozpoczęła się do czasu osią
przykład może nas interesować czas przeżycia przyjętych gnięcia daty odniesienia początkowej, czasy przeżycia mogą
pacjentów z marskością wątroby. być także lewostronnie ucięte.
• Często dane mogą być ucięte (patrz poniżej).
Standardowe metody analizy, takie jak regresja logistycz
na lub porównanie średniego czasu potrzebnego do osiągnię
PREZENTACJA DANYCH PRZEŻYCIA
cia stanu końcowego u pacjentów leczonych nową techniką • Dla każdego pacjenta narysowana jest osobna, pozioma li
i bez niej, mogą dawać mylące wyniki z uwagi na dane ucię nia, której długość wskazuje na czas przeżycia. Linie ryso
te. Dlatego, aby radzić sobie z takimi sytuacjami, opracowa wane są od lewej strony do prawej, a ci pacjenci, którzy osią
no pewną liczbę technik statystycznych, znanych jako meto gnęli punkt końcowy, mogą być odróżnieni od tych uciętych
dy analizy przeżycia1. różnymi symbolami umieszczonymi na końcu linii (rycina
44.1). Jednakże te wykresy nie podsumowują danych i trud
no jest ocenić przeżycie całościowo.
DANE UCIĘTE • Krzywe przeżycia, zwykle obliczane metodą Kaplana-
Czasy przeżycia oblicza się od pewnej daty bazowej, która od -Meiera, ukazują skumulowane prawdopodobieństwo (praw
zwierciedla naturalny „punkt startu" badania (na przykład dopodobieństwo przeżycia) osobników, którzy nie osiągnęli
czas zabiegu lub zdiagnozowania stanu), do czasu, gdy pacjent stanu końcowego w żadnym czasie od chwili początkowej (ry
osiąga badany punkt końcowy. Jednakże często możemy nie cina 44.2). Prawdopodobieństwo przeżycia zmieni się tylko
wiedzieć, kiedy pacjent osiągnął punkt końcowy, a jedynie to, wtedy, gdy pojawi się punkt końcowy, i dlatego powatająoa
C2y osiągnął punkt końcowy w czasie trwania badania. Na w ten sposób „krzywa" jest rysowana jako seria schodków.
przykład, w badaniu nowego leku pr2eciw infekcji HIV pacjen Alternatywna metoda obliczania prawdopodobieństwa prze
ci mogą nadal nie chorować na AIDS, gdy kończą badanie. Mo życia, przy użyciu tablic przeżycia, może zostać użyta, gdy
że tak się zdarcye, jeśli eksperyment skończy się, nim oni za czas do osiągnięcia punktu końcowego jest znany wyłącznie
chorują na AIDS, albo jeśli wypadną z badania przed zachoro w obrębie pewnego interwału czasowego (np. w obrębie roku).
waniem na AIDS, albo jeśli umrą przed końcem obserwacji Obliczanie prawdopodobieństwa przeżycia za pomocą każdej
z metod jest proste, lecz czasochłonne, i łatwo może być wy
konane przy użyciu większości pakietów statystycznych.
1
Collett D.: Modelling Survival Data in Medical Research. Chap
man and Hall/CRC, Londyn 2003.
PODSUMOWANIE PRZEŻYCIA
Często podsumowujemy przeżycie przez podanie prawdo
podobieństwa przeżycia (z przedziałami ufności) w pew
nych punktach czasowych na krzywej, na przykład, czę-
Lata po przyjęciu
Liczba w grupie ryzyka w każdej chwili
HVP6<16 46 33 22 11 9 5
Lata po przyjęciu WPG s 16 59 41 20 10 4 9
Rycina 44.1. Czasy przeżycia 105 pacjentów przyjętych z marsko Rycina 44.2. Krzywe Kaplana-Meiera pokazujące prawdopodobień
ścią wątroby. Kółka wypełnione wskazują pacjentów, którzy zmarli, stwo przeżycia po przyjęciu z powodu marskości wgtroby. wyrażone
kotka niewypełnione wskazują pacjentów, którzy żyli w momencie w procentach, po stratyfikacji na podstawie wyjściowego pomiaru
zakończenia obserwacji. HVPG.
Dano otrzymane dzięki uprzejmości: dr D. Patch i prof. A. K. Burroughs, Liver Unit, Royal Free Hospital, Londyn, Wielka Brytania.
Prawdopodobieństwo warunkowe
Podstawą analiz Bayesowskich jest szczególny typ prawdopo
dobieństwa, znany jako prawdopodobieństwo warunkowe.
Jest to prawdopodobieństwo zdarzenia występującego pod
warunkiem, że miato już miejsce inne zdarzenie. Dla ilustra
cji rozważmy następujący przykład. Zachorowalność na hemo
filię A w ogólnej populacji wynosi około 1 na 10 000 męskich
urodzeń. Jednakże, jeżeli wiemy, że nosicielem hemofilii jest
kobieta, zachorowalność ta wzrasta z jednego na dwa męskie
urodzenia. Dlatego prawdopodobieństwo, że męski potomek
ma hemofilię, przy założeniu, że jego matka jest nosicielką,
różni się bardzo od prawdopodobieństwa bezwarunkowego, że
będzie miał hemofilię, jeżeli nie wiadomo, czy matka jest no
sicielką.
sess clinical evidence. British Medical Journal, 1996, 313, 569-570. Practice and Teach EBM, Churchill-Livingstone, Londyn 1997.
PRZYKŁAD
W przykładzie w rozdziale 38 pokazałyśmy, że u biorców (tj. 33%), wtedy wierzymy, że osobnik ma H7% szans roz
szpiku kostnego obciążenie wirusem powyżej 5 log]0 geno woju ciężkiej choroby. Można to również oszacować bezpo
mów/ml daje optymalną czułość i swoistość testu predykcji średnio z nomogramu Fagana (rycina 43.1) poprzez pola-
rozwoju ciężkiej choroby klinicznej. Iloraz wiarygodności czenie prawdopodobieństwa przed testem równego 33%
testu dodatniego dla tej wartości odcięcia wynosił 13,3. Je z ilorazem wiarygodności równym 13,3 i przedłużenie linii
żeli uważamy, żo prcwalencja ciężkiej choroby jako wyniku do przecięcia z osią prawdopodobieństwa po toście. Jeżeli
zakażenia cytomegalowirusem (CMV) po przeszczepieniu natomiast uważamy, że prawdopodobieństwo tego, że
szpiku kostnego wynosi około 33%, prawdopodobieństwo osobnik zachoruje na ciężką chorobę, wynosi tylko 0,2
aprioryczne ciężkiej choroby u tych pacjentów wynosi 0,33. (tj. prawdopodobieństwo przed testem wynosi 20%), wte
dy prawdopodobieństwo po teście będzie równe 77%.
Szansa o priori - 0,33/0,67 = 0,493. W obu przypadkach prawdopodobieństwo po tośeie jest
Szansa a posteriori - 0,493 x stosunek prawdopodo znacznie wyższe niż prawdopodobieństwo przed lesiem,
bieństwa = 0,493 x 13,3 = 6,557. co wskazuje na przydatność dodatniego wyniku lesiu. Co
Prawdopodobieństwo a posteriori = 6,557/(1 + 6,557) więcej, oba rezultaty wskazują, że pacjent ma wysokie ry
= 6,557/7,557 = 0,868. zyko zachorowania na ciężka chorobę po transplantacji
i rozpoczęcie terapii przeciw CMV może być sensowne.
Dlatego, jeżeli osobnik ma obciążenie CMV powyżej Dlatego też, mimo że prawdopodobieństwa aprioryczne
5 log10 genomów/ml. i jeżeli przyjmiemy, że prawdopodo bardzo się różnią, to w każdym przypadku ogólny wniosek
bieństwo przed testem ciężkiej choroby wynosi 0,33 pozostaje taki sam.
Dodatek ten zawiera tablice statystyczne omówione W tek ri odpowiedzi. Dla testu jednopróbkowego r równa się licz
ście. Zamieszczamy tylko pewien zakres wartości p, gdyż da bie wartości powyżej (lub poniżej) mediany (rozdział 19). Dla
ne zazwyczaj analizowane są za pomocą komputera, a warto testu zmiennych powiązanych r równa się liczbie dodatnich
ści p włączane do wyników. Inne podręczniki, takie jak (lub ujemnych) różnic (rozdział 20) albo liczbie preferencji
1
Fiehera i Yatesa , zawierają bardziej rozbudowane tablice. szczególnego typu leczenia (rozdział 23). ri równa się odpo
Wartości p możemy otrzymać bezpośrednio z niektórych pa wiednio liczbie wartości, które nie sa równe medianie, róż
kietów komputerowych, podając wartość statystyki testowej. nicom niezerowym lub aktualnym preferencjom. Na przy
Puste komórki w tablicy wskazują, że wartości nie istnieją. kład, jeżeli obserwujemy trzy różnice dodatnie spośród
ośmiu różnic niezerowych, wtedy p = 0,726.
Tablica Al zawiera dwustronne prawdopodobieństwo
rozkładu zmiennej Ą która podlega standaryzowanemu roz Tablica A7 zawiera rangi wartości, które wyznaczają
kładowi normalnemu. Wartości p w Tablicy Al odnoszą się górne i dolne granice przybliżonych 90%, 95% i 99% prze
do wartości bezwzględnych z, tak więc gdy z jest ujemne, działów ufności (CI) dla mediany. Na przykład, jeżeli wiel
pomijamy znak. Na przykład, jeżeli statystyka testowa pod kość próby wynosi 23, wtedy granice 95% przedziału ufności
legająca standaryzowanemu rozkładowi normalnemu ma są określone przez 7. i 17. uporządkowaną wartość.
wartość 1,1, to p = 0,271. Dla prób o wielkościach większych niż 50 należy znaleźć
obserwacje, które odpowiadają rangom (najbliższej wartości
Tablica A2 i Tablica A3 zawierają dwustronne prawdo całkowitej) równym: (i) n/2 — z\Tn/2; oraz (ii) 1 + n/2 -t-
podobieństwo dla zmiennej podlegającej rozkładowi f (Tabli + z\fn~/2; gdzie n jest wielkością próby, a z= 1,64 dla 90%
ca A2) lub rozkładowi Chi-kwadrat (Tablica A3) z określoną CI, z = 1,96 dla 95% CI, oraz z = 2,58 dla 99% CI (wartości
liczbą stopni swobody (df). W Tablicy A2 i Tablicy A3, gdy z wzięto z tablicy A4 standaryzowanego rozkładu normalne
wartość bezwzględna statystyki testowej (z określoną liczbą go). Te obserwacje definiują (i) dolną i (ii) górną granicę prze
stopni swobody df) leży pomiędzy wartościami stabelaryzo- działu ufności dla mediany.
wanymi w dwóch kolumnach, wtedy dwustronna wartość p
leży pomiędzy wartościami p wyspecyfikowanymi w nagłów Tablica A8 zawiera wartości dla sumy rang (T lub T_),
kach tych kolumn. Gdy wartość statystyki testu jest na pra która określa istotność testu rangowanych znaków Wilcosc-
wo od ostatniej kolumny, p < 0,001; jeżeli jest na lewo od na (Rozdział 20). Jeżeli suma rang różnic dodatnich (T+) lub
drugiej kolumny, p > 0,10. Na przykład, (i) Tablica A2: jeżeli ujemnych (71), pochodzących spośród ri niezerowych różnie,
wartość statystki testu wynosi 2,62 z df - 17, wtedy jest równa lub jest poza stabelaryzowanymi granicami, test
0,01 •> p % 0,05; (ii) Tablica A3: jeżeli wartość statystyki jest istotny dla podanej wartości p. Na przykład, gdy mamy
testu wynosi 2,62 z df= 17, wtedy p < 0,001. 16 niezerowych różnic, a T+ = 21, wtedy 0,01 c p <0,05.
Tablica A4 zawiera często używane wartości p i odpowia Tablica A9 zawiera zakres wartości dla sumy rang (T)
dające im wartości dla z, zmiennej o standaryzowanym roz określającej istotność testu sumy rang Wilcoxona (rozdział 21)
kładzie normalnym. Tablicy tej można użyć przy obliczaniu na poziomie (a) 5% i (b) 1%. Przypuśćmy, że mamy dwie próby
mnożników do wyznaczania przedziałów ufności (CI) dla o wielkościach ns i nu gdzie ns ^ nL. Jeżeli suma rang w mniej
zmiennych o rozkładzie normalnym. Na przykład, dla 95% szej grupie ins) jest równa wartościom stabelaryzowanym lub
przedziału ufności mnożnik wynosi 1,96. wykracza poza ich zakres, test jest istotny na poziomie (a) 5%
lub (b) 1%. Na przykład, jeżeli ns = 6 i nL - 8, a suma rang
Tablica A5 zawiera wartości p dla zmiennej podlegającej w grupie z sześcioma obserwacjami wynosi 39, to p > 0,05.
rozkładowi Fz określoną liczbą stopni swobody dla licznika
i mianownika. Gdy porównujemy wariancje (Rozdział 35), uży Tablica A10 i Tablica Ali zawierają dwustronne warto
wamy zazwyczaj wartości dwustronnego prawdopodobień ści p dla współczynników korelacji Pearsona (Tablica A10)
stwa p. Do analizy wariancji (rozdział 22) używamy wartości i Spearmana (Tablica Al 1), gdy testujemy hipotezę zerową, że
jednostronnego prawdopodobieństwa p. Przy danej liczbie współczynnik korelacji jest równy zero (rozdział 26). Dla
stopni swobody dla licznika i mianownika test jest istotny na określonej wielkości próby współczynnik jest istotny przy
poziomie p podanym w tablicy, gdy wartość statystyki testu ustalonej wartości p, gdy wartość bezwzględna (tj. bez
jest większa niż stabelaryzowana wartość. Na przykład, jeżeli uwzględnienia znaku) współczynnika korelacji w próbie prze
statystyka testu wynosi 2,99 z df - 5 w liczniku i df = 15 kracza wartość tablicową. Na przykład, jeżeli wielkość próby
w mianowniku, wtedy p < 0,05 dla testu jednostronnego. wynosi 24, a współczynnik korelacji Pearsona r = 0,58, wte
dy 0,001 < p < 0,01. Jeżeli wielkość próby wynosi 7, a współ
Tablica A6 zawiera dwustronne wartości p testu znaków czynnik korelacji Spearmana rs = -0,63, wtedy p > 0,05.
z r odpowiedzi szczególnego typu spośród całkowitej liczby
Tablica A12 cyfry 0-9 ustawiono w porządku losowym.
1
Fisher R. A., Yates F.: Statistical Tablesfor Biological, Agricultu-
ral and Medical Research. 01iver and Boyd, Edinburgh 1963.
126 Dodatki
Tablica Al. Tablica A2. Rozkład t. Tablica A3. Rozkład Chi-kwadrat.
Standaryzowany
rozkład normalny.
Uzyskane przy użyciu Uzyskane przy użyciu Microsoft Exeel wersja S.O.
Microsoft Excel
wersja 5.0.
Tablica A4. Standaryzowany rozkład normalny. Tablica A6. Test znaków.
1 0,05 0,025 647,8 799,5 864,2 899,6 921,8 937,1 948,2 956,6 963,3 968,6 984,9 998,1 1017,0
1 0,10 0,05 161,4 199,5 215,7 224,6 230,2 234,0 236,8 238,9 240,5 241,9 245,9 249,3 254,1
2 0,05 0,025 38,51 39,00 39,17 39,25 39,30 39,33 39,36 39,37 39,39 39,40 39,43 39,46 39,50
2 0,10 0,05 18,51 19,00 19,16 19,25 19,30 19,33 19,35 19,37 19,38 19,40 19,43 19,46 19,49
3 0,05 0,025 17,44 16,04 15,44 15,10 14,88 14,73 14,62 14,54 14,47 14,42 14,25 14,12 13,01
3 0,10 0,05 10,13 9,55 9.28 9,12 9,01 8,94 8,89 8,85 8,81 8,79 8,70 8,63 8,03
k 0.05 0,025 12,22 10,65 9,98 9,60 9,36 9,20 9,07 8,98 8,90 8,84 8,66 8,50 8,27
4 0,10 0,05 7,71 6,94 6,59 6,39 6,26 6,16 6,09 6,04 6,00 5,96 5,86 5,77 5,64
5 0,05 0,025 10,01 8,43 7,76 7,39 7,15 6,98 6,85 6,76 6,68 6,62 6,43 6,27 6.03
5 0,10 0,05 6,61 5,79 5,41 5,19 5,05 4,95 4,88 4,82 4,77 4,74 4,62 4,52 4,07
6 0,03 0,025 8,81 7,26 6,60 6,23 5,99 5,82 5,70 5,60 5,52 5,46 5,27 5.11 4,86
6 0,10 0,05 5,99 5,14 4,76 4,53 4,39 4,28 4,21 4,15 4,10 4,06 3,94 3,83 3,68
r7 0,05
0,10
0,025
0,05
8,07
5,59
6,54
4,74
5,89
4,35
5,52
4,12
5,29
3,97
5,12
3,87
4,99
3,79
4,90
3,73
4,82
3,68
4,76
3,64
4,57
3,51
4,40
3,40
4,16
3,24
8 0,05 0.025 7,57 6,06 5,42 5,05 4,82 4,65 4,53 4,43 4,36 4,30 4,10 3,94 3,68
S 0,10 0,05 5,32 4,46 4,07 3,84 3,69 3,58 3,50 3,44 3,39 3,35 3,22 3,11 2,94
9 0,05 0,025 7,21 5,71 5,08 4,72 4,48 4,32 4,20 4,10 4,03 3,96 3,77 3,60 3,35
9 0,10 0,05 5,12 4,26 3,86 3,63 3,48 3,37 3,29 3,23 3,18 3,14 3,01 2,89 2,72
10 0,05 0,025 6,94 5,46 4,83 4,47 4,24 4,07 3,95 3,85 3,78 3,72 3,52 3,35 3,09
10 0,10 0,05 4,96 4,10 3,71 3,48 3,33 3,22 3,14 3,07 3,02 2,98 2,85 2,73 2,55
15 0,05 0,025 6,20 4,77 4,15 3,80 3,58 3,41 3,29 3,20 3,12 3,06 2,86 2,69 2,41
15 0,10 0,05 4,54 3,68 3,29 3,06 2,90 2,79 2,71 2,64 2,59 2,54 2,40 2,28 2,08
20 0,05 0,025 5,87 4,46 3,86 3,51 3,29 3,13 3,01 2,91 2,84 2,77 2,57 2,40 2.10
20 0,10 0,05 4,35 3,49 3.10 2,87 2,71 2,60 2,51 2,45 2,39 2,35 2,20 2,07 1,86
30 0,05 0,025 5,57 4,18 3.59 3,25 3,03 2,87 2,75 2,65 2,57 2,51 2,31 2,12 1,81
30 0,10 0,05 4,17 3,32 2,92 2,69 2,53 2,42 2,33 2,27 2,21 2,16 2,01 1,88 1,64
50 0,05 0,025 5,34 3,97 3,39 3,05 2,83 2,67 2,55 2,46 2,38 2,32 2,11 1,92 1,57
50 0,10 0,05 4,03 3,18 2,79 2,56 2,40 2,29 2,20 2,13 2,07 2,03 1,87 1,73 1,46
100 0,05 0,025 5,18 3,83 3,25 2,92 2,70 2,54 2,42 2,32 2,24 2,18 1,97 1,77 1,38
100 0,10 0,05 3,94 3,09 2,70 2,46 2,31 2,19 2,10 2,03 1,97 1,93 1,77 1,62 1,31
1000 0,05 0,025 5,04 3,70 3,13 2,80 2,58 2,42 2,30 2,20 2,13 2,06 1,85 1,64 1,16
1000 0,10 0,05 3,85 3,00 2,61 2,38 2,22 2,11 2,02 1,95 1,89 1,84 1,68 1,52 1,13
128 Dodatki
Tablica A7. Rangi dla przedziałów ufności dla mediany. Tablica A8. Test rangowanych znaków Wilcoxona.
nL 4 5 6 7 8 9 10 11 12 13 14 15
4 10-26 16-34 23-43 31-53 40-64 49-77 60-90 72-104 85-119 99-135 114-152 130-170
5 11-29 17-38 24-48 33-58 42-70 52-83 63-97 75-112 89-127 103-144 118-162 134-181
6 12-3Z 18-42 26-52 34-64 44-76 55-89 66-104 79-119 92-136 107-153 122-172 139-191
7 13-35 20-45 27-57 36-69 46-82 57-96 69-111 82-127 96-144 111-162 127-181 144-201
8 14-38 21-49 29-61 38-74 49-87 60-102 72-118 85-135 100-152 115-171 131-191 149-211
9 14-42 22-53 31-65 40-79 51-93 62-109 75-125 89-142 104-160 119-180 136-200 154-221
10 15-45 23-57 32-70 42-84 53-99 65-115 78-132 92-150 107-169 124-188 141-209 159-231
11 16-48 24-61 34-74 44-89 55-105 68-121 81-139 96-157 111-177 128-197 145-219 164-241
12 17-51 26-64 35-79 46-94 58-110 71-127 84-146 99-165 115-185 132-206 150-228 169-251
19 18-54 27-G8 37-83 48-99 60-116 73-134 88-152 103-172 119-193 136-215 155-237 174-261
14 19-57 28-72 38-88 50-104 62-122 76-140 91-159 106-180 123-201 141-223 160-246 179-271
15 20-60 29-76 40-92 52-109 65-127 79-146 94-166 110-187 127-209 145-232 164-256 184-281
nL 4 5 6 7 8 9 10 11 12 13 14 15
4 - - 21-45 28-56 37-67 46-80 57-93 68-108 81-123 94-140 109-157 125-175
5 - 15-40 22-50 29-62 38-74 48-87 59-101 71-116 84-132 98-149 112-168 128-187
6 10-34 16-44 23-55 31-67 40-80 50-94 61-109 73-125 87-141 101-159 116-178 132-198
7 10-38 16-49 24-60 32-73 42-86 52-101 64-116 76-133 90-150 104-169 120-186 136-209
S 11-48 17-53 25-65 34-78 43-93 54-108 66-124 79-141 93-159 108-178 123-199 140-120
9 11-45 18-57 26-70 35-84 45-99 56-115 68-132 82-149 96-168 111-188 127-209 144-231
10 12-48 19-61 27-75 37-89 47-105 58-122 71-139 84-158 99-177 115-197 131-219 149-241
11 12-52 20-65 28-80 38-95 49-111 61-128 73-147 87-166 102-186 118-207 135-229 153-252
12 13-55 21-69 30-84 40-100 51-117 63-135 76-154 90-174 105-195 122-216 139-239 157-263
19 13-59 22-73 31-89 41-106 53-123 65-142 79-161 93-182 109-203 125-226 143-249 162-273
14 14-62 22-78 32-94 43-111 54-130 67-149 81-169 96-190 112-212 129-235 147-259 166-284
15 15-65 23-82 33-99 44-117 56-136 69-156 84-176 99-198 115-221 133-244 151-269 171-294
Wybrane za zgodą z pracy: Diem K. Documenta Geigy Scientific Tables, Wyd. 7, Blackwell Publishing, Oxford 1970.
130 Dodatki
Tablica A10. Współczynnik korelacji Pearsona. Tablica Ali. Współczynnik korelacji Spearmana.
3 4 8 14 68020 2 8 9 9 8 5 16 8 7 4 0 0 8 8 3 5 4 5 8 2 4 7 0 8 0 1 8 1 5 5 3 7 7 6
9 9 10 6 50 8 9 9 0 7 3 9 4 9 10 7 1 2 2 4 11 6 16 4 3 6 4 4 3 5 6 2 5 5 2 6 4316
4 7 18 5 3 1 7 82 4 8 8 9 4 6 8 7 9 0 5 18 5 2 3 6 9 18 0 5 7 3 7 9 0 6 5 3 6 112 3
8 13 5 4 57 2 96 3 9 3 2 9 5 2 2 6 3 4 3 19 4 5 16 2 4 4 2 4 2 9 6 1 3 6 7 4 12 0 7
8 3 4 6 7 85 6 2 2 9 5 7 7 8 0 5 3 4 7 0 0 4 4 5 5 13 3 4 2 9 4 4 5 9 9 1 76 3 00 9 1
2 7 9 2 4 34 1 6 7 5 7 0 6 0 5 7 5 3 5 3 2 2 7 8 16 9 4 9 0 4 9 6 0 0 4 1 1 6 9 14 6 7
5 8 3 19 88 1 6 4 9 4 1 30 0 7 7 4 3 1 6 9 17 15 6 8 1 9 3 5 7 2 9 9 7 5 3 4 9 117
4 9 7 3 2 66702 7 2 4 2 5 9 9 117 4 9 2 9 8 8 7 2 6 5 14 1 9 5 8 3 39 1 19 7 9 4
6 9 5 9 4 26749 6 8 7 4 3 3 9 13 9 4 4 4 9 5 119 4 4 12 9 7 0 5 6 5 2 3 6 2 4 11
3 0 0 7 4 97 5 1 7 9 7 4 5 0 5 4 2 5 1 5 17 7 7 2 10 7 3 0 3 9 0 9 2 6 5 1 9 3 95 76
8 114 7 57 5 0 8 9 3 4 7 9 8 7 8 2 6 2 8 9 6 5 7 4 4 7 4 9 7 4 6 8 8 0 1 49 17834
74 6 8 9 28 9 3 3 5 9 8 1 9 9 3 0 5 2 6 13 2 5 8 3 14 5 4 4 6 8 4 7 2 9 5 8 9 18 2 4
14 8 0 2 25 9 82 4 8 0 2 4 15 4 6 1 3 7 5 7 0 4 4 6 8 5 4 7 3 8 6 0 9 5 0 4 778 3 1
G85 0 1 34 1 94 8 5 3 5 5 3 8 4 11 4 6 5 5 9 4 16 9 4 9 9 6 7 8 8 8 2 6 8 8 66 74
4 8 7 3 4 92 6 71 8 5 2 5 2 8 5 9 8 5 3 4 2 2 8 9 12 8 9 5 6 3 3 1 1 4 6 8 3 3 6 4 93
8 4 10 2 81 6 99 9 7 3 5 2 5 4 5 0 9 9 3 19 6 5 12 0 4 4 3 3 5 1 1 1 8 1 8 4 1179
2 8 4 3 2 32 8 7 3 8 3 8 3 4 0 9 8 6 2 1 2 7 2 0 6 4 5 6 9 4 2 2 18 2 6 7 2 6 8 0606
9 14 5 6 82 5 24 7 5 5 2 3 0 12 7 6 1 9 5 9 1 4 7 4 7 3 9 0 2 5 1 9 9 1 03 7 2 9 4 7
4 5 4 3 5 30 3 8 9 6 9 7 3 2 8 19 6 2 3 0 2 4 3 9 6 19 9 3 3 5 4 6 3 9 67Z 8 37 6 0
2 3 5 5 7 78 4 3 7 4 4 9 5 7 9 8 7 2 8 6 5 6 7 4 3 4 7 0 1 8 3 3 9 8 5 4 1 02 6 58 4 5
3 0 3 9 5 918 5 0 5 2 0 0 4 0 4 8 4 4 2 8 8 4 8 19 7 2 8 9 6 5 7 1 1 3 3 1 7 7 08 59
6 9 9 9 1 12 7 5 5 9 7 9 1 6 5 7 6 3 9 4 3 4 4 5 9 0 4 6 3 8 5 5 5 6 3 5 4 6 9 19 7 4 9
3 2 9 9 0 43 6 0 8 2 0 5 9 2 7 2 5 2 7 6 3 5 8 3 4 6 4 4 3 5 3 9 2 9 8 7 2 1 9 5 5 19 8
5 9 7 7 6 37035 5 3 7 6 5 5 5 19 6 6 8 6 5 9 7 14 2 9 2 5 2 2 5 9 1 9 4 2 5 1132
7 3 7 14 79868 2 3 8 8 0 9 2 2 5 4 7 2 9 8 4 0 7 7 9 2 8 13 0 6 2 4 2 7 7 8 23 6 6
G 1 54 7 IG 5 7 5 6 8 5 2 0 5 9 8 6 9 6 7 2 9 9 7 3 5 6 5 7 7 3 16 9 6 6 8 2 18 0 3 1
8 7 7 3 7 010 58 7 6 0 1 2 7 6 2 4 7 7 5 6 16 5 13 3 5 7 0 3 6 4 7 8 9 4 2 4 05 6 4
9 8 6 6 0 08 3 3 4 4 0 5 2 0 7 8 3 8 9 5 6 4 9 8 7 4 3 3 6 0 2 4 3 4 4 8 5 9 9 6 75 7 9
8 15 3 5 4G G 9 0 9 2 8 1 4 4 4 4 5 6 2 9 2 2 7 4 8 12 2 3 0 5 2 2 1 3 8 5 2 4 84 3 6
0 5 9 7 5 47 1 10 3 2 7 3 3 4 6 9 2 9 9 8 2 6 1 5 2 19 3 8 3 2 15 5 3 1 92 8 3 10 9
132 Dodatki
DODATEK B: NOMOGRAM ALTMANA DO OBLICZEŃ
WIELKOŚCI PRÓBY (ROZDZIAŁ 36)
Wybrane z pracy: Altman D. G. How large a sample? W: Statistics in Practice (red. S. M. Gore & D. G. Altman). DMA, Londyn 1962, m zgodą
Blackwell Publishing Ltd.
Analiza danych głębokości kieszonek opisana w rozdziale 20, przeprowadzona za pomocą pakietu SPSS
134 Dodatki
Analiza danych dla płytek opisana w rozdziale 22, przeprowodzana za pomocą pakietu SPSS
5% Trimmed Mean — 5% błąd oszacowania Kurtosis — Kurtoza Sig. (2-tailed) — Istotność (dwustronna)
średniej Levene Statistic — Statystyka Levene'a Skewness — Skoaność
95% Confidence Interval for Mean — 95% Lower — Dolny Statistic — Statystyka
przedział ufności dla średniej Lower Bound — Dolna granica 5td. Deviation - Odchylenie standardowe
95% Confidence Interval of the difference Mean — Średnia S t d . E r r o r — Błą^ł s t a n d a r d o w y
— 95% przedział ufności dla różnic Mean Sąuare — Średni Kwadrat Std. Error Mean — Błąd standardowy śred
Afro-caribbean — Afrokaraibska Median — Mediana niej
Anova - ANOYA Mediterranean — Śródziemnomorska Stem-and Leaf Plot - Wykres typu „łodyga
Between Groups — Pomiędzy grupami Missing — Braki z liśćmi"
Case Processing Summary - Podsumowa Other — Inni Stern width — Szerokość łodygi
nie przetwarzania danych Pair — Para Sum of Squares — Suma kwadratów
Cases - Przypadki Paired Differences — Różnice powiązane Test of Homogenity of Varianees — Test
Caucasian — Kaukaska Paired Samples Statistics — Statystyka jednorodności wariancji
Descriptiyes — Statystyka opisowa prób powiązanych Total — Razem
Each leaf — Każdy liść Paired Samples Test — Test prób powiąza Upper — Górny
Extremes — Ekstrema nych Upper Bound — Górna granica
Prequency stem 80 Leaf — Wykres typu Percent — Procent Yalid — Ważne
„łodyga z liśćmi" dla częstości Platelet - Płytki Variance — Wariancja
Group — Grupa Rangę — Rozstęp Within Groups — Wewnątrz grup
Interąuartile Rangę — Rozstęp między- Report — Raport
kwartylowy Sig. — Istotność
136 Dodatki
Equal — Równe Obs — Numer obserwacji Treated — Leczeni
Extremes — Ekstrema Rangę — Rozstęp Treatment Group=Placebo - Grupa =
For HO: Yariances are equal - Dla H0: Quantiles — Kwantyle Placebo
Wariancje są równe Skewness — Skośność Treatment Group=Treated — Grupa =
GRP - Grupa Std Dev — Odchylenie stand. Leczeni
Highest — Górne Std Error — Bfąd standardowy Uneąual — Nierówne
Kurtosis — Kurtoza Std Mean — Błąd standardowy średniej Univariate Procedurę — Procedura jednej
Lowest — Dolne Sum — Suma zmiennej
Mean — Średnia Sum Wgts — Suma wag Variable — Zmienna
Modę — Modalna T Test procedurę — Procedura testu t Variance — Wariancja
Moments — Momenty The SAS System - System SAS Yariances — Wariancje
140 Dodatki
Analiza danych na temat braku efektu terapeutycznego po leczeniu przeciwwirusowym (BETPLP)
opisanych w rozdziałach 31-33, przeprowadzona przy użyciu programu SAS
. Logit hhv8 gonorrho syphilis hsv2 hiv Failure — Niepowodzenie Pearson chi2, Pearson Chi-5quare — Chi 3
age or tab — . Logit hhv8 rzeżączka Gonorrho; gonorrhoe — Rzeżączka Pearsona
syfilis hsv2 hiv wiek lub tab History — Wystąpienie Period - Okres
95% Conf. Interral — 95% przedział ufności Interaction — Interakcja Positive — Pozytywne
Age — Wiek Intercept — Przecięcie Scalę — Skala
Analysis Of Parameter Estimates — Link Function — Funkcja łącząca Scaled Deviance — Dewiancja skatowana
Analiza estymatorów parametru Log Likelihood — Log wiarygodności Scaled Pearson X2 — Skalowany Chi 2
GM-Square — Chi-kwadrat Logit Estimates — Logit oszacowanie Pearsona
Coef. — Współczynnik LR Statistics For Type 3 Analysis — Sex - Płeć
Comparison of outcomes and probabilities Statystyka LR dla analizy typu 3 Source — Źródło
— Porównanie wyników i prawdopodo Model Information — Informacja S t a n d a r d Error; Std. E r r . — Błąd standar
bieństw o modelu dowy
Constont — Stalą Negative — Ujemne Success — Sukcea
Criteria For Assessing Goodness Of Fit — No history — Brak wystąpienia Syphilis - Syfilis
Kryteria oszacowania jakości dopasowa Number of obs — Liczba obserwacji Tabulatc; gonorrho hhy8, chi row col —
nia Observations Used — Użyte wartości Stabelaryzuj: rzeżączka hhv8, chi row col
Criterion - Kryterium OBS — Numer obserwacji The GENMOD Proceduro — Procedura
Data S e t — Zbiór danych Odds Ratio — Iloraz szans GENMOD
Dependent Variable — Zmienna zależna Offset Variable — Zmienna offsetu Total — Razem
Deviance — Dewiancja Outcome — Wynik Value — Wartość
Distribution — Rozkład Parameter — Parametr Value/DF - Wartość/DF
Estimate — Estymator Patient — Pacjent Wald 95% Confidence Limit — 95% granice
Event —Zdarzenie PDAYS - Dni ufności statystyki Walda
. regress loa smoke — . regresja loa palenie Correlation — Korelacja Group variable — Zmienna grupowa
. regress loa smoke, robust — . regresja loa Exchangeable — wymienna Group variable (i): subj — Zmienna grupowa
palenie, elastyczny Family — Rodzina (i): subj
95% Conf. Inteiral — 95% przedział ufności Fitting constant-only model — Dopasowa Identity — Tożsamościowa
Adj R-squared — skorygowane R2 nie modelu zawierającego wyłącznie Iteration — Iteracja
avg — średnia stałą Link — Funkcja wiążąca
Between — Między Fitting fuli model — Dopasowanie pełnego loa — utrata przyczepu
Between regression (regression on group modelu Log likelihood — log wiarygodności
means) — Regresja na średnich grupo Gaussian — gaussowska Likelihood-ratio test of sigma_u=0
wych GEE population averaged model — Model — Test stosunku wiarygodności
Coef. — współczynnik GEE uśrednionej populacji sigma_u=0:
144 Dodatki
Number of clusters (subj) — Liczba klaste- Regression with robust standard errors — Standard errors adjusted Tor clusterincf on
rów (subj) Regresja z elastycznymi błędami stan- subj — Skorygowane ze względu na Ma-
Number of groups — Liczba grup dardowymi steryzację błędy standardowe
Number of obs — Liczba obserwacji Residual — Reszta Std. Err. — Błąd standardowy
Obs per group — Obserwacje w grupie Robust Std. Err. — Elastyczny błąd Smoke — Palenie
Overall — Całkowity standardowy Tolerance — Tolerancja
Random-effects ML regression — Regresja Root MSE — pierwiastek MSE Total — Razem
typu ML efektów końcowych R-squared; R-sq — R2 Within — Wewnątrz
Random effects u_i ~ Gaussian — Efekty Scalę Parameter — Parametr skali
losowe u_i - gaussowskie Source — Źródło
146 Dodatki
Dane ucięte prawostronnie — pochodzą od pacjentów, o któ Eksperyment kliniczny — dowolna forma planowanego ba
rych wiadomo, że nie osiągnęli badanego punktu końco dania na ludziach, pozwalającego na ocenę wpływu nowe
wego w trakcie, gdy byli obserwowani. go leczenia na wynik kliniczny.
Decyle — wartości, które dzielą uporządkowany ciąg obser Eksperyment kontrolowany randomizowany (RCT — rando-
wacji na 10 równych części. mized controlled trial) — porównawczy eksperyment
Deklaracja CONSORT — ułatwia krytyczną ocenę i inter kliniczny, w którym pacjenci przydzielani są do leczenia
pretację eksperymentów randomizowanych kontrolowa losowo.
nych (RCT). Autorzy opisujący swoje badania znajdą tam Eksperyment przewagi — używany do wykazania, że dwa
wakazówki w postaci listy kontrolnej lub diagramu sposoby leczenia lub większa ich liczba różnią się klinicz
przepływu. nie.
Dowiancja -4 statystyka stosunku wiarygodności. Eksperyment przypadek-kontrola — identyfikuje się grupę
df-A liczba stopni swobody statystyki. osobników z jednostką chorobową (przypadki) i bez niej
Diagram rozrzutu — wykres dwuwymiarowy jednej zmien (kontrola) oraz porównuje się w tych grupach stopień na
nej w funkcji drugiej zmiennej, z każdą para obserwacji rażenia na czynniki ryzyka.
zaznaczoną jako punkt, Eksperyment równoległy — każdy pacjent otrzymuje tylko
Dokładność — dotyczy tego, w jakim stopniu wartość obser jedno leczenie.
wowana wielkości jest zgodna z jej prawdziwą wielko Eksperyment równoważności — stosowany do pokazania, że
ścią. dwa sposoby leczenia są równoważne klinicznie.
Dokładność — miara błędu próbkowania. Określa, w jakim Estymator — wielkość uzyskana na podstawie próby, repre
stopniu zgadzają się ze sobą powtarzane obserwacje. zentująca parametr w populacji.
Dokładny test Fiehera — test oszacowujący dokładne praw Estymator przedziałowy — zakres wartości, w obrębie któ
dopodobieństwa (tzn. nie opierający się na przybliżeniu do rego, jak podejrzewamy, leży parametr populacji.
rozkładu Chi-kwadrat) w tablicy kontyngencji (zwykle Estymator punktowy — pojedyncza wartość uzyskana z pró
w tablicy 2 X 2 ), stosowany, gdy częstości oczekiwane są by, która oszacowuje parametr populacyjny.
małe. Fałszywie dodatni — osobnik, który nie ma określonej cho
Dopaaowania porównań post-hoc — stosowane są do korek roby, ale został zdiagnozowany jako chory.
cji wartości p, gdy wykonuje się porównania wielokrotne, Fałszywie ujemny — osobnik, który ma określoną chorobę,
np. poprawka Bonferroniego. ale został zdiagnozowany jako niemający tej choroby.
Dopasowanie modelu zbyt dokładne — model zawierający Format ASCII lub pliku tekstowego — dane dostępne
zbyt wiele zmiennych, np. więcej niż jedną dziesiątą licz w komputerze jako wiersze tekstu.
by osobników w modelu wielokrotnej regresji liniowej. Format danych swobodny — każda zmienna w pliku kompu
Efekt badany — wartość zmiennej odpowiedzi odzwiercie terowym odseparowana jest od następnej pewnym ogra
dlająca badane porównanie, np. różnica w średnich. nicznikiem, często spacją lub przecinkiem.
Efekt leczenia — badany efekt, np. różnica między średnimi Funkcja gęstości prawdopodobieństwa — równanie określa
łub ryzykami względnymi pozwalająca na porównanie jące rozkład prawdopodobieństwa.
efektów leczenia. Funkcja wiążąca — w uogólnionym modelu liniowym jest to
Efekt losowy — wpływ czynnika, o którego poziomach zakła transformacja wartości średniej zmiennej zależnej, mode
da się, że reprezentują losową próbę z populacji. lowanej poprzez liniową kombinację współzmiennych.
Efekt przeniesienia — resztowy efekt poprzedniego leczenia GEE —> uogólnione równanie oszacowania.
w eksperymencie naprzemiennym. GLM —> uogólniony model liniowy.
Efekt stały — efekt, w którym poziomy czynnika obejmują ca Granice ufności — górna i dolna wartość przedziału ufności.
łą badaną populację (np. czynnik „leczenie", którego pozio Granice zgodności — w ocenie powtarzalności jest to zakres
mami są farmakoterapia, leczenie chirurgiczne i radiotera wartości, pomiędzy którymi spodziewamy się napotkać
pia). Jest przeciwieństwem efektu losowego, w którym w populacji 95% różnic pomiędzy powtarzanymi pomiarami.
poziomy są reprezentowane tylko przez próbę z populacji Grupa kontrolna — termin używany w badaniach porów
(np. czynnik „pacjent", którego poziomy reprezentują 20 nawczych, np. eksperymentach klinicznych, do oznacze
pacjentów w randomizowanym eksperymencie kontrolowa nia grupy porównawczej —> kontrola pozytywna i nega
nym). tywna.
Efekt wprowadzenia zdrowych osobników — na skutek włą Hazard — chwilowe ryzyko osiągnięcia punktu końcowego
czenia do badania osobników nie mających jednostki cho w analizie przeżycia.
robowej interesująca odpowiedź (np. śmiertelność) jest Hazard względny (stosunek hazardu) — stosunek dwóch ha
niższa na początku badania, niż oczekiwano by tego zardów, interpretowany w podobny sposób jak ryzyko
w ogólnej populacji. względne.
Eksperyment czynnikowy — pozwala na jednoczesną anali Hipoteza alternatywna — hipoteza na temat badanego efek
zę pewnej liczby badanych czynników. tu, która nie jest zgodna z hipotezą zerową i jest słuszna,
Eksperyment braku pogorszenia — używany do wykazania, gdy hipoteza zerowa jest fałszywa.
że dane leczenie nie jest klinicznie gorsze od innego. Hipoteza zerowa — stwierdzenie przyjmujące brak efektu
Eksperyment klasterowy randomizowany — badanie, w któ w populacji.
rym grupy (klastery) osobników są randomizowane do Histogram — diagram ilustrujący częstości rozkładu zmien
rozmaitych „sposobów leczenia" tak, że każdy osobnik nej ciągłej (względne) przy użyciu połączonych słupków.
w obrębie określonej grupy (klasteru) otrzymuje to samo Pole słupka jest proporcjonalne do częstości (względnej)
leczenie. w zakresie określonym przez granice słupka.
148 Dodatki
Modalna — wartość pojedynczej zmiennej, która w zbiorze Modyfikacja wpływu —> interakcja.
danych pojawia się najczęściej. Nachylenie — gradient linii regresji, pokazujący średnią
Model — w ujęciu algebraicznym opisuje związek między zmianę zmiennej zależnej dla jednostkowej zmiany
dwoma lub większą liczbą zmiennych. zmiennej wyjaśniającej.
Model brzegowy —> uogólnione równanie oszacowania. Niejednorodność kliniczna — występuje, gdy włączone do
Model efektów losowych — model dla struktury hierar metaanalizy badania obejmują rozmaite populacje pacjen
chicznej danych, takiej jak struktura dwupoziomowa tów, mają różne definicje zmiennych etc, co stwarza pro
z jednostkami poziomu 1 zagnieżdżonymi w obrębie jed blemy z brakiem kompatybilności.
nostek poziomu 2, w którym efekt losowy jest źródłem Niejednorodność statystyczna — występuje w metaanalizie,
błędu przypisywanym do jednostek poziomu 2. gdy istnieje istotna zmienność między poszczególnymi es~
Model efektów stałych - zawiera wyłącznie efekty stałe. tymatorami badanego efektu.
Stosowany w metaanalizie, gdy brak jest dowodu staty Niejednorodność wariancji — nierówność wariancji.
stycznej niejednorodności. Nieobciążony — nieposiadający obciążenia.
Model hierarchiczny —> model wielopoziomowy. Nomogram Altmana — diagram, który wiąże ze sobą liczeb
Model losowych nachyleń - hierarchiczny model efektów ność próby z mocą testu statystycznego, poziomem istot
losowych, który zakłada dla struktury dwupoziomowej, ności i standaryzowaną różnicą.
źe związek liniowy pomiędzy wartością średnią zmiennej Nomogram Pagana — diagram, który wiąże ze sobą praw
zależnej i pojedynczą wspólzmienną dla każdej jednostki dopodobieństwo przedtestowe testu diagnostycznego
drugiego poziomu ma nachylenie losowo zmieniające się z wiarygodnością i prawdopodobieństwem po wykona
wokói nachylenia średniego i przecięcie losowo zmienia niu testu. Stosowany jest zwykle do zamiany tego
jące sie wokół przecięcia średniego. pierwszego prawdopodobieństwa w prawdopodobień
Model losowych przecięć — hierarchiczny model efektów stwo a posteriori
logowych, który zakłada dla struktury dwupoziomowej, Obciążenie — systematyczna różnica między wynikami uzy
że związek liniowy pomiędzy wartością średnią zmien skanymi z badania a prawdziwym stanem rzeczy.
nej zależnej i pojedynczą współzmienną dla każdej jed Obciążenie odwołania do pamięci - systematyczne znie
nostki drugiego poziomu ma takie samo nachylenie dla kształcenie danych, wynikające ze sposobu, w jaki osob
wszystkich jednostek poziomu drugiego i przecięcie lo nicy przypominają sobie przeszłe zdarzenia.
sowo zmieniające się wokói przecięcia średniego. Obciążenie przydziału — systematyczne zniekształcenie da
Model mieszany — niektóre parametry w modelu mają efek nych, wynikające ze sposobu, w jaki osoby są przypo
ty losowe, pozostałe mają efekty stałe. rządkowane do grup leczenia.
Model regresji Poissona — postać uogólnionego modelu li Obciążenie publikacyjne — tendencja do publikowania przez
niowego używana do powiązania jednej lub większej licz czasopisma wyłącznie prac zawierających wyniki istotne
by zmiennych wyjaśniających z logarytmem oczekiwanej statystycznie.
częstości 2darzenia (np. choroby), gdy obserwacja osobni Obciążenie wyboru — systematyczne zniekształcenie da
ków ulega zmianie, lecz zakłada się, że częstość w okre nych, wynikające ze sposobu, w jaki osobnicy są włącza
sie badania pozostaje stała. ni do badania.
Model regresyjny jednej zmiennej — zawiera jedną zmien Obserwacja — czas, przez który osobnik pozostaje w bada
ną wynikową i jedną zmienną wyjaśniającą. niu, od chwili wejścia do chwili, gdy uzyska określony
Model regresyjny proporcjonalnych hazardów wg Coxa — wynik (np. zachoruje) lub opuści badanie, lub badanie się
używany w analizie przeżycia do badania równoczesnych zakończy.
wpływów pewnej liczby zmiennych wyjaśniających na Obserwacje powiązane — odnoszą się do odpowiedzi osobni
przeżycie. ków dopasowanych lub tych samych osobników w dwóch
Model regresyjny wielowymiarowy — zawiera co najmniej różnych sytuacjach.
dwie zmienne wynikowe i co najmniej dwie zmienne wy Odchylenie standardowe (SD - standardized difference) —
jaśniające. miara rozrzutu równa pierwiastkowi kwadratowemu
Model regresyjny wielu zmiennych — dowolny model regre z wariancji.
syjny mający pojedynczą zmienną wynikową i co naj Odchylenie standaryzowane normalne (SND - Standardi
mniej dwie zmienne wyjaśniające. zed Normal Deviate) — zmienna losowa o rozkładzie nor
Model wielopoziomowy — używany do analizy danych hie malnym ze średnią zero i jednostkową wariancją.
rarchicznych. Jednostki poziomu pierwszego (np. pacjen Odporność — test jest odporny na pogwałcenie jego założeń,
ci) są zagnieżdżone w obrębie jednostek drugiego pozio gdy wartość p i moc nie są w sposób znaczny zaburzone
mu (np. oddziały), które mogą być zagnieżdżone wewnątrz przez te pogwałcenia.
jednostek poziomu trzeciego (np. szpitale), itd. Zwany Odstępstwa od protokołu — pacjenci wprowadzeni do ekspe
również modelem hierarchicznym. rymentu klinicznego, niespełniający kryteriów protokołu.
Model wymienny — zakłada, że procedura oszacowania nie Odtwarzalność — stopień, w którym można uzyskać te same
zostanie zaburzona, jeżeli w obrębie klastera zostaną wy wyniki w różnych okolicznościach, np. przy użyciu dwóch
mienione dwie obserwacje. metod pomiaru lub przez dwóch obserwatorów.
Model wysycony — model, w którym liczba zmiennych jest Okres wymywania — przedział czasu pomiędzy końcem jed
większa od liczby osobników lub jej równa. nego leczenia i początkiem drugiego leczenia w ekspery
Modele zagnieżdżone — dwa modele regresyjne, z których mencie naprzemiennym. Pozwala na rozproszenie efek
większy włącza współzmienne modelu mniejszego i do tów resztowych pierwszego leczenia.
datkowe wspótzmienne. Operat losowania — lista wszystkich osobników w populacji.
150 Dodatki
Przełożenie — miara stopnia, w jakim wartość zmiennej wy Replikacja — osobnik ma więcej niż jeden pomiar zmiennej
jaśniającej dla danego osobnika różni się od średniej przy danej okazji.
zmiennej wyjaśniającej w analizie regresji. Reszta — w analizie regresji różnica między wartościami ob
Przesiew — proces mający na celu sprawdzenie, którzy serwowaną i dopasowaną dla zmiennej zależnej.
osobnicy w pozornie zdrowej populacji mają najprawdo 2
Rozkład Chi-kwadrat (%) — rozkład ciągły prawoskośny,
podobniej (lub czasami, którzy nie mają) badaną jednost określony przez liczbę stopni swobody, użyteczny w ana
kę chorobową. lizie danych kategorialnych.
Przydział systematyczny — w eksperymencie klinicznym pa Rozkład częstości — pokazuje częstość pojawiania się każ
cjenci są przydzielani do leczenia w systematyczny, nie dej możliwej obserwacji lub kategorii.
zaś losowy sposób. Rozkład dwumianowy — dyskretny rozkład prawdopodo
Przypadek - osobnik mający jednostkę chorobową, podlega bieństwa binarnej zmiennej losowej, użyteczny pr2y
jący badaniu w eksperymencie przypadek-kontrola. wnioskowaniu na temat proporcji.
Przypadki rozpowszechnienia — pacjenci, którzy mają jed Rozkład dwumodalny — dane, których rozkład ma dwa „piki".
nostkę chorobową w określonej chwili lub w określonym Zwany również rozkładem bimodalnym.
przedziale czasu, lecz którzy uprzednio zostali zdiagnozo- Rozkład empiryczny — obserwowany rozkład zmiennej.
wani. Rozkład F — prawoskośny rozkład ciągły, określony prze2
Przypadki zapadalności — pacjenci, którzy właśnie zostali liczbę stopni swobody licznika i mianownika stosunku,
zdiagnozowani. który go definiuje; użyteczny w porównywaniu dwóch
Punkt końcowy pierwszorzędny — wynik, który w ekspery wariancji i więcej niż dwóch średnich w analizie wa
mencie klinicznym najlepiej odzwierciedla zyski płynące riancji.
z nowego typu leczenia. Rozkład Gaussa —> rozkład normalny.
Punkt procentowy - percentyl rozkładu. Wskazuje propor Rozkład jednomodalny — ma pojedynczy „pik".
cję rozkładu, która leży na prawo (tj. ogon po prawej stro Rozkład lognormalny — prawoskośny rozkład prawdopodo
nie), na lewo (tj. ogon po lewej stronie) lub oba ogony: pra bieństwa, którego logarytm podlega rozkładowi normal
wo- i lowostronny. nemu.
Punkt wpływający — wartość, która jeżeli zostanie usunię Rozkład normalny standaryzowany — szczególny rozkład
ta z analizy regresji, doprowadzi do zmiany jednego lub normalny, ze średnią równą zero i wariancją równą je
kilku estymatorów parametru. den.
Punktacja ryzyka —> indeks prognostyczny. Rozkład normalny (Gaussa) — ciągły rozkład prawdopodo
Punkty końcowe drugorzędne — wyniki w eksperymentach bieństwa o kształcie dzwonu, symetryczny; jego parame
klinicznych, które nie mają zasadniczej wagi. trami są średnia i wariancja.
R2 — proporcja zmienności całkowitej zmiennej zależnej Rozkład Poissona — dyskretny rozkład prawdopodobieństwa
w analizie prostej lub wielokrotnej regresji wytłumaczo zmiennej losowej, reprezentującej liczbę zdarzeń poja
na przez model. Jest subiektywną miarą jakości dopaso wiających się losowo i niezależnie z ustaloną przeciętną
wania. częstością.
Randomizacja — pacjenci zostają przydzieleni do grupy le Rozkład prawdopodobieństwa — rozkład teoretyczny opisa
czenia w sposób losowy (oparty na przypadkowości). ny modelem matematycznym. Pokazuje prawdopodobień
Może podlegać stratyfikacji (kontroli wpływu ważnych stwa wszystkich możliwych wartości zmiennej losowej.
efektów) lub klasterowaniu (zapewniającemu w przybli Rozkład prawdopodobieństwa ciągły — zmienna losowa
żeniu równe wielkości grupy leczenia). określająca rozkład jako ciągły.
Randomizacja klasterowa — losowe przyporządkowanie do Rozkład prawdopodobieństwa dyskretny — zmienna losowa
leczenia grup osobników, a nie poszczególnych osobni definiująca rozkład przyjmujący wartości dyskretne.
ków. Rozkład próbkowania proporcji — rozkład proporcji z próby
RCT —» eksperyment kontrolowany randomizowany. uzyskany po wzięciu z populacji powtarzanych prób
Regresja do średniej — zjawisko, w którym podzbiór warto o ustalonej wielkości.
ści ekstremalnych powoduje pojawienie się wyników, któ Rozkład próbkowania średniej — rozkład średnich z próby
re przeciętnie są mniej ekstremalne, np. wysocy ojcowie uzyskany po wzięciu z populacji powtarzanych prób
mają niższych (lecz nadal wysokich) synów. o ustalonej wielkości.
Regresja logistyczna — rodzaj uogólnionego modelu liniowe Rozkład równomierny — nie ma „pików", ponieważ każda
go, używanego do powiązania jednej lub większej liczby wartość jest równie prawdopodobna.
zmiennych wyjaśniających z logitem oczekiwanej propor Rozkład skośny — rozkład danych jest asymetryczny, ma
cji osobników z określonym wynikiem, gdy odpowiedź długi ogon z prawej strony z kilkoma dużymi wartościa
jest binarna. mi (skośny dodatnio) lub długi ogon z lewej strony z kilko
Regresja logistyczna porządkowa — postać regresji logi ma niskimi wartościami (skośny ujemnie).
stycznej używana, gdy zwykła zmienna wynikowa ma Rozkład symetryczny — dane centrowane wokół jakiegoś
więcej niż dwie kategorie. punktu środkowego. Kształt rozkładu po lewej stronie
Regresja logistyczna warunkowa — postać regresji logistycz punktu środkowego jest lustrzanym odbiciem kształtu po
nej stosowana, gdy osobnicy w badaniu są sparowani. stronie prawej.
Regresja wielomianowa — nieliniowa (np. kwadratowa, sze Rozkład t (t-Studenta) — rozkład ciągły, którego kształt jest
ścienna, czwartego stopnia) zależność pomiędzy zmienną podobny do rozkładu normalnego, określony przez liczbę
zależną a jedną lub większą liczbą zmiennych wyjaśnia stopni swobody. Jest szczególnie użyteczny przy wnio
jących. skowaniu na temat średniej.
152 Dodatki
Test Levene'a — testuje hipotezę zerową, że co najmniej Uwikłanie — gdy co najmniej jedna zmienna wyjaśniająca
dwie wariancje są równe. wiąże się zarówno ze zmienną wyjściową, jak i z innymi
Test Log-rank — nieparametryczne podejście do porównywa zmiennymi wyjaśniającymi, tak że trudno jest oszacować
nia dwóch krzywych przeżycia. niezależny wpływ każdej pojedynczej zmiennej wyjaśnia
Test McNemary — porównuje proporcje w dwóch powiązanych jącej na zmienną wyjściową.
grupach przy użyciu statystyki testowej Chi-kwadrat. Wariancja — miara rozproszenia równa kwadratowi odchy
Test parametryczny — test hipotezy, w którym przyjmuje lenia standardowego.
się pewne założenia na temat rozkładu danych. Wariancja niewyjaśniona —> zmienność resztowa.
Test Shapiro-Wilka — określa, czy dane mają rozkład nor Warstwa — podgrupa osobników; zwykle osobnicy w war
malny. stwie mają zbliżoną charakterystykę. Zwana czasami blo
Test t dla dwóch prób —> test f dla zmiennych niepowiąza kiem.
nych. Wartości dopasowane — prognozowane wartości zmiennej
Test t dla jednej próby — bada, czy średnia zmiennej różni odpowiedzi w analizie regresji odpowiadające szczególnej
się od jakiejś wartości hipotetycznej. wartości (wartościom) zmiennej wyjaśniającej (zmien
Test f dla zmiennych niepowiązanych (test f dla dwóch nych wyjaśniających).
prób) — testuje hipotezę zerową, że dwie średnie z grup Wartości predykcyjne ujemne — proporcja osobników
niezależnych są równe. z ujemnymi wynikami testu, którzy nie mają jednostki
Test t dla zmiennych powiązanych — testuje hipotezę zero chorobowej.
wą, że średnia zbioru różnic wartości powiązanych jest Wartość odskakująca — obserwacja wyróżniająca się wśród
równa zero. większości danych i niezgodna z pozostałymi danymi.
Test U Manna-Whitneya —> test sumy rang Wilcoxona. Wartość p — prawdopodobieństwo uzyskania pewnych wy
Test Wilcoxona rangowanych znaków — test nieparame ników lub nieco silniejszych, gdy prawdziwa jest hipote
tryczny porównujący powiązane wartości. za zerowa.
Test sumy rang Wilcoxona (dwie próby) — test nieparame Wartość predykcyjna dodatnia — proporcja osobników z do
tryczny porównujący rozkłady dwóch niezależnych grup datnim wynikiem testu, którzy mają jednostkę chorobową.
wartości. Równoważny testowi U Manna- Whitneya. Wartość wyrównująca (offset) — zmienna wyjaśniająca,
Test złotego standardu — pozwala ustalić ostateczną diagno której współczynnik regresji jest ustalony w uogólnionym
zę co do określonego stanu. modelu liniowym jako jedność; jest logarytmem całkowi
Test znaków — test nieparametryczny, który bada, czy róż tej liczby osobolat (miesięcy/dni, etc.) obserwacji w mo
nice mają tendencję do posiadania dodatniego, czy ujem delu Poissona, gdy zmienna zależna jest zdefiniowana nie
nego znaku; czy obserwacje mają tendencję do posiada jako częstość, lecz jako liczba pojawiających się zdarzeń.
nia wyższych (lub niższych) wartości niż mediana; czy Ważność — zbliżenie do prawdy.
proporcja wartości z daną cechą jest większa (lub mniej Wiarygodność — prawdopodobieństwo danych w znanym
sza) niż 0,5. modelu. W kontekście testów diagnostycznych opisuje
Testy nieparametryczne (testy niezależne od rozkładu) — prawdopodobieństwo obserwowanych wyników testu,
testy hipotez niewykorzystujące założeń na temat rozkła gdy jednostka chorobowa jest obecna (lub nie występuje).
du danych. Zwane czasami testami wolnymi od rozkładu Wielokrotna regresja liniowa — liniowy model regresyjny,
lub metodami rangowymi. w którym istnieje pojedyncza zmienna numeryczna zależ
Testy niezależne od rozkładu —> testy nieparametryczne. na i dwie lub większa liczba zmiennych wyjaśniających.
Transformacja logitowa (logistyczna) — transformacja sto Wielomianowa regresja logistyczna — postać regresji logi
sowana do proporcji lub prawdopodobieństwa p taka, że stycznej używana, gdy nominalna zmienna wynikowa ma
logit(p) = ln{p/(l - p)] = In (szansy). więcej niż dwie kategorie. Zwana również polichotomicz-
Trend — wartości zmiennej wykazują tendencję do wzrostu ną regresją logistyczną.
lub spadku z upływem czasu. Wnioskowanie — proces wyciągania wniosków o populacji
Twierdzenie Bayesa — prawdopodobieństwo a posteriori na podstawie danych z próby.
zdarzenia/hipotezy jest proporcjonalne do iloczynu jego Współczynnik korelacji Pearsona —> współczynnik korela
prawdopodobieństwa a priori i wiarygodności. cji.
Uogólnione równanie oszacowania (GEE — generalized es- Współczynnik korelacji (Pearsona) — miara ilościowa, zmie
timating equation) — używane w dwupoziomowej struk niająca się od -1 do +1, określająca, do jakiego stopnia
turze hierarchicznej do oszacowania parametrów i ich punkty na diagramie rozrzutu dostosowują się do linii
błędów standardowych, biorące pod uwagę klasteryzację prostej. —> współczynnik korelacji rangowej Spearmana.
danych bez odnoszenia się do parametrycznego modelu Współczynnik korelacji rangowej —> współczynnik korela
dla efektów losowych; czasami określane jako uśrednia cji rangowej Spearmana.
nie populacyjne lub brzegowe. Współczynnik korelacji rangowej Spearmana — nieparame
Uogólniony model liniowy (GLM — generalized linear mo tryczna alternatywa współczynnika korelacji Pearsona;
del) — model regresyjny w ogólnej postaci, wyrażony daje miarę związku między dwoma zmiennymi.
przez funkcję wiążącą, która wiąże ze sobą średnią war Współczynnik korelacji wewnątrzklasowej (ICC — intra-
tość zmiennej zależnej (której rozkład znamy, np. normal class correlation coefficient) — w strukturze dwupo
ny, dwumianowy lub Poissona) z liniową funkcją współ- ziomowej wyraża zmienność między klasterami jako pro
zmiennych. porcję całkowitej zmienności; reprezentuje korelacje
Uśredniany model populacyjny —¥ uogólnione równanie pomiędzy dwoma losowo wybranymi jednostkami pozio
oszacowania. mu 1 w jednym losowo wybranym klasterze.
154 Dodatki
każdej z k - 1 kategorii z kategorią odniesienia. Zwane są nie) lub mniejsza (zaniżone rozproszenie) niż oczekiwana
również zmiennymi wskaźnikowymi indeksującymi. na podstawie modelu Poissona.
Zmienne wskaźnikowe indeksujące —> zmienne ślepe. Zmienność losowa — zmienność, która nie może być przypo
Zmienność błędu —> zmienność resztowa. rządkowana do żadnych wyjaśnionych źródeł.
Zmienność ekstradwumianowa — pojawia się, gdy warian Zmienność resztowa (wariancja niewyjaśniona, zmienność
cja resztowa jest większa (podwyższone rozproszenie) lub błędu) — wariancja zmiennej, która pozostaje po usunię
mniejsza (zaniżone rozproszenie) niż oczekiwana na pod ciu zmienności przyporządkowanej badanym czynnikom.
stawie modelu dwumianowego. Jest to zmienność niewyjaśniona przez model, a w tabli
Zmienność ekstra-Poissonowska — pojawia się, gdy wa cy ANOVA jest kwadratem średniej reszt.
riancja resztowa jest większa (podwyższone rozprosze
Analiza(y) dyskryminacyjna 94, 146 Błąd systematyczny informacyjny 33 Efekt losowy 147
— kowariancji 78, 146 obserwatora 33 — prosty 93
— na bazie leczenia 38, 146 odwołania do pamięci i wyboru 40 — przeniesienia 147
— przejściowe 36, 146 publikacyjny 33 — resztkowy 34
— przeżycia 8 6 , 1 2 1 , 146 uwikłania 33, 36 — stały 147
-regresji 117 — w testowaniu hipotez 46 — wprowadzenia zdrowych osobników
liniowej 74 Bootstrapping 31, 146 33, 39, 147
— — — wielokrotnej 79 Eksperyment 32
Poissona 86, 87 — braku pogorszenia 45, 147
— — — wielozmienna 92 Chi-kwadrat 140, 145 — czynnikowy 34, 147
warunkowa 82 — dla wspótzmiennych 81, 89 - I fazy 3 6
wielozmienna Poissona 92 Chorobowość 42 - I I fazy 3 6
— wariancji (ANOYA) 133, 146 Cochrane Collaboration 118,154 - I I I fazy 36
jednoczynnikowa 57, 58, 146 Czas przeżycia 121 — klasterowy randomi2owany 147
powtarzanych pomiarów 113, 146 Częstość 11, 84, 146 — kliniczny 36, 147
— z zamiarem leczenia 146 — obserwowana 43, 63, 66, 140 — kontrolowany randomizowany (stero
— zagregowanych poziomów 115,116 — oczekiwana 63 wany losowo, RCT) 36, 100, 147
ANOVA patrz: Analiza wariancji — skumulowana 146 — podwójnie ślepy 37
— spodziewana 146 — pojedynczo ślepy 37
— względna 16, 84, 85, 146 — przewagi 147
Badanie braku pogorszenia 45 — zachorowalności 146 — równoległy 147
— eksperymentalne 32, 146 Czułość 146 — równoważności 45, 147
— epidemiologiczne 32, 146 — modelu 79, 82, 146 — sterowany losowo 36, 100, 147
— kliniczne 73 — testu 104 — ślepy podwójnie 37
— koliortowe 32, 39, 146 Czynnik ryzyka 39, 146 pojedynczo 37
dynamiczne 39 Estymator 147
ustalone 39 — jednorodności statystycznej 118
— longitudinalne 33, 146 Dane 10, 146 — kwadratów zwyczajnych najmniej
— nierandomizowane 93 — brakujące 14 szych 88
— obserwacyjne 3 2 , 146 — ciągłe 10 -precyzyjny 28
— pilotażowe 98, 146 — dyskretne 10 — przedziałowy 28, 30, 1-47
— prospektywne 33, 146 — kategorialne 12, 14, 16, 60, 63, 66 — punktowy 28, 147
— przekrojowe 32, 33, 146 — klasteryzowane 84, 112, 115, 116 — średniej w populacji nieobciążony 28
powtarzalne 32, 33 — nominalne 10 — wiarygodności największej 88
— przesiewowe 73 — numeryczne (ilościowe) 10, 12, 14,
— przypadek-kontrola 32, 42, 43, 82, 16, 48, 51, 54, 57
147 — pochodne 11 Format ASCII lub pliku tekstowego 12,
— retrospektywne 33, 146 — porządkowe 10 147
— równoważności 45 — przeżycia 121 — danych swobodny 12, 147
Baza obserwacyjna danych 40 — transformowane 146 — wprowadzania danych 12
Blok 34, 146 -ucięte 11,121,146 Funkcja gęstości prawdopodobieństwa
Błąd doboru systematyczny 33 lewostronnie 121, 146 22, 147
— informacyjny systematyczny 33 prawostronnie 121, 147 — łącząca 88
— obserwatora systematyczny 33 Daty 12, 14 — tożsamościowa 88
— odwołania do pamięci i wyboru syste Decyle 20, 147 — wiążąca 147
matyczny 40 Deklaracja CONSORT 36, 37, 38, 147
— próbkowania 28, 146 Dewiancja 89, 147
— przydziału systematycznego 36 Diagram 16 GEE patrz: Uogólnione równanie oszaco
— publikacyjny systematyczny 33 — rozrzutu 74, 147 wania
— resztowy 73 Dodatni fałszywie 147 Granice ufności 147
— I rodzaju 46, 146 Dokładność 147 — zgodności 107, 147
— II rodzaju 46, 146 Dopasowania porównań post-hoc 147 Grupa(y) kontrolna 33, 147
— spowodowany odwołaniem do pamięci Dopasowanie 42, 73, 74, 78, 79, 89, 91 — niepowiązane 63
33 — modelu zbyt dokładne 147 — powiązane 63
oszacowaniem 33 Dyspersja 20
przydziałem 33
— standardowy 28, 29 EBM patrz: Medycyna poparta dowodami Hazard 147
elastyczny 115, 116, 146 Efekt badany 46, 47, 110, 147 — względny 122, 147
proporcji 29, 146 najmniejszy 98 Hipoteza alternatywna 44, 147
średniej (SEM) 28, 146 — klasteryzacji 116 — zerowa 44, 46, 147
— systematyczny doboru 33 — leczenia 147 Histogram 16, 82, 147
156 Indeks
Homoscedastyczność (jednorodność) wa Metoda Bayesowska 124, 125 Obserwacje 10, 149
riancji 96, 148 — Kaplana-Meiera 121 — niezależne 74
— najmniejszych kwadratów 72, 148 — powiązane 149
— rangowa 148 Odchylenie standardowe 21, 29, 149
Iloraz szans 42, 82, 148 — regresji dla danych klasteryzowanych — standaryzowane normalne 149
oszacowany 42 113, 115, 116 Odległość Cooka 79
— wiarygodności (LR) 105, 148 Miara niepewności 22 Odporność 149
statystycznej 81 — podsumowująca 112,115 Odstępstwa od protokołu 149
Indeks prognostyczny 94, 148 MLE patrz: Oszacowanie największej Odtwarzalność 107, 149
— rzetelności 107 wiarygodności Ogranicznik 12
— zdolności predykcyjnej 82 Moc 46, 93, 98, 99, 148 Okres wymywania 34, 149
Interakcja 35, 93, 148 Modalna 18, 19, 149 Operat losowania 28, 149
Interpolowanie 148 Model 149 Osobo-lata obeerwacji 150
Istotność statystyczna 148 — brzegowy 149 Oszacowanie największej wiarygodności
— Chi-kwadrat 89 (MLE) 88, 150
— efektów losowych 115, 116, 117,
Jaokhnifing 94, 148 145, 149
Jakość dopasowania 148 stałych 149 Parametr 22, 26, 28, 150
Jednorodność statystyczna 118 — ekspotencjalny 122 Percentyle 20, 150
— wariancji (homoscedaatyczność) 96, — Gompertza 122 Placebo 36, 150
148 — hierarchiczny 149 Plik ASCII 12
Jednostka(i) doświadczalna 34 — liniowy uogólniony 88, 153 — tekstowy 12
— eksperymentalna 148 — matematyczny 88 Podejście aprioryczne 23
— poziomu drugiego 148 — mieszany 149 — Bayesowskie do prawdopodobieństwa
pierwszego 148 — nachyleń losowych 117, 149 124
— przecięć losowych 115,117,149 do wnioskowania 150
— regresji Poissona 149 — brzegowe 116
Kappa Cohena H8 — regresyjny 122 — częstościowe 22, 124
— ważona 107, 148 jednej zmiennej 149 — do analizy przeżycia odwołujące sie do
Kategoria(e) odniesienia 78 proporcjonalnych hazardów (ryzyka) tablic trwania życia 150
— wzajemnie sie wykluczające 148 wg Coxa 82, 123, 149 — subiektywne 22
Kohorta historyczna 39 wielowymiarowy 149 — uśrednienia populacji 116
— kliniczna 40, 148 wielu zmiennych 149 Podsumowanie przeżycia 121
Komórka tablicy łtontyngencji 148 — szeregów czasowych hierarchiczny Pole pod krzywą 23
Kontrola 42, 43, 148 115 Pomiary powtarzane 112,150
— błędów 14 klasterowy 115 Poprawka ze względu na ciągłość 150
— dodatnia 36, 148 mieszany 115 Populacja 10, 28, 150
— historyczna 148 przekrojowy 115 Porównywanie przeżycia 122
— negatywna 36, 148 wielopoziomowy 115 Powiązanie 150
— pozytywna 36, 148 -Weibulla 122 Powtarzalność 107, 150
— ujemna 36, 148 — wielopoziomowy 149 Powtarzanie pomiarów 34
Korekcja Bonferroniego 148 — wymienny 149 Poziom 150
Korelacja 69 — wysycony 89, 149 — istotności 45, 46, 47, 98, 150
— liniowa 69 — zagnieżdżony 89, 149 Prawdopodobieństwo 22, 150
Kryteria włączenia 38 Modelowanie statystyczne 93 — a posteriori 124, 125, 150
— wykluczenia 38 Modyfikacja wpływu 149 — a priori 124, 125, 150
Krzywa(e) Kaplana-Meiera 121, 123 Moment mieszany Pearsona 69 — częstościowe 150
— mocy 47 — po teście 125, 150
— ROC 105, 106, 148 — przed testem 125, 150
Kwadrat średniej resztowy 57 Nachylenie 74, 149 — przeżycia 121
Kwartyle 20, 148 Narzędzie przesiewu 104 — subiektywne 150
Niejednorodność kliniczna 119,149 — warunkowe 124, 150
— statystyczna 149 Prewalencja choroby 104, 125
Leczenie kontrolne 36 — wariancji 96, 149 Procenty 11
Liczba(y) losowe 132 Nieobciążony 149 Proces najwyższej wiarygodności 81
— pacjentów wymaganych do leczenia NNT patrz: Liczba pacjentów wymaga Projekt całkowicie zrandomizowany 34,
(NNT) 110, 148 nych do leczenia 150
— stopni swobody 24, 31, 148 Nomogram Altmana 98, 99, 100, 133, — czynnikowy 34
Linearyzacja wariancji 26, 27 149 — naprzemienny 34, 35, 150
Linia regresji 72 — Fagana 124, 149 — równoległy 34, 35
Liniowość 26 Normalizacja wariancji 26, 27 Proporcja 11, 150
— fałszywie dodatnia 82
ujemna 82
Maskowanie 36, 37, 148 Obciążenie 107, 149 — pojedyncza 60, 61
Mediana 18, 19, 20, 148 — odwołania do pamięci 149 Protokół 37, 150
Medycyna poparta dowodami (EBM) — przydziału 149 — rozbieżności 38
110, 118, 148 — publikacyjne 119,149 Próba(y) 10, 28, 150
Metaanaliza 118, 119, 148 — wyboru 149 — dogodna 28, 150
Indeks 157
Próba(y) kwotowa 28 Rozkład dwumodalny 151 Stosunek częstości 84
— losowa 28 — empiryczny 151 zachorowalności 152
— niezależne 150 — F 24, 128, 151 - F 74
— reprezentatywna 28 — Gaussa 22, 23, 26, 27, 28, 29, 30, — hazardu 122, 152
— ślepa podwójnie 152 96, 136, 137, 151 — wiarygodności 89, 125
— ucząca 94, 150 — jednomodalny 151 Struktura dwupoziomowa zmiennej
— walidacyjna 94, 150 — lognormalny 24, 151 112
Próbkowanie 28 — normalny 22, 23, 26, 27, 28, 29, 30, Suma brzegowa w tablicy kontyngencji
— kwotowe 150 96, 136, 137, 151 63, 152
— losowo 150 standaryzowany 127, 128, 151 — całkowita 63
— ro2kladu proporcji 29 — Poissona 25, 151 Swoistość 82, 152
— średniej 28 — prawdopodobieństwa 22, 24, 44, 151 Szansa 152
— systematyczne 28, 150 ciągły 22, 151
Pracciccie 150 dyskretny 22, 25, 151
Przecie tna 150 — próbkowania proporcji 29,151 Ślepa podwójnie 152
Przedział odniesienia 2 0 , 104, 150 średniej 28, 151 Średnia arytmetyczna 18, 19, 20, 21,
— ufności 30, 45, 48, 54, 75, 110 — przekrzywiony w lewo (ujemnie sko 23, 25, 29, 152
dla parametru 150 śny) 17 — geometryczna 18, 19, 152
— - dla proporcji 30, 31 w prawo (dodatnio skośny) 17 — ważona 18, 19, 152
— — dla średniej 30, 31 — reszt 76, 80
Przegląd systematyczny 118, 150 — równomierny 151
Przełożenie 78, 151 — skośny 151 Tablica 2x2 152
Przesiew 151 ujemnie 17 — analizy wariancji 73
Przeżycie, podsumowanie 121 dodatnio 17 — klasyfikacyjna 81
— porównywanie 122 — symetryczny 17, 151 — kontyngencji 63, 66, 140, 152
— prawdopodobieństwo 121 — t 24, 30, 127, 151 — przeżycia 121
Przyczynowość 33 — teoretyczny 22, 24 Test Barletta 58, 96, 152
Przydział losowy 36 Rozpowszechnienie 152 — Chi-kwadrat 63, 66, 67, 100, 152
— systematyczny 36, 151 — punktowe 33, 152 jednorodności Cochrana 119
Przypadek 4 2 , 4 9 , 151 Rozproszenie 20, 21 modelu 152
— chorobowości 42 Rozrzut zaniżony 152 dla trendu 66, 68
— rozpowszechnienia 151 — zawyżony 152 — diagnostyczny 104, 152
— zapadalności 42, 151 Rozstęp 20, 21, 152 w ujęciu Bayesowskim 124
Punht Końcowy drugorzędny 151 — międzydecylowy 20, 152 — dla pojedynczej proporcji 60
— — pierwszorzędny 151 — międzykwartylowy 20, 152 — dokładny Fishera 63
— procentowy 3 0 , 151 — oparty na percentylach 21 — Duncana 57
— wpływający 74, 151 Równanie estymacyjne uogólnione — dwustronny 44, 152
Punktacja 11 116 — F (stosunku wariancji) 79, 96, 97,
— ryzyka 94, 95, 151 — oszacowania uogólnione (GEE) 116, 152
145, 153 — Fishera dokładny 147
— regresji logistycznej 81 — hipotezy (istotności) 44, 152
Randomizacja 36, 37, 38, 151 Różnica(e) jakości 119 — ilorazu wiarygodności 152
— blokowa 36 — standaryzowana 98, 152 — jednorodności Chi-kwadrat Cochrana
— klasterowa 36, 151 RTC patrz: Eksperyment kontrolowany 119
— warstwowa 36 randomizowany — jednostronny 44, 152
Rangi dla przedziałów ufności dla media Ryzyko 84 — Kolmogorowa-Smirnowa 96, 152
ny 129 — choroby 40, 152 — Kruskala-Wallisa 58, 59, 148
Rangowanie 51 — względne 40, 41, 81, 82, 152 — Levene'a 58, 96, 135, 153
Regresja do średniej 73, 151 Rzetelność 152 — Long-rank 122, 123, 153
— liniowa 72, 73 — McNemary 63, 65, 153
— - prosta 72, 74, 75, 76, 139, 150 — nieparametryczny 45, 97, 153
wielokrotna 72, 78, 139, 153 Selekcja automatyczna 91 — parametryczny 153
— logistyczna 82, 151 — kontroli 42 — Scheffego 57
multinominalna 82 — krokowa 91, 152 — Shapiro-Wilka 96, 153
porządkowa 82, 151 — postępująca (progresywna) 91, 152 — sumy rang Wilcoxona 54, 56, 130,
warunkowa 82, 151 — wsteczna 91, 152 153
wielomianowa 153 SEM patrz: Błąd standardowy średniej — t 48, 49, 79, 99, 134, 137
— Poissona 84, 85 Skorygowanie 78, 79 — t dla zmiennych niepowiązanych (dla
— wielomianowa 91, 151 Skurczenie 152 dwóch prób) 54, 153
Reguła dodawania prawdopodobieństwa Specyficzność testu 104 powiązanych (dla jednej próby)
22 Stabilizacja wariancji 26, 27 51, 52, 153
— mnożenia prawdopodobieństwa 22 Statystyka 10, 22, 152 — U Manna-Whitney'a 54, 153
Replikacja 151 — podsumowująca 16 — Wilcoxona rangowanych znaków 51,
Reszta 151 — próby 28 53, 129, 153
Rozkład Chi-kwadrat 24, 127, 151 — stosunku wiarygodności (-2 log wiary — złotego standardu 104, 153
— częstości 16, 17, 151 godność) 89 — znaków 49, 50, 60, 61, 128, 153
empiryczny 16, 22 — testu 44, 152 Testowanie hipotez 44, 45, 46
— dwumianowy 25, 151 Walda 141, 152 wielokrotne 46
158 Indeks
Transformacja 26 Współczynnik nachylenia (gradient) 72 Zgodność wyników 107, 108, 109
— hiperboliczna 27 — powtarzalności Brytyjskiego Instytutu Zmiany w czasie 85
— logarytmiczna 26 Standaryzacji 107, 154 Zmienna 10, 154
— logitowa (logistyczna) 27, 153 — przecięcia 72 -binarna 10,12,78,110,154
— pierwiastkowania kwadratowego 26 — regresji 72, 154 — ciągła 13, 154
— podnoszenia do kwadratu 27 cząstkowej 78, 154 — dychotomiczna 10, 12, 78, 110,
Trend 153 logistycznej 81, 154 154
Twierdzenie Bayesa 124, 153 Poissona 85 — dyskretna 13, 154
— śmiertelności 154 — ilościowa 10, 90, 107, 110, 154
— zmienności 154 — indeksująca 78, 90, 141, 142, 143,
Ujemny fałszywie 147 Wybór modelu automatyczny 154 154
Umieralność 84 — wszystkich podzbiorów 154 — jakościowa 10, 17, 78, 107, 154
Uogólnione równanie oszacowania (GEE) Wykres Kaplana-Meiera 154 — kategorialna 10, 17, 78, 107, 154
116, 145, 153 — kolumnowy klasteryzowany 17 — kodowana pojedynczo 12
Uwikłanie 153 segmentowany 16, 17 — kodowana wielokrotnie 12, 13
— kołowy 16, 154 — losowa 22, 154
— lejkowy 119 — mieszająca 93
Wariancja 20, 21, 23, 25,153 -leśny 119,154 — niezależna 72, 79, 90, 154
— niewyjaśniona 73, 153 — „łodyga z liśćmi" 17, 154 — nominalna 12, 13, 90, 154
— próbkowania 28 — normalności 96, 154 — numeryczna 10, 90, 107, 110, 154
— resztowa 57, 73 — punktowy 16, 17, 60, 154 — porządkowa 13, 78, 90, 154
Warstwa 153 — rozrzutu 16, 17 — pośrednia 94
Wartość brakująca 13, 15 — skrzynkowy 17, 20, 135, 154 — predykcyjna 72, 79, 90, 154
— dopasowana 72, 74, 77, 153 — słupkowy (kolumnowy) 16, 17, 154 — standaryzowana 23
-- obserwowana 43, 72, 74 Wynikli) binarny 118 — ślepa 78, 90, 141, 142, 143, 154
— odcięcia 105 — istotny 44 — wskaźnikowa 78, 90, 141, 142, 143,
— odskakująca 14, 15, 17, 74, 79, 153 — końcowy podstawowy 36 154
— p 44, 153 wtórny 36 — tymczasowa 154
— predykcyjna dodatnia 105, 153 — leczenia 46 — uwikłana 93
ujemna 105, 153 — nieistotny 44 — wskaźnikowa 78, 90, 141, 142, 143,
— przeciętna 18, 19 — numeryczny 118 154
— resztowa 72, 74, 79, 80 — sparowane 107 — wyjaśniająca 72, 79, 90, 154
— wpływająca 79 — ujemny fałszywie 147 — wynikowa binarna 81
— wyrównująca 85, 153 Wzory Lehra 98, 154 główna 154
Ważność 153 — zależna (wynikowa, odpowiedzi) 72,
:
— 2 log wiarygodność 146 154
Wiarygodność 88, 153 Zachorowalność 33, 84, 154 — zależna od czasu 154
— cząstkowa 122 Zakres normalny 20, 154 Zmienność 20, 21
— testu 104 — odniesienia 20 — ekstradwumianowa 155
Wielkość badania 38 — równoważności 45 — ekstra-Poisaonowska 86, 155
— efektu 46 Zależność 119 — losowa 155
-próby 34,46,98,99 — liniowa (współliniowość, kolinearność) niewyjaśniona 34
Wnioskowanie 153 74, 79, 94, 154 — miedzygrupowa 21, 57
Współc2ynnik korelacji Pearsona 69, Założenie dystrybucyjne 26 — obserwacji 46, 98
70, 71, 131, 138, 153 — liniowości 90, 92 — wewnątrzgrupowa (niewyjaśniona,
Spearmana 131, 138 Zapadalność 42, 151 resztowa) 21, 57, 155
rangowej 70, 71, 153 Zaślepienie 36, 37, 154 Związek liniowy 72, 97
wewnątrzklasowej (ICC) 107, 116, Zdarzenie dopełniające 22
145, 153 — warunkowe 22
Indeks 159