You are on page 1of 5

Biostatystyka - słowniczek pojęć

1. Pytanie badawcze

= problem badawczy; To taki główny temat analizy i pytań, na które chcemy znaleźć odpowiedź.

2. Hipoteza

= przypuszczenie (domysł naukowy), który jest stworzony w celu wyjaśnienie oraz próby odpowiedzenia na
nasze pytanie badawcze. Hipotezę stawiamy po to, aby po przeprowadzonych badaniach móc ją potwierdzić
lub odrzucić, na podstawie otrzymanych wyników.

W statystyce wyróżniamy dwa rodzaje hipotez:

→ Hipoteza zerowa [H0]


To ta hipoteza, którą podajemy weryfikacji/falsyfikacji. Mówi o braku różnic między analizowanymi parametrami
czy rozkładami. Na bazie hipotezy zerowej pracujemy, to do niej odnosimy wyniki uzyskane w trakcie analiz
statystycznych, gdyż świadczy ona o brak różnic/związków. (“Przed sądem stoi oskarżony i na początku
procesu zakłada się, że jest niewinny”).

→ Hipoteza alternatywna [A1]


Hipoteza, która jest formułowana razem z hipotezą zerową. Jest to zaprzeczenie hipotezy zerowej, czyli zakłada
się w niej, że między analizowanymi parametrami występują różnice. Dlatego, aby przyjąć hipotezę
alternatywną, należy odrzucić hipotezę zerową (dlatego wszystkie analizy statystyczne skupiają się na
odrzuceniu [H0] ). (“W trakcie procesu sądowego, prokurator stara się udowodnić, że oskarżony jest winny i
będzie chciał go wsadzić za kratki” → będzie, więc chciał odrzucić hipotezę zerową, czyli udowodnić na
podstawie zebranych dowodów, że oskarżony jest winny).

Kiedy odrzucamy hipotezę zerową? → jeżeli wynik testu parametrycznego jest na poziomie p<0,05, to jest
istotne i umożliwia odrzucenie hipotezy zerowej. Odrzucenie hipotezy zerowej na korzyść alternatywnej (czyli
p<0,05) to więc zwykle “odkrycie”

A co jeżeli nie uda się odrzucić hipotezy zerowej? → trzeba będzie, więc zaakceptować hipotezę zerową.

3. Wartość p (propability)

= istotność statystyczna = prawdopodobieństwo statystyki testu.


Wartość prawdopodobieństwa na podstawie której dokonujemy weryfikacji hipotezy statystycznej podczas
wykonywania danego testu statystycznego, przy założeniu, że hipoteza zerowa jest prawdziwa = brak różnicy.
Wartość p odpowiada więc na pytanie, na ile prawdopodobne jest otrzymanie takich danych jakie obserwujemy
wtedy, gdy hipoteza zerowa jest prawdziwa. Wartość istotności statystycznej wyniku testu wyliczana jest na gruncie
założenia, że w populacji na pewno dany efekt (“różnica”) nie występuje (bo założyliśmy, że hipoteza zerowa jest
prawdziwa - brak różnic). Dlatego istotna statystycznie wartość p (czyli p<0,05) nie mówi nam jakie jest
prawdopodobieństwo, że hipoteza zerowa nie jest prawdziwa, gdyż z teoretycznego punktu widzenia, jest ona
prawdziwa na 100%.
Podsumowanie: wartość p oznacza prawdopodobieństwo tego, że w oparciu o obserwowane dane, hipoteza zerowa
jest mało prawdopodobna (=istnieją faktycznie różnice).

Niska wartość p (p<0,05)


Niskie p-value oznacza więc, że trudno byłoby uzyskać dane jeszcze bardziej wspierające hipotezę alternatywną (tj.
jeszcze bardziej potwierdzające nasze “odkrycie”) niż te, którymi już dysponujemy. Innymi słowy: zebrane przez nas
dane stanowią tak silny dowód prawdziwości “odkrycia”, że trudno o dowód jeszcze silniejszy.

Podsumowując: Hipoteza badawcza jest prawdziwa, a obserwowane zależności są związane z analizowanym


czynnikiem. UWAGA: NIGDY NIE UDOWADNIAMY, ŻE Ha jest prawdziwa.

Lub, idąc za drugą z podanych interpretacji, niskie p-value oznacza niskie ryzyko, że nasze “odkrycie” jest jednak
nieprawdziwe.

Potocznie mówimy w takiej sytuacji, że “wynik jest istotny statystycznie” albo “zależność jest istotna statystycznie”.

Wysoka wartość p (p>0,05)


Oznacza więc, że zebrane przez nas dane nie stanowią silnego dowodu prawdziwości “odkrycia” lub, że z dużym
prawdopodobieństwem nasze “odkrycie” nie jest prawdą.

Podsumowanie: “Przyjęcie” hipotezy zerowej (nieodrzucenie jej) nie jest jednoznaczne z tym, że udowodniliśmy jej
prawdziwość, a tylko iż brak jest dostatecznych podstaw do jej odrzucenia.

To, oczywiście, wcale nie oznacza, że badana przez nas zależność nie istnieje! Oznacza to tylko, że nie znaleźliśmy
na jej istnienie wystarczająco silnych dowodów (“z dużym prawdopodobieństwem” nie oznacza “na pewno”). Dlatego
też, interpretując wyniki testów statystycznych z wysokim p-value, należy się wystrzegać stwierdzeń typu “nie
wypływa”, “nie różni się”, “nie koreluje”. Lepiej pisać, że “nie potwierdzono wpływu” czy “nie znaleziono różnic”.

4. Prawdopodobieństwo

Odnosimy do czegoś, co wykazuje pewną losowość. Hipoteza zerowa nie wykazuje losowości.

5. Testy parametryczne

To rodzaj testów statystycznych służących do weryfikacji hipotez, które zakładają określone założenia dotyczące
rozkładu populacji. Testy te są, więc bardziej skoncentrowane na parametrach populacji, takich jak:
- średnia
- odchylenie standardowe
- statystyki opisowe
Aby móc z tego typu testów skorzystać, należy spełnić pewne założenia. Jeżeli tych założeń się nie spełni, to
stosujemy testy nieparametryczne, gdyż nie są aż tak restrykcyjne (w tym zakresie).
Założenia, które należy spełnić, aby móc skorzystać z testu parametrycznego:
- pomiar (zmiennej zależnej) na skali ilościowej - umożliwia to obliczenie średniej oraz wariancji
- rozkład normalny (zmiennej zależnej)
- jednorodność wariancji - założenie homogeniczności wariancji. Zakłada się, że porównywane grupy (zmienna
niezależna) mają podobne rozproszenie wyników na mierzonej skali. Brak różnic “szerokości” rozkładu
wartości w analizowanych grupach
- brak wartości odstających: pojawienie się takich wartości wiąże się z ryzykiem niespełnienia założenia o
rozkładzie normalnym, co grozić może błędnymi wnioskami
- równoliczność grup - porównywane grupy powinny być względnie równoliczne.
- założenie sferyczności - oznacza równość wariancji w poszczególnych pomiarach powtórzonych (nie
grupach), co jest założeniem specyficznym dla ANOVA z pomiarem powtórzonym.
- autokorelacja - to założenie związane ze skorelowaniem wyników poszczególnych obserwacji w
różnych momentach czasy.
- homoskedastyczność - odwołuje się do równości rozproszenia błędów reszt, które są obliczane w
analizach korzystających z mechaniki regresji liniowej.
- liniowość związku - założenie ściśle związane z korelację Pearsona i regresją liniową, w którym zakłada
się, że związek między dwiema zmiennymi ma charakter liniowy
- brak współliniowości - w bardziej złożonych modelach statystycznych, wymagane jest także aby
zmienne niezależne nie wykazywały współliniowości

6. Wariancja vs odchylenie standardowe

Wariancja Odchylenie standardowe (SD)

Jest to miara rozproszenia danych wokół średniej Jest to miara rozproszenia wyników średniej
arytmetycznej, ukazując jak bardzo wartości w zestawie
arytmetycznej. Może być obliczona tylko dla skal
danych różnią się od średniej arytmetycznej tych
ilościowych. danych. Może być obliczona tylko dla skal ilościowych.

(jest to odchylenie kwadratowe podniesione do Jest to wystandaryzowany współczynnik wariancji


kwadratu) (pierwiastek z wariancji)

Pozwala kontrolować zmienność międzygrupową, Im większe odchylenie standardowe tym większe jest
wewnątrzgrupową i zmienność indywidualną rozproszenie danych wokół średniej, co oznacza
(w modelu ANOVA) większą zmienność w zbiorze danych.

Wada: niewielka odporność na wartości odstające w SD lepiej “radzi” sobie z wartościami odstającymi.
badanej próbie

7. Cecha statystyczna
To właściwość populacji, która jest przedmiotem badania statystycznego. W trakcie trwania badania
statystycznego zbieramy dane, które mają taki sam charakter jak cecha (jakościowy, ilościowy).

→ Cechy zmienne: to właściwości różnicujące jednostki z badanej populacji, czyli posiadającej więcej niż 1
wariant. Liczba wariantów zmiennej cechy może być skończona lub nieskończona. Liczba wariantów = 2 =
cecha dychotomiczna (dwudzielna), a jeżeli liczba wariantów > 2, to jest to cecha politomiczna
(wielodzielna).

Cechy zmienne dzielimy na:

Ilościowe (= mierzalne) - np. wzrost, waga, wiek. Za pomocą tej skali zmierzymy zmienną ciągłą.
→ proporcjonalne (skala ilorazowa): zmienna posiada tzw. zero absolutne, czyli nie jest możliwe osiągnięcie
wartości poniżej zera. Np. wzrost, temperatura w stopniach Kelvina. Tutaj mnożenie lub dzielenie dwóch
wartości przez siebie ma sens. + i - też ma sens.

→ interwałowe (przedziałowa): zmienna nie posiada zera absolutnego, czyli może osiągnąć wartości
poniżej zera. Np. temperatura w stopniach Celcjusza. W tej skali + i - ma sens.

Jakościowe (= niemierzalne) - np. kolor oczu, płeć, grupa krwi


→ porządkowe (np. niski, średni, wysoki): nie są to liczby, tylko są to kategorie, które można bez problemu
uporządkować. Np. zmienność wielkości miasta: może mieć 4 wartości w zależności od liczby mieszkańców

→ nominalne (np. kolor oczu, płeć, grupa krwi): są to takie zmienne jakościowe, których nie jesteśmy w
stanie w żaden sposób uporządkować.

Test t-studenta
● Porównuje w układzie dwóch równoległych grup, z jakim prawdopodobieństwem średnie w tych grupach są
równe. [H0: m1=m2] m=wartość średniej populacji.
H0 - średnia w obu grupach jest taka sama
HA - grupy różnią się między sobą pod względem średniej danej zmiennej
● Pomiar niezależny zmiennej ciągłej w dwóch grupach
● Normalność rozkładu (weryfikowano testem Shapiro-Wilka)
● Jednorodności wariancji w obu grupach (weryfikowany testem Levene’a lub testem Browna-Forsythe’a)

Test Shapiro-Wilka
● służy do określenia czy rozkład w populacji jest normalny.
● H0 - rozkład obserwowanej zmiennej ma rozkład zbliżony do normalnego (gdy p>0,05)
● HA - rozkład obserwowanej zmiennej nie jest podobny do rozkładu normalnego (gdy p<0,05)

Rozkład inny od normalnego:


- rozkład log-normalny: częsty dla parametrów o niskim zakresie normy i dużej możliwości wzrostu
- rozkład maturalny - występuje tylko dla wyników polskiej matury

Określenie, że wariancja jest niejednorodna:


- wykorzystuje się testy: Levene’a i Brown-Forsythe’a
- H0 - wariancja jest jednorodna między grupami (brak różnic) - można użyć testu t-studenta (gdy p>0,05)
- HA - wariancja jest niejednorodna między grupami (różnice są) - nie można użyć testu t-studenta (gdy
p<0,05)

You might also like