Professional Documents
Culture Documents
Życiorys - Mięta
Życiorys - Mięta
1. Pytanie badawcze
= problem badawczy; To taki główny temat analizy i pytań, na które chcemy znaleźć odpowiedź.
2. Hipoteza
= przypuszczenie (domysł naukowy), który jest stworzony w celu wyjaśnienie oraz próby odpowiedzenia na
nasze pytanie badawcze. Hipotezę stawiamy po to, aby po przeprowadzonych badaniach móc ją potwierdzić
lub odrzucić, na podstawie otrzymanych wyników.
Kiedy odrzucamy hipotezę zerową? → jeżeli wynik testu parametrycznego jest na poziomie p<0,05, to jest
istotne i umożliwia odrzucenie hipotezy zerowej. Odrzucenie hipotezy zerowej na korzyść alternatywnej (czyli
p<0,05) to więc zwykle “odkrycie”
A co jeżeli nie uda się odrzucić hipotezy zerowej? → trzeba będzie, więc zaakceptować hipotezę zerową.
3. Wartość p (propability)
Lub, idąc za drugą z podanych interpretacji, niskie p-value oznacza niskie ryzyko, że nasze “odkrycie” jest jednak
nieprawdziwe.
Potocznie mówimy w takiej sytuacji, że “wynik jest istotny statystycznie” albo “zależność jest istotna statystycznie”.
Podsumowanie: “Przyjęcie” hipotezy zerowej (nieodrzucenie jej) nie jest jednoznaczne z tym, że udowodniliśmy jej
prawdziwość, a tylko iż brak jest dostatecznych podstaw do jej odrzucenia.
To, oczywiście, wcale nie oznacza, że badana przez nas zależność nie istnieje! Oznacza to tylko, że nie znaleźliśmy
na jej istnienie wystarczająco silnych dowodów (“z dużym prawdopodobieństwem” nie oznacza “na pewno”). Dlatego
też, interpretując wyniki testów statystycznych z wysokim p-value, należy się wystrzegać stwierdzeń typu “nie
wypływa”, “nie różni się”, “nie koreluje”. Lepiej pisać, że “nie potwierdzono wpływu” czy “nie znaleziono różnic”.
4. Prawdopodobieństwo
Odnosimy do czegoś, co wykazuje pewną losowość. Hipoteza zerowa nie wykazuje losowości.
5. Testy parametryczne
To rodzaj testów statystycznych służących do weryfikacji hipotez, które zakładają określone założenia dotyczące
rozkładu populacji. Testy te są, więc bardziej skoncentrowane na parametrach populacji, takich jak:
- średnia
- odchylenie standardowe
- statystyki opisowe
Aby móc z tego typu testów skorzystać, należy spełnić pewne założenia. Jeżeli tych założeń się nie spełni, to
stosujemy testy nieparametryczne, gdyż nie są aż tak restrykcyjne (w tym zakresie).
Założenia, które należy spełnić, aby móc skorzystać z testu parametrycznego:
- pomiar (zmiennej zależnej) na skali ilościowej - umożliwia to obliczenie średniej oraz wariancji
- rozkład normalny (zmiennej zależnej)
- jednorodność wariancji - założenie homogeniczności wariancji. Zakłada się, że porównywane grupy (zmienna
niezależna) mają podobne rozproszenie wyników na mierzonej skali. Brak różnic “szerokości” rozkładu
wartości w analizowanych grupach
- brak wartości odstających: pojawienie się takich wartości wiąże się z ryzykiem niespełnienia założenia o
rozkładzie normalnym, co grozić może błędnymi wnioskami
- równoliczność grup - porównywane grupy powinny być względnie równoliczne.
- założenie sferyczności - oznacza równość wariancji w poszczególnych pomiarach powtórzonych (nie
grupach), co jest założeniem specyficznym dla ANOVA z pomiarem powtórzonym.
- autokorelacja - to założenie związane ze skorelowaniem wyników poszczególnych obserwacji w
różnych momentach czasy.
- homoskedastyczność - odwołuje się do równości rozproszenia błędów reszt, które są obliczane w
analizach korzystających z mechaniki regresji liniowej.
- liniowość związku - założenie ściśle związane z korelację Pearsona i regresją liniową, w którym zakłada
się, że związek między dwiema zmiennymi ma charakter liniowy
- brak współliniowości - w bardziej złożonych modelach statystycznych, wymagane jest także aby
zmienne niezależne nie wykazywały współliniowości
Jest to miara rozproszenia danych wokół średniej Jest to miara rozproszenia wyników średniej
arytmetycznej, ukazując jak bardzo wartości w zestawie
arytmetycznej. Może być obliczona tylko dla skal
danych różnią się od średniej arytmetycznej tych
ilościowych. danych. Może być obliczona tylko dla skal ilościowych.
Pozwala kontrolować zmienność międzygrupową, Im większe odchylenie standardowe tym większe jest
wewnątrzgrupową i zmienność indywidualną rozproszenie danych wokół średniej, co oznacza
(w modelu ANOVA) większą zmienność w zbiorze danych.
Wada: niewielka odporność na wartości odstające w SD lepiej “radzi” sobie z wartościami odstającymi.
badanej próbie
7. Cecha statystyczna
To właściwość populacji, która jest przedmiotem badania statystycznego. W trakcie trwania badania
statystycznego zbieramy dane, które mają taki sam charakter jak cecha (jakościowy, ilościowy).
→ Cechy zmienne: to właściwości różnicujące jednostki z badanej populacji, czyli posiadającej więcej niż 1
wariant. Liczba wariantów zmiennej cechy może być skończona lub nieskończona. Liczba wariantów = 2 =
cecha dychotomiczna (dwudzielna), a jeżeli liczba wariantów > 2, to jest to cecha politomiczna
(wielodzielna).
Ilościowe (= mierzalne) - np. wzrost, waga, wiek. Za pomocą tej skali zmierzymy zmienną ciągłą.
→ proporcjonalne (skala ilorazowa): zmienna posiada tzw. zero absolutne, czyli nie jest możliwe osiągnięcie
wartości poniżej zera. Np. wzrost, temperatura w stopniach Kelvina. Tutaj mnożenie lub dzielenie dwóch
wartości przez siebie ma sens. + i - też ma sens.
→ interwałowe (przedziałowa): zmienna nie posiada zera absolutnego, czyli może osiągnąć wartości
poniżej zera. Np. temperatura w stopniach Celcjusza. W tej skali + i - ma sens.
→ nominalne (np. kolor oczu, płeć, grupa krwi): są to takie zmienne jakościowe, których nie jesteśmy w
stanie w żaden sposób uporządkować.
Test t-studenta
● Porównuje w układzie dwóch równoległych grup, z jakim prawdopodobieństwem średnie w tych grupach są
równe. [H0: m1=m2] m=wartość średniej populacji.
H0 - średnia w obu grupach jest taka sama
HA - grupy różnią się między sobą pod względem średniej danej zmiennej
● Pomiar niezależny zmiennej ciągłej w dwóch grupach
● Normalność rozkładu (weryfikowano testem Shapiro-Wilka)
● Jednorodności wariancji w obu grupach (weryfikowany testem Levene’a lub testem Browna-Forsythe’a)
Test Shapiro-Wilka
● służy do określenia czy rozkład w populacji jest normalny.
● H0 - rozkład obserwowanej zmiennej ma rozkład zbliżony do normalnego (gdy p>0,05)
● HA - rozkład obserwowanej zmiennej nie jest podobny do rozkładu normalnego (gdy p<0,05)