You are on page 1of 9

POJĘCIA STATYSTYCZNE

(źródła: (1) https://pogotowiestatystyczne.pl/slownik/


(2) https://www.youtube.com/watch?v=SIMaj04ozBQ
(3) “Liczby nie wiedzą, skąd pochodzą. Przewodnik po metodologii i statystyce nie
tylko dla psychologów” Francuz, P., Mackiewicz, R. 2007
+ pojęcia są też w prezentacji z 3 wykładu dr Sołtys)

Wariancja – miara rozproszenia wyników wokół średniej. Przybiera wartość od 0


(brak zróżnicowania, wszystkie wyniki badanych są takie same) do +
nieskończoności (wraz ze wzrostem wartości wariancji, zróżnicowanie wyników
rośnie).
Wartość wariancji jest podstawą do uzyskania wartości odchylenia standardowego.
Na podstawie wariancji i średniej szacowane są wyniki na poziomie populacji.

Wariancja heterogeniczna – nierówne (niejednorodne); oznacza, że wariancje


populacji porównywanych grup/komórek nie są jednorodne ani równe
Wariancja homogeniczna – równe (jednorodne)

Kowariancja – miara zależności liniowej pomiędzy dwiema zmiennymi.

Odchylenie standardowe – podstawowa miara zmienności rozkładu, która określa


w jakim stopniu wartości ze zbioru rozproszone są wokół wartości średniej. (Jest
pierwiastkiem kwadratowym z wariancji).
(1) obliczenie średniej arytmetycznej
(2) od każdej wartości w zbiorze danych odejmujemy wartość średnią
(3) otrzymujemy inf. o stopniu różnicy między nimi (czyli o ile jednostek dany wynik
różni się od średniej)
(4) podniesienie każdej z różnic do kwadratu (aby wszystkie wartości były dodatnie)
(5) obliczenie sumy wszystkich tych wartości (WARIANCJA)
(6) wyciągnięcie z uzyskanego wyniku pierwiastka (ODCHYLENIE
STANDARDOWE)

Wskaźniki dyspersji (miary zmienności) – liczbowe wskaźniki różnorodności;


miary liczbowe, określające, w jakim zakresie wyniki otrzymane w eksperymencie
różnią się od siebie; (jedne z najważniejszych: wariancja i odchylenie
standardowe (będące pierwiastkiem kwadratowym z wariancji)).

Analiza częstości – analiza rozkładu odpowiedzi badanych w próbie;


przedstawienie informacji o ogólnych liczebnościach oraz udziale procentowym.
Dostępna dla pomiarów na skalach nominalnych i porządkowych.
Analiza wariancji – (W schemacie jednoczynnikowym) sprawdza czy jedna
zmienna niezależna wpływa na wyniki jednej zmiennej zależnej. Polega na
porównaniu wariancji międzygrupowej do wariancji wewnątrzgrupowej. Zależeć nam
powinno, aby wariancja międzygrupowa była duża (duże różnice między badanymi
ludźmi z różnych grup badawczych) a wariancja wewnątrzgrupowa jak najmniejsza
(możliwie małe różnice w zakresie badanej zmiennej zależnej “wewnątrz” jednej
grupy)

Analiza kowariancji – analiza statystyczna, która pozwala na stwierdzenie różnic


międzygrupowych, przy jednoczesnej kontroli innej, trzeciej zmiennej. (Analogiczna
do analizy wariancji, ale można dodatkowo wprowadzić zmienną współwystępującą).
W analizie kowariancji sprawdzamy na ile faktycznie występujący związek między
zmiennymi różni się od idealnej zależności liniowej między nimi
PRZYKŁAD: chcemy przetestować różnice między osobami o różnym stanie cywilnym, w zakresie
zadowolenia ze związku. Wiemy, że na satysfakcję ze związku wpływa jego długość. Aby
wyeliminować jej wpływ na wyniki analizy, wprowadzamy ją do analizy jako współzmienną.

Analiza korelacji – polega na zbadaniu czy dwie zmienne są ze sobą istotnie


statystycznie powiązane (sprawdza się, czy jakiekolwiek dwie
cechy/atrybuty/własności współwystępują ze sobą). Obliczany współczynnik zawsze
waha się od -1 do 1.
NIE bada ona związku przyczynowo-skutkowego, a po prostu współwystępowanie
dwóch zmiennych. Badamy czy dwie zmienne są skorelowane ze sobą, ale nie
wiemy, które wpływa na którą. Wiemy tylko, że wartość jednej zmiennej
maleje/rośnie w przypadku wzrostu/spadku drugiej zmiennej.
Przeprowadzając analizę korelacji, interpretujemy:
(1) czy związek występuje (czy jest istotny statystycznie)
(2) jaki jest znak współczynnika korelacji (ujemny/dodatni, korelacja
negatywna/pozytywna)
korelacja dodatnia – gdy wzrasta wartość jednej cechy, wzrasta też wartość drugiej
korelacja ujemna – gdy wzrasta wartość jednej cechy, spada wartość drugiej cechy
(3) jak silny jest to związek (0-0,3 – słaby związek; 0,3-0,5 – umiarkowanie silny;
0,5-1 związek silny/bardzo silny)
Wyniki prezentowane na wykresie rozrzutu; najczęściej stosowane współczynniki
korelacji to r Pearsona, rho Spearmana i tau b Kendalla.
PRZYKŁAD: Wyobraźmy sobie, że chcemy
sprawdzić czy istnieje związek pomiędzy latami nauki szkolnej a poziomem samooceny wyrażonym
na skali od 0 do 100. Wyliczony współczynnik korelacji r Pearsona (wynik korelacji) wynosi r = 0,79; p
< 0,001. Oznacza to, że zachodzi istotna statystycznie korelacja pomiędzy dwiema zmiennymi. Jest
to związek silny (ponieważ jest z przedziału 0,5-1) oraz dodatni (ponieważ przed współczynnikiem nie
ma minusa). Dodatni znak korelacji mówi o tym, że wraz ze wzrostem lat nauki szkolnej wzrasta
poziom samooceny. Na etapie nauki statystyki warto jest również napisać w przykładowym raporcie,
że wraz ze wzrostem samooceny rośnie również liczba lat nauki szkolnej. Pokażecie tym samym, że
jesteście świadomi braku informacji o związku przyczynowo-skutkowym. Nie wiemy czy to lata nauki
szkolnej wpływają na samoocenę czy może samoocena wpływa na to, że więcej lat się edukujemy.

Współczynnik korelacji Pearsona – służy do sprawdzenia, czy dwie zmienne


ilościowe są powiązane ze sobą związkiem liniowym.
Współczynnik od -1 do 1;
wartości skrajne (-1 i 1) = idealna, totalna korelacja między zmienną A i zmienną B;
wynik 0 = brak korelacji
0-0,3 – słaba korelacja;
0,3-0,5 – korelacja umiarkowana;
0,5-0,7 – korelacja silna;
0,7-1 – korelacja bardzo silna

Korelacja Spearmana – analiza, pozwalająca korelować między sobą zmienne na


skali porządkowej oraz ilościowym nieposiadające rozkładu normalnego.
Rodzaj korelacji (korelacja nieparametryczna), opartej na rangach.
(Interpretacja tak samo jak opisane w korelacji).

Analiza regresji liniowej – analiza, która pozwala przetestować związek między


zmiennymi ilościowymi. Można traktować ją jako rozszerzenie analizy korelacji, w
analizie regresji możemy wprowadzać wiele zmiennych (w korelacji związek między
parą zmiennych).

Skala ilościowa – pomiar na tej skali pozwala na dokładne określenie danej


wartości na skali oraz na określenie różnic w jednostkach pomiarowych, pomiędzy
danym pomiarem a innym.
(dzieli się na: ilorazowa i interwałowa)
Przykłady zmiennych na tej skali: wiek, czas rozwiązania zadania

Test t Studenta – metoda statystyczna, służąca do porównania dwóch średnich


między sobą jeśli znamy liczbę osób badanych, średnią arytmetyczną oraz wartość
odchylenia standardowego lub wariancji.

Centracja – proces przekształcania wartości zmiennej na odchylenia od


określonego punktu. Tym punktem może być jakakolwiek wybrana wartość (zwykle
używa się wartości średniej). Aby wycentrować wartości zmiennej należy od
każdego wyniku odjąć średnią.

Statystyka Chi2 – opiera się na porównywaniu zbiorów liczności zaobserwowanych


i teoretycznych.
Przy analizie liczebności przeprowadzonej z zastosowaniem Chi2 dokonuje się
rozróżnienia między testami zgodności i testami niezależności.

Test niezależności chi-kwadrat – test służący do oceny zależności pomiędzy


rozkładem częstości odpowiedzi w zakresie jednej zmiennej, w odniesieniu do
drugiej zmiennej.
PRZYKŁAD: chcemy sprawdzić, czy rodzaj preferowanej muzyki zależy od płci – test niezależności
chi-kwadrat pozwala ocenić czy zaobserwowany rozkład (gatunek preferowanej muzyki) zależy od
drugiej zmiennej (płci). Mimo, że proporcje poszczególnych odp. dla obu płci są różne, to różnice te
mogą być przypadkowe (akurat takie osoby mogliśmy wylosować z populacji). Należy zatem
sprawdzić, czy rozbieżności te są na tyle duże, aby uznać je za rzeczywisty wpływ zmiennej
niezależnej. Porównanie zaobserwowanych wartości z wartościami oczekiwanymi. Mamy 4 gatunki
muzyki i punktem wyjścia jest założenie, że każdego z nich będzie słuchać 25% kobiet i mężczyzn.
Poprzez porównanie wielkości odchyleń wartości uzyskanych, od wartości oczekiwanych, możemy
wyciągnąć wniosek czy występowaniu zależności lub niezależności rozkładów odpowiedzi. Istotność
statystyczna testu chi kwadrat wyliczana jest na podstawie różnic między odchyleniami oraz na
podstawie rozmiaru testowanej tabeli krzyżowej (stopni swobody).
Dominanta (modalna, moda) – wartość, która pojawia się najczęściej w danym
zbiorze.
Określa się ją często w sytuacjach, gdy niemożliwe jest wyliczenie średniej
arytmetycznej lub mediany (np. w sytuacjach, gdy wartości zmiennej obserwowanej
nie są liczbowe, lecz opisowe).
PRZYKŁAD: musimy wytypować dominantę zbioru różnych bombek choinkowych. Przed sobą mamy
21 czerwonych, 37 niebieskich, 5 zielonych i 16 białych ozdób. W tym przypadku dominantę stanowią
niebieskie bombki. Ze względu na opisowy charakter wartości zmiennej obserwowanej, nie jesteśmy
w stanie obliczyć średniej arytmetycznej lub mediany. Możemy jednak zaobserwować najczęściej
pojawiającą się wartość, czyli właśnie dominanty.

Skośność – miara symetrii/asymetrii rozkładu.


Wartość skośności = 0 – rozkład idealnie symetryczny
Wartości skośności ujemne – rozkład lewoskośny (wydłużone lewe ramię rozkładu)
Wartości skośności dodatnie – rozkład prawoskośny (wydłużone prawe ramię)
W praktyce, wartość skośności obrazuje, na ile wartość średniej arytmetycznej
trafnie odzwierciedla rzeczywistą tendencję centralną rozkładu.

Kwartyle – wartości, które dzielą zebrane obserwacje na cztery równe, co do ilości


elementów, grupy.
W analizie statystycznej przydatne są do określania położenia danego wyniku na tle
wyników grupy odniesienia lub populacji.
PRZYKŁAD: jeśli wiemy, że ktoś uzyskał wynik mniejszy niż pierwszy kwartyl, to wiemy że ponad
75% ludzi uzyskało wynik wyższy od tego kogoś.

Decyle – dzielą wszystkie dane na 10 grup.

Centyle (percentyle) – podział na 100 części.

Kwantyle – ogólna nazwa dla mediany, kwartyli, decyli i centyli (mają ze sobą coś
wspólnego: wszystkie dzielą dane na pewną liczbę równolicznych grup)
(rysunek niezwiązany z przykładem)

Kurtoza – często określana jako miara “spłaszczenia” lub “wysmukłości” rozkładu


(niby wg jakiegoś typa to błędne określenie (“ponieważ jej wartość nie jest zależna
od tego co dzieje się “na czubku” (tzn. blisko tendencji centralnej) rozkładu, a na
jego “ogonie””), ale żeby se to wyobrazić to chyba łatwiej z tym XD). Miara
występowania wartości odstających. Najpopularniejsza miara koncentracji. Im
wyższa wartość kurtozy, tym bardziej „wysmukły” jest rozkład, tzn. tym większa
koncentracja wartości zmiennej wokół średniej.
K > 0 – rozkład bardziej “wysmukły”
K < 0 – rozkład bardziej “spłaszczony”
Leptokurtyczny – większa od 0 (wartości dodanie) (im wyższa wartość, tym więcej
wartości bliskich skrajnych/skrajnych)
Mezokurtyczny – równa 0 (kształt zbliżony do normalnego)
Platykurtyczny – mniejsza od 0 (brak wartości odstających)
Test Shapiro-Wilka – test, służący do oceny, czy zebrane przez nas wyniki od
badanych osób posiadają rozkład normalny.
Hipoteza zerowa dla tego testu zakłada, że nasza próba badawcza pochodzi z
populacji o normalnym rozkładzie. Jeśli test S-W osiąga istotność statystyczną (p <
0,05), świadczy to o rozkładzie odbiegającym od krzywej Gaussa.

Test Kołmogorowa-Smirnowa – test do oceny zgodności rozkładu analizowanych


zmiennych z rozkładem normalnym.
Testuje on hipotezę zerową wskazującą na rozkład zbliżony do rozkładu
normalnego. Wartości p > 0,05 (przy progu alfa = 0,05) potwierdzają spełnienie
założenia o rozkładzie normalnym. W związku z tym, wynik istotny statystycznie dla
tego testu wskazuje na brak zgodności z rozkładem normalnym.
Czyli w zasadzie te dwa testy są do siebie podobne? Tylko, że test Shapiro-Wilka
wykorzystywany jest dla mniejszy prób, a Kołmogorowa-Smirnowa do większych.

Rozstęp (rozpiętość; R) – najprostsza miara rozrzutu; różnica między największą a


najmniejszą wartością obranej cechy statystycznej w konkretnym zbiorze. (Wielkość
charakteryzująca zmienność w zbiorze; określa on, jaki jest zakres wyników (od
najmniejszego do największego) w badanej grupie.
(Aby obliczyć rozstęp musimy odjąć od wyniku większego wynik mniejszy)
PRZYKŁAD: (1) badany z najmniejszą liczbą książek miał ich 12, badany z największą 1200.
Rozstęp = 1200 - 12 = 1188 (rozstęp = max - min)
(2) Jeżeli zbiór danych składałby się tylko z czterech wyników: 6, 7, 7 i 8, to bez większego trudu
moglibyśmy stwierdzić, że dane te różnią się w zakresie tylko trzech wartości, tj. 6, 7 i 8, co
oznaczałoby tym samym, że rozpiętość zbioru równa się 3.
Dla małego zbioru sprawa jest oczywista, a gdybyśmy to chcieli policzyć, należałoby od wartości
największej (maksymalnej) odjąć wartość najmniejszą (minimalną) i do otrzymanej różnicy dodać 1,
czyli: 8 – 6 + 1 = 3.
(Raz jest, że bez 1 a raz, że dodaje się 1 i nie wiem, w książce coś było, że są jakieś nieścisłości
terminologiczne i tam było, że dodaje się 1 do tego, ale była też wersja bez tej +1?? Dude dunno, w
książce jest o tym na s. 166, ale na pogotowiustatystycznym było bez tej +1, to idk już które
poprawne/czy oba poprawne)
Histogram – jeden z podstawowych sposobów graficznego przedstawienia rozkładu
wyników ilościowych. Obrazuje częstość występowania (pionowa, oś Y) określonej
wartości wyniku (pozioma, oś X).
Analiza histogramu pozwala na szybką ocenę rozkładu, m.in. jego symetrii,
zgodności z rozkładem normalnym czy występowania obserwacji odstających, a
także na dostrzeżenie niektórych błędów występujących w bazie danych.

Mediana – wartość środkowa/przeciętna, dzieli liczbę obserwacji na pół.

Miary tendencji centralnej – średnia, mediana, modalna; wszystkie one wskazują


wartość pod jakimś względem typową dla danego rozkładu.

You might also like