You are on page 1of 124

Statystyka

opisowa

WPiK UAM
Tomasz Ptaszyński, 2023
Program IBM SPSS Statistics 28

 Poprzez USOS (zakładka: Dla Wszystkich) należy


wypełnić ankietę i z serwera pobrać nową wersję
pakietu SPSS.
 Po zainstalowaniu programu należy wpisać
właściwy kod licencyjny (dostępny również w
miejscu pobierania programu).
Program IBM SPSS Statistics 28
Literatura do zajęć
(szczegółowy zakres podany jest w sylabusie
dostępnym m.in. w kursie e-learningowym).

 Brzeziński, J., Zakrzewska, M. (2010). Metodologia. Podstawy


metodologiczne i statystyczne prowadzenia badań naukowych w
psychologii. W: J. Strelau, D. Doliński (red.), Psychologia
akademicka. Podręcznik (wyd. 2, t. 1, s.175-302). Gdańsk: Gdańskie
Wydawnictwo Psychologiczne.
 Brzeziński, J. (2019). Metodologia badań psychologicznych. Wydanie
nowe. Warszawa: Wydawnictwo Naukowe PWN.
 Brzeziński, J. (2008). Badania eksperymentalne w psychologii i
pedagogice (wyd. 2). Warszawa: Wydawnictwo Naukowe Scholar .
 Ferguson, G. A., Takane, Y. (2002). Analiza statystyczna w
psychologii i pedagogice. Warszawa: Wydawnictwo Naukowe PWN.
 King, B. M., Minium, E. W. (2009). Statystyka dla psychologów i
pedagogów. Warszawa: Wydawnictwo Naukowe PWN
E-learning UAM
E-learning UAM

hasło dostępu do kursu: metod2023


Metodologia ze statystyką – zasady obowiązujące na zajęciach z
przedmiotu i zaliczeniu (psychologia - tryb stacjonarny 1 i 2 semestr oraz
kognitywistyka 1 semestr).
1. W jednym semestrze zajęcia dydaktyczne realizowane są w czterech formach:

- wykładach (30 godzin)*


- konwersatoriach wykładowych (4 spotkania - 14 godzin)
- laboratoriach w sali komputerowej ( 4 spotkania – 16 godzin)
- e-learningu wspomagającego pracę własną studentów
- pracy własnej i ćwiczeń w e-learningu (15 godzin - kognitywistyka).
2. Zajęcia wykładowe (wykład i konwersatoria) prowadzone są dla całego roku według
planu zajęć, na zajęcia laboratoryjne każdy student zapisuje się indywidualnie (za
pośrednictwem platformy e-learningowej) wybierając jeden z podanych terminów. W
zajęciach na drugim (zimowym) semestrze przedmiotu mogą uczestniczyć osoby, które
zaliczyły ćwiczenia i zdały egzamin po pierwszym semestrze.

3. Obecność na laboratoriach prowadzonych w sali komputerowej jest obowiązkowa.


Usprawiedliwione nieobecności należy odrobić najpóźniej w ciągu 14 dni. W
uzasadnionych przypadkach termin ten może zostać wydłużony.

4. Usprawiedliwione nieobecności można odrabiać w terminach przeznaczonych do tego


celu lub z inną grupą (o ile będzie wolne stanowisko komputerowe). Nie ma możliwości
odrobienia nieobecności po zakończeniu zajęć laboratoryjnych.
Metodologia ze statystyką – zasady obowiązujące na zajęciach z
przedmiotu i zaliczeniu (psychologia - tryb stacjonarny 1 i 2 semestr oraz
kognitywistyka 1 semestr).
5. Studenci uczestniczący w laboratoriach winni być przygotowani do zajęć - należy powtórzyć materiał
przekazany w trakcie konwersatoriów wykładowych oraz przynieść wydrukowane materiały niezbędne do
realizacji ćwiczeń (informacje na ten temat publikowane są na platformie e-learningowej oraz przesyłane do
studentów za pomocą poczty UAM). Osoby nieprzygotowane mogą nie zostać dopuszczone do zajęć.

6. Osoby uczestniczące w zajęciach laboratoryjnych powinny korzystać z szatni i nie przynosić na zajęcia okryć
zewnętrznych oraz bagażu. Studenci nie powinni używać komputerów do celów nie związanych z zajęciami.

7. Na laboratoria należy przychodzić punktualnie, prowadzący może nie dopuścić do zajęć osoby spóźnionej.
Studenci, którzy nie przyjdą punktualnie na zajęcia muszą się liczyć z tym, że ich stanowisko komputerowe
zostanie zajęte przez osobę odrabiającą ćwiczenia.

8. W trakcie semestru studenci zdają:


test zaliczeniowy na trzecich zajęciach
- test zaliczeniowy na czwartych zajęciach
- zaliczenie praktyczne na czwartych zajęciach:
- w pierwszym semestrze prezentacja pracy empirycznej wykonanej w grupie
- w drugim semestrze jest to sprawdzian ze znajomości pakietu statystycznego
- zaliczenie praktyczne na czwartych zajęciach (sprawdzian ze znajomości pakietu
statystycznego
Ponadto każdy student musi terminowo wykonać obowiązkowe zadania na platformie e-
learningowej oraz napisać pracę zaliczeniową (kognitywistyka)
Metodologia ze statystyką – zasady obowiązujące na zajęciach z
przedmiotu i zaliczeniu (psychologia - tryb stacjonarny 1 i 2 semestr oraz
kognitywistyka 1 semestr).
Każdy z tych sprawdzianów lub zaliczeń musi być zaliczony na co
najmniej 60 %. Osoby, którym nie uda się zaliczyć sprawdzianu w
pierwszym terminie mają prawo do jednej poprawki. Ocena
semestralna obliczana jest na podstawie średniej ze wszystkich
podejść. Do każdego z testów może podejść osoba, która ma komplet
obecności na laboratoriach.

9. Osoby, które nie uzyskały zaliczenia, lub nie zdały egzaminu


zobowiązane są do powtórzenia wszystkich zajęć i zaliczenia
wszystkich sprawdzianów w semestrze. Oceny z poprzednich lat nie
będą przepisywane.

10. Egzamin z przedmiotu (po każdym semestrze) będzie zawierał


treści przekazane w trakcie wykładów, konwersatoriów i
laboratoriów. Egzamin odbywa się na sali komputerowej przy pomocy
platformy e-learningowej. Do egzaminu mogą podejść jedynie osoby,
które uzyskały zaliczenie z przedmiotu. Prowadzący mogą na wniosek
studentów wyznaczyć wcześniejszy 1 termin egzaminu z obniżonymi
progami punktów dla poszczególnych ocen.
Zmienne

Zmienna (variable) –

właściwość przyjmująca
różne – co najmniej
dwie – wartości.
Podział zmiennych
 Ze względu na wielkość zbioru, z którego przyjmuje
wartości:

 Dwuwartościowe
(dychotomiczne)
 Trójwartościowe
(trychotomiczne)
 Wielowartościowe
(politomiczne)
Podział zmiennych

 Niekiedy zmienna wielowartościowa zostaje


przez badacza zamieniona w zmienną
dwuwartościową – np. wielowartościowa
zmienna wzrost zostaje przekształcona w
zmienną wzrost przyjmującą dwie wartości:
NISKI i WYSOKI.
 Taką zmienną określamy mianem

ZDYCHOTOMIZOWANEJ
Podział zmiennych

 Wyróżniamy również ZMIENNE CIĄGŁE i


ZMIENNE DYSKRETNE.
 Dla zmiennych ciągłych w określonym
przedziale dozwolona jest każda możliwa
wartość (nie mają one najmniejszej
jednostki).
 W zmiennych dyskretnych dozwolone są
tylko ściśle określone wartości. (np. liczba
posiadanych dzieci: 1, 2 , 3….)
Podział zmiennych

 Zmienna ZALEŻNA – zmienna


będąca przedmiotem naszych
badań, której związki z innymi
zmiennymi pragniemy wyjaśnić i
opisać.
 Zmienne, od których zmienna
zależna zależy, które na nią
oddziaływają noszą nazwę
zmiennych NIEZALEŻNYCH
Podział zmiennych

 Zmienna kontrolna – zmienna, która jest


wykorzystywana przez badacza do sprawdzenia,
czy obserwowany pomiędzy zmiennymi związek
empiryczny nie jest związkiem pozornym .
 Istnieje związek pomiędzy kierunkiem studiów a
wielkością stopy. Studenci politechniki noszą
buty o większych rozmiarach niż studenci
psychologii. Jest to związek pozorny, gdyż
rzeczywistą przyczyną różnicy jest płeć
(zmienna kontrolna).
Podział zmiennych
Podział zmiennych
 Zmienne manipulacyjne i
klasyfikacyjne.
 Zmienne klasyfikacyjne nie
podlegają manipulacji badacza –
przyjmują one określone wartości
dla poszczególnych osób są
niezależne od badacza.
 Zmienne manipulacyjne przyjmują
różne wartości w zależności od
decyzji badacza.
Podział zmiennych
 Zmienne jakościowe i ilościowe
 Zmienne jakościowe – nie
przyjmują wartości liczbowych:
płeć, zawód, typ temperamentu.
 Zmienne ilościowe pozwalają na
przedstawienie ich wartości w
postaci liczb: wiek, wzrost, również
wyniki standaryzowanych testów
psychologicznych.
Podział zmiennych

 Zbiór wartości zmiennej może być zakwalifikowany do jednej ze skal


pomiarowych zdefiniowanych przez Stanleya S. Stevensa (1906-
1973):

Skala nominalna
Skala porządkowa
Skala interwałowa
Skala ilorazowa
Skala Nominalna

Każdą zmienną
dwuwartościową traktujemy
jako wyrażoną na skali
NOMINALNEJ !
Skala Nominalna
Skala Porządkowa
Skala Porządkowa
Skala Interwałowa
Skala Interwałowa
Skale Interwałowe i ilorazowe
Skale Interwałowe i ilorazowe

Skala Skala
Celsjusza Kelvina
Skale Interwałowe i ilorazowe
Skalami ilorazowymi nie są również
skale logarytmiczne np. pH
 Wskaźnik pH to ujemny wykładnik stężenia jonów wodorowych
[H+]

 Np:
pH=2 stężenie [H+] = 0,01 mol/dm3
pH=3 stężenie [H+] = 0,001 mol/dm3
pH=4 stężenie [H+] = 0,0001 mol/dm3

Wskaźnik pH rośnie o 1 → stężenie [H+] maleje dziesięciokrotnie.


Skale Interwałowe i ilorazowe
Innym przykładem skali logarytmicznej
jest decybel (dB)
 Decybele są jednostka, w której możemy
wyrazić m.in. poziom natężenia dźwięku.
Ze względu na właściwości słuchu u ludzi
(zob. prawo Webera Fechnera: Jeśli
porównywane są wielkości bodźców, na
naszą percepcję oddziałuje nie
arytmetyczna różnica pomiędzy nimi, lecz
stosunek porównywanych wielkości.)
logarytmiczna miara natężenia dźwięku jest
odbierana jako w przybliżeniu liniowa.
Skale Interwałowe i ilorazowe
Innym przykładem skali logarytmicznej
jest decybel (dB).
 Wielkość ta wyznaczana jest ze wzoru:
Skale Interwałowe i ilorazowe
Innym przykładem skali logarytmicznej
jest decybel (dB).
Skale Interwałowe i ilorazowe

 Pakiet statystyczny nie


rozróżnia tych dwóch skal i
w ich miejsce wprowadza
pojęcie „skali ilościowej”.
Opis zmiennej

 Do podstawowego opisu statystycznego


zmiennych stosujemy:

- Miary tendencji centralnej


- Miary rozproszenia
(dyspersji)
Miary tendencji centralnej

 DOMINANTA
= WARTOŚĆ MODALNA
 = MODA (Mo)
 Określa wartość NAJCZĘSTSZĄ w danym
zbiorze
 Może być stosowana dla skal nominalnych,
porządkowych i ilościowych.
Miary tendencji centralnej
Miary tendencji centralnej
(wydruk z pakietu
statystycznego)
Statystyki
poziom stresu
N Ważne 13
Braki 0
danych
Dominanta 3,0

poziom stresu
Procent Procent
Częstość Procent ważnych skumulowany
Ważne 1,0 2 15,4 15,4 15,4
2,0 1 7,7 7,7 23,1
3,0 3 23,1 23,1 46,2
4,0 2 15,4 15,4 61,5
5,0 2 15,4 15,4 76,9
6,0 1 7,7 7,7 84,6
7,0 2 15,4 15,4 100,0
Ogółem 13 100,0 100,0
Miary tendencji centralnej

 MEDIANA (Me)

 Jest to Wartość środkowa w


uporządkowanym wg wielkości
zbiorze.

 Może być stosowana dla skal


porządkowych i ilościowych.
Miary tendencji centralnej
 MEDIANA (Me)

 W przypadku gdy liczba elementów w próbie


jest nieparzysta mediana jest wartością
zmiennej elementu środkowego. Gdy liczba
elementów w próbie jest parzysta, medianę
wyznaczamy obliczając średnią z wartości
zmiennej dwóch środkowych elementów.
Wyznaczanie mediany w zbiorze z parzysta liczbą pomiarów.

Poniżej w tabeli zaprezentowano 12


uporządkowanych pomiarów pewnej zmiennej.
Mediana będzie równa średniej z dwóch
środkowych pomiarów (nr 6 i 7): (5+6)/2 = 5,5

Me= 5,5

Wartość: 1 1 3 4 4 5 6 7 7 8 8 9
nr
pomiaru: 1 2 3 4 5 6 7 8 9 10 11 12
Miary tendencji centralnej
Miary tendencji centralnej (wydruk
z pakietu statystycznego)

Statystyki
poziom stresu
N Ważne 13
Braki 0
danych
Mediana 4,0

poziom stresu

Procent Procent
Częstość Procent ważnych skumulowany
Ważne 1,0 2 15,4 15,4 15,4
2,0 1 7,7 7,7 23,1
3,0 3 23,1 23,1 46,2
4,0 2 15,4 15,4 61,5
5,0 2 15,4 15,4 76,9
6,0 1 7,7 7,7 84,6
7,0 2 15,4 15,4 100,0
Ogółem 13 100,0 100,0
Miary tendencji centralnej

 ŚREDNIA ARYTMETYCZNA

– wartość przeciętna
X
 Ma zastosowanie TYLKO do skal ilościowych
(interwałowych i ilorazowych).
Średnia arytmetyczna

 i
X
X= i =1
N
Sumujemy wszystkie pomiary od i=1 do N-tego i
dzielimy przez liczbę pomiarów (N).
Średnia arytmetyczna
Miary tendencji centralnej (wydruk
z pakietu statystycznego)
Statystyki

poziom stresu
N Ważne 13

Braki danych 0

Średnia 3,923

poziom stresu

Procent
Częstość Procent Procent ważnych skumulowany
Ważne 1,0 2 15,4 15,4 15,4
2,0 1 7,7 7,7 23,1
3,0 3 23,1 23,1 46,2
4,0 2 15,4 15,4 61,5
5,0 2 15,4 15,4 76,9
6,0 1 7,7 7,7 84,6
7,0 2 15,4 15,4 100,0
Ogółem 13 100,0 100,0
Średnia ważona
 Niekiedy stosujemy średnią ważoną:
(we wzorze W – oznacza wagi dla
poszczególnych pomiarów)
N

w X i i
X= i =1
N

w
i =1
i
Średnia ważona

 Co oznacza:

w1 x1 + w2 x2 + ... + wn xn
X=
w1 + w2 + ... + wn
W ten sposób dane którym przypisano
większe wagi mają większy udział w
określeniu średniej ważonej niż dane,
którym przypisano mniejsze wagi.
Kwartyle i mediana
Kwartyle i mediana
Kwartyle, decyle, percentyle

 KWARTYLE dzielą uporządkowaną grupę na


cztery równe części.
 Niekiedy stosowane są również DECYLE
dokonujące podziału na 10 części, oraz
PERCENTYLE dzielące na 100 równych części
po 1 %.
 W pakiecie statystycznym 1 kwartyl oznaczony
jest jako 25 percentyl, a 3 kwartyl jako 75
percentyl.
Miary tendencji centralnej (wydruk
z pakietu statystycznego)

Statystyki
poziom stresu
N Ważne 13
Braki danych 0
Percentyle 25 2,500
50 4,000
75 5,500

poziom stresu

Procent Procent
Częstość Procent ważnych skumulowany
Ważne 1,0 2 15,4 15,4 15,4
2,0 1 7,7 7,7 23,1
3,0 3 23,1 23,1 46,2
4,0 2 15,4 15,4 61,5
5,0 2 15,4 15,4 76,9
6,0 1 7,7 7,7 84,6
7,0 2 15,4 15,4 100,0
Ogółem 13 100,0 100,0
Percentyle

Źródło: dane zostały


pozyskane w toku
realizacji projektów
OLAF i OLA
koordynowanych przez
Instytut "Pomnik-Centrum
Zdrowia Dziecka" w
latach 2007-2012.
Projekt OLAF
zrealizowano dzięki
wsparciu finansowemu
udzielonemu przez
Norweski Mechanizm
Finansowy i Ministerstwo
Nauki i Szkolnictwa
Wyższego.
Miary tendencji centralnej a
rozproszenie
 Badano poziom dochodów w dwóch grupach
zawodowych grupie A i grupie B otrzymano
następujące wyniki:
Miary tendencji centralnej
a rozproszenie
 Pomimo identycznych średnich
sytuacja płacowa w obu grupach
jest diametralnie różna.
 Demonstrują to wykresy
rozkładów średnich płac w obu
grupach:
Wykres dla grupy A
Wykres dla grupy B
Oba wykresy na jednej skali
Miary dyspersji

 Identyczne średnie nie pokazują nam


różnic w sytuacji materialnej
badanych osób. Dopiero MIARY
DYSPERSJI czyli rozproszenia
pozwalają na właściwą ocenę poziomu
dochodu w obu grupach zawodowych.
Miary dyspersji
 Najprostszą miarą dyspersji jest ROZSTĘP, czyli
różnica między maksymalną i minimalną wartością
w grupie.
 W naszym przykładzie minimalna wartość poziomu
stresu wynosi 1, a wartość maksymalna 7.
 Rozstęp jest równy 7-1=6
Odchylenie ćwiartkowe
 Inną miarą – opartą na kwartylach jest ODCHYLENIE
ĆWIARTKOWE (Q). Q1 – pierwszy kwartyl, Q3 - trzeci
kwartyl

Q3 − Q1 5,5 − 2,5
Q= = = 1,5
2 2
Otrzymana wartość pozwala stwierdzić, że połowa
pomiarów w próbie odchyla się od mediany o 1,5
kategorii.
Miary dyspersji

 Zaletą odchylenia ćwiartkowego


jest jego niewrażliwość na skrajne –
wysokie i niskie – wyniki. Należy jednak
pamiętać, że ta miara zmienności
wykorzystuje jedynie 50 % wyników.
Miary dyspersji

 Kolejną
miarą jest
ODCHYLENIE ŚREDNIE zwane
również PRZECIĘTNYM.
 Jest
to średnia arytmetyczna
bezwzględnych odchyleń
pomiarów od średniej
arytmetycznej w próbie.
Odchylenie średnie
Odchylenie średnie

AD =
 X i −X
=
21,08
= 1,62
N 13
Odchylenie średnie

 Wprowadzenie wartości bezwzględne


jest konieczne, gdyż w przeciwnym
razie licznik wyrażenia wynosiłby
zawsze zero.
 Jest to jedna z właściwości średniej
arytmetycznej – suma różnic
poszczególnych pomiarów i średniej
jest zawsze równa zero.
Odchylenie standardowe

 Zamiast
wprowadzać wartości
bezwzględne można podnieść
poszczególne różnice do kwadratu.
 Procedurataka pozwala obliczyć
najszerzej stosowaną miarę
zmienności – odchylenie standardowe,
którego wartość podniesiona do
kwadratu nazywamy wariancją.
Wariancja
Definicyjny wzór na wariancję w próbie ma postać:

Często jednak używamy wzoru zawierającego w


mianowniku n-1 (tak też liczą tę wartość pakiety
statystyczne).

Tak obliczoną wartość wariancji nazywamy


estymatorem nieobciążonym i na jej podstawie
szacujemy wartość odchylenia i wariancji dla populacji.
Odchylenie standardowe
Wzory na odchylenie standardowe, to po prostu
pierwiastki kwadratowe z wariancji:

Poniżej widoczny jest wzór pozwalający na


oszacowanie odchylenia w populacji:
Odchylenie standardowe
Odchylenie standardowe

 Odchylenie standardowe obliczamy według wzoru:

s=
(X i − X) 2

=
48,92
= 2,02
n −1 13 − 1
WARIANCJA

 Jak podano poprzednio kwadrat odchylenia


standardowego to WARIANCJA będąca
najszerzej stosowaną miarą zmienności zmiennej.

 Wariancja w próbie określana jest symbolem s2,


natomiast wariancja w populacji określana jest
symbolem s2.
Wariancja

 Wariancję obliczamy według wzoru:


Symbole

W próbie W populacji

Średnia
arytmetyczna
X m
Odchylenie
standardowe s s
Wariancja
s 2 s2
Reguła trzech sigm
Odchylenie standardowe jest nie tylko
najbardziej stabilną miarą rozproszenia
w próbie. W populacji, gdy rozkład
zmiennej jest zbliżony do rozkładu
normalnego, wartości odchylenia
standardowego wyznaczają od średniej
przedziały, w których znajduje się zwykle
taka sama liczba pomiarów. Regułę tę
nazywamy regułą trzech sigm (trzech
odchyleń standardowych).
Reguła trzech sigm
Skale opierające się na
odchyleniu standardowym
 Skala standaryzowana: przedstawia wyniki
pomiarów w postaci jednostek odchylenia
standardowego. Wyniki na skali przedstawione są w
taki sposób, że średnia wynosi 0, a jednostka (z)
odpowiada jednemu odchyleniu standardowemu.
Skale opierające się na
odchyleniu standardowym
 Skala stenowa (standard ten): skala
przekształcona w taki sposób, że
średnia ma wartość 5,5, a odchylenie
standardowe ma wartość 2 (Zakres =
od 1 do 10 stena).
 Narzędzie to służy m.in. do
normalizowania wyników testów
psychologicznych.
Skale opierające się na
odchyleniu standardowym

 Skala staninowa (standard nine):


zawiera 9 jednostek, z których każda
obejmuje wyniki z zakresu ½
odchylenia standardowego jednostek
„z”. Średnia w tej skali ma wartość
5,0.
Ocena zmienności

 Miarą
zróżnicowania rozkładu cechy jest
współczynnik zmienności określony
wzorem:

s 2,02
v= = = 0,52
x 3,92
Gdzie s to odchylenie standardowe w próbie, a x to średnia
w próbie.
Zmienność
 Dla danych porządkowych stosowany jest
pozycyjny współczynnik zmienności oparty na
medianie i odchyleniu ćwiartkowym:

Q 1,5
VQ = =
4
= 0,38
Me
Zmienność

 Wartość obu współczynników zmienności


poniżej 0,5 świadczy o niewielkim
zróżnicowaniu, wartości z przedziału 0,5 –
1 wskazują na umiarkowane
zróżnicowanie, a wartości powyżej 1
należy interpretować jako duże
zróżnicowanie.
 Warto pamiętać, iż współczynniki
zmienności podawane są często w postaci
procentów.
Skośność

Rozkład symetryczny
Skośność bliska 0
Skośność

Rozkład
prawoskośny –
skośność
dodatnia

„Ogon” rozkładu znajduje


się po prawej stronie.
Skośność
Rozkład lewoskośny
Skośność ujemna
Skośność

 Tradycyjnywzór na współczynnik
skośności opierał się na różnicy pomiędzy
średnią a medianą:

x − Me
Am = 3
s
Momenty średniej

 Współczesny (stosowany m.in. w pakietach


statystycznych) sposób obliczania skośności opiera
się na tzw. MOMENTACH ŚREDNIEJ:
 Pierwszy moment:
m1 =
 (X − X )
=0
N

 Drugi moment:

2
(X − X )
m2 =
N
Momenty średniej
 Trzeci moment:


3
(X − X )
m3 =
N
 Czwarty moment:


4
(X − X )
m4 =
N
Momenty średniej
Skośność
 Skośność w oparciu o momenty średniej
obliczamy według wzoru: m
g1 = 3

m2 m2
 Natomiast błąd standardowy skośności
(SES) szacujemy następująco:

6n(n − 1)
SES =
(n − 2)( n + 1)( n + 3)
Skośność
 Bezwzględna wartość skośności
dwukrotnie większa od swego błędu
standardowego jest wskaźnikiem
odejścia od symetrii rozkładu.

 Badanie skośności jest ważnym


elementem w prowadzonej analizie,
należy bowiem pamiętać, że
niesymetryczność rozkładu może być
np. wynikiem niewłaściwego doboru
próby.
Skośność
Skośność
m3 0,79
g1 = = = 0,11
m2 m2 3,76 3,76

6n(n − 1) 6 *13 *12


SES = = = 0,62
(n − 2)(n + 1)(n + 3) 11*14 *16
W naszym przykładzie bezwzględna wartość
skośności NIE JEST dwukrotnie większa od swego
błędu standardowego. Rozkład nie jest skośny.
Skośność
(wydruk z pakietu statystycznego)
Kurtoza
 Kurtoza to miara stopnia koncentracji
obserwacji wokół pozycji centralnej .
 Dla rozkładu normalnego wartość ta jest zbliżona
do zera. (rozkład mezokurtyczny).
 W sytuacji, gdy wyniki są bardziej skupione
wokół średniej mówimy o rozkładzie
leptokurtycznym (kurtoza>O), w przeciwnym
razie rozkład określamy mianem
platykurtycznego.
Kurtoza
 Kurtozę obliczamy również na podstawie
momentów średniej :
m4
g2 = 2 − 3
m2

 Błąd standardowy kurtozy (SEK):

n2 −1
SEK = 2 * SES
(n − 3)(n + 5)
Kurtoza
 Podobnie jak przy skośności
bezwzględna wartość kurtozy
dwukrotnie większa od swego błędu
standardowego jest wskaźnikiem
istnienia kurtyczności rozkładu.
 Oznacza to, że rozkład jest
kurtyczny wówczas, gdy
bezwzględna wartość kurtozy jest
większa od podwojonego błędu
standardowego.
Kurtoza
Kurtoza

m4 27,88
g2 = 2 − 3 = 2
− 3 = −1,03
m2 (3,76)
n2 −1 169 − 1
SEK = 2 * SES = 2 * 0,62 = 1,19
(n − 3)(n + 5) 10 *18

W naszym przykładzie bezwzględna kurtozy NIE


JEST dwukrotnie większa od swego błędu
standardowego. Rozkład jest mezokurtyczny.
Kurtoza

 Rozkład leptokurtyczny
 Kurtoza > O
Kurtoza < O

 Rozkład platykurtyczny – wyniki są


mniej skoncentrowane wokół
punktu centralnego – wartość
kurtozy jest ujemna.
Kurtoza

 Należy zwrócić uwagę, iż kurtoza nie jest


tożsama z wariancją – rozkłady o takim
samym odchyleniu standardowym mogą się
istotnie różnić kurtycznością. Rozkład
leptokurtyczny jest bardziej smukły od
normalnego, ale może mieć wyżej położone
„ogony” na krańcach swego rozkładu.
Znaczenie opisu statystycznego
Właściwie wykonany opis
statystyczny umożliwia
badaczowi odpowiedni dobór
narzędzi statystycznych.
Rodzaj używanych narzędzi,
testów i współczynników nie
zależy tylko od skali
pomiarowej zmiennej, ale
również od jej właściwości.
Znaczenie opisu statystycznego
Np. w zmiennych silnie skośnych
średnia nie jest najlepszym
wskaźnikiem tendencji centralnej -
w takich sytuacjach lepiej sprawdza
się mediana. Przykładem takiej
zmiennej jest wynagrodzenie. W
październiku 2020 roku średnia
płaca w Polsce wyniosła (brutto)
5.748 zł, natomiast mediana miała
wartość 4.703 zł.
Schemat opisu zmiennych
Zmienne Miara tendencji Miara rozproszenia Inne Grafika
centralnej

NOMINALNE Dominanta Liczba Wykres


kategorii kołowy
Wykres
słupkowy

PORZĄDKOWE Mediana Kwartyle Wykres


Dominanta Odchylenie słupkowy
ćwiartkowe

ILOŚCIOWE Średnia Odchylenie Kurtoza Histogram


(interwałowe i
ilorazowe)
Mediana standardowe Skośność
Dominanta Kwartyle
Odchylenie
ćwiartkowe
Grupowanie, prezentacja
graficzna danych
 Dokonano pomiaru wieku u 45 osób,
wyniki posortowano od
najmniejszego do największego.

 Wynik minimalny wyniósł 11 lat, a


maksymalny 58 lat.
Grupowanie, prezentacja graficzna
danych
Wiek Częstość Procent Procent Wiek Częstość Procent Procent
skum skum
ulowa ulowa
ny ny
11 1 2,2 2,2 34 1 2,2 46,7
12 1 2,2 4,4 35 3 6,7 53,3
14 1 2,2 6,7 36 5 11,1 64,4
15 2 4,4 11,1 37 2 4,4 68,9
16 1 2,2 13,3 38 2 4,4 73,3
17 2 4,4 17,8 41 2 4,4 77,8
19 1 2,2 20 42 2 4,4 82,2
20 1 2,2 22,2 45 2 4,4 86,7
21 3 6,7 28,9 46 1 2,2 88,9
24 1 2,2 31,1 48 2 4,4 93,3
25 3 6,7 37,8 50 1 2,2 95,6
28 2 4,4 42,2 52 1 2,2 97,8
29 1 2,2 44,4 58 1 2,2 100
Ogółem: 45 100
Grupowanie, prezentacja
graficzna danych
 1. Wyznaczamy rozstęp (R)

 R = Xmax – Xmin = 58-11 = 47

 2. Wyznaczamy liczbę przedziałów (k)


k = 1 + 3,322 log n
n = 45 (liczba badanych)
log = logarytm przy podstawie 10 (liczy ten logarytm m.in. kalkulator
w „akcesoriach” w Windows)

k = 1 + 3,322 log 45 = 1 + (3,322 x 1,653) = 1 + 5,491


= 6,491

 Zaokrąglamy wynik do najbliższej liczby całkowitej:


k=6
Grupowanie, prezentacja
graficzna danych
 3. Wyznaczamy szerokość przedziału (d)

d = R / k = 47/6 = 7,83

 Wynik zaokrąglamy w górę: d = 8

 4. Granice przedziałów umieszcza się


zwykle w połowie jednostki pomiarowej,
w naszym przypadku dolna granica
pierwszego przedziału wyniesie 10,5
(pomiar wieku został wykonany z
dokładnością do 1 roku)
Grupowanie, prezentacja graficzna
danych
 skumulowane
granice
przedziałów n % ncum %cum

10,5 18,5 8 17,78 8 17,78


18,5 26,5 9 20 17 37,78
26,5 34,5 4 8,89 21 46,67
34,5 42,5 16 35,56 37 82,22
42,5 50,5 6 13,33 43 95,56
50,5 58,5 2 4,44 45 100

suma 45 100
Histogram
Krzywa kumulatywna
(ilustruje liczebność skumulowaną)
Krzywa kumulatywna
120

100

80

60

40

20

0
11-18,5 18,5-26,5 26,5-34,5 34,5-42,5 42,5-50,5 50,5-58,5
Histogram i wielobok
liczebności
 Łącząc ze sobą środki górnych boków
histogramu otrzymujemy wielobok
liczebności. Pole powierzchni tej
figury jest równe polu powierzchni
kolumn histogramu.
Wykres słupkowy
(kolumnowy)
Wykres kołowy
Wykres słupkowy poziomy

brak informacji

zachodniopomorskie

wielkopolskie

warmińsko-mazurskie

świętokrzyskie

śląskie

pomorskie

podlaskie

podkarpackie

mazowieckie

małopolskie

łódzkie

lubuskie

dolnośląskie

0 50 100 150 200 250 300 350 400 450 500


Wykres kolumnowy grupowany
300

250

200

150

100

50

0
1 5 10 15 20 25 30 35 40 45 50 60 70 83
Wykres liniowy ze znacznikami
Wejścia w kolejnych dniach tygodnia

253
218

215 195
194
165

150

176 168
137
121 124 123

69

PONIEDZIAŁEK WTOREK ŚRODA CZWARTEK PIĄTEK SOBOTA NIEDZIELA

mężczyźni kobiety
Wykres skrzynkowy (pudełkowy)
Wykres rozrzutu
Opis przy pomocy programu SPSS – przykład.

You might also like