You are on page 1of 93

STATYSTYKA

MATERIAŁY POMOCNICZE
DLA STUDENTÓW
DO NAUKI STATYSTYKI
2
Maria Borowska

STATYSTYKA
MATERIAŁY POMOCNICZE
DLA STUDENTÓW
DO NAUKI STATYSTYKI

"Ale ty, Panie


wszystko pod miarą
i liczbą, i wagą
urządziłeś"

(Ks. Mądrości 11.21.)

Stalowa Wola 2016

3
Recenzenci naukowi

prof. zw. dr hab. Edward Nowak


Uniwersytet Ekonomiczny we Wrocławiu
Politechnika Rzeszowska

prof. zw. dr hab. Tadeusz Galanc


Politechnika Wrocławska
Wyższa Szkoła Zarządzania "EDUKACJA" we Wrocławiu

Redakcja techniczna
mgr Monika Paruch
mgr Lucjan Paruch

© Copyright by Maria Borowska

Wersja elektroniczna opracowania pod adresem: http://paruchl.webd.pl/mat/

ISBN 978-83-61307-31-0

Druk i oprawa:
Wydawnictwo Diecezjalne i Drukarnia w Sandomierzu
ul. Żeromskiego 4, 27-600 Sandomierz
tel. 15 64 40 400, fax. 15 832 77 87
www.wds.pl, zamówienia@wds.com.pl

4
Spis treści

Wstęp .................................................................................................................................. 7

1. Statystyka i podstawowe pojęcia statystyczne ............................................................ 9


1.1. Termin „statystyka” .................................................................................................. 9
1.2. Podział statystyki, jako dyscypliny naukowej .......................................................... 9
1.2.1. Przedmiot statystyki opisowej ............................................................................ 9
1.2.2. Przedmiot statystyki matematycznej ................................................................ 10
1.3. Podstawowe pojęcia statystyczne ........................................................................... 10
1.4. Etapy badania statystycznego ................................................................................. 14
1.5. Ustalanie liczby klas w szeregu przedziałowym..................................................... 14
1.6. Wykresy w statystyce.............................................................................................. 15

2. Podstawowe wiadomości ze statystyki opisowej ....................................................... 17


2.1. Opis struktury zjawisk ............................................................................................ 17
2.1.1. Miary średnie .................................................................................................... 17
2.1.2. Miary rozproszenia ........................................................................................... 21
2.1.3. Zestawienie miar średnich i miar rozproszenia ................................................ 24
2.1.4. Momenty, jako uogólnienie miar tendencji centralnej i miar dyspersji ........... 24
2.1.5. Miary asymetrii (skośności) ............................................................................. 25
2.1.6. Miary koncentracji (skupienia) ........................................................................ 27
2.2. Analiza dynamiki zjawisk ....................................................................................... 33
2.2.1. Metoda indeksowa ............................................................................................ 34
2.2.2. Metody wyodrębniania trendu.......................................................................... 36
2.3. Analiza współzależności zjawisk ............................................................................ 38
2.3.1. Metody badania zależności korelacyjnej .......................................................... 39
2.3.2. Miary korelacji ................................................................................................. 41
2.3.3. Niektóre sposoby ogólnej oceny współzależności ........................................... 42

3. Przypomnienie wiadomości z rachunku prawdopodobieństwa .............................. 49


3.1. Podstawowe pojęcia probabilistyczne .................................................................... 49
3.2. Definicja prawdopodobieństwa............................................................................... 49
3.3. Własności prawdopodobieństwa ............................................................................. 50
3.4. Prawdopodobieństwo warunkowe .......................................................................... 50
3.5. Niezależność zdarzeń .............................................................................................. 50
3.6. Prawdopodobieństwo całkowite ............................................................................. 51
3.7. Wzór Bayesa ........................................................................................................... 51
3.8. Schemat Bernoulliego ............................................................................................. 51

5
4. Podstawy statystyki matematycznej .......................................................................... 55
4.1. Zmienne losowe i ich rodzaje ................................................................................. 55
4.1.1. Pojęcie zmiennej losowej ................................................................................. 55
4.1.2. Typy zmiennej losowej .................................................................................... 55
4.1.3. Cecha statystyczna, a zmienna losowa ............................................................. 55
4.1.4. Podstawowe parametry rozkładu zmiennej losowej ........................................ 57
4.1.5. Analogie między zmiennymi losowymi skokowymi i ciągłymi ...................... 57
4.2. Rozkłady zmiennej losowej .................................................................................... 58
4.2.1. Rozkłady zmiennej losowej skokowej ............................................................. 58
4.2.2. Rozkłady zmiennej losowej ciągłej .................................................................. 60
4.2.3. Standaryzacja rozkładu normalnego N  ,   ................................................ 63
4.2.4. Reguła 3-ch  .................................................................................................. 64
4.3. Rozkłady statystyk z próby ..................................................................................... 66
4.3.1. Rozkład średniej arytmetycznej z próby .......................................................... 66
4.3.2. Rozkład wariancji z próby ................................................................................ 67
4.4. Teoria estymacji ...................................................................................................... 68
4.4.1. Estymacja, estymator........................................................................................ 68
4.4.2. Rodzaje estymacji............................................................................................. 69
4.4.3. Przedziały ufności ............................................................................................ 69
4.5. Weryfikacja hipotez ................................................................................................ 74
4.5.1. Etapy weryfikacji hipotez ................................................................................. 75
4.5.2. Hipotezy i ich rodzaje....................................................................................... 75
4.5.3. Pojęcie i podział testu statystycznego .............................................................. 76
4.5.4. Pojęcie obszaru krytycznego ............................................................................ 76
4.5.5. Możliwe decyzje i rodzaje błędów ................................................................... 78
4.5.6. Weryfikacja wybranych hipotez parametrycznych .......................................... 79
4.5.7. Informacja o weryfikacji hipotez nieparametrycznych .................................... 81
4.6. Porównanie wybranych zagadnień estymacji z testowaniem
niektórych hipotez statystycznych ......................................................................... 82

Skorowidz ......................................................................................................................... 87

Bibliografia ....................................................................................................................... 91

Summary .......................................................................................................................... 93

6
Wstęp

Publikacja ta jest skierowana do studentów różnych kierunków studiów I lub II


stopnia uczących się na początkowych latach statystyki i pragnących utrwalić, powtórzyć
i usystematyzować swoją wiedzę i umiejętności w zakresie tego przedmiotu na studiach
wraz z koniecznym przypomnieniem ze szkoły średniej wybranych części materiału
z matematyki.
Kompetencje te są niezbędne w pomyślnym przygotowywaniu się na bieżąco do
zajęć ze statystyki opisowej, czy wnioskowania statystycznego oraz finalnie do
zaliczenia lub egzaminu z tego przedmiotu.
Opracowanie prezentuje w sposób zwięzły i usystematyzowany materiał
programowy ze statystyki opisowej dla szerokiego ogółu studentów na początkowych
latach I stopnia (licencjackich). Zwiera też obszerne przypomnienie niezbędnych
wiadomości z rachunku prawdopodobieństwa z zakresu szkoły średniej oraz treści
programowe przedmiotu: wnioskowanie statystyczne ze studiów II stopnia
(uzupełniających magisterskich).
Treści merytoryczne poparte są przykładowo rozwiązanymi zadaniami,
wzbogaconymi wyczerpującym komentarzem wyjaśniającym kolejne etapy
postępowania.
Mam nadzieję, że niniejsze materiały pomocnicze – mimo, iż nie stanowią one
systematycznego wykładu statystki – będą istotną pomocą edukacyjną dla studentów
różnych kierunków studiów pragnących na zadowalającym poziomie poznać i sprawnie
posługiwać się narzędziami statystycznymi do opisu i interpretacji otaczającej
rzeczywistości.

7
8
1. Statystyka i podstawowe pojęcia statystyczne

1.1. Termin „statystyka”

Słowo: „statystyka” pochodzi od łacińskiego słowa status, czyli stan rzeczy.


Termin ten został wprowadzony do nauki w XVIII w. przez niemieckiego uczonego
Gottfrieda Achenwalla dla określenia szerokiego zbioru wiadomości o państwie.
Oto różne znaczenia słowa „statystyka”:
1) państwoznawstwo, tzn. nauka o państwie prezentująca podstawowe wiadomości
niezbędne dla tych, którzy kierowali państwem (opis stanu państwa na podstawie
danych liczbowych, spisy ludności, spisy dóbr królewskich, kościelnych,
klasztornych) – znaczenie historyczne, starożytne i średniowieczne,
2) wszelkie zestawienia liczbowe, zespół informacji liczbowych (tabele, wykresy)
dotyczących wybranej grupy lub kategorii zjawisk, a także wysnuwanie
wniosków na podstawie wielkości liczbowych,
3) czynności polegające na zbieraniu i opisywaniu danych liczbowych (np.
statystyka wypadków drogowych),
4) dyscyplina naukowa traktująca o metodach liczbowego opisu i wnioskowania
o prawidłowościach występujących w procesach masowych,
5) określenie dowolnego parametru miary (np. średniej) opisującego wynik próby.

1.2. Podział statystyki, jako dyscypliny naukowej

STATYSTYKA

STATYSTYKA MATEMATYCZNA
STATYSTYKA OPISOWA
(WNIOSKOWANIE STATYSTYCZNE)

1.2.1. Przedmiot statystyki opisowej

Statystyka opisowa traktuje o metodach statystycznego opisu (analizy) wyników


badań opartych na obserwacji pełnej, wyczerpującej – jest to ujęcie deterministyczne.
Dzieli się ona na:
1) analizę struktury (budowy) zjawisk,
2) analizę dynamiki (zmian w czasie) zjawisk,
3) analizę współzależności zjawisk.

9
1.2.2. Przedmiot statystyki matematycznej

Statystyka matematyczna (indukcyjna), inaczej wnioskowanie statystyczne,


zajmuje się metodami wnioskowania statystycznego o całej zbirowości (populacji
generalnej) w oparciu o badania reprezentatywne, częściowe (na podstawie próby, części
zbiorowości) – jest to ujęcie niedeterministyczne, probabilistyczne.
Wnioskowanie statystyczne może dotyczyć analizy struktury oraz analizy
współzależności zjawisk (korelacji i regresji). Polega ono na uogólnianiu informacji
zebranych w próbie losowej na całą zbiorowość statystyczną (populację genralną).
Wnioskowanie statystyczne obejmuje:
1) estymację (szacowanie): parametryczną (punktową i przedziałową)
i nieparametryczną,
2) weyfikację (sprawdzanie) hipotez za pomocą testów statystycznych, statystyk
(testów istotności parametrycznych i nieparametrycznych: testów zgodności,
losowości i niezależności).

POPULACJA GENERALNA

PRÓBA LOSOWA
(STATYSTYKA OPISOWA)

WNIOSKOWANIE STATYSTYCZNE

1.3. Podstawowe pojęcia statystyczne

1) Zbiorowość statystyczna (generalna lub próbna) – zbiór jednostek


statystycznych objętych badaniem statystycznym. Jednostki zbiorowości
statystycznej muszą posiadać co najmiej jedną wspólną cechę (stałą). Na tym
polega jednorodność zbiorowości statystycznej. Jednostki zbiorowości nie mogą
być identyczne,
Zbiorowość generalna (populacja, masa) – skończony lub nieskończony zbiór
jednostek poddany obserwacji empirycznej.
2) Próba – część zbiorowości generalnej poddana bezpośredniemu badaniu
empirycznemu ze względu na badaną cechę w celu wyciągnięcia wniosków
o kształtowaniu się wartości tej cechy w całej populacji generalnej.

10
Próba jest:
 losowa – tzn. jednostki do próby zostały pobrane z populacji w sposób
losowy, przypadkowy,
 reprezentatywna – tzn. struktura próby pod względem badanej cechy nie
różni się istotnie od struktury populacji pod względem tej cechy – próba
dobrze reprezentuje badaną cechę w całej (niebadanej) populacji.
3) Jednostka populacji – element zbiorowości statystycznej.
4) Liczebność zbiorowości generalnej – liczba jednostek w populacji.
Liczebność próby – liczba jednostek w próbie.
5) Cecha statystyczna – właściwość (własność) jednostek statystycznych.
Warianty cechy – wartości, odmiany podanej cechy.
Podział cech statystycznych:
Cechy statystyczne

cechy stałe cechy zmienne – badane


(kryterium (różnicujące jednostki zbiorowości między sobą)
przynależności do
badanej
zbiorowości
generalnej lub jakościowe ilościowe
próbnej) – (niemierzalne) – (mierzalne) – warianty są
określają one warianty nie są wyrażone liczbowo o różnych miarach
zbiorowości pod wyrażone
względem: liczbowo, tylko
 rzeczowym opisowo lub
(co?) zakodowane
 czasowym liczbowo (np. ciągłe – warianty skokowe (dyskretne) quasi ilościowe
(kiedy?) 1 – ma wyczerpują przedział – warianty, to punkty (porządkowe) –
 przestrzennym własność, 0 – liczbowy na osi bez wartości określają
(gdzie?) brak własności) pośrednich natężenie
x1 x2
 zakresowym własności (np.
x1 x2 x3
(jakie oceny na
informacje?) egzaminie)
(Cechy stałe nie
podlegają badaniu
statystycznemu)

6) Zjawiska masowe – zdarzenia często powtarzające się (doświadczenia losowe),


w których występują prawidłowości badane przez statystykę).
7) Badanie statystyczne – badanie empiryczne (obserwacja) prawidłowości
w zjawiskach masowych. Może być:
 badanie pełne (wyczerpujące) – dotyczy wszystkich jednostek zbiorowości
statystycznej,
 badanie częściowe (niewyczerpujące) – dotyczy części jednostek, próby,
a jego wyniki są uogólniane na całą populację.
11
BADANIE STATYSTYCZNE

PEŁNE CZĘŚCIOWE
(dotyczy wszystkich jednostek) (dotyczy próby)
8) Materiał statystyczny – zbiór zapisów dotyczących wariantów cechy
występującej u badanych jednostek zbiorowości.
9) Wyniki badań – zaobserwowane warianty badanej cechy (w zbiorowości
generalnej – w badaniu pełnym lub z próby – w badaniu częściowym).
10) Opis statystyczny – analiza rozkładu cechy w próbie lub zbiorowości generalnej
skończonej. Jest to obliczanie pewnych charakterystyk liczbowych (parametrów,
statystyk) badanego rozkładu cechy. Opis statystyczny, w przypadku badania
częściowego, jest punktem wyjścia do wnioskowania statystycznego.
W przypadku zaś badania pełnego, zamyka badanie statystyczne.
11) Wnioskowanie statystyczne – uogólnianie wyników uzyskanych w próby
losowej na całą populację generalną. Jest to podejmowanie decyzji o nieznanych
parametrach i rozkładach w zbiorowości generalnej na podstawie wyników
z próby w warunkach niepewności (ryzyka statystycznego) z wykorzystaniem
reguł rachunku prawdopodobieństwa.
12) Parametry (statystyki, mierniki statystyczne) – charakterystyki liczbowe
rozkładu badanej cechy w zbiorowości generalnej lub próbnej.
Wyróżniamy:
 parametry populacji,
 parametry próby (w przypadku badania częściowego).
13) Szereg statystyczny – zestawienie wartości zmiennych cechy badanej  xi  wraz
z przyporządkowanymi im liczebnościami  ni  lub częstościami ich


występowania ci 
ni
N .
Podział szeregów statystycznych:
szeregi statystyczne

szczegółowe rozdzielcze przestrzenne czasowe


(wyliczające) (geograficzne) (dynamiczne)

dotyczące dotyczące

cech mierzalnych cech momentów okresów


niemierzalnych (punkty na osi (przedziały
punktowe przedziałowe czasu) na osi czasu)
(dla cechy skokowej) (dla cechy ciągłej) t0 t 1 t2 tk
t t0 t 1 t2 tk
t

x x
x1 x2 xk x0 x1 xk

12
Szereg surowy – zapis wyników badania w naturalnej kolejności ich zbierania
(przed uporządkowaniem).
Szereg prosty – zapis wyników badania po uporządkowaniu (rosnąco względem
poziomu wariantów lub pogrupowany w klasy).
14) Rozkład empiryczny – zestawienie par  xi , ni  w postaci tabeli o dwóch
kolumnach lub wierszach z wariantami cechy  xi  i liczebnościami  ni  :
xi ni lub
x1 n1 xi x1 x2 xk
k
x2 n2
ni n1 n2 nk n
i 1
i N

xk nk
k

n i 1
i N

15) Kumulacja szeregu – sumowanie kolejnych liczebności. Powstaje wtedy szereg


kumulacyjny (rosnący).
xi ni ni cum
x1 n1 n1
x2 n2 n1  n2
x3 n3 n1  n2  n3

xk nk n1  n2  n3   nk  N
N

Uwaga:
Powyższą tabelę można rozszerzać o kolejne kolumny (częstości ci , częstości
skumulowane ci  cum , itp.) potrzebne również do obliczania pewnych mierników
(średniej x , odchylenia, itp.):
xi ni ni cum ci  Ni
n
ci  cum xi ni xi  x xi  x ni  xi  x 
2
ni
x1 n1 n1 c1  n1
N
c1 x1n1 x1  x x1  x n1  x1  x  n1
2

x2 n2 n1  n2 c2  n2
c1  c2 x2 n2 x2  x x2  x n2  x2  x  n2
2
N
x3 n3 n1  n2  n3 c1  c2  c3 x3 n3 x3  x x3  x n3
c3 
n3
 x3  x  n3
2
N

xk nk xk nk xk  x xk  x nk
N  xk  x 
2
ck  nk
N
1 nk
k k k k
N c  x x n  x  x 
 1 xn
N 2
i N i i i i i ni
i 1 i 1 i 1 i 1

13
Uwaga:
Częstość ci wyrażać można w procentach  ci 100% .
16) Dystrybuanta empiryczna F  x  – to częstość skumulowana dla wariantów
cechy nie większych od wartości xi , czyli dla x  xi .
Wartość maksymalna dystrybuanty, to 1 dla x  xmax , a minimalna, to 0 dla
x  xmin .

1.4. Etapy badania statystycznego

Są to:
1) Projektowanie badania (czynności przygotowawcze: określenie celu i metod
badania oraz zbiorowości statystycznej i cech podlegających badaniu).
2) Organizacja badania (opracowanie strony technicznej badań).
3) Obserwacja statystyczna (pomiar zmiennych cech statystycznych we wszystkich
jednostkach wytypowanych do badania).
4) Opracowanie i prezentacja materiału statystycznego (grupowanie, zliczanie,
budowanie szeregu statystycznego, tablicy, tabeli, wykresów).
5) Opis statystyczny (obliczenie miar, parametrów, statystyk oraz
scharakteryzowanie badanego zjawiska – zastosowanie statystyki opisowej).
6) Wnioskowanie statystyczne w przypadku badania częściowego – próby
(wnioskowanie o populacji na podstawie próby – zastosowanie statystyki
matematycznej).

1.5. Ustalanie liczby klas w szeregu przedziałowym

Oto niektóre zalecenia:


1) liczba klas w granicach 15-25,
2) liczba klas większa, im zbiorowość liczniejsza,
3) liczba klas: k w zależności od liczebności zbiorowości: N wyrażona może być
wzorem: k  N lub k  5log N lub k  1  3,322log N ,
4) liczba klas: k uzależniona od liczebności zbiorowości: N może być
w następujący sposób:
N  40;60  k  6;8
N  60;100  k  7;10
N  100;200  k  9;12

14
N  200;500  k  12;17
5) rozpiętość klasy, interwał, rozstęp jest różnicą między górną, a dolną granicą
klasy
i może być wyrażona wzorem:
x x
i  max min ; k  liczba klas
k
- na ogół interwały przedziałowe są jednakowe,
6) typ przedziału klasowego:

- lewy koniec przedziału, to dolna granica klasy
- prawy koniec przedziału, to górna granica klasy.

1.6. Wykresy w statystyce

Rodzaje wykresów:
1) liniowe,
2) powierzchniowe,
3) pasmowe,
4) bryłowe,
5) punktowe,
6) mapowe (kartogramy),
7) kombinowane,
8) specjalne.
Wykresy służą do graficznego przedstawiania:
1) szeregów rozdzielczych (wykresy strukturalne),
2) rozwoju zjawisk w czasie (wykresy dynamiczne),
3) zależności między cechami (wykresy korelacyjne).
Histogram – zbiór przylegających prostokątów w układzie współrzędnych o podstawie
długości klasy i wysokości równej liczebności lub częstości.
Diagram (wielobok liczebności) – łamana łącząca punkty o współrzędnych: środki klas
 
 xi  i odpowiadające im liczebności  ni  lub częstości  ci  .
 

15
16
2. Podstawowe wiadomości ze statystyki opisowej

2.1. Opis struktury zjawisk

Struktura zjawisk, to budowa, skład zbiorowości pod względem wyróżnionych cech


jednostek tej zbiorowości.
Analiza struktury, to wykrywanie i interpretowanie prawidłowość w badanej
zbiorowości. Analizę struktury zjawisk masowych przeprowadza się przy pomocy
opisowych charakterystyk rozkładów (oprócz tabel i wykresów). Są to:
 miary średnie,
dzielą się na klasyczne i pozycyjne
 miary rozproszenia,
 miary asymetrii,
 miary koncentracji.
Ww. miarom są poświęcone kolejne moduły: 2.1.1. – 2.1.6.

2.1.1. Miary średnie

Miary średnie, to inaczej: miary poziomu wartości zmiennej, miary położenia,


miary przeciętne.
Określają one wartość zmiennej, wokół której występują wszystkie pozostałe
warianty badanej cechy.
Miary średnie dzielą się na:
 klasyczne (do obliczenia których stosuje się wszystkie warianty cechy),
 pozycyjne (oznaczają konkretną pozycję w szeregu).

MIARY ŚREDNIE

KLASYCZNE: POZYCYJNE:
 średnia arytmetyczna (nieważona  dominanta (in. modalna, wartość
i z wagą) typowa, najczęstsza)
 średnia harmoniczna  kwantyle (wśród nich kwartyle,
 średnia geometryczna decyle, centyle)
 mediana (in. moda, wartość
środkowa – jako szczególne
kwantyle, np. kwartyl drugi, decyl
piąty, centyl pięćdziesiąty)

17
Uwaga:
Oznaczenia: xi - warianty cechy, xi - środki przedziałów klasowych, N - liczebność
badanej zbiorowości, ni - liczebność jednostek o wariancie xi .
1) Klasyczne miary średnie:
a) średnia arytmetyczna nieważona dla szeregu wyliczającego – gdy
wszystkie ni  1 :
N
x1  x2   xN
x 1
N x
i 1
i 
N
b) średnia arytmetyczna z wagą (ważona) dla szeregu punktowego – gdy
warianty cechy występują z różną częstotliwością:
k
x n  x n   xk nk k
x  N1  xi ni  1 1 2 2 ; N   ni
i 1 N i 1

gdzie ni – wagi odpowiadające wariantom xi ; i  1, 2, ,k

c) średnia arytmetyczna (ważona) dla szeregu przedziałowego ( xi – środki


klas):
k
x1 n1  x2 n2   xk nk k
x 1
N x n
i 1
i i 
N
; N   ni
i 1

d) średnia harmoniczna:
N N
nieważona: xH  N 
   x1N

1 1
1 x1 x2
xi
i 1

N N
ważona: xH  
k
n1  n2   x1k nk

1 1
1
xi ni x1 x2

i 1

e) średnia geometryczna:
N
nieważona: xG  N  xi  N x1  x2   xN
i 1

k k
ważona: xG  N  xi i  N x1 1  x2 2 
n n n
 xk nk ; N   ni
i 1 i 1

Uwaga:
Zależności między x , xH , xG dla nieujemnych wariantów:
 k

xH  xG  x   xkwadratowa 

1
N  x n  .
i 1
2
i i

18
2) Pozycyjne miary średnie:
a) dominanta:
 w szeregu punktowym jest to ten wariant cechy, któremu odpowiada
największa liczebność,
 w szeregu przedziałowym – należy do przedziału, któremu odpowiada
największa liczebność, oblicza się ją wg wzoru:
nD  nD 1
D  xD  i
 nD  nD1    nD  nD1  D
gdzie: xD - dolna granica klasy z dominantą,
nD - liczebność przedziału z dominantą,
nD 1 - liczebność przedziału poprzedzającego przedział
z dominantą,
nD 1 - liczebność przedziału następującego po przedziale
z dominantą,
iD - rozpiętość przedziału z dominantą
 metoda graficzna wyznaczania dominanty
ci 
ni
N

D xi

b) kwantyle:
 są to warianty cechy, które dzielą badaną zbiorowość na określone części
pod względem liczebności, np. kwartale, decyle, centyle. Kwartyli jest
trzy: Q1 , Q2 , Q3 i dzielą zbiorowość na 4 części. Kwartyl drugi Q2 to
mediana. Decyli jest 9 i dzielą zbiorowość na 10 części, Decyl piąty, to
mediana. Centyli jest 99 i dzielą zbiorowość na 100 części. Centyl 50-ty
to mediana.
c) mediana (kwartyl drugi, środkowy):
 to wartość środkowa (moda),
 dla szeregu wyliczającego:
 xN21 ; gdy N jest liczbą nieparzystą

Me   x1  x1
N 1
 2 2 2 ; gdy N jest liczbą parzystą
N

d) kwartyle (są trzy: Q1 , Q2 , Q3 ):

19
 kwartyl pierwszy, dolny Q1 dzieli zbiorowość, uporządkowaną rosnąco
pod względem wariantów, na dwie części takie, że 25% zbiorowości ma
warianty cechy niższe, a 75% - wyższe niż kwartyl pierwszy;
 dla szeregu przedziałowego:
k 1
1
4 N   ni
Q1  xQ1  i 1
 iQ1
nQ1
gdzie:
xQ1 - dolna granica przedziału z Q1 ,
nQ1 - liczebność przedziału z Q1 ,
iQ1 - rozpiętość przedziału z Q1 ,
k - numer przedziału z Q1 ,
 kwartyl drugi, środkowy Q2  Me (mediana): dzieli zbiorowość,
uporządkowaną rosnąco pod względem wariantów, na dwie równe części
(po 50%) takie, że 50% zbiorowości ma warianty niższe, a 50% - wyższe
niż kwartyl drugi zwany medianą;
 dla szeregu przedziałowego:
k 1
1
2 N   ni
Q2  Me  xMe  i 1
 iMe
nMe
gdzie:
xMe - dolna granica przedziału z Me ,
nMe - liczebność przedziału z Me ,
iMe - rozpiętość przedziału z Me ,
k - numer przedziału z Me ,
 kwartyl trzeci, górny Q3 dzieli zbiorowość, uporządkowaną rosnąco pod
względem wariantów, na dwie części takie, że 75% zbiorowości ma
warianty niższe, a 25% - wyższe niż kwartyl trzeci;
 dla szeregu przedziałowego:
k 1
3
4 N   ni
Q3  xQ3  i 1
 iQ3
nQ3
gdzie:
xQ3 - dolna granica przedziału z Q3 ,
nQ3 - liczebność przedziału z Q3 ,

20
iQ3 - rozpiętość przedziału z Q3 ,
k - numer przedziału z Q3 ,
e) ilustracja graficzna kwartyli:
warianty cechy badanej zbiorowości

Me xi
Q1 Q3
warianty cechy
Q2 uporządkowane
rosnąco

25% zbiorowości 75% zbiorowości

75% zbiorowości 25% zbiorowości

50% zbiorowości 50% zbiorowości

dolny półszereg górny półszereg

Q1 jest medianą dolnego półszeregu Q3 jest medianą górnego półszeregu

cała zbiorowość (100%)

Uwaga:
Wzór Pearsona ustalający zależność między miarami średnimi ( x , D , Me ):
x  D  3  x  Me 
3) Zestawienie miar średnich:
MIARY ŚREDNIE
KLASYCZNE POZYCYJNE
D , Me
x , xH , xG Q1 , Q2 , Q3
kwantyle

2.1.2. Miary rozproszenia

Miary rozproszenia, to inaczej: miary zmienności, miary zróżnicowania, miary


dyspersji.
Określają one stopień rozproszenia (zakres zmienności) wariantów cechy
względem wartości średniej.
Miary rozproszenia (podobnie, jak miary średnie) dzielą się na:
 klasyczne,
 pozycyjne.

21
MIARY ROZPROSZENIA

KLASYCZNE: POZYCYJNE:
 odchylenie przeciętne  rozstęp (empiryczny obszar
 wariancja zmienności)
 odchylenie standardowe  odchylenie ćwiartkowe

INNE MIARY ROZPROSZENIA,


KTÓRE W ZALEŻNOŚCI OD
RODZAJU WZORU MOGĄ BYĆ
ZALICZANE DO MIAR
KLASYCZNYCH LUB
POZYCYJNYCH:
 typowy obszar zmienności
 współczynniki zmienności
1) Klasyczne miary rozproszenia:
a) odchylenie przeciętne:
 dla szeregu wyliczającego (wszystkie ni  1 ):
N
d 1
N  x x
i 1
i
odchylenia
xi od x

- jest to nieważona średnia arytmetyczna różnić xi  x , czyli odchyleń


od średniej x
 dla szeregu punktowego (warianty cechy występują z różną
częstotliwością):
k
d 1
N  x x  n
i 1
i i
odchylenia wagi
xi od x

- jest to ważona średnia arytmetyczna różnic xi  x , czyli odchyleń od


średniej x
 dla szeregu przedziałowego ( xi - środki klas):
k
d 1
N  x  x n
i 1
i i

 xi  x 
2
b) wariancja, to średnia arytmetyczna kwadratów odchyleń:
wariantów cechy xi od średniej x :

22
 dla szeregu wyliczającego (wszystkie ni  1 ):
N
V  S2   x  x 
2
1
N i (nieważona)
i 1

 dla szeregu punktowego (warianty cechy występują z różną


częstotliwością):
k
V  S2   x  x   ni (z wagą)
1 2
N i
i 1

 dla szeregu przedziałowego ( xi - środki klas):


2
 
k
V  S2  1
N   xi  x   ni
i 1  
Uwaga:
We wzorach na wariancję z próby zamiast N jest N 1 .
c) odchylenie standardowe, to pierwiastek kwadratowy z wariancji:
S  V  S2
V  S 2 - jak wyżej w b)
2) Pozycyjne miary rozproszenia:
a) rozstęp (empiryczny obszar zmienności):
R  xmax  xmin
b) odchylenie ćwiartkowe (wyrażone poprzez kwartale Q1 i Q3 )
Q3  Q1
Q
2
- mierzy poziom zróżnicowania w połowie obszaru zmienności (od Q1 do
Q3 )
3) Inne miary rozproszenia (w zależności od rodzaju wzoru mogą być zaliczane do
klasycznych lub pozycyjnych):

KLASYCZNE POZYCYJNE
a) typowy obszar zmienności:
 x  S  xtyp  x  S  lub  Me  Q  xtyp  Me  Q 

jednostki nietypowe jednostki nietypowe

23
b) współczynniki zmienności, to iloraz (wyrażony w %) bezwzględnej miary
rozproszenia: d , S , Q i odpowiednich średnich: x , Me , Q1 i Q3 :
S lub Q
vS  vQ 
x Me
d Q  Q1
vd  vQ1Q3  3
x Q3  Q1
4) Zestawienie miar rozproszenia:
MIARY ROZPROSZENIA
KLASYCZNE POZYCYJNE
2
d, S , S, R , Q,
vS , vd vQ , vQ1Q3 ,
xtyp x ,S  xtyp Me,Q

2.1.3. Zestawienie miar średnich i miar rozproszenia

MIARY ŚREDNIE ROZPROSZENIA


d , S2 , S ,
KLASYCZNE x , xH , xG vS , vd
xtyp x ,S 
D , Me R , Q,
POZYCYJNE Q1 , Q2 , Q3 vQ , vQ1Q3 ,
kwantyle xtyp Me,Q

2.1.4. Momenty, jako uogólnienie miar tendencji centralnej i miar dyspersji

- są to średnie arytmetyczne odchyleń (różnic) wariantów cechy xi od pewnej wielkości


a podniesionych do potęgi r :
r
k  odchylenia 
  xi  a  ni
i 1  
mr   k  - moment rzędu r ( r -ty moment)
 ni
i 1

- dla a  0 mamy moment zwykły


- dla a  x mamy moment centralny
Zatem: x jest to 1-wszy moment zwykły, S 2 jest to 2-gi moment centralny.

24
2.1.5. Miary asymetrii (skośności)

Asymetria, to problem, czy przeważająca liczba jednostek jest powyżej, czy


poniżej przeciętnego poziomu badanej cechy.
Najłatwiej ocenić asymetrię rozkładu porównując ze sobą trzy następujące miary
średnie: dominantę D , medianę Me i średnią arytmetyczną x .
W rozkładach symetrycznych są one równe:
D  Me  x
ni

D 
Me x xi
W rozkładach prawostronnie asymetrycznych:
D  Me  x
ni

DMe x xi
W rozkładach lewostronnie asymetrycznych:
D  Me  x
ni

x Me D xi
1) Miary asymetrii:
a) wskaźniki asymetrii:
WS  x  D  WS   Q3  Q2   Q2  Q1 

25
W rozkładach symetrycznych: WS  0
W rozkładach prawostronnie asymetrycznych: WS  0
W rozkładach lewostronnie asymetrycznych: WS  0
b) współczynnik asymetrii:
W x D W x D
AS  S   Ad  S 
S S d d

 AQ  3
 Q  Q2    Q2  Q1   Q3  Q1  2Me
 Q3  Q2    Q2  Q1  2Q
c) trzeci moment centralny:
k
m3   x  x 
1 3
N i ni - mierzy kierunek asymetrii
i 1

d) moment standardowy 3-go rzędu:


m
A3S  33 - mierzy siłę i kierunek asymetrii
S
2) Zestawienie miar asymetrii:
Asymetria Kierunek Siła
 D, Me, x  D  Me  x (sym.)
D  Me  x (asym. praw.)
D  Me  x (asym. lewos.)

WS  x  D
W x D W x D
AS  S   Ad  S 
S S d d
Q  Q  2Me
AQ  3 1
2Q
m
A3S  33
S

26
2.1.6. Miary koncentracji (skupienia)

KONCENTRACJA
rozumiana jako

nierównomierny podział zjawisk koncentracja wokół średniej (kurtoza)


(- ma związek z asymetrią i dyspersją) (- porównanie z wykresem rozkładu
normalnego)
ni

rozkł. leptokurtyczny

rozkł. normalny
rozkł. platokurtyczny

xi

Siłę koncentracji można badać metodą:


 graficzną (wykreślenie wieloboku koncentracji Lorenza),
 analityczą (obliczenie miar natężenia koncentracji).
1) Wielobok koncentracji Lorenza:

100%
wielobok koncentracji
skumulowane
częstości
globalnej wartości krzywa Lorenza
cechy liczone w %
xi ni
k cum%
 xi ni Pk
i 1

P1 P2
skumulowane częstości liczone w %
100% ni
k cum%
 ni
i1

Współczynnik koncentracji Pearsona:


P P
k  1 wk  wk
2 P P
gdzie:
P  1002  10000
P  12 1002  5000
Pwk - pole wieloboku koncentracji

27
Pwk  P   P1  P2   Pk 
przy czym P1 - to trójkąt, P2 , P3 , , Pk , to trapezy.

Zatem
5000   P1  P2   Pk 
k ł
5000
0 k 1
 
koncentracja koncentracja
mała duża

2) Miary koncentracji:
a) moment centralny 4-go rzędu:
k
m4   x  x 
1 4
N i ni
i 1

b) standardowy moment centralny 4-go rzędu:


m
a4  44
S
c) eksces – miara spłaszczenia:
e  a4  3
d) zestawienie miar spłaszczenia:
ROZKŁAD
leptokurtyczny normalny platokurtyczny
(wysmuklony) (spłaszczony)
ni ni ni

xi xi xi
a4  3 a4  3 a4  3
e0 e0 e0

Przykładowe zadanie:
Oto wyniki egzaminu ze statystyki grupy studentów: 3, 5, 4, 3, 3, 2, 4, 3, 3, 3, 2, 4, 4, 5,
3, 3, 5, 3, 4, 4. Dane te posłużą do zaprezentowania wcześniej omówionych pojęć i miar
struktury.

Zbiorowość statystyczna: grupa studentów


Jednostka statystyczna: student

28
Cecha statystyczna: ocena z egzaminu
Warianty cechy ( xi ): oceny: 2, 3, 4, 5
k
Liczebność zbiorowości: N   ni  20 (liczebność grupy)
i 1

Szereg surowy: 3, 5, 4, 3, 3, 2, 4, 3, 3, 3, 2, 4, 4, 5, 3, 3, 5, 3, 4, 4
Szereg prosty: 2, 2, 3, 3, 3, 3, 3, 3, 3, 3, 3, 4, 4, 4, 4, 4, 4, 5, 5, 5
Szereg rozdzielczy:
xi 2 3 4 5
ni 2 9 6 3
Wykres rozkładu:
ni

10
9
8
7
6
5
4
3
2
1
2 3 4 5 xi
1) Miary średnie
Uwaga:
Wprost z kształtu wykresu widać, że dominanta D  3 (najczęstsza ocena –
najwyższy słupek).
Kwartyle:
2, 2, 3, 3, 3, 3, 3, 3, 3, 3, 3, 4, 4, 4, 4, 4, 4, 5, 5, 5
¼ zbiorowości ¾ zbiorowości
Q1  3 Q2  Me  3
½ zbiorowości ½ zbiorowości
(połowa studentów (połowa studentów
otrzymała co najwyżej trójkę) otrzymała co najmniej trójkę)
Q3  4
¾ grupy studentów ¼ grupy
otrzymało co najwyżej czwórkę studentów
otrzymała co
najmniej czwórkę

29
Średnia x :
xi ni xi ni
2 2 4
3 9 27
4 6 24
5 3 15
k k

n
i 1
i  20 xn
i 1
i i  70
k
 xi ni
x i 1
k  70
20  3,5
 ni
i 1

Średnia ocena z egzaminu ze statystyki to 3,5.


Kumulacja liczebności i częstości:
xi ni ni cum ci  Ni
n
ci  %   Ni 100%
n
ci cum  %
2 2 2 2 10% 10%
20
3 9 11 9 45% 55% studentów otrzymało ocenę 2 lub 3
20
4 6 17 6 30% 85% studentów otrzymało co najwyżej
20
czwórkę
5 3 20 3 15% 100%
20
N  20 k 100%
c
i 1
i 1
11 osób otrzymało co najwyżej trójkę
17 osób otrzymało co najwyżej czwórkę
2) Miary rozproszenia
Rozstęp:
R  5  2  3 (empiryczny obszar zmienności to 3 oceny)
W celu obliczenia: d , S 2 , S , Q można posłużyć się tabelką:
xi  x xi  x  xi  x 
2
xi xi  x ni  xi  x 
2
ni ni

2 2 -1,5 1,5 3 2,25 4,5


3 9 -0,5 0,5 1,5 0,25 2,25
4 6 0,5 0,5 2 0,25 1,5
5 3 1,5 1,5 4,5 2,25 6,75
k k

 xi  x ni  11  x  x  ni  15
2
N  20 i
i 1 i 1

30
Odchylenie przeciętne:
k
d 1
N  x x n
i 1
i i  11
20  0,55

Przeciętne odchylenie wszystkich ocen od średniej x  3,5 sięga ponad pół


oceny.
Wariancja i odchylenie standardowe:
k
V  S2   x  x  ni  15
20  0, 75
1 2
N i
i 1

S  0, 75  0,865
Standardowe rozproszenie sięga ok. 0,865 oceny.
Odchylenie ćwiartkowe:
Q3 Q1
Q 2  423  1
Zmienność ocen w połowie szeregu (między trzecim, a pierwszym kwartylem)
sięga jednej oceny.
Typowy obszar zmienności:
Me  Q  xtyp  Me  Q
3  1  xtyp  3  1
2  xtyp  4
lub
x  s  xtyp  x  s
3,5  0,865  xtyp  3,5  0,865
2, 635  xtyp  4,365
Oceny: 2 i 5, to oceny nietypowe, zaś typowe, to 3 i 4.
Współczynniki zmienności:
vs  xs 100%  0,865
3,5 100%  24,71%
średniej stanowi odchylenie standardowe
vd  dx 100%  0,55
3,5 100%  15,71%
średniej stanowi odchylenie przeciętne
vQ  Me
Q
100%  13 100%  33,33% mediany stanowi odchylenie ćwiartkowe
Q3 Q1
vQ1Q3  Q3  Q1 100%  72 100%  28,57%
1) Miary asymetrii
Porównanie D , Me i x : D  3 , Me  3 , x  3,5
D  Me  x
3  3  3,5

31
Wskaźniki asymetrii:
Ws  x  D  3,5  3  0,5  0 - rozkład prawostronnie asymetryczny
lub
Ws   Q3  Q2    Q2  Q1    4  3   3  3  1  0
Współczynniki asymetrii:
As    0,58; Ad   0,55  0,9
Ws 0,5 Ws 0,5
s 0,865 d

Wskaźnik asymetrii Wskaźnik asymetrii


stanowi ok. 58% stanowi 90% odchylenia
odchylenia standardowego standardowego
Q3 Q1  2 Me
AQ  2Q  4 3 23
21  12  0,5
2) Miary koncentracji
W celu zbudowania wieloboku koncentracji można posłużyć się tabelką:
ni  cum  ni xi ni xi ni xi ni
xi ni cum% cum cum%
 ni  ni  xi ni  xi ni  xi ni
2 4 4
2 2 20 10% 70 70 5,71%
11 27 31
3 9 20 55% 70 70 44,28%
17 24 55
4 6 20 85% 70 70 78,57%
20 15 70
5 3 20 100% 70 70 100%

1
xi ni
N  20  xi ni
Wielobok koncentracji Lorenza:
xi ni
k cum%
 xi ni
i 1

100%

78,57%

44,28% P4

P3

P2
5,71% P1 10% 55% 85% 100%
ni
n cum%
 ni
i1
(10%) (45%) (30%) (15%)
32
Współczynnik korelacji Pearsona:
5000 P1  P2  P3  P4 
k 5000 ,
gdzie
P1  12 10  5,71  28,55
P2  12  44, 28  5,71  45  1124,775
P3  12  78,57  44, 28  30  1842,75
P4  12 100  78,57  15  1339, 275
P1  P2  P3  P4  4335,35
4335,35
Zatem k  50005000  664,65
5000  0,133

Czyli pole wieloboku koncentracji Lorenza stanowi ponad 13% pola trójkąta
(połowy kwadratu 100% x 100%).
Moment centralny 4-go rzędu:
k
m4   x  x  ni  5,0620,069200,066 5,063  5,12 0,54 20
 0,36 15,18
 21,2
20  1, 06
1 4
N i
i 1

Standardowy moment centralny 4-go rzędu:


a4  m4
s4
 1,06
0,5625  1,884  3 - rozkład spłaszczony
Ekces:
e  a4  3  1,884  3  1,116  0 - rozkład platokurtyczny

2.2. Analiza dynamiki zjawisk

Dynamika zjawisk, to zmiany zjawiska w czasie.


Czas  t  może być rozumiany jako

moment (dla zasobów) okres (dla strumieni)


(punkt na osi czasu) (przedział na osi czasu)
t0 t1 t2 tn t t0 t1 t2 tn 1 tn t

Szereg dynamiczny (czasowy), to zbiór par (w formie tabelki):


 

 t , yt  f t  ,


 niezależna
zmienna
zmienna 
 zależna 
gdzie t - czas, yt - poziom badanego zjawiska w czasie t

33
t yt
t1 y1 t t1 t2 tn
lub yt y1 y2 yn
tn yn

Średni (przeciętny) poziom zjawiska:


- dla momentów:
y1  y2 y2  y3 yn1  yn
   1
y1  y2   yn 1  12 yn
ych  2 2 2
 2

średnia n 1 n 1
chronologiczna

- dla okresów:
y1  y2   yn
yt 
średnia n
arytmetyczna

Metody badania dynamiki zjawisk:


a) metoda indeksowa: określenie tempa i intensywności zmian zjawiska w
czasie,
b) metoda trendu i wahań okresowych: modele szeregów czasowych.

2.2.1. Metoda indeksowa

a) Przyrosty absolutne (bezwzględne) – dotyczą porównywania różnicowego, są to


różnice:
jednopodstawowe: lub łańcuchowe:
yi  y1 yi  yi 1
o podstawie stałej  y1  o podstawie zmiennej  yi 1 
dla i  2,3, , n
b) Przyrosty względne, są to ilorazy przyrostów absolutnych do podstawy
porównań:
jednopodstawowe: lub łańcuchowe:
yi  y1 yi  yi 1
y1 yi 1
o podstawie stałej  y1  o podstawie zmiennej  yi 1 
dla i  2,3, , n
Przyrosty względne mogą być wyrażone w procentach. Są to wskaźniki tempa
przyrostu zjawiska.
Przyrosty dodatnie świadczą o wzroście zjawiska, zaś ujemne – o spadku
poziomu badanego zjawiska.
34
c) Indeksy indywidualne – dotyczą porównywania ilorazowego, są to ilorazy:
lub łańcuchowe:
jednopodstawowe:
yi
yi
yi 1
y1
o podstawie (bazie) zmiennej
o podstawie (bazie) stałej  y1 
 yi1 
dla i  2,3, , n
Indeksy jednopodstawowe można otrzymać z przyrostów względnych
jednopodstawowych przez dodanie liczby 1.
Indeksy łańcuchowe można otrzymać z przyrostów względnych łańcuchowych
przez dodanie liczby 1.
Można też dokonywać przekształceń indeksów jednopodstawowych na
łańcuchowe
i na odwrót.
Indeksy są najczęściej wyrażone w procentach.
0 i 1  spadek poziomu zjawiska
 0%  100% 
i 1  wzrost poziomu zjawisk
100% 
i 1  poziom zjawiska bez zmian
100% 
Indeksy służą do oceny zmian badanego zjawiska między dwoma wyróżnionymi
okresami lub momentami.
d) Średnie tempo zmian zjawiska w czasie:
Średnia geometryczna indeksów łańcuchowych
y2 y3 yn y
y  n 1     n 1 n
y1 y2 yn 1 y1
Uwaga 1: W statystyce rozpatruje się:
p
indeksy cen: i p  1
p0
q1
indeksy ilości: iq 
q0
p1q1
indeksy wartości: iw 
p0 q0
gdzie p1 , q1 oznaczają odpowiednio cenę i ilość w okresie badanym  t  1 , p0 , q0 -
w okresie podstawowym  t  0 .

35
Uwaga 2: W celu zbadania łącznej dynamiki k produktów w okresie badanym  t  1
w porównaniu z okresem podstawowym  t  0 wyznacza się indeksy agregatowe, np.
k

p q 1i 1i
Iw  i 1
k
.
p
i 1
q
0i 0i

2.2.2. Metody wyodrębniania trendu

a) Metoda średnich ruchomych (metoda mechaniczna), np. średnie ruchome


(zwykłe) trzyokresowe:
y  y  y3 y  y3  y4 y  yn1  yn
y2  1 2 ; y3  2 ; ; yn1  n2
3 3 3
służą wygładzeniu szeregu czasowego.
b) Metoda analityczna aproksymacji funkcji trendu:
 funkcja liniowa trendu I rodzaju:
yt  0  1t  
gdzie
yt - poziom badanego zjawiska w czasie t
t - czas
0 , 1 - nieznane parametry strukturalne
 - składnik losowy
 aproksymacyjna liniowa funkcja trendu (funkcja trendu II rodzaju):
yˆt  a0  a1t  zt
gdzie
yˆt - teoretyczne wartości trendu
a0 , a1 - estymatory parametrów 0 , 1
zt - składnik resztowy
Oszacowanie, na podstawie empirycznego szeregu czasowego,
współczynników liniowej funkcji trendu II rodzaju:
n n n
n yt  t   yt   t
a1  t 1 t 1 t 1
2
n
 n
n t 2    t 
t 1  t 1 

36
n n

 yt t
a0  t 1
 a1 t 1
 y  a1t
n n

Przykładowe zadanie:
Dana jest liczba detali (w tys. szt.) wyprodukowanych w latach 2005-2010:
2005 2006 2007 2008 2009 2010
ti
t1 t2 t3 t4 t5 t6
yi 40 65 70 35 45 50

Przyrosty absolutne i względne o podstawie stałej


yi  y1
ti yi yi  y1 y1 100%
t1 40 - -
t2 65 25 62,5%
W porównaniu z poziomem produkcji z 2005r.: w 2007r.
t3 70 30 75%
produkcja wzrosła o 30 tys. szt., tj. wzrost o 75%, zaś
t4 35 -5 -12,5% w 2008r. produkcja zmalała o 5 tys. szt., tj. spadek o 12,5%.
t5 45 5 12,5%
t6 50 10 25%
Przyrosty absolutne i względne o podstawie zmiennej
yi  yi 1
ti yi yi  yi 1 yi 1 100%
t1 40 - -
t2 65 25 62,5% W porównaniu z rokiem poprzednim w roku 2007
t3 70 15 60% produkcja wzrosła o 15 tys. szt. detali, tj. wzrost o 60%,
t4 35 -35 -233,3% zaś w roku 2008 produkcja spadła o 35 tys. szt., tj. spadła
t5 45 10 28,6% o ponad 233%.
t6 50 5 50%
Indeksy indywidualne jednopodstawowe
100%
yi
ti yi y1

t1 40 -
t2 65 162,5% >100%
Produkcja detali w 2007r. stanowiła 175% produkcji
t3 70 175% >100%
z roku 2005 (czyli wzrosła o 75%), natomiast w 2008r. –
t4 35 87,5% <100% tylko 87,5% produkcji z tego porównawczego roku.
t5 45 112,5% >100%
t6 50 125% >100%

37
Indeksy indywidualne łańcuchowe
100%
yi
ti yi yi 1

t1 40 -
t2 65 162,5% >100% W porównaniu z poziomem produkcji w roku
t3 70 107,7% >100% poprzednim, produkcja w 2007r. wzrosła o 7,7%, zaś
t4 35 50% <100% w 2008r. w porównaniu z rokiem poprzednim zmalała
t5 45 128,57% >100% o 50%
t6 50 111,11% >100%
Średnie tempo zmian produkcji detali w latach 2005-2010
y 5 50
40  5 1, 25  1, 045 - średnia produkcja w latach 2005-2010 rosła przeciętnie o
4,5% rocznie
Wykres szeregu czasowego
yi

70
65

50
45 W latach 2005-2007 trend rosnący, w
40
35
latach 2008-2010 też trend rosnący.

t1 t2 t3 t4 t5 t6 ti

2.3. Analiza współzależności zjawisk

Analiza współzależności (analiza korelacji i regresji) bada zależność między kilkoma


cechami.
Rodzaje zależności (związków):

zależność funkcjonalna zależność stochastyczna (probabilistyczna)


Y  f X  , Y  f  X   ,
gdy określonej wartości X odpowiada gdy wraz ze zmianą wartości jednej
ściśle określona jedna wartość zmiennej Y zmiennej zmienia się rozkład
prawdopodobieństwa drugiej zmiennej

Szczególnym przypadkiem zależności stochastycznej jest zależność korelacyjna


(statystyczna), kiedy określonym wartościom jednej zmiennej odpowiadają ściśle
określone średnie wartości drugiej zmiennej.

38
Podział związków stochastycznych

związki przyczynowo- związki symptomatyczne związki pozorne


skutkowe ( X i Y mają wspólne (iluzoryczne)
( X - przyczyna, przyczyny)
Y - skutek)

jednokierunkowe i dwukierunkowe

2.3.1. Metody badania zależności korelacyjnej

a) Szereg korelacyjny (szczegółowy) – zbiór par  xi , yi  :


xi yi
x1 y1 xi x1 x2 xn
lub yi y1 y2 yn
xn yn
xi - warianty zmiennej objaśniającej (niezależnej) X
yi - warianty zmiennej objaśnianej (zależnej) Y
b) Diagram korelacyjny – wykres szeregu korelacyjnego:
yi yi yi yi

xi xi xi xi
korelacja liniowa korelacja liniowa korelacja brak korelacji
dodatnia ujemna krzywoliniowa
c) Tablica korelacyjna (szereg rozdzielczy):
l
yi
xi
y1 y2 yl n
j 1
ij  ni yi Si2  y 

x1 n11 n12 n1l n1 y1 S12  y 


x2 n21 n22 n2l n2 y2 S22  y 

xk nk1 nk 2 nkl nk yk Sk2  y 


k k l

 nij  n j n1 n2 nl N   ni   n j
i 1 i 1 j 1

y
xj x1 x2 xl
x
S2  y
S 2
 x S2
 x S 2
 x S 2
 x
S 2  x
j 1 2 l

39
W tablicy korelacyjnej cecha (zmienna) X przyjmuje k wariantów:
x1 , x2 , , xk , a cecha (zmienna ) Y - l wariantów: y1 , y2 , , yl .
Liczebności warunkowe nij ( i  1, 2, , k , j  1, 2, , l ) oznaczają liczbę
jednostek reprezentujących równocześnie i -ty wariant X oraz j -ty wariant
zmiennej Y dla i  1, 2, , k , j  1, 2, , l .
W tablicy korelacyjnej wyróżniamy dwa rozkłady: warunkowy i brzegowy
dotyczący zarówno zmiennej X , jak i Y .
d) Rozkład warunkowy (dotyczy rozkładu obu cech):
yi
y1 y2 yl
xi
x1 n11 n12 n1l
x2 n21 n22 n2l

xk nk1 nk 2 nkl
e) Parametry rozkładu warunkowego:
zmiennej X zmiennej Y
średnie warunkowe X : średnie warunkowe Y :
k l
xj  1
n j xn i 1
i ij yi  1
ni y nj 1
j ij

wariancje warunkowe X : wariancje warunkowe Y :

x  x 
k
Si2  y   ni 11   y j  yi  nij
l
S 2j  x  
2 2
1
n j 1 i j nij
i 1 j 1

dla j  1, 2, ,l dla i  1, 2, , k
f) Rozkłady brzegowe (dotyczą rozkładu tylko jednej cechy):
zmiennej X zmiennej Y
(pierwsza i ostatnia (pierwszy i ostatni wiersz z tablicy korelacyjnej)
kolumna z tablicy yi y1 y2 yl
korelacyjnej) k k k k
l n j   nij n 1   ni1 n 2   ni 2 n l   nil
xi ni   nij i 1 i 1 i 1 i 1
j 1
l
x1 n1   n1 j
j 1
l
x2 n2   n2 j
j 1

l
xk nk   nkj
j 1

40
Liczebności: n1 , n2 , , nk oraz n 1 , n 2 , , n l - to liczebności brzegowe.
g) Parametry rozkładów brzegowych
zmiennej X zmiennej Y
średnia cechy X : średnia cechy Y :
k l
x 1
N  xi ni
i 1
y 1
N y n j j
j 1

wariancja cechy X : wariancja cechy Y :


k

 y  y n j
l
S 2  x   x  x  S2  y 
1 2 2
N 1 i ni 1
N 1 j
i 1 j 1
k l
gdzie N   nij
i 1 j 1

h) Wykres regresji empirycznej


Zestawiając wartości jednej cechy ze średnimi warunkowymi drugiej
otrzymujemy wykres regresji empirycznej:
Y od X : oraz X od Y :
xi yi yi y1 y2 yl
x1 y1 xj x1 x2 xl
x2 y2

xk yk
np. lub lub
yi  yj yi  yj yi  yj

xi  xj  xi  xj  x xi  xj 

związek liniowy brak zależności korelacyjnej

2.3.2. Miary korelacji

Wybór miar zależy od:


 rodzaju zmiennych (ilościowe, jakościowe, mieszane),
 liczby obserwacji (mała próba, to szereg korelacyjny, duża – to tablica
korelacyjna),
 kształtu zależności (liniowa, nieliniowa).

41
a) kowariancja
dla szeregu korelacyjnego dla tablicy korelacyjnej

  x  x   y  y  nij
n k l
cov xy  1
n 1   x  x  y  y 
i 1
i i cov xy  1
N 1 i j
i 1 j 1

Kowariancja informuje o kierunku współzależności: dodatniej, gdy cov xy  0 ,


ujemnej, gdy cov xy  0 .

Uwaga: S  x  S  y   cov xy  S  x  S  y  .
b) współczynnik korelacji liniowej Pearsona
cov xy
r
S  x  S  y
Uwaga: r  1,1
Znak współczynnika korelacji informuje o kierunku i sile współzależności:
korelacja ujemna korelacja dodatnia

związek-1 związek r
funkcyjny
-0,8 -0,6 -0,4 -0,2 0 0,2 0,4 0,6 0,8 1 funkcyjny
ujemny dodatni
bardzo umiarkowana bardzo słaba umiarkowana bardzo
korelacja: silna silna słaba słaba silna silna

2.3.3. Niektóre sposoby ogólnej oceny współzależności

Analiza jakościowa określa związki przyczynowo-skutkowe:


 współzależność dwustronna
X Y
przyczyna  skutek
skutek  przyczyna
 współzależność jednostronna
X Y
przyczyna  skutek
 współzależność pozorna
X Y

przyczyna

42
Analiza ilościowa obejmuje:
 analizę korelacji badającą siłę i kierunek związku między cechami,
 analizę regresji budującą matematyczny model powiązań między cechami.
Wzrokowa obserwacja diagramu korelacyjnego pozwala orientacyjnie ocenić istnienie
zależności między zmiennymi lub stwierdzić jej brak.
Jednokierunkowe zmiany wariantów obu cech świadczą o korelacji dodatniej, zaś
różnokierunkowe – o korelacji ujemnej.
Liniowy rozrzut punktów  xi , yi  diagramu świadczy o zależności liniowej, zaś
nieliniowy – o zależności nieliniowej.
Skupienie lub rozproszenie liczebności nij ( i  1, 2, , k , j  1, 2, , l ) wariantów xi , y j
zmiennych X i Y w tablicy korelacyjnej pozwala ocenić kierunek, siłę i kształt
zależności.
Układ liczebności nij wzdłuż przekątnych tablicy korelacyjnej świadczy o zależności
(dodatniej lub ujemnej) liniowej, natomiast ich skupianie wokół innej krzywej może
sugerować zależność nieliniową.
Liniowość zależności:
X od Y : x2  x1  x3  x2   xk  xk 1
Y od X : y2  y1  y3  y2   yl  yl 1
Niezależność korelacyjna:
X od Y : x1  x2  x3   xk  x
Y od X : y1  y2  y3   yl  y
Niezależność stochastyczna:
 x1  x2  x3   xk  x

X od Y :  2
 S1  x   S2  x    Sl  x   S  x 
2 2 2

 y1  y2  y3   yl  y

Y od X :  2
 S1  y   S2  y    S k  y   S  y 
2 2 2

 Niezależność stochastyczna    Niezależność korelacyjna 
Niezależność korelacyjna zmiennej X od Y nie musi oznaczać niezależności
korelacyjnej Y od X .

Przykładowe zadanie 1:
Dane są warianty zmiennej X i Y :
xi 7 9 11 13 15
yi 8 11 13 12 16
- jest to szereg korelacyjny

43
Diagram korelacyjny:
yi
16

13
12
11
Obserwacja wzrokowa wskazuje na
8
zależność liniową.

7 9 11 13 15 xi
Kowariancja i współczynnik korelacji liniowej:
Lp. xi yi xi  x yi  y  xi  x  yi  y   xi  x 
2
 yi  y 
2

1 7 8 -4 -4 16 16 16
2 9 11 -2 -1 2 4 1
3 11 13 0 1 0 0 1
4 13 12 2 0 0 4 0
5 15 16 4 4 16 16 16
n n n n

x  y  y 
n

y   x  x  y  y   34 x  x   34
2
 55  60  40
2
i i i i i i
i 1 i 1 i 1 i 1 i 1

n
x  555  11; y  605  12 ; cov xy  1
n 1   x  x  y  y  
i 1
i i
1
4  34  8,5  0

Kowariancja jest dodatnia, zatem współzależność jest dodatnia.


S 2  x   404  10 ; S 2  y   344  8,5
S  x   3,16 ; S  y   2,91
r   0,92
cov xy 8,5
S  x  S  y  9,19

0,92

-1 0 1 r
Współczynnik korelacji liniowej bliski jest liczbie 1, zatem między zmiennymi X i Y
zostają w bardzo silnej zależności liniowej (dodatniej).

Przykładowe zadanie 2:
Dla N  30 dany jest szereg korelacyjny:
xi 2 2 2 2 2 3 3 3 3 3 3 3 4 4 4 4 4 4 4 4 5 5 5 5 5 5 5 5 5 5

yj 3 3 3 3 3 3 3 3 3 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 5 5 5 5

Zmienna X przyjmuje k  4 warianty, zaś zmienna Y - l  3 warianty.

44
Tabela korelacyjna:
yj 3

xi
y1  3 y2  4 y3  5 n
j 1
ij

x1  2 5 0 0 5
x2  3 4 3 0 7
x3  4 0 8 0 8
x4  5 0 6 4 10
4

n
i 1
ij 9 17 4 N  30

5 0 0
4 0  3
Liczebności warunkowe tworzą macierz:  .
0 0 8
 
0 4  43 6
Obserwacja wzrokowa wskazuje na skupienie się liczebności wokół przekątnej głównej,
co sugeruje zależność liniową dodatnią.
Parametry rozkładu warunkowego:
Średnie warunkowe cechy X :
k
xj  1
n j xn
i 1
i ij

4
x1  1
n1 xn
i 1
i i1  19  2  5  3  4  4  0  5  0   22
9  2, 4

4
x2  1
n2 xn
i 1
i i2  171  2  0  3  3  4  8  5  6   17
71
 4, 2

4
x3  1
n3 xn
i 1
i i3  1
4  2  0  3  0  4  0  5  4   204  5
Średnie warunkowe cechy Y :
l
yi  1
ni y n
j 1
j ij

3
y1  15  y j n1 j  15  3  5  4  0  5  0   155  3
j 1
3
y2  17  y j n2 j  17  3  4  4  3  5  0   24
7  3, 4
j 1
3
y3  18  y j n3 j  81  3  0  4  8  5  0   328  4
j 1

45
3
y4  101  y j n4 j  101  3  0  4  6  5  4   10
44
 4, 4
j 1

Wariancje warunkowe cechy X :

x  x 
k
S 2j  x  
2
1
n j 1 i j nij
i 1

 
4
S12  x    x  x  ni1  81  0, 4   5   0, 6   4   0, 28
1 2 2 2 2,24
n 1 1 i 1 8
i 1

 
4
S22  x    x  x  ni 2  161  1, 2   3   0, 2   8   0,8   6  8,48
16  0,53
1 2 2 2 2
n 2 1 i 2
i 1
4
S32  x    x  x  ni 3  13   0   0
1 2
n 3 1 i 3
i 1

Wariancje warunkowe cechy Y :

Si2  y   ni 11   y j  yi  nij


l
2

j 1

 y  y1  n1 j  14   0   0
3
S12  y  
2
1
n1 1 j
j 1


S22  y   n211   y j  y2  n2 j  16   0, 4   4   0, 6   3  1,72 
3
2
6  0,3
2 2

j 1

 y  y3  n3 j  17   0   0
3
S32  y  
2
1
n3 1 j
j 1

 y 
 y4  n4 j  19   0, 4   6   0, 6   4  2, 08 
3
 y 
2 2 2 2
1
S 4 n4 1 j
j 1

Rozkłady brzegowe i ich parametry:


zmiennej X : zmiennej Y :
xi ni yi 3 4 5
2 5 n j 9 17 4 N  30
3 7
4 8
5 10
N  30
Średnia cechy X :
x  291  2  5  3  7  4  8  5 10  113
29  3,9

Średnia cechy Y :
y  291  3  9  4 17  5  4  115
29  3,96

Wariancja cechy X :
S 2  x  1
29  1,9  5   0,9  7   0,1  8  1,1 10  
2 2 2 2 35,9
29  1, 24

46
Wariancja cechy Y :
S2  y  1
29  0,96  9   0, 04 17  1, 04   4  
2 2 2 12,88
29  0, 44
Wykres regresji empirycznej:
Y od X : X od Y :
xi yi yj 3 4 5
2 3 x j 2,4 4,2 5
3 3,4
4 4
5 4,4
yi xj
4,4 5
4
3,4
4,2
3

2,4
2 3 4 5 xi
3 4 5 yj
Wykres regresji wskazuje na zależność liniową dodatnią.
Miary korelacji:
Kowariancja:

  x  x   y  y  nij 
k l
cov xy  1
N 1 i j
i 1 j 1

 1
29   2  3,9  3  3,96   5   2  3,9  4  3,96   0   2  3,9 5  3,96   0 
  3  3,9  3  3,96   4   3  3,9  4  3,96   3   3  3,9  5  3,96   0 
  4  3,9  3  3,96   0   4  3,9  4  3,96   8   4  3,9  5  3,96   0
  5  3,9  3  3,96   0    5  3,9  4  3,96   6   5  3,9   5  3,96   4  
 1
29   1,9    0,96   5   0,9    0,96   4   0,9   0, 04  3  0,1 0, 04  8 
1,1 0, 04  6  1,1 0, 04  4   13,156
29  0, 45  0  zależność dodatnia

Współczynnik korelacji liniowej:


r    0, 62  0, 6 czyli występuje silna korelacja dodatnia
cov xy 0,45 0,45
S  x  S  y  1,24  0,44 0,73
0,62

-1 0 1 r

47
48
3. Przypomnienie wiadomości z rachunku
prawdopodobieństwa
3.1. Podstawowe pojęcia probabilistyczne
Doświadczenie losowe – to eksperyment dający się wielokrotnie powtarzać w prawie
identycznych warunkach.
Zdarzenie losowe  A, B, C,  - to niedający się przewidzieć wynik doświadczenia
losowego.
Zdarzenie elementarne    - to pojęcie pierwotne rachunku prawdopodobieństwa;
rozumie się je jako pojedynczy wynik doświadczenia losowego.
Zbiór (przestrzeń) zdarzeń elementarnych   - to zbiór wszystkich możliwych
wyników doświadczenia losowego. Podzbiory zbioru  , to zdarzenia losowe
 A, B, C,   .
Zdarzenie niemożliwe    - to zdarzenie, które nie może zaistnieć.
Zdarzenie pewne – to przestrzeń  .
Zdarzenie przeciwne do A - to A oznacza, że nie zachodzi A .

3.2. Definicja prawdopodobieństwa


Częstość zdarzenia
Jeżeli w n powtórzeniach pewnego doświadczenia interesujący nas wynik pojawi się k
razy, to liczba: kn jest częstością występowania tego wyniku.
Klasyczna definicja prawdopodobieństwa
 - zbiór skończony o n   zdarzeniach elementarnych. Zdarzenia elementarne i są
jednakowo prawdopodobne i  1, 2, , n . Zdarzenie A . Wówczas
prawdopodobieństwo zdarzenia A wyraża się wzorem:
A liczba zdarzeń sprzyjających zajściu zdarzenia A
PA  
 liczba wszystkich możliwych zdarzeń
Aksjomatyczna definicja prawdopodobieństwa
Prawdopodobieństwo P jest funkcją rzeczywistą określoną na zdarzeniach losowych
w sposób następujący: P : A  P  A ; A   , P  A  i spełniającą aksjomaty:
A1) P  A  0 ,
A2)  A  B     P  A  B   P  A  P  B  
A3) P    1 .

49
3.3. Własności prawdopodobieństwa

Dla dowolnych A, B   :
a) P   0 ,
b) P  A  1  P  A ,
c)  A  B    P  A  P  B  ,
d) P  A  B   P  A  P  B   P  A  B  ,
e)  A  B    P  A  P  B  ,
f) P  A  1 ,
g) P  A  B   P  A  P  B   P  A  B
h) P  A  B   P  A  P  B 
i) P  A  0;1
P  A  B  C   P  A  P  B   P C  
j)
P  A  B   P  B  C   P  A  C   P  A  B  C 

3.4. Prawdopodobieństwo warunkowe

Jest to prawdopodobieństwo zajścia zdarzenia A   pod warunkiem, że zaszło


zdarzenie B   , przy czym P  B   0 .
P  A  B
P  A / B 
P  B

3.5. Niezależność zdarzeń

Zdarzenia A i B są niezależne, jeśli


P  A  B   P  A  P  B 
Zdarzenia A , B i C są niezależne, jeśli
 P  A  B  C   P  A   P  B   P  C  - niezależność zespołowa

 P  A  B   P  A  P  B  
 
 P  B  C   P  B   P  C   - niezależność parami
 P  A  C   P  A  P C 
 

50
3.6. Prawdopodobieństwo całkowite

Jeżeli   B1  B2   Bn i Bi  B j   dla i, j  1, 2, , n . Wówczas


prawdopodobieństwo zdarzenia A   wyraża się wzorem:
n
P  A   P  A / Bi   P  Bi 
i 1

Prawdopodobieństwo całkowite ma związek z drzewem probabilistycznym oraz


regułą iloczynu i sumy:

P  B1  P  Bn 
P  B2 

B1 B2 Bn

P(A/B 1 )
P(A'/B 1 )
P(A/Bn ) P(A'/B n )
P(A/B 2 ) P(A'/B2 )

A/B 1 A'/B 1 A/B 2 A'/B 2 A/B n A'/B n

3.7. Wzór Bayesa

Przy założeniach, jak w prawdopodobieństwie całkowitym, mamy:


P  A / Bi   P  Bi 
P  Bi / A   n
 P  Bi   P  A / Bi 
i 1

Uwaga:
Prawdopodobieństwo P  Bi  nazywane jest prawdopodobieństwem a prori, zaś
prawdopodobieństwo P  Bi / A - prawdopodobieństwem a posteriori.

3.8. Schemat Bernoulliego

W n próbach, z których każda kończyć się może jednym z dwóch możliwych


wyników: sukcesem: A z prawdopodobieństwem: p  P  A , albo porażką: A
z prawdopodobieństwem: q  1  p .
Wówczas prawdopodobieństwo uzyskania k  n sukcesów w n próbach
wyraża się wzorem:
n
P  Sn  k      p k  q nk .
k 
51
Przykładowe zadanie 1
Z urny zawierającej 5 kul białych i 5 kul czarnych wyciągamy jedną kulę,
a z pozostałych losujemy dwie kule. Obliczyć prawdopodobieństwo, że kule wyciągnięte
w drugim losowaniu są różnych kolorów.

Oto drzewo reprezentujące doświadczenie losowe opisane w zadaniu wraz


z ilustracją urn:
5 kul 5 kul
białych czarnych I etap
doświadczenia
- wyciągnięcie
5 1 5 1 pierwszej kuli
  z 10 kul -
10 2 10 2
- B - biała lub
C - czarna
4 kule 5 kul 5 kul 4 kule
białe czarnych białych czarne
B (biała)
C (czarna)


4 
5 
5 
4
   

2 
2 
2 
2

9 
4 5 9 
9 
5 4 9 II etap
      wyciągnięcie

2 
1 1

2 
2 
1 1

2 dwóch kul

9 
9 z 10 kul
 

2 
2
(B, B) (B, C) (C, C) (B, B) (B, C) (C, C)
(biała, biała) (biała, czarna) (czarna, czarna) (biała, biała) (biała, czarna) (czarna, czarna)

Zgodnie z treścią zadania interesują nas tylko wyróżnione gałęzie zakończone


wylosowaniem w drugim etapie dwóch kul różnych kolorów: (B, C) – białej i czarnej.
 4  5   4  4 
     
P   B, C    1
2   1  1 
9
 1
2   1  1 
9
 95
   
 2  2
zasada mnożenia zasada mnożenia
zasada dodawania

Przykładowe zadanie 2
Oblicz prawdopodobieństwo, że w 10-ciu rzutach kostką:
a) 8 razy uzyskamy sześć oczek.
10   1   5  1125
8 2

Rozwiązanie: P  S10  8            10
 8  6 6 6
b) co najmniej 8 razy uzyskamy sześć oczek.
i 10 i
10   1   5  10
1176
Rozwiązanie: P  S10  8        
i 8  i   6   6  610
c) co najwyżej 8 razy uzyskamy sześć oczek.

52
i 10 i
8
10   1   5  610  51
Rozwiązanie: P  S10  8        
i 0  i   6   6  610
d) więcej niż 8 razy uzyskamy sześć oczek.
i 10 i
10
10   1   5  51
Rozwiązanie: P  S10  8        
i 9  i   6   6  610
e) mniej niż 8 razy uzyskamy sześć oczek.
i 10i
7
10   1   5  610  1176
Rozwiązanie: P  S10  8        
i 0  i   6   6  610
f) więcej niż 5 i mniej niż 8 razy uzyskamy sześć oczek.
10   1   5  10   1   5  53 1170
6 4 7 3

Rozwiązanie: P  5  S10  8                
 6  6   6   7  6   6  610

53
54
4. Podstawy statystyki matematycznej

4.1. Zmienne losowe i ich rodzaje

4.1.1. Pojęcie zmiennej losowej

Zmienna losowa X , to funkcja określona na przestrzeni probabilistycznej 


i przyjmująca wartości liczbowe z określonym prawdopodobieństwem:
X : 
X:  xi  X i  z prawdopodobieństwem pi  P  X  xi 
realizacje zmiennej losowej X

4.1.2. Typy zmiennej losowej

Zbiór wartości zmiennej losowej może być:

skończony lub przeliczalny lub nieskończony i nieprzeliczalny

Wtedy zmienna losowa nazywa się Wtedy zmienna losowa nazywa się
skokową, czyli dyskretną. ciągłą.

4.1.3. Cecha statystyczna, a zmienna losowa

X : X    x P  X  x
zmienna funkcja
losowa realizacja rozkładu prawdopodobieństwo,
zmiennej losowej prawdopodobieństwa że zmienna losowa X
(rozkład przyjmuje wartość x
prawdopodobieństwa)

Analogie między statystyką opisową, a matematyczną:


STATYSTYKA
STATYSTYKA MATEMATYCZNA
OPISOWA
zbiorowość statystyczna populacja generalna

cecha statystyczna X zmienna losowa X

warianty cechy xi realizacje zmiennej losowej xi

funkcja rozkładu:

55
 pi  P  X i   xi  ; dla zmiennej losowej skokowej
ni
częstość względna N

P  x  X  x x 
 f  x   lim
x 0
x ; dla zmiennej losowej ciągłej

 funkcja gęśtosci
prawdopodobieństwa

rozkład cechy: rozkład zmiennej losowej skokowej:


 xi , ni   xi , pi 
xi x1 x2 xk xi x1 x2 xk
ni n1 n2 nk pi p1 p2 pk

dystrybuanta empiryczna dystrybuanta zmiennej losowej:


(częstość skumulowana)   pi ; dla zmiennej skokowej
F  x  xi   xi  x
F  x   x
  f  t  dt ; dla zmiennej ciągłej
 

parametry opisowe parametry rozkładu


 x, S 
2
 EX , S X  2

Uwaga:
Funkcja rozkładu prawdopodobieństwa:
dla zmiennej losowej skokowej: dla zmiennej losowej ciągłej:
P  X  xi   pi ; i  1, 2, ,n f  x   lim
P x  X  x x 
x
x 0

(gęstość prawdopodobieństwa)
oraz dystrybuanta:
dla zmiennej losowej skokowej: dla zmiennej losowej ciągłej:
F  x   P  X  x    pi x

xi  x F  x   f  t  dt


są to funkcje opisujące rozkład zmiennej losowej.

56
4.1.4. Podstawowe parametry rozkładu zmiennej losowej

Rozkład zmiennej losowej (podobnie, jak rozkład cechy) jest scharakteryzowany


za pomocą parametrów rozkładu.
(1) Wartość oczekiwana (wartość średnia) zmiennej losowej:
 xi pi ; dla zmiennej skokowej
 i
m  EX   
  xf  x  dx; dla zmiennej ciągłej
 
(2) Wariancja zmiennej losowej:
  xi  m 2 pi ; dla zmiennej skokowej
 i
VX  S X  D X   
2 2

   x  m 2 f  x  dx; dla zmiennej ciągłej


 
(3) Odchylenie standardowe zmiennej losowej:
SX  DX  VX

4.1.5. Analogie między zmiennymi losowymi skokowymi i ciągłymi

ZMIENNE LOSOWE
SKOKOWE zagadnienia CIĄGŁE
P  X  xi   pi ; i  1, 2, ,n P  x  X  x  x 
funkcja rozkładu f  x   lim
xi x1 x2 xn
prawdopodobieństwa
x  0 x
funkcja
pi p1 p2 pn gęstości

F  x   P  X  x    pi
x

dystrybuanta F  x   f  t  dt
xi  x


p
i
i 1 własność  f  x  dx  1

wartość oczekiwana 
EX   xi pi
i
(średnia) zmiennej EX 

 xf  x  dx
losowej

VX  S 2 X    xi  EX  pi
  x  EX  f  x  dx
2
wariancja zmiennej VX  S X  2 2

i losowej 
odchylenie standardowe
SX  VX  S 2 X
wzór
VX  S X  EX 2   EX 
2 2

57
4.2. Rozkłady zmiennej losowej

4.2.1. Rozkłady zmiennej losowej skokowej

(1) Rozkład dwupunktowy (zerojedynkowy):


a) funkcja prawdopodobieństwa:
xi 1 0
pi p q  1  p  pi  1
0; dla x  0

b) dystrybuanta: F  x   1  p; dla 0  x  1
 p; dla x  1

c) wykresy:
P   x i  F x 

1 1

1 p 1 p

0 1 x 0 1 x
d) parametry rozkładu:
EX  p ; S 2 X  p 1  p   pq
e) własności:
- ma zastosowanie w jednorazowej realizacji doświadczenia.
(2) Rozkład dwumianowy (Bernoulliego):
a) funkcja prawdopodobieństwa:
n
P  X  k     p k  q nk ; k 
k 
b) dystrybuanta:
n
F  x   P  X  x      p k q nk ; q  1  p
kx  k 

58
c) wykresy:
P   x i  F x 

1 1

np. 0 1 2 3 x 0 1 2 3 x
d) parametry rozkładu:
EX  np ; S 2 X  npq; q  1  p
e) własności:
- p  q , to rozkład jest symetryczny,
- p  q , to rozkład jest lewostronnie asymetryczny,
- p  q , to rozkład jest prawostronnie asymetryczny,
- p  q i n   , to granicznym rozkładem jest rozkład normalny,
- p  0,02 i n   , to granicznym rozkładem jest rozkład Poissone’a.
(3) Rozkład Poissona:
a) funkcja prawdopodobieństwa:
k
P X  k  e  ;   np ; k  ; e  2,7182...
k!
b) dystrybuanta:
k
F  x  P  X  x   e 
kx k!
c) parametry rozkładu:
EX    np ; S 2 X    np
d) własności:
- wartości prawdopodobieństw są stablicowane dla  i k ,
- jest rozkładem prawostronnie asymetrycznym,
- ma zastosowanie w kontroli jakości,
- jest granicznym rozkładem dla rozkładu dwumianowego, gdy p  0,02
i n  .
(4) Rozkład geometryczny:
realizacje X : xi  i; i  1, 2,
prawdopodobieństwa: pi  p 1  p 
i 1

EX  1p ; S 2 X  1p2p

59
4.2.2. Rozkłady zmiennej losowej ciągłej

Dla zmiennych losowych ciągłych niemożliwe jest przypisanie


prawdopodobieństw wszystkim ich wartościom, ale można określić gęstość
prawdopodobieństwa w dowolnie małym przedziale x , gdy x  0 . Jest to funkcja
gęstości prawdopodobieństwa:
P  x  X  x  x 
f  x   lim
x 0 x
Pole pod wykresem funkcji gęstości jest równe 1:


 f  x  dx  1


Dystrybuanta zmiennej losowej ciągłej:


x
F  x  P  X  x   f  t  dt


Zatem funkcja gęstości zmiennej losowej ciągłej jest pochodną dystrybuanty:


dF  x 
f  x   F   x  (dla F różniczkowalnej)
dx
Interpretacja geometryczna:
f x  F x 
1
Fx4

Fx3
P2

Fx1   2
Fx
P1 P3
x1 x2 x3 x4 x x1 x2 x3 x4 x

P1  P  X  x1   F  x1 
P2  P  x2  X  x3   F  x3   F  x2 
P3  P  X  x4   1  F  x4 
Ogólnie:
b
P  a  X  b    f  x  dx  F  b   F  a 
a

(1) Rozkład jednostajny (prostokątny, równomierny):


Każdej wartości xi  a, b x x odpowiada jednakowa gęstość
a i b

prawdopodobieństw f  x  .

60
a) funkcja gęstości:
0; dla x  a

f  x    b1 a ; dla a  x  b
0; dla x  b

b) dystrybuanta:
0; dla x  a

F  x    bxaa ; dla a  x  b
0; dla x  b

c) wykresy:
f x  F x 

1
1
b a

a b x a b x

d) parametry rozkładu:
 ba 
2

EX  a2b ; S 2 X  12

e) własności:
- zastosowanie do opisu zmian ze stała częstotliwością (prędkością).
(2) Rozkład normalny (Gaussa-Laplace’a):
z parametrami  ,  : N   ,  
a) funkcja gęstości:
 x 2
1
f  x  e 2 2 ; x   ;  ;   0 ;   3,14 ; e  2,7182
 2
b) dystrybuanta:
x  t   2
1
F  x  e 2 2
dt ; x   ;  ;   0
 2 

c) wykresy:
f x 
1

2

F x 
1

0,5

 x

krzywa normalna
w kształcie dzwonu  x

61
d) parametry rozkładu:
  x   2   x   2
1 1
  EX   dx ;  2  S 2 X   x   e
2
2 2 2 2
xe dx
 2   2 

e) własności:
- rozkład symetryczny
- jest granicznym rozkładem rozkładu dwumianowego dla p  q i n  
- ma szerokie zastosowanie do opisu zjawisk społecznych i przyrodniczych.
(3) Rozkład t-Studenta (Gosseta):
X 
Statystyka: t  n ma rozkład t-Studenta z k  n 1 liczbą stopni
S
swobody.
E t   0 ; S  t   k
k 2  k 1
k 3 ; k 3
f t 

Wykres funkcji f  t  - krzywa gęstości rozkłady t-Studenta ma kształt krzywej


dzwonowej nieco spłaszczonej w porównaniu z wykresem funkcji gęstości
rozkładu normalnego.
Rozkład t-Studenta ma zastosowanie do wnioskowania o średniej w populacji
z rozkładem normalnym z nieznanym odchyleniem standardowym. Jest on
stablicowany.
(4) Rozkład  2 (chi-kwadrat):

Statystyka:  
2  n  1 S 2
ma rozkład  2 z k  n 1 liczbą stopni swobody.
 2

Funkcja gęstości rozkładu  2 zależy od liczby stopni swobody k  n 1 i jej


wykres ma różny kształt w zależności od k :
f   k 1
2

k 3

k 5
k  12

2

 
E   2   k  n  1 ; S  2  2k  2  n  1

62
Rozkład  2 ma zastosowanie do wnioskowania o wariancji  2 w populacji
z rozkładem normalnym. Jest on stablicowany.
(5) Rozkład F-Snedecora:
Sˆ12
Statystyka F  2 ma rozkład F-Snedecora o k1  n1  1 i k2  n2 1 stopniach
Sˆ 2

swobody, gdzie n1 - liczebność pierwszej próby, n2 - liczebność drugiej próby.


Wykres funkcji gęstości rozkładu F-Snedecora:
f F 

F
2 k22  k1  k2  2 
E F   k2
k2  2 ; S 2
 F   k  k  2  k  4
1 2
2
2

Rozkład F-Snedecora ma zastosowanie do wnioskowania przy porównaniu


wariancji dwóch prób wylosowanych niezależnie z dwóch populacji normalnych
o jednakowych wariancjach i dowolnych średnich. Rozkład ten jest stablicowany.

4.2.3. Standaryzacja rozkładu normalnego N  ,  

Rozkład normalny N  ,   można standaryzować (sprowadzić) do rozkładu


normalnego z parametrami   0 i   1 , czyli do rozkładu N  0,1 poprzez
X 
wprowadzenie nowej zmiennej losowej: U   .
X - ma rozkład N  ,   , a U - ma rozkład N  0,1
Wówczas:
funkcja gęstości ma postać:
f u  
2
1  u2
2
e
a dystrybuanta:
u
 u  
2

 e 2 dt
1 t
2


63
 u 
f u  1
2 1

0,5

0
u u

  u   1    u 
Rozkład normalny standaryzowany N  0,1 jest stablicowany. Ma on zastosowanie do
wnioskowania o średniej  w populacji z rozkładem normalnym N  ,   ze znanym
odchyleniem standardowym  w populacji.

4.2.4. Reguła 3-ch 

Niech X ma rozkład normalny N  ,   . Wówczas:


- ok.68,3% obserwacji mieści się w granicach 1-go odchylenia standardowego  :
f x 
1

2



 
 x

P      X       0,6826
po standaryzacji:
f u  1
2

-1 1
u

P  1  U  1  0,6826
- ok. 95,5% obserwacji mieści się w granicach 2-ch odchyleń standardowych 2 :

64
f x 
1

2


2  
2 x

P    25  X    25  0,9545

po standaryzacji:
f u  1
2

-2 2
u

P  2  U  2  0,9545
- ok. 99,7% obserwacji mieści się w granicach 3-ch odchyleń standardowych 3 :
f x 
1

2


3  
3 x

P    35  X    35  0,9973
po standaryzacji:
f u  1
2

-3 3
u

P  3  U  3  0,9973

65
Podsumowując, mamy:
f x 
1

2

  2 
 3  
 

 2 
 3 x

68,3%
wszystkich obserwacji

95,5%
wszystkich obserwacji

99,7%
wszystkich obserwacji

4.3. Rozkłady statystyk z próby

Statystyki z próby W , to parametry charakteryzujące próbę losową


n -elementową: X1 , X 2 , , X n . Są one zmiennymi losowymi określonymi na przestrzeni
prób:
W  f  X1 , X 2 , , Xn 
Podczas wnioskowania statystycznego o populacji na podstawie próby można posłużyć
się różnymi statystykami, np. średnią z próby, wariancją z próby:
n n

 Xi , S 2   X X
2
X 1
n
1
n 1 i
i 1 i 1

Statystyka, jako funkcja zmiennych losowych, jest zmienną losową, która ma pewien
rozkład – jest to rozkład statystyki z próby.

4.3.1. Rozkład średniej arytmetycznej z próby

Niech X ma rozkład N  ,   , a X1 , X 2 , , X n - to n -elementowa próba


losowa. Średnia arytmetyczna z próby ma rozkład normalny ze średnią E  X   

i wariancją D  X   
n
. Czyli:

X N   ,   , to X 
N , 
n 

66
f x 

rozkład X

N , 
n 

rozkład X N  
, 

 x

Do wnioskowania o średniej  w populacji wykorzystuje się odpowiednią zmienną


losową w zależności od tego, czy znane jest  w populacji, czy nie:

 - znane lub  - nieznane

X  X 
U  n t S n 1
o rozkładzie N  0,1 o rozkładzie t-Studenta o k  n 1
stopniach swobody, gdzie
odchylenie standardowe z próby
wyraża się wzorem:
n

 X X
2
S 1
n 1 i
i 1

4.3.2. Rozkład wariancji z próby

Niech X ma rozkład N  ,   , a X1 , X 2 , , X n - to n -elementowa próba losowa


n

 X  X  . Do wnioskowania o wariancji  2 w populacji


2
o wariancji S 2  1
n 1 i
i 1

wykorzystuje się odpowiednią zmienną losową w zależności od wielkości próby:

mała próba duża próba


n  30 n  30

n
2   
Xi  

n 1 S 2 Z  2  2  2k  1
2

2 2
i 1
o rozkładzie N  0,1
o rozkładzie  2
z k  n 1 stopniami swobody

67
4.4. Teoria estymacji

POPULACJA
nieznany parametr Q  ?
np.  ,  2 ,  , p (frakcja)
WNIOSKOWANIE
STATYSTYCZNE
PRÓBA
estymator T parametru Q w populacji
np. X , S 2 , S , p̂ (częstość w próbie)

4.4.1. Estymacja, estymator

a) Estymacja, to inaczej szacowanie, przybliżanie nieznanego parametru


w populacji  Q  na podstawie badań statystycznych przeprowadzonych
w próbie.
b) Estymator T  , to obliczony w próbie parametr – odpowiednik nieznanego
parametru  Q  w populacji.
c) Definicja i własności estymatora:
Niech X1 , X 2 , , X n oznacza próbę losową. Estymator Tn nieznanego parametru
Q populacji jest funkcją próby losowej:
Tn  f  X1 , X 2 , , Xn 
Wartość estymatora, to ocena (punktowa) nieznanego parametru populacji:
estymator Tn X S2 S
parametr Q populacji  2 
Różne wartości ocen Tn parametru Q są obarczone błędami szacunku: Tn  Q .
Mały błąd szacunku gwarantuje dużą precyzję oceny.
Własności estymatorów zapewniają optymalną precyzję szacunku. Oto one:
(1) nieobciążoność: E Tn   Q ,
(2) zgodność: lim P  Tn  Q     1 ,
n 

(3) efektywność – najmniejsza wariancja estymatora (odwrotność wariancji, to


precyzja estymatora),
(4) dostateczność – wykorzystanie wszystkich informacji z próby o szacowanym
parametrze.

68
4.4.2. Rodzaje estymacji

ESTYMACJA

PARAMETRYCZNA NIEPARAMETRYCZNA
(szacowanie tylko nieznanych parametrów (szacowanie dotyczy również
w znanym typie rozkładu populacji generalnej) nieznanej postaci funkcji
rozkładu populacji)

PUNKTOWA PRZEDZIAŁOWA
(za ocenę przyjmuje (konstruuje się przedział
się konkretną liczbę ufności, który
z wyników próby) z określonym z góry
prawdopodobieństwem
bliskim liczbie 1 pokrywa
(zawiera) nieznaną wartość
szacowanego parametru
populacji)

4.4.3. Przedziały ufności

a ; b tzn. P  a  Q  b   1  
współczynnik
dolna górna ufności
granica granica (ok. 0,9; 0,95
przedziału przedziału 0,98; 0,99)
ufności ufności

(  - poziom istotności, np.   0,1 ,   0,05 ,   0,02 ,   0,01 )


l  b  a - tj. długość przedziału ufności
1
2l
- tj. bezwzględna precyzja (maksymalny błąd) szacunku
1l
2
T 100% - względna precyzja szacunku estymatora T
(1) Przedział ufności dla średniej  w populacji normalnej

 
n
Estymatorem średniej  jest średnia z próby: X  1
n X
i 1
i o rozkładzie N  , 
n

 - znane założenie:  - nieznane, mała próba


populacja
ma
rozkład
N  , 
ze znanym odchyleniem z nieznanym odchyleniem standardowym
standardowym  (mała próba: n  120 )
Po standaryzacji U  X n ma Stosujemy statystykę t  X S n 1
rozkład N  0,1 . o rozkładzie t-Studenta o k  n 1 stopniach
69
Dla określonego  z tablic rozkładu swobody. Dla określonego  i k z tablic
normalnego odczytuje się u tak, by rozkładu t-Studenta odczytujemy t tak, by
P  u  U  u   1   , czyli po P  t ,k  U  t ,k   1   , czyli po
przekształceniu: przekształceniu
 
P X  u n    X  u n  1   
P X  t ,k S
n 1
   X  t ,k S
n 1   1
Uwaga:
Szacowanie średniej  w populacji o nieznanym rozkładzie na podstawie dużej
próby  n  120 odbywa się z wykorzystaniem wniosku o tym, że w miarę
wzrostu próby rozkład średniej arytmetycznej z próby dąży do rozkładu
normalnego. Wówczas przyjmując, że n  Sn  n  120 , mamy następujący
przedział ufności dla średniej  :


P X  u S
n
   X  u S
n   1 
Jakość takiego oszacowania wzrasta wraz ze wzrostem liczebności próby  n  .
(2) Przedział ufności dla wariancji  2 w populacji normalnej
n

 X X .
2
Estymatorem wariancji  2 jest wariancja z próby: S 2  1
n 1 i
i 1

Założenie: populacja ma rozkład normalny N  ,   i próba jest mała  n  30  .


 n 1 S 2
Stosujemy statystykę  2  2
o rozkładzie  2 z k  n 1 stopniami swobody.
Dla określenia  i k z tablic rozkładu  2 odczytujemy 12  ,k i  2 ,k tak, by:
2 2


P 12  ,k   2   2,k  1  
2 2

czyli po przekształceniu:
 n 1 S 2 n 1 S 2 
P   2   2   2    1  .
 2 ,k 1 ,k
2 
Uwaga: Szacowanie wariancji  2 w populacji o rozkładzie normalnym N  ,  
na podstawie dużej próby  n  30  odbywa się z wykorzystaniem tablic rozkładu
normalnego ( u - odczytuje się z tablic dla określonego  ). Wówczas przedział
ufności dla wariancji  2 jest następujący:


P S  u2Sn 
2
  2 S  u S
2n    1 
2

 X X .
2
gdzie S  1
n 1 i
i 1

70
(3) Przedział ufności dla odchylenia standardowego  w populacji normalnej
Estymatorem odchylenia standardowego  jest odchylenie standardowe

  . Założenie: populacja
n

 X X
2
w próby: S  1
n 1 i o rozkładzie N  , 
2n
i 1

ma rozkład normalny N  ,   i próba jest duża  n  30  . Stosujemy statystykę


U  S 2n
o rozkładzie asymptotycznie normalnym N  0,1 . Dla określonego  z tablic
rozkładu normalnego odczytujemy u tak, by:
P  u  U  u   1   ,
czyli po przekształceniu

P S  u S
2n
   S  u S
2n   1  .
Uwaga: Szacowanie odchylenia standardowego  w populacji o rozkładzie
normalnym N  ,   na podstawie małej próby  n  30  odbywa się
z zastosowaniem rozkładu  2 z k  n 1 stopniami swobody. Wówczas
przedział ufności dla odchylenia standardowego  jest następujący:
 n 1 S 2 n 1 S 2 
P   2     2    1  .
  ,k
2
1 ,k
2 
(4) Przedział ufności dla frakcji w populacji
Frakcja  P  , to odsetek (wskaźnik struktury) wyróżnionych elementów
w populacji mających daną cechę. Założenia: populacja ma rozkład
dwumianowy, liczebność próby jest duża (np. n  100 , n  300 ). Estymatorem
p jest częstość sukcesu w próbie: P  kn obliczana, jako liczba sukcesów k
w n -elementowej próbie. Wskaźnik P  kn ma rozkład normalny z parametrami

  p
k
p 1 p  p 1 p 
p i : N p, . Stosujemy statystykę U  n
o rozkładzie
p 1 p 
n n
n

N  0,1 . Dla ustalonego  z tablic rozkładu normalnego odczytujemy u tak,


by:
P  u  U  u   1  
czyli po przekształceniu i podstawieniu p  kn :

P  kn  u
k
n 1  kn   p  k  u k
n 1  kn    1   .

 n n
n 
 

71
Przykładowe zadanie 1
Określić przedział ufności dla średniego stażu pracy pracowników w populacji
o rozkładzie normalnym N  ;3 na poziomie ufności 0,95 wiedząc, że na podstawie
144-elementowej próby losowej ustalono średni staż pracy równy 10 lat.
Rozwiązanie:
Skoro 1    0,95 , to   0,05 . Odchylenie standardowe jest dane:   3 . Liczebność
X 
próby n  144 . Średnia X  10 . Stosujemy statystykę U  n  103 144
o rozkładzie N  0,1 . Z tablic rozkładu normalnego odczytujemy u0,05  1,96 .
Wyznaczamy przedział ufności dla średniej  :

P X  u 
n
   X  u 
n   1 
czyli

P 10  1,96 3
144
   10  1,96 3
144   0,95
czyli
P  9,56    10, 44  0,95
Zatem przedział ufności  9,56;10, 44 z prawdopodobieństwem 0,95 pokrywa nieznaną
średnią stażu pracy w populacji.

Przykładowe zadanie 2
Na podstawie próby liczącej 24 uczniów szkół danego regionu ustalono średni dzienny
czas samodzielnej nauki na poziomie 90 minut dziennie z odchyleniem standardowym 4
minut. Na poziomie ufności 0,90 oszacować średni dzienny czas samodzielnej nauki
uczniów
w tym regionie, zakładając, że rozkład czasu nauki jest rozkładem N  ,   .
Rozwiązanie
Z danych mamy:
  0,1 , X  90 , S  4 , n  24 ,  - nieznane
X 
Stosujemy rozkład t-Studenta t ,n1  S n  904  24 . Dla   0,1 i n 1  23 stopni
swobody odczytujemy wartość krytyczną t0,1;23  1, 714 rozkładu t-Studenta.
Wyznaczymy przedział ufności średniej  :

P X  t ,n 1 S
n
   X  t ,n 1 S
n   1
czyli

P 90  1, 714 4
24
   90  1, 714 4
24   0,9
czyli

72
P 88,6    91, 4  0,9
Zatem z 90%-ową pewnością szacujemy, iż średnio uczniowie tego regionu poświęcają
dziennie od 88,6 do 91,4 minut na samodzielną naukę.

Przykładowe zadanie 3
Aby ocenić zróżnicowanie średnicy drzew w parku zmierzono średnicę 7-miu losowo
wybranych drzew i otrzymano X  35cm i S 2  2cm2 . Zakładając, że rozkład średnicy
drzew w parku ma rozkład normalny, na poziomie ufności 0,95, ocenić zróżnicowanie
średnicy drzew w parku.
Rozwiązanie:
Na podstawie danych mamy:   0,05 , X  35 , S 2  2 , n  7 . Stosujemy statystykę
2  
n 1 S 2
2
 622 o rozkładzie chi-kwadrat z n 1  6 stopniami swobody. Z tablic tego
rozkładu odczytujemy dla   0,05 wartość krytyczną tej statystyki
 2;n1   2 0,05
;6
  0,025;6
2
 14, 449 oraz 12  ;n1  12 0,05
;6
  0,975;6
2
 1, 237 . Zatem
2 2 2 2

wyznaczamy przedział ufności dla wariancji:


  n  1 S 2  n  1 S 2   1  
P   2

  2;n 1 12  ;n1 
 2 2 
czyli
  7  1  2  7  1  2   0,95
P 2  
 14, 449 1, 237 
czyli
P  0,83   2  9, 7   0,95
Stąd z prawdopodobieństwem 0,95 wariancja  2 pokryta jest przez przedział
 0,83;9,7  . Wiedząc, że    2 , otrzymujemy z 95% ufnością przedział ufności dla
odchylenia standardowego 0,91    3,11 . Jest to zakres zróżnicowania średnicy drzew
w tym parku.

Przykładowe zadanie 4
Z populacji 100 tysięcy osób wylosowano 100 osób, z których 10 ma zmienić miejsce
zamieszkania. Przyjmując współczynnik ufności 0,9 wyznaczyć przedział ufności dla
frakcji osób tej grupy zamierzających opuścić dotychczasowe miejsce zamieszkania.
Rozwiązanie:

73
Na podstawie danych mamy: P  kn  100
10
 101 oraz   0,1 . Aby oszacować wskaźnik
k
p
struktury populacji p stosujemy statystykę U  n
o rozkładzie N  0,1 i z tablic
p 1 p 
n

tego rozkładu odczytujemy wartość krytyczną u0,1  1, 64 . Wyznaczamy przedział


ufności dla frakcji:

P  101  1, 64
1
10 1  101   p  1
 1, 64
1
10 1  101    0,9
 100 10
100 
 
czyli
P  0,05  p  0,14  0,9
Zatem na poziomie ufności 0,9 można stwierdzić, że odsetek osób zamierzających
opuścić miejsce swego pobytu jest nie mniejszy niż 5% i nie większy niż 14%.

4.5. Weryfikacja hipotez

POPULACJA
HIPOTEZY
WNIOSKOWANIE
STATYSTYCZNE
PRÓBA
TESTY

Weryfikacja, to sprawdzanie (testowanie) pewnych hipotez (przypuszczeń) dotyczących


populacji na podstawie badań próby losowej przy pomocy odpowiednych testów
statystycznych. Podczas weryfikacji hipotez kolejność postępowania jest odwrotna, jak
przy estymacji. Estymacja, to szacowanie na podstawie próby np. nieznanych
parametrów populacji, a weryfikacja polega najpierw na postawieniu hipotezy np.
o parametrze w populacji, a potem na jej sprawdzeniu na podstawie wyników
uzyskanych w próbie losowej z zastosowaniem odpowiedniej statystyki testowej.
Weryfikacja posługuje się więc tymi samymi pojęciami, co estymacja np. próba losowa,
estymator, statystyka z próby i jej rozkład.

74
4.5.1. Etapy weryfikacji hipotez

I. Sformułowanie hipotez: H 0 i H1 .
II. Decyzja o poziomie istotności  .
III. Dobór odpowiedniego testu statystycznego.
IV. Konstrukcja obszaru krytycznego K .
V. Decyzja weryfikacyjna (odrzucenie lub nie H 0 ).

4.5.2. Hipotezy i ich rodzaje

Hipoteza, to przypuszczenie dotyczące populacji. Zamiast weryfikować hipotezę badaną,


buduje się hipotezę zerową – sprawdzaną za pomocą odpowiedniego testu.
Wyróżniamy hipotezę:

zerową alternatywną (badawczą)


H0 H1
Hipotezę H1 przyjmujemy wtedy, gdy na podstawie testu, hipotezę H 0 odrzucamy.
Rodzaje hipotez

parametryczne nieparametryczne
- są to sądy dotyczące wartości parametrów - są to sądy dotyczące np. postaci funkcji
rozkładu populacji rozkładu populacji

H0 : parametr Q  Q0 H0 : populacja ma rozkład G

Q  Q0 (dwustronna) H1 : populacja nie ma rozkładu G


H1 : Q  Q0 (prawostronna)
Q  Q0 (lewostronna)
 trzy 
 
 wykluczające się 
 wersje 
 
 hipotezy H1 

75
4.5.3. Pojęcie i podział testu statystycznego

Test statystyczny (statystyka testująca) to reguła służąca do weryfikacji hipotez, czyli


podejmowania decyzji odrzucenia lub nieodrzucenia hipotezy H 0 na podstawie wyników
próby.
Wyróżniamy:

Testy istotności Testy zgodności Testy losowości


służące do weryfikacji służące do weryfikacji służące do weryfikacji
hipotez dotyczących hipotezy o postaci funkcji hipotezy, że próba ma
parametrów rozkładu charakter losowy
charakteryzujących prawdopodobieństwa lub
populację (np.  ,  2 ,  ) dystrybuanty zmiennej
losowej w populacji
generalnej

4.5.4. Pojęcie obszaru krytycznego

Do weryfikacji hipotez statystycznych służą odpowiednie funkcje testowe zwane testami


statystycznymi (np. U , t-Studenta,  2 , F-Snedecora).
Niech W będzie obszarem wszystkich możliwych wyników statystyki testowej. Obszar
W dzieli się na dwa rozłączne podzbiory:

K W\K
U obszar przyjęć H 0
(tj. przedział ufności)

obszar krytyczny
(obszar odrzuceń H 0 )

Obliczona na podstawie próby wartość Wobl . statystyki testowej może należeć do jednego
z tych podzbiorów: do K albo do W \ K .

76
Wobl .
nie należy do K
należy do K
Wobl.  K  Wobl.  K 
(należy do W \ K )

H 0 odrzucamy na poziomie istotności  - H 0 nie odrzucamy, bo przedział ufności


bo przedział ufności o współczynniku o współczynniku ufności 1   obejmuje
ufności 1   nie obejmuje hipotetyczną hipotetyczną wartość parametru
wartość parametru – przyjmujemy więc H1 (praktycznie przyjmujemy H 0 )

Z odpowiednich tablic odczytujemy wartość krytyczną W dla ustalonego poziomu


istotności  , zaś wartość Wobl . obliczamy na podstawie próby testując odpowiednią
funkcję testową. Następnie porównujemy Wobl . z wartością krytyczną W .
 Jeżeli obliczona na podstawie próby wartość funkcji testowej ( Wobl . ) należy do
obszaru krytycznego, to hipotezę zerową H 0 odrzucamy na rzecz hipotezy
alternatywnej H1 .
 Jeżeli zaś nie należy do obszaru krytycznego, to nie ma podstaw do odrzucenia
hipotezy zerowej i praktycznie przyjmujemy H 0 .
Kształt obszaru krytycznego zależy od postaci hipotezy badawczej H1 (alternatywnej)
oraz od poziomu istotności  .
W przypadku populacji z rozkładem normalnym obszar krytyczny K może być:

lewostronny obustronny prawostronny


f u  f u  f u 


 2 
2 

u2 u u u u u2 u

obszar krytyczny: obszar krytyczny: obszar krytyczny:


K   ; u2 
K  ; u  u ;   K  u2 ;  
H0 : Q  Q0 H0 : Q  Q0 H0 : Q  Q0
H1 : Q  Q0 H1 : Q  Q0 H1 : Q  Q0
P  uobl .  u2    P  uobl .  u    P  uobl .  u2   
K   ; u2 K  u2 ;  

K  ; u  u ;  
u - to wartość krytyczna odczytana z tablic dla podanego  .
77
Do weryfikacji hipotez dotyczących parametrów (np.  ,  2 ,  ) populacji służą
parametryczne testy istotności.

4.5.5. Możliwe decyzje i rodzaje błędów

Decyzje dotyczące hipotezy H 0 ilustruje poniższa tabela.


możliwe
decyzje Stwierdzenie, że nie ma
podstaw do odrzucenia Odrzucenie hipotezy H 0 na
rodzaje błędów
wartości hipotezy H 0 , czyli przyjęcie rzecz hipotezy H1
logiczne H0
hipotezy H 0
Błąd I rodzaju
Właściwa decyzja (odrzucenie prawdziwej H 0 )
H 0 - prawdziwa z prawdopodobieństwem
 - poziom istotności
1
  0,01 0,02  0,05  0,1
Błąd II rodzaju
(przyjęcie fałszywej H 0 ) Właściwa decyzja
H 0 - fałszywa
z prawdopodobieństwem 1  

Wobl .  K
P   
 H 0 - prawdziwa 
poziom istotności
(błąd I rodzaju - mały)
 
 
 Wobl .  W \ K  
P
 H1 - prawdziwa 

  H 0 - fałszywa  
błąd II rodzaju
Najwłaściwsza strategia przy podejmowaniu decyzji, to minimalizacja obu rodzajów
błędów. Nie jest ona możliwa, bo gdy  maleje, to  rośnie. Stąd w teorii weryfikacji
hipotez buduje się test najmocniejszy, czyli taki, dla którego przy z góry zadanym
prawdopodobieństwie popełnienia błędu I rodzaju (  ), prawdopodobieństwo
popełnienia błędu II (  ) rodzaju jest najmniejsze.

78
4.5.6. Weryfikacja wybranych hipotez parametrycznych

(1) Weryfikacja hipotezy o średniej  w populacji normalnej

 - znane założenie:  - nieznane, mała próba n  120


populacja
ma
rozkład
N  , 
ze znanym odchyleniem
z nieznanym odchyleniem standardowym
standardowym 
H 0 :   0 , np. H1 :   0 H 0 :   0 , np. H1 :   0
Mając na podstawie n -elementowej Mając na podstawie n -elementowej próby średnią
próby średnią X oraz zadany poziom X i odchylenie standardowe S oraz zadany
istotności  , stosujemy statystykę poziom istotności  , stosujemy statystykę
testującą: testującą t-Studenta z k  n 1 stopniami
X  0
U  n swobody:
X  0
i obliczamy wartość uobl . . t S n
Z tablic rozkładu normalnego N  0,1 i obliczamy wartość tobl . .
Z tablic rozkładu t-Studenta odczytujemy wartość
odczytujemy wartość krytyczną u i
krytyczną t2 ,n 1  H1 :   0  dla danego 
porównujemy uobl .
i k  n 1 stopni swobody. Wówczas obszar
z u . Wówczas obszar krytyczny
krytyczny  H1 :   0  jest prawostronny:
 H1 :   0  jest obustronny: f t 
f u 



2 
2

t2, n 1 t

u u u
K  t2 ,n 1 ;   ,

K  ; u  u ;   ,

bo P tobl .  t2 , n 1   
bo P  uobl .  u    . Wtedy, gdy:
Wtedy, gdy:  tobl .  t2 ,n 1 , to H 0 odrzucamy na rzecz H1 ,
 uobl .  K , to H 0 odrzucamy na gdy zaś
rzecz H1 ,  tobl .  t2 ,n 1 , to nie ma podstaw odrzucenia
gdy zaś H0 .
 uobl .  K , to nie ma podstaw do
odrzucenia hipotezy H 0 .
Gdyby zaś H1 miała postać:
  0 lub   0 , to obszar
krytyczny byłby jednostronny: lewo-
lub prawostronny.
79
Uwaga:
W przypadku weryfikacji hipotezy o średnie w populacji z nieznanym odchyleniem
standardowym na podstawie dużej próby  n  120 stosujemy statystykę U  X  0
S n
(przyjmujemy 
n
 S
n
), która ma rozkład asymptotycznie normalny N  0,1 . Budowa
obszaru krytycznego i reguła decyzyjna jest analogiczna jw.
(2) Weryfikacja hipotezy o wariancji w populacji normalnej
Założenia: populacja ma rozkład normalny N  ,   o nieznanych parametrach  ,  ,
próba jest mała  n  30  .
H 0 :  2   02 ; np. H1 :  2   02
Do weryfikacji hipotezy H 0 stosujemy statystykę  2 :
n
2    12   X i  X  ,
n 1 S 2 2
 02 0
i 1

która ma rozkład  o k  n 1 stopniach swobody. Wówczas obszar krytyczny


2

K  2 , n 1 ,   , gdyż P   2  2 ,n 1    .


f 2 

2 ,n 1 2

Obliczamy obl
2
. na podstawie próby, dalej z tablic rozkładu  , dla zadanego poziomu
2

istotności  i k  n 1 stopni swobody, odczytujemy wartość krytyczną 2 ,n1 oraz


porównujemy obie wartości.
Dla obl
2
.   ,n 1 hipotezę H 0 nie odrzucamy.
2

Zaś dla obl


2
.   ,n 1 hipotezę H 0 odrzucamy na rzecz hipotezy H1 .
2

(3) Weryfikacja hipotezy o frakcji  p  w populacji


Założenia: populacja ma rozkład dwumianowy o nieznanym parametrze p , próba liczy
n  100 jednostek statystycznych.
H 0 : p  p0 ; możliwe hipotezy alternatywne:
H1 : p  p0  H1 : p  p0  H1 : p  p0

80
Do weryfikacji hipotezy H 0 wykorzystuje się wskaźnik struktury z próby P  kn

o rozkładzie normalnym N p0 ,  p0 1 p0 


n  . Po standaryzacji statystyki P  k
n
otrzymujemy
k
 p0
statystykę U  n
o rozkładzie normalnym N  0,1 .
p0 1 p0 
n

Z tablic rozkładu normalnego dla ustalonego poziomu istotności  odczytujemy wartość


krytyczną u . Wówczas, w zależności od postaci hipotezy alternatywnej H1 , ustalamy
obszar krytyczny:

Gdy H1 : p  p0 Gdy H1 : p  p0 Gdy H1 : p  p0


to obszar krytyczny K ma następujący kształt:

K - lewostronny K - obustronny K – prawostronny


f u  f u  f u 


 2 
2 

u2 u u u u u2 u

K   ; u2 
K  ; u  u ;   K  u2 ;  
P  uobl .  u2    P  uobl .  u    P  uobl .  u2   

W zależności od położenia uobl . wobec obszaru krytycznego albo:

uobl .  K reguła
uobl .  K
decyzyjna

stwierdzamy możliwość
prawdziwości H 0 , czyli
możliwe mówimy, że nie ma
H 0 odrzucamy na rzecz H1 decyzje podstaw do odrzucenia
hipotezy H 0 (praktycznie ją
przyjmujemy)

4.5.7. Informacja o weryfikacji hipotez nieparametrycznych

Testy nieparametryczne nie wymagają założeń dotyczących postaci rozkładu


zbiorowości generalnej, z której pochodzi próba.
Testy istotności służące do weryfikacji hipotez nieparametrycznych dzielą się na:
a) testy zgodności służące do weryfikacji np. hipotez o postaci funkcji rozkładu
zmiennej w populacji generalnej (np. testy normalności),
81
b) testy losowości służące do weryfikacji hipotezy o losowości próby,
c) testy niezależności sprawdzające hipotezę o niezależności dwóch zmiennych
losowych.

4.6. Porównanie wybranych zagadnień estymacji z testowaniem


niektórych hipotez statystycznych

ESTYMACJA PARAMETRYCZNA WERYFIKACJA HIPOTEZ


ZAGADNIENIA
(PRZEDZIAŁOWA) PARAMETRYCZNYCH

P X  u n    X  u n  1    dotyczy średniej  w H 0 :   0
populacji,
 - znane,
H1 :    0  P  X  0
 
n  u2  
n - dowolne, H1 :    0  P  X  0
 
n  u  
X N  ,  ,
stosowana statystyka:
H1 :    0  P  X  0
 
n  u 2  
X 
U  n
o rozkładzie N  0,1


P X  t ,n 1 S
n
   X  t ,n 1 S
n   1 dotyczy średniej  w H 0 :   0
populacji,
 - nieznane,
H1 :    0  P  X  0
 
n  t2 ,n 1  

n  120 (mała
próba),
H1 :    0  P  X  0
 
n  t , n 1  

X N  ,  , H1 :    0  P  X  0
 
n  t2 ,n 1  

stosowana statystyka:
X 
t S n
o rozkładzie t-
Studenta o n 1
stopniach swobody

P X  u S
n
   X  u S
n   1  dotyczy średniej  w H 0 :   0
populacji,
 - nieznane,
H1 :    0  P  X  0
S 
n  u2  

n  120 (duża
próba),
H1 :    0  P  X  0
S 
n  u  

stosowana statystyka: H1 :    0  P  X  0
S 
n  u 2  
X 
u S n
o rozkładzie
asymptotycznie
normalnym N  0,1

82
 n 1 S 2
P  2    2   n 1 S 2  dotyczy wariancji  2 H 0 :  2   02
  1
 
2  w populacji,
 2 ,n1 1 ,n1
2  H1 :  2   02  P  n 1 S 2
 2 ,n 1  
n  30 (próba mała),  02

X N  ,  ,
stosowana statystyka:
2  
n 1 S 2
2
o rozkładzie chi-
kwadrat
 k
1 kn  k
1 kn   dotyczy frakcji p  k
H 0 : p  p0
P  kn  u  p  kn  u   1 
n n
n
n n
  w populacji,  kp 
n  100 , H1 : p  p0  P  n 0
p0 1 p0 
 u2   
 
 
n
p 1 p 
X N p, ,  kp 
H1 : p  p0  P   u   
n n 0
p0 1 p0 
stosowana statystyka:  n 
k
p  kp 
u n H1 : p  p0  P  n 0
p0 1 p0 
 u2   
p 1 p   n 
n
o rozkładzie
normalnym N  0,1

Przykładowe zadanie 1
Sprawdzić na poziomie istotności   0,05 zasadność twierdzenia, że przeciętnie
dorosły człowiek śpi średnio 4,5 godziny na dobę zakładając wnioskowanie oparte na
rozkładzie normalnym N  ;0,5 , jeśli na podstawie próby liczącej 625 osób ustalono,
że średnia długość snu tej grupy wynosi 6 godzin na dobę.
Rozwiązanie:
Stawiamy hipotezę zerową: H0 :   4,5   0  wobec hipotezy alternatywnej
X 
H1 :   4,5 . Stosujemy statystykę U    6  4,5
0,5  75  uobl . o rozkładzie normalnym
n 625

N  0,1 .
Z tablic tego rozkładu odczytujemy dla   0,05 wartość krytyczną u  u0,05  1,96 .
Obszar krytyczny jest obustronny:

K  ; u  u ;    ; 1,96  1,96;   . 
Porównujemy uobl.  75 z u0,05  1,96 i mamy:


uobl .  75  K  ; 1,96  1,96;   .
Podejmujemy więc decyzję o odrzuceniu hipotezy H 0 na rzecz hipotezy H1 .
Zatem hipotezę o średniej równej 4,5 godziny snu dorosłego człowieka na dobę należy
uznać za fałszywą.
83
Przykładowe zadanie 2
Utarg sklepów pewnej miejscowości ma rozkład normalny z nieznanymi parametrami.
Przypuszcza się, że dzienny utarg jest rzędu 10 tys. zł. Na poziomie istotności   0,05
sprawdzić, czy to przypuszczenie jest słuszne, jeśli w próbie 25 losowo wybranych
takich sklepów otrzymano średni dzienny utarg X  9,5 tys. zł .
Rozwiązanie:
Stawiamy hipotezę zerową H0 :   10   0  wobec hipotezy alternatywnej H1 :   10 .
X 
Stosujemy statystykę t  S n  9,5210 25  1, 25  tobl. o rozkładzie t-Studenta o n 1
stopniach swobody. Z tablic tego rozkładu odczytujemy dla   0,05 i n 1  24 stopni
swobody wartość krytyczną: t2 ,n 1  t20,05;24  t0,1;24  1, 711


Obszar krytyczny jest lewostronny: K  ; t2 ,n 1   ; 1, 711

Porównujemy tobl.  1, 25 z t0,1;24  1, 711 i mamy tobl .  1, 25  K   ; 1, 711 .
Podejmujemy więc decyzję, że nie ma podstaw do odrzucenia hipotezy H 0 . Zatem
z błędem 0,05 przyjmujemy hipotezę o tym, że średni utarg dzienny tych sklepów jest
rzędu 10 tys. zł.

Przykładowe zadanie 3
W losowo wybranej próbie 30 studentów obliczono wariancję S 2  2 papierosy
wypalone dziennie przez tych studentów. Przy założeniu, że rozkład liczby wypalonych
papierosów jest normalny, na poziomie istotności   0,05 zweryfikować hipotezę, że
odchylenie standardowe wypalonych papierosów wynosi 3.
Rozwiązanie:
Stawiamy hipotezę zerową: H 0 :  2  32  9    02  wobec hipotezy alternatywnej
H1 :  2  9 .

Stosujemy statystykę  2  
n 1 S 2
 02
 292
9  6, 44  uobl . o rozkładzie chi-kwadrat z n 1  29
stopniami swobody. Z tablic tego rozkładu odczytujemy wartość krytyczną
0,05;29
2
 42,56 . Obszar krytyczny jest prawostronny:
K  2 ,n 1 ;     0,05;29
2
;    42,56;  

Porównujemy  obl .  6, 44 z 0,05;29  42,56 i mamy  obl .  K  42,56;   .


2 2 2

Podejmujemy więc decyzję, iż nie ma podstaw do odrzucenia hipotezy H 0 . Zatem


z błędem 0,05 przyjmujemy, że odchylenie standardowe wypalonych papierosów wynosi
3.

84
Przykładowe zadanie 4
W celu zbadania hipotezy, że 40% uczniów w wieku szkolnym nosi okulary, zbadano
5000 uczniów i stwierdzono, że 1500 uczniów tej grupy nosi okulary. Na poziomie
istotności 0,01 zweryfikować tę hipotezę.
Rozwiązanie:
Stawiamy hipotezę zerową H0 : p  0, 4   p0  wobec hipotezy alternatywnej
H1 : p  0, 4 .
k
 p0 1500
 0, 4
Stosujemy statystykę u n
 5000
 0, 019 o rozkładzie normalnym
p0 1 p0  0,41 0,4 
n 5000

N  0,1 .
Z tablic tego rozkładu odczytujemy dla   0,01 wartość krytyczna u  u0,01  2,58 .
Obszar krytyczny jest obustronny:
 
K  ; u  u ;    ; 2,58  2,58;  
Porównujemy uobl.  0,019 z u0,01  2,58 i mamy


uobl .  0, 019  K  ; 2,58  2,58;   .
Podejmujemy więc decyzję o nieodrzuceniu hipotezy H 0 , bowiem może ona być
prawdziwa.

85
86
Skorowidz

aksjomatyczna definicja prawdopodobieństwa 49 - - prawdopodobieństwa .................. 55, 56, 57


analiza dynamiki ................................................ 9 gęstość prawdopodobieństwa........................... 56
- - zjawisk .................................................... 33 hipoteza ............................................................ 75
- korelacji ............................................... 38, 43 - alternatywna .............................................. 75
- regresji ................................................. 38, 43 - badawcza ................................................... 77
- struktury................................................. 9, 17 - nieparametryczna ................................ 75, 81
- współzależności zjawisk .............................. 9 - parametryczna ........................................... 75
aproksymacyjna liniowa funkcja trendu (funkcja - zerowa ....................................................... 75
trendu II rodzaju) ......................................... 36 histogram ......................................................... 15
asymetria .......................................................... 25 indeksy agregatowe.......................................... 36
badanie częściowe (niewyczerpujące) .............. 11 - cen ............................................................. 35
- pełne (wyczerpujące) ................................. 11 - ilości .......................................................... 35
- reprezentatywne ......................................... 10 - indywidualne ............................................. 35
- statystyczne................................................ 11 - - jednopodstawowe ............................. 35, 37
błąd I rodzaju.................................................... 78 - - łańcuchowe ....................................... 35, 38
- II rodzaju ................................................... 78 - wartości ..................................................... 35
cecha statystyczna ...................................... 11, 55 interwał ............................................................ 15
cechy ciągłe ...................................................... 11 klasyczna definicja prawdopodobieństwa ........ 49
- ilościowe .................................................... 11 klasyczne miary rozproszenia .......................... 22
- jakościowe ................................................. 11 - - średnie ..................................................... 18
- quasi ilościowe .......................................... 11 koncentracja ..................................................... 27
- skokowe ..................................................... 11 kowariancja ...................................................... 42
- stałe ............................................................ 11 krzywa Lorenza ............................................... 27
- zmienne ..................................................... 11 kumulacja częstości ......................................... 30
centyle .............................................................. 17 - liczebności ................................................. 30
częstość względna ............................................ 55 - szeregu ...................................................... 13
- zdarzenia .................................................... 49 kurtoza ............................................................. 27
decyle ............................................................... 17 kwantyle ........................................................... 17
diagram............................................................. 15 kwartyle ........................................................... 17
- korelacyjny ................................................ 39 liczba klas ........................................................ 14
dominanta ......................................................... 17 liczebność próby .............................................. 11
doświadczenie losowe ...................................... 49 - zbiorowości generalnej.............................. 11
drzewo prawdopodobieństwa ........................... 51 materiał statystyczny........................................ 12
dynamika zjawisk ............................................. 33 mediana ............................................................ 17
dystrybuanta ..................................................... 57 metoda indeksowa ........................................... 34
- empiryczna .......................................... 14, 56 - średnich ruchomych .................................. 36
- - (częstość skumulowana) .......................... 56 - trendu i wahań okresowych ....................... 34
- zmiennej losowej ....................................... 56 miary asymetrii .......................................... 17, 25
- - - ciągłej .................................................... 56 - - (skośności) .............................................. 25
- - - skokowej ............................................... 56 - dyspersji .................................................... 21
eksces ............................................................... 28 - klasyczne ................................................... 17
estymacja .................................................... 68, 69 - koncentracji ......................................... 17, 28
- nieparametryczna ....................................... 69 - - (skupienia) .............................................. 27
- parametryczna ............................................ 69 - korelacji..................................................... 41
- - przedziałowa ........................................... 69 - położenia ................................................... 17
- - punktowa ................................................. 69 - poziomu wartości zmiennej ....................... 17
estymator .......................................................... 68 - pozycyjne .................................................. 17
estymatory parametrów .................................... 36 - przeciętne .................................................. 17
funkcja gęstości ................................................ 57 - rozproszenia ........................................ 17, 30
- - prawdopodobieństwa ............................... 60 - średnie ....................................................... 17
- liniowa trendu I rodzaju ............................. 36 - zmienności ................................................ 21
- rozkładu ..................................................... 55 - zróżnicowania ........................................... 21
87
mierniki statystyczne ........................................ 12 rodzaje błędów ................................................. 78
moda ................................................................. 17 rozkład  (chi-kwadrat) ............................... 62
2
modalna ............................................................ 17
- cechy ......................................................... 56
moment ............................................................. 33
- dwumianowy (Bernoulliego) .................... 58
- centralny .................................................... 24
- dwupunktowy ............................................ 58
- zwykły ....................................................... 24
- empiryczny ................................................ 13
momenty ........................................................... 24
niezależność korelacyjna .................................. 43 - F-Snedecora .............................................. 63
- stochastyczna ............................................. 43 - geometryczny ............................................ 59
- jednostajny ................................................ 60
- zdarzeń....................................................... 50
- leptokurtyczny ........................................... 27
obszar krytyczny ........................................ 75, 76
- lewostronnie asymetryczny ....................... 25
- przyjęć ....................................................... 76
odchylenie ćwiartkowe ............................... 22, 31 - normalny ................................................... 27
- przeciętne ............................................. 22, 31 - - (Gaussa-Laplace’a) ................................. 61
- platokurtyczny ........................................... 27
- standardowe ............................. 22, 23, 31, 57
- Poissona .................................................... 59
- - zmiennej losowej ..................................... 57
- prawdopodobieństwa................................. 55
okres ................................................................. 33
- prawostronnie asymetryczny ..................... 25
opis statystyczny .............................................. 12
parametry.......................................................... 12 - statystyki z próby ...................................... 66
- opisowe ...................................................... 56 - symetryczny .............................................. 25
- średniej arytmetycznej z próby ................. 66
- rozkładów brzegowych .............................. 41
- t-Studenta (Gosseta) .................................. 62
- rozkładu ..................................................... 56
- wariancji z próby ....................................... 67
- - warunkowego .......................................... 40
- warunkowy ................................................ 40
- strukturalne ................................................ 36
podstawowe parametry rozkładu zmiennej - zmiennej losowej skokowej ...................... 56
losowej ......................................................... 57 rozkłady brzegowe ........................................... 40
rozpiętość klasy ............................................... 15
populacja generalna .......................................... 55
rozstęp ........................................................ 15, 22
poziom istotności.............................................. 69
Schemat Bernoulliego ...................................... 51
- ufności ....................................................... 72
składnik losowy ............................................... 36
pozycyjne miary rozproszenia .......................... 23
- - średnie ..................................................... 19 - resztowy .................................................... 36
prawdopodobieństwo całkowite ....................... 51 standaryzacja rozkładu normalnego ................. 63
statystyka ........................................................... 9
- warunkowe ................................................ 50
- matematyczna.............................................. 9
próba................................................................. 10
- opisowa ....................................................... 9
- losowa ........................................................ 11
- reprezentatywna ......................................... 11 - z próby ...................................................... 66
przedział ufności .............................................. 69 statystyki .......................................................... 12
struktura zjawisk .............................................. 17
- - dla frakcji ................................................ 71
strumień ........................................................... 33
- - dla odchylenia standardowego ................ 71
szereg czasowy ................................................ 12
- - dla średniej .............................................. 69
- - momentowy ............................................ 12
- - dla wariancji ............................................ 70
przyrost absolutny ............................................ 37 - - okresowy ................................................. 12
- o podstawie stałej ...................................... 37 - dynamiczny (czasowy) .............................. 33
- korelacyjny (szczegółowy) ........................ 39
- o podstawie zmiennej ................................ 37
- kumulacyjny .............................................. 13
- względny ................................................... 37
- prosty......................................................... 13
przyrosty absolutne .......................................... 34
- przedziałowy ............................................. 12
- - jednopodstawowe .................................... 34
- - łańcuchowe .............................................. 34 - przestrzenny .............................................. 12
- względne .................................................... 34 - punktowy................................................... 12
- rozdzielczy ................................................ 12
- - jednopodstawowe .................................... 34
- - cech mierzalnych .................................... 12
- - łańcuchowe .............................................. 34
- - - niemierzalnych ..................................... 12
realizacja zmiennej losowej.............................. 55
reguła 3-ch  .................................................. 64
- statystyczny ............................................... 12
- surowy ....................................................... 13
- iloczynu (mnożenia) .................................. 51
- szczegółowy .............................................. 12
- sumy (dodawania) ..................................... 51
średnia arytmetyczna ....................................... 17
88
- - nieważona ................................................ 18 - koncentracji Pearsona................................ 27
- - z wagą ..................................................... 18 - korelacji liniowej Pearsona ....................... 42
- chronologiczna .......................................... 34 - zmienności .......................................... 22, 31
- geometryczna ............................................. 17 wykres dynamiczny ......................................... 15
- harmoniczna .............................................. 17 - korelacyjny ................................................ 15
- warunkowa ................................................ 45 - regresji empirycznej .................................. 41
średnie ruchome ............................................... 36 - strukturalny ............................................... 15
- tempo zmian ........................................ 35, 38 wyniki badań .................................................... 12
tablica korelacyjna............................................ 39 wzór Bayesa ..................................................... 51
teoretyczne wartości trendu .............................. 36 - Pearsona .................................................... 21
teoria estymacji ................................................ 68 zależność funkcjonalna .................................... 38
test istotności .................................................... 76 - korelacyjna ................................................ 38
- losowości ............................................. 76, 82 - stochastyczna (probabilistyczna) ............... 38
- nieparametryczny ...................................... 81 zasada dodawania ............................................ 52
- niezależności.............................................. 82 - mnożenia ................................................... 52
- statystyczny ............................................... 76 zasób ................................................................ 33
- zgodności ............................................. 76, 81 zbiorowość generalna ...................................... 10
typowy obszar zmienności ......................... 22, 31 - statystyczna ......................................... 10, 55
wariancja .................................................... 22, 31 zbiór (przestrzeń) zdarzeń elementarnych ....... 49
- warunkowa ................................................ 46 zdarzenie elementarne ...................................... 49
- zmiennej losowej ....................................... 57 - losowe ....................................................... 49
warianty cechy ........................................... 11, 55 - niemożliwe ................................................ 49
wartość oczekiwana (wartość średnia) zmiennej - pewne ........................................................ 49
losowej ......................................................... 57 - przeciwne .................................................. 49
weryfikacja hipotez .......................................... 74 zjawiska masowe ............................................. 11
- hipotezy o frakcji ....................................... 80 zmienna losowa ............................................... 55
- - o średniej ................................................. 79 - - ciągła ....................................................... 55
- - o wariancji ............................................... 80 - - skokowa, dyskretna ................................. 55
wielobok koncentracji Lorenza ........................ 27 związki pozorne ............................................... 39
wnioskowanie statystyczne ................................ 9 - przyczynowo-skutkowe............................. 39
wskaźniki asymetrii .......................................... 25 - symptomatyczne ........................................ 39
współczynnik asymetrii .................................... 26

89
90
Bibliografia

1. Hanna A. Adamkiewicz: Statystyka. Zastosowanie w ekonomii, ODiDK, Gdańsk


1996.
2. M. Borowska, A. Jatczak: Matematyka Vademecum maturalne Zakres roszerzony,
Operon, Gdynia 2004.
3. L. Gajek, M. Kałuszka: Wnioskowanie statystyczne Modele i metody, WN-T,
Warszawa 1993.
4. J. Jóźwiak, J. Podgórski: Statystyka od podstaw, PWE, Warszawa 1997.
5. H. Kassyk-Rokicka: Statystyka nie jest trudna 1 Mierniki statystyczne, PWE,
Warszawa 1994.
6. A. Komosa, J. Musiałkiewicz: Statystyka, Ekonomik, Warszawa 1996.
7. L.T. Kubik: Zastosowanie rachunku prawdopodobieństwa do wnioskowania
statystycznego, Wydawnictwo Naukowe PWN, Warszawa 1999.
8. A. Luszniewicz: Statystyka nie jest trudnią 2 Metody wnioskowania
statystycznego, PWE, Warszawa 1994.
9. T. Michalski: Statystyka, WSiP, Warszawa 1999.
10. M. Piłatowska: Repetytorium ze statystyki, Wydawnictwo Naukowe PWN,
Warszawa 2006.
11. B. Pułaska-Turyna: Statystyka dla ekonomistów, Difin SA, Warszawa 2011.
12. W. Sadowski: Statystyka dla ekonomistów, PWSH, Warszawa 1995.
13. R. Seidel: Statystyka, Wydawnictwo @MPi, Poznań 1995.
14. M. Sobczyk: Statystyka, Wydawnictwo Naukowe PWN, Warszawa 1995.
15. James A. Walker, Margaret M. McLean: Statystyka dla każdego, WSiP,
Warszawa 1994.
16. K. Zając: Zarys metod statystycznych, PWE, Warszawa 1994.

91
92
Summary

This publication is oriented at students of various studies of I or II degree,


learning the fundamentals of statistics and wanting to strengthen, revise and systematise
their knowledge and skills of this subject, as well as recall the selected issues in
mathematics taught in high school.
These competencies are essential to successfully prepare for classes in descriptive
statistics or statistical inference and, finally, to achieve credit or pass the examination in
this subject.
This book presents the curriculum material of descriptive statistics in a concise
and systematic way, for a broad range of students of the first years of I degree licentiate
studies. It also includes broad revision of essential knowledge in the area of probability
calculus included in the high school curriculum and the teaching content of the subject:
statistical inference included in the II degree master studies.
The theoretical content is supported with examples of solved tasks, accompanied
by comprehensive comments explaining the subsequent phases of proceedings.
I hope that these support materials, although it is not a systematic lecture in
statistics, will constitute an important educational aid for students of various fields of
study wanting to learn and effectively use statistical tools to describe and interpret the
surrounding reality successfully.

The key words are included in the index.

93

You might also like