Professional Documents
Culture Documents
MATERIAŁY POMOCNICZE
DLA STUDENTÓW
DO NAUKI STATYSTYKI
2
Maria Borowska
STATYSTYKA
MATERIAŁY POMOCNICZE
DLA STUDENTÓW
DO NAUKI STATYSTYKI
3
Recenzenci naukowi
Redakcja techniczna
mgr Monika Paruch
mgr Lucjan Paruch
ISBN 978-83-61307-31-0
Druk i oprawa:
Wydawnictwo Diecezjalne i Drukarnia w Sandomierzu
ul. Żeromskiego 4, 27-600 Sandomierz
tel. 15 64 40 400, fax. 15 832 77 87
www.wds.pl, zamówienia@wds.com.pl
4
Spis treści
Wstęp .................................................................................................................................. 7
5
4. Podstawy statystyki matematycznej .......................................................................... 55
4.1. Zmienne losowe i ich rodzaje ................................................................................. 55
4.1.1. Pojęcie zmiennej losowej ................................................................................. 55
4.1.2. Typy zmiennej losowej .................................................................................... 55
4.1.3. Cecha statystyczna, a zmienna losowa ............................................................. 55
4.1.4. Podstawowe parametry rozkładu zmiennej losowej ........................................ 57
4.1.5. Analogie między zmiennymi losowymi skokowymi i ciągłymi ...................... 57
4.2. Rozkłady zmiennej losowej .................................................................................... 58
4.2.1. Rozkłady zmiennej losowej skokowej ............................................................. 58
4.2.2. Rozkłady zmiennej losowej ciągłej .................................................................. 60
4.2.3. Standaryzacja rozkładu normalnego N , ................................................ 63
4.2.4. Reguła 3-ch .................................................................................................. 64
4.3. Rozkłady statystyk z próby ..................................................................................... 66
4.3.1. Rozkład średniej arytmetycznej z próby .......................................................... 66
4.3.2. Rozkład wariancji z próby ................................................................................ 67
4.4. Teoria estymacji ...................................................................................................... 68
4.4.1. Estymacja, estymator........................................................................................ 68
4.4.2. Rodzaje estymacji............................................................................................. 69
4.4.3. Przedziały ufności ............................................................................................ 69
4.5. Weryfikacja hipotez ................................................................................................ 74
4.5.1. Etapy weryfikacji hipotez ................................................................................. 75
4.5.2. Hipotezy i ich rodzaje....................................................................................... 75
4.5.3. Pojęcie i podział testu statystycznego .............................................................. 76
4.5.4. Pojęcie obszaru krytycznego ............................................................................ 76
4.5.5. Możliwe decyzje i rodzaje błędów ................................................................... 78
4.5.6. Weryfikacja wybranych hipotez parametrycznych .......................................... 79
4.5.7. Informacja o weryfikacji hipotez nieparametrycznych .................................... 81
4.6. Porównanie wybranych zagadnień estymacji z testowaniem
niektórych hipotez statystycznych ......................................................................... 82
Skorowidz ......................................................................................................................... 87
Bibliografia ....................................................................................................................... 91
Summary .......................................................................................................................... 93
6
Wstęp
7
8
1. Statystyka i podstawowe pojęcia statystyczne
STATYSTYKA
STATYSTYKA MATEMATYCZNA
STATYSTYKA OPISOWA
(WNIOSKOWANIE STATYSTYCZNE)
9
1.2.2. Przedmiot statystyki matematycznej
POPULACJA GENERALNA
PRÓBA LOSOWA
(STATYSTYKA OPISOWA)
WNIOSKOWANIE STATYSTYCZNE
10
Próba jest:
losowa – tzn. jednostki do próby zostały pobrane z populacji w sposób
losowy, przypadkowy,
reprezentatywna – tzn. struktura próby pod względem badanej cechy nie
różni się istotnie od struktury populacji pod względem tej cechy – próba
dobrze reprezentuje badaną cechę w całej (niebadanej) populacji.
3) Jednostka populacji – element zbiorowości statystycznej.
4) Liczebność zbiorowości generalnej – liczba jednostek w populacji.
Liczebność próby – liczba jednostek w próbie.
5) Cecha statystyczna – właściwość (własność) jednostek statystycznych.
Warianty cechy – wartości, odmiany podanej cechy.
Podział cech statystycznych:
Cechy statystyczne
PEŁNE CZĘŚCIOWE
(dotyczy wszystkich jednostek) (dotyczy próby)
8) Materiał statystyczny – zbiór zapisów dotyczących wariantów cechy
występującej u badanych jednostek zbiorowości.
9) Wyniki badań – zaobserwowane warianty badanej cechy (w zbiorowości
generalnej – w badaniu pełnym lub z próby – w badaniu częściowym).
10) Opis statystyczny – analiza rozkładu cechy w próbie lub zbiorowości generalnej
skończonej. Jest to obliczanie pewnych charakterystyk liczbowych (parametrów,
statystyk) badanego rozkładu cechy. Opis statystyczny, w przypadku badania
częściowego, jest punktem wyjścia do wnioskowania statystycznego.
W przypadku zaś badania pełnego, zamyka badanie statystyczne.
11) Wnioskowanie statystyczne – uogólnianie wyników uzyskanych w próby
losowej na całą populację generalną. Jest to podejmowanie decyzji o nieznanych
parametrach i rozkładach w zbiorowości generalnej na podstawie wyników
z próby w warunkach niepewności (ryzyka statystycznego) z wykorzystaniem
reguł rachunku prawdopodobieństwa.
12) Parametry (statystyki, mierniki statystyczne) – charakterystyki liczbowe
rozkładu badanej cechy w zbiorowości generalnej lub próbnej.
Wyróżniamy:
parametry populacji,
parametry próby (w przypadku badania częściowego).
13) Szereg statystyczny – zestawienie wartości zmiennych cechy badanej xi wraz
z przyporządkowanymi im liczebnościami ni lub częstościami ich
występowania ci
ni
N .
Podział szeregów statystycznych:
szeregi statystyczne
dotyczące dotyczące
x x
x1 x2 xk x0 x1 xk
12
Szereg surowy – zapis wyników badania w naturalnej kolejności ich zbierania
(przed uporządkowaniem).
Szereg prosty – zapis wyników badania po uporządkowaniu (rosnąco względem
poziomu wariantów lub pogrupowany w klasy).
14) Rozkład empiryczny – zestawienie par xi , ni w postaci tabeli o dwóch
kolumnach lub wierszach z wariantami cechy xi i liczebnościami ni :
xi ni lub
x1 n1 xi x1 x2 xk
k
x2 n2
ni n1 n2 nk n
i 1
i N
xk nk
k
n i 1
i N
xk nk n1 n2 n3 nk N
N
Uwaga:
Powyższą tabelę można rozszerzać o kolejne kolumny (częstości ci , częstości
skumulowane ci cum , itp.) potrzebne również do obliczania pewnych mierników
(średniej x , odchylenia, itp.):
xi ni ni cum ci Ni
n
ci cum xi ni xi x xi x ni xi x
2
ni
x1 n1 n1 c1 n1
N
c1 x1n1 x1 x x1 x n1 x1 x n1
2
x2 n2 n1 n2 c2 n2
c1 c2 x2 n2 x2 x x2 x n2 x2 x n2
2
N
x3 n3 n1 n2 n3 c1 c2 c3 x3 n3 x3 x x3 x n3
c3
n3
x3 x n3
2
N
xk nk xk nk xk x xk x nk
N xk x
2
ck nk
N
1 nk
k k k k
N c x x n x x
1 xn
N 2
i N i i i i i ni
i 1 i 1 i 1 i 1
13
Uwaga:
Częstość ci wyrażać można w procentach ci 100% .
16) Dystrybuanta empiryczna F x – to częstość skumulowana dla wariantów
cechy nie większych od wartości xi , czyli dla x xi .
Wartość maksymalna dystrybuanty, to 1 dla x xmax , a minimalna, to 0 dla
x xmin .
Są to:
1) Projektowanie badania (czynności przygotowawcze: określenie celu i metod
badania oraz zbiorowości statystycznej i cech podlegających badaniu).
2) Organizacja badania (opracowanie strony technicznej badań).
3) Obserwacja statystyczna (pomiar zmiennych cech statystycznych we wszystkich
jednostkach wytypowanych do badania).
4) Opracowanie i prezentacja materiału statystycznego (grupowanie, zliczanie,
budowanie szeregu statystycznego, tablicy, tabeli, wykresów).
5) Opis statystyczny (obliczenie miar, parametrów, statystyk oraz
scharakteryzowanie badanego zjawiska – zastosowanie statystyki opisowej).
6) Wnioskowanie statystyczne w przypadku badania częściowego – próby
(wnioskowanie o populacji na podstawie próby – zastosowanie statystyki
matematycznej).
14
N 200;500 k 12;17
5) rozpiętość klasy, interwał, rozstęp jest różnicą między górną, a dolną granicą
klasy
i może być wyrażona wzorem:
x x
i max min ; k liczba klas
k
- na ogół interwały przedziałowe są jednakowe,
6) typ przedziału klasowego:
- lewy koniec przedziału, to dolna granica klasy
- prawy koniec przedziału, to górna granica klasy.
Rodzaje wykresów:
1) liniowe,
2) powierzchniowe,
3) pasmowe,
4) bryłowe,
5) punktowe,
6) mapowe (kartogramy),
7) kombinowane,
8) specjalne.
Wykresy służą do graficznego przedstawiania:
1) szeregów rozdzielczych (wykresy strukturalne),
2) rozwoju zjawisk w czasie (wykresy dynamiczne),
3) zależności między cechami (wykresy korelacyjne).
Histogram – zbiór przylegających prostokątów w układzie współrzędnych o podstawie
długości klasy i wysokości równej liczebności lub częstości.
Diagram (wielobok liczebności) – łamana łącząca punkty o współrzędnych: środki klas
xi i odpowiadające im liczebności ni lub częstości ci .
15
16
2. Podstawowe wiadomości ze statystyki opisowej
MIARY ŚREDNIE
KLASYCZNE: POZYCYJNE:
średnia arytmetyczna (nieważona dominanta (in. modalna, wartość
i z wagą) typowa, najczęstsza)
średnia harmoniczna kwantyle (wśród nich kwartyle,
średnia geometryczna decyle, centyle)
mediana (in. moda, wartość
środkowa – jako szczególne
kwantyle, np. kwartyl drugi, decyl
piąty, centyl pięćdziesiąty)
17
Uwaga:
Oznaczenia: xi - warianty cechy, xi - środki przedziałów klasowych, N - liczebność
badanej zbiorowości, ni - liczebność jednostek o wariancie xi .
1) Klasyczne miary średnie:
a) średnia arytmetyczna nieważona dla szeregu wyliczającego – gdy
wszystkie ni 1 :
N
x1 x2 xN
x 1
N x
i 1
i
N
b) średnia arytmetyczna z wagą (ważona) dla szeregu punktowego – gdy
warianty cechy występują z różną częstotliwością:
k
x n x n xk nk k
x N1 xi ni 1 1 2 2 ; N ni
i 1 N i 1
d) średnia harmoniczna:
N N
nieważona: xH N
x1N
1 1
1 x1 x2
xi
i 1
N N
ważona: xH
k
n1 n2 x1k nk
1 1
1
xi ni x1 x2
i 1
e) średnia geometryczna:
N
nieważona: xG N xi N x1 x2 xN
i 1
k k
ważona: xG N xi i N x1 1 x2 2
n n n
xk nk ; N ni
i 1 i 1
Uwaga:
Zależności między x , xH , xG dla nieujemnych wariantów:
k
xH xG x xkwadratowa
1
N x n .
i 1
2
i i
18
2) Pozycyjne miary średnie:
a) dominanta:
w szeregu punktowym jest to ten wariant cechy, któremu odpowiada
największa liczebność,
w szeregu przedziałowym – należy do przedziału, któremu odpowiada
największa liczebność, oblicza się ją wg wzoru:
nD nD 1
D xD i
nD nD1 nD nD1 D
gdzie: xD - dolna granica klasy z dominantą,
nD - liczebność przedziału z dominantą,
nD 1 - liczebność przedziału poprzedzającego przedział
z dominantą,
nD 1 - liczebność przedziału następującego po przedziale
z dominantą,
iD - rozpiętość przedziału z dominantą
metoda graficzna wyznaczania dominanty
ci
ni
N
D xi
b) kwantyle:
są to warianty cechy, które dzielą badaną zbiorowość na określone części
pod względem liczebności, np. kwartale, decyle, centyle. Kwartyli jest
trzy: Q1 , Q2 , Q3 i dzielą zbiorowość na 4 części. Kwartyl drugi Q2 to
mediana. Decyli jest 9 i dzielą zbiorowość na 10 części, Decyl piąty, to
mediana. Centyli jest 99 i dzielą zbiorowość na 100 części. Centyl 50-ty
to mediana.
c) mediana (kwartyl drugi, środkowy):
to wartość środkowa (moda),
dla szeregu wyliczającego:
xN21 ; gdy N jest liczbą nieparzystą
Me x1 x1
N 1
2 2 2 ; gdy N jest liczbą parzystą
N
19
kwartyl pierwszy, dolny Q1 dzieli zbiorowość, uporządkowaną rosnąco
pod względem wariantów, na dwie części takie, że 25% zbiorowości ma
warianty cechy niższe, a 75% - wyższe niż kwartyl pierwszy;
dla szeregu przedziałowego:
k 1
1
4 N ni
Q1 xQ1 i 1
iQ1
nQ1
gdzie:
xQ1 - dolna granica przedziału z Q1 ,
nQ1 - liczebność przedziału z Q1 ,
iQ1 - rozpiętość przedziału z Q1 ,
k - numer przedziału z Q1 ,
kwartyl drugi, środkowy Q2 Me (mediana): dzieli zbiorowość,
uporządkowaną rosnąco pod względem wariantów, na dwie równe części
(po 50%) takie, że 50% zbiorowości ma warianty niższe, a 50% - wyższe
niż kwartyl drugi zwany medianą;
dla szeregu przedziałowego:
k 1
1
2 N ni
Q2 Me xMe i 1
iMe
nMe
gdzie:
xMe - dolna granica przedziału z Me ,
nMe - liczebność przedziału z Me ,
iMe - rozpiętość przedziału z Me ,
k - numer przedziału z Me ,
kwartyl trzeci, górny Q3 dzieli zbiorowość, uporządkowaną rosnąco pod
względem wariantów, na dwie części takie, że 75% zbiorowości ma
warianty niższe, a 25% - wyższe niż kwartyl trzeci;
dla szeregu przedziałowego:
k 1
3
4 N ni
Q3 xQ3 i 1
iQ3
nQ3
gdzie:
xQ3 - dolna granica przedziału z Q3 ,
nQ3 - liczebność przedziału z Q3 ,
20
iQ3 - rozpiętość przedziału z Q3 ,
k - numer przedziału z Q3 ,
e) ilustracja graficzna kwartyli:
warianty cechy badanej zbiorowości
Me xi
Q1 Q3
warianty cechy
Q2 uporządkowane
rosnąco
Uwaga:
Wzór Pearsona ustalający zależność między miarami średnimi ( x , D , Me ):
x D 3 x Me
3) Zestawienie miar średnich:
MIARY ŚREDNIE
KLASYCZNE POZYCYJNE
D , Me
x , xH , xG Q1 , Q2 , Q3
kwantyle
21
MIARY ROZPROSZENIA
KLASYCZNE: POZYCYJNE:
odchylenie przeciętne rozstęp (empiryczny obszar
wariancja zmienności)
odchylenie standardowe odchylenie ćwiartkowe
xi x
2
b) wariancja, to średnia arytmetyczna kwadratów odchyleń:
wariantów cechy xi od średniej x :
22
dla szeregu wyliczającego (wszystkie ni 1 ):
N
V S2 x x
2
1
N i (nieważona)
i 1
KLASYCZNE POZYCYJNE
a) typowy obszar zmienności:
x S xtyp x S lub Me Q xtyp Me Q
23
b) współczynniki zmienności, to iloraz (wyrażony w %) bezwzględnej miary
rozproszenia: d , S , Q i odpowiednich średnich: x , Me , Q1 i Q3 :
S lub Q
vS vQ
x Me
d Q Q1
vd vQ1Q3 3
x Q3 Q1
4) Zestawienie miar rozproszenia:
MIARY ROZPROSZENIA
KLASYCZNE POZYCYJNE
2
d, S , S, R , Q,
vS , vd vQ , vQ1Q3 ,
xtyp x ,S xtyp Me,Q
24
2.1.5. Miary asymetrii (skośności)
D
Me x xi
W rozkładach prawostronnie asymetrycznych:
D Me x
ni
DMe x xi
W rozkładach lewostronnie asymetrycznych:
D Me x
ni
x Me D xi
1) Miary asymetrii:
a) wskaźniki asymetrii:
WS x D WS Q3 Q2 Q2 Q1
25
W rozkładach symetrycznych: WS 0
W rozkładach prawostronnie asymetrycznych: WS 0
W rozkładach lewostronnie asymetrycznych: WS 0
b) współczynnik asymetrii:
W x D W x D
AS S Ad S
S S d d
AQ 3
Q Q2 Q2 Q1 Q3 Q1 2Me
Q3 Q2 Q2 Q1 2Q
c) trzeci moment centralny:
k
m3 x x
1 3
N i ni - mierzy kierunek asymetrii
i 1
WS x D
W x D W x D
AS S Ad S
S S d d
Q Q 2Me
AQ 3 1
2Q
m
A3S 33
S
26
2.1.6. Miary koncentracji (skupienia)
KONCENTRACJA
rozumiana jako
rozkł. leptokurtyczny
rozkł. normalny
rozkł. platokurtyczny
xi
100%
wielobok koncentracji
skumulowane
częstości
globalnej wartości krzywa Lorenza
cechy liczone w %
xi ni
k cum%
xi ni Pk
i 1
P1 P2
skumulowane częstości liczone w %
100% ni
k cum%
ni
i1
27
Pwk P P1 P2 Pk
przy czym P1 - to trójkąt, P2 , P3 , , Pk , to trapezy.
Zatem
5000 P1 P2 Pk
k ł
5000
0 k 1
koncentracja koncentracja
mała duża
2) Miary koncentracji:
a) moment centralny 4-go rzędu:
k
m4 x x
1 4
N i ni
i 1
xi xi xi
a4 3 a4 3 a4 3
e0 e0 e0
Przykładowe zadanie:
Oto wyniki egzaminu ze statystyki grupy studentów: 3, 5, 4, 3, 3, 2, 4, 3, 3, 3, 2, 4, 4, 5,
3, 3, 5, 3, 4, 4. Dane te posłużą do zaprezentowania wcześniej omówionych pojęć i miar
struktury.
28
Cecha statystyczna: ocena z egzaminu
Warianty cechy ( xi ): oceny: 2, 3, 4, 5
k
Liczebność zbiorowości: N ni 20 (liczebność grupy)
i 1
Szereg surowy: 3, 5, 4, 3, 3, 2, 4, 3, 3, 3, 2, 4, 4, 5, 3, 3, 5, 3, 4, 4
Szereg prosty: 2, 2, 3, 3, 3, 3, 3, 3, 3, 3, 3, 4, 4, 4, 4, 4, 4, 5, 5, 5
Szereg rozdzielczy:
xi 2 3 4 5
ni 2 9 6 3
Wykres rozkładu:
ni
10
9
8
7
6
5
4
3
2
1
2 3 4 5 xi
1) Miary średnie
Uwaga:
Wprost z kształtu wykresu widać, że dominanta D 3 (najczęstsza ocena –
najwyższy słupek).
Kwartyle:
2, 2, 3, 3, 3, 3, 3, 3, 3, 3, 3, 4, 4, 4, 4, 4, 4, 5, 5, 5
¼ zbiorowości ¾ zbiorowości
Q1 3 Q2 Me 3
½ zbiorowości ½ zbiorowości
(połowa studentów (połowa studentów
otrzymała co najwyżej trójkę) otrzymała co najmniej trójkę)
Q3 4
¾ grupy studentów ¼ grupy
otrzymało co najwyżej czwórkę studentów
otrzymała co
najmniej czwórkę
29
Średnia x :
xi ni xi ni
2 2 4
3 9 27
4 6 24
5 3 15
k k
n
i 1
i 20 xn
i 1
i i 70
k
xi ni
x i 1
k 70
20 3,5
ni
i 1
xi x ni 11 x x ni 15
2
N 20 i
i 1 i 1
30
Odchylenie przeciętne:
k
d 1
N x x n
i 1
i i 11
20 0,55
S 0, 75 0,865
Standardowe rozproszenie sięga ok. 0,865 oceny.
Odchylenie ćwiartkowe:
Q3 Q1
Q 2 423 1
Zmienność ocen w połowie szeregu (między trzecim, a pierwszym kwartylem)
sięga jednej oceny.
Typowy obszar zmienności:
Me Q xtyp Me Q
3 1 xtyp 3 1
2 xtyp 4
lub
x s xtyp x s
3,5 0,865 xtyp 3,5 0,865
2, 635 xtyp 4,365
Oceny: 2 i 5, to oceny nietypowe, zaś typowe, to 3 i 4.
Współczynniki zmienności:
vs xs 100% 0,865
3,5 100% 24,71%
średniej stanowi odchylenie standardowe
vd dx 100% 0,55
3,5 100% 15,71%
średniej stanowi odchylenie przeciętne
vQ Me
Q
100% 13 100% 33,33% mediany stanowi odchylenie ćwiartkowe
Q3 Q1
vQ1Q3 Q3 Q1 100% 72 100% 28,57%
1) Miary asymetrii
Porównanie D , Me i x : D 3 , Me 3 , x 3,5
D Me x
3 3 3,5
31
Wskaźniki asymetrii:
Ws x D 3,5 3 0,5 0 - rozkład prawostronnie asymetryczny
lub
Ws Q3 Q2 Q2 Q1 4 3 3 3 1 0
Współczynniki asymetrii:
As 0,58; Ad 0,55 0,9
Ws 0,5 Ws 0,5
s 0,865 d
1
xi ni
N 20 xi ni
Wielobok koncentracji Lorenza:
xi ni
k cum%
xi ni
i 1
100%
78,57%
44,28% P4
P3
P2
5,71% P1 10% 55% 85% 100%
ni
n cum%
ni
i1
(10%) (45%) (30%) (15%)
32
Współczynnik korelacji Pearsona:
5000 P1 P2 P3 P4
k 5000 ,
gdzie
P1 12 10 5,71 28,55
P2 12 44, 28 5,71 45 1124,775
P3 12 78,57 44, 28 30 1842,75
P4 12 100 78,57 15 1339, 275
P1 P2 P3 P4 4335,35
4335,35
Zatem k 50005000 664,65
5000 0,133
Czyli pole wieloboku koncentracji Lorenza stanowi ponad 13% pola trójkąta
(połowy kwadratu 100% x 100%).
Moment centralny 4-go rzędu:
k
m4 x x ni 5,0620,069200,066 5,063 5,12 0,54 20
0,36 15,18
21,2
20 1, 06
1 4
N i
i 1
33
t yt
t1 y1 t t1 t2 tn
lub yt y1 y2 yn
tn yn
średnia n 1 n 1
chronologiczna
- dla okresów:
y1 y2 yn
yt
średnia n
arytmetyczna
35
Uwaga 2: W celu zbadania łącznej dynamiki k produktów w okresie badanym t 1
w porównaniu z okresem podstawowym t 0 wyznacza się indeksy agregatowe, np.
k
p q 1i 1i
Iw i 1
k
.
p
i 1
q
0i 0i
36
n n
yt t
a0 t 1
a1 t 1
y a1t
n n
Przykładowe zadanie:
Dana jest liczba detali (w tys. szt.) wyprodukowanych w latach 2005-2010:
2005 2006 2007 2008 2009 2010
ti
t1 t2 t3 t4 t5 t6
yi 40 65 70 35 45 50
t1 40 -
t2 65 162,5% >100%
Produkcja detali w 2007r. stanowiła 175% produkcji
t3 70 175% >100%
z roku 2005 (czyli wzrosła o 75%), natomiast w 2008r. –
t4 35 87,5% <100% tylko 87,5% produkcji z tego porównawczego roku.
t5 45 112,5% >100%
t6 50 125% >100%
37
Indeksy indywidualne łańcuchowe
100%
yi
ti yi yi 1
t1 40 -
t2 65 162,5% >100% W porównaniu z poziomem produkcji w roku
t3 70 107,7% >100% poprzednim, produkcja w 2007r. wzrosła o 7,7%, zaś
t4 35 50% <100% w 2008r. w porównaniu z rokiem poprzednim zmalała
t5 45 128,57% >100% o 50%
t6 50 111,11% >100%
Średnie tempo zmian produkcji detali w latach 2005-2010
y 5 50
40 5 1, 25 1, 045 - średnia produkcja w latach 2005-2010 rosła przeciętnie o
4,5% rocznie
Wykres szeregu czasowego
yi
70
65
50
45 W latach 2005-2007 trend rosnący, w
40
35
latach 2008-2010 też trend rosnący.
t1 t2 t3 t4 t5 t6 ti
38
Podział związków stochastycznych
jednokierunkowe i dwukierunkowe
xi xi xi xi
korelacja liniowa korelacja liniowa korelacja brak korelacji
dodatnia ujemna krzywoliniowa
c) Tablica korelacyjna (szereg rozdzielczy):
l
yi
xi
y1 y2 yl n
j 1
ij ni yi Si2 y
nij n j n1 n2 nl N ni n j
i 1 i 1 j 1
y
xj x1 x2 xl
x
S2 y
S 2
x S2
x S 2
x S 2
x
S 2 x
j 1 2 l
39
W tablicy korelacyjnej cecha (zmienna) X przyjmuje k wariantów:
x1 , x2 , , xk , a cecha (zmienna ) Y - l wariantów: y1 , y2 , , yl .
Liczebności warunkowe nij ( i 1, 2, , k , j 1, 2, , l ) oznaczają liczbę
jednostek reprezentujących równocześnie i -ty wariant X oraz j -ty wariant
zmiennej Y dla i 1, 2, , k , j 1, 2, , l .
W tablicy korelacyjnej wyróżniamy dwa rozkłady: warunkowy i brzegowy
dotyczący zarówno zmiennej X , jak i Y .
d) Rozkład warunkowy (dotyczy rozkładu obu cech):
yi
y1 y2 yl
xi
x1 n11 n12 n1l
x2 n21 n22 n2l
xk nk1 nk 2 nkl
e) Parametry rozkładu warunkowego:
zmiennej X zmiennej Y
średnie warunkowe X : średnie warunkowe Y :
k l
xj 1
n j xn i 1
i ij yi 1
ni y nj 1
j ij
x x
k
Si2 y ni 11 y j yi nij
l
S 2j x
2 2
1
n j 1 i j nij
i 1 j 1
dla j 1, 2, ,l dla i 1, 2, , k
f) Rozkłady brzegowe (dotyczą rozkładu tylko jednej cechy):
zmiennej X zmiennej Y
(pierwsza i ostatnia (pierwszy i ostatni wiersz z tablicy korelacyjnej)
kolumna z tablicy yi y1 y2 yl
korelacyjnej) k k k k
l n j nij n 1 ni1 n 2 ni 2 n l nil
xi ni nij i 1 i 1 i 1 i 1
j 1
l
x1 n1 n1 j
j 1
l
x2 n2 n2 j
j 1
l
xk nk nkj
j 1
40
Liczebności: n1 , n2 , , nk oraz n 1 , n 2 , , n l - to liczebności brzegowe.
g) Parametry rozkładów brzegowych
zmiennej X zmiennej Y
średnia cechy X : średnia cechy Y :
k l
x 1
N xi ni
i 1
y 1
N y n j j
j 1
y y n j
l
S 2 x x x S2 y
1 2 2
N 1 i ni 1
N 1 j
i 1 j 1
k l
gdzie N nij
i 1 j 1
xk yk
np. lub lub
yi yj yi yj yi yj
xi xj xi xj x xi xj
41
a) kowariancja
dla szeregu korelacyjnego dla tablicy korelacyjnej
x x y y nij
n k l
cov xy 1
n 1 x x y y
i 1
i i cov xy 1
N 1 i j
i 1 j 1
Uwaga: S x S y cov xy S x S y .
b) współczynnik korelacji liniowej Pearsona
cov xy
r
S x S y
Uwaga: r 1,1
Znak współczynnika korelacji informuje o kierunku i sile współzależności:
korelacja ujemna korelacja dodatnia
związek-1 związek r
funkcyjny
-0,8 -0,6 -0,4 -0,2 0 0,2 0,4 0,6 0,8 1 funkcyjny
ujemny dodatni
bardzo umiarkowana bardzo słaba umiarkowana bardzo
korelacja: silna silna słaba słaba silna silna
przyczyna
42
Analiza ilościowa obejmuje:
analizę korelacji badającą siłę i kierunek związku między cechami,
analizę regresji budującą matematyczny model powiązań między cechami.
Wzrokowa obserwacja diagramu korelacyjnego pozwala orientacyjnie ocenić istnienie
zależności między zmiennymi lub stwierdzić jej brak.
Jednokierunkowe zmiany wariantów obu cech świadczą o korelacji dodatniej, zaś
różnokierunkowe – o korelacji ujemnej.
Liniowy rozrzut punktów xi , yi diagramu świadczy o zależności liniowej, zaś
nieliniowy – o zależności nieliniowej.
Skupienie lub rozproszenie liczebności nij ( i 1, 2, , k , j 1, 2, , l ) wariantów xi , y j
zmiennych X i Y w tablicy korelacyjnej pozwala ocenić kierunek, siłę i kształt
zależności.
Układ liczebności nij wzdłuż przekątnych tablicy korelacyjnej świadczy o zależności
(dodatniej lub ujemnej) liniowej, natomiast ich skupianie wokół innej krzywej może
sugerować zależność nieliniową.
Liniowość zależności:
X od Y : x2 x1 x3 x2 xk xk 1
Y od X : y2 y1 y3 y2 yl yl 1
Niezależność korelacyjna:
X od Y : x1 x2 x3 xk x
Y od X : y1 y2 y3 yl y
Niezależność stochastyczna:
x1 x2 x3 xk x
X od Y : 2
S1 x S2 x Sl x S x
2 2 2
y1 y2 y3 yl y
Y od X : 2
S1 y S2 y S k y S y
2 2 2
Niezależność stochastyczna Niezależność korelacyjna
Niezależność korelacyjna zmiennej X od Y nie musi oznaczać niezależności
korelacyjnej Y od X .
Przykładowe zadanie 1:
Dane są warianty zmiennej X i Y :
xi 7 9 11 13 15
yi 8 11 13 12 16
- jest to szereg korelacyjny
43
Diagram korelacyjny:
yi
16
13
12
11
Obserwacja wzrokowa wskazuje na
8
zależność liniową.
7 9 11 13 15 xi
Kowariancja i współczynnik korelacji liniowej:
Lp. xi yi xi x yi y xi x yi y xi x
2
yi y
2
1 7 8 -4 -4 16 16 16
2 9 11 -2 -1 2 4 1
3 11 13 0 1 0 0 1
4 13 12 2 0 0 4 0
5 15 16 4 4 16 16 16
n n n n
x y y
n
y x x y y 34 x x 34
2
55 60 40
2
i i i i i i
i 1 i 1 i 1 i 1 i 1
n
x 555 11; y 605 12 ; cov xy 1
n 1 x x y y
i 1
i i
1
4 34 8,5 0
0,92
-1 0 1 r
Współczynnik korelacji liniowej bliski jest liczbie 1, zatem między zmiennymi X i Y
zostają w bardzo silnej zależności liniowej (dodatniej).
Przykładowe zadanie 2:
Dla N 30 dany jest szereg korelacyjny:
xi 2 2 2 2 2 3 3 3 3 3 3 3 4 4 4 4 4 4 4 4 5 5 5 5 5 5 5 5 5 5
yj 3 3 3 3 3 3 3 3 3 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 5 5 5 5
44
Tabela korelacyjna:
yj 3
xi
y1 3 y2 4 y3 5 n
j 1
ij
x1 2 5 0 0 5
x2 3 4 3 0 7
x3 4 0 8 0 8
x4 5 0 6 4 10
4
n
i 1
ij 9 17 4 N 30
5 0 0
4 0 3
Liczebności warunkowe tworzą macierz: .
0 0 8
0 4 43 6
Obserwacja wzrokowa wskazuje na skupienie się liczebności wokół przekątnej głównej,
co sugeruje zależność liniową dodatnią.
Parametry rozkładu warunkowego:
Średnie warunkowe cechy X :
k
xj 1
n j xn
i 1
i ij
4
x1 1
n1 xn
i 1
i i1 19 2 5 3 4 4 0 5 0 22
9 2, 4
4
x2 1
n2 xn
i 1
i i2 171 2 0 3 3 4 8 5 6 17
71
4, 2
4
x3 1
n3 xn
i 1
i i3 1
4 2 0 3 0 4 0 5 4 204 5
Średnie warunkowe cechy Y :
l
yi 1
ni y n
j 1
j ij
3
y1 15 y j n1 j 15 3 5 4 0 5 0 155 3
j 1
3
y2 17 y j n2 j 17 3 4 4 3 5 0 24
7 3, 4
j 1
3
y3 18 y j n3 j 81 3 0 4 8 5 0 328 4
j 1
45
3
y4 101 y j n4 j 101 3 0 4 6 5 4 10
44
4, 4
j 1
x x
k
S 2j x
2
1
n j 1 i j nij
i 1
4
S12 x x x ni1 81 0, 4 5 0, 6 4 0, 28
1 2 2 2 2,24
n 1 1 i 1 8
i 1
4
S22 x x x ni 2 161 1, 2 3 0, 2 8 0,8 6 8,48
16 0,53
1 2 2 2 2
n 2 1 i 2
i 1
4
S32 x x x ni 3 13 0 0
1 2
n 3 1 i 3
i 1
j 1
y y1 n1 j 14 0 0
3
S12 y
2
1
n1 1 j
j 1
S22 y n211 y j y2 n2 j 16 0, 4 4 0, 6 3 1,72
3
2
6 0,3
2 2
j 1
y y3 n3 j 17 0 0
3
S32 y
2
1
n3 1 j
j 1
y
y4 n4 j 19 0, 4 6 0, 6 4 2, 08
3
y
2 2 2 2
1
S 4 n4 1 j
j 1
Średnia cechy Y :
y 291 3 9 4 17 5 4 115
29 3,96
Wariancja cechy X :
S 2 x 1
29 1,9 5 0,9 7 0,1 8 1,1 10
2 2 2 2 35,9
29 1, 24
46
Wariancja cechy Y :
S2 y 1
29 0,96 9 0, 04 17 1, 04 4
2 2 2 12,88
29 0, 44
Wykres regresji empirycznej:
Y od X : X od Y :
xi yi yj 3 4 5
2 3 x j 2,4 4,2 5
3 3,4
4 4
5 4,4
yi xj
4,4 5
4
3,4
4,2
3
2,4
2 3 4 5 xi
3 4 5 yj
Wykres regresji wskazuje na zależność liniową dodatnią.
Miary korelacji:
Kowariancja:
x x y y nij
k l
cov xy 1
N 1 i j
i 1 j 1
1
29 2 3,9 3 3,96 5 2 3,9 4 3,96 0 2 3,9 5 3,96 0
3 3,9 3 3,96 4 3 3,9 4 3,96 3 3 3,9 5 3,96 0
4 3,9 3 3,96 0 4 3,9 4 3,96 8 4 3,9 5 3,96 0
5 3,9 3 3,96 0 5 3,9 4 3,96 6 5 3,9 5 3,96 4
1
29 1,9 0,96 5 0,9 0,96 4 0,9 0, 04 3 0,1 0, 04 8
1,1 0, 04 6 1,1 0, 04 4 13,156
29 0, 45 0 zależność dodatnia
-1 0 1 r
47
48
3. Przypomnienie wiadomości z rachunku
prawdopodobieństwa
3.1. Podstawowe pojęcia probabilistyczne
Doświadczenie losowe – to eksperyment dający się wielokrotnie powtarzać w prawie
identycznych warunkach.
Zdarzenie losowe A, B, C, - to niedający się przewidzieć wynik doświadczenia
losowego.
Zdarzenie elementarne - to pojęcie pierwotne rachunku prawdopodobieństwa;
rozumie się je jako pojedynczy wynik doświadczenia losowego.
Zbiór (przestrzeń) zdarzeń elementarnych - to zbiór wszystkich możliwych
wyników doświadczenia losowego. Podzbiory zbioru , to zdarzenia losowe
A, B, C, .
Zdarzenie niemożliwe - to zdarzenie, które nie może zaistnieć.
Zdarzenie pewne – to przestrzeń .
Zdarzenie przeciwne do A - to A oznacza, że nie zachodzi A .
49
3.3. Własności prawdopodobieństwa
Dla dowolnych A, B :
a) P 0 ,
b) P A 1 P A ,
c) A B P A P B ,
d) P A B P A P B P A B ,
e) A B P A P B ,
f) P A 1 ,
g) P A B P A P B P A B
h) P A B P A P B
i) P A 0;1
P A B C P A P B P C
j)
P A B P B C P A C P A B C
50
3.6. Prawdopodobieństwo całkowite
P B1 P Bn
P B2
B1 B2 Bn
P(A/B 1 )
P(A'/B 1 )
P(A/Bn ) P(A'/B n )
P(A/B 2 ) P(A'/B2 )
Uwaga:
Prawdopodobieństwo P Bi nazywane jest prawdopodobieństwem a prori, zaś
prawdopodobieństwo P Bi / A - prawdopodobieństwem a posteriori.
4
5
5
4
2
2
2
2
9
4 5 9
9
5 4 9 II etap
wyciągnięcie
2
1 1
2
2
1 1
2 dwóch kul
9
9 z 10 kul
2
2
(B, B) (B, C) (C, C) (B, B) (B, C) (C, C)
(biała, biała) (biała, czarna) (czarna, czarna) (biała, biała) (biała, czarna) (czarna, czarna)
Przykładowe zadanie 2
Oblicz prawdopodobieństwo, że w 10-ciu rzutach kostką:
a) 8 razy uzyskamy sześć oczek.
10 1 5 1125
8 2
Rozwiązanie: P S10 8 10
8 6 6 6
b) co najmniej 8 razy uzyskamy sześć oczek.
i 10 i
10 1 5 10
1176
Rozwiązanie: P S10 8
i 8 i 6 6 610
c) co najwyżej 8 razy uzyskamy sześć oczek.
52
i 10 i
8
10 1 5 610 51
Rozwiązanie: P S10 8
i 0 i 6 6 610
d) więcej niż 8 razy uzyskamy sześć oczek.
i 10 i
10
10 1 5 51
Rozwiązanie: P S10 8
i 9 i 6 6 610
e) mniej niż 8 razy uzyskamy sześć oczek.
i 10i
7
10 1 5 610 1176
Rozwiązanie: P S10 8
i 0 i 6 6 610
f) więcej niż 5 i mniej niż 8 razy uzyskamy sześć oczek.
10 1 5 10 1 5 53 1170
6 4 7 3
Rozwiązanie: P 5 S10 8
6 6 6 7 6 6 610
53
54
4. Podstawy statystyki matematycznej
Wtedy zmienna losowa nazywa się Wtedy zmienna losowa nazywa się
skokową, czyli dyskretną. ciągłą.
X : X x P X x
zmienna funkcja
losowa realizacja rozkładu prawdopodobieństwo,
zmiennej losowej prawdopodobieństwa że zmienna losowa X
(rozkład przyjmuje wartość x
prawdopodobieństwa)
funkcja rozkładu:
55
pi P X i xi ; dla zmiennej losowej skokowej
ni
częstość względna N
P x X x x
f x lim
x 0
x ; dla zmiennej losowej ciągłej
funkcja gęśtosci
prawdopodobieństwa
Uwaga:
Funkcja rozkładu prawdopodobieństwa:
dla zmiennej losowej skokowej: dla zmiennej losowej ciągłej:
P X xi pi ; i 1, 2, ,n f x lim
P x X x x
x
x 0
(gęstość prawdopodobieństwa)
oraz dystrybuanta:
dla zmiennej losowej skokowej: dla zmiennej losowej ciągłej:
F x P X x pi x
xi x F x f t dt
56
4.1.4. Podstawowe parametry rozkładu zmiennej losowej
ZMIENNE LOSOWE
SKOKOWE zagadnienia CIĄGŁE
P X xi pi ; i 1, 2, ,n P x X x x
funkcja rozkładu f x lim
xi x1 x2 xn
prawdopodobieństwa
x 0 x
funkcja
pi p1 p2 pn gęstości
F x P X x pi
x
dystrybuanta F x f t dt
xi x
p
i
i 1 własność f x dx 1
wartość oczekiwana
EX xi pi
i
(średnia) zmiennej EX
xf x dx
losowej
VX S 2 X xi EX pi
x EX f x dx
2
wariancja zmiennej VX S X 2 2
i losowej
odchylenie standardowe
SX VX S 2 X
wzór
VX S X EX 2 EX
2 2
57
4.2. Rozkłady zmiennej losowej
1 1
1 p 1 p
0 1 x 0 1 x
d) parametry rozkładu:
EX p ; S 2 X p 1 p pq
e) własności:
- ma zastosowanie w jednorazowej realizacji doświadczenia.
(2) Rozkład dwumianowy (Bernoulliego):
a) funkcja prawdopodobieństwa:
n
P X k p k q nk ; k
k
b) dystrybuanta:
n
F x P X x p k q nk ; q 1 p
kx k
58
c) wykresy:
P x i F x
1 1
np. 0 1 2 3 x 0 1 2 3 x
d) parametry rozkładu:
EX np ; S 2 X npq; q 1 p
e) własności:
- p q , to rozkład jest symetryczny,
- p q , to rozkład jest lewostronnie asymetryczny,
- p q , to rozkład jest prawostronnie asymetryczny,
- p q i n , to granicznym rozkładem jest rozkład normalny,
- p 0,02 i n , to granicznym rozkładem jest rozkład Poissone’a.
(3) Rozkład Poissona:
a) funkcja prawdopodobieństwa:
k
P X k e ; np ; k ; e 2,7182...
k!
b) dystrybuanta:
k
F x P X x e
kx k!
c) parametry rozkładu:
EX np ; S 2 X np
d) własności:
- wartości prawdopodobieństw są stablicowane dla i k ,
- jest rozkładem prawostronnie asymetrycznym,
- ma zastosowanie w kontroli jakości,
- jest granicznym rozkładem dla rozkładu dwumianowego, gdy p 0,02
i n .
(4) Rozkład geometryczny:
realizacje X : xi i; i 1, 2,
prawdopodobieństwa: pi p 1 p
i 1
EX 1p ; S 2 X 1p2p
59
4.2.2. Rozkłady zmiennej losowej ciągłej
f x dx 1
Fx3
P2
Fx1 2
Fx
P1 P3
x1 x2 x3 x4 x x1 x2 x3 x4 x
P1 P X x1 F x1
P2 P x2 X x3 F x3 F x2
P3 P X x4 1 F x4
Ogólnie:
b
P a X b f x dx F b F a
a
prawdopodobieństw f x .
60
a) funkcja gęstości:
0; dla x a
f x b1 a ; dla a x b
0; dla x b
b) dystrybuanta:
0; dla x a
F x bxaa ; dla a x b
0; dla x b
c) wykresy:
f x F x
1
1
b a
a b x a b x
d) parametry rozkładu:
ba
2
EX a2b ; S 2 X 12
e) własności:
- zastosowanie do opisu zmian ze stała częstotliwością (prędkością).
(2) Rozkład normalny (Gaussa-Laplace’a):
z parametrami , : N ,
a) funkcja gęstości:
x 2
1
f x e 2 2 ; x ; ; 0 ; 3,14 ; e 2,7182
2
b) dystrybuanta:
x t 2
1
F x e 2 2
dt ; x ; ; 0
2
c) wykresy:
f x
1
2
F x
1
0,5
x
krzywa normalna
w kształcie dzwonu x
61
d) parametry rozkładu:
x 2 x 2
1 1
EX dx ; 2 S 2 X x e
2
2 2 2 2
xe dx
2 2
e) własności:
- rozkład symetryczny
- jest granicznym rozkładem rozkładu dwumianowego dla p q i n
- ma szerokie zastosowanie do opisu zjawisk społecznych i przyrodniczych.
(3) Rozkład t-Studenta (Gosseta):
X
Statystyka: t n ma rozkład t-Studenta z k n 1 liczbą stopni
S
swobody.
E t 0 ; S t k
k 2 k 1
k 3 ; k 3
f t
Statystyka:
2 n 1 S 2
ma rozkład 2 z k n 1 liczbą stopni swobody.
2
k 3
k 5
k 12
2
E 2 k n 1 ; S 2 2k 2 n 1
62
Rozkład 2 ma zastosowanie do wnioskowania o wariancji 2 w populacji
z rozkładem normalnym. Jest on stablicowany.
(5) Rozkład F-Snedecora:
Sˆ12
Statystyka F 2 ma rozkład F-Snedecora o k1 n1 1 i k2 n2 1 stopniach
Sˆ 2
F
2 k22 k1 k2 2
E F k2
k2 2 ; S 2
F k k 2 k 4
1 2
2
2
e 2 dt
1 t
2
63
u
f u 1
2 1
0,5
0
u u
u 1 u
Rozkład normalny standaryzowany N 0,1 jest stablicowany. Ma on zastosowanie do
wnioskowania o średniej w populacji z rozkładem normalnym N , ze znanym
odchyleniem standardowym w populacji.
x
P X 0,6826
po standaryzacji:
f u 1
2
-1 1
u
P 1 U 1 0,6826
- ok. 95,5% obserwacji mieści się w granicach 2-ch odchyleń standardowych 2 :
64
f x
1
2
2
2 x
P 25 X 25 0,9545
po standaryzacji:
f u 1
2
-2 2
u
P 2 U 2 0,9545
- ok. 99,7% obserwacji mieści się w granicach 3-ch odchyleń standardowych 3 :
f x
1
2
3
3 x
P 35 X 35 0,9973
po standaryzacji:
f u 1
2
-3 3
u
P 3 U 3 0,9973
65
Podsumowując, mamy:
f x
1
2
2
3
2
3 x
68,3%
wszystkich obserwacji
95,5%
wszystkich obserwacji
99,7%
wszystkich obserwacji
Xi , S 2 X X
2
X 1
n
1
n 1 i
i 1 i 1
Statystyka, jako funkcja zmiennych losowych, jest zmienną losową, która ma pewien
rozkład – jest to rozkład statystyki z próby.
i wariancją D X
n
. Czyli:
X N , , to X
N ,
n
66
f x
rozkład X
N ,
n
rozkład X N
,
x
X X
U n t S n 1
o rozkładzie N 0,1 o rozkładzie t-Studenta o k n 1
stopniach swobody, gdzie
odchylenie standardowe z próby
wyraża się wzorem:
n
X X
2
S 1
n 1 i
i 1
n
2
Xi
n 1 S 2 Z 2 2 2k 1
2
2 2
i 1
o rozkładzie N 0,1
o rozkładzie 2
z k n 1 stopniami swobody
67
4.4. Teoria estymacji
POPULACJA
nieznany parametr Q ?
np. , 2 , , p (frakcja)
WNIOSKOWANIE
STATYSTYCZNE
PRÓBA
estymator T parametru Q w populacji
np. X , S 2 , S , p̂ (częstość w próbie)
68
4.4.2. Rodzaje estymacji
ESTYMACJA
PARAMETRYCZNA NIEPARAMETRYCZNA
(szacowanie tylko nieznanych parametrów (szacowanie dotyczy również
w znanym typie rozkładu populacji generalnej) nieznanej postaci funkcji
rozkładu populacji)
PUNKTOWA PRZEDZIAŁOWA
(za ocenę przyjmuje (konstruuje się przedział
się konkretną liczbę ufności, który
z wyników próby) z określonym z góry
prawdopodobieństwem
bliskim liczbie 1 pokrywa
(zawiera) nieznaną wartość
szacowanego parametru
populacji)
a ; b tzn. P a Q b 1
współczynnik
dolna górna ufności
granica granica (ok. 0,9; 0,95
przedziału przedziału 0,98; 0,99)
ufności ufności
n
Estymatorem średniej jest średnia z próby: X 1
n X
i 1
i o rozkładzie N ,
n
P X u S
n
X u S
n 1
Jakość takiego oszacowania wzrasta wraz ze wzrostem liczebności próby n .
(2) Przedział ufności dla wariancji 2 w populacji normalnej
n
X X .
2
Estymatorem wariancji 2 jest wariancja z próby: S 2 1
n 1 i
i 1
P 12 ,k 2 2,k 1
2 2
czyli po przekształceniu:
n 1 S 2 n 1 S 2
P 2 2 2 1 .
2 ,k 1 ,k
2
Uwaga: Szacowanie wariancji 2 w populacji o rozkładzie normalnym N ,
na podstawie dużej próby n 30 odbywa się z wykorzystaniem tablic rozkładu
normalnego ( u - odczytuje się z tablic dla określonego ). Wówczas przedział
ufności dla wariancji 2 jest następujący:
P S u2Sn
2
2 S u S
2n 1
2
X X .
2
gdzie S 1
n 1 i
i 1
70
(3) Przedział ufności dla odchylenia standardowego w populacji normalnej
Estymatorem odchylenia standardowego jest odchylenie standardowe
. Założenie: populacja
n
X X
2
w próby: S 1
n 1 i o rozkładzie N ,
2n
i 1
p
k
p 1 p p 1 p
p i : N p, . Stosujemy statystykę U n
o rozkładzie
p 1 p
n n
n
71
Przykładowe zadanie 1
Określić przedział ufności dla średniego stażu pracy pracowników w populacji
o rozkładzie normalnym N ;3 na poziomie ufności 0,95 wiedząc, że na podstawie
144-elementowej próby losowej ustalono średni staż pracy równy 10 lat.
Rozwiązanie:
Skoro 1 0,95 , to 0,05 . Odchylenie standardowe jest dane: 3 . Liczebność
X
próby n 144 . Średnia X 10 . Stosujemy statystykę U n 103 144
o rozkładzie N 0,1 . Z tablic rozkładu normalnego odczytujemy u0,05 1,96 .
Wyznaczamy przedział ufności dla średniej :
P X u
n
X u
n 1
czyli
P 10 1,96 3
144
10 1,96 3
144 0,95
czyli
P 9,56 10, 44 0,95
Zatem przedział ufności 9,56;10, 44 z prawdopodobieństwem 0,95 pokrywa nieznaną
średnią stażu pracy w populacji.
Przykładowe zadanie 2
Na podstawie próby liczącej 24 uczniów szkół danego regionu ustalono średni dzienny
czas samodzielnej nauki na poziomie 90 minut dziennie z odchyleniem standardowym 4
minut. Na poziomie ufności 0,90 oszacować średni dzienny czas samodzielnej nauki
uczniów
w tym regionie, zakładając, że rozkład czasu nauki jest rozkładem N , .
Rozwiązanie
Z danych mamy:
0,1 , X 90 , S 4 , n 24 , - nieznane
X
Stosujemy rozkład t-Studenta t ,n1 S n 904 24 . Dla 0,1 i n 1 23 stopni
swobody odczytujemy wartość krytyczną t0,1;23 1, 714 rozkładu t-Studenta.
Wyznaczymy przedział ufności średniej :
P X t ,n 1 S
n
X t ,n 1 S
n 1
czyli
P 90 1, 714 4
24
90 1, 714 4
24 0,9
czyli
72
P 88,6 91, 4 0,9
Zatem z 90%-ową pewnością szacujemy, iż średnio uczniowie tego regionu poświęcają
dziennie od 88,6 do 91,4 minut na samodzielną naukę.
Przykładowe zadanie 3
Aby ocenić zróżnicowanie średnicy drzew w parku zmierzono średnicę 7-miu losowo
wybranych drzew i otrzymano X 35cm i S 2 2cm2 . Zakładając, że rozkład średnicy
drzew w parku ma rozkład normalny, na poziomie ufności 0,95, ocenić zróżnicowanie
średnicy drzew w parku.
Rozwiązanie:
Na podstawie danych mamy: 0,05 , X 35 , S 2 2 , n 7 . Stosujemy statystykę
2
n 1 S 2
2
622 o rozkładzie chi-kwadrat z n 1 6 stopniami swobody. Z tablic tego
rozkładu odczytujemy dla 0,05 wartość krytyczną tej statystyki
2;n1 2 0,05
;6
0,025;6
2
14, 449 oraz 12 ;n1 12 0,05
;6
0,975;6
2
1, 237 . Zatem
2 2 2 2
Przykładowe zadanie 4
Z populacji 100 tysięcy osób wylosowano 100 osób, z których 10 ma zmienić miejsce
zamieszkania. Przyjmując współczynnik ufności 0,9 wyznaczyć przedział ufności dla
frakcji osób tej grupy zamierzających opuścić dotychczasowe miejsce zamieszkania.
Rozwiązanie:
73
Na podstawie danych mamy: P kn 100
10
101 oraz 0,1 . Aby oszacować wskaźnik
k
p
struktury populacji p stosujemy statystykę U n
o rozkładzie N 0,1 i z tablic
p 1 p
n
POPULACJA
HIPOTEZY
WNIOSKOWANIE
STATYSTYCZNE
PRÓBA
TESTY
74
4.5.1. Etapy weryfikacji hipotez
I. Sformułowanie hipotez: H 0 i H1 .
II. Decyzja o poziomie istotności .
III. Dobór odpowiedniego testu statystycznego.
IV. Konstrukcja obszaru krytycznego K .
V. Decyzja weryfikacyjna (odrzucenie lub nie H 0 ).
parametryczne nieparametryczne
- są to sądy dotyczące wartości parametrów - są to sądy dotyczące np. postaci funkcji
rozkładu populacji rozkładu populacji
75
4.5.3. Pojęcie i podział testu statystycznego
K W\K
U obszar przyjęć H 0
(tj. przedział ufności)
obszar krytyczny
(obszar odrzuceń H 0 )
Obliczona na podstawie próby wartość Wobl . statystyki testowej może należeć do jednego
z tych podzbiorów: do K albo do W \ K .
76
Wobl .
nie należy do K
należy do K
Wobl. K Wobl. K
(należy do W \ K )
2
2
Wobl . K
P
H 0 - prawdziwa
poziom istotności
(błąd I rodzaju - mały)
Wobl . W \ K
P
H1 - prawdziwa
H 0 - fałszywa
błąd II rodzaju
Najwłaściwsza strategia przy podejmowaniu decyzji, to minimalizacja obu rodzajów
błędów. Nie jest ona możliwa, bo gdy maleje, to rośnie. Stąd w teorii weryfikacji
hipotez buduje się test najmocniejszy, czyli taki, dla którego przy z góry zadanym
prawdopodobieństwie popełnienia błędu I rodzaju ( ), prawdopodobieństwo
popełnienia błędu II ( ) rodzaju jest najmniejsze.
78
4.5.6. Weryfikacja wybranych hipotez parametrycznych
2
2
t2, n 1 t
u u u
K t2 ,n 1 ; ,
K ; u u ; ,
bo P tobl . t2 , n 1
bo P uobl . u . Wtedy, gdy:
Wtedy, gdy: tobl . t2 ,n 1 , to H 0 odrzucamy na rzecz H1 ,
uobl . K , to H 0 odrzucamy na gdy zaś
rzecz H1 , tobl . t2 ,n 1 , to nie ma podstaw odrzucenia
gdy zaś H0 .
uobl . K , to nie ma podstaw do
odrzucenia hipotezy H 0 .
Gdyby zaś H1 miała postać:
0 lub 0 , to obszar
krytyczny byłby jednostronny: lewo-
lub prawostronny.
79
Uwaga:
W przypadku weryfikacji hipotezy o średnie w populacji z nieznanym odchyleniem
standardowym na podstawie dużej próby n 120 stosujemy statystykę U X 0
S n
(przyjmujemy
n
S
n
), która ma rozkład asymptotycznie normalny N 0,1 . Budowa
obszaru krytycznego i reguła decyzyjna jest analogiczna jw.
(2) Weryfikacja hipotezy o wariancji w populacji normalnej
Założenia: populacja ma rozkład normalny N , o nieznanych parametrach , ,
próba jest mała n 30 .
H 0 : 2 02 ; np. H1 : 2 02
Do weryfikacji hipotezy H 0 stosujemy statystykę 2 :
n
2 12 X i X ,
n 1 S 2 2
02 0
i 1
2 ,n 1 2
Obliczamy obl
2
. na podstawie próby, dalej z tablic rozkładu , dla zadanego poziomu
2
80
Do weryfikacji hipotezy H 0 wykorzystuje się wskaźnik struktury z próby P kn
2
2
K ; u2
K ; u u ; K u2 ;
P uobl . u2 P uobl . u P uobl . u2
uobl . K reguła
uobl . K
decyzyjna
stwierdzamy możliwość
prawdziwości H 0 , czyli
możliwe mówimy, że nie ma
H 0 odrzucamy na rzecz H1 decyzje podstaw do odrzucenia
hipotezy H 0 (praktycznie ją
przyjmujemy)
P X t ,n 1 S
n
X t ,n 1 S
n 1 dotyczy średniej w H 0 : 0
populacji,
- nieznane,
H1 : 0 P X 0
n t2 ,n 1
n 120 (mała
próba),
H1 : 0 P X 0
n t , n 1
X N , , H1 : 0 P X 0
n t2 ,n 1
stosowana statystyka:
X
t S n
o rozkładzie t-
Studenta o n 1
stopniach swobody
P X u S
n
X u S
n 1 dotyczy średniej w H 0 : 0
populacji,
- nieznane,
H1 : 0 P X 0
S
n u2
n 120 (duża
próba),
H1 : 0 P X 0
S
n u
stosowana statystyka: H1 : 0 P X 0
S
n u 2
X
u S n
o rozkładzie
asymptotycznie
normalnym N 0,1
82
n 1 S 2
P 2 2 n 1 S 2 dotyczy wariancji 2 H 0 : 2 02
1
2 w populacji,
2 ,n1 1 ,n1
2 H1 : 2 02 P n 1 S 2
2 ,n 1
n 30 (próba mała), 02
X N , ,
stosowana statystyka:
2
n 1 S 2
2
o rozkładzie chi-
kwadrat
k
1 kn k
1 kn dotyczy frakcji p k
H 0 : p p0
P kn u p kn u 1
n n
n
n n
w populacji, kp
n 100 , H1 : p p0 P n 0
p0 1 p0
u2
n
p 1 p
X N p, , kp
H1 : p p0 P u
n n 0
p0 1 p0
stosowana statystyka: n
k
p kp
u n H1 : p p0 P n 0
p0 1 p0
u2
p 1 p n
n
o rozkładzie
normalnym N 0,1
Przykładowe zadanie 1
Sprawdzić na poziomie istotności 0,05 zasadność twierdzenia, że przeciętnie
dorosły człowiek śpi średnio 4,5 godziny na dobę zakładając wnioskowanie oparte na
rozkładzie normalnym N ;0,5 , jeśli na podstawie próby liczącej 625 osób ustalono,
że średnia długość snu tej grupy wynosi 6 godzin na dobę.
Rozwiązanie:
Stawiamy hipotezę zerową: H0 : 4,5 0 wobec hipotezy alternatywnej
X
H1 : 4,5 . Stosujemy statystykę U 6 4,5
0,5 75 uobl . o rozkładzie normalnym
n 625
N 0,1 .
Z tablic tego rozkładu odczytujemy dla 0,05 wartość krytyczną u u0,05 1,96 .
Obszar krytyczny jest obustronny:
K ; u u ; ; 1,96 1,96; .
Porównujemy uobl. 75 z u0,05 1,96 i mamy:
uobl . 75 K ; 1,96 1,96; .
Podejmujemy więc decyzję o odrzuceniu hipotezy H 0 na rzecz hipotezy H1 .
Zatem hipotezę o średniej równej 4,5 godziny snu dorosłego człowieka na dobę należy
uznać za fałszywą.
83
Przykładowe zadanie 2
Utarg sklepów pewnej miejscowości ma rozkład normalny z nieznanymi parametrami.
Przypuszcza się, że dzienny utarg jest rzędu 10 tys. zł. Na poziomie istotności 0,05
sprawdzić, czy to przypuszczenie jest słuszne, jeśli w próbie 25 losowo wybranych
takich sklepów otrzymano średni dzienny utarg X 9,5 tys. zł .
Rozwiązanie:
Stawiamy hipotezę zerową H0 : 10 0 wobec hipotezy alternatywnej H1 : 10 .
X
Stosujemy statystykę t S n 9,5210 25 1, 25 tobl. o rozkładzie t-Studenta o n 1
stopniach swobody. Z tablic tego rozkładu odczytujemy dla 0,05 i n 1 24 stopni
swobody wartość krytyczną: t2 ,n 1 t20,05;24 t0,1;24 1, 711
Obszar krytyczny jest lewostronny: K ; t2 ,n 1 ; 1, 711
Porównujemy tobl. 1, 25 z t0,1;24 1, 711 i mamy tobl . 1, 25 K ; 1, 711 .
Podejmujemy więc decyzję, że nie ma podstaw do odrzucenia hipotezy H 0 . Zatem
z błędem 0,05 przyjmujemy hipotezę o tym, że średni utarg dzienny tych sklepów jest
rzędu 10 tys. zł.
Przykładowe zadanie 3
W losowo wybranej próbie 30 studentów obliczono wariancję S 2 2 papierosy
wypalone dziennie przez tych studentów. Przy założeniu, że rozkład liczby wypalonych
papierosów jest normalny, na poziomie istotności 0,05 zweryfikować hipotezę, że
odchylenie standardowe wypalonych papierosów wynosi 3.
Rozwiązanie:
Stawiamy hipotezę zerową: H 0 : 2 32 9 02 wobec hipotezy alternatywnej
H1 : 2 9 .
Stosujemy statystykę 2
n 1 S 2
02
292
9 6, 44 uobl . o rozkładzie chi-kwadrat z n 1 29
stopniami swobody. Z tablic tego rozkładu odczytujemy wartość krytyczną
0,05;29
2
42,56 . Obszar krytyczny jest prawostronny:
K 2 ,n 1 ; 0,05;29
2
; 42,56;
84
Przykładowe zadanie 4
W celu zbadania hipotezy, że 40% uczniów w wieku szkolnym nosi okulary, zbadano
5000 uczniów i stwierdzono, że 1500 uczniów tej grupy nosi okulary. Na poziomie
istotności 0,01 zweryfikować tę hipotezę.
Rozwiązanie:
Stawiamy hipotezę zerową H0 : p 0, 4 p0 wobec hipotezy alternatywnej
H1 : p 0, 4 .
k
p0 1500
0, 4
Stosujemy statystykę u n
5000
0, 019 o rozkładzie normalnym
p0 1 p0 0,41 0,4
n 5000
N 0,1 .
Z tablic tego rozkładu odczytujemy dla 0,01 wartość krytyczna u u0,01 2,58 .
Obszar krytyczny jest obustronny:
K ; u u ; ; 2,58 2,58;
Porównujemy uobl. 0,019 z u0,01 2,58 i mamy
uobl . 0, 019 K ; 2,58 2,58; .
Podejmujemy więc decyzję o nieodrzuceniu hipotezy H 0 , bowiem może ona być
prawdziwa.
85
86
Skorowidz
89
90
Bibliografia
91
92
Summary
93