Professional Documents
Culture Documents
danych
Statystyka opisowa
Wykład I-III
Kolumna liczb { wi }
nazywana jest
rozkładem empirycznym
(liczby usterek).
SKUMULOWANY WSKAŹNIK
STRUKTURY (wi sk)
• Skumulowany wskaźnik struktury (inaczej: częstośd
skumulowana). Wylicza się go następująco:
Kolumna liczb { wi sk }
nazywana jest
dystrybuantą empiryczną
(liczby usterek).
ZALECENIA przy grupowaniu
w szereg rozdzielczy przedziałowy
szereg rozdzielczy przedziałowy -
przykład
• Przedmiotem badania jest czas dojazdu do pracy w dwóch
firmach: X i Y.
Czas dojazdu pracowników firmy X
[w minutach]
Czas dojazdu pracowników firmy Y
[w minutach]
• Pogrupuj dane w szeregi rozdzielcze następującej postaci :
X Y
WSKAŹNIK PODOBIEOSTWA
STRUKTUR
• Wskaźnik podobieostwa struktur (wp) jest najprostszą miarą
statystyczną pozwalającą ocenid podobieostwo kształtowania
się badanej cechy w dwóch różnych zbiorowościach.
• Wyliczamy go następująco:
X Y
PREZENTACJA GRAFICZNA
SZEREGOW STATYSTYCZNYCH
HISTOGRAM - wykres słupkowy
DIAGRAM - wykres liniowy
Oba typy wykresów mogą byd sporządzane w
wariantach dla:
• liczebności
• liczebności skumulowanej
• częstości
• częstości skumulowanej
• Dla wzrokowego porównania rozkładu
badanej cechy w dwóch (lub więcej)
zbiorowościach używamy wyłącznie wykresów
częstościowych.
• Dla firmy X wykonad je samodzielnie w domu.
• O innych typach wykresów poczytad
samodzielnie we wskazanych wcześniej
rozdziałach.
Histogram i diagram częstości
dla czasu dojazdu pracowników firmy Y
Histogram i diagram częstości skumulowanej
dla czasu dojazdu pracowników firmy Y
Diagramy częstości
dla czasu dojazdu pracowników firm X i Y
X
Y
Statystyka opisowa to:
• Miary można podzielid na kilka podstawowych kategorii:
• miary położenia, np. kwantyl oraz miary tendencji
centralnej (np. średnia arytmetyczna, średnia
geometryczna, średnia harmoniczna, średnia kwadratowa,
mediana, moda )
• miary zróżnicowania np. (odchylenie standardowe,
wariancja, rozstęp, rozstęp dwiartkowy, średnie odchylenie
bezwzględne, odchylenie dwiartkowe, współczynnik
zmienności )
• miary asymetrii (np. współczynnik skośności, współczynnik
asymetrii, trzeci moment centralny )
• miary koncentracji (np. współczynnik Giniego, kurtoza )
Średnia arytmetyczna
• Średnią arytmetyczną - definiuje się jako sumę wartości cechy mierzalnej
podzieloną przez liczbę jednostek skooczonej zbiorowości statystycznej.
gdzie:
n - liczebnośd zbiorowości próbnej (próby),
xi - wariant cechy.
Należy pamiętad, że przy
pogrupowaniu danych
źródłowych
w szereg rozdzielczy przedziałowy
następuje pewna utrata
informacji.
Jeżeli policzymy średnią dla
szeregu szczegółowego lub
szeregu rozdzielczego
punktowego, to wynik będzie
dokładny i taki
sam.
Dla danych w postaci szeregu
rozdzielczego przedziałowego
średnia będzie już przybliżeniem.
Tym większym, im szersze są
przedziały klasowe, im jest ich
mniej, itd.
Y
Ważniejsze własności ŚREDNIEJ arytmetycznej
Moda
• Modalna (dominanta D, moda, wartość najczęstsza) - jest to wartośd
cechy statystycznej, która w danym rozdziale empirycznym występuje
najczęściej.
• Dla szeregów szczegółowych oraz szeregów rozdzielczych punktowych
modalna odpowiada wartości cechy o największej liczebności
(częstości).
• W szeregach rozdzielczych z przedziałami klasowymi bezpośrednio
można określid tylko przedział, w którym modalna występuje, jej
przybliżoną wartośd wyznacza się graficznie z histogramu liczebności
(częstości) lub ze wzoru interpolacyjnego:
Y
Y
Y
Y
Modalna możemy wyznaczyd graficznie tak jak to pokazano na rysunku
Modalną wyznaczamy i sensownie interpretujemy tylko wtedy, gdy
dane są pogrupowane w szereg rozdzielczy (punktowy lub
przedziałowy).
2. Liczebnośd populacji powinna byd dostatecznie duża.
3. Diagram lub histogram liczebności (częstości) ma wyraźnie
zaznaczone jedno maksimum (rozkład jednomodalny).
4. Dla danych pogrupowanych w szereg rozdzielczy przedziałowy
modalna nie występuje w skrajnych przedziałach (pierwszym lub
ostatnim) - przypadek skrajnej asymetrii. Nie da się w takim
przypadku analitycznie wyznaczyd modalnej.
5. Dla danych pogrupowanych w szereg rozdzielczy przedziałowy
przedział modalnej oraz dwa sąsiednie przedziały (poprzedzający i
następujący po przedziale modalnej) powinny mied taką samą
rozpiętośd.
Miary pozycyjne
• Kwantyle - definiuje się jako wartości cechy badanej zbiorowości,
przedstawionej w postaci szeregu statystycznego, które dzielą zbiorowośd
na określone części pod względem liczby jednostek, części te pozostają do
siebie w określonych proporcjach.
• Kwartyl pierwszy Q1 dzieli zbiorowośd na dwie części w ten sposób, że 25%
jednostek zbiorowości ma wartości cechy niższe bądź równe kwartylowi
pierwszemu Q1, a 75% równe bądź wyższe od tego kwartyla.
• Kwartyl drugi (mediana Me) dzieli zbiorowośd na dwie równe części;
połowa jednostek ma wartości cechy mniejsze lub równe medianie, a
połowa wartości cechy równe lub większe od Me; stąd nazwa wartość
środkowa.
• Kwartyl trzeci Q3 dzieli zbiorowośd na dwie części w ten sposób, że 75%
jednostek zbiorowości ma wartości cechy niższe bądź równe kwartylowi
pierwszemu Q3, a 25% równe bądź wyższe od tego kwartyla.
• Decyle np. decyl pierwszy oznacza, że 10% jednostek ma wartości cechy
mniejsze bądź równe od decyla pierwszego, a 90% jednostek wartości
cechy równe lub większe od decyla pierwszego.
• Kwartyle to takie wartości cechy X, które dzielą zbiorowośd na cztery
równe części pod względem liczebności (lub częstości). Części te pozostają
w określonych proporcjach do siebie.
• Aby dokonywad takiego podziału zbiorowośd musi byd uporządkowana
• według rosnących wartości cechy X.
• Każdy kwartyl dzieli zbiorowośd na dwie części, które pozostają do siebie w
• następujących proporcjach. I tak:
• kwartyl 1 (QI) - 25% z lewej i 75% populacji z prawej strony kwartyla,
• kwartyl 2 (QII) - 50% z lewej i 50% populacji z prawej strony kwartyla,
• kwartyl 3 (QIII) - 75% z lewej i 25% populacji z prawej strony kwartyla.
Mediana
• Mediana (Me) - wartośd środkowa, inaczej: kwartyl 2
(QII).
• Jest to taka wartośd cechy X, która dzieli zbiorowośd na
dwie równe części, tj. połowa zbiorowości
charakteryzuje się wartością cechy X mniejszą lub
równą medianie, a druga połowa większą lub równą.
Mediana dla szeregu szczegółowego
• Szereg musi byd posortowany rosnąco !!!
• Wartośd mediany wyznacza się inaczej gdy liczebnośd
populacji (n) jest nieparzysta, a inaczej gdy jest
parzysta.
Y
Y
Y
Y
Kwartyl pierwszy i trzeci
• Dla szeregu szczegółowego kwartyl pierwszy i trzeci wyznacza
się w ten sposób, że w dwóch częściach zbiorowości, które
powstały po wyznaczeniu mediany, ponownie wyznacza się
medianę; mediana w pierwszej części odpowiada kwartylowi
pierwszemu, a w drugiej kwartylowi trzeciemu.
• Dla szeregu rozdzielczego wyznaczenie kwartyli poprzedza się
ustaleniem ich pozycji:
• gdzie: m - numer przedziału (klasy), w którym
występuje odpowiadający mu kwartyl,
- dolna granica tego przedziału,
nm - liczebnośd przedziału, w którym
występuje odpowiedni kwartyl,
- liczebnośd skumulowana do przedziału
poprzedzającego kwartyl,
hm - rozpiętośd przedziału klasowego, w
którym jest odpowiedni kwartyl.
Miary zmienności (rozproszenia,
dyspersji)
• szereg szczegółowy
• szereg rozdzielczy punktowy
• szereg rozdzielczy z przedziałami klasowymi
• Wykonując proste przekształcenia algebraiczne, otrzymamy:
• szereg szczegółowy
szereg rozdzielczy
Odchylenie standardowe
• Odchylenie standardowe s - jest to pierwiastek
kwadratowy z wariancji. Stanowi miarę
zróżnicowania o mianie zgodnym z mianem
badanej cechy, określa przeciętne zróżnicowanie
poszczególnych wartości cechy od średniej
arytmetycznej.
• Typowy obszar zmienności cechy - około 2/3
wszystkich jednostek badanej zbiorowości
statystycznej posiada wartości cechy w tym
przedziale:
Odchylenie przeciętne
Odchylenie przeciętne d - jest to średnia arytmetyczna
bezwzględnych odchyleo wartości cechy od średniej
arytmetycznej. Określa o ile jednostki danej zbiorowości
różnią się średnio, ze względu na wartośd cechy, od
średniej arytmetycznej.
Pomiędzy odchyleniem przeciętnym i standardowym, dla
tego samego szeregu, zachodzi relacja: d < s.
Odchylenie ćwiartkowe Q
jest to parametr określający odchylenie wartości cechy
od mediany. Mierzy poziom zróżnicowania tylko części
jednostek; po odrzuceniu 25% jednostek o
wartościach najmniejszych i 25% jednostek o
wartościach największych.
Wartośd współczynnika
korelacji rang (Spearmana)
potwierdza bardzo silna,
dodatnia (znak plus)
zależnośd pomiędzy czasem
nauki (X), a uzyskana ocena
(Y).
• Analiza korelacji i regresji jest działem statystyki
zajmującym się badaniem związków i zależności pomiędzy
rozkładami dwu lub więcej badanych cech w populacji
generalnej.
• Termin regresja dotyczy kształtu zależności pomiędzy
cechami. Dzieli się na analizę regresji liniowej i nieliniowej.
• W przypadku analizy nieliniowej, graficzną reprezentacją
współzależności są krzywe wyższego rzędu np. parabola.
• Pojęcie korelacji dotyczy siły badanej współzależności.
Analiza regresji i korelacji może dotyczyd dwóch i większej
ilości zmiennych (analiza wieloraka). W tym miejscu
zajmowad się będziemy jedynie najprostszym przypadkiem
regresji prostoliniowej dwóch zmiennych.
Zapamiętad…
• Co to jest korelacja, jakie są jej własności ?
• Kiedy stosowad korelację rang Spearmana a
kiedy Pearsona ?
• Kiedy korelacja jest dodatnia / ujemna ?
• Jak opisywad dany zbiór danych (jakie
wskaźniki)?
• Jak zrobid wykres częstości ?