You are on page 1of 25

ELEKTRZ.17 A.Lenarcik, Z.

Piasta 1
Zaczynamy od zarządzania, aby ukazać rolę statystyki w tej ważnej dziedzinie.

Co to jest zarządzanie ? — próba odpowiedzi

Terminu zarządzanie będziemy używać w odniesieniu do organizacji. Organizację tworzą ludzie wraz z
pewnym zapleczem materialnym. Człowiek jest osobą, to znaczy istotą zdolną do refleksji na temat własnego
istnienia. Człowiek ma także swoją godność. Zarządzanie ludźmi jest złożone, bo wymaga uwzględniania
faktu, że postawa zarządzającego jest oceniana przez zarządzanych. Zarządzający może więcej, jeżeli zjedna
sobie ludzi, którymi zarządza.
Z tego powodu zarządzanie powinno być na wskroś ludzkie. Określenia w rodzaju: “zasoby ludzkie”, czy
“siła robocza”, godzą w godność człowieka. Z tego samego powodu zarządzanie nie powinno być sterowaniem,
czy manipulacją.
Rację istnienia organizacji określa jej misja. Organizacja zanurzona jest zawsze w jakimś środowisku
zewnętrznym, dlatego cele, które realizuje odnoszą się zarówno do osób pozostających w organizacji jak
również do środowiska zewnętrznego. Oczekujemy, że organizacja realizuje zawsze jakieś dobro. To dobro
powinno być wyrażone w misji organizacji.
Aby realizować swoje cele, organizacja określa swoją wewnętrzną strukturę, która wydaje się optymalna
dla ich realizacji. Oczekujemy, że struktura ta nie narusza godności osób w organizacji. W najprost-
szym rozumieniu struktura organizacji oznacza relacje przełożeństwa między ludźmi, określa kompetencje
(uprawnienia) i zakres odpowiedzialności.
Cele organizacji, jej struktura i relacje ze środowiskiem zewnętrznym definiowane są w dokumentach
prawnych (konstytucje, statuty, regulaminy).
Przykłady organizacji:

• państwo (województwo, powiat, gmina),

• uczelnie wyższe, szkoły,

• firmy (różnego rodzaju spółki, koncerny, korporacje),

• fundacje, stowarzyszenia.

W strukturze organizacji wyróżniamy organy odpowiedzialne za jej działalność. W spółce prawa hand-
lowego jest to walne zgromadzenie, rada nadzorcza i zarząd.
Istotą zarządzania jest podejmowanie decyzji . Decyzje podejmowane są w odniesieniu do ludzi (bu-
dowa struktury organizacji, rozmieszczanie osób w strukturze organizacji, stawianie zadań, organizowanie
pracy), jak również w stosunku do zaplecza materialnego (inwestowanie, kupno, sprzedaż) i środowiska
zewnętrznego (współpraca, badania). Wśród decyzji możemy wyróżnić strategiczne – o szczególnej wadze
– i operacyjne – podejmowane na co dzień, związane ze zwykłym zarządem. Często decyzje podejmowane
są w warunkach ryzyka i niepełnego dostępu do informacji.
Zwróćmy uwagę, że decyzje podejmowane są na każdym szczeblu organizacji. Każda osoba w organi-
zacji podejmuje decyzje w ramach swoich kompetencji. Statystyka, poprzez swoją metodologię obserwacji
procesów, prowadzenia badań oraz analizy wyników, dostarcza obiektywnych podstaw do podejmowania
decyzji.

Koncepcje nowoczesnego zarządzania


Poniżej przedstawione są podstawowe koncepcje zarządzania sformułowane przez amerykańskiego statystyka
Deminga. W dalszym ciągu będziemy używać zwrotu zarządzanie nowoczesne (roztropne). Deming był
uczniem Shewharta, z którym wspólnie pracowali jeszcze przed II Wojną Światową nad odkryciem przyczyn
niskiej jakości produkcji. Szybko zorientowali się, że przyczyną jest niedocenianie roli człowieka. Deming
opracował w swej pracy doktorskiej system zarządzania, który w sposób naturalny i niewymuszony angażuje
wszystkich pracowników w poprawę jakości.
Deming nie spotkał się ze zrozumieniem w Stanach Zjednoczonych. Przypadek sprawił, że na początku
lat pięćdziesiątych ubiegłego stulecia mógł swoje idee zaprezentować w Japonii. Deming pozyskał dla swych
koncepcji czołowych przemysłowców i polityków. W krótkim czasie Japonia w wielu dziedzinach gospodarki
poczyniła olbrzymie postępy. Od lat siedemdziesiątych ubiegłego stulecia Amerykanie zaczęli promować
ELEKTRZ.17 A.Lenarcik, Z.Piasta 2
styl zarządzania Deminga u siebie. Styl zarządzania, o którym mówimy wyraża się w trzech zasadach:
zasadzie jedności , zasadzie racjonalności i zasadzie doskonalenia.
Zasada jedności odwołuje się do dobra tkwiącego w człowieku. Wyraża się ona w stwierdzeniu, że ludzie
z natury są uczciwi i chcą dobrze pracować. Jej główne atrybuty to:

• poszanowanie godności człowieka,

• opieranie zarządzania na prawdzie i zaufaniu,

• silne kierownictwo,

• formułowanie misji , znanej wszystkim pracownikom, definiującej cele organizacji i jej dobro wspólne,

• formułowanie zadań z jednoczesną troską o zapewnienie warunków ich realizacji,

• tworzenie warunków współpracy i wzajemnej pomocy (umacnianie relacji poziomych).

Zasada racjonalności wyraża się poprzez:

• podejmowanie decyzji w oparciu o obiektywne źródła informacji (szczególną rolę odgrywa tu statystyka
poprzez dostarczanie metodyki badawczej oraz narzędzi służących zrozumieniu natury zmienności),

• myślenie systemowe o organizacji (organizacja traktowana jest jako system uwzględniający całe otocze-
nie z dostawcami, klientami a nawet konkurencją).

S Y S T E M
Badanie potrzeb

)
 klientów
Dostawcy  Projektowanie
i zmiany w projektach Klienci
 B
 B


B  
=
 NB Dystrybucja  -
AH *

HH
Produkcja, montaż,nadzór nad jakością  1

HH
- j - - - - - 
B PP -
: PP
q
  
1
C     @
  R
@
 -
 H
D Testowanie A H j
H
AAU

• Procesy decyzyjne bazują na tak zwanym cyklu Deminga PDCA (Plan, Check, Do, Act).
p p p p p p p p p p p p p p p p p p p p p p p p pp p p
p p ppp p ppp
pp p p ppp
p p p p p p p p p p p p p>pppp planuj ppppp p p p p p p p p p p p p p p pppp
p p p p p p
p ppp ppp pp p pppp
ppp ppp p p p p p p p p p pp p pp
ppp p p p p p p p p p p p p p p pp pppp ppp
ppp
ppp ppp
p p p p p p p p p p p
p p p p p p p p p p p p pp p p p p p p p p ∨
p p pp p p p p p p p p p p
ppp pp pp działaj p pppppp ppp pp p działaj p p ppppp
pp p pp p p ppp

ppp na dużą pp ppp na małą ppp


ppp pp p
pppp p skalę p ppp p
pppp pp skalę ppp pppp
p ppp
ppp p p p p p p p p p p p p p p p p p p p p p p pp p p p p p p p p p p p p
p p p p pppp p p p p p p p pp
∧ppp pp
ppp p ppp
pp p
p p p p p p p p p p p p pp p p p p p p p p p p p pp pp p p p p pp
p p pp
ppp p p p p pp ppp p p p p pp p
pp pppp
p p p p p pp sprawdzaj ppp<
p p p p p p p p p p pp
ppp p p p p p p p pp pp ppp
ppp pp pp p
ppp p p p p p p p p p pp
p p p p p p p p p p p p p p pppp
ELEKTRZ.17 A.Lenarcik, Z.Piasta 3
Zasada doskonalenia wynika z dwóch wcześniejszych. W warunkach zdrowych relacji międzyludzkich i
racjonalnych decyzji można zaangażować wszystkich pracowników w myślenie o poprawie jakości. Doskonale-
nie to dotyczy wszystkich procesów i prowadzone jest nieustannie, a nie tylko do momentu poprawy.
Zadania, pytania
(a) Zapoznaj się z misją Uczelni dostępną na stronie głównej.
(b) W jaki sposób studenci mogą usprawniać procesy w Uczelni?
(c) Jaka substancja nabiera wartości w wyniku wysiłku studentów i pracowników?
Literatura

• W. J. Latzko, D. M. Saunders, Cztery dni z dr. Demingiem — Nowoczesna teoria zarządzania, WNT,
Warszawa 1998.

• o. Jacek Woroniecki, Umiejętność rządzenia i rozkazywania, Wydawnictwo Wrocławskiej Księgarni


Archidiecezjalnej, Wrocław 1992.

Statystyka, podstawowe pojęcia

Podstawowym zadaniem statystyki jest dostarczanie wiarygodnych informacji niezbędnych do podejmowa-


nia decyzji. W szczególności wyróżnia się trzy podstawowe zadania statystyki:
- dostarczanie informacji (poprzez opis zjawisk),
- analiza zjawisk (pomoc w zrozumieniu przyczyn danego zjawiska),
- prognoza (przewidywanie poziomu i struktury zjawisk w przyszłości) (Sobczyk, Statystyka).
Badania, jednostki, zbiorowości
Najogólniej statystyka zajmuje się badaniem otaczającej nas rzeczywistości. Badania te mogą mieć charak-
ter przestrzenny (strukturalny) lub czasowy, albo też mogą być brane pod uwagę oba te aspekty. Gdy
akcent badań przeniesiony jest na aspekt czasowy, to mówimy wówczas o badaniach dynamiki zjawisk .
Badaniom podlegają obiekty, które mogą być wyodrębnione spośród innych. Obiekty te nazywamy
jednostkami statystycznymi . Przez “wyodrębnienie” rozumiemy tutaj pewną fizyczną tożsamość obiektu
umożliwiającą rozróżnianie. Można wtedy przyporządkowywać obiektom nazwy lub symbole. Taką tożsamość
ma na przykład każdy człowiek, firma, organizacja, miasto, państwo, produkt, itp. Nie mają tożsamości
np. jednostki monetarne przeznaczane na różne cele w państwie, albo kilowatogodziny energii elektrycznej
zużywane w różnych działach gospodarki.
Zbiorowości statystyczne
Jednostki statystyczne mogą tworzyć większe struktury zwane zbiorowościami statystycznymi . Każda
badana zbiorowość powinna być jednoznacznie zdefiniowana przez cel badań pod względem rzeczowym
(kto lub co jest przedmiotem badania), przestrzennym (gdzie znajduje się zbiorowość) i czasowym (jakiego
momentu lub okresu dotyczy badanie), np. "badanie struktury bezrobocia mężczyzn w województwie
świętokrzyskim w roku 2004".
Najbardziej właściwe z punktu widzenia metod statystycznych są tzw. badania masowe dotyczące
licznych zbiorowości, tak licznych, że tożsamość jednostek staje się drugoplanowa, natomiast akcentuje się
prawidłowości statystyczne. Zbiorowość zdefiniowaną przez cel badań nazywamy populacją lub zbiorowoś-
cią generalną. Słowo “populacja” pojawiało się na lekcjach biologii obok pojęcia ekosystemu; populacja
oznaczała tam wszystkich przedstawicieli określonego gatunku na danym terenie. W statystyce popu-
lacja może być zdefiniowana bardziej szczegółowo, np. lekarz może badać wyłącznie chorych na określoną
chorobę; można zawęzić badania do określonej płci, grupy wiekowej itp.
Badania pełne i częściowe, wnioskowanie statystyczne
Badania całej populacji nazywamy badaniami pełnymi lub opisem. Gdy badanie całej populacji jest
niemożliwe lub niecelowe, to badamy jedynie część populacji zwaną próbą. Uogólnianie wyników z próby
na populację nazywamy wnioskowaniem statystycznym. Aby to uogólnianie było wiarygodne próba powinna
być reprezentatywna dla populacji, to znaczy dobrze dobrana. Najlepszym sposobem doboru próby reprezen-
tatywnej jest dobór losowy (tzn. każda jednostka ma jednakową szansę znalezienia się w próbie). Próbę,
która nie jest reprezentatywna nazywamy obciążoną.
ELEKTRZ.17 A.Lenarcik, Z.Piasta 4
Przykładem tego typu badań są badania opinii publicznej. Wnioskowanie statystyczne jest centralnym
zagadnieniem naszego wykładu; będziemy do niego wracać w kolejnych częściach.
Właściwości jednostek, cechy statystyczne w zbiorowościach
Właściwością jednostki nazywamy liczbę lub słowo, jednoznacznie przyporządkowane tej jednostce. Przykła-
dem mogą być różne charakterystyki człowieka (imię, nazwisko, narodowość, wykształcenie, wiek, wzrost,
waga, kolor oczu, liczność rodziny, liczba dzieci, itp.) albo charakterystyki firmy (nazwa, rodzaj, liczba
pracowników, wskaźniki finansowe, itp.)
Badając właściwości jednostek jako elementów licznych zbiorowości statystycznych, będziemy posługi-
wać się pojęciem cechy statystycznej . Cecha jest to właściwość, która jest przyporządkowana każdej jed-
nostce w rozważanej zbiorowości. Z matematycznego punktu widzenia cecha jest funkcją, której dziedziną
jest zbiorowość, zaś wartościami tej funkcji są właściwości jednostek. Wartości te są nazywane także wari-
antami cechy. Przyjmuje się, że pochodzą one zawsze z pewnego ustalonego zbioru, przy czym nie wszystkie
elementy tego zbioru muszą być wykorzystane.
Klasyfikacja cech ze względu na charakter wartości
Najogólniej cechy dzielimy na jakościowe i ilościowe. Wartością cechy jakościowej jest nazwa. Spośród
wymienionych wcześniej cech charakteryzujących ludzi, do cech jakościowych zaliczymy kolor oczu, wyksz-
tałcenie i narodowość. Z kolei wartościami cech ilościowych są liczby będące wynikiem pomiaru 1 . Spośród
wymienionych jest to wiek, wzrost, waga, liczność rodziny i liczba dzieci.
W omówionych grupach cech wyróżnia się bardziej szczegółowy podział. Wśród cech jakościowych
wyróżniamy uporządkowane, których wartości można naturalnie ustawić w kolejności, oraz cechy nieuporządko-
wane (nominalne), które nie posiadają tej własności. Przykładem cechy jakościowej uporządkowanej,
określonej w zbiorowości ludzi, jest wykształcenie (np. podstawowe, zawodowe, średnie, wyższe). Kolor
oczu i narodowość są przykładami cech nieuporządkowanych. Czasami rozróżnienie to jest subiektywne lub
zależne od kontekstu.
Również cechy ilościowe mają swój podział. Mówimy, że cecha ilościowa jest dyskretna, jeżeli posi-
ada niewielką liczbę wyraźnie rozdzielonych wartości. Przykładem jest liczność rodziny lub liczba dzieci
(w zbiorowości rodzin). Charakterystyczny dla cech dyskretnych jest brak części dziesiętnych (nie ma
“połówek”). Drugą grupę stanowią cechy ciągłe, które w odróżnieniu od cech dyskretnych posiadają dużą
liczbę wartości w pewnym przedziale. Z wymienionych wcześniej przykładów do cech ciągłych zaliczymy
wiek, wzrost i wagę. Charakterystyczne dla cech ciągłych jest możliwość rozważania części dziesiętnych.
Np. jeżeli nawet dyskretyzujemy wzrost podając go w centymetrach, to i tak ma sens wzrost ułamkowy
(np. 170,5 cm). Ponadto człowiek rośnie w sposób ciągły, a nie skokowy.
Brak części dziesiętnych wśród wartości cechy nie oznacza, że cechę zaliczymy do dyskretnych. Przy-
porządkujmy na przykład każdemu miastu w Polsce liczbę jego mieszkańców. Wartościami cechy są oczy-
wiście liczby naturalne, niemniej cecha ta ma tak dużo możliwych wartości, że możemy ją traktować jako
ciągłą.
Cechy mierzalne i niemierzalne Cechy ilościowe nazywane są także mierzalnymi , zaś jakościowe —
niemierzalnymi . Niektórzy autorzy zaliczają cechy jakościowe uporządkowane do cech mierzalnych.
Zastosowanie do ankiet
Ważnym narzędziem w badaniach zbiorowości statystycznych złożonych z osób jest ankieta. Warto wspom-
nieć, w jaki sposób pytania ankiety są powiązane z cechami statystycznymi. W najprostszej sytuacji, gdy
w pytaniu wybiera się tylko jeden wariant opowiedzi, definiuje ono jedną cechę statystyczną. Np. “Czy
lubisz uprawiać czynnie sport?”. Warianty odpowiedzi TAK, RACZEJ TAK, RACZEJ NIE, NIE określają
cechę jakościową uporządkowaną o czterech wariantach. Cechę ciągłą związaną z tematem sportu można
zdefiniować np. za pomocą pytania: “Ile przeciętnie czasu w tygodniu przeznaczasz na czynne uprawianie
sportu?”.
Pytania
(a) Jeżeli liczba kin w mieście jest cechą statystyczną, to co może być zbiorowością?
(b) Wymienić cechy statystyczne charakteryzujące samochody i wyróżnić cztery omówione kategorie cech.
1
Nie jest cechą ilościową cecha jakościowa, której wartości zostały ponumerowane (np. przyporządkowanie liczb do konkret-
nych kolorów oczu jest arbitralne i nie jest wynikiem pomiaru).
ELEKTRZ.17 A.Lenarcik, Z.Piasta 5
(c) Zaproponować zbiorowość a następnie wymienić jej cechy wraz z klasyfikacją.
(d) Zidentyfikować cechy statystyczne utworzone na podstawie pytań dowolnej ankiety.
Skale pomiarowe Równolegle z klasyfikacją cech na jakościowe (uporządkowane i nieuporządkowane) oraz
ilościowe (dyskretne i ciągłe), rozważa się zbliżoną klasyfikację z wykorzystaniem tzw. skal pomiarowych.
Wyróżniamy skale nominalną, porządkową, przedziałową oraz ilorazową. Skale te odzwierciedlają możli-
wości wzajemnego porównywania wartości (wariantów). Skale są tak skonstruowane, że każda następna
rozszerza możliwości poprzedniej.
Skala nominalna odpowiada cechom jakościowym nieuporządkowanym. Warianty cechy służą w tym
przypadku jedynie do rozróżnienia i grupowania jednostek, nie jest jednak możliwe porządkowanie jed-
nostek według wartości. Możliwość porządkowania pojawia się w kolejnej skali rangowej, co odpowiada
cechom jakościowym uporządkowanym. Ograniczeniem skali rangowej jest brak możliwości porównywania
odległości pomiędzy wartościami. Przykładem mogą być oceny szkolne: niedostateczna, mierna, dostate-
czna, dobra, bardzo dobra i celująca. Różnica pomiędzy oceną celującą i dobrą zwykle nie jest taka sama
jak pomiędzy dobrą i mierną. Jeżeli ocenom przyporządkujemy liczby 1,2,3,4,5,6, to ocena nabiera już
innego charakteru, niemniej nie należy przeceniać znaczenia tego przyporządkowania. Szczególnie średnia
ocen może być stosowana jako pewien wskaźnik ułatwiający obserwację procesu, niemniej może budzić
wątpliwości ranking wg średniej ocen.
Kolejne dwie skale: przedziałowa i ilorazowa dotyczą cech ilościowych, ale funkcjonują niezależnie od
podziału cech na dyskretne i ciągłe. W skali przedziałowej możliwe jest wykonywanie operacji odejmowania
na wartościach cechy, w szczególności ma tutaj sens średnia arytmetyczna. Skala przedziałowa na ogół
nie ma naturalnego zera. Dobrym przykładem jest temperatura wyrażona w stopniach Celcjusza. W skali
przedziałowej nie powinno się dzielić wartości. Na przykład dla temperatury ma sens stwierdzenie, że
temperatura 20◦ C jest o dziesięć stopni wyższa od 10◦ C, natomiast jest niepoprawnym stwierdzenie, że ta
pierwsza jest dwa razy wyższa. Innym przykładem wartości wyrażonych w skali przedziałowej jest poziom
wzrostu PKB lub stopa inflacji (mogą być ujemne). O ile można tutaj mówić o naturalnym zerze, to nadal
nie jest możliwe dzielenie, gdyż wielkości te same w sobie zawierają dzielenie.
Aby wykonywać poprawnie działanie dzielenia na wartościach, potrzebujemy skali ilorazowej. Skala
ta jest najbardziej powszechna. Przykładami są wszelkie pomiary ilości zarówno wśród cech dyskretnych
(np. liczba dzieci) jak również wśród cech ciągłych (wzrost, waga, wiek). W skali ilorazowej możliwe jest

dodatkowo posługiwanie się tzw. średnią geometryczną określoną wzorem n x1 x2 . . . xn .
Forma dostępu do danych – szeregi statystyczne
Ze względu na ograniczenia możliwości człwieka w percepcji danych statystycznych, ich interpretacja
wymaga prezentacji w odpowiedniej formie uwydatniającej to, co jest istotne dla celu badań. Te przetwor-
zone dane przedstawia się często w postaci tzw. szeregów statystycznych. Wyróżnia się szeregi:
• wyliczające (proste),
• rozdzielcze (punktowe i przedziałowe),
• geograficzne,
• czasowe (momentów i okresów).
Szereg wyliczający (prosty) prezentuje dane w najprostszej formie poprzez wypisanie ich kolejno obok siebie.
Wartości mogą być porządkowane rosnąco lub malejąco w zależności od charakteru badanej cechy. Szereg
ten rzadko wykorzystywany jest do prezentacji danych. Zazwyczaj stanowi formę pośrednią podczas analiz.
Szereg rozdzielczy: powstaje z szeregu prostego przez pogrupowanie danych według wartości (szereg
punktowy) lub przedziałów wartości (szereg przedziałowy).
Szereg geograficzny: zawiera dodatkową informację indywidualną dotyczącą regionów geograficznych.
Szereg ten prezentowany jest najczęściej na mapce danego terenu.
Szereg czasowy: zawiera dodatkową informację dotyczącą czasu. Szereg czasowy momentów (pomiar w
bardzo krótkim okresie) prezentowany jest najczęściej w formie wykresu łamanej. Szereg czasowy okresów
(miesiąc, rok, ...) prezentowany jest najczęściej w postaci wykresu kolumnowego. Szeregi czasowe okresów
charakteryzują się większą stabilnością. Ogólnie szeregi są wypadkową trzech składników: trendu, cyklu
oraz składnika losowego.
ELEKTRZ.17 A.Lenarcik, Z.Piasta 6
Rozkład cechy w licznej zbiorowości
Analizując cechę statystyczną w licznej zbiorowości na ogół prezentujemy dane w postaci szeregu rozdziel-
czego. Szereg ten dostarcza nam informacji o tzw. rozkładzie cechy. W przypadku cech jakościowych oraz
ilościowych dyskretnych rozkład polega na przyporządkowamiu do każdego wariantu cechy częstotliwości
jego występowania w zbiorowości. W sensie matematycznym rozkład jest funkcją określoną na zbiorze
wariantów cechy o wartościach liczbowych. Jako przykład rozważmy zbiorowość osób przystępujących do
egzaminu FC z angielskiego w grudniu 2001 r. Każdej osobie przyporządkowujemy jedną z możliwych ocen
A, B, C, D, E (A jest oceną najlepszą; A,B,C są pozytywne). Jest to cecha jakościowa uporządkowana.
Znajomość rozkładu cechy polega w tym przypadku na przyporządkowaniu do każdej wartości odsetka osób,
które uzyskały daną ocenę. Następuje tutaj utrata indywidualnej informacji o jednostkach, bo nie wiemy,
jaką kto dostał ocenę. Do prezentacji rozkładu możemy się posłużyć wykresem kolumnowym lub kołowym.

A 8%
45% E 17%

B 21%
D 9%

21%
17%

8% 9%

A B C D E C 45%

Na lewym rysunku jedna wartość cechy odpowiada jednej kolumnie. Kolumny są rozdzielone wolną przestrzenią,
co podkreśla dyskretny charakter wartości. Na prawym wykresie widzimy tzw. wykres kołowy. W przy-
padku tego typu wykresu jest ważne, aby dane dawały w sumie 100%. Analogicznie prezentujemy rozkład
cechy ilościowej dyskretnej.
W przypadku cech ciągłych liczba możliwych wartości cechy na ogół jest zbyt duża, aby dla każdej
wartości rezerwować osobną kolumnę. Wówczas grupujemy wartości cechy w przedziały i każdemu przedzi-
ałowi przyporządkowujemy liczbę (częstość) jednostek. Otrzymujemy w ten sposób tzw. szereg rozdzielczy,
którego ilustracją graficzną jest tzw. histogram.

liczebność
226
214
201
200

135

99
100

54
42
14 10
4 1 wzrost [cm]
0
149 152 155 158 161 164 167 170 173 176 179 182 185 188 191

Na rysunku powyżej przedstawiony jest przykładowy histogram ilustrujący rozkład cechy “wzrost” w zbiorowości
1000 osób. Rozkład ciągły ma dla statystyki fundamentalne znaczenie; poświęcimy mu wiele uwagi w dal-
szych wykładach.
Uwaga: wykres kolumnowy a histogram
Zwróćmy uwagę na różnicę pomiędzy rolą kolumny w prezentacji graficznej rozkładu cech jakościowych
i ilościowych dyskretnych (kolumna odpowiada jednej wartości) oraz rolą kolumny histogramu podczas
ELEKTRZ.17 A.Lenarcik, Z.Piasta 7
prezentacji rozkładu cechy ciągłej (kolumna odpowiada przedziałowi). W pierwszym przypadku pomiędzy
kolumnami umieszczamy odstęp, dla podkreślenia, że wartości są wyraźnie rozdzielone. W drugim przy-
padku kolumny powinny się stykać, gdyż wartości cechy wypełniają cały zakres zmienności.

O parametrach rozkładu cechy statystycznej

Parametry rozkładu cechy są to liczby (wartości), które charakteryzują rozkład w sposób syntetyczny.
Najważniejsze grupy tych parametrów to:

• parametry położenia,

• parametry zmienności ,

• parametry asymetrii .

Zamiast “parametry” niektórzy autorzy używają zwrotów “miary” lub “charakterystyki” rozkładu. Na-
jważniejsze parametry położenia to: średnia, dominanta, mediana, kwartyle i kwantyle, zaś najważniesze
parametry zmienności: to wariancja, odchylenie standardowe, współczynnik zmienności , rozstęp całkow-
ity i rozstęp międzykwartylowy. Nie omawiamy tutaj parametrów asymetrii ograniczając się jedynie do
rozpoznawania asymetrii prawostronnej i lewostronnej .
Dominanta
Dominanta jest wartością cechy, która wystepuje najczęściej w danej zbiorowości, tzn. częściej niż jakakol-
wiek inna wartość cechy. Dominanta nazywana jest także modą, wartością modalną lub wartością dominu-
jącą. Parametrem tym posługujemy się zarówno dla cech jakościowych, jak też dla cech ilościowych. Pojęcie
to jest szczególnie czytelne w przypadku, gdy cecha przyjmuje niewielką liczbę wartości. Możemy mówić
o dominującym kolorze włosów, oczu, albo o dominującej liczbie dzieci w rodzinach. W przykładzie na
stronie 6, dotyczącym wyników egzaminu FCE, dominuje ocena C. W przypadku rozproszonych danych
ilościowych o charakterze ciągłym, rozsądne wskazanie dominanty może być kwestią trudną. Należy wtedy
posłużyć się histogramem. Histogram powinien mieć jedną najwyższą kolumnę, tzw. kolumnę dominanty,
która określa przedział dominanty. Dominantę szacujemy metodą graficzną zilustrowaną na rysunku.
nD

n′D
n′′D

D
xD

Metodzie tej odpowiada wzór


(nD − n′D )
D = xD + d , (1)
(nD − n′D ) + (nD − n′′D )
gdzie:
xD = współrzędna lewego końca przedziału dominanty,
d = szerokość kolumny,
nD = wysokość kolumny dominanty,
n′D = wysokość kolumny poprzedzającej,
n′′D = wysokość kolumny następującej.
Przykładowe wyliczenie jest na stronie 13.
Mediana, kwartyle, kwantyle, rozstępy, wykres pudełkowy
Mediana rozkładu jest wielkością, poniżej której leżą wartości cechy połowy jednostek danej zbiorowości.
ELEKTRZ.17 A.Lenarcik, Z.Piasta 8
Również połowa jednostek ma wartość cechy powyżej mediany. Zatem mediana rozdziela zbiorowość na
dwie połowy2 . Mediana wymaga co najmniej skali porządkowej.
Podobny charakter, jak mediana, mają kwartyle. Pierwszy kwartyl rozdziela na pół zbiorowość jednos-
tek, dla których warość cechy jest mniejsza od mediany; podobnie trzeci kwartyl rozdziela na pół zbiorowość
jednostek, dla których warość cechy jest większa od mediany. Pierwszy kwartyl, medianę i trzeci kwartyl
oznaczamy odpowiednio: Q1 , M , Q3 (mediana jest drugim kwartylem). Z medianą i kwartylami można
powiązać dwa rozstępy: rozstęp międzykwartylowy RQ = Q3 − Q1 oraz rozstep całkowity R = max − min.
Parametry te często prezentujemy graficznie w postaci wykresu pudełkowego:

min Q1 M Q3 max

Rozstęp całkowity odczytujemy jako rozpiętość całego wykresu, zaś rozstęp międzykwartylowy jako rozpię-
tość wewnętrznego pudełka.
Uogólnieniem mediany i kwartyli są tak zwane kwantyle. Kwantyl ma zawsze określony rząd rz, który
jest liczbą z przedziału od 0 do 1. Wartości cechy poniżej kwantyla rzędu rz, ma rz · 100% jednostek w
zbiorowości. Np. jeżeli kwantyl rzędu 0,3 wysokości wynagrodzeń pracowników w pewnej firmie wynosi
1500zł, to znaczy, że 30% pracowników otrzymuje wynagrodzenie mniejsze od 1500zł. Kwantyl rzędu rz
oznaczamy qrz . Zauważmy, że M = q0,5 , Q1 = q0,25 , Q3 = q0,75 . Do tematu kwantyli powrócimy w
kontekście pojęcia dystrybuanty (strona 15).
Średnia i wariancja
Najbardziej popularnym parametrem położenia jest średnia arytmetyczna oznaczana x̄. Średnia ta wymaga
co najmniej skali przedziałowej. Wzory na obliczanie średniej na podstawie różnych szeregów statystycznych
podane są na stronach 10 i 11. Mamy interesującą interpretację fizyczną średniej. Jeżeli dane liczbowe
ułożymy na osi liczbowej w ten sposób, że poszczególnym jednostkom odpowiadają punkty materialne o
jednakowej masie, to średnia pokrywa się ze współrzędną środka ciężkości układu punktów.

Ze średnią powiązane są parametry zmienności: wariancja i odchylenie standardowe. Kontynuując powyższą


interpretację danych, możemy zdefiniować wariancję jako średnią kwadratów odległości poszczególnych
punktów od środka ciężkości. Wariancję oznaczamy symbolem s2 (wzory str. 10, 11). Mierzy ona stopień
rozproszenia danych względem średniej. Wariancja jest nieujemna; jest zerem tylko wtedy gdy wszyskie
wartości cechy są identyczne. Wariancja jest statystycznym odpowiednikiem znanego z fizyki momentu
bezwładności .
Odchylenie standardowe i współczynnik zmienności
Stosowanie wariancji do bezpośredniej interpretacji jest utrudnione ze względu na to, że jednostki wariancji
są kwadratami jednostek występujących w danych. Np. wariancja wzrostu będzie wyrażona w cm2 , a
wariancja wagi w kg2 . Aby uniknąć tej trudności wygodnie jest posługiwać się pierwiastkiem z wariancji,
czyli tzw. odchyleniem standardowym, które ma takie same jednostki, jak wyjściowe dane. Odchylenie
standardowe oznaczamy literą s.
Dzięki temu, że średnia i odchylenie standardowe mają takie same jednostki, ich iloraz jest wielkością
bezwymiarową. Wyrażając w procentach jaką częścią średniej jest odchylenie standardowe otrzymamy tzw.
współczynnik zmienności określony wzorem
s
Vs = · 100% .

2
Stwierdzenie to jest przybliżone, np. gdy liczebność zbiorowości jest liczbą nieparzystą, to w ogóle nie można mówić o
dokładnej połowie.
ELEKTRZ.17 A.Lenarcik, Z.Piasta 9
Współczynnik ten często jest interpretowany jako błąd względny. Współczynnik zmienności wymaga skali
ilorazowej.
Skale pomiarowe i parametry
Wymienione parametry można pogrupować ze względu na minimalne wymagania stawiane skali pomiarowej
zbioru wartości cechy, tak aby możliwe było wyznaczenie danego parametru.

skala parametry położenia parametry zmienności


nominalna dominanta liczba wartości
rangowa mediana, kwartyle, kwantyle
przedziałowa rozstęp międzykwartylowy i całkowity
średnia arytmetyczna wariancja, odchylenie standardowe
ilorazowa średnia harmoniczna współczynnik zmienności

Asymetria
Średnia, dominanta i mediana pełnią podobną rolę podczas prezentacji danych. Ich zadaniem jest wskazy-
wanie typowej wartości cechy. Dla cech ilościowych wszystkie wymienione parametry możemy wyznaczać
i porównywać. Warto uświadamiać sobie przyczyny różnic pomiędzy średnią, medianą i dominantą. Źródłem
tych różnic jest najczęściej asymetria rozkładu. Poniżej prezentujemy nierówności pomiędzy rozważanymi
parametrami charakterystyczne dla asymetrii prawostronnej (dodatniej) i lewostronnej (ujemnej).

asymetria prawostronna asymetria lewostronna

DM x̄ x̄ M D
górna krawedź histogramu górna krawedź histogramu
opada lagodnie po prawej stronie; opada lagodnie po lewej stronie;
typowa nierówność: D < M < x̄ typowa nierówność: x̄ < M < D

Wrażliwość parametrów, odporność


Może się zdarzyć, że na skutek dużej asymetrii danych niektóre parametry charakteryzujące rozkład przes-
tają pełnić swoją rolę jako obiektywnych wskaźników reprezentujących całą zbiorowość. Wyjaśnimy to na
przykładzie zawyżania średniej. Wyobraźmy sobie że obliczamy średnie wynagrodzenie osób zatrudnionych
w firmie. Jeżeli uwzględnimy osoby z zarządu, to może się okazać, że średnia jest niereprezentatywna dla
zarobków pracowników, to znaczy, że zdecydowana większość osób zatrudnionych w firmie ma zarobki niższe
od średniej.

pracownicy kierownictwo

M x̄

Na wykresie kropkowym widzimy, że znacznie lepiej rolę reprezentatywnego wkaźnika pełni w tym przy-
padku mediana. Mówimy, że mediana jest odporna na wartości silnie odbiegające od pozostałych.
Podobne różnice we wrażliwości obserwujemy wśród parametrów zmienności. Parametrami wrażliwymi
są wariancja i odchylenie standardowe, zaś odporną miarą zmienności jest rozstęp międzykwartylowy.
Zwróćmy jeszcze uwagę na wrażliwość dominanty. Nie powinna ona być traktowana jako wskaźnik
reprezentatywny, gdy liczbowe wartości cechy statystycznej są bardzo rozproszone. Mogą wtedy następować
ELEKTRZ.17 A.Lenarcik, Z.Piasta 10
przypadkowe powtórzenia. Sytuacja taka jest widoczna na wykresie kropkowym na stronie 8. Nastąpiło
tutaj przypadkowe zgrupowanie pięciu wartości. W tym przypadku bardziej zasadne jest oszacowanie
dominanty po przejściu od wykresu kropkowego do histogramu (por. przykład str. 13).

Wstęp do analizy danych — dane pojedyncze

Szereg prosty
Średnią oraz odchylenie standardowe możemy obliczać dla danych liczbowych w postaci szeregu prostego
x1 , x2 , . . . , xn , gdzie n jest liczbą danych.
n
1X x1 + x2 + . . . + xn
• średnia x̄ = xi = ,
n i=1 n
n
2 1X (x1 − x̄)2 + (x2 − x̄)2 + . . . + (xn − x̄)2
• wariancja s = (xi − x̄)2 = ,
n i=1 n

• odchylenie standardowe s= s2 ,
s
• współczynnik zmienności Vs = · 100% .

Przykład. Rozważmy dane wzrostu pięciu osób: 58, 55, 59, 61, 67 wyrażone w kg. Mamy:

(58 + 55 + 59 + 61 + 67) 1
x̄ = = · 300 = 60 kg
5 5
(58 − 60)2 + (55 − 60)2 + (59 − 60)2 + (61 − 60)2 + (67 − 60)2 80
s2 = = = 16 kg2
q 5 5
s = 16 kg2 = 4 kg
4
Vs = · 100% ≈ 6,7% .
60
Powyższe obliczenia wygodnie jest wykonać w tabeli. Zwróćmy uwagę, że suma trzeciej kolumny (suma
odchyleń względem średniej) jest równa zero (dlaczego?). Fakt ten pozwala skontrolować poprawność
wyliczenia średniej.

i xi xi − x̄ (xi − x̄)2
1 58 -2 4
2 55 -5 25
3 59 -1 1
4 61 1 1
5 67 7 49
300 0 80
P

300 80 √
x̄ =
= 60, s2 = = 16, s= 16 = 4 .
5 5
Spójrzmy jeszcze na wykres kropkowy:
waga
50 60 70

s s

x̄ − s x̄ x̄ + s
ELEKTRZ.17 A.Lenarcik, Z.Piasta 11
Jak wspominaliśmy, średnią możemy interpretować jako środek ciężkości układu punktów na osi. Odchylenie
standardowe pozwala ocenić rozrzut danych względem średniej.
Szereg rozdzielczy punktowy
Rozważmy teraz 100 danych wzrostu:
169, 171, 169, 167, 169, 169, 167, 168, 167, 168, 171, 171, 170, 172, 167, 170, 172, 170, 168, 170, 169, 166,
170, 172, 170, 170, 173, 171, 172, 170, 172, 170, 170, 166, 174, 169, 169, 173, 172, 170, 172, 169, 171, 171,
170, 172, 169, 168, 172, 171, 169, 174, 171, 170, 167, 167, 168, 167, 173, 171, 169, 171, 172, 173, 172, 173,
170, 170, 170, 166, 164, 171, 171, 168, 171, 169, 170, 168, 168, 169, 169, 172, 173, 170, 170, 170, 172, 172,
169, 171, 174, 168, 170, 168, 172, 170, 174, 169, 169, 168.
Chcąc obliczyć średnią i odchylenie standardowe, możemy zastosować wcześniejszy sposób traktując dane
jako szereg prosty. Jednak można to zrobić efektywniej. Łatwo zauważyć, że w danych występują powtórzenia
wartości. Dobrze to widać na wykresie kropkowym:

wzrost
165 170 175

Z wykresu kropkowego możemy odczytać ile razy każda wartość powtarza się. Umieśćmy te dane w tabeli:
i xi ni
1 164 1
2 166 3
3 167 7
4 168 11
5 169 17
6 170 22
7 171 14
8 172 15
9 173 6
10
P 174 4
- 100
Przez x1 , x2 , x3 , . . . , xk oznaczymy ciąg różnych wartości występujących w danych (k = liczba tych wartości,
k ≤ n); przez ni oznaczamy ile razy wartość xi występuje w danych. Przypomnijmy, że tę formę prezentacji
danych nazywamy szeregiem rozdzielczym punktowym lub szeregiem ważonym.
Uwaga: Nie ma sensu robić sumy w drugiej kolumnie (dlaczego?)
Zmiana formy zapisu danych ma wpływ na sposób obliczania średniej i wariancji. Mamy:
k
X
• liczba danych n= ni = n1 + n2 + . . . + nk ,
i=1

k
1X x1 n1 + x2 n2 + . . . + xk nk
• średnia x̄ = xi ni = ,
n i=1 n
k
1X (x1 − x̄)2 n1 + (x2 − x̄)2 n2 + . . . + (xk − x̄)2 nk
• wariancja s2 = (xi − x̄)2 ni = .
n i=1 n
Wzory te są oczywistą konsekwencją wcześniejszych. Po prostu zamiast np. pisać 174 + 174 + 174 + 174
piszemy 174 · 4. Odchylenie standardowe i współczynnik zmienności obliczamy, jak wcześniej. Obliczenia
wygodnie jest przeprowadzać w tabeli:
ELEKTRZ.17 A.Lenarcik, Z.Piasta 12
2
i xi ni xi ni xi − x̄ (xi − x̄)ni (xi − x̄) ni
1 164 1 164 -6 -6 36
2 166 3 498 -4 -12 48
3 167 7 1169 -3 -21 63
4 168 11 1848 -2 -22 44
5 169 17 2873 -1 -17 17
6 170 22 3740 0 0 0
7 171 14 2394 1 14 14
8 172 15 2580 2 30 60
9 173 6 1038 3 18 54
10
P 174 4 696 4 16 64
- 100 17000 - 0 400
17000 400
n = 100, x̄ = = 170, s2 = = 4, s = 2, Vs ≈ 1,2% .
100 100
Uwaga: Nie ma sensu robić sumy w piątej kolumnie (dlaczego?)
Szereg rozdzielczy przedziałowy — histogram
Omówiliśmy już szereg prosty i szereg rozdzielczy punktowy. Teraz omówimy tzw. szereg rozdzielczy
przedziałowy. Stosuje się go do opisu danych o charakterze ciągłym. Jeżeli cecha ilościowa przyjmuje dużą
liczbę wartości, to naturalnym sposobem postępowania jest pogrupawanie wartości w przedziały. Następnie
obliczamy liczbę jednostek, dla których wartość cechy należy do poszczególnych przedziałów. W procesie
wyboru odpowiednich przedziałów kierujemy się przede wszystkim zdrowym rozsądkiem. O ile jest to
możliwe, przedziały powinny mieć jednakową szerokość. Liczba przedziałów powinna być tak dobrana, aby
liczebności jednostek “wpadających” do poszczególnych przedziałów zmieniały się regularnie dla sąsiednich
przedziałów. Jeżeli liczby te zmieniają się nieregularnie (górna krawędź histogramu jest poszarpana), to
znaczy, że liczba przedziałów jest zbyt duża. Istnieje wiele wzorów o charakterze praktycznym sugerujących
jaka powinna być liczba przedziałów w zależności od liczności próbki n. Jedna z propozycji to
k ≈ 1 + 3,3 log n .
Niewielkie odstępstwo od tej wartości nie jest błędem.
Przykład
Weźmy pod uwagę 30 danych wzrostu:
180, 154, 168, 176, 160, 164, 182, 169, 182, 177, 176, 167, 175, 186, 154, 177, 165, 181, 184, 188, 175, 170,
166, 175, 166, 182, 161, 168, 174, 180.
Proponowana liczba kolumn to k ≈ 1 + 3,3 log 30 ≈ 6. W celu określenia szerokości kolumny, znaj-
dujemy wartość najmniejszę min = 154cm oraz największą max = 188cm. Następnie obliczamy rozstęp
R = max − min = 34cm. Orientacyjna szerokość przedziału to d ≈ R/k ≈ 6cm (uwaga: zaokrąglamy w
górę do dokładności danych). Przedziały budujemy zaczynając od minimum i przesuwając się z odstępem d,
aż przekroczymy maksimum. Przyjmujemy konwencję, że przedziały są domknięte z lewej strony; zliczamy
ile jednostek jest w poszczególnych przedziałach.
Lp przedział liczenie ni
1 h154, 160) || 2
2 h160, 166) |||| 4
3 h166, 172) ||||||| 7
4 h172, 178) |||||||| 8
5 h178, 184) |||||| 6
6 h184, 190) ||| 3
Inny sposób zliczania, to narysowanie wykresu kropkowego:

wzrost
155 160 165 170 175 180 185 190
ELEKTRZ.17 A.Lenarcik, Z.Piasta 13
Ostateczny rezultat analizy przedstawiamy w formie histogramu.
liczba osób
10

8
7
6

5
4
3
2

wzrost [cm]
0
154 160 166 172 178 184 190

Stosując wzór (1) ze strony 7 możemy oszacować położenie dominanty


(8 − 7)
D = 172 + 6 · = 174cm .
(8 − 7) + (8 − 6)
Zwróćmy uwagę, że szacowanie położenia dominanty na podstawie wykresu kropkowego byłoby w rozważanym
przypadku niepoprawne ze względu na duże rozproszenie danych (na wykresie na stronie 12 widzimy, że
nawet nie ma jednoznacznej dominanty).
O wygładzaniu rozkładu
Zastanówmy się jaki jest sens wygładzania danych. Aby odpowiedzieć na to pytanie musimy zastanowić się,
czy dane którymi dysponujemy interesują nas same w sobie, czy też reprezentują większą zbiorowość. Jeżeli
dane te pochodzą z próby reprezentującej populację (str. 3), to nasze wygładzone oszacowanie możemy
odnieść do całej populacji, a nie tylko to próby i dlatego oszacowanie D = 174 cm może być bardziej
adekwatne dzięki częściowej eliminacji czynników losowych.

próba wnioskowanie populacja


statystyczne

Uwaga ta może dotyczyć także innych sytuacji.


Szacowanie średniej i odchylenia standardowego na podstawie szeregu rozdzielczego przedzi-
ałowego
Rozważany powyższy histogram dla danych wzrostu. Przypuśćmy, że nie dysponujemy danymi źródłowymi
a jedynie posiadamy informację o przedziałach wraz z odpowiadającymi im licznościami. Czy na tej pod-
stawie będziemy mogli odtworzyć wartość średniej i odchylenia standardowego?
Nasuwa się pomysł, żeby skorzystać z szeregu ważonego. Na podstawie wysokości kolum otrzymamy
liczności ni . Jako wartości xi rozsądnie jest przyjąć środki przedziałów (średnie arytmetyczne końców).
Obliczenia można przeprowadzić w tabeli
Lp xi ni xi ni xi − x̄ (xi − x̄)ni (xi − x̄)2 ni
1 157 2 314 -16.2 -32.4 524.88
2 163 4 652 -10.2 -40.8 416.16
3 169 7 1183 -4.2 -29.4 123.48
4 175 8 1400 1.8 14.4 25.92
5 181 6 1086 7.8 46.8 365.04
6 187 3 561 13.8 41.4 571.32
Σ — 30 5196 — 0 2026.8

5196 2026.8
x̄ = = 173.2 cm s2 = = 67.56 cm2 s ≈ 8.22 cm
30 30
ELEKTRZ.17 A.Lenarcik, Z.Piasta 14
Otrzymaliśmy średnią 173,2 cm z odchyleniem standardowym 8,22 cm. Zwróćmy uwagę, że wynik różni się
od wyniku otrzymanego dla danych dokładnych (x̄ = 172,73, s = 8,89). Przyczyną różnicy jest zastąpienie
dokładnych wartości przez powtórzenia środka przedziału (następuje częściowa utrata informacji). Dlatego
mówimy tutaj o “szacowaniu” a nie o “obliczaniu”parametrów. Różnice te są niewielkie, co w praktyce nie
prowadzi do dużych błędów.

Badanie rozkładu cechy ilościowej ciągłej

W części tej skupimy się na opisie rozkładu cech ilościowych, ciągłych. Poruszaliśmy już ten temat
wprowadzając pojęcie histogramu (str.6,12). Wprowadzimy pojęcie dystrybuanty i omówimy jej znacze-
nie w opisie rozkładu cechy.
Dystrybuanta
Dystrybuanta jest to funkcja, która każdemu argumentowi rzeczywistemu x przyporządkowuje liczbę (lub
odsetek) jednostek zbiorowości, dla których wartość cechy jest mniejsza od x. Jeżeli mówimy o “liczbie”,
to dystrybuantę oznaczamy N (x) i nazywamy dystrybuantą liczebności ; mówiąc o “odsetku” dystrybuantę
oznaczamy F (x) i nazywamy dystrybuantą częstości .
Przykład
Poniżej przedstawiony jest wykres dystrybuanty liczebności N (x) dla 30 danych wzrostu ze strony 12.
Wykres umieszczony jest nad wykresem kropkowym. Dystrybuantę otrzymaną na podstawie wykresu krop-
kowego (szeregu prostego) będziemy nazywać dystrybuantą empiryczną.

liczba osób

30

25

20

15

10

0
wzrost
155 160 165 170 175 180 185 190

Mamy N (154) = 0, gdyż żadna z osób, od których pochodzą dane, nie ma wzrostu poniżej 154 cm.
Natomiast jest N (154,1) = 2, gdyż dokładnie dwie osoby mają wzrost poniżej 154,1 cm. Również N (160) =
2, gdyż te same dwie dwie osoby mają wzrost silnie mniejszy od 160. Zwróćmy uwagę, że w definicji
dystrybuanty występuje silna nierówność, czyli w tym ostatnim przypadku pytamy o liczbę jednostek, dla
których x < 160. Konsekwencją tej ostrej nierówności jest fakt, że wartość dystrybuanty, dla argumentów
w miejscu skoku, pokrywa się z wartością granicy lewostronnej (na wykresie widzimy to jako czarną kropkę).
Mówimy, że dystrybuanta jest funkcją lewostronnie ciągłą.
Uwaga. Zwróćmy uwagę że dystrybuanta empiryczna zachowuje pełną informację o rozkładzie danych
źródłowych, to znaczy o wykresie kropkowym. Każdy skok dystrybuanty wskazuje dane: położenie skoku
wskazuje miejsce na osi liczbowej, zaś wartość skoku wskazuje liczbę kropek leżących w danym miejscu na
osi liczbowej.
Korzystając z wcześniejszego przykładu możemy też łatwo zilustrować różnicę pomiędzy dystrybuantą
liczebności N (x) oraz dystrybuantą częstości F (x). Obie dystrybuanty związane są zależnością F (x) =
N (x)/n. Np. F (179) = N (179)/30 = 2130 = 0,7. Różnica ta polega jedynie na tym, że zamiast liczebności,
ELEKTRZ.17 A.Lenarcik, Z.Piasta 15
która zmienia się od 0 do n = 30, bierzemy pod uwagę częstość, która przyjmuje wartości w przedziale od
0 do 1. Na wykresie różnica ta uwidacznia się jako zmiana skali na osi pionowej.

czestość
dystrybuanta F (x)
1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
wzrost
0
155 160 165 170 175 180 185 190

Dystrybuanta, jako narzędzie opisu rozkładu cechy ciągłej


Opis rozkładu cechy ilościowej ciągłej polega na określeniu liczby (lub odsetka) jednostek, dla których
wartość cechy znajduje się w danym przedziale. Rozważmy przykładowo przedział lewostronnie domknięty
postaci ha, b), gdzie a < b. Aby, określić liczbę jednostek, dla których wartość cechy leży w tym przedziale,
wystarczy od ogólnej liczby jednostek, dla krórych wartość cechy jest mniejsza od b odjąć liczbę jednostek,
dla których wartość cechy jest mniejsza od a. W rezultacie otrzymujemy liczbę N (b) − N (a). Różne
przypadki przedziałów zawiera tabela.
przedział (−∞, a) przedział ha, b) przedział hb, +∞)
liczba jednostek, dla
których wartość cechy N (a) N (b) − N (a) n − N (b)
należy do przedziału
odsetek jednostek, dla
których wartość cechy F (a) F (b) − F (a) 1 − F (b)
należy do przedziału
Wracając jeszcze do wcześniej analizowanego przykładu oraz do dystrybuanty liczebności N (x), możemy
zilustrować związek dystrybuanty empirycznej z histogramem. Odczytajmy wartość dystrybuanty w punk-
tach, które zostały wybrane jako końce przedziałów dla histogramu (str. 12). Dla dwóch pierwszych punk-
tów wartości już odczytaliśmy. W kolejnych mamy N (166) = 6, N (172) = 13, N (178) = 21, N (184) = 27
i N (190) = 30. Liczbę jednostek, dla których wartość cechy znajduje się w konkretnym przedziale, możemy
obliczyć jako różnicę wartości dystrybuanty na końcach przedziału. Rachunek dla wszystkich przedziałów
znajduje się w tabeli.
przedział liczebność w przedziale
h154, 160) N (160) − N (154) = 2−0 = 2
h160, 166) N (166) − N (160) = 6−2 = 4
h166, 172) N (172) − N (166) = 13 − 6 = 7
h172, 178) N (178) − N (172) = 21 − 13 = 8
h178, 184) N (184) − N (172) = 27 − 21 = 6
h184, 190) N (190) − N (184) = 30 − 27 = 3
Dwa sposoby wygładzania dystrybuanty, szacowanie kwantyli
Omówiona dystrybuanta empiryczna jest funkcją nieciągłą. Jest to pewne matematyczne ograniczenie. Do
wyznaczania kwantyli korzystnie jest mieć ciągłą dystrybuantę.
ELEKTRZ.17 A.Lenarcik, Z.Piasta 16
I. Wygładzanie dystrybuanty empirycznej
Ten sposób wygładzania objaśnimy na podstawie dystrybuanty liczebności N (x). Rozważmy poziomy
odcinek dystrybuanty empirycznej łączący punkty (a, m) i (b, m). Lewy koniec obniżamy o 12 , zaś prawy
koniec podnosimy o 12 otrzymując w efekcie odcinek łączący punkty (a, m − 12 ) i (b, m + 12 ).

(b, m + 21 )
(a, m) (b, m)
(a, m − 12 )

Jeżeli jeszcze na wykresie dystrybuanty pozostaną jakieś skoki, to uzupełniamy je odcinkami pionowymi
liczba osób

30

25

20

15

10

0
wzrost
155 160 165 170 175 180 185 190

Szacowanie kwantyli (szereg prosty)


Wprawdzie tak wygładzona dystrybuanta może przestać być funkcją (z powodu pionowych odcinków),
to jednak istnieć będzie funkcja odwrotna, to znaczy istnieje możliwość jednoznacznego rozwiązywania
równania
N (x) = n rz
a to nam wystarcza do wyznaczania kwantyli. Aby wyznaczyć kwantyl graficznie, zaznaczamy n rz na osi
pionowej. Następnie prowadzimy prostą poziomą do momentu przecięcia z wykresem. Jednoznaczny punkt
przecięcia rzutujemy na oś poziomą otrzymując kwantyl qrz .
dystrybuanta liczebności N (x)
wygladzona pierwszym sposobem

nrz

qrz
ELEKTRZ.17 A.Lenarcik, Z.Piasta 17
1
Metoda ta prowadzi do następującego algorytmu. Liczbę nrz + zapisujemy w postaci k + f , gdzie k
2
jest liczbą całkowitą, zaś f częścią dziesiętną (0 ≤ f < 1). Następnie znajdujemy w uporządkowanych
rosnąco danych wartości xk oraz xk+1 (w razie potrzeby przyjmujemy x0 = x1 oraz xn+1 = xn ). Kwantyl
wyznaczamy z wzoru
qrz = (1 − f )xk + f xk+1 .
Dla przykładu wyznaczmy kwantyl rzędu 0,4 na podstawie danych ze strony 12. Mamy nrz+ 12 = 30·0,4+ 12 =
12,5, skąd k = 12 i f = 0,5. Odczytujemy z wykresu kropkowego, że x12 = 169 oraz x13 = 170. Stąd
dostajemy oszacowanie kwantyla
q0,4 = (1 − 0,5)169 + 0,5 · 170 = 169,5cm .
Stosując tę samą metodę otrzymamy medianę M = q0,5 = 175 cm i kwartyle Q1 = q0,25 = x8 = 166 cm
oraz Q3 = q0,75 = x23 = 180 cm. Uwzględniając jeszcze, że min = 154 cm oraz max = 188 cm, możemy
naszkicować wykres pudełkowy.
min Q1 M Q3 max

wzrost
155 160 165 170 175 180 185 190

II. Wygładzanie dystrybuanty za pomocą histogramu. Metodę tę zaprezentujemy na wcześniejszym przykładzie.


Patrząc na histogram (str. 13), zgodnie z definicją dystrybuanty liczebności odczytujemy: N (154) = 0,
N (160) = 2, N (166) = 2 + 4 = 6, N (172) = 2 + 4 + 7 = 13, itp. Liczby otrzymywane w ten sposób
nazywamy licznościami skumulowanymi Ni = n1 + n2 + . . . + ni . Możemy przedstawić je w tabeli.
Lp przedział liczność ni liczności skumulowane Ni
1 154 − 160 2 2
2 160 − 166 4 6
3 166 − 172 7 13
4 172 − 178 8 21
5 178 − 184 6 27
6 184 − 190 3 30
- 30 -
P

Zatem dystrybuanta przechodzi przez punkty: (154, 0), (160, 2), (166, 6), (172, 13), itp. Brakujące odcinki
uzupełniamy za pomocą prostoliniowych fragmentów.
liczba osób
30

25

20

15

10

0
8
7
6
5 4
3
2
0 wzrost
154 160 166 172 178 184 190
ELEKTRZ.17 A.Lenarcik, Z.Piasta 18
Szacowanie kwantyli (szereg rozdzielczy)
Jeżeli tylko nie ma “pustych” kolumn, metoda ta pozwala jednoznacznie oszacować położenie kwantyla
dowolnego rzędu. W tym celu rozwiązujemy równanie N (x) = nrz (równoważnie F (x) = rz).

dystrybuanta liczebności N (x)


wygladzona za pomoca histogramu

nrz

qrz

Przykład.
Wyznaczmy medianę M = q0,5 w rozważanym przykładzie. Ponieważ dystrybuanta jest kawałkami lin-
iowa, możemy to zrobić na podstawie twierdzenia Talesa. Obliczamy nrz = 30 · 0,5 = 15. Wystarczy
teraz narysować fragment wykresu odpowiadający przedziałowi od 172 do 178. Oznaczmy przez x odstęp
pomiędzy 172 i medianą.
21

8
x 2
15 6 = 8
2
13 x
6
172 178

Mamy xd = 28 , gdzie d = 178 − 172 = 6, 2 = 15 − 13, 8 = 21 − 13. Stąd x = 6 · 2


8 = 1,5, czyli
M = 172 + 1,5 = 173,5cm. Na ponizszych rysunkach obliczamy jeszcze Q1 oraz Q3 :
13 27
x 1.5 x 1.5
6 = 7 6 = 6

7 6
x ≈ 1.3 nrz=22.5 x = 1.5
nrz=7.5
1.5 1.5
6 21 x
x
6 Q1 ≈ 167.3 6 Q3 = 179.5
166 172 178 184

Możemy teraz naszkicować wykres pudełkowy

7 8
6
4 3
2

min Q1 M Q3 max

wzrost
154 160 166 172 178 184 190
ELEKTRZ.17 A.Lenarcik, Z.Piasta 19
Opisana wyżej metoda pozwoli nam wyznaczyć ogólny wzór na kwantyl rzędu rz. Kluczowym etapem jest
rozpoznanie, w którym przedziale występuje kwantyl. Będzie to przedział, dla którego

N (lewy koniec) < nrz < N (prawy koniec)

(jeżeli gdzieś zachodzi równość to od razu mamy kwantyl) Wprowadźmy oznaczenia: xq = lewy koniec
przedziału kwantyla, nq = liczność w przedziale kwantyla, d = szerokość przedziału (kolumny). Zauważmy,
że N (xq ) = liczność poniżej lewego końca.

nq
nrz
nrz−N (xq )
N (xq ) x
d
xq qrz

Mamy:
x nrz − N (xq )
= ,
d nq
skąd:
nrz − N (xq )
qrz = xq + d · .
nq
Przykład. Wyznaczmy q0,8 na podstawie wcześniejszego histogramu. Mamy nrz = 30 · 0,8 = 24 oraz
N (178) < 24 < N (184), dlatego xq = 178. Obliczamy

24 − 21
q0,8 = 178 + 6 · = 181 cm .
6
Badanie zależności dwóch cech statystycznych

Badanie zależności cech w zbiorowościach zajmuje szczególne miejsce w statystyce. Istnieje potrzeba pomi-
aru siły związku. W zależności od typu cech: jakościowa, bądź ilościowa, możemy wyróżnić trzy podstawowe
warianty: J − J, I − J, I − I. Teraz skupimy się na wariancie I − I.
Do pomiaru siły związku dwóch cech ilościowych możemy wykorzystywać współczynnik korelacji liniowej
r Pearsona (−1 ≤ r ≤ 1, r ≈ 0 najsłabszy związek). Do opisu związku można stosować tzw. analizę regresji .
W przypadku dwóch cech polega ona na prognozie wartości przeciętnej cechy objaśnianej, gdy znana jest
wartość cechy objaśniającej.
Wstęp do analizy danych - korelacja i regresja
Czasami dane występują w parach (x1 , y1 ), (x2 , y2 ), . . . , (xn , yn ). Możemy wtedy mówić o szeregu prostym
dwuwymiarowym (zakładamy, że dane są liczbowe). Para (xi , yi ) jest najczęściej utworzona z wartości cech
opisujących tę samą jednostkę statystyczną. Np. możemy rozważać wzrost i wagę grupy osób. Anal-
iza korelacji polega na badaniu związku pomiędzy wartościami xi oraz yi . Pierwszy etap tej analizy, to
umieszczenie punktów (xi , yi ) w układzie współrzędnych. Otrzymujemy wtedy tzw. diagram korelacyjny.
ELEKTRZ.17 A.Lenarcik, Z.Piasta 20
O pełnej korelacji mówimy wówczas, gdy dane układają się na prostej, która nie jest ani pozioma, ani
pionowa. W praktyce jest to sytuacja rzadka; zwykle mamy do czynienia z korelacją niepełną, która
ujawnia się jedynie jako pewna tendencja występowania związku między danymi, a nie ścisła zależność. O
korelacji dodatniej mówimy wówczas, gdy wzrostowi wartości xi towarzyszy przeciętny wzrost wartości yi ,
zaś korelacja jest ujemna jeżeli wzrostowi wartości xi towarzyszy przeciętne zmniejszanie się wartości yi .
Brak korelacji, to najczęściej zanik tej tendencji, tzn. zmieniając wartości xi nie obserwujemy przeciętnych
zmian wartości yi . Siłę związku danych liczbowych możemy mierzyć za pomocą tzw. współczynnika korelacji
Pearsona, który przyjmuje wartości w przedziale od -1 do 1. Wartość r = 1 oznacza pełną zależność liniową
dodatnią, zaś r = −1 oznacza pełną zależność liniową ujemną. Można stosować następującą interpretację
wartości bezwzględnej współczynnika korelacji: |r| ≈ 0.99 związek bardzo silny, |r| ≈ 0.9 związek silny,
|r| ≈ 0.8 dość silny |r| ≈ 0.6 umiarkowany, |r| ≈ 0.4 słaby, |r| ≤ 0.2 praktyczny brak związku. Na każdym
z poniższych piętnastu rysunków znajduje się tysiąc punktów pochodzących z generatora danych o zadanym
współczynniku korelacji.

6 r = 1.00
pp p
p 6 r = 0.99
p pp 6 r = 0.90
p pp 6 r = 0.80p
p 6 r = 0.60
pp pp p p p ppp pppp p p p p
p pp p p ppp ppppppppppppppppppppppp p p pppp ppppppppppppppppp p
p p p ppppppppppppppppppp p p p
p ppppppp pppppp p pp p ppp pppppppppppppppppppppppppppppppppppppppppppppppppppppppppppp p
p p p p p p p ppp p p p
pp ppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppp ppp ppppp p
p ppp ppppppppppppppppp p ppppppppppppppppppppppppppppp pp pp
pp pp ppppppppppppp p pppp pppppppppppppppppppppppppppppppppppp
p ppppppp pppp ppppppppp ppp p
p p pppppp ppppppppppp ppp p p p p
pppp pp p pp p p ppp pp p ppppppppppppppppppppppppppppppppppp ppp p p p pp pppppppppppppppppppppppppppppppppppppppp p p pp p
p pp pp ppp ppp pppp p p p p pp pppp ppp p p p p p p p p p ppp ppp p p p
p
ppp ppppp
- - - - -

6 r = 0.40
ppp p p p pp ppp pp p pppp p 6 rp =pp 0.20 ppp p 6 pr =ppppppp0.00 p 6pr =pp p ppppp−0.20 p 6p r p= p pp p
−0.40
pp p p p pppp p ppppp p p ppp p ppp pppppppppppppppppp pppppppppp pp p p ppppp pppppppppppppppppppppppppppppppp p p p p ppp pp pppppp ppppppppppppppppppppppppppp p p p ppppppppppppppppppppppppppppppppppppppp p p
p p p pppppppppppppppppppppppppppppp pp p pppp p
p p pp p p pp ppp pppp pp p p ppppp ppp pp pp pppp p pp p ppp p p p p p p p p p p p p
p p ppp pp ppppppppppp pppppppppppppppppp ppppp ppp p p
p p p p p p p p p p p p p p p p p p p
p pp pppp pp pppppppppppppp ppppppppppppp ppppppp pppp p p
p p p p p p ppp pppppppppppppppppppppppppppppppppppppppppppppppppppppp p ppp p p
p pppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppp pp p pp p p p pp pppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppp p p p p p ppp pppppppppppppppppppppppppppppppppppppppppppp pp pp pp p p p ppppppppp ppppppppppppppppppppppppppppppppppppp pp pp p p p ppppppppppppppppppppppppppppppppppppppppp ppppppppppp p
p p pp p p pp ppppp p ppppppppp pp ppp p p p p pp p ppppppp ppppppppppp pppp pppp p p p p pp pppp ppppppppp pppppppppp ppp p p p p p p p ppppppp pppppppppppppppppp pppp pp pp p p p p p pp pppppppppppppppppppppppppp pppp p p
p p p p ppp p pppppppp p p p p pp p ppp p pp pppppp p p p p pp p p ppp pp pppp pp p p p p p p pp ppp p p pppp pp p p p p p p p p pp pp pp pp p p
- - - - -

6p rp p pp= −0.60
p 6 r = −0.80
p p ppp pppppppp ppp ppp 6pp prp pp p p= p
−0.90
6p pprp p pp = −0.99 6p p rpppp = −1.00
p pppppppppppppppppppppppppp pppp ppp pp p pp p p pp p p p pppppppppppppppppppp p pppppppppp p pppp
p pp ppppppppppppppppppppppppppppppppppppppppppp pp ppppppp pp p p p pppppppppppppppppppppppppppppppppppppppppppppppppppppp p p p pppp ppppppppppppppppppppppppp ppppppppppp pp p p ppppppppppp
p ppppppppppp
ppppp
ppppp
p p pppppppppppp ppppppppppppppppppppppppp pp p ppppppppppppppppppppppppppppp pp p p p ppp pppppppppppppppppp p pp ppp pppppppppppppp ppppp
pp pppppppppppppppppppppppppppp ppp pp p p p ppppppppppppppppppppppppppp p pp p pppppppppppp pp p p pppp pp ppp pp
p p pp p p pppp ppp p p p p p ppp pppp pp pp p ppppppppp p p p p ppp p pppp
- - - - -
pp pp

Teraz omówimy obliczanie współczynnika korelacji. Najpierw wyznaczamy tzw. kowariancję


n
1X
covxy = (xi − x̄)(yi − ȳ) .
n i=1

covxy
Wówczas współczynnik korelacji możemy wyznaczyć z wzoru r = , gdzie sx , sy są odchyleniami
sx sy
I
standardowymi dla x i y. Mamy tutaj analogię do wzoru na kąt pomiędzy wektorami: cos α = ab , gdzie
I = iloczyn skalarny, a, b = długości wektorów.
Przykład. Obliczmy współczynnik korelacji na podstawie pięciu par danych wzrostu i wagi: (153,53);
(166,57); (157,50); (169,59); (165,61). Zacznijmy od naszkicowania diagramu korelacyjnego, który pozwoli
ELEKTRZ.17 A.Lenarcik, Z.Piasta 21
nam wzrokowo ocenić kierunek zależności.

60

55

50

155 160 165 170

Przewidujemy zależność dodatnią. Obliczenia możemy przeprowadzić w tabeli:

Lp xi yi xi − x̄ yi − ȳ (xi − x̄)2 (yi − ȳ)2 (xi − x̄)(yi − ȳ)


1 153 53 -9 -3 81 9 27
2 166 57 4 1 16 1 4
3 157 50 -5 -6 25 36 30
4 169 59 7 3 49 9 21
5 165 61 3 5 9 25 15
810 280 0 0 180 80 97
P

810 180
x̄ = = 162 , s2x = = 36 , sx = 6 ,
5 5
280 80
ȳ = = 56 , s2y = = 16 , sy = 4 ,
5 5
97 covxy 19, 4
covxy = = 19, 4 , r = = ≈ 0, 808 .
5 sx sy 6·4

Regresja

Współczynnik korelacji jest adekwatną miarą zależności danych, gdy związek ten ma charakter liniowy z
ewentualnymi zakłóceniami. Liniowość związku rozpoznajemy na diagramie korelacyjnym w ten sposób, że
“chmura danych” ma kształt zbliżony do elipsy. Możemy wtedy szukać statystycznego związku pomiędzy
wartościami cech typu y = ax + b (tzw. liniowa funkcja regresji ). Funkcja ta opisuje przeciętną wartość
cechy y przy ustalonej wartości cechy x. Wartości współczynników obliczamy z wzorów:
covxy
a= , b = ȳ − ax̄ .
s2x
ELEKTRZ.17 A.Lenarcik, Z.Piasta 22

60

55

50

155 160 165 170

Dla wcześniejszych danych otrzymujemy równanie y = 0,539 x − 31,3. Prostą regresji często oznaczamy
ŷ. Podczas wykreślania prostej zauważamy, że ŷ(152) ≈ 50,6 oraz ŷ(170) ≈ 60,3. Zauważmy, że prosta
regresji leży “blisko” punktów (w zrównoważonym położeniu). Można też rozważać regresję typu x = x(y)
odwracając role cech x i y. Wynikowy wzór na ogół będzie inny.
Jeżeli kształt “chmury punktów” na diagramie korelacyjnym istotnie odbiega od elipsy, to może to
oznaczać istnienie bardziej złożonego związku pomiędzy danymi. Poniżej podajemy kilka podstawowych
modeli regresji:

y = ax2 + bx + c y = a ebx y = a xb y = a + b ln x y = a + xb
kwadratowa wykładnicza potęgowa logarytmiczna odwrotna

Tablica korelacyjna
Tablica korelacyjna jest zapisem wspólnego rozkładu dwóch cech ilościowych o charakterze ciągłym. Można
ją utworzyć na podstawie diagramu korelacyjnego przez wprowadzenie przedziałów. Jeżeli diagram ko-
relacyjny odpowiada wykresowi kropkowemu w analizie danych jednowymiarowych, to tablica korelacyjna
odpowiada szeregowi rozdzielczemu. Na podstawie tablicy korelacyjnej możemy odtworzyć jednowymiarowe
rozkłady obu parametrów, tym samym możemy wykonywać także analizy: obliczanie średniej, odchylenia
standardowego, mediany, kwartyli, kwantyli, dominanty, niemniej najważniejsze są analizy dwuwymiarowe
opisujące związek ukryty w danych: obliczanie kowariancji, współczynnika korelacji, wyznaczanie prostej
regresji oraz łamanej regresji empirycznej.
W poniższym przykładzie dane wygenerowane są przez komputer, niemniej sam pomysł tablicy zasug-
erowany jest badaniami rzeczywistymi:
x = odległość do Uczelni (km)
y = czas dotarcia (min)
y
x 0–20 20–40 40–60 60–80
0–10 10 20 10 –
10–20 – 20 10 –
20–30 – 10 5 5
30–40 – – 5 5
ELEKTRZ.17 A.Lenarcik, Z.Piasta 23
Polecenia:
(a) Obliczyć x̄, sx , q0,8 (x).
(b) Obliczyć ȳ, sy , D(y).
(c) Wyznaczyć covxy , r, y = ax + b, ŷ(50) (przewidywanie z funkcji regresji).
(d) Wyznaczyć łamaną regresji empirycznej y = ỹ(x).
Zinterpretować wyniki.
Uwaga. W materiale pojawia się pojęcie łamanej regresji empirycznej . Jest to alternatywna technika
wyznaczania krzywej regresji w stosunku do omówionej już prostej regresji. Rola łamanej jest taka sama
jak prostej: tzn. przewidzieć średnią wartość cechy y przy zadanej wartości x. Chociaż obie metody różnią
się rachunkowo, to jednak wyniki powinny być zbliżone.
ad.(a)
liczba osób

40
40
30
30
20
20
10
10

0 x km
0 10 20 30 40
5·40+15·30+25·20+35·10
x̄ = 100 = 15 km (średnia odległość na uczelnię)
2 (5−15)2 ·40+(15−15)2 ·30+(25−15)2 ·20+(35−15)2 ·10
sx = = 100 km2 (wariancja odległości)
√ 100
sx = 100 = 10 km (odchylenie standardowe odległości na uczelnię)
q0,8 (x) = 20 + 10
20 (30 − 20) = 25 km (80 studentów ma bliżej niż 25 km, wzór str. 19)
ad.(b)
liczba osób
50
50
40
30
30
20
10 10
10
y min
0
0 20 40 60 80
D
10·10+30·50+·30+70·10
ȳ = 100 = 38 min (średni czas dotarcia na Uczelnię)
2 (10−38)2 ·10+(30−38)2 ·50+(50−38)2 +(70−38)2 ·10
sy = 100 = 256 min2
(wariancja czasu dotarcia na Uczelnię)

sy = 256 = 16 min (odchylenie standardowe czasu dotarcia na Uczelnię)
(50−10)
D(y) = 20 + (40 − 20) (50−10)+(50−30) = 33 13 min (dominujący czas, wzór: strony 7 i 13)
ad.(c) Obliczenia kowariancji przeprowadzamy w tabeli. Każdy wiersz tabeli odpowiada niezerowemu polu
tablicy (10 pól). Pola numerujemy od i = 1 do i = 10. Jako xi , yi odczytujemy środki przedziałów.
Korzystamy z wartości średnich x̄ = 15 km, ȳ = 38 min obliczanych w punktach (a) i (b).
ELEKTRZ.17 A.Lenarcik, Z.Piasta 24
Lp xi yi ni xi − x̄ yi − ȳ (xi − x̄)(yi − ȳ)ni
1 5 10 10 -10 -28 2800
2 5 30 20 -10 -8 1600
3 5 50 10 -10 12 -1200
4 15 30 20 0 -8 0
5 15 50 10 0 12 0
6 25 30 10 10 -8 -800
7 25 50 5 10 12 600
8 25 70 5 10 32 1600
9 35 50 5 20 12 1200
10 35 70 5 20 32 3200
Σ – – 100 – – 9000

covxy = 9000
100 = 90 km· min (kowariancja cech)
90
r = 10·16 = 0,5625 (korelacaj cech, dodatnia, niezbyt silna)
a = s2 = 90 km · min
covxy
= 0,9 min/km (współczynnik kierunkowy prostej regresji)
100 km
2
x
b = ȳ − ax̄ = 38 − 0,9 · 15 = 24,5 min (wyraz wolny prostej regresji)
y = 0,9x + 24,5 (prosta regresji)
ŷ(50) = 0,9 · 50 + 24,5 = 69,5 min (prognoza przeciętnego czasu dotarcia na Uczelnię dla studentów, którzy
mają 50 km)
Uwaga. Mamy tutaj następującą interpretację współczynnika kierunkowego prostej regresji: wzrostowi
odległości od Uczelni o 1 km towarzyszy przeciętny wzrost czasu dotarcia o 0,9 min.
ad.(d) Łamana regresji empirycznej y = ȳ(x) opisuje jaki jest średni czas dotarcia na Uczelnię studentów,
dla których odległość do Uczelni leży w danym przedziale.

przedział 0-10 km: ȳ1 = 10·10+30·20+50·10


40 = 30 min
30·20+50·10
przedział 10-20 km: ȳ2 = 30 ≈ 36,7 min
przedział 20-30 km: ȳ3 = 30·10+50·5+70·5
20 = 45 min
przedział 30-40 km: ȳ4 = 50·5+70·5
10 = 60 min

y min

70

60
(x4 , ȳ4 )
50

40 (x3 , ȳ3 )
(x2 , ȳ2 )
30
(x1 , ȳ1 )
20

10
x km
0
5 15 25 35

Łamana regresji empirycznej rozpięta jest na punktach (xi , ȳi ), gdzie xi oznacza środek przedziału, zaś ȳi
jest wyliczoną średnią z danego przedziału.
ELEKTRZ.17 A.Lenarcik, Z.Piasta 25
Poniżej widzimy porównanie łamanej regresji empirycznej i prostej regresji (wykresy są zbliżne).

y min

70

60 y = ax + b

50

40

30

20

10
x km
0
5 15 25 35

Uwaga. Jeżeli celem jest tylko obliczenie współczynnika korelacji i wyznaczenie prostej regresji, to obliczenia
można przeprowadzić w jednej tabeli. Stosujemy podwójne indeksowanie (i, j) jak dla macierzy (i = numer
wiersza, j = numer kolumny).
Lp i j xi yj nij xi nij yj nij xi − x̄ yj − ȳ (xi − x̄)nij (yj − ȳ)nij (xi − x̄)2 nij (yj − x̄)2 nij (xi − x̄)(yj − ȳ)nij
1 1 1 5 10 10 50 100 -10 -28 -100 -280 1000 7840 2800
2 1 2 5 30 20 100 600 -10 -8 -200 -160 2000 1280 1600
3 1 3 5 50 10 50 500 -10 12 -100 -120 1000 1440 -1200
4 2 2 15 30 20 300 600 0 -8 0 -160 0 1280 0
5 2 3 15 50 10 150 500 0 12 0 120 0 1440 0
6 3 2 25 30 10 250 300 10 -8 100 -80 1000 640 -800
7 3 3 25 50 5 125 250 10 12 60 500 -280 720 600
8 3 4 25 70 5 125 350 10 32 160 500 -280 5120 1600
9 4 3 35 50 5 175 250 20 12 60 2000 -280 720 1200
10
P 4 4 35 70 5 175 350 20 32 160 2000 -280 5120 3200
- - - - 100 1500 3800 - - 0 0 10000 25600 9000

n = i,j nij = 100


P

x̄ = n1 xi nij = 1500 2 1 P 2 10000 2


100 = 15 km; sx = n P(xi − x̄) nij = 100 = 100 km ; sx = 10 km
P
1 3800 1 25600
ȳ = n yj nij = 100 = 38 min; sy = n (yj − ȳ) nij = 100 = 256 min2 ; sy = 16 km
2 2
P

covxy = n1 (xi − x̄)(yj − ȳ)nij = 9000100 = 90 km· min


P
cov 90
r = sx ·sxyy = 10·15 = 0,5625
= 0,9 min
cov 90
a = s2xy = 100
x km ; b = ȳ − ax̄ = 38 − 0,9 · 15 = 24,5 min

You might also like