Professional Documents
Culture Documents
Pod pojęciem zbiorowość (inaczej populacja lub masa) rozumiemy ogół jednostek
(elementów) objętych badaniem statystycznym. Nie każdy zbiór jednostek stanowi jednakże
zbiorowość statystyczną.
Zbiorowość taką tworzą jednostki mające co najmniej jedną cechę wspólną, różniącą się
wartościami, ale jednocześnie co najmniej jedną cechę je różnicującą.
Przykład:
Jeżeli zatem udamy się do fabryki mebli i staniemy przy taśmie produkcyjnej, na której
są wytwarzane identyczne blaty stołów, to niezależnie od wielkości produkcji zbiór blatów
nie będzie, w powyższym rozumieniu, zbiorowością statystyczną (nie ma między nimi różnic).
Zbiorowością statystyczną nie będzie także zbiór przypadkowo dobranych elementów,
niemających ze sobą nic wspólnego.
Oto kilka przykładów zbiorowości statystycznych:
• ludność Polski na dzień 31 grudnia 2022 r. - cecha wspólna,
płeć, wiek, miejsce zamieszkania, wykształcenie itd. - cechy różnicujące,
• studenci uczelni ekonomicznych w roku akademickim 2022/2023 - cecha wspólna
kierunek studiów, rok studiów, tryb studiowania itd.- cechy różnicujące,
• sprzedane samochody w I kwartale 2022 r. - cecha wspólna,
rocznik, marka przebieg, cena itd. - cechy różnicujące,
• nowo otwarte hotele w Europie w sezonie 2022 - cecha wspólna,
kraj, liczna gwiazdek, liczba pokoi itd. - cechy różnicujące.
Drugim terminem pojawiającym się w przytoczonej powyżej definicji statystyki jako nauki,
a wymagającym uściślenia, jest właściwość zbiorowości, zwana również cechą statystyczną
lub zmienną. Pozwala ona jednoznacznie rozróżnić jednostki zbiorowości.
Podział cech statystycznych:
Cechy statystyczne:
1. Cechy stałe:
• Rzeczowe,
• Czasowe,
• Przestrzenne
2. Cechy zmienne:
• Jakościowe (niemierzalne)
• Ilościowe (mierzalne)
Skokowa
Ciągła
Quasi (niby) ciągłe
Cechy stałe
Cechy jakościowe, zwane inaczej niemierzalnymi, dają się opisać jedynie słownie, jak np.:
• kolor oczu (zielone, niebieskie, piwne).
• instrumenty finansowe (akcje, obligacje, weksle),
• marka posiadanego samochodu (Fiat, Volvo, Mitsubishi),
• ulubiony rodzaj reklamy (telewizyjna, radiowa, prasowa, billboard),
• kierunek studiów (finanse i rachunkowość, ekonomia, zarządzanie)
Cechy zmienne
Cechy zmienne dzielące się na jakościowe i ilościowe, określają przedmiot działania.
Cechy ilościowe, zwane również mierzalnymi, dają się opisać za pomocą liczb, jak np.:
• liczba dzieci w rodzinie (1 dziecko, 2 dzieci, 0 dzieci, 6 dzieci),
• liczba samochodów stojących na parkingu (11 samochodów, 16 samochodów, 201
samochodów),
• kwota dopłaconego podatku (2317 zł 13 groszy, 890 zł 45 groszy),
• wzrost dorosłego mężczyzny (187 cm, 179 cm, 173 cm, 182 cm),
• koszty stałe w przedsiębiorstwie (124 tys., 217 tys., 38 tys. zł).
Cechy skokowe, nazywane niekiedy dyskretnymi, wyrażone są za pomocą tylko pewnych liczb
zmieniających się skokowo (zazwyczaj liczb całkowitych), przyjmują zatem wartości ze zbioru
przeliczalnego.
Oto przykłady cech skokowych:
• liczba dzieci w rodzinie (1 dziecko, 2 dzieci, 0 dzieci, 6 dzieci),
• liczba samochodów stojących na parkingu (11 samochodów, 16 samochodów 201 samochodów),
• liczba otwartych kas w Biedronce lub Lidlu (11 kas, 7 kas, 4 kasy),
• liczba posiadanych akcji (320 akcji, 178 akcji, 210 000 akcji).
Nazwa „cecha skokowa" wzięła się stąd, że przechodząc od jednej do drugiej wartości
cechy, dokonujemy przeskoku o jednostkę. Innymi słowy, cecha ta nie przyjmuje wartości pośrednich
między liczbami (nikt nie powie, że ma 3,35 dziecka czy też że na parkingu stoi 17,74 samochodu albo
liczba otwartych kas w banku wynosi 3,479 itp.),
Cechy ciągłe
Cechy ciągłe mogą przyjmować wartości rzeczywiste z określonego przedziału, a więc przyjmują wartości ze zbioru nieprzeliczalnego.
Oto przykłady cech ciągłych:
• liczba „darmowych minut" oferowanych przez sieć komórkową (60 min., 120 min., 240 min.),
• wzrost dorosłego mężczyzny (187 cm, 179 cm, 173 cm, 182 cm),
• stopa zwrotu z inwestycji (2,13%, -7,05%, 8,15%),
• koszty stałe w przedsiębiorstwie (124 tys., 217 tys., 38 tys. zł),
• temperatura powietrza w Warszawie w dniu 5 lipca o godz. 12 (27C, 14C, 21 C).
Zauważmy, iż wszystkie powyższe cechy podano z określoną dokładnością:
• liczbę darmowych minut z dokładnością do jednej minuty,
• wzrost dorosłego mężczyzny z dokładnością do jednego centymetra,
• stopę zwrotu z inwestycji z dokładnością do setnych części procenta,
• koszty stałe w przedsiębiorstwie z dokładnością do jednego tys. zł,
• temperaturę powietrza z dokładnością do jednego stopnia Celsjusza.
Nie zmienia to faktu, iż wszystkie wymienione cechy mają charakter ciągły. Wytłumaczymy, na czym polega ciągłość cechy, na
ostatnim przykładzie.
Załóżmy, że w naszej strefie klimatycznej temperatura powietrza waha się między-35°C a +35°C. Spoglądając rano na termometr
zewnętrzny, zazwyczaj dokonujemy odczytu z zaokrągleniem do jednego stopnia Celsjusza, choć ktoś bardziej precyzyjny stwierdzi, że
jest np. 13,3°C czy też 13,375 C i jest to oczywiście poprawne.
Po prostu podał temperaturę z większą dokładnością. Słupek rtęci w termometrze przecież nie przeskauje o jeden stopień, lecz
„pływa" w podanym zakresie temperatur. Innymi słowy, między -35°C a +35°C możliwa jest do osiągnięcia dowolna wartość liczbowa.
Cechy ciągłe
Sama liczba, bez podania jednostek, w których jest wyrażona, nie pozwala na odróżnienie
cechy skokowej od ciągłej. Na przykład podany ciąg wartości: 27, 32, 29, 35, 31 może
oznaczać liczbę hurtowni spożywczych w pewnym mieście (cecha skokowa), jak również
miesięczną sprzedaż cukru w tonach (cecha ciągła).
Cecha quasi (niby) ciągła
Trzecim rodzajem cechy ilościowej jest cecha quasi (niby) ciągła.
Jest to w rzeczywistości cecha skokowa, ale ze względu na wielką liczbę wariantów, jaką może przybrać, traktuje się ją w
badaniu statystycznym, tak jakby była cecha ciągłą.
Z takim rodzajem cechy mamy często do czynienia w naukach ekonomicznych, operując wieloma wielkościami w ujęciu
wartościowym.
Z punktu widzenia powyżej wymienionych podziałów
np. cena towaru jest cechą skokową. Najmniejszą jednostką, w jakiej można ją wyrazić jest jeden grosz (czy jeden cent). Z
uwagi jednak na mnogość wariantów cen „zapominamy" o przeskoku o grosz lub cent i traktujemy tę cechę tak, jakby była
cecha ciągłą.
Możliwa jest także klasyfikacja cech (zmiennych) oparta na różnicach między typ informacji, jakich dostarczają operacje
klasyfikowania lub pomiaru. Wyróżnia się tu cztery klasy zmiennych (co jest tożsame z czterema skalami pomiarowymi).
Są to zmienne:
• nominalna,
• porządkowa,
• przedziałowa,
• stosunkowa.
Zmienna nominalna
Zmienna nominalna to taka, w przypadku której możemy twierdzić, że jeden element jest pod
względem interesującej nas właściwości taki sam lub inny niż drugi element.
Źródłem danych liczbowych są badania statystyczne. Celem ich jest poznanie właściwości
zbiorowości statystycznej. Można wyróżnić trzy metody badań:
• badania pełne,
• badania niepełne,
• szacunki.
Badania pełne
Badania pełne, zwane także całkowitymi lub wyczerpującymi, obejmują wszystkie
jednostki zbiorowości statystycznej. Spośród nich wyróżniamy spisy oraz rejestracje bieżącą.
Spis statystyczny jest doraźnym lub okresowym badaniem obejmującym wszyskie jednostki
zbiorowości statystycznej. Rejestracja bieżąca polega na ciągłym notowaniu określonych
faktów będących przedmiotem badania. Rejestracją tego typu zajmuje się wiele instytucji. Na
przykład Urzędy Stanu Cywilnego prowadzą na bieżąco rejestrację urodzeń, zgonów i
zawartych małżeństw, Urzędy Gminy dokonują rejestracji zameldowań i wymeldowań na
danym terenie, pracownicy dziekanatu dokonują rejestracji przyjęć i skreśleń studentów.
Badania pełne, zwłaszcza spisy, przeprowadzane są stosunkowo rzadko. Wynika to z wielu
powodów, z których najważniejszym jest wysoki koszt tego typu przedsięwzięć, ale również
długi okres gromadzenia, a potem opracowywania danych statystycznych.
Niekiedy badanie wiąże się ze zniszczeniem obiektu, jak ma to miejsce np. w tzw. crash-
testach samochodów. Przeprowadzenie w tym przypadku badania pełnego byłoby bez sensu;
trudno wyobrazić sobie tego typu badanie, które objęłoby wszystkie nowo wyprodukowane
samochody. Dlatego też w praktyce statystycznej częściej stosuje się badania niepełne
Badania niepełne – badania ankietowe i monograficzne
Badania niepełne (zwane również częściowymi lub niewyczerpującymi) obejmują niektóre
jednostki zbiorowości statystycznej.
Ten typ badań dzielimy na ankietowe, monograficzne i reprezentacyjne.
Badania ankietowe odnoszą się do grupy ściśle określonych osób instytucji, przedsiębiorstw.
Na przykład często w supermarketach spotykamy ankieterów pytają o rodzaj kupowanych
produktów, kwotę wydatków itp, (podmiotem badania są przypadku klienci konkretnego
sklepu).
Badania monograficzne polegają na szczegółowym opisie z wielu punktów widzenia
wybranej jednostki lub niewielkiego zbioru jednostek statystycznych.
Są to zazwyczaj jednostki typowe lub przodujące.
Przykładem może być przeprowadzone przed kilkunastoma laty badanie obejmujące rodziny
wielodzietne z terenu Warszawy.
Badania niepełne – badania reprezentacyjne
Ostatnie z wymienionych, a zarazem najważniejsze z punktu widzenia statystyki badanie
niepełne to tzw. badanie reprezentacyjne.
Z całej zbiorowości statystycznej pobieramy w sposób losowy pewną część jednostek
noszących miano próby reprezentatywnej (lub reprezentacyjnej). Taka próba jest zatem mini-
obrazem całej populacji.
Przykładem tego rodzaju analizy mogą być badania przeprowadzane przez Główny Urząd
Statystyczny GUS, np. dotyczące budżetów gospodarstw domowych, badania dokonywane
przez Centrum Badania Opinii Społecznej - CBOS itp.
W ostatnich latach rola badan reprezentacyjnych wzrosła bardzo w naszym kraju. Wynika to z
wielu przesłanek, z których najważniejsze to relatywnie małe nakłady pieniężne,
szybkość przeprowadzania i otrzymywania wyników oraz - większa niż w odniesieniu do
badan całkowitych wiarygodność wyników. Ta ostatnia kwestia wiąże się z faktem, iż
przenosząc wyniki z próby na całą zbiorowość dzięki zastosowaniu narzędzi z rachunku
prawdopodobieństwa, mamy możliwość określenia wielkości popełnianego błędu, na co nie
pozwala ani badanie ankietowe, ani monograficzne.
Badania niepełne - szacunki
Trzecią i ostatnią grupę metod badań stanowią szacunki. Dokonuje się ich wówczas,
gdy nie chcemy lub nie możemy uzyskać bezpośrednio danych na temat interesującej nas
zbiorowości statystycznej. Na przykład chcąc uzyskać informacje odnośnie czasu poświę-
canego na oglądanie filmów w kinie, możemy go oszacować pośrednio na podstawie licz-
by sprzedanych biletów na poszczególne seanse.
Etapy badań statystycznych
Niezależnie od tego, czy będą to badania pełne, czy też częściowe, wszystkie badania
statystyczne przeprowadzamy w czterech etapach:
1. Projektowanie badania. Precyzujemy cel badania, tzw. diagnostyczny (co i dlaczego
chcemy badać) oraz praktyczny (komu i czemu badanie ma służyć), określamy zbiorowość
statystyczną (podmiot badania). Zbiorowość statystyczna i jednostka badania powinna być
ściśle określone.
2. Obserwacja statystyczna. Polega ona, najogólniej mówiąc, na ustaleniu wartości cech
ilościowych czy też odmian cech jakościowych wszystkich jednostek tworzących
zbiorowość statystyczną. Zbiór danych uzyskanych z obserwacji nosi miano materiału
statystycznego, który powinno zostać poddany kontroli od strony formalnej i
merytorycznej.
3. Opracowanie materiału statystycznego. Zebrany materiał statystyczny zostaje
uporządkowany i zaprezentowany w formie tabelarycznej i graficznej.
4. Analiza statystyczna. Oceniamy właściwości zbiorowości statystycznej, wykorzystujące
metody opisu statystycznego i/lub wnioskowania statystycznego.
Przedmiot badań statystycznych
Opis statystyczny może dotyczyć zarówno całej populacji, jak również i jej części, tzn. próby.
Dokonując opisu struktury zbiorowości, badamy, jak są rozprzestrzenione
poszczególne odmiany cechy wśród jednostek tejże zbiorowości.
Jest to więc analiza jednowymiarowa i statyczna.
Możemy zatem zbadać np., jakie występują odmiany wzrostu wśród słuchaczy wykładu
(badamy jedną cechę - wzrost, w danym momencie- w trakcie wykładu), czy też odmiany
stażu pracy wśród pracowników Banku ,,Nasza Kasa" (badamy jedną cechę, np. staż pracy na
dzień 31 grudnia 2019 r.).
W przypadku analizy wielowymiarowej badamy powiązania pomiędzy większą niż dwie liczbą
cech statystycznych. Dla przykładu analizujemy, jak masa ciała nowo urodzonego dziecka
uzależniona jest od masy ciała i wzrostu rodziców, rasy, warunków bytowych matki, poziomu
wykształcenia rodziców itp. (badamy zatem powiązania pomiędzy aż dziewięcioma cechami).
Analiza współzależności może dotyczyć siły i kierunku związków między cechami lub
mechanizmu powiazań tych cech.
Przedmiot badań statystycznych
Opis dynamiki zjawisk obejmuje rozwój zbiorowości w czasie. Zatem w tym przypadku mamy
do czynienia z badaniem dynamicznym. Dla przykładu przedmiotem naszej
analizy mogą być zmiany liczby urodzeń żywych na przestrzeni lat 1990–2019. Cecha
statystyczna w tym badaniu to liczba urodzeń, a ponieważ jej analizy dokonujemy dla 29 lat,
to jest to analiza dynamiczna.
Średnia arytmetyczna
_
x1 x 2 x n x i
x i 1
N N
_
x n x2 n2 x n nk x n i i1
x 1 1 i 1
N N
_
0 0
x1 n1 x 2 n2 x n nk
0
x i ni
x i 1
N N
Jeżeli w obliczeniach możemy wykorzystać wyłącznie procentowe wskaźniki struktury
_ x i wi
ni
x i 1
gdzie wi 100
100 N
Średnia arytmetyczna
Jeżeli wartości zmiennej podane są w jednostkach względnych, np. km/godz, kg/osobę,
wagi zaś w jednostkach liczników tych jednostek względnych ( prędkość pojazdu – zmienna:
km/godz.; waga: w km; gęstość zaludnienia – zmienna: w osobach/km2, waga: w osobach;
spożycie artykułu X na 1 osobę – zmienna: w litrach, waga: na osobę), to stosuje się średnią
harmoniczną.
N
H N
1
x
i 1 i
gdzie:
H – symbol średniej harmonicznej.
Średnia arytmetyczna
Dla obliczenia średniej harmonicznej z szeregów rozdzielczych (punktowych lub
przedziałowych) zachodzi konieczność zastosowania wag (uwzględnienia liczebności).
Stosuje się wzór:
N
H N
1
i 1 x
ni
i
n
x g n x1 x2 xn n x
i 1
i
gdzie:
- znak iloczynu
Dominanta
Dominantą (modalna, wartość najczęstsza) nazywamy taką wartość zmiennej, która w
danym rozkładzie empirycznym występuje najczęściej. (Wynika z tego, że dominantę można
wyznaczyć tylko w rozkładach jednomodalnych).
W szeregach wyliczających i rozdzielczych punktowych dominanta jest wartością cechy, której
odpowiada największa liczebność.
W szeregach rozdzielczych przedziałowych bezpośrednio można określić tylko przedział, w
którym znajduje się dominanta – jest to przedział o największej liczebności. Konkretną wartość
liczbową należącą do tego przedziału, która jest dominantą wyznacza się w n astępujący
sposób:
n D n D 1
D xp iD
(nD n D 1 ) ( n D n D 1 )
gdzie:
D - symbol dominanty;
x D - dolna granica klasy, w której znajduje się dominanta;
n D - liczebność przedziału dominanty;
n D 1 - liczebność przedziału poprzedzającego przedział dominanty;
n D 1 - liczebność przedziału następującego po przedziale dominanty;
i D - interwał, czyli rozpiętość przedziału dominanty.
Dominanta
Dominantą (modalna, wartość najczęstsza) nazywamy taką wartość zmiennej, która w
danym rozkładzie empirycznym występuje najczęściej. (Wynika z tego, że dominantę można
wyznaczyć tylko w rozkładach jednomodalnych).
W szeregach wyliczających i rozdzielczych punktowych dominanta jest wartością cechy, której
odpowiada największa liczebność.
W szeregach rozdzielczych przedziałowych bezpośrednio można określić tylko przedział, w
którym znajduje się dominanta – jest to przedział o największej liczebności. Konkretną wartość
liczbową należącą do tego przedziału, która jest dominantą wyznacza się w następujący
sposób:
n D n D 1
D xp iD
(nD n D 1 ) ( n D n D 1 )
gdzie:
D - symbol dominanty;
x D - dolna granica klasy, w której znajduje się dominanta;
n D - liczebność przedziału dominanty;
n D 1 - liczebność przedziału poprzedzającego przedział dominanty;
n D 1 - liczebność przedziału następującego po przedziale dominanty;
i D - interwał, czyli rozpiętość przedziału dominanty.
Kwantyle
Kwantyle, są to najogólniej rzecz ujmując wartości cechy badanej jednostki, które
definiują ją na określone części - pod względem liczby jednostek.
Kwartyl drugi:
N k 1
ni
2
Q2 M e x Me i 1
iMe ;
nMe
Kwartyl trzeci:
3N k 1
ni
4
Q3 xQ 3 i 1
iQ 3
nQ 3
Kwantyle
Kwartyle są dogodnymi parametrami w analizie struktury. Mogą być wykorzystane w
przypadkach, w których nie jest możliwe obliczenie z danego szeregu średniej arytmetycznej
(otwarte przedziały klasowe, ekstremalne wartości), a także dominanty (nierówne rozpiętości
przedziałów, silna asymetria rozkładu.
Decyle i centyle (percentyle) wyznacza się podobnie jak kwartyle. Decyle dzielą zbiorowość
na 10 części – 5 decyl to mediana. Centyle zaś na 100 części – 50 centyl jest medianą.
MIARY DYNAMIKI
MIARY DYNAMIKI
MIARY DYNAMIKI
MIARY DYNAMIKI
MIARY DYNAMIKI
MIARY DYNAMIKI
Przeliczanie Indeksów
Przeliczanie Indeksów
Przeliczanie Indeksów
Przeliczanie Indeksów
OPIS WSPÓŁZALEŻNOŚCI ZJAWISK
Analiza struktury zbiorowości, odnosiła się do jednej cechy statystycznej (zmiennej).
Na co dzień często wypowiadamy się jednak na temat znanych lub przypuszczalnych powiązań
między różnymi zmiennymi.
Na przykład:
• wiemy, iż istnieje związek między temperaturą a porą roku,
• wiekiem a masą ciała, wzrostem i innymi charakterystykami fizycznymi jednostki czy
dochodem, poziomem wykształcenia,
• stażem pracy i płcią,
• bezrobociem a stanem gospodarki itp.
OPIS WSPÓŁZALEŻNOŚCI ZJAWISK
Gdy analiza taka dotyczy wzajemnych związków między tylko dwiema cechami, mamy do
czynienia z analizą dwuwymiarową (gdyż rozpatrujemy powiązania między dwiema
zmiennymi). A zatem taką analizą będzie zbadanie wzajemnych relacji między temperaturą
(pierwsza zmienna)a porą roku (druga zmienna), czy bezrobociem (pierwsza zmienna) a
stanem gospodarki(druga zmienna) itd.
W przypadku badania powiązań między większą liczbą cech analiza ma charakter
wielowymiarowy (gdyż analizujemy powiązania między większą niż dwie liczbą zmiennych).
Wielowymiarowa będzie zatem np. analiza wzajemnych powiązań między wiekiem (pierwsza
zmienna), masą ciała (druga zmienna), wzrostem (trzecia zmienna)i innymi charakterystykami
fizycznymi (kolejne zmienne np. obwód głowy, długość nóg,obwód w talii itd.).
Także wielowymiarowy charakter będzie miało ustalenie wzajemnych relacji między
dochodem (pierwsza zmienna), poziomem wykształcenia (druga zmienna) stażem pracy
(trzecia zmienna) i płcią (czwarta zmienna) itd.
OPIS WSPÓŁZALEŻNOŚCI ZJAWISK
ANALIZA DWUWYMIAROWA
Umownie cechy (zmienne) poddane ustaleniu wzajemnych między nimi relacji oznaczymy X
oraz Y.
Między dwiema cechami można wyróżnić istnienie trzech rodzajów związków lub, używając
innego sformułowania, rodzajów współzależności:
• Współzależność funkcyjna,
• Współzależność stochastyczna,
• Współzależność korelacyjna,
OPIS WSPÓŁZALEŻNOŚCI ZJAWISK
ANALIZA JAKOŚCIOWA
W analizie współzależności można wyróżnić podejście jakościowe i ilościowe do relacji, jakie
zachodzą między badanymi zmiennymi.
Analiza jakościowa ma na celu określenie związków przyczynowo-skutkowych między
zmiennymi.
Wyróżniamy związki dwustronne, w przypadku których występuje wzajemne oddziaływanie
badanych zjawisk; innymi słowy, trudno określić, co jest skutkiem, a co przyczyną.
Na przykład relacja między kwotami wydatkowanymi na reklamę (nazwijmy ją X) a przy-
chodami przedsiębiorstwa (nazwijmy je Y) czy związek między czasem budowy (X) a kubaturą
budynku (Y). Oczywiście, im więcej wydatkujemy na reklamę, tym większego przychodu ze
sprzedaży możemy się spodziewać, ale jednocześnie większy przychód determinuje
zwiększenie funduszu reklamowego.