You are on page 1of 59

Metody ilościowe

• dowiecie się jak rozumieć termin statystyka".,


• skąd biorą się dane statystyczne i jakie mogą być w nich błędy,
• jakie są etapy badan statystycznych,
• co jest ich przedmiotem i jak te badania mogą być wykorzystane
• poznamy podstawowe pojęcia statystyki populacja, cecha i jej rodzaje oraz skale
używane przy prezentacji danych
Podstawowe pojęcia statystyki

Słowo statystyka pochodzi od łacińskiego terminu status oznaczającego państwo;


pierwotnie było używane dla oznaczenia nauki o osobliwościach państwowych".
Obecnie w języku polskim może być stosowane w różnych kontekstach:
• statystyka to zbiór danych liczbowych (mówimy np. o statystyce dochodu narodowego, statystyce
ludności czy też o statystyce zachorowalności na choroby układu krążenia),
• statystyka to również wszelkie prace związane z gromadzeniem i opracowywaniem masowych
danych liczbowych (w tym ujęciu statystyką zajmują się różnorakie instytucje zbierające i
przetwarzające dane liczbowe, jak np. Główny Urząd Statystyczny, Urzędy Stanu Cywilnego czy
pracownicy dziekanatu),
• statystyka wreszcie, to nauka o metodach badań poświęconych liczbowo wyrażalnym
właściwościom zbiorowości, a zatem nauka badająca prawidłowości zjawisk masowych, wyrażając je za
pomocą liczb;
w tym właśnie znaczeniu będziemy stosować ten termin w toku naszego wykładu.
Podstawowe pojęcia statystyki

Przytoczona powyżej definicja wymaga uściślenia pojawiających się w niej sformułowań.


Pierwszym z nich jest zbiorowość, drugim zaś właściwość zbiorowości.

Pod pojęciem zbiorowość (inaczej populacja lub masa) rozumiemy ogół jednostek
(elementów) objętych badaniem statystycznym. Nie każdy zbiór jednostek stanowi jednakże
zbiorowość statystyczną.
Zbiorowość taką tworzą jednostki mające co najmniej jedną cechę wspólną, różniącą się
wartościami, ale jednocześnie co najmniej jedną cechę je różnicującą.
Przykład:
Jeżeli zatem udamy się do fabryki mebli i staniemy przy taśmie produkcyjnej, na której
są wytwarzane identyczne blaty stołów, to niezależnie od wielkości produkcji zbiór blatów
nie będzie, w powyższym rozumieniu, zbiorowością statystyczną (nie ma między nimi różnic).
Zbiorowością statystyczną nie będzie także zbiór przypadkowo dobranych elementów,
niemających ze sobą nic wspólnego.
Oto kilka przykładów zbiorowości statystycznych:
• ludność Polski na dzień 31 grudnia 2022 r. - cecha wspólna,
płeć, wiek, miejsce zamieszkania, wykształcenie itd. - cechy różnicujące,
• studenci uczelni ekonomicznych w roku akademickim 2022/2023 - cecha wspólna
kierunek studiów, rok studiów, tryb studiowania itd.- cechy różnicujące,
• sprzedane samochody w I kwartale 2022 r. - cecha wspólna,
rocznik, marka przebieg, cena itd. - cechy różnicujące,
• nowo otwarte hotele w Europie w sezonie 2022 - cecha wspólna,
kraj, liczna gwiazdek, liczba pokoi itd. - cechy różnicujące.

Każdą zbiorowość statystyczną da się podzielić na mniejsze części zwane podzbiorowościami


(podpopulacjami lub subpopulacjami). Podziałów takich dokonuje się w celu lepszego
poznania właściwości zbiorowości (łatwiej jest po prostu badać mniejsza liczbę jednostek).
Oto kilka przykładów zbiorowości statystycznych:
• Ludność Polski można podzielić np. na podzbiorowości mężczyzn i kobiet lub podzbiorowości
mieszkańców miast i wsi.
• Z kolei w podzbiorowości mężczyzn można wyróżnić podzbiorowość mężczyzn mieszkających w
mieście i podzbiorowość mężczyzn mieszkających na wsi.
• Studentów uczelni ekonomicznych podzielimy np. na podzbiorowości studiujących w trybie
stacjonarnym i niestacjonarnym lub podzbiorowości studiujących w szkołach państwowych i
niepaństwowych.
• Sprzedane w Polsce samochody dzielimy np. na podzbiorowości według marek lub
podzbiorowości według ceny.
• Nowo otwarte hotele w Europie dzielimy np. na podzbiorowości według kraju lub
podzbiorowości według liczby gwiazdek.

Podział zbiorowości statystycznej na podzbiorowości jest oczywiście podziałem skończonym.


Najmniejszy element zbiorowości statystycznej stanowi jednostka statystyczna.
W naszym przykładzie dotyczącym mebli taką jednostką statystyczną jest np.
stół z okrągłym blatem na jednej nodze.
Oto kilka przykładów zbiorowości statystycznych:
W innych przytoczonych przykładach zbiorowości statystycznych jednostkami statystycznymi
są odpowiednio np.:
1. Adam Kowalski z Milanówka, Hanna Okulicka,
2. studentka III roku studiów stacjonarnych na Wydziale Zarządzania Uniwersytetu
Warszawskiego,
3. BMW z 2021 r. o przebiegu 56 tys.km,
4. 3-gwiazdkowy hotel ,Marina" w Barcelonie.

Drugim terminem pojawiającym się w przytoczonej powyżej definicji statystyki jako nauki,
a wymagającym uściślenia, jest właściwość zbiorowości, zwana również cechą statystyczną
lub zmienną. Pozwala ona jednoznacznie rozróżnić jednostki zbiorowości.
Podział cech statystycznych:
Cechy statystyczne:
1. Cechy stałe:
• Rzeczowe,
• Czasowe,
• Przestrzenne
2. Cechy zmienne:
• Jakościowe (niemierzalne)
• Ilościowe (mierzalne)
 Skokowa
 Ciągła
 Quasi (niby) ciągłe
Cechy stałe

Cechy stałe, dzielące się na rzeczowe, czasowe i przestrzenne,


odpowiadają na trzy pytania: co, kiedy i gdzie badamy?
Są one z góry określone w każdym badaniu statystycznym i tym samym charakteryzują
podmiot badania.
Podmiotem takim może być np.
• grupa słuchaczy obecnych na wykładzie w dniu 4 października 2022 r.,
• firmy branży cukrowniczej, które w ostatnim roku obrachunkowym poniosły stratę,
• działające na terenie Warszawy agencje nieruchomości w lipcu 2022 r
Cechy zmienne
Cechy zmienne dzielące się na jakościowe i ilościowe, określają przedmiot działania.

Cechy jakościowe, zwane inaczej niemierzalnymi, dają się opisać jedynie słownie, jak np.:
• kolor oczu (zielone, niebieskie, piwne).
• instrumenty finansowe (akcje, obligacje, weksle),
• marka posiadanego samochodu (Fiat, Volvo, Mitsubishi),
• ulubiony rodzaj reklamy (telewizyjna, radiowa, prasowa, billboard),
• kierunek studiów (finanse i rachunkowość, ekonomia, zarządzanie)
Cechy zmienne
Cechy zmienne dzielące się na jakościowe i ilościowe, określają przedmiot działania.

Cechy ilościowe, zwane również mierzalnymi, dają się opisać za pomocą liczb, jak np.:
• liczba dzieci w rodzinie (1 dziecko, 2 dzieci, 0 dzieci, 6 dzieci),
• liczba samochodów stojących na parkingu (11 samochodów, 16 samochodów, 201
samochodów),
• kwota dopłaconego podatku (2317 zł 13 groszy, 890 zł 45 groszy),
• wzrost dorosłego mężczyzny (187 cm, 179 cm, 173 cm, 182 cm),
• koszty stałe w przedsiębiorstwie (124 tys., 217 tys., 38 tys. zł).

Cechy, o których mowa dzielimy na skokowe, ciągłe i quasi (niby) ciągłe,


Cechy zmienne
Cechy, o których mowa dzielimy na skokowe, ciągłe i quasi (niby) ciągłe,

Cechy skokowe, nazywane niekiedy dyskretnymi, wyrażone są za pomocą tylko pewnych liczb
zmieniających się skokowo (zazwyczaj liczb całkowitych), przyjmują zatem wartości ze zbioru
przeliczalnego.
Oto przykłady cech skokowych:
• liczba dzieci w rodzinie (1 dziecko, 2 dzieci, 0 dzieci, 6 dzieci),
• liczba samochodów stojących na parkingu (11 samochodów, 16 samochodów 201 samochodów),
• liczba otwartych kas w Biedronce lub Lidlu (11 kas, 7 kas, 4 kasy),
• liczba posiadanych akcji (320 akcji, 178 akcji, 210 000 akcji).

Nazwa „cecha skokowa" wzięła się stąd, że przechodząc od jednej do drugiej wartości
cechy, dokonujemy przeskoku o jednostkę. Innymi słowy, cecha ta nie przyjmuje wartości pośrednich
między liczbami (nikt nie powie, że ma 3,35 dziecka czy też że na parkingu stoi 17,74 samochodu albo
liczba otwartych kas w banku wynosi 3,479 itp.),
Cechy ciągłe
Cechy ciągłe mogą przyjmować wartości rzeczywiste z określonego przedziału, a więc przyjmują wartości ze zbioru nieprzeliczalnego.
Oto przykłady cech ciągłych:
• liczba „darmowych minut" oferowanych przez sieć komórkową (60 min., 120 min., 240 min.),
• wzrost dorosłego mężczyzny (187 cm, 179 cm, 173 cm, 182 cm),
• stopa zwrotu z inwestycji (2,13%, -7,05%, 8,15%),
• koszty stałe w przedsiębiorstwie (124 tys., 217 tys., 38 tys. zł),
• temperatura powietrza w Warszawie w dniu 5 lipca o godz. 12 (27C, 14C, 21 C).
Zauważmy, iż wszystkie powyższe cechy podano z określoną dokładnością:
• liczbę darmowych minut z dokładnością do jednej minuty,
• wzrost dorosłego mężczyzny z dokładnością do jednego centymetra,
• stopę zwrotu z inwestycji z dokładnością do setnych części procenta,
• koszty stałe w przedsiębiorstwie z dokładnością do jednego tys. zł,
• temperaturę powietrza z dokładnością do jednego stopnia Celsjusza.
Nie zmienia to faktu, iż wszystkie wymienione cechy mają charakter ciągły. Wytłumaczymy, na czym polega ciągłość cechy, na
ostatnim przykładzie.
Załóżmy, że w naszej strefie klimatycznej temperatura powietrza waha się między-35°C a +35°C. Spoglądając rano na termometr
zewnętrzny, zazwyczaj dokonujemy odczytu z zaokrągleniem do jednego stopnia Celsjusza, choć ktoś bardziej precyzyjny stwierdzi, że
jest np. 13,3°C czy też 13,375 C i jest to oczywiście poprawne.
Po prostu podał temperaturę z większą dokładnością. Słupek rtęci w termometrze przecież nie przeskauje o jeden stopień, lecz
„pływa" w podanym zakresie temperatur. Innymi słowy, między -35°C a +35°C możliwa jest do osiągnięcia dowolna wartość liczbowa.
Cechy ciągłe

Cechy ciągła zatem jest podawana z określoną dokładnością, o której decyduje:


• zwyczaj - wiek podajemy w latach skończonych, można go również wyrazić w miesiącach,
dniach, godzinach, minutach itd., wzrost w cm, ale równie dobrze można go podać w
decymetrach czy milimetrach, koszty stałe w przedsiębiorstwie w: mln zł, tys. zł lub złotych,
• dokładność narzędzia pomiarowego (z inną dokładnością mierzymy temperaturę otoczenia,
z inną zaś temperaturę ciała, z inną dokładnością podajemy masę ciała noworodka, z inną
natomiast masę ciała osoby dorosłej) itp.

Sama liczba, bez podania jednostek, w których jest wyrażona, nie pozwala na odróżnienie
cechy skokowej od ciągłej. Na przykład podany ciąg wartości: 27, 32, 29, 35, 31 może
oznaczać liczbę hurtowni spożywczych w pewnym mieście (cecha skokowa), jak również
miesięczną sprzedaż cukru w tonach (cecha ciągła).
Cecha quasi (niby) ciągła
Trzecim rodzajem cechy ilościowej jest cecha quasi (niby) ciągła.
Jest to w rzeczywistości cecha skokowa, ale ze względu na wielką liczbę wariantów, jaką może przybrać, traktuje się ją w
badaniu statystycznym, tak jakby była cecha ciągłą.
Z takim rodzajem cechy mamy często do czynienia w naukach ekonomicznych, operując wieloma wielkościami w ujęciu
wartościowym.
Z punktu widzenia powyżej wymienionych podziałów
np. cena towaru jest cechą skokową. Najmniejszą jednostką, w jakiej można ją wyrazić jest jeden grosz (czy jeden cent). Z
uwagi jednak na mnogość wariantów cen „zapominamy" o przeskoku o grosz lub cent i traktujemy tę cechę tak, jakby była
cecha ciągłą.

Możliwa jest także klasyfikacja cech (zmiennych) oparta na różnicach między typ informacji, jakich dostarczają operacje
klasyfikowania lub pomiaru. Wyróżnia się tu cztery klasy zmiennych (co jest tożsame z czterema skalami pomiarowymi).
Są to zmienne:
• nominalna,
• porządkowa,
• przedziałowa,
• stosunkowa.
Zmienna nominalna

Zmienna nominalna to taka, w przypadku której możemy twierdzić, że jeden element jest pod
względem interesującej nas właściwości taki sam lub inny niż drugi element.

Nie możemy natomiast formułować twierdzeń o uporządkowaniu elementów, jednakowości


różnic między nimi czy też, ile razy jeden element jest większy od drugiego.

Na przykład możemy poklasyfikować ludzi według koloru włosów. Twierdzenie, że blondyn


jest w jakiś sposób „większy niż" lub „mniejszy niż" szatyn jest pozbawione sensu.
Podobnie absurdalne jest twierdzenie, że różnica między blondynem a rudym jest taka sama
jak między szatynem a brunetem.
Jedyne, co można stwierdzić, mając do dyspozycji informację o kolorze włosów, to określenie
np. że dwie osoby mają taki sam lub że mają inny kolor włosów kwalifikowania zmiennej
nominalnej służy skala nominalna.
Zmienna porządkowa

Zmienna porządkowa pozwala na uszeregowanie elementów.


Możliwe są tu wiec twierdzenia zarówno o równości lub różności elementów, ale także
twierdzenia typu większy niż" bądź „mniejszy niż".
W przypadku zmiennej porządkowej nie można natomiast określić różnic między elementami
ani stwierdzić, ile razy jeden element jest większy lub mniejszy od innego.
Możemy zatem np. uporządkować graczy giełdowych według ich skłonności do ryzyka.
Prawdziwe w tym przypadku będzie twierdzenie, że inwestujący w akcje mają większą
skłonność do ryzyka niż kupujący bony skarbowe; bez sensu byłoby natomiast sformułowanie,
że inwestujący w akcje ma np. cztery razy większą skłonność do ryzyka niż inwestujący w
bony.
Prezentując zmienną porządkową używamy skali porządkowej.
Zmienna przedziałowa
Zmienna przedziałowa pozwala na twierdzenie o równości lub różności elementów,
o twierdzeniu typu ,większy niż" lub „mniejszy niż", a ponadto o twierdzeniu o równości
przedziałów. Zmienna przedziałowa nie ma prawdziwego „punktu. zerowego".
Zmiennymi przedziałowymi są np. pomiary temperatury w skali Celsjusza czy Fahrenheita.
Załóżmy, iż w dniu 1 września 2019 r. o godz. 12:00 w Warszawie było 18°C,
w Mikołajkach 16°C, natomiast w Krakowie 20°C.
Słuszne jest twierdzenie, że temperatura w Krakowie była wyższa niż w Warszawie i
Mikołajkach.
Prawdą jest także, że różnica temperatury między Warszawą i Mikołajkami była taka sama jak
między Krakowem a Warszawą oraz iż różnica temperatury między Warszawą i Mikołajkami
była dwukrotnie mniejsza niż między Krakowem a Mikołajkami. Absurdalne staje się
natomiast sformułowanie,
iż temperatura w Krakowie była 1,25 razy wyższa niż w Mikołajkach (taki wynik uzyskalibyśmy,
dzieląc 20°C przez 16°C).
Klasyfikując zmienna przedziałowa, posługujemy się skala przedziałową.
Zmienna stosunkowa
Zmienna stosunkowa pozwala, obok wszystkich powyższych stwierdzeń, na określenie
twierdzeń o równości stosunków.
W przypadku zmiennej stosunkowej istnieje zawsze jakieś „zero absolutne".
Użyte liczby odzwierciedlają odległość od ściśle określonego początku.
Zmiennymi stosunkowymi są np. długość, masa, liczebność zbiorów.
Prawda jest zatem np., iż odległość z Warszawy do Szczecina jest blisko 1,8-krotnie większa niż
z Warszawy do Katowic, liczba ludności w Grecji jest blisko 4-krotnie mniejsza niż w Polsce itd.

W przypadku zmiennej stosunkowej posługujemy się skalą stosunkową.


Rodzaje badań statystycznych

Źródłem danych liczbowych są badania statystyczne. Celem ich jest poznanie właściwości
zbiorowości statystycznej. Można wyróżnić trzy metody badań:
• badania pełne,
• badania niepełne,
• szacunki.
Badania pełne
Badania pełne, zwane także całkowitymi lub wyczerpującymi, obejmują wszystkie
jednostki zbiorowości statystycznej. Spośród nich wyróżniamy spisy oraz rejestracje bieżącą.
Spis statystyczny jest doraźnym lub okresowym badaniem obejmującym wszyskie jednostki
zbiorowości statystycznej. Rejestracja bieżąca polega na ciągłym notowaniu określonych
faktów będących przedmiotem badania. Rejestracją tego typu zajmuje się wiele instytucji. Na
przykład Urzędy Stanu Cywilnego prowadzą na bieżąco rejestrację urodzeń, zgonów i
zawartych małżeństw, Urzędy Gminy dokonują rejestracji zameldowań i wymeldowań na
danym terenie, pracownicy dziekanatu dokonują rejestracji przyjęć i skreśleń studentów.
Badania pełne, zwłaszcza spisy, przeprowadzane są stosunkowo rzadko. Wynika to z wielu
powodów, z których najważniejszym jest wysoki koszt tego typu przedsięwzięć, ale również
długi okres gromadzenia, a potem opracowywania danych statystycznych.
Niekiedy badanie wiąże się ze zniszczeniem obiektu, jak ma to miejsce np. w tzw. crash-
testach samochodów. Przeprowadzenie w tym przypadku badania pełnego byłoby bez sensu;
trudno wyobrazić sobie tego typu badanie, które objęłoby wszystkie nowo wyprodukowane
samochody. Dlatego też w praktyce statystycznej częściej stosuje się badania niepełne
Badania niepełne – badania ankietowe i monograficzne
Badania niepełne (zwane również częściowymi lub niewyczerpującymi) obejmują niektóre
jednostki zbiorowości statystycznej.
Ten typ badań dzielimy na ankietowe, monograficzne i reprezentacyjne.

Badania ankietowe odnoszą się do grupy ściśle określonych osób instytucji, przedsiębiorstw.
Na przykład często w supermarketach spotykamy ankieterów pytają o rodzaj kupowanych
produktów, kwotę wydatków itp, (podmiotem badania są przypadku klienci konkretnego
sklepu).
Badania monograficzne polegają na szczegółowym opisie z wielu punktów widzenia
wybranej jednostki lub niewielkiego zbioru jednostek statystycznych.
Są to zazwyczaj jednostki typowe lub przodujące.
Przykładem może być przeprowadzone przed kilkunastoma laty badanie obejmujące rodziny
wielodzietne z terenu Warszawy.
Badania niepełne – badania reprezentacyjne
Ostatnie z wymienionych, a zarazem najważniejsze z punktu widzenia statystyki badanie
niepełne to tzw. badanie reprezentacyjne.
Z całej zbiorowości statystycznej pobieramy w sposób losowy pewną część jednostek
noszących miano próby reprezentatywnej (lub reprezentacyjnej). Taka próba jest zatem mini-
obrazem całej populacji.
Przykładem tego rodzaju analizy mogą być badania przeprowadzane przez Główny Urząd
Statystyczny GUS, np. dotyczące budżetów gospodarstw domowych, badania dokonywane
przez Centrum Badania Opinii Społecznej - CBOS itp.
W ostatnich latach rola badan reprezentacyjnych wzrosła bardzo w naszym kraju. Wynika to z
wielu przesłanek, z których najważniejsze to relatywnie małe nakłady pieniężne,
szybkość przeprowadzania i otrzymywania wyników oraz - większa niż w odniesieniu do
badan całkowitych wiarygodność wyników. Ta ostatnia kwestia wiąże się z faktem, iż
przenosząc wyniki z próby na całą zbiorowość dzięki zastosowaniu narzędzi z rachunku
prawdopodobieństwa, mamy możliwość określenia wielkości popełnianego błędu, na co nie
pozwala ani badanie ankietowe, ani monograficzne.
Badania niepełne - szacunki

Trzecią i ostatnią grupę metod badań stanowią szacunki. Dokonuje się ich wówczas,
gdy nie chcemy lub nie możemy uzyskać bezpośrednio danych na temat interesującej nas
zbiorowości statystycznej. Na przykład chcąc uzyskać informacje odnośnie czasu poświę-
canego na oglądanie filmów w kinie, możemy go oszacować pośrednio na podstawie licz-
by sprzedanych biletów na poszczególne seanse.
Etapy badań statystycznych
Niezależnie od tego, czy będą to badania pełne, czy też częściowe, wszystkie badania
statystyczne przeprowadzamy w czterech etapach:
1. Projektowanie badania. Precyzujemy cel badania, tzw. diagnostyczny (co i dlaczego
chcemy badać) oraz praktyczny (komu i czemu badanie ma służyć), określamy zbiorowość
statystyczną (podmiot badania). Zbiorowość statystyczna i jednostka badania powinna być
ściśle określone.
2. Obserwacja statystyczna. Polega ona, najogólniej mówiąc, na ustaleniu wartości cech
ilościowych czy też odmian cech jakościowych wszystkich jednostek tworzących
zbiorowość statystyczną. Zbiór danych uzyskanych z obserwacji nosi miano materiału
statystycznego, który powinno zostać poddany kontroli od strony formalnej i
merytorycznej.
3. Opracowanie materiału statystycznego. Zebrany materiał statystyczny zostaje
uporządkowany i zaprezentowany w formie tabelarycznej i graficznej.
4. Analiza statystyczna. Oceniamy właściwości zbiorowości statystycznej, wykorzystujące
metody opisu statystycznego i/lub wnioskowania statystycznego.
Przedmiot badań statystycznych
Opis statystyczny może dotyczyć zarówno całej populacji, jak również i jej części, tzn. próby.
Dokonując opisu struktury zbiorowości, badamy, jak są rozprzestrzenione
poszczególne odmiany cechy wśród jednostek tejże zbiorowości.
Jest to więc analiza jednowymiarowa i statyczna.
Możemy zatem zbadać np., jakie występują odmiany wzrostu wśród słuchaczy wykładu
(badamy jedną cechę - wzrost, w danym momencie- w trakcie wykładu), czy też odmiany
stażu pracy wśród pracowników Banku ,,Nasza Kasa" (badamy jedną cechę, np. staż pracy na
dzień 31 grudnia 2019 r.).
W przypadku analizy wielowymiarowej badamy powiązania pomiędzy większą niż dwie liczbą
cech statystycznych. Dla przykładu analizujemy, jak masa ciała nowo urodzonego dziecka
uzależniona jest od masy ciała i wzrostu rodziców, rasy, warunków bytowych matki, poziomu
wykształcenia rodziców itp. (badamy zatem powiązania pomiędzy aż dziewięcioma cechami).
Analiza współzależności może dotyczyć siły i kierunku związków między cechami lub
mechanizmu powiazań tych cech.
Przedmiot badań statystycznych

Opis dynamiki zjawisk obejmuje rozwój zbiorowości w czasie. Zatem w tym przypadku mamy
do czynienia z badaniem dynamicznym. Dla przykładu przedmiotem naszej
analizy mogą być zmiany liczby urodzeń żywych na przestrzeni lat 1990–2019. Cecha
statystyczna w tym badaniu to liczba urodzeń, a ponieważ jej analizy dokonujemy dla 29 lat,
to jest to analiza dynamiczna.

Opis statystyczny może dotyczyć zarówno całej populacji, jak i próby.


Przedmiot badań statystycznych
W przypadku wnioskowania statystycznego mamy do czynienia jedynie z próba (a ściślej z
jednym jej rodzajem - próbą losowa). Wnioskowanie statystyczne polega na uogólnianiu
wyników uzyskanych w próbie na całą zbiorowość statystyczną. Pobieramy np. losową próbę
klientów supermarketu (załóżmy, co pięćdziesiątego robiącego zakupy) i pytamy każdego z
nich - ile pieniędzy ,,zostawił w sklepie"?

Na tej podstawie, dzięki odpowiednim narzędziom, możemy w przybliżeniu ustalić


(oszacować czy- używając terminu angielskiego - wyestymować) np. przeciętne wydatki na
zakupy, a zatem, pośrednio, również spodziewane obroty supermarketu.
Możemy także postawić pytanie, czy przeciętny czas oczekiwania do kasy jest dłuższy niż
5 min. Będziemy zatem w stanie na tej podstawie określić, czy liczba otwartych kas jest
wystarczająca.

Stawiając tego typu i podobne pytania, dokonamy sprawdzenia pewnego założenia


odnoszącego się do całej zbiorowości statystycznej, tym zaś zajmuje się tzw, weryfikacja
hipotez. Może ona dotyczyć struktury zjawisk, ich współzależności, jak również dynamiki.
Błędy w badaniach statystycznych
Błędy nielosowe dotyczą zarówno badania pełnego, jak i niepełnego.
Dzielą się one na błędy pokrycia i treści.
Błędy pokrycia to pominięcie, wielokrotne ujęcie lub błędne włączenie jednostki do
badanej zbiorowości statystycznej. Do tego rodzaju błędów może dojść bardzo łatwo. Na
przykład osoba wprowadzająca dane do komputera wielokrotnie wpisze dane z tej samej
ankiety albo przez nieuwagę odłoży ankietę niewprowadzoną.
Błędy treści (zawartości) obejmują błędy braku odpowiedzi, błędy opracowywania danych i
analizy lub prezentacji wyników. Typowym często pojawiającym się błędem tego rodzaju są
np. tzw. „literówki" w nazwiskach, „czeskie błędy" w danych liczbowych, wpisywanie
nieodpowiedniej liczby zer w liczbach itd, Tego typu błędy noszące nazwę przypadkowych lub
nietendencyjnych, powstałe nieumyślnie, w dużym stopniu znoszą się wzajemnie
toteż ich wpływ na ostateczną jakość danych statystycznych nie jest duża.
Błędy w badaniach statystycznych
Inne błędy zwane systematycznymi (lub tendencyjnymi) powodują podobne zniekształcenia
danych indywidualnych u wielu jednostek, a zatem nie tylko że nie znoszą się wzajemnie, ale
wręcz kumulują się. Takim systematycznym błędem są z reguły obarczone informacje o
dochodach, stanie posiadania, wydatkach na używki (tendencyjnie zaniżane liczby) itd.,
wynikają one zatem przede wszystkim z podawania fałszywych informacji.
Błędy systematyczne mogą także wiązać się ze źle sformułowanymi pytaniami w
kwestionariuszu.

Błędy losowe występują jedynie w przypadku przeprowadzania badan niepełnych,


a konkretnie reprezentacyjnych. Jak powiedziano wcześniej, próba reprezentatywna to taka,
która jest zmniejszoną fotografią całej zbiorowości. Niekiedy, pomimo zastosowania
poprawnego aparatu doboru próby, fotografia ta jest nieco zniekształcona.
Wówczas wnioski płynące z badania niepełnego nie odzwierciedlą prawidłowości
zachodzących w całej populacji.
Pytania i zadania 1/2
1. Podaj przykłady kilku zbiorowości statystycznych, dokonaj ich podziału na
podzbiorowości, wskaż przykładowe jednostki statystyczne.
2. Spośród poniższych cech wskaż cechy mierzalne, niemierzalne, skokowe, ciągłe i ,quasi-
ciągłe: a) masa ciała dziesięciolatka, b) liczba sprzedanych hamburgerów
w McDonaldzie w ciągu dnia, c) liczba wyprodukowanych żarówek w I półroczu 2000 r.,
d) miejsce zamieszkania (miasto powyżej 100 tys. ludności, miasto od 50 do 100 tys.
ludności, miasto poniżej 50 tys. ludności, wieś), e) cena cukru w hurtowniach, f) czas
poświęcony na oglądanie telewizji w ciągu dnia, g) pleć, h) liczba przeczytanych książek w
ciągu roku, i) wydatki na żywność w rodzinach 3-osobowych w ciągu miesiąca, j) liczba
rozwodów w kolejnych kwartałach 2021 r., k) koszty stałe produkcji wody mineralnej w
kolejnych miesiącach 2021 r., I) liczba absolwentów Uniwersytetu Warszawskiego w roku
akademickim 2021/2022 według kierunków.
3. Wymień i krótko scharakteryzuj rodzaje skal pomiarowych. Zbadano pewną grupę 10-
latków ze względu na następujące cechy: płeć, wzrost, waga, kolor oczu, kolor włosów,
skłonność do agresji, oceny na świadectwie z matematyki i języka polskiego. Jakie
skale pomiarowe zastosujesz do analizy powyższych zmiennych?
4. Wymień i krótko scharakteryzuj rodzaje badań statystycznych.
Pytania i zadania 2/2
5. Na liście wyborców w Okręgu Wyborczym nr 127 nie znalazło się nazwisko Ilony
Lubicz zamieszkałej przy ul. Przyrynek 9. Z jakim błędem mamy tu do czynienia?
6. Student wpisujący do indeksu nazwisko wykładowcy statystyki zamiast Pułaska
wpisał Puławska. Z jakim błędem mamy tu do czynienia?
7. Chcemy zbadać, jak wśród sportowców „Legii" są rozprzestrzenione poszczególne
odmiany wzrostu. Z jakim rodzajem analizy mamy tu do czynienia?
8. Interesuje nas, czy istnieje zależność między ilością braków a wielkością produkcji? Z jakim
rodzajem analizy mamy tu do czynienia?
9. Badamy zmiany liczby śmiertelnych wypadków drogowych na przestrzeni lat 2000-2021.
Z jakim rodzajem analizy mamy tu do czynienia?
10. Chcemy ocenić, ile dziennie przeciętnie czasu poświęca Polak na gotowanie.
Z jakim rodzajem analizy mamy tu do czynienia?
11. Chcemy stwierdzić, czy można przypuszczać, że mniej niż 25% uczniów szkół
podstawowych uprawia sport. Z jakim rodzajem analizy mamy tu do czynienia?
Położenie rozkładu
Położenie rozkładu pozwala określić, gdzie w zbiorze wartości liczbowych lokują się wartości
badanej cechy, zazwyczaj opisujemy je jedną liczbą.

Liczby takie, nazywane miarami położenia, do których zaliczamy:


1. Wartość średnia
2. Dominanta
3. Kwantyle
Średnia arytmetyczna
Średnie klasyczne są obliczane na podstawie wszystkich wartości szeregu. Średnie
pozycyjne są wartościami konkretnych wyrazów szeregu (pozycji) wyróżniających się
pod pewnym względem. Obie grupy wzajemnie się uzupełniają, każda opisuje poziom wartości
zmiennej z innego punktu widzenia.

Średnia arytmetyczna

Średnią arytmetyczną nazywamy sumę wartości zmiennej wszystkich jednostek badanej


zbiorowości podzieloną przez liczbę tych jednostek.

_
x1  x 2    x n x i
x   i 1
N N

x - symbol średniej arytmetycznej;


xi – warianty cechy mierzalnej;
N – liczebność badanej zbirowości.

Średnią określoną powyższym wzorem nazywa się średnią arytmetyczną nieważoną.


Średnia arytmetyczna
Jeżeli warianty średniej występują z różną częstotliwością, to oblicza się średnią
arytmetyczną ważoną. Wagami są liczebności odpowiadające poszczególnym wariantom. Z
tego typu sytuacją mamy do czynienia w szeregach rozdzielczych i przedziałowych.

Średnią arytmetyczną z szeregów przedziałowych oblicza się następująco:

_
x n  x2 n2    x n nk x n i i1
x 1 1  i 1

N N

ni (n=1,2,…,k) – liczebność jednostek odpowiadająca poszczególnym wariantom zmiennej;


N – suma tych liczebności
( - suma)
Średnia arytmetyczna
W szeregach rozdzielczych przedziałowych wartości zmiennej w każdej klasie nie
są jednoznacznie określone, ale mieszczą się w pewnym przedziale. Dlatego też w celu
obliczenia średniej arytmetycznej w przypadku tego typu szeregów należy wcześniej
wyznaczyć środki przedziałów. Środki przedziałów otrzymuje się jako średnią arytmetyczną
o
dolnej i górnej granicy każdej klasy. Oznacza się ją symbolem x i .

Wzór na średnią arytmetyczną z szeregu rozdzielczego przedziałowego:


k 0

_
0 0
x1 n1  x 2 n2    x n nk
0
x i ni
x  i 1

N N
Jeżeli w obliczeniach możemy wykorzystać wyłącznie procentowe wskaźniki struktury

(odsetki całości) wi to wzór wygląda następująco:


k 0

_  x i wi
ni
x  i 1
gdzie wi   100
100 N
Średnia arytmetyczna
Jeżeli wartości zmiennej podane są w jednostkach względnych, np. km/godz, kg/osobę,
wagi zaś w jednostkach liczników tych jednostek względnych ( prędkość pojazdu – zmienna:
km/godz.; waga: w km; gęstość zaludnienia – zmienna: w osobach/km2, waga: w osobach;
spożycie artykułu X na 1 osobę – zmienna: w litrach, waga: na osobę), to stosuje się średnią
harmoniczną.

Średnia harmoniczna jest odwrotnością średniej arytmetycznej z odwrotności


wartości zmiennych.

W przypadku szeregów wyliczających oblicza się ją ze wzoru:

N
H  N
1
x
i 1 i

gdzie:
H – symbol średniej harmonicznej.
Średnia arytmetyczna
Dla obliczenia średniej harmonicznej z szeregów rozdzielczych (punktowych lub
przedziałowych) zachodzi konieczność zastosowania wag (uwzględnienia liczebności).
Stosuje się wzór:

N
H  N
1

i 1 x
ni
i

Dla szeregów rozdzielczych przedziałowych średnią harmoniczną obliczamy według


powyższego wzoru, z tym, że konkretne warianty cechy (xi) zastępujemy środkami przedziałów
0
( x i ).
Średnia geometryczna
Jeżeli zachodzi konieczność zbadania średniego tempa zmian zjawiska, stosuje się średnią
geometryczną. (Więcej na ten temat przy analizie dynamiki zjawisk).

n
x g  n x1 x2  xn  n x
i 1
i

gdzie:

x g - symbol średniej geometrycznej;

 - znak iloczynu
Dominanta
Dominantą (modalna, wartość najczęstsza) nazywamy taką wartość zmiennej, która w
danym rozkładzie empirycznym występuje najczęściej. (Wynika z tego, że dominantę można
wyznaczyć tylko w rozkładach jednomodalnych).
W szeregach wyliczających i rozdzielczych punktowych dominanta jest wartością cechy, której
odpowiada największa liczebność.
W szeregach rozdzielczych przedziałowych bezpośrednio można określić tylko przedział, w
którym znajduje się dominanta – jest to przedział o największej liczebności. Konkretną wartość
liczbową należącą do tego przedziału, która jest dominantą wyznacza się w n astępujący
sposób:
n D  n D 1
D  xp  iD
(nD  n D 1 )  ( n D  n D 1 )
gdzie:
D - symbol dominanty;
x D - dolna granica klasy, w której znajduje się dominanta;
n D - liczebność przedziału dominanty;
n D 1 - liczebność przedziału poprzedzającego przedział dominanty;
n D 1 - liczebność przedziału następującego po przedziale dominanty;
i D - interwał, czyli rozpiętość przedziału dominanty.
Dominanta
Dominantą (modalna, wartość najczęstsza) nazywamy taką wartość zmiennej, która w
danym rozkładzie empirycznym występuje najczęściej. (Wynika z tego, że dominantę można
wyznaczyć tylko w rozkładach jednomodalnych).
W szeregach wyliczających i rozdzielczych punktowych dominanta jest wartością cechy, której
odpowiada największa liczebność.
W szeregach rozdzielczych przedziałowych bezpośrednio można określić tylko przedział, w
którym znajduje się dominanta – jest to przedział o największej liczebności. Konkretną wartość
liczbową należącą do tego przedziału, która jest dominantą wyznacza się w następujący
sposób:
n D  n D 1
D  xp  iD
(nD  n D 1 )  ( n D  n D 1 )
gdzie:
D - symbol dominanty;
x D - dolna granica klasy, w której znajduje się dominanta;
n D - liczebność przedziału dominanty;
n D 1 - liczebność przedziału poprzedzającego przedział dominanty;
n D 1 - liczebność przedziału następującego po przedziale dominanty;
i D - interwał, czyli rozpiętość przedziału dominanty.
Kwantyle
Kwantyle, są to najogólniej rzecz ujmując wartości cechy badanej jednostki, które
definiują ją na określone części - pod względem liczby jednostek.

Części te mogą być równe lub pozostawać do siebie w określonych proporcjach.


Szeregi, w których wyznacza się kwartyle musza być uporządkowane według
malejących lub rosnących wartości cechy. Do najczęściej używanych kwantyli
zaliczamy: kwartyle, a w przypadku badania struktury zbiorowości o dużej liczbie
jednostek – decyle i centyle.
Kwantyle
Wśród kwartyli wyróżniamy: kwartyl pierwszy (dolny), drugi (mediana lub wartość
środkowa) oraz trzeci (górny). Każdy z kwartyli dzieli zbiorowość na dwie części pod
względem liczebności.
kwartyl pierwszy – dzieli zbiorowość uporządkowaną na dwie części w ten sposób, że 25%
jednostek na wartości cechy niższe i 75% wyższe od kwartyla pierwszego;
kwartyl drugi – dzieli zbiorowość uporządkowaną na dwie części w ten sposób, że 50%
jednostek na wartości cechy niższe i 50% wyższe od mediany;
kwartyl trzeci – dzieli zbiorowość uporządkowaną na dwie części w ten sposób, że 75%
jednostek na wartości cechy niższe i 25% wyższe od kwartyla trzeciego.
Kwantyle
W przypadku szeregów wyliczających składających się z reguły z niewielkiej liczby jednostek
medianę oblicza się najczęściej ze wzoru:
xn1
Me  , gdy N jest nieparzyste
2
1
M e  ( x N  x N ), gdy N jest parzyste
2 2 2
1

Obliczanie mediany z szeregu rozdzielczego punktowego sprowadza się do wskazania


jednostki środkowej i odczytania wariantu cechy odpowiadającego tej jednostce. Odnalezienie
środkowej jednostki ułatwia skumulowanie liczebności. Kumulacja polega na kolejnym
narastającym sumowaniu liczebności dotyczących poszczególnych wariantów cechy.
Kwantyle
W przypadku szeregów rozdzielczych przedziałowych kwartyle wyznacza się metodą
graficzną lub rachunkową. W metodzie rachunkowej stosuje się następujące wzory:
Kwartyl pierwszy:
N k 1
  ni
4
Q1  xq1  i 1
 iQ1 ;
nQ1

Kwartyl drugi:
N k 1
  ni
2
Q2  M e  x Me  i 1
 iMe ;
nMe
Kwartyl trzeci:
3N k 1
  ni
4
Q3  xQ 3  i 1
 iQ 3
nQ 3
Kwantyle
Kwartyle są dogodnymi parametrami w analizie struktury. Mogą być wykorzystane w
przypadkach, w których nie jest możliwe obliczenie z danego szeregu średniej arytmetycznej
(otwarte przedziały klasowe, ekstremalne wartości), a także dominanty (nierówne rozpiętości
przedziałów, silna asymetria rozkładu.
Decyle i centyle (percentyle) wyznacza się podobnie jak kwartyle. Decyle dzielą zbiorowość
na 10 części – 5 decyl to mediana. Centyle zaś na 100 części – 50 centyl jest medianą.
MIARY DYNAMIKI
MIARY DYNAMIKI
MIARY DYNAMIKI
MIARY DYNAMIKI
MIARY DYNAMIKI
MIARY DYNAMIKI
Przeliczanie Indeksów
Przeliczanie Indeksów
Przeliczanie Indeksów
Przeliczanie Indeksów
OPIS WSPÓŁZALEŻNOŚCI ZJAWISK
Analiza struktury zbiorowości, odnosiła się do jednej cechy statystycznej (zmiennej).
Na co dzień często wypowiadamy się jednak na temat znanych lub przypuszczalnych powiązań
między różnymi zmiennymi.
Na przykład:
• wiemy, iż istnieje związek między temperaturą a porą roku,
• wiekiem a masą ciała, wzrostem i innymi charakterystykami fizycznymi jednostki czy
dochodem, poziomem wykształcenia,
• stażem pracy i płcią,
• bezrobociem a stanem gospodarki itp.
OPIS WSPÓŁZALEŻNOŚCI ZJAWISK
Gdy analiza taka dotyczy wzajemnych związków między tylko dwiema cechami, mamy do
czynienia z analizą dwuwymiarową (gdyż rozpatrujemy powiązania między dwiema
zmiennymi). A zatem taką analizą będzie zbadanie wzajemnych relacji między temperaturą
(pierwsza zmienna)a porą roku (druga zmienna), czy bezrobociem (pierwsza zmienna) a
stanem gospodarki(druga zmienna) itd.
W przypadku badania powiązań między większą liczbą cech analiza ma charakter
wielowymiarowy (gdyż analizujemy powiązania między większą niż dwie liczbą zmiennych).
Wielowymiarowa będzie zatem np. analiza wzajemnych powiązań między wiekiem (pierwsza
zmienna), masą ciała (druga zmienna), wzrostem (trzecia zmienna)i innymi charakterystykami
fizycznymi (kolejne zmienne np. obwód głowy, długość nóg,obwód w talii itd.).
Także wielowymiarowy charakter będzie miało ustalenie wzajemnych relacji między
dochodem (pierwsza zmienna), poziomem wykształcenia (druga zmienna) stażem pracy
(trzecia zmienna) i płcią (czwarta zmienna) itd.
OPIS WSPÓŁZALEŻNOŚCI ZJAWISK
ANALIZA DWUWYMIAROWA
Umownie cechy (zmienne) poddane ustaleniu wzajemnych między nimi relacji oznaczymy X
oraz Y.
Między dwiema cechami można wyróżnić istnienie trzech rodzajów związków lub, używając
innego sformułowania, rodzajów współzależności:
• Współzależność funkcyjna,
• Współzależność stochastyczna,
• Współzależność korelacyjna,
OPIS WSPÓŁZALEŻNOŚCI ZJAWISK
ANALIZA JAKOŚCIOWA
W analizie współzależności można wyróżnić podejście jakościowe i ilościowe do relacji, jakie
zachodzą między badanymi zmiennymi.
Analiza jakościowa ma na celu określenie związków przyczynowo-skutkowych między
zmiennymi.
Wyróżniamy związki dwustronne, w przypadku których występuje wzajemne oddziaływanie
badanych zjawisk; innymi słowy, trudno określić, co jest skutkiem, a co przyczyną.
Na przykład relacja między kwotami wydatkowanymi na reklamę (nazwijmy ją X) a przy-
chodami przedsiębiorstwa (nazwijmy je Y) czy związek między czasem budowy (X) a kubaturą
budynku (Y). Oczywiście, im więcej wydatkujemy na reklamę, tym większego przychodu ze
sprzedaży możemy się spodziewać, ale jednocześnie większy przychód determinuje
zwiększenie funduszu reklamowego.

You might also like