You are on page 1of 248

Wykład 2.

Rozkłady empiryczne
Badanie własności rozkładów W ramach wykładu
definiuje się pojęcie
Plan wykładu rozkładu empirycznego,
częstości oraz
1. Pojęcie rozkładu empirycznego dystrybuanty empirycznej.
Następnie przechodzi się
2. Częstość i dystrybuanta empiryczna do omówienia
podstawowych
3. Rodzaje rozkładów empirycznych charakterystyk rozkładów,
najpierw w zakresie tzw.
4. Podstawowe charakterystyki rozkładów tendencji centralnej.
empirycznych
Opis statystyczny (rozważamy cechę X):
Poszczególne warianty cechy X: x1, x2, ..., xN

xi : x1  x2  ...  x N
 xi : x1  x2  ...  xk

 ni : n1 n2 ... nk
w : w
 i 1 w2 ... wk

gdzie wi = ni/N (częstość)


Takie ustalenia niosą w sobie
informacje na temat rozkładu
empirycznego cechy.
Określenie 1.
Rozkładem empirycznym cechy (X) nazywamy
przyporządkowanie kolejnym wartościom tej cechy
(xi) odpowiadających im liczebności (ni) lub
częstości (wi).
Określenie 2.
Dystrybuantą empiryczną cechy (X) nazywamy
przyporządkowanie kolejnym wartościom tej cechy
odpowiadających im liczebności (częstości)
skumulowanych.
Określenie 3.
Krzywa liczebności jest to linia łącząca punkty
o współrzędnych: (xi, ni)
Jeśli warianty cechy są wyrażane
w przedziałach, to zamiast xi
mamy środek przedziału.
Rodzaje rozkładów empirycznych:
• symetryczne i asymetryczne
• jednomodalne, bimodalne, wielomodalne
• spłaszczone i wysmukłe
Rozkłady symetryczne i asymetryczne

Rys. 1. Graficzna ilustracja zjawiska asymetrii.


Koncentracja wokół średniej - kurtoza

Rys. 2. Graficzna ilustracja zjawiska koncentracji (kurtozy).


Dokonuje się jej w oparciu o rozkłady empiryczne.

Analiza struktury zjawisk masowych


Ogólna charakterystyka struktury zjawisk masowych
Wskaźniki struktury i natężenia, miary tendencji
centralnej w zakresie kształtowania się wartości
zjawiska, miary zróżnicowania wartości, miary
asymetrii rozkładu, miary koncentracji.
Wskaźniki struktury i natężenia
Istota – powstają w drodze dzielenia przez siebie dwóch
liczb absolutnych.

Liczby absolutne – wielkości otrzymywane w wyniku


mierzenia lub sumowania jednostek zbiorowości lub też
w wyniku sumowania natężenia wariantów cechy
ilościowej u poszczególnych jednostek zbiorowości.
Wielkości
mianowane
Wskaźnik struktury – stosunek części zbiorowości
do całej zbiorowości lub stosunek części do części.

tzw. udział względny tzw. stosunek względny


Wskaźnik natężenia – stosunek liczebności (wielkości)
dwóch zbiorowości pozostających w logicznej
zależności.

Przykłady:
o Liczba lekarzy na 1000 mieszkańców według
województw (podregionów, powiatów itp.)
o Liczba zakładów produkcyjnych na 1000
mieszkańców według województw (podregionów,
powiatów itp.)
Kolejne zagadnienia z zakresu analizy struktury zjawisk
masowych
Tendencja centralna w zakresie kształtowania się
wartości zjawiska – tzw. poziom przeciętny
Zróżnicowanie wartości – tzw. dyspersja (zmienność,
rozproszenie, rozrzut)
Asymetria rozkładu W ramach wykładu 2
omawia się tendencję
Koncentracja rozkładu centralną rozkładu.
Pozostałe zagadnienia są
omawiane na kolejnych
wykładach.
Ad. tendencji centralnej – miary średnie

Zaznaczono pozycyjne miary Zaznaczono klasyczną miarę


tendencji centralnej. tendencji centralnej.
Badanie tendencji centralnej
1. Istota tendencji centralnej
W rozkładzie obserwuje się
2. Miary klasyczne wzrost liczebności w miarę
zmniejszania się różnicy
3. Miary pozycyjne między daną wartością a
wartością średnią (przeciętną,
4. Uwagi podsumowujące środkową)
Średnia arytmetyczna – wartość przeciętna
Obliczanie
▪ Na podstawie danych szczegółowych:
N
 xi
x = i =1
N

gdzie: xi – określona wartość zmiennej X


N – liczba jednostek w badanej zbiorowości
Przykład 1.
W zakładzie Z zatrudnionych jest 34 pracowników. Liczba
osób pozostających na ich utrzymaniu kształtuje się
następująco: 3, 5, 0, 3, 6, 1, 2, 4, 5, 0, 7, 0, 2, 3, 4, 8, 0, 1, 4, 5,
6, 1, 2, 1, 4, 2, 3, 4, 4, 6, 5, 7, 4, 3.
Pytanie: Ile wynosi średnia liczba osób na utrzymaniu
pracownika przedsiębiorstwa Z? Rozwiązanie
34
 xi
115
Ponieważ x = i =1 = = 3,38  4
34 34
Odpowiedź: Średnia liczba osób na utrzymaniu pracownika
przedsiębiorstwa Z wynosi 4 osoby.
▪ Na podstawie szeregów rozdzielczych

k k
 xi ni  xi ni
x = i =1 x = i =1
N N

k
przy czym  ni = N
i =1

Wniosek: średnia arytmetyczna jest wyznaczana na


podstawie wartości wszystkich jednostek zbiorowości.
Przykład 2.
Punkty sprzedaży tworzące sieć handlową pewnej branży
zbadano pod względem liczby zgłoszonych reklamacji w
ostatnim miesiącu. Otrzymane informacje przedstawia tablica
poniżej. Polecenie: Należy ocenić średnią liczbę składanych
reklamacji.
Liczba zgłoszonych Liczba punktów
reklamacji (xi) sprzedaży (ni)
0 4
10 8
20 6
30 2
40 1
Ogółem 21
Przykład 2.
Punkty sprzedaży tworzące sieć handlową pewnej branży
zbadano pod względem liczby zgłoszonych reklamacji w
ostatnim miesiącu. Otrzymane informacje przedstawia tablica
poniżej. Polecenie: Należy ocenić średnią liczbę składanych
reklamacji.
Liczba zgłoszonych Liczba punktów
reklamacji (xi) sprzedaży (ni) x i ni
0 4 0
10 8 80
20 6 120
30 2 60
40 1 40
Ogółem 21 300

Rozwiązując to zadanie należy rozpocząć od


wyznaczenia tej kolumny.
Przykład 2.
Punkty sprzedaży tworzące sieć handlową pewnej branży
zbadano pod względem liczby zgłoszonych reklamacji w
ostatnim miesiącu. Otrzymane informacje przedstawia tablica
poniżej. Polecenie: Należy ocenić średnią liczbę składanych
reklamacji.
Liczba zgłoszonych Liczba punktów
reklamacji (xi) sprzedaży (ni) x i ni
0 4 0
10 8 80
20 6 120
30 2 60
40 1 40
Ogółem 21 300
k
 xi ni
i =1 300 Odp.: W ostatnim miesiącu w
x= = = 14,29 rozważanych punktach sprzedaży
N 21 średnio składano około 14 reklamacji.
Własności średniej arytmetycznej
1) Jako miara klasyczna jest wypadkową wszystkich
wartości zmiennej i spełnia nierówność
xmin  x  xmax
2) Suma odchyleń poszczególnych wartości zmiennej
od średniej arytmetycznej jest równa zeru, tj.:
N
 ( xi − x ) = 0 , dla szeregu szczegółowego,
i =1
k
 ( xi − x )ni = 0 , dla szeregu rozdzielczego.
i =1
3) Jeżeli wszystkie wartości zmiennej powiększymy
(pomniejszymy, podzielimy lub pomnożymy)
o pewną stałą, to średnia arytmetyczna będzie
równa sumie (różnicy, ilorazowi, iloczynowi)
średniej arytmetycznej wyjściowych wartości
i tej stałej.
4) Jeżeli liczebności poszczególnych wariantów
cechy są jednakowe, to średnią arytmetyczną
można obliczyć jako iloraz sumy wartości
wariantów i ich liczby.
5) Suma wartości zmiennej jest równa iloczynowi
średniej arytmetycznej i liczebności zbiorowości, tj.:

N
 xi =Nx
i =1

6) Na poziom średniej arytmetycznej silny wpływ


wywierają wartości skrajne
Wskazówki praktyczne – wnioski z wcześniejszych rozważań
✓ Jeżeli zbiorowość podzielono na grupy równoliczne i z każdej z nich
policzono średnią arytmetyczną, to średnią ogółem (dla całej
zbiorowości) można policzyć według wzoru:
G
 xg
g =1
x=
G
✓ Jeżeli zbiorowość podzielono na grupy różnoliczne i z każdej z nich
policzono średnią arytmetyczną, to średnią ogółem (dla całej
zbiorowości) można policzyć według wzoru:
G
 x g ng
g =1
x= G
 ng
g =1
Średnie pozycyjne:
Są wyznaczane na podstawie pozycji w szeregu
statystycznym niektórych jednostek lub grup
jednostek.
 Dominanta
 Kwantyle, w szczególności kwartyle

Dzielą uporządkowaną
zbiorowość na określoną
liczbę części według
liczby jednostek
Dominanta – wartość najliczniej reprezentowana
w zbiorowości statystycznej
Patrz przykład 3.
Obliczanie
▪ Na podstawie danych szczegółowych lub szeregu
rozdzielczego punktowego

Patrz przykład 4. D = xi (max ni )


Przykład 3.
W zakładzie Z zatrudnionych jest 34 pracowników.
Liczba osób pozostających na ich utrzymaniu kształtuje
się następująco: 3, 5, 0, 3, 6, 1, 2, 4, 5, 0, 7, 0, 2, 3, 4, 8, 0, 1,
4, 5, 6, 1, 2, 1, 4, 2, 3, 4, 4, 6, 5, 7, 4, 3.
Polecenie: Należy określić, ile osób ma na utrzymaniu
największa liczba pracowników przedsiębiorstwa Z.
Przykład 3.
W zakładzie Z zatrudnionych jest 34 pracowników.
Liczba osób pozostających na ich utrzymaniu kształtuje
się następująco: 3, 5, 0, 3, 6, 1, 2, 4, 5, 0, 7, 0, 2, 3, 4, 8, 0, 1,
4, 5, 6, 1, 2, 1, 4, 2, 3, 4, 4, 6, 5, 7, 4, 3.
Polecenie: Należy określić, ile osób ma na utrzymaniu
największa liczba pracowników przedsiębiorstwa Z.
Po uporządkowaniu informacji według niemalejących
wartości rozważanej cechy xiup:
0, 0, 0, 0, 1, 1, 1, 1, 2, 2, 2, 2, 3, 3, 3, 3, 3, 4, 4, 4, 4, 4, 4, 4, 5,
5, 5, 5, 6, 6, 6, 7, 7, 8.
Zlicza się poszczególne warianty i wybiera najliczniejszy.

Wniosek: Najwięcej pracowników utrzymuje 4 osoby.


Przykład 4.
Punkty sprzedaży tworzące sieć handlową pewnej branży zbadano
pod względem liczby zgłoszonych reklamacji w ostatnim miesiącu.
Otrzymane informacje przedstawia tablica poniżej. Polecenie:
Należy określić liczbę składanych reklamacji w największej liczbie
punktów sprzedaży.
Liczba zgłoszonych Liczba punktów
reklamacji (xi) sprzedaży (ni)
0 4
10 8
20 6
30 2
40 1
Ogółem 21
Przykład 4.
Punkty sprzedaży tworzące sieć handlową pewnej branży zbadano
pod względem liczby zgłoszonych reklamacji w ostatnim miesiącu.
Otrzymane informacje przedstawia tablica poniżej. Polecenie:
Należy określić liczbę składanych reklamacji w największej liczbie
punktów sprzedaży.
Liczba zgłoszonych Liczba punktów
reklamacji (xi) sprzedaży (ni)
0 4
10 8
20 6 Maksymalne ni, zatem
30 2 D=10
40 1
Ogółem 21
Dominantę można łatwo wyznaczyć w sposób graficzny .
Odp.: D = 10
Pytanie: Jak wyznaczyć dominantę z szeregu rozdzielczego przedziałowego?

Przykład 5.
Punkty sprzedaży (te same co wcześniej) przeanalizowano
pod względem obrotów osiągniętych w minionym roku.
Zebrane dane przedstawia poniższa tablica
Obroty (mln zł) Liczba punktów
sprzedaży
0,8 – 2,0 8
2,0 – 3,2 10
3,2 – 4,4 2
4,4 – 5,6 1
Ogółem 21
Przykład 5.
Punkty sprzedaży (te same co wcześniej) przeanalizowano
pod względem obrotów osiągniętych w minionym roku.
Zebrane dane przedstawia poniższa tablica
Obroty (mln zł) Liczba punktów
sprzedaży
0,8 – 2,0 8
2,0 – 3,2 10
3,2 – 4,4 2
4,4 – 5,6 1
Ogółem 21

Wskaże jedynie
przedział, w którym
znajduje się dominanta
Przykład 5.
Punkty sprzedaży (te same co wcześniej) przeanalizowano
pod względem obrotów osiągniętych w minionym roku.
Zebrane dane przedstawia poniższa tablica
Obroty (mln zł) Liczba punktów
sprzedaży
0,8 – 2,0 8
2,0 – 3,2 10
3,2 – 4,4 2
4,4 – 5,6 1
Ogółem 21

Dominanty należy
poszukać w tym
przedziale.
Przykład 5.
Punkty sprzedaży (te same co wcześniej) przeanalizowano
pod względem obrotów osiągniętych w minionym roku.
Zebrane dane przedstawia poniższa tablica
Obroty (mln zł) Liczba punktów Środki przedziałów
sprzedaży
0,8 – 2,0 8 1,4
2,0 – 3,2 10 2,6
3,2 – 4,4 2 3,8
4,4 – 5,6 1 5,0
Ogółem 21

Za dominantę można przyjąć środek


przedziału, ale dokładniej będzie
skorzystać z rachunku interpolacyjnego
– patrz dalej.
▪ Na podstawie szeregu rozdzielczego przedziałowego
nD − n−1
D = xD + hD
(nD − n−1 ) + (nD − n+1 )

gdzie: xD – dolna granica przedziału dominanty


nD – liczebność przedziału dominanty
n-1 – liczebność przedziału poprzedzającego
przedział dominanty
n+1 – liczebność przedziału następującego po
przedziale dominanty
hD – rozpiętość przedziału dominanty
Wskazanie na
dominantę
Warunki obliczania/stosowania:
✓ Istnienie wyraźnego maksimum w rozkładzie
empirycznym (rozkład musi być jednomodalny).
✓ Jednakowa rozpiętość przedziału dominanty i
przedziałów bezpośrednio z nim sąsiadujących.
Uwaga,
Gdy szereg rozdzielczy jest przedziałowy, to na
podstawie szeregu liczebności można jedynie wskazać
przedział mieszczący wartość dominanty, natomiast
obliczenie tej wartości wymaga zastosowania
rachunku interpolacyjnego.
Kwartyle (Q1, Q2, Q3) – takie wartości zmiennej
w rozkładzie empirycznym, które dzielą zbiorowość na
cztery części.

Pozycję kwartyla w szeregu można wyznaczyć według


wzoru:

N (+ 1)
PozQr = r , r = 1, 2, 3.
4
Kwartyl pierwszy – wartość zmiennej w rozkładzie
empirycznym, poniżej której znajduje się 25% jednostek
badanej zbiorowości.
Kwartyl drugi – wartość zmiennej w rozkładzie
empirycznym, poniżej której znajduje się 50% jednostek
badanej zbiorowości.
Kwartyl trzeci – wartość zmiennej w rozkładzie
empirycznym, poniżej której znajduje się 75% jednostek
badanej zbiorowości.
Przykład 5.
Liczba osób pozostających na utrzymaniu pracowników
przedsiębiorstwa Z kształtuje się następująco: 3, 5, 0, 3, 6,
1, 2, 4, 5, 0, 7, 0, 2, 3, 4, 8, 0, 1, 4, 5, 6, 1, 2, 1, 4, 2, 3, 4, 4, 6,
5, 7, 4, 3.
Polecenie: Należy określić wartości kwartyli dla badanej
cechy
Należy rozpocząć od uporządkowania informacji według
niemalejących wartości xi, tj.: 0, 0, 0, 0, 1, 1, 1, 1, 2, 2, 2, 2,
3, 3, 3, 3, 3, 4, 4, 4, 4, 4, 4, 4, 5, 5, 5, 5, 6, 6, 6, 7, 7, 8.
Poz. Q1 = (34 + 1)/4 = 8,75
Wniosek: Wartość kwartyla 1. należy obliczyć na podstawie 8.
i 9. wartości szeregu. Odp.: Q1=1+0,75*(2-1)
Uwaga, pozostałe kwartale wyznacza się analogicznie.
Mediana – środkowa wartość cechy, dzieląca
zbiorowość na dwie równe liczebnie części: część
wartości mniejszych lub równych medianie oraz część
wartości większych lub równych medianie
Rozróżniamy dwie sytuacje:
(1) N – nieparzyste, (2) N - parzyste
Przykład: Me = x4
xiup: x1, x2, x3, x4, x5, x6, x7

xiup: x1, x2, x3, x4, x5, x6, x7, x8

Me = (x4 + x5)/2
Odpowiednią formułę obliczeniową można zapisać
następująco:

 x N +1 , gdy N nieparzyst e

 2
Me =   
 x N + x N , gdy N parzyste
1
 2  2 +1 
2 
Przykład 6.
Tabela poniżej przedstawia informacje na temat rozkładu liczby
reklamacji w punktach sprzedaży tworzących sieć handlową
pewnej branży. Polecenie: Należy określić wartości kwartyli
liczby reklamacji.
Liczba zgłoszonych Liczba punktów
reklamacji (xi) sprzedaży (ni) nisk
0 4 4
10 8 12
20 6 18
30 2 20
40 1 21
Ogółem 21

Rozpoczynamy od wyznaczenia
liczebności skumulowanych, czyli
dodajemy kolejne ni.
Przykład 6.
Tabela poniżej przedstawia informacje na temat rozkładu liczby
reklamacji w punktach sprzedaży tworzących sieć handlową
pewnej branży. Polecenie: Należy określić wartości kwartyli
liczby reklamacji.
Liczba zgłoszonych Liczba punktów
reklamacji (xi) sprzedaży (ni) nisk
0 4 4
10 8 12
20 6 18
30 2 20
40 1 21
Ogółem 21
Poz. Q3 = 3(N+1)/4=66/4=16,5
Sprawdzamy, w której liczebności
skumulowanej zmieści się ta
pozycja.
Przykład 6.
Tabela poniżej przedstawia informacje na temat rozkładu liczby
reklamacji w punktach sprzedaży tworzących sieć handlową
pewnej branży. Polecenie: Należy określić wartości kwartyli
liczby reklamacji.
Liczba zgłoszonych Liczba punktów
reklamacji (xi) sprzedaży (ni) nisk
0 4 4
10 8 12
20 6 18
30 2 20
40 1 21
Ogółem 21

Poz. Q3 =
3(N+1)/4=66/4=16,5 Wniosek: Q3 = 20
Ważne spostrzeżenia:
✓ Wyznaczenie kwartyli z szeregu rozdzielczego
wymaga policzenia liczebności skumulowanych.
✓ Gdy szereg rozdzielczy jest przedziałowy, to na
podstawie szeregu liczebności skumulowanych można
jedynie wskazać przedział mieszczący wartość
poszukiwanego kwartyla, natomiast obliczenie tej
wartości wymaga zastosowania rachunku
interpolacyjnego.
Odpowiednie formuły obliczeniowe:
N
− nsk −1
Q1 = xQ1 + 4 hQ1
nQ1

N
− nsk −1
Me = xMe + 2 hMe
nMe

3N
− nsk −1
Q3 = xQ3 + 4 hQ3
nQ3
Uwagi podsumowujące
✓ Mówienie o tendencji centralnej jest uzasadnione w
sytuacjach rozkładów symetrycznych oraz
zbliżonych do symetrycznych
✓ Istnieją różne miary tendencji centralnej, mniej lub
bardziej odporne na własności rozkładu
✓ Stosowanie odpowiednich miar wymaga spełnienia
określonych warunków
✓ Niespełnienie jednych warunków powoduje utratę
wartości poznawczej obliczonych miar, innych zaś
uniemożliwia nawet ich obliczenie.
Wykład 3.
Rozkłady empiryczne c.d.
Badanie przeciętnego zróżnicowania cechy w
zbiorowości

Plan wykładu:
1. Istota zróżnicowania cechy w zbiorowości.
2. Bezwzględne i względne miary zróżnicowania –
ocena przydatności.
3. Uwagi podsumowujące.
Proszę przeanalizować poniższy schemat odszukując w nim elementy z
zakresu badania zróżnicowania cechy w zbiorowości (patrz kolejne slajdy).
Alternatywne określenia

Zróżnicowanie – dyspersja – rozproszenie


Istota – ocena przeciętnej różnicy pomiędzy
wartościami badanej cechy (zmiennej) a wartością
średnią (przeciętną/środkową).
Do analizy zróżnicowania służą:
1)obszar zmienności (tzw. rozstęp)
2)odchylenie ćwiartkowe
3)odchylenie przeciętne
4)wariancja i odchylenie standardowe
5)współczynniki zmienności
Ad. 1) Jest to różnica między największą a najmniejszą
wartością zmiennej. Obszar zmienności wyraża się
wzorem:
Rx = xmax − xmin

Jest on miarą mało dokładną, uzależnioną w dużym


stopniu od wielkości skrajnych. Ograniczenia
stosowania tej miary są następujące:
➢ Rozstępu nie można obliczyć dla szeregów
nieskończonych, a w przypadku przedziałowych
szeregów rozdzielczych, gdy klasy są otwarte.
➢ Za pomocą tej miary nie należy porównywać
rozproszenia badanej cechy w szeregach o istotnie
różnych liczebnościach oraz, gdy badana cecha
mierzona jest w różnych jednostkach miary.
Ad. 2) Odchylenie ćwiartkowe wyraża się wzorem:

Q3 − Q1
Qx =
2

i mierzy przeciętną różnicę między wartością badanej


cechy a wartością środkową. Jest to ½ obszaru
zmienności 50% środkowych jednostek zbiorowości,
mierzy więc rozstęp pokryty przez połowę wszystkich
obserwacji.

Dzięki wyeliminowaniu wpływu na tę miarę zmienności


wartości skrajnych (z I i IV ćwiartki), odchylenie
ćwiartkowe jest bardziej precyzyjną miarą niż obszar
zmienności.
Pewne wstępne informacje na temat poziomu Wartości odstające
przeciętnego oraz zróżnicowania można Wykraczające poza
odczytać z wykresów, jak niżej. granicę 1,5 QR od Q3

Mediana

Pokazuje
rozstęp
między-
kwartylowy
QR

Q1, Q3
Wykresy pudełkowe: a) dla zmiennej wynagrodzenia_2007, b) dla zmiennej bezrobocie_2007
Źródło: opracowanie własne.
Ad. 3) Odchylenie przeciętne oblicza się według wzoru:
N
 | xi − x |
d x = i =1 , dla danych indywidualnych
N
lub według wzorów:

k k
 | xi − x | ni  | xi − x | ni
d x = i =1 d x = i =1 ,
N N

dla szeregów rozdzielczych.


Spostrzeżenie:
Odchylenie przeciętne jest to średnia arytmetyczna
z bezwzględnych wartości odchyleń zmiennej od
średniej arytmetycznej.
Interpretacja:
Odpowiada ono na pytanie, o ile przeciętnie różnią się
wartości badanej cechy od wartości średniej.
Ad. 4) Średnia arytmetyczna kwadratów odchyleń
poszczególnych wartości zmiennej od średniej
arytmetycznej nazywa się wariancją tej zmiennej.

Pierwiastek z wariancji zaś nazywa się odchyleniem


standardowym.
Formuły obliczeniowe
❑ Dla danych indywidualnych
N
(
 ix − x )2

S 2 ( x ) = i =1
N
❑ Dla szeregów rozdzielczych.

k k
 ( xi − x )2 ni  ( xi − x )2 ni
S 2 ( x ) = i =1 oraz S 2 ( x ) = i =1
N N
Zatem odchylenie standardowe, na przykład z szeregu
rozdzielczego przedziałowego obliczymy według wzoru:

k
(
 i
x − x )2
ni
S (x) = i =1
N
Interpretacja:
Podobnie jak odchylenie przeciętne, odchylenie
standardowe określa przeciętną różnicę pomiędzy
wartościami poszczególnych jednostek zbiorowości
a wartością średnią.
Przykład
Punkty sprzedaży (te same co wcześniej, patrz poprzedni
wykład) przeanalizowano pod względem zróżnicowania
obrotów osiągniętych w minionym roku. Dane potrzebne do
analizy przedstawia poniższa tablica
Obroty Liczba Środki
(mln zł) punktów przedziałów x i ni (xi – x)2ni
sprzedaży (xi)
(ni)
0,8 – 2,0 8 1,4 11,2 7,5272
2,0 – 3,2 10 2,6 26,0 0,5290
3,2 – 4,4 2 3,8 7,6 4,0898
4,4 – 5,6 1 5,0 5,0 6,9169
Ogółem 21 49,8 19,0629
k
(
 i
x − x )2
ni
19,0629
x = 2,37; S ( x ) = i =1 = = 0,9528
N 21
Typowy obszar zmienności

x − S ( x ); x + S ( x )

Uwaga, zamiast średniej i odchylenia standardowego można


podstawić odpowiednio: medianę oraz odchylenie ćwiartkowe,
gdy będziemy korzystać z miar pozycyjnych.
Rozważając zagadnienie zróżnicowania cechy w
zbiorowości należy zwrócić uwagę na tzw. równość
wariancyjną, która pozwala na ocenę zróżnicowania w
kontekście podziału zbiorowości na grupy (np.
zbiorowość osób w podziale na kobiety i mężczyzn).
Równość wariancyjna
_____
S 2 (x) = S 2j ( x )+ S 2 (x j ) j = 1, 2
gdzie:

_____  j ( x )n j
S 2

S 2j ( x ) =
j
− wariancja wewnątrzgrupowa,
N Oblicza się wariancje
osobno dla każdej grupy, a
następnie liczy się z nich
(
 j
x − x )2
nj średnią.

S (x j ) =
2 j
− wariancja międzygrupowa
N
Oblicza się wariancję jako uśrednioną
sumę kwadratów odchyleń średnich
dla grup od ogólnej średniej.
Ad. 5) Współczynniki zmienności są względnymi
miarami zróżnicowania. Stosowane są do oceny
zróżnicowania, a także do porównań, gdy badane
zjawisko mierzone jest w różnych jednostkach miary lub
kształtuje się na niejednakowym poziomie przeciętnym.

W zależności od zastosowanej miary bezwzględnej


zróżnicowania stosuje się odpowiednie współczynniki
zmienności, tj.:
dx S (x)
Vx = , Vx = ,
x x

Qx Q3 − Q1
Vx = , Vx =
Me Q3 + Q1
Interpretacja:
Współczynniki zmienności informują o względnym
zróżnicowaniu zbiorowości ze względu na badaną cechę.

Informują zatem jaki jest udział przeciętnego


zróżnicowania w wartości przeciętnej.
Uwagi podsumowujące:
✓ Istnieją różne miary zróżnicowania; różne są także
ich walory poznawcze.
✓ Bezwzględne miary zróżnicowania nie nadają się do
oceny skali zróżnicowania, ani też do porównań
zróżnicowania jednej cechy w dwóch lub kilku
zbiorowościach, bądź też porównań zróżnicowania
dwóch lub kilku cech w jednej zbiorowości.
✓ Do takich ocen lub porównań służą miary względne.
Wykład 4.
Rozkłady empiryczne c.d.
Badanie asymetrii rozkładu cechy (zmiennej)
w zbiorowości
Plan wykładu:
1. Istota asymetrii rozkładu.
2. Bezwzględne i względne miary asymetrii –
ocena przydatności.
3. Uwagi podsumowujące.
4. Koncentracja rozkładu – dwa aspekty.
Rys. 1. Graficzna ilustracja zjawiska asymetrii.
Istota asymetrii
Asymetria rozkładu cechy (zmiennej) oznacza przewagę
pewnej grupy jednostek w badanej zbiorowości.
Jeśli przeważają jednostki, których wartości przewyższają
poziom średni, to mamy do czynienia z asymetrią lewostronną
(ujemną).
W sytuacji odwrotnej, tj. gdy przeważają jednostki, których
wartości są niższe od średniej, to taką asymetrię określa się
mianem prawostronnej (dodatniej).
Ważne spostrzeżenie
Wystąpienie asymetrii rozkładu powoduje określone
konsekwencje.
W szeregu o skośności prawostronnej wartości skrajne
położone są z prawej strony średniej. Powoduje to
przesunięcie średniej arytmetycznej w kierunku prawym
w stosunku do dominanty i mediany ( D  Me  x ).
Odwrotnie jest w przypadku skośności lewostronnej
( x  Me  D ).
W rozkładach symetrycznych D = Me = x .
Wniosek:
W celu wykrycia i określenia charakteru asymetrii można
posłużyć się różnicą pomiędzy wspomnianymi miarami
przeciętnymi.
Miary asymetrii
❑ Miary bezwzględne:

MA = x−D
M A = 3( x − Me )
3(Me − D )
MA =
2
M A = (Q3 − Me ) − (Me − Q1 ) = Q1 + Q3 − 2 Me
Uwaga,
Miary te są nieprzydatne do porównań i oceny skali
zjawiska asymetrii.
❑ Miary względne – tzw. współczynniki skośności:
x−D
Ws =
S (x)

3( x − Me )
Ws =
S (x)
3
(Me − D )
Ws = 2
S (x)
(Q3 − Me ) − (Me − Q1 )
Ws =
2Qx
Miary względne służą do porównań, np. asymetrii rozkładu tej
samej cechy w różnych zbiorowościach, albo asymetrii rozkładów
różnych cech w tej samej zbiorowości.
❖ Wykorzystanie tzw. momentu trzeciego
centralnego do badania asymetrii

Określenie:
Dowolnym r-tym momentem rozkładu nazywamy
średnią arytmetyczną z odchyleń poszczególnych
wartości zmiennej X od dowolnej liczby q
podniesionych do r-tej potęgi.
Ogólnie:
k
 ( xi − q )r ni
M r = i =1 , r = 1, 2, ...
N

Gdy q = 0 , to otrzymuje się momenty zwykłe (mr).


Gdy q = x , to otrzymuje się momenty centralne (r).

Pytanie: Czy do tej pory poznaliśmy już jakieś momenty


zwykłe, bądź centralne?
Do badania asymetrii wykorzystuje się
✓moment trzeci centralny (miara bezwzględna):
k
(
 ix − x )3
ni
3 = i =1
N
✓współczynnik asymetrii (miara względna)
1 k
 ( xi − x )3
ni
N i =1 3
WA = =
S 3 (x) ( 2 )
3

Zastosowanie:
- do oceny stopnia asymetrii danego rozkładu
- do porównań asymetrii dwóch (kilku) rozkładów
Analiza koncentracji – dwa aspekty
zagadnienia

1. Koncentracja zbiorowości wokół średniej –


kurtoza
2. Nierównomierny rozkład zjawiska w
zbiorowości
Ad. 1.
Chodzi tu o badanie stopnia skupiania się wartości
badanej cechy wokół wartości średniej. Według tego
kryterium wyróżnia się rozkłady wysmukłe oraz
spłaszczone.

Podstawą określenia badanego rozkładu jako


wysmukłego lub też spłaszczonego jest porównanie go
z rozkładem normalnym.
Rys. 1. Graficzna ilustracja zjawiska koncentracji (kurtozy).
❑ Czwarty moment centralny – bezwzględna miara
kurtozy
k
(
 ix − x )4
ni
 4 = i =1
N
❑ Współczynnik koncentracji – względna miara
kurtozy
1 k
 ( xi − x )4
ni
N i =1 4
Wk = = 2
S (x)
4
2
Ad. 2.
Nierównomierny rozkład zjawiska w zbiorowości
utożsamia się z koncentracją rozkładu. Równomierny
rozkład oznacza brak koncentracji.

Badanie koncentracji w omawianym sensie polega na


porównaniu rozkładu jednostek zbiorowości (ni) z
rozkładem cząstkowych wartości (xini). Im większy jest
stopień odmienności tych rozkładów, tym silniejsza jest
koncentracja.
Krzywa Lorenza w badaniu koncentracji. Etapy
postępowania:
1. Obliczenie udziałów liczebności cząstkowych w ogólnej
liczbie jednostek zbiorowości:
ni
wi =
N
oraz udziałów wartości cząstkowych w ogólnej sumie
wartości zmiennej X, tj:

xi xi ni
zi = N
lub zi = k
 xi  xi ni
i =1 i =1
2. Obliczenie wielkości skumulowanych: Wi = wisk,
Zi = zisk .

3. Sporządzenie wykresu Lorenza.


W kwadracie o boku jeden wykreśla się krzywą
o współrzędnych (Wi, Zi). Dla Wi = Zi otrzymuje się tzw.
linię równomiernego rozkładu. Jest to przekątna
kwadratu.
Rys. 2. Graficzna ilustracja zjawiska koncentracji
Przekątna kwadratu odpowiada sytuacji całkowitego
braku koncentracji.

Wniosek:
Im bardziej od przekątnej odchyla się wyznaczona
krzywa, tym silniejsza jest koncentracja.
4. Zmierzenie siły koncentracji.
Wykorzystuje się stosunek powierzchni zawartej między
krzywą koncentracji a linią równomiernego rozkładu do
ogólnej powierzchni trójkąta. Otrzymuje się:
a
K=
a+b

b
Metoda prostokątów w wyznaczaniu współczynnika K.
Długość podstawy prostokąta i wynosi wi, wysokość
Z i −1 + Z i
wyznacza wzór: Z i = .
2
Z kolei pole i-tego prostokąta oblicza się wg Pi = Z i wi .
Stąd
k k
b =  Pi =  Z i wi .
i =1 i =1
Zatem
k
 Z i −1 + Z i 
k
0,5 −  Z i wi 0,5 −    wi
= =  2 
K= i 1 = i 1
0,5 0,5
k
= 1 −  (Z i −1 + Z i )wi
i =1

Uwaga,
0K1
Przykład
Rachunek stopnia koncentracji w grupie 4000
nabywców, którzy łącznie zakupili 14200 sztuk
opakowań produktu A, przedstawia tabela 1.
Tabela 1. Rachunek współczynnika koncentracji
Liczba Liczba Sumy Udziały Skumulowane Skumulowane
opakowań nabywców Częstości wartości sum częstości udziały
(Zi-1+Zi)
xi ni wi xini wartości Wi Zi
 wi
zi
1 2700 0,675 2700 0,1901 0,675 0,1901 0,1283
5 700 0,175 3500 0,2465 0,850 0,4366 0,1097
10 400 0,100 4000 0,2817 0,950 0,7183 0,1155
20 200 0,050 4000 0,2817 1,000 1,000 0,0859

 4000 1,000 14200 1,000   0,4394

Źródło: Rószkiewicz M., Metody ilościowe w badaniach marketingowych


Interpretacja przykładowych wyników:
10% nabywców zakupiło 28,17% wszystkich sprzedanych opakowań.
85% wszystkich nabywców wygenerowało 43,66% łącznej sprzedaży,
natomiast 15% nabywców wygenerowało aż 56,34% łącznej sprzedaży.

K = 1 – 0,4394
Wykład 5. Współzależność zjawisk ekonomicznych.
Badanie związku cech
Analiza rozkładów dwuwymiarowych

Cel wykładu: Omówienie metod badania zależności między


zjawiskami ekonomiczno-społecznymi ze szczególnym
wskazaniem na kryteria wyboru odpowiednich metod.

Plan wykładu:
1. Określenie charakteru związków w przypadku zjawisk
ekonomiczno-społecznych.
2. Wyszczególnienie różnych rodzajów związków.
3. Omówienie metod badania związku cech – kryteria
wyboru odpowiedniej metody
1. Charakter związków w przypadku zjawisk ekonomiczno-
społecznych
Przykładowe związki:
o związek między wydajnością pracy a stażem pracy,
o związek między wynagrodzeniami a kwalifikacjami
pracowników,
o związek między wydatkami na żywność
gospodarstwa domowego a liczbą członków rodziny
itp.
Polecenie: Podać inne
przykłady domniemanych
związków między
zjawiskami ekonomiczno-
społecznymi
Pytanie:
Czy związki pomiędzy zjawiskami ekonomiczno-społecznymi
mają charakter związków funkcyjnych, czy tzw. związków
W celu sformułowania odpowiedzi, warto uświadomić
stochastycznych? sobie, że zależność funkcyjna charakteryzuje się tym, że
określonej wartości zmiennej niezależnej odpowiada
jedna i tylko jedna wartość zmiennej zależnej.

Uwaga, różnicę między zależnością funkcyjną a


stochastyczną symbolicznie można wyrazić w następujący
Na Y oprócz X
sposób: wpływa szereg
innych zmiennych,
Zależność funkcyjna a zależność stochastyczna często takich,
których nawet sobie
nie uświadamiamy.

Y = f (X ) Y = f ( X ) +
2. Rodzaje związków

Zależność korelacyjna – szczególny przypadek


zależności stochastycznej.
Charakteryzuje się tym, że określonym wartościom
cechy X odpowiadają różniące się poziomami
warunkowe średnie wartości cechy Y.
Wśród związków stochastycznych, w szczególności
korelacyjnych, wyróżnia się:

• Związki przyczynowo-skutkowe
• Związki symptomatyczne
• Związki pozorne

Polecenie: Proszę odpowiedzieć na pytanie, które z wymienionych


rodzajów związków mają dla nas największą wartość i dlaczego.
Związki przyczynowo-skutkowe charakteryzują:

➢ Obiektywny charakter
➢ Siła sprawcza przyczyny w stosunku do skutku
➢ Asymetryczność
➢ Odstęp czasowy między przyczyną a skutkiem

Zależności przyczynowo-skutkowe mają charakter


zależności jednostronnych (X → Y)
W przypadku związku symptomatycznego zmienne
nie są powiązane przyczynowo, ale istnieją wspólne
przyczyny kształtowania się obu zmiennych. Zależności
mogą mieć tutaj charakter jednokierunkowy (X → Y lub
X  Y) lub dwukierunkowy ( X  Y )
Związki pozorne nie mają podstaw teoretycznych
i praktycznych istnienia jakiejkolwiek więzi
przyczynowo-skutkowej. Są przejawem tzw. formalizmu
statystycznego w badaniu zależności. Wprowadzamy do
komputera dane dotyczące
przypadkowych zmiennych
i liczymy korelację.

Przykład: związek miedzy liczbą bocianów, które


nadleciały na dane terytorium a liczbą dzieci, które
urodziły się tam po upływie odpowiedniego czasu.

Polecenie: Proszę podać inny przykład związku


pozornego/bezsensownego
Ważne rozróżnienia:

✓ Związki liniowe i nieliniowe

✓ Korelacja dodatnia i ujemna


Rys. 1. Ilustracja zależności między zmiennymi X i Y

Pytanie: Jakie informacje zawierają powyższe wykresy?


Odpowiedź: Wykres lewy – im wyższe wartości zmiennej X tym średnio biorąc
wyższe wartości zmiennej Y – korelacja dodatnia (umiarkowana, bo punkty dość
wyraźnie rozproszone wokół linii). Wykres prawy – sytuacja odwrotna – proszę
dokończyć wypowiedź identyfikując sugerowaną tutaj silną korelację ujemną.
3. Metody badania związku cech – kryteria wyboru
odpowiedniej metody
▪ Rodzaj cech statystycznych (charakter zmiennych)
Ilościowe, quasi ilościowe, jakościowe. Obie/jedna
taka a druga inna (???)
▪ Forma prezentacji danych statystycznych
Dane indywidualne czy tablica korelacyjna?
▪ Spełnienie szczególnych założeń metody, np.
liniowość domniemanego związku
Tabela 1. Metody pomiaru związku cech w zależności od
rodzaju cech
Cecha niezależna
Cecha zależna Dane nominalne Dane Dane
porządkowe przedziałowe
lub ilorazowe
Dane Współczynnik V Współczynnik V
nominalne Cramera Cramera
Różne metody
wybieramy Dane Współczynnik V Współczynniki
stosując pierwsze porządkowe Cramera korelacji rang
kryterium Dane Współczynnik  Współczynnik  Współczynnik
przedziałowe korelacji
lub ilorazowe Pearsona
Źródło: Rószkiewicz M., Metody ilościowe ... , s. 134.
Stosując drugie kryterium bierzemy pod uwagę, czy będzie to

Analiza szeregów empirycznych


xi x1 x2 ... xn
yi y1 y2 ... yn
Przywołajmy jeszcze raz wcześniej
omawiane wykresy

Rys. 1. Ilustracja zależności między zmiennymi X i Y

Dysponując danymi szczegółowymi (omawiany przypadek),


graficzną prezentację jak wyżej można wykorzystać do wstępnej
oceny istnienia zależności (korelacji) między zmiennymi.
Rozkłady
Analiza tablicy korelacyjnej brzegowe
y0j – y1j
x0i – x1i y01 – y11 y02 – y12 ... y0l – y1l ni .
x01 – x11 n11 n12 ... n1l n1 .
x02 – x12 n21 n22 ... n2l n2 .
... ... ... ... ... ...
x0k – x1k nk1 nk2 ... nkl nk .
n.j n.1 n.2 ... n.l n

Należy zdefiniować pojęcie rozkładu


warunkowego i brzegowego oraz ocenić
Rozkłady ich przydatność w analizie zależności
warunkowe między zmiennymi.
Określenie 1.
Rozkładem warunkowym zmiennej X nazywamy rozkład,
który tworzą jednostki posiadające kolejne warianty zmiennej
X i jeden ustalony wariant zmiennej Y (X | Y = yj).
Odpowiednio, rozkładem warunkowym zmiennej Y
nazywamy rozkład, który tworzą jednostki posiadające
kolejne warianty zmiennej Y i jeden ustalony wariant
zmiennej X (Y | X = xi).
Określenie 2.
Rozkładem brzegowym zmiennej X nazywamy rozkład, który
tworzą jednostki posiadające kolejne warianty zmiennej X
i odpowiadające im warianty zmiennej Y.
Odpowiednio, rozkładem brzegowym zmiennej Y
nazywamy rozkład, który tworzą jednostki posiadające
kolejne warianty zmiennej Y i odpowiadające im warianty
zmiennej X.
Polecenie: Proszę spróbować
przećwiczyć obliczanie tych parametrów
na podstawie konkretnych danych.

4. Charakterystyki opisowe rozkładów brzegowych i


warunkowych – parametry rozkładów
Charakterystyki rozkładów brzegowych:
▪ średnie
k k
 xi ni  xi ni
x = i =1  i =1
n n
l l
 y j n j  y j n j
j =1 j =1
y= 
n n
▪ wariancje

k k
(
 ix − x ) 2
n (
i  i
x − x )2
ni
S 2 ( x ) = i =1  i =1
n n

 (y j − y )  (y j − y )2 n j
l l
2
n j
j =1 j =1
S 2 ( y) = 
n n
Charakterystyki rozkładów warunkowych:
▪ średnie
k k
 xi nij  xi nij
x j = i =1  i =1
n j n j
l l
 y j nij  y j nij
j =1 j =1
yi = 
ni ni
▪ wariancje
k k
 ( xi − x ) 2
nij  ( xi − x )2 nij
S 2j ( x ) = i =1  i =1
n j n j

( ) ( )
l l
 jy − y nij  j
2

y − y 2
nij
j =1 j =1
Si2 ( y ) = 
ni ni
5. Wykorzystanie tablicy korelacyjnej do wstępnej oceny
związku cech

Warunek stochastycznej niezależności Y od X:


y = y1 = y2 = ... = yk
S 2 ( y ) = S12 ( y ) = S 22 ( y ) = ... = S k2 ( y )
Warunek stochastycznej niezależności X od Y:
x = x1 = x2 = ... = xl
S 2 ( x ) = S12 ( x ) = S 22 ( x ) = ... = Sl2 ( x )
Uwaga,
Niezależność korelacyjna wymaga jedynie równości wartości
średnich.
Wniosek
Jeśli zachodzi:
y  y1  y2  ...  yk
S 2 ( y )  S12 ( y )  S22 ( y )  ...  Sk2 ( y )
oraz
x  x1  x2  ...  xl
S 2 ( x )  S12 ( x )  S22 ( x )  ...  Sl2 ( x )
to zmienne X i Y są stochastycznie zależne.
Podobnie, jeśli
y  y1  y2  ...  yk
oraz
x  x1  x2  ...  xl ,
to zmienne X i Y są zależne korelacyjnie.
6. Wykorzystanie tablicy korelacyjnej do oceny siły związku
cech – statystyka 2

Gdyby badane cechy były niezależne, to liczebności


wewnątrz tablicy powinny przyjmować wartości n̂ij
wyznaczone według wzoru:
Wzór ustalony przy
ni  n j
nˆij = założeniu niezależności
n zmiennych.
Im większa jest rozbieżność między rzeczywistymi
liczebnościami nij a liczebnościami teoretycznymi
obliczonymi według przytoczonego wyżej wzoru, tym
silniejsza jest zależność badanych cech. Miarą
rozbieżności jest statystyka 2, którą oblicza się według
wzoru:
k
2 =  
l (nij − nˆij )2
.
i =1 j =1 nˆij

Z kolei, statystyka 2 jest wykorzystywana do


konstrukcji odpowiednich miar zależności.
Patrz,
część 2.
wykładu
Wykład 5. Cd. Miary korelacji.

Cel wykładu: Omówienie metod badania zależności między


zjawiskami ekonomiczno-społecznymi. Cd.

Pomiar korelacji w przypadku dwóch cech


nominalnych

Po obliczeniu statystyki 2 ocenia się siłę oraz ewentualnie


charakter (dodatnia, ujemna) zależności. W tym zakresie
można wykorzystać podane niżej miary.
Współczynnik zbieżności Czuprowa

2
Txy = Tyx = +
n (k − 1)(l − 1)

Warunki stosowania:
➢Zależność między zmiennymi ma charakter liniowy
➢Dane są ujmowane w tablicy korelacyjnej
➢Zmienne mogą nie być mierzalne sensu stricto
Własności:
• Mierzy siłę zależności
• Przyjmuje wartości z przedziału [0, 1]
• Jest symetryczny
Współczynnik Cramera

2
V =+
n min( k − 1, l − 1)

Własności:
• Przyjmuje wartości z przedziału [0, 1]
• Może być obliczany na podstawie dowolnej tablicy
korelacyjnej (w odróżnieniu od kolejnego – patrz niżej)
Współczynnik Yule’a

2
=
n

Własności:
• Przyjmuje wartości z przedziału [-1, 1]
• Stosowany jest dla tablicy czterodzielnej
Można ustalić następujący schemat tablicy czterodzielnej:
X Y ni .
1 2
1 a b a+b
2 c d c+d
n. j a+c b+d n
Współczynnik  można teraz wyrazić wzorem:

ad − bc
=
(a + b )(a + c )(b + d )(c + d )
Uwaga,
Znak oraz krańcowe wartości współczynnika  zależą od
uszeregowania liczebności w poszczególnych polach tablicy
korelacyjnej.
Wartość „0” omawianego współczynnika oznacza, że cechy
są niezależne, – „1” lub „-1”, że istnieje między nimi
zależność funkcyjna. Jednak nie należy na podstawie znaku
współczynnika wyciągać wniosku o kierunku zależności.

Wnioski:
✓W tym wypadku interpretuje się jedynie wartość
bezwzględną współczynnika.
✓wartość  wyliczoną według wzoru powyżej skorygować
(patrz dalej) .
Współczynniki Cole’a

ad − bc
kor = , gdy   0
n min (b, c ) + (ad − bc )
ad − bc
kor = , gdy   0
n min (a, d ) − (ad − bc )
Współczynnik kontyngencji Pearsona

2 2
C=+ 2 =+
 +n 1+  2

Własności:
• Przyjmuje wartości z przedziału [0, 1]
• Wartość „0” osiąga w przypadku niezależności cech
• Górna wartość uzależniona jest od liczby wierszy i kolumn
w tablicy korelacyjnej (im więcej jest wierszy i kolumn,
tym wartość C jest większa)
Wniosek: Wartość współczynnika C należy rozpatrywać
relatywnie do wartości maksymalnej.
Zatem
l −1
Cmax = ,
l
gdzie l – liczba kolumn w tablicy kwadratowej

lub
k −1 l −1
+
Cmax = k l .
2

gdzie k, l – odpowiednio: liczba wierszy, liczba kolumn w


tablicy korelacyjnej.

Ostatecznie
C
Ckor =
Cmax
❖Przykład
Badanie związku między dwiema cechami nominalnymi

Badano związek między piastowaniem kierowniczego stanowiska w


pracy a płcią w grupie 400 osób. Poniższa tabela zawiera zestawienie
otrzymanych wyników.

Płeć Kierownicze stanowisko Ogółem


Nie Tak
Kobieta 250 15 265
Mężczyzna 85 50 135
Ogółem 335 65 400

Należy ocenić, czy istnieje związek między badanymi zmiennymi w


badanej zbiorowości osób?

Uwaga, przykład ten, jak również przykłady prezentowane dalej należy


potraktować jako zadania do rozwiązania (patrz materiały do ćwiczeń).
2 =  
k l (nij − nˆij )2
i =1 j =1 nˆij
ni  n j
nˆij =
n
2
Zad 1.
NIE TAK ni. nij^ (nij-nij^)^2/nij^
Kobieta 250 15 265 221,9 43,06 265 3,548 18,29 21,84
Mężczyzna 85 50 135 113,1 21,94 135 6,965 35,9 42,86
n.j 335 65 400 335 65 400 10,51 54,19 64,7

Wniosek:
Istnieje związek między badanymi zmiennymi

Siła stwierdzonego związku:


Txy 0,402

2
Txy = T yx = +
n (k − 1)(l − 1)
Pomiaru korelacji można dokonać też bez wcześniejszego
obliczenia statystyki 2 i weryfikacji hipotezy o niezależności
stochastycznej (test 2 pozwala na ocenę statystycznej
istotności badanego związku). Postępuje się tak zazwyczaj dla
cech mierzonych na wyższych niż nominalna skalach
pomiaru. Wtedy najpierw określamy siłę korelacji, a dopiero
potem jej statystyczną istotność.
Pomiar korelacji w przypadku cech porządkowych
(współczynniki korelacji rang)

Mierzy się siłę korelacji bez potrzeby wcześniejszego


obliczenia statystyki 2. Miary korelacji są następujące:

Współczynnik Spearmana
n
 di2
rd = 1 − 6 i =1
(
n n −1
2
)
gdzie: di = yi - xi – różnica rang nadanych poszczególnym
cechom, n – liczba obserwacji.
Własności:
• Stosowany w przypadku uporządkowań tzw. mocnych
• Przyjmuje wartości z przedziału [-1, 1]
• Znak współczynnika informuje o zgodności (zbieżności)
lub niezgodności (rozbieżności) nadanych rang (ocen)
• Wartość bezwzględna określa siłę współwystępowania
(zgodności) nadanych rang lub też siłę rozbieżności
(niezgodności) nadanych rang.
❖ Przykład
Badanie związku między dwiema cechami porządkowymi
Tabela poniżej przedstawia oceny wystawione przez dział marketingu
dotyczące lojalności odbiorców oraz wizerunku marek konkurujących na pięciu
rynkach, na których firma prowadzi działalność.
Ocena lojalności Ocena wizerunku
Rynek w skali od 1 do 5 marek
konkurencyjnych
w skali od 1 do 5
A 1 4
B 5 1
C 3 3
D 2 5
E 4 2
Należy ocenić, czy oceny działu marketingu dotyczące lojalności odbiorców
oraz wizerunku marek konkurencyjnych na poszczególnych rynkach wykazują
rozbieżność? Inaczej mówiąc pytamy, czy opinia o spadku stopnia lojalności
odbiorców wiąże się z poprawą wizerunku marek konkurencyjnych?
Współczynnik Kendalla

2R
b = −1
n(n − 1) n(n − 1)
− Tx − Ty
2 2
gdzie:
t xi , t yi – liczba rang powiązanych w każdej i-tej podgrupie
1w
(
Tx =  t xi t xi − 1 ;
2 i =1
) rang w uszeregowaniu odpowiednio według cechy X i Y;
w – liczba podgrup z rangami powiązanymi w zbudowanym
uporządkowaniu;
1w
(
Ty =  t yi t yi − 1 ;
2 i =1
) R – liczba par tych rang, które po uporządkowaniu według
pierwszej cechy, czyli gdy, dla j > i zachodzi xj  xi,
zachowują relację: dla j > i zachodzi yj  yi dla cechy drugiej,
kolejno dla każdego j = 1, 2, ..., n;
n – liczba jednostek objętych badaniem.

Patrz, Rószkiewicz M., Metody ilościowe w badaniach


marketingowych, 2002, PWN, Warszawa, s. 140.
Tutaj rangi mogą
się powtarzać, tzw.
rangi wiązane.
Własności:
• Stosowany w przypadku uporządkowań tzw. słabych
• Przyjmuje wartości z przedziału [-1, 1]
• Znak współczynnika informuje o zgodności (zbieżności)
lub niezgodności (rozbieżności) nadanych rang (ocen)
• Wartość bezwzględna określa siłę współwystępowania
(zgodności) lub też rozbieżności (niezgodności) nadanych
rang.
Dla uporządkowań mocnych współczynnik korelacji rang
Kendalla przyjmuje postać:

2R
a = − 1.
n(n − 1)
2
Przykład badania związku między dwiema cechami porządkowymi –
uporządkowania słabe (rangi wiązane).

Tabela poniżej przedstawia oceny wystawione przez dział marketingu


dotyczące lojalności odbiorców oraz wizerunku marek konkurujących
na pięciu rynkach, na których firma prowadzi działalność.

Ocena lojalności Ocena wizerunku


Rynek w skali od 1 do 5 marek
konkurencyjnych
w skali od 1 do 5
A 1,5 5
B 4,5 2
C 1,5 4
D 3 2
E 4,5 2
Należy ocenić, czy oceny działu marketingu dotyczące lojalności
odbiorców oraz wizerunku marek konkurencyjnych na poszczególnych
rynkach wykazują rozbieżność? Inaczej mówiąc pytamy, czy opinia o
spadku stopnia lojalności odbiorców wiąże się z poprawą wizerunku
marek konkurencyjnych?
t xi , t yi – liczba rang powiązanych w każdej i-tej podgrupie
rang w uszeregowaniu odpowiednio według cechy X i Y;
w – liczba podgrup z rangami powiązanymi w zbudowanym
uporządkowaniu;
R – liczba par tych rang, które po uporządkowaniu według
pierwszej cechy, czyli gdy, dla j > i zachodzi xj  xi,
zachowują relację: dla j > i zachodzi yj > yi dla cechy drugiej,
kolejno dla każdego j = 1, 2, ..., n;
n – liczba jednostek objętych badaniem.

w dla X – 2, w dla Y – 1;
t xi , t yi – 2, 2; 3

Tx = ½[2(2-1)+(2(2-1)] = 2

Ty = ½[3(3-1)] = 3

R=0+0+0+0=0

n=5
Inny przykład związku między cechami porządkowymi:
Niech przedmiotem badania będzie poziom rozwoju społecznego i
gospodarczego województw w Polsce.
Badana zbiorowość to: 16 województw, cechy zmienne to: Y –
rozwój społeczny, X – rozwój gospodarczy.
Uwaga, przyjmuje się tutaj, że zmienne X i Y mają charakter porządkowy.
Oznacza to, że województwa zostaną uporządkowane z jednej strony ze
względu na poziom rozwoju społecznego, z drugiej zaś ze względu na
poziom rozwoju gospodarczego.

W tym kontekście można zapytać: Czy rozwój społeczny


województw w Polsce związany jest z rozwojem gospodarczym?
Pomiar korelacji w przypadku cech mierzalnych sensu
stricto

Współczynnik korelacji liniowej Pearsona

Warunki stosowania:
➢Badana zależność jest liniowa
➢Obie cechy są mierzalne

Formuła obliczeniowa zależy od układu danych.


 Dla danych indywidualnych

n
 ( xi − x )( yi − y )
rxy = i =1
n n
 ( xi − x )  ( yi − y )2
2
i =1 i =1
 Dla danych w postaci tablicy korelacyjnej

 ( xi − x )(y j − y )nij
l k

j =1i =1
rxy =
nS ( x )S ( y )
Własności:
• Jest symetryczny
• Mierzy siłę i kierunek zależności
• Przyjmuje wartości z przedziału [-1, 1]
❖ Przykład
Badanie związku między dwiema cechami mierzalnymi sensu stricto

W celu ustalenia zależności między miesięcznymi przychodami ze


sprzedaży w tys. zł (Y) a wielkością wydatków na reklamę w tys. zł (X),
w grupie 15 firm handlowych działających w pewnym regionie
wykorzystano następujące dane.

xi 2,0 1,0 0,8 1,1 3,5 1,6 1,0 2,0 1,8 2,5 2,4 2,0 1,5 2,3 1,7
yi 75 40 50 39 98 70 55 83 73 70 90 85 64 80 60
Należy wypowiedzieć się na temat istnienia, charakteru i siły
badanego związku.
Polecenie: Proszę zinterpretować prezentowany na
wykresie rozrzut punktów

Dysponując danymi indywidualnymi


Rys. 1. Rozrzut punktów empirycznych
zadanie można rozwiązać w Excelu –
Funkcja: WSP.KORELACJI(.)
Wynik: 0,873427
Uwaga, podejście to jest szczególnie
przydatne do oceny związków
nieliniowych.

Pomiar zależności w przypadku, gdy jedna z cech jest


mierzalna sensu stricte, druga zaś ma charakter
nominalny. Wskaźniki korelacyjne Pearsona

Do oceny związku wykorzystuje się równość wariancyjną.


Gdy bada się wpływ zmiennej X na zmienną Y należy
rozważyć równość postaci:
______
S 2(y) = ( ) ( )
S 2 yi + Si2 y ,
gdzie:
1 k
S ( yi ) =  ( yi − y )2 ni .
2
n i =1
- wariancja międzygrupowa, informująca o zróżnicowaniu
cechy Y, będącym efektem oddziaływania X,
______
1 k 2
Si2 ( y ) =
 Si ( y )ni .
n i =1
- wariancja wewnątrzgrupowa, określająca zróżnicowanie Y
wynikające z oddziaływania innych (poza X) czynników.
W oparciu o równość wariancyjną dla zmiennej zależnej
wyznacza się wskaźnik korelacyjny Pearsona mierzący siłę
zależności Y od X, tj.:

______
S 2 ( yi )
S ( yi ) + Si2 ( y )
e yx = + = = 1−
S ( y) S( y)
2
S2
( y)
Analogicznie wyznacza się wskaźnik korelacyjny mierzący
zależność X od Y, tj.:

______
S 2 (x j ) S (x j )
( ) + S 2j x
exy = + = = 1−
S (x) S (x)
2
S (x) 2

Wskaźniki korelacyjne przyjmują wartości z przedziału [0, 1].

Polecenie: Proszę odpowiedzieć na pytania:


Czy ważne jest, która ze zmiennych, zależna czy niezależna, jest
mierzalna sensu stricte?
W jakiej sytuacji, pomimo, iż rozważalibyśmy dwie cechy
mierzalne sensu stricte, należałoby wykorzystać odpowiedni
wskaźnik korelacyjny?
❖ Przykład
Badanie związku między cechą nominalną a cechą mierzalną sensu
stricto
W firmie oferującej na rynki lokalne soki owocowe
przeprowadzono badanie, w którym zestawiono zaobserwowane w
7 dniach ilości sprzedanych opakowań według kolorów (patrz,
tabela niżej).

Kolor Wielkość sprzedaży


opakowania
zielony 18 22 22 23 22 23 19
niebieski 20 18 19 21 20 20 18
biały 10 11 12 11 11 11 10

Pytanie, czy kolor opakowania soku ma wpływ na wielkość


sprzedaży?
Rozwiązanie w Excelu:

Z N B
18 20 10
22 18 11
22 19 12
23 21 11
22 20 11
23 20 11
19 18 10 yśr S^2(y)
ŚREDNIA 21,28571 19,42857 10,85714 17,19048 S^2(y) S^2(y)
WARIANCJA 3,346939 1,102041 0,408163 1,619048 20,63039 22,24943

eyx 0,962929

______
S ( yi ) S ( yi ) +
2
Si2 ( y )
e yx = + = = 1−
S ( y) S( y)
2
S ( y)
2
Zadanie
Zapytano dwóch studentów o sposób zbadania zależności między
wydatkami na kulturę a wykształceniem pewnej zbiorowości Polaków.
Według pierwszego z nich do badania należy określić warianty badanych
cech, policzyć współczynnik korelacji liniowej Pearsona i dokonać jego
interpretacji. Drugi ze studentów odpowiedział, że należy określić warianty
badanych cech, policzyć statystykę 2 , a następnie obliczyć współczynnik
Czuprowa. Otrzymany wynik oczywiście zinterpretować. Czy Twoim
zdaniem rację miał: (a) pierwszy ze studentów, (b) drugi, (c) obaj, ponieważ
są to dwa równoważne sposoby rozwiązania tego samego problemu, (d)
żaden, ponieważ należało postąpić następująco … (opisać, jak), (e) jedna z
odpowiedzi (a) – (c) jest prawidłowa (wskazać, która), ale można było
również postąpić następująco … (opisać, jak).
Wykład 6. Analiza tendencji rozwojowej w przebiegu
zjawisk ekonomicznych

Niech Yt oznacza zmienną, której wartości obserwowane są w


kolejnych jednostkach czasu t (t = 1, 2, ..., n). Wartości te
oznaczymy przez yt. Zmienna Yt opisywać będzie
kształtowanie się w czasie pewnego zjawiska.

Przebieg zjawisk w czasie bada się na podstawie szeregów


czasowych.
Określenie 1.
Szeregiem czasowym nazywa się uporządkowany według
czasu zbiór wartości yt.

Szereg czasowy będziemy oznaczać przez {yt, t}.

Określenie 2.
Trendem nazywa się pewną tendencję rozwojową w przebiegu
analizowanego zjawiska Yt. Przedstawia on zmiany w czasie
wartości średniej tego zjawiska.
Obroty p-stwa produkcyjno-handlowego
4500000

4000000 Na rysunku wyraźnie widać


tendencję do wzrostu wartości
3500000
badanego zjawiska.
3000000

2500000

2000000
obroty

1500000

1000000

500000

0
maj

lipiec

maj

lipiec

maj

lipiec
styczeń

styczeń

styczeń

marzec
marzec

marzec
wrzesień

wrzesień

wrzesień

listopad
listopad

listopad

2000 2001 2002

Rys. 1. Prezentacja przykładowego empirycznego szeregu czasowego


Obroty najpierw wykazują
Obroty supermarketu tendencję wzrostową,
8000000 potem widać pewną
stabilizację, na koniec zaś
7000000
obserwuje się tendencję
6000000 spadkową.
Charakterystyczne są też
5000000
wahania okresowe.
4000000

obroty
3000000

2000000

1000000

0
maj
lipiec

maj
lipiec

maj
lipiec

maj
lipiec

maj
lipiec

maj
lipiec
styczeń

styczeń

styczeń

styczeń

styczeń

styczeń
marzec
marzec

marzec

marzec
wrzesień

wrzesień

wrzesień

marzec

marzec
wrzesień

wrzesień

wrzesień
listopad

listopad

listopad

listopad

listopad

listopad
1997 1998 1999 2000 2001 2002

Rys. 2. Prezentacja przykładowego empirycznego szeregu czasowego


W przebiegu zjawisk ekonomicznych oprócz trendu wyróżnić
można także:
➢wahania okresowe (np.: koniunkturalne, sezonowe)
➢wahania przypadkowe.

W poznaniu procesu ekonomicznego ważna jest umiejętność


wyodrębniania wymienionych wahań i odpowiednie ich
modelowanie.
Metody wyodrębniania trendu

• Metoda mechaniczna

Polega ona na obliczaniu na podstawie szeregu czasowego, a


zatem na podstawie obserwacji: y1, y2, ..., yn (gdzie indeks
oznacza kolejne jednostki czasu) tzw. średnich ruchomych k -
wyrazowych.
Przykład 1. (zwykła średnia ruchoma)
Trzywyrazową średnią ruchomą otrzymuje się w następujący
sposób:
y1 y2 y3 y4 y5 y6 y7  y n − 2 yn−1 yn
y1 y2 y3 y4 y5 y6   yn − 2
gdzie:
y1 + y2 + y3
y1 =
3
y2 + y3 + y4
y2 =
3

yn−2 + yn−1 + yn
yn −2 =
3
4500000

4000000

3500000

3000000

2500000

2000000 obroty
średnia
1500000

Po zastosowaniu średniej
1000000
ruchomej szereg jest
500000 bardziej wygładzony, a
zatem tendencja rozwojowa
0
bardziej widoczna. Efekt ten
lipiec

lipiec

lipiec
maj

maj

maj
styczeń

styczeń

styczeń
marzec

marzec

marzec
wrzesień

wrzesień

wrzesień
listopad

listopad

listopad
uzyskujemy kosztem
2000 2001 2002
skrócenia szeregu.

Rys.3. Efekt wyrównania szeregu czasowego za pomocą 3-wyrazowej średniej ruchomej


Przykład 2. (scentrowana średnia ruchoma)
y1
y2
1 / 2 y1 + y2 + y3 + y4 + 1 / 2 y5
y3 y1 =
4
1 / 2 y2 + y3 + y4 + y5 + 1 / 2 y6
y4 y2 =
4
y5  Średnią scentrowaną
y6  rekomenduje się do analizy
szeregów z obserwacjami
y7  kwartalnymi bądź
miesięcznymi.
 
y n −3 
1 / 2 yn−4 + yn−3 + yn−2 + yn−1 + 1 / 2 yn
yn −2 yn −4 =
4
yn−1
yn
8000000
Efektem zastosowania 12-
wyrazowej średniej
7000000 ruchomej jest wygładzenie
szeregu i eliminacja wahań
6000000
sezonowych.
5000000

4000000

obroty
3000000
średnia

2000000

1000000

0
lipiec

lipiec

lipiec

lipiec

lipiec

lipiec
styczeń
kwiecień

kwiecień

kwiecień

styczeń
kwiecień

kwiecień
październik
styczeń

październik
styczeń

październik
styczeń
kwiecień

październik

październik
styczeń

październik
1997 1998 1999 2000 2001 2002

Rys.4. Efekt wyrównania szeregu czasowego za pomocą 12-wyrazowej średniej ruchomej


Efekty zastosowania średniej ruchomej (podsumowanie):

✓Wyrównanie szeregu czasowego (eliminacja wahań


przypadkowych i ewentualnie sezonowych)
✓Uwidocznienie trendu (tendencji rozwojowej)
✓Możliwość wyznaczenia prognoz
• Metoda analityczna

Polega ona na aproksymacji (dopasowaniu) odpowiedniej


funkcji trendu, na przykład dopasowanie liniowej funkcji
trendu.
Obroty p-stwa produkcyjno-handlowego
4500000

4000000 Rysunek prezentuje


dopasowanie liniowej
3500000
funkcji trendu.
3000000

2500000

2000000 obroty
Liniowa (obroty)
1500000

1000000

500000

0
maj
lipiec

maj
lipiec

maj
lipiec
styczeń

styczeń

styczeń
marzec

marzec

marzec
wrzesień

wrzesień

wrzesień
listopad

listopad

listopad
2000 2001 2002

Rys.4. Dopasowanie trendu liniowego do szeregu empirycznego


Obroty supermarketu
8000000 Rysunek prezentuje
dopasowanie wielomianowej
7000000
funkcji stopnia drugiego.
6000000

5000000

4000000

obroty
3000000
Wielom. (obroty)

2000000

1000000

0
lipiec

lipiec

lipiec

lipiec

lipiec

lipiec
kwiecień

styczeń
styczeń
kwiecień

kwiecień

styczeń

kwiecień

kwiecień
październik
styczeń

październik

październik

październik
styczeń

październik
styczeń
kwiecień

październik
1997 1998 1999 2000 2001 2002

Rys.5. Dopasowanie trendu wielomianowego stopnia drugiego do szeregu empirycznego


Polecenie: Należy zapisać hipotezę
trendu drugiego stopnia.
Hipoteza trendu liniowego:

Yt =  0 + 1t + t ,

gdzie:
Yt – zmienna mierząca poziom badanego zjawiska w okresie t,
t – zmienna czasowa,
 0 , 1 – parametry strukturalne funkcji trendu,
t – resztowa zmienna losowa.
Empiryczny model ekonometryczny (po oszacowaniu
parametrów):

yˆt = a0 + a1 t ,
S (a0 ) S (a1 )
gdzie:

n n n
n  yt t −  yt  t
a1 = t =1 t =1 t =1 , a0 = y − a1t
n  n 2
n  t −   t 
2
t =1  t =1 
Uproszczone wzory otrzyma się, gdy przyjmie się, że
t  = t − t . Wtedy
n n

 yt t  yt
a1 = t =1 ; a0 = t =1 =y
 (t )
n n
 2
t =1
Parametry modelu trendu liniowego można obliczyć również
według następujących wzorów macierzowych:

a0 
(
a =   = XT X )−1
XT y
 a1 
lub

  −1
 a  T 
a =   =  X X  X y,
0 T
 a1   
gdzie:

1  
1  
1 1
   y1 
1 2 1 − 5 y 
   2
X = 1 3 , X  = 1 − 4 , y =  y3 
 
     
     
1 n   5   yn 
1  
Błędy ocen parametrów – pierwiastki z elementów na
przekątnej macierzy wariancji-kowariancji:

2 2
(
D (a ) = S (u ) X X
T
)
−1  S 2 (a0 )
=
~ 
,
S (a1 )
2
 ~
gdzie
1 n
S (u ) =
2
 ( yt − yˆt )2
n − 2 t =1
Model trendu liniowego jako predyktor:

yT , p = a0 + a1T , (*)

gdzie T = n +1, n +1, ..., n +, ( − horyzont prognozy)

Oznacza przyszłe wartości zmiennej


czasowej.
Model (*) można zapisać macierzowo jako:

yT , p = X T a ,

gdzie:
X T = 1 T ,
a – jak wyżej.
❖ Ocena dokładności prognoz

Do oceny dokładności prognoz służą błędy prognoz. Wśród


nich wyróżnia się:

❑ błędy ex ante
❑ błędy ex post

Pozwalają na ocenę dopuszczalności prognozy w momencie jej


budowy.

Pozwalają na ocenę trafności prognozy po zrealizowaniu się


konkretnej wartości zmiennej prognozowanej.
Ad. dopuszczalności prognozy

✓Oblicza się tzw. bezwzględny średni błąd prognozy według


następującego wzoru:

VT = Su2 1 +

(
XT X XT
)
−1
X TT 

✓Oblicza się względny błąd prognozy:

VT
VT  =
yT , p
✓Wyznacza się błąd graniczny

np.
VG = 0,10

✓Prognozę uznaje się za dopuszczalną, jeśli

VT  VG
Ad. trafności prognozy

✓Oblicza się błąd ex post prognozy według wzoru:

T = yT − yT , p

✓Jeśli yT − yT , p  0 , to prognoza jest przeszacowana,


natomiast jeśli yT − yT , p  0 , to prognoza jest
niedoszacowana.
✓Oblicza się względny błąd prognozy, tj.:

yT − yT , p
T =
yT


✓Wyznacza się błąd graniczny  G

✓Prognozę uznaje się za trafną, jeśli  T   G



Wykład 7. Analiza dynamiki zjawisk masowych c.d.

Dynamikę zjawisk masowych bada się na podstawie


szeregów czasowych. Pojęcie szeregu czasowego – patrz
poprzedni wykład.

Wyróżnia się szeregi czasowe momentów i szeregi czasowe


okresów, np.

• liczba ludności danego kraju na dzień 31 grudnia 2007 r.


i w kolejnych latach,
lub
• wielkość PKB per capita w kolejnych latach.
Rodzaj danych ma wpływ na metody analizy zjawisk.
Przy analizie szeregów czasowych okresów pojawia się problem
nierówności przedziałów czasowych, np. liczba dni w miesiącach. W
takich sytuacjach należałoby dokonać sprowadzenia wartości
zjawisk do okresów porównywalnych (zawierających jednakową
liczbę dni).
Proponuje się wykorzystanie następującego przekształcenia:

yt  t0
yt0 =
z
gdzie:
yt0 – wartość obserwowanego zjawiska przy założeniu, że
wszystkie jednostki czasu (miesiące, kwartały) mają
jednakową liczbę dni,
yt – wartość zjawiska faktycznie zaobserwowana w czasie t,
t0 – liczba dni przyjęta za podstawę porównywalności
z – rzeczywista liczba dni kalendarzowych w danej jednostce
czasu.
Ocena przeciętnego poziomu zjawiska w czasie

❖ Przypadek szeregów czasowych okresów


Przy założeniu równości przedziałów czasowych, przeciętny
poziom zjawiska można ocenić za pomocą średniej
arytmetycznej.

❖ Przypadek szeregów czasowych momentów


Średni poziom zjawiska ocenia się wykorzystując w tym celu
średnią chronologiczną.
Średnią chronologiczną oblicza się według wzoru:

y1 + y2 y2 + y3 y +y
+ + ... + n−1 n
ych = 2 2 2
n −1
1 1
y1 + y2 + ... + yn−1 + yn
=2 2
n −1
Ocena zmian w czasie poziomu jednorodnych zjawisk –
mierniki dynamiki

1. Przyrost absolutny
2. Przyrost względny (tempo wzrostu)
3. Wskaźniki dynamiki (indeksy)
Ad 1.
Jest to różnica pomiędzy poziomem zjawiska w okresie
(momencie) badanym a poziomem zjawiska w okresie
(momencie) przyjętym za podstawę porównań.
Jeśli za podstawę porównań przyjmiemy okres (moment)
poprzedni, to otrzymamy:

yt = yt − yt −1

Są to tzw. przyrosty absolutne łańcuchowe.


Przykład 1.

Niech y1, y2 , ..., yn oznacza kolejne wyrazy szeregu


czasowego. Ciąg przyrostów absolutnych łańcuchowych
otrzymamy następująco: y2 − y1, y3 − y2 , ..., yn − yn−1

Można też rozważać przyrosty obliczane w odniesieniu do


jednego okresu (momentu). Będą to przyrosty absolutne
o podstawie stałej.
Interpretacja
Przyrosty absolutne informują o tym, o ile jednostek wzrósł
lub zmalał poziom badanego zjawiska w okresie (momencie)
badanym w porównaniu z okresem (momentem przyjętym za
podstawę.
Ad 2.
Przyrost względny jest stosunkiem absolutnego przyrostu
zjawiska do poziomu zjawiska w okresie (momencie)
przyjętym za podstawę porównań.
Przyrosty względne podobnie jak przyrosty absolutne mogą
być jednopodstawowe lub łańcuchowe.
Przykład 2.

Ciąg przyrostów względnych łańcuchowych zapiszemy


następująco:

y2 − y1 y3 − y2 yn−1 − yn−2 yn − yn−1


, , ..., ,
y1 y2 yn − 2 yn−1
Przykład 3.

Ciąg przyrostów względnych o stałej podstawie zapiszemy


jako:

y2 − y1 y3 − y1 yn−1 − y1 yn − y1
, , ..., ,
y1 y1 y1 y1
Interpretacja
Przyrosty względne odpowiadają na pytanie, o ile wyższy lub
niższy jest poziom badanego zjawiska w danym okresie w
stosunku do okresu przyjętego za podstawę.
Ad 3.
Wskaźniki dynamiki są to wielkości otrzymane przez
podzielenie wartości danego zjawiska w okresie badanym
przez wartość zjawiska w okresie podstawowym tj.:

yt
i= ,
yt0

gdzie: i – indeks, yt – poziom zjawiska w okresie badanym,


yt0 – poziom zjawiska w okresie bazowym.
Interpretacja
Indeksy są wielkościami niemianowanymi. Wyrażane są w
ułamkach albo w procentach (podobnie jak przyrosty
względne).
Przyjmują wyłącznie wartości dodatnie (w odróżnieniu od
przyrostów względnych). Jeśli 0 < i < 1, to znaczy, że nastąpił
spadek poziomu zjawiska w okresie badanym w stosunku do
okresu podstawowego. Jeżeli i  1, to znaczy, że nastąpił
wzrost poziomu zjawiska w okresie badanym w stosunku do
okresu podstawowego. Jeśli z kolei i = 1, to oznacza brak
zmian poziomu zjawiska w czasie.
W zależności od przyjętej podstawy porównań, wyróżnia się
indeksy łańcuchowe oraz indeksy jednopodstawowe.

Przykład 4.
Ciąg indeksów łańcuchowych zapiszemy jako:

y2 y3 yn−1 yn
, , ..., ,
y1 y2 yn−2 yn−1
Z kolei, ciąg indeksów o stałej podstawie:

y1 y2 y3 yn−1 yn
, , , ..., , ,
y1 y1 y1 y1 y1

gdy t0=1

lub, gdy np. t0=3:


y1 y2 y3 y y
, , , ..., n−1 , n .
y3 y3 y3 y3 y3
Kilka uwag praktycznych na temat przekształcania
indeksów statystycznych

❑ Indeksy jednopodstawowe można otrzymać z przyrostów


względnych o stałej podstawie przez dodanie 1 (lub 100).
W ten sam sposób otrzymamy indeksy łańcuchowe z
przyrostów względnych łańcuchowych. Oczywista jest
również operacja odwrotna.
❑ Istnieje możliwość zamiany indeksów jedno-
podstawowych na łańcuchowe i odwrotnie, a także zmiany
podstawy w szeregu indeksów o podstawie stałej.
Ważna
umiejętność
praktyczna
▪ Zamiany indeksów jednopodstawowych na łańcuchowe
można dokonać w drodze dzielenia indeksów
jednopodstawowych przez siebie, tj. wg wzoru:

yt yt −1 yt y1 y
: =  = t
y1 y1 y1 yt −1 yt −1
Na przykład,
y1 y2 y3 y y
, , , ..., n−1 , n
y1 y1 y1 y1 y1
y2 y2 y1 y2 y1 y3 y3 y2 y3 y1
= : =  , = : =  , ...
y1 y1 y1 y1 y1 y2 y1 y1 y1 y2
▪ Natomiast zamiany indeksów łańcuchowych na
jednopodstawowe dokonujemy następująco:

✓Indeks jednopodstawowy w okresie następującym


bezpośrednio po okresie przyjętym za podstawę jest taki
sam jak indeks łańcuchowy.
yt y
Niech t0 = 1, zatem dla t = 2 = 2
yt0 y1

✓Indeks jednopodstawowy w okresie przyjętym za podstawę


wynosi 1 (100%).
yt0
= 1, dla dowolnego t0
yt0
✓Dalsze indeksy jednopodstawowe po okresie przyjętym za
podstawę otrzymuje się mnożąc w sposób narastający
kolejne indeksy łańcuchowe, licząc od wskaźnika
łańcuchowego znajdującego się tuż po okresie
podstawowym.
y2 y3 y4 y y
, , , ..., n −1 , n
y1 y2 y3 yn − 2 yn −1
y3 y2 y3
Na przykład, = 
y1 y1 y2
✓Indeksy jednopodstawowe przed okresem podstawowym
otrzymuje się jako odwrotność narastających iloczynów
kolejnych indeksów łańcuchowych, licząc od okresu
przyjętego za podstawę.

Na przykład, niech t0=4


y2 y3 y4 y y
Wtedy mając , , , ..., n −1 , n ,
y1 y2 y3 yn − 2 yn −1
−1 −1
y3  y4  y2  y4 y3 
=   , =   
y4  y3  y4  y3 y2 
Obliczanie średniego tempa zmian zjawiska w czasie

Średnie tempo zmian zjawiska w czasie można wyznaczyć


z indeksów łańcuchowych jako ich średnią geometryczną, tj.
według wzoru:

y2 y3 yn−1 yn
y g = n−1   ...  
y1 y2 yn−2 yn−1
,
n yt
= n−1 
t =2 yt −1
co po uproszczeniu daje:

yn
yg = n −1
y1
Obliczone w ten sposób średnie tempo zmian zjawiska można
wykorzystać do wyznaczenia przyszłych jego wartości.
Mianowicie

yn+1, p = yn y g

Ogólnie:

yn+ , p = yn y g
Wykład 8. Analiza dynamiki zjawisk masowych cd.

• Rodzaje indeksów statystycznych


1) Indywidualne Patrz również wykład 7.
2) Zespołowe (agregatowe):
a) wielkości absolutnych
b) wielkości stosunkowych
Ad 1) Indeksy indywidualne znajdują zastosowanie
w przypadku badania dynamiki zjawisk jednorodnych.
Chodzi tutaj o indeksy dotyczące indywidualnych jednostek.
Wśród indeksów indywidualnych szczególnie interesujące dla
ekonomistów są indeksy: cen, ilości oraz wartości.
Indywidualny indeks cen można zapisać następująco:

p
ip = 1 ,
p0

gdzie: ip – indywidualny indeks cen, p1 – cena jednostkowa


wyrobu w okresie badanym, p0 – cena jednostkowa wyrobu
w okresie podstawowym.
Indywidualny indeks ilości zapiszemy jako:

q1
iq = ,
q0

gdzie: iq – indywidualny indeks ilości, q1 – ilość wyrobu


wyprodukowanego w okresie badanym, q0 – ilość wyrobu
wyprodukowanego w okresie podstawowym.
Z kolei, indywidualny indeks wartości wyraża wzór

q p w
iw = 1 1 = 1 ,
q0 p0 w0

gdzie: w1 – wartość wyrobu w okresie badanym, w0 – wartość


wyrobu w okresie podstawowym.
✓Interpretacja:
Indywidualne indeksy cen, ilości i wartości informują
o wzroście lub spadku tych wielkości w okresie badanym
w porównaniu z okresem podstawowym, tj. przyjętym za
podstawę porównań.
▪ Równość indeksowa
Jeśli rozważamy indeksy cen, ilości i wartości dla tego
samego wyrobu, to możemy zapisać:

iw = i p  iq
Ad 2) Indeksy zespołowe (agregatowe) wykorzystuje się, gdy
bada się dynamikę zmian odnośnie do całego zespołu
(agregatu, zbioru) jednostek.

W zależności od przedmiotu badań wyróżnia się:


• indeksy zespołowe dla wielkości absolutnych
• indeksy zespołowe dla wielkości stosunkowych
Agregatowe indeksy wielkości absolutnych można podzielić na:
✓nieważone (proste), np. nieważony agregatowy indeks
cen
✓ważone, np. indeks cen ważonych ilościami lub indeks
ilości ważonych cenami.
Przykład agregatowego indeksu nieważonego cen
(Źródło: Aczel, Statystyka w zarządzaniu, s. 661).
Firma inwestycyjna jest zainteresowana akcjami
przedsiębiorstw należących do pewnej grupy przemysłowej.
Firma ta chce skonstruować indeks cen akcji czterech
głównych przedstawicieli tej grupy. W tablicy poniżej
zamieszczono ceny tych czterech walorów (w $) w okresie 12
tygodni.
Tydzień Akcje Suma Indeks
I II III IV (It/6 w %)
1 29 15 32 54 130 92,9
2 30,5 16 31 56,5 134 95,7
3 31 15 30,5 56,5 133 95,0
4 33 15,5 30 57,5 136 97,1
5 32 15 29 58 134 95,7
6 31 16 32 61 140 100,0
7 30 17 32,5 61,5 141 100,7
8 29 17 31,5 61,5 139 99,3
9 32,5 17,5 32 62 144 102,9
10 33 18 32 65 148 105,7
11 34 20 34 66 154 110,0
12 34 21 32 68 156 111,4
Ostatnia kolumna tabeli przedstawia prosty indeks agregatowy cen czterech walorów dla
tygodnia 6. jako okresu bazowego.
Poszczególne wartości z kolumny
SUMA dzielimy przez 140 i
mnożymy przez 100.
Wśród agregatowych indeksów wielkości absolutnych szczególne
miejsce zajmują:
o indeksy wartości
o indeksy cen
o indeksy ilości (masy fizycznej)
Agregatowy indeks wartości wyraża się wzorem:

m
 qi1 pi1
I w = im=1 ,
 qi 0 pi 0
i =1

gdzie: Iw – agregatowy indeks wartości, q1, q0 – ilość


w okresie, odpowiednio – badanym i podstawowym, p1, p0 –
cena jednostkowa w okresie badanym i podstawowym.
Uwaga,
Jest to zatem stosunek wartości pewnego zbioru (agregatu)
wyrobów w okresie badanym do wartości tego zbioru
w okresie podstawowym, obliczanej w cenach bieżących.

m
 qi1 pi1
I w = im=1
 qi 0 pi 0
i =1
✓Interpretacja:
Indeks ten informuje, w jakim stosunku pozostaje wartość
agregatu z okresu badanego do wartości agregatu z okresu
podstawowego. Wyraża on zmiany, jakie nastąpiły w
wartościach określonego zespołu wyrobów w okresie
badanym w porównaniu z okresem podstawowym, przy czym
zmiany te uwarunkowane są zmianami dwóch czynników:
ilości i cen.

m
 qi1 pi1
I w = im=1
 qi 0 pi 0
i =1
Uwaga,
Indeks wartości przedstawia zmiany wartości będące
wypadkową zmian ilości oraz cen i nie informuje, który z
tych czynników odegrał główną rolę we wzroście lub spadku
wartości.
Wniosek:
Należy rozważać także agregatowe indeksy cen oraz
agregatowe indeksy ilości (masy fizycznej).
Agregatowy indeks cen wyraża się wzorem:

m
 qi• pi1
I p = im=1 ,
 qi• pi 0
i =1

gdzie:
Ip – agregatowy indeks cen, q• – stała ilość wyrobu, p1, p0 –
cena jednostkowa w okresie badanym i podstawowym.

W zależności od tego, czy ilości przyjmiemy na poziomie okresu


podstawowego, czy badanego otrzymamy indeks wg formuły
Laspeyresa lub Paaschego (patrz dalej).
✓Interpretacja:
Określa on średnie względne zmiany w poziomie cen
określonego zbioru produktów, zaobserwowane w dwóch
porównywanych ze sobą okresach. Indeks cen oblicza się
przy założeniu, że ilości badanych produktów nie uległy
zmianie, a jedynie zmieniły się ich ceny.

m
 qi• pi1
I p = im=1
 qi• pi 0
i =1
➢ Indeks cen typu Laspeyresa

m
 qi 0 pi1
I = i =1
L p m
 qi 0 pi 0
i =1

Ilości ustalone na poziomie okresu


bazowego
Indeks cen konsumpcyjnych (CPI)

Jest najbardziej znanym ważonym indeksem agregatowym


typu Laspeyresa. Odzwierciedla on zmiany ogólnego
poziomu cen w kraju i może być stosowany do konwersji
nominalnych sum pieniędzy do realnych sum pieniędzy.
Tylko takie realne sumy pieniędzy, pochodzące z różnych lat
mogą być porównywane bez obawy obciążenia,
spowodowanego inflacją.
Wniosek: CPI może pełnić rolę tzw. deflatora.
Przykład:
Załóżmy, że rozważamy roczne dochody Polaków (dane umowne)
Rok Dochody CPI Dochody Zmiana podstawy Dochody
nominalne (w %) realne indeksu (CPI) realne
(z roku 1.) (z roku 3.)
1 29500 100,0 29500 0,911 32382
2 31000 104,2 29750 0,949 32666
3 33600 109,8 30601 1,000 33600
4 35000 116,3 30095 1,059 33050
5 36700 121,3 30256 1,105 33212
6 38000 125,3 30327 1,141 33304
Uwaga,
Dochody realne obliczamy dzieląc dochody nominalne przez wartości indeksu
CPI. Zamiany podstawy indeksu
dokonuje się analogicznie jak w
przypadku indeksów indywidualnych
(patrz wykład 7).
➢ Indeks cen typu Paaschego

m
 qi1 pi1
PIp = im=1
 qi1 pi 0
i =1

Ilości ustalone na poziomie okresu


badanego
Agregatowy indeks ilości ogólnie zapiszemy następująco:

m
 qi1 pi•
I q = im=1 ,
 qi 0 pi•
i =1

gdzie oznaczenia analogiczne jak wcześniej.


✓Interpretacja:
Indeks ten informuje o średnich względnych zmianach w
fizycznych rozmiarach określonego zespołu produktów, które
nastąpiły pomiędzy okresem podstawowym i badanym.

m
 qi1 pi•
Iq = i =1
m
 qi 0 pi•
i =1
➢ Indeks ilości typu Laspeyresa

m
 qi1 pi 0
L Iq = im=1
 qi 0 pi 0
i =1

Ceny ustalone na poziomie


okresu bazowego
➢ Indeks ilości typu Paaschego

m
 qi1 pi1
I = i =1
P q m
 qi 0 pi1
i =1

Ceny ustalone na poziomie okresu


badanego
Uwaga,
Różnice występujące pomiędzy tymi formułami mają ten sam
charakter co w przypadku indeksów cen.
W przypadku, gdy okres podstawowy i badany nie są zbyt
odległe, do obliczenia agregatowych indeksów cen i ilości
można też zastosować formułę Fishera:

F Ip = L I p P I p

F Iq = L I q P I q
▪ Równość indeksowa:

I w = L I p P I q = P I p L I q = F I p F I q
Zadanie
Zużycie oraz ceny trzech produktów A, B, C w latach 2006 i 2009
kształtowały się następująco:

Produkty Ilości Ceny


2006 2009 2006 2009
A 70,1 54,6 0,38 0,69
B 590,7 552,1 0,11 0,17
C 400,2 399,3 0,05 0,09
Źródło: Dane umowne.
Polecenie:
Ocenić łączną dynamikę:
o masy fizycznej
o cen
o wartości
Rozwiązanie
Stosując podstawowe wzory indeksowe otrzymujemy:

3
 q1i p0i
i =1 54,6  0,38 + 552,1 0,11 + 399,3  0,05
I
L q = = =
3 70,1 0,38 + 590,7  0,11 + 400,2  0,05
 q0i p0i
i =1
= 0,9088 Przy cenach stałych z 2006 r. przeciętny spadek
masy fizycznej wyniósłby 9,12%.

Produkty Ilości Ceny


2006 2009 2006 2009
A 70,1 54,6 0,38 0,69
B 590,7 552,1 0,11 0,17
C 400,2 399,3 0,05 0,09
3
 q1i p1i
i =1 54,6  0,69 + 552,1 0,17 + 399,3  0,09
I
P q = = =
3 70,1 0,69 + 590,7'0,17 + 400,2  0,09
 q0i p1i
i =1
= 0,9062 Przy cenach z 2009 r. spadek ten wyniósłby 9,38%.

F Iq = L I q P I q = 0,9088  0,9062 = 0,9075


„Najbardziej prawdopodobną” dynamikę spadkową
masy fizycznej wyznaczy ocena według formuły
Fishera (spadek o 9,25%).

Produkty Ilości Ceny


2006 2009 2006 2009
A 70,1 54,6 0,38 0,69
B 590,7 552,1 0,11 0,17
C 400,2 399,3 0,05 0,09
3
 q0i p1i
i =1 70,1 0,69 + 590,7  0,17 + 400,2  0,09
I
L p = = =
3 70,1 0,38 + 590,7  0,11 + 400,2  0,05
 q0i p0i
i =1
= 1,6556 Przy stałym koszyku dóbr z roku 2006, w roku
2009 nastąpiłby wzrost cen przeciętnie o 65,56%.
3
 q1i p1i
i =1 54,6  0,69 + 552,1 0,17 + 399,3  0,09
I
P p = = =
3 54,6  0,38 + 552,1 0,11 + 399,3  0,05
 q1i p0i
i =1
= 1,6508
Produkty Ilości Ceny
Przy założeniu koszyka dóbr z 2009 2006 2009 2006 2009
roku, przeciętny wzrost cen A 70,1 54,6 0,38 0,69
wyniósłby 65,08%. B 590,7 552,1 0,11 0,17
C 400,2 399,3 0,05 0,09
F Ip = L I p P I p = 1,6556 1,6508 = 1,6532

Interpretacja: Przy stałym koszyku dóbr z roku 2006, w roku


2009 nastąpiłby wzrost cen przeciętnie o 65,56%. Natomiast,
przy założeniu koszyka dóbr z 2009 roku, przeciętny wzrost
cen wyniósłby 65,08%. Formuła Fishera pozwoliła na ocenę
„najbardziej prawdopodobnego” przeciętnego wzrostu cen w
roku 2009 w stosunku do roku 2006 (65,32%).
3
 q1i p1i
i =1 54,6  0,69 + 552,1 0,17 + 399,3  0,09
Iw = = =
3 70,1 0,38 + 590,7  0,11 + 400,2  0,05
 q0i p0i
i =1
= 1,5003

Powyższy wynik oznacza, że wartość trzech produktów: A, B,


C była w roku 2009 o 50,03% wyższa niż w roku 2006.

Produkty Ilości Ceny


2006 2009 2006 2009
A 70,1 54,6 0,38 0,69
B 590,7 552,1 0,11 0,17
C 400,2 399,3 0,05 0,09
Indeks wartości można też ocenić w oparciu o tzw. równość
indeksową, tzn.:

I w = L I p P I q = 1,6556  0,9062 = 1,5003


I w = P I p L I q = 1,6508  0,9088 = 1,5002

You might also like