Professional Documents
Culture Documents
Rozkłady empiryczne
Badanie własności rozkładów W ramach wykładu
definiuje się pojęcie
Plan wykładu rozkładu empirycznego,
częstości oraz
1. Pojęcie rozkładu empirycznego dystrybuanty empirycznej.
Następnie przechodzi się
2. Częstość i dystrybuanta empiryczna do omówienia
podstawowych
3. Rodzaje rozkładów empirycznych charakterystyk rozkładów,
najpierw w zakresie tzw.
4. Podstawowe charakterystyki rozkładów tendencji centralnej.
empirycznych
Opis statystyczny (rozważamy cechę X):
Poszczególne warianty cechy X: x1, x2, ..., xN
xi : x1 x2 ... x N
xi : x1 x2 ... xk
ni : n1 n2 ... nk
w : w
i 1 w2 ... wk
Przykłady:
o Liczba lekarzy na 1000 mieszkańców według
województw (podregionów, powiatów itp.)
o Liczba zakładów produkcyjnych na 1000
mieszkańców według województw (podregionów,
powiatów itp.)
Kolejne zagadnienia z zakresu analizy struktury zjawisk
masowych
Tendencja centralna w zakresie kształtowania się
wartości zjawiska – tzw. poziom przeciętny
Zróżnicowanie wartości – tzw. dyspersja (zmienność,
rozproszenie, rozrzut)
Asymetria rozkładu W ramach wykładu 2
omawia się tendencję
Koncentracja rozkładu centralną rozkładu.
Pozostałe zagadnienia są
omawiane na kolejnych
wykładach.
Ad. tendencji centralnej – miary średnie
k k
xi ni xi ni
x = i =1 x = i =1
N N
k
przy czym ni = N
i =1
N
xi =Nx
i =1
Dzielą uporządkowaną
zbiorowość na określoną
liczbę części według
liczby jednostek
Dominanta – wartość najliczniej reprezentowana
w zbiorowości statystycznej
Patrz przykład 3.
Obliczanie
▪ Na podstawie danych szczegółowych lub szeregu
rozdzielczego punktowego
Przykład 5.
Punkty sprzedaży (te same co wcześniej) przeanalizowano
pod względem obrotów osiągniętych w minionym roku.
Zebrane dane przedstawia poniższa tablica
Obroty (mln zł) Liczba punktów
sprzedaży
0,8 – 2,0 8
2,0 – 3,2 10
3,2 – 4,4 2
4,4 – 5,6 1
Ogółem 21
Przykład 5.
Punkty sprzedaży (te same co wcześniej) przeanalizowano
pod względem obrotów osiągniętych w minionym roku.
Zebrane dane przedstawia poniższa tablica
Obroty (mln zł) Liczba punktów
sprzedaży
0,8 – 2,0 8
2,0 – 3,2 10
3,2 – 4,4 2
4,4 – 5,6 1
Ogółem 21
Wskaże jedynie
przedział, w którym
znajduje się dominanta
Przykład 5.
Punkty sprzedaży (te same co wcześniej) przeanalizowano
pod względem obrotów osiągniętych w minionym roku.
Zebrane dane przedstawia poniższa tablica
Obroty (mln zł) Liczba punktów
sprzedaży
0,8 – 2,0 8
2,0 – 3,2 10
3,2 – 4,4 2
4,4 – 5,6 1
Ogółem 21
Dominanty należy
poszukać w tym
przedziale.
Przykład 5.
Punkty sprzedaży (te same co wcześniej) przeanalizowano
pod względem obrotów osiągniętych w minionym roku.
Zebrane dane przedstawia poniższa tablica
Obroty (mln zł) Liczba punktów Środki przedziałów
sprzedaży
0,8 – 2,0 8 1,4
2,0 – 3,2 10 2,6
3,2 – 4,4 2 3,8
4,4 – 5,6 1 5,0
Ogółem 21
N (+ 1)
PozQr = r , r = 1, 2, 3.
4
Kwartyl pierwszy – wartość zmiennej w rozkładzie
empirycznym, poniżej której znajduje się 25% jednostek
badanej zbiorowości.
Kwartyl drugi – wartość zmiennej w rozkładzie
empirycznym, poniżej której znajduje się 50% jednostek
badanej zbiorowości.
Kwartyl trzeci – wartość zmiennej w rozkładzie
empirycznym, poniżej której znajduje się 75% jednostek
badanej zbiorowości.
Przykład 5.
Liczba osób pozostających na utrzymaniu pracowników
przedsiębiorstwa Z kształtuje się następująco: 3, 5, 0, 3, 6,
1, 2, 4, 5, 0, 7, 0, 2, 3, 4, 8, 0, 1, 4, 5, 6, 1, 2, 1, 4, 2, 3, 4, 4, 6,
5, 7, 4, 3.
Polecenie: Należy określić wartości kwartyli dla badanej
cechy
Należy rozpocząć od uporządkowania informacji według
niemalejących wartości xi, tj.: 0, 0, 0, 0, 1, 1, 1, 1, 2, 2, 2, 2,
3, 3, 3, 3, 3, 4, 4, 4, 4, 4, 4, 4, 5, 5, 5, 5, 6, 6, 6, 7, 7, 8.
Poz. Q1 = (34 + 1)/4 = 8,75
Wniosek: Wartość kwartyla 1. należy obliczyć na podstawie 8.
i 9. wartości szeregu. Odp.: Q1=1+0,75*(2-1)
Uwaga, pozostałe kwartale wyznacza się analogicznie.
Mediana – środkowa wartość cechy, dzieląca
zbiorowość na dwie równe liczebnie części: część
wartości mniejszych lub równych medianie oraz część
wartości większych lub równych medianie
Rozróżniamy dwie sytuacje:
(1) N – nieparzyste, (2) N - parzyste
Przykład: Me = x4
xiup: x1, x2, x3, x4, x5, x6, x7
Me = (x4 + x5)/2
Odpowiednią formułę obliczeniową można zapisać
następująco:
x N +1 , gdy N nieparzyst e
2
Me =
x N + x N , gdy N parzyste
1
2 2 +1
2
Przykład 6.
Tabela poniżej przedstawia informacje na temat rozkładu liczby
reklamacji w punktach sprzedaży tworzących sieć handlową
pewnej branży. Polecenie: Należy określić wartości kwartyli
liczby reklamacji.
Liczba zgłoszonych Liczba punktów
reklamacji (xi) sprzedaży (ni) nisk
0 4 4
10 8 12
20 6 18
30 2 20
40 1 21
Ogółem 21
Rozpoczynamy od wyznaczenia
liczebności skumulowanych, czyli
dodajemy kolejne ni.
Przykład 6.
Tabela poniżej przedstawia informacje na temat rozkładu liczby
reklamacji w punktach sprzedaży tworzących sieć handlową
pewnej branży. Polecenie: Należy określić wartości kwartyli
liczby reklamacji.
Liczba zgłoszonych Liczba punktów
reklamacji (xi) sprzedaży (ni) nisk
0 4 4
10 8 12
20 6 18
30 2 20
40 1 21
Ogółem 21
Poz. Q3 = 3(N+1)/4=66/4=16,5
Sprawdzamy, w której liczebności
skumulowanej zmieści się ta
pozycja.
Przykład 6.
Tabela poniżej przedstawia informacje na temat rozkładu liczby
reklamacji w punktach sprzedaży tworzących sieć handlową
pewnej branży. Polecenie: Należy określić wartości kwartyli
liczby reklamacji.
Liczba zgłoszonych Liczba punktów
reklamacji (xi) sprzedaży (ni) nisk
0 4 4
10 8 12
20 6 18
30 2 20
40 1 21
Ogółem 21
Poz. Q3 =
3(N+1)/4=66/4=16,5 Wniosek: Q3 = 20
Ważne spostrzeżenia:
✓ Wyznaczenie kwartyli z szeregu rozdzielczego
wymaga policzenia liczebności skumulowanych.
✓ Gdy szereg rozdzielczy jest przedziałowy, to na
podstawie szeregu liczebności skumulowanych można
jedynie wskazać przedział mieszczący wartość
poszukiwanego kwartyla, natomiast obliczenie tej
wartości wymaga zastosowania rachunku
interpolacyjnego.
Odpowiednie formuły obliczeniowe:
N
− nsk −1
Q1 = xQ1 + 4 hQ1
nQ1
N
− nsk −1
Me = xMe + 2 hMe
nMe
3N
− nsk −1
Q3 = xQ3 + 4 hQ3
nQ3
Uwagi podsumowujące
✓ Mówienie o tendencji centralnej jest uzasadnione w
sytuacjach rozkładów symetrycznych oraz
zbliżonych do symetrycznych
✓ Istnieją różne miary tendencji centralnej, mniej lub
bardziej odporne na własności rozkładu
✓ Stosowanie odpowiednich miar wymaga spełnienia
określonych warunków
✓ Niespełnienie jednych warunków powoduje utratę
wartości poznawczej obliczonych miar, innych zaś
uniemożliwia nawet ich obliczenie.
Wykład 3.
Rozkłady empiryczne c.d.
Badanie przeciętnego zróżnicowania cechy w
zbiorowości
Plan wykładu:
1. Istota zróżnicowania cechy w zbiorowości.
2. Bezwzględne i względne miary zróżnicowania –
ocena przydatności.
3. Uwagi podsumowujące.
Proszę przeanalizować poniższy schemat odszukując w nim elementy z
zakresu badania zróżnicowania cechy w zbiorowości (patrz kolejne slajdy).
Alternatywne określenia
Q3 − Q1
Qx =
2
Mediana
Pokazuje
rozstęp
między-
kwartylowy
QR
Q1, Q3
Wykresy pudełkowe: a) dla zmiennej wynagrodzenia_2007, b) dla zmiennej bezrobocie_2007
Źródło: opracowanie własne.
Ad. 3) Odchylenie przeciętne oblicza się według wzoru:
N
| xi − x |
d x = i =1 , dla danych indywidualnych
N
lub według wzorów:
k k
| xi − x | ni | xi − x | ni
d x = i =1 d x = i =1 ,
N N
S 2 ( x ) = i =1
N
❑ Dla szeregów rozdzielczych.
k k
( xi − x )2 ni ( xi − x )2 ni
S 2 ( x ) = i =1 oraz S 2 ( x ) = i =1
N N
Zatem odchylenie standardowe, na przykład z szeregu
rozdzielczego przedziałowego obliczymy według wzoru:
k
(
i
x − x )2
ni
S (x) = i =1
N
Interpretacja:
Podobnie jak odchylenie przeciętne, odchylenie
standardowe określa przeciętną różnicę pomiędzy
wartościami poszczególnych jednostek zbiorowości
a wartością średnią.
Przykład
Punkty sprzedaży (te same co wcześniej, patrz poprzedni
wykład) przeanalizowano pod względem zróżnicowania
obrotów osiągniętych w minionym roku. Dane potrzebne do
analizy przedstawia poniższa tablica
Obroty Liczba Środki
(mln zł) punktów przedziałów x i ni (xi – x)2ni
sprzedaży (xi)
(ni)
0,8 – 2,0 8 1,4 11,2 7,5272
2,0 – 3,2 10 2,6 26,0 0,5290
3,2 – 4,4 2 3,8 7,6 4,0898
4,4 – 5,6 1 5,0 5,0 6,9169
Ogółem 21 49,8 19,0629
k
(
i
x − x )2
ni
19,0629
x = 2,37; S ( x ) = i =1 = = 0,9528
N 21
Typowy obszar zmienności
x − S ( x ); x + S ( x )
_____ j ( x )n j
S 2
S 2j ( x ) =
j
− wariancja wewnątrzgrupowa,
N Oblicza się wariancje
osobno dla każdej grupy, a
następnie liczy się z nich
(
j
x − x )2
nj średnią.
S (x j ) =
2 j
− wariancja międzygrupowa
N
Oblicza się wariancję jako uśrednioną
sumę kwadratów odchyleń średnich
dla grup od ogólnej średniej.
Ad. 5) Współczynniki zmienności są względnymi
miarami zróżnicowania. Stosowane są do oceny
zróżnicowania, a także do porównań, gdy badane
zjawisko mierzone jest w różnych jednostkach miary lub
kształtuje się na niejednakowym poziomie przeciętnym.
Qx Q3 − Q1
Vx = , Vx =
Me Q3 + Q1
Interpretacja:
Współczynniki zmienności informują o względnym
zróżnicowaniu zbiorowości ze względu na badaną cechę.
MA = x−D
M A = 3( x − Me )
3(Me − D )
MA =
2
M A = (Q3 − Me ) − (Me − Q1 ) = Q1 + Q3 − 2 Me
Uwaga,
Miary te są nieprzydatne do porównań i oceny skali
zjawiska asymetrii.
❑ Miary względne – tzw. współczynniki skośności:
x−D
Ws =
S (x)
3( x − Me )
Ws =
S (x)
3
(Me − D )
Ws = 2
S (x)
(Q3 − Me ) − (Me − Q1 )
Ws =
2Qx
Miary względne służą do porównań, np. asymetrii rozkładu tej
samej cechy w różnych zbiorowościach, albo asymetrii rozkładów
różnych cech w tej samej zbiorowości.
❖ Wykorzystanie tzw. momentu trzeciego
centralnego do badania asymetrii
Określenie:
Dowolnym r-tym momentem rozkładu nazywamy
średnią arytmetyczną z odchyleń poszczególnych
wartości zmiennej X od dowolnej liczby q
podniesionych do r-tej potęgi.
Ogólnie:
k
( xi − q )r ni
M r = i =1 , r = 1, 2, ...
N
Zastosowanie:
- do oceny stopnia asymetrii danego rozkładu
- do porównań asymetrii dwóch (kilku) rozkładów
Analiza koncentracji – dwa aspekty
zagadnienia
xi xi ni
zi = N
lub zi = k
xi xi ni
i =1 i =1
2. Obliczenie wielkości skumulowanych: Wi = wisk,
Zi = zisk .
Wniosek:
Im bardziej od przekątnej odchyla się wyznaczona
krzywa, tym silniejsza jest koncentracja.
4. Zmierzenie siły koncentracji.
Wykorzystuje się stosunek powierzchni zawartej między
krzywą koncentracji a linią równomiernego rozkładu do
ogólnej powierzchni trójkąta. Otrzymuje się:
a
K=
a+b
b
Metoda prostokątów w wyznaczaniu współczynnika K.
Długość podstawy prostokąta i wynosi wi, wysokość
Z i −1 + Z i
wyznacza wzór: Z i = .
2
Z kolei pole i-tego prostokąta oblicza się wg Pi = Z i wi .
Stąd
k k
b = Pi = Z i wi .
i =1 i =1
Zatem
k
Z i −1 + Z i
k
0,5 − Z i wi 0,5 − wi
= = 2
K= i 1 = i 1
0,5 0,5
k
= 1 − (Z i −1 + Z i )wi
i =1
Uwaga,
0K1
Przykład
Rachunek stopnia koncentracji w grupie 4000
nabywców, którzy łącznie zakupili 14200 sztuk
opakowań produktu A, przedstawia tabela 1.
Tabela 1. Rachunek współczynnika koncentracji
Liczba Liczba Sumy Udziały Skumulowane Skumulowane
opakowań nabywców Częstości wartości sum częstości udziały
(Zi-1+Zi)
xi ni wi xini wartości Wi Zi
wi
zi
1 2700 0,675 2700 0,1901 0,675 0,1901 0,1283
5 700 0,175 3500 0,2465 0,850 0,4366 0,1097
10 400 0,100 4000 0,2817 0,950 0,7183 0,1155
20 200 0,050 4000 0,2817 1,000 1,000 0,0859
K = 1 – 0,4394
Wykład 5. Współzależność zjawisk ekonomicznych.
Badanie związku cech
Analiza rozkładów dwuwymiarowych
Plan wykładu:
1. Określenie charakteru związków w przypadku zjawisk
ekonomiczno-społecznych.
2. Wyszczególnienie różnych rodzajów związków.
3. Omówienie metod badania związku cech – kryteria
wyboru odpowiedniej metody
1. Charakter związków w przypadku zjawisk ekonomiczno-
społecznych
Przykładowe związki:
o związek między wydajnością pracy a stażem pracy,
o związek między wynagrodzeniami a kwalifikacjami
pracowników,
o związek między wydatkami na żywność
gospodarstwa domowego a liczbą członków rodziny
itp.
Polecenie: Podać inne
przykłady domniemanych
związków między
zjawiskami ekonomiczno-
społecznymi
Pytanie:
Czy związki pomiędzy zjawiskami ekonomiczno-społecznymi
mają charakter związków funkcyjnych, czy tzw. związków
W celu sformułowania odpowiedzi, warto uświadomić
stochastycznych? sobie, że zależność funkcyjna charakteryzuje się tym, że
określonej wartości zmiennej niezależnej odpowiada
jedna i tylko jedna wartość zmiennej zależnej.
Y = f (X ) Y = f ( X ) +
2. Rodzaje związków
• Związki przyczynowo-skutkowe
• Związki symptomatyczne
• Związki pozorne
➢ Obiektywny charakter
➢ Siła sprawcza przyczyny w stosunku do skutku
➢ Asymetryczność
➢ Odstęp czasowy między przyczyną a skutkiem
k k
(
ix − x ) 2
n (
i i
x − x )2
ni
S 2 ( x ) = i =1 i =1
n n
(y j − y ) (y j − y )2 n j
l l
2
n j
j =1 j =1
S 2 ( y) =
n n
Charakterystyki rozkładów warunkowych:
▪ średnie
k k
xi nij xi nij
x j = i =1 i =1
n j n j
l l
y j nij y j nij
j =1 j =1
yi =
ni ni
▪ wariancje
k k
( xi − x ) 2
nij ( xi − x )2 nij
S 2j ( x ) = i =1 i =1
n j n j
( ) ( )
l l
jy − y nij j
2
y − y 2
nij
j =1 j =1
Si2 ( y ) =
ni ni
5. Wykorzystanie tablicy korelacyjnej do wstępnej oceny
związku cech
2
Txy = Tyx = +
n (k − 1)(l − 1)
Warunki stosowania:
➢Zależność między zmiennymi ma charakter liniowy
➢Dane są ujmowane w tablicy korelacyjnej
➢Zmienne mogą nie być mierzalne sensu stricto
Własności:
• Mierzy siłę zależności
• Przyjmuje wartości z przedziału [0, 1]
• Jest symetryczny
Współczynnik Cramera
2
V =+
n min( k − 1, l − 1)
Własności:
• Przyjmuje wartości z przedziału [0, 1]
• Może być obliczany na podstawie dowolnej tablicy
korelacyjnej (w odróżnieniu od kolejnego – patrz niżej)
Współczynnik Yule’a
2
=
n
Własności:
• Przyjmuje wartości z przedziału [-1, 1]
• Stosowany jest dla tablicy czterodzielnej
Można ustalić następujący schemat tablicy czterodzielnej:
X Y ni .
1 2
1 a b a+b
2 c d c+d
n. j a+c b+d n
Współczynnik można teraz wyrazić wzorem:
ad − bc
=
(a + b )(a + c )(b + d )(c + d )
Uwaga,
Znak oraz krańcowe wartości współczynnika zależą od
uszeregowania liczebności w poszczególnych polach tablicy
korelacyjnej.
Wartość „0” omawianego współczynnika oznacza, że cechy
są niezależne, – „1” lub „-1”, że istnieje między nimi
zależność funkcyjna. Jednak nie należy na podstawie znaku
współczynnika wyciągać wniosku o kierunku zależności.
Wnioski:
✓W tym wypadku interpretuje się jedynie wartość
bezwzględną współczynnika.
✓wartość wyliczoną według wzoru powyżej skorygować
(patrz dalej) .
Współczynniki Cole’a
ad − bc
kor = , gdy 0
n min (b, c ) + (ad − bc )
ad − bc
kor = , gdy 0
n min (a, d ) − (ad − bc )
Współczynnik kontyngencji Pearsona
2 2
C=+ 2 =+
+n 1+ 2
Własności:
• Przyjmuje wartości z przedziału [0, 1]
• Wartość „0” osiąga w przypadku niezależności cech
• Górna wartość uzależniona jest od liczby wierszy i kolumn
w tablicy korelacyjnej (im więcej jest wierszy i kolumn,
tym wartość C jest większa)
Wniosek: Wartość współczynnika C należy rozpatrywać
relatywnie do wartości maksymalnej.
Zatem
l −1
Cmax = ,
l
gdzie l – liczba kolumn w tablicy kwadratowej
lub
k −1 l −1
+
Cmax = k l .
2
Ostatecznie
C
Ckor =
Cmax
❖Przykład
Badanie związku między dwiema cechami nominalnymi
Wniosek:
Istnieje związek między badanymi zmiennymi
2
Txy = T yx = +
n (k − 1)(l − 1)
Pomiaru korelacji można dokonać też bez wcześniejszego
obliczenia statystyki 2 i weryfikacji hipotezy o niezależności
stochastycznej (test 2 pozwala na ocenę statystycznej
istotności badanego związku). Postępuje się tak zazwyczaj dla
cech mierzonych na wyższych niż nominalna skalach
pomiaru. Wtedy najpierw określamy siłę korelacji, a dopiero
potem jej statystyczną istotność.
Pomiar korelacji w przypadku cech porządkowych
(współczynniki korelacji rang)
Współczynnik Spearmana
n
di2
rd = 1 − 6 i =1
(
n n −1
2
)
gdzie: di = yi - xi – różnica rang nadanych poszczególnym
cechom, n – liczba obserwacji.
Własności:
• Stosowany w przypadku uporządkowań tzw. mocnych
• Przyjmuje wartości z przedziału [-1, 1]
• Znak współczynnika informuje o zgodności (zbieżności)
lub niezgodności (rozbieżności) nadanych rang (ocen)
• Wartość bezwzględna określa siłę współwystępowania
(zgodności) nadanych rang lub też siłę rozbieżności
(niezgodności) nadanych rang.
❖ Przykład
Badanie związku między dwiema cechami porządkowymi
Tabela poniżej przedstawia oceny wystawione przez dział marketingu
dotyczące lojalności odbiorców oraz wizerunku marek konkurujących na pięciu
rynkach, na których firma prowadzi działalność.
Ocena lojalności Ocena wizerunku
Rynek w skali od 1 do 5 marek
konkurencyjnych
w skali od 1 do 5
A 1 4
B 5 1
C 3 3
D 2 5
E 4 2
Należy ocenić, czy oceny działu marketingu dotyczące lojalności odbiorców
oraz wizerunku marek konkurencyjnych na poszczególnych rynkach wykazują
rozbieżność? Inaczej mówiąc pytamy, czy opinia o spadku stopnia lojalności
odbiorców wiąże się z poprawą wizerunku marek konkurencyjnych?
Współczynnik Kendalla
2R
b = −1
n(n − 1) n(n − 1)
− Tx − Ty
2 2
gdzie:
t xi , t yi – liczba rang powiązanych w każdej i-tej podgrupie
1w
(
Tx = t xi t xi − 1 ;
2 i =1
) rang w uszeregowaniu odpowiednio według cechy X i Y;
w – liczba podgrup z rangami powiązanymi w zbudowanym
uporządkowaniu;
1w
(
Ty = t yi t yi − 1 ;
2 i =1
) R – liczba par tych rang, które po uporządkowaniu według
pierwszej cechy, czyli gdy, dla j > i zachodzi xj xi,
zachowują relację: dla j > i zachodzi yj yi dla cechy drugiej,
kolejno dla każdego j = 1, 2, ..., n;
n – liczba jednostek objętych badaniem.
2R
a = − 1.
n(n − 1)
2
Przykład badania związku między dwiema cechami porządkowymi –
uporządkowania słabe (rangi wiązane).
w dla X – 2, w dla Y – 1;
t xi , t yi – 2, 2; 3
Tx = ½[2(2-1)+(2(2-1)] = 2
Ty = ½[3(3-1)] = 3
R=0+0+0+0=0
n=5
Inny przykład związku między cechami porządkowymi:
Niech przedmiotem badania będzie poziom rozwoju społecznego i
gospodarczego województw w Polsce.
Badana zbiorowość to: 16 województw, cechy zmienne to: Y –
rozwój społeczny, X – rozwój gospodarczy.
Uwaga, przyjmuje się tutaj, że zmienne X i Y mają charakter porządkowy.
Oznacza to, że województwa zostaną uporządkowane z jednej strony ze
względu na poziom rozwoju społecznego, z drugiej zaś ze względu na
poziom rozwoju gospodarczego.
Warunki stosowania:
➢Badana zależność jest liniowa
➢Obie cechy są mierzalne
n
( xi − x )( yi − y )
rxy = i =1
n n
( xi − x ) ( yi − y )2
2
i =1 i =1
Dla danych w postaci tablicy korelacyjnej
( xi − x )(y j − y )nij
l k
j =1i =1
rxy =
nS ( x )S ( y )
Własności:
• Jest symetryczny
• Mierzy siłę i kierunek zależności
• Przyjmuje wartości z przedziału [-1, 1]
❖ Przykład
Badanie związku między dwiema cechami mierzalnymi sensu stricto
xi 2,0 1,0 0,8 1,1 3,5 1,6 1,0 2,0 1,8 2,5 2,4 2,0 1,5 2,3 1,7
yi 75 40 50 39 98 70 55 83 73 70 90 85 64 80 60
Należy wypowiedzieć się na temat istnienia, charakteru i siły
badanego związku.
Polecenie: Proszę zinterpretować prezentowany na
wykresie rozrzut punktów
______
S 2 ( yi )
S ( yi ) + Si2 ( y )
e yx = + = = 1−
S ( y) S( y)
2
S2
( y)
Analogicznie wyznacza się wskaźnik korelacyjny mierzący
zależność X od Y, tj.:
______
S 2 (x j ) S (x j )
( ) + S 2j x
exy = + = = 1−
S (x) S (x)
2
S (x) 2
Z N B
18 20 10
22 18 11
22 19 12
23 21 11
22 20 11
23 20 11
19 18 10 yśr S^2(y)
ŚREDNIA 21,28571 19,42857 10,85714 17,19048 S^2(y) S^2(y)
WARIANCJA 3,346939 1,102041 0,408163 1,619048 20,63039 22,24943
eyx 0,962929
______
S ( yi ) S ( yi ) +
2
Si2 ( y )
e yx = + = = 1−
S ( y) S( y)
2
S ( y)
2
Zadanie
Zapytano dwóch studentów o sposób zbadania zależności między
wydatkami na kulturę a wykształceniem pewnej zbiorowości Polaków.
Według pierwszego z nich do badania należy określić warianty badanych
cech, policzyć współczynnik korelacji liniowej Pearsona i dokonać jego
interpretacji. Drugi ze studentów odpowiedział, że należy określić warianty
badanych cech, policzyć statystykę 2 , a następnie obliczyć współczynnik
Czuprowa. Otrzymany wynik oczywiście zinterpretować. Czy Twoim
zdaniem rację miał: (a) pierwszy ze studentów, (b) drugi, (c) obaj, ponieważ
są to dwa równoważne sposoby rozwiązania tego samego problemu, (d)
żaden, ponieważ należało postąpić następująco … (opisać, jak), (e) jedna z
odpowiedzi (a) – (c) jest prawidłowa (wskazać, która), ale można było
również postąpić następująco … (opisać, jak).
Wykład 6. Analiza tendencji rozwojowej w przebiegu
zjawisk ekonomicznych
Określenie 2.
Trendem nazywa się pewną tendencję rozwojową w przebiegu
analizowanego zjawiska Yt. Przedstawia on zmiany w czasie
wartości średniej tego zjawiska.
Obroty p-stwa produkcyjno-handlowego
4500000
2500000
2000000
obroty
1500000
1000000
500000
0
maj
lipiec
maj
lipiec
maj
lipiec
styczeń
styczeń
styczeń
marzec
marzec
marzec
wrzesień
wrzesień
wrzesień
listopad
listopad
listopad
obroty
3000000
2000000
1000000
0
maj
lipiec
maj
lipiec
maj
lipiec
maj
lipiec
maj
lipiec
maj
lipiec
styczeń
styczeń
styczeń
styczeń
styczeń
styczeń
marzec
marzec
marzec
marzec
wrzesień
wrzesień
wrzesień
marzec
marzec
wrzesień
wrzesień
wrzesień
listopad
listopad
listopad
listopad
listopad
listopad
1997 1998 1999 2000 2001 2002
• Metoda mechaniczna
4000000
3500000
3000000
2500000
2000000 obroty
średnia
1500000
Po zastosowaniu średniej
1000000
ruchomej szereg jest
500000 bardziej wygładzony, a
zatem tendencja rozwojowa
0
bardziej widoczna. Efekt ten
lipiec
lipiec
lipiec
maj
maj
maj
styczeń
styczeń
styczeń
marzec
marzec
marzec
wrzesień
wrzesień
wrzesień
listopad
listopad
listopad
uzyskujemy kosztem
2000 2001 2002
skrócenia szeregu.
4000000
obroty
3000000
średnia
2000000
1000000
0
lipiec
lipiec
lipiec
lipiec
lipiec
lipiec
styczeń
kwiecień
kwiecień
kwiecień
styczeń
kwiecień
kwiecień
październik
styczeń
październik
styczeń
październik
styczeń
kwiecień
październik
październik
styczeń
październik
1997 1998 1999 2000 2001 2002
2500000
2000000 obroty
Liniowa (obroty)
1500000
1000000
500000
0
maj
lipiec
maj
lipiec
maj
lipiec
styczeń
styczeń
styczeń
marzec
marzec
marzec
wrzesień
wrzesień
wrzesień
listopad
listopad
listopad
2000 2001 2002
5000000
4000000
obroty
3000000
Wielom. (obroty)
2000000
1000000
0
lipiec
lipiec
lipiec
lipiec
lipiec
lipiec
kwiecień
styczeń
styczeń
kwiecień
kwiecień
styczeń
kwiecień
kwiecień
październik
styczeń
październik
październik
październik
styczeń
październik
styczeń
kwiecień
październik
1997 1998 1999 2000 2001 2002
Yt = 0 + 1t + t ,
gdzie:
Yt – zmienna mierząca poziom badanego zjawiska w okresie t,
t – zmienna czasowa,
0 , 1 – parametry strukturalne funkcji trendu,
t – resztowa zmienna losowa.
Empiryczny model ekonometryczny (po oszacowaniu
parametrów):
yˆt = a0 + a1 t ,
S (a0 ) S (a1 )
gdzie:
n n n
n yt t − yt t
a1 = t =1 t =1 t =1 , a0 = y − a1t
n n 2
n t − t
2
t =1 t =1
Uproszczone wzory otrzyma się, gdy przyjmie się, że
t = t − t . Wtedy
n n
yt t yt
a1 = t =1 ; a0 = t =1 =y
(t )
n n
2
t =1
Parametry modelu trendu liniowego można obliczyć również
według następujących wzorów macierzowych:
a0
(
a = = XT X )−1
XT y
a1
lub
−1
a T
a = = X X X y,
0 T
a1
gdzie:
1
1
1 1
y1
1 2 1 − 5 y
2
X = 1 3 , X = 1 − 4 , y = y3
1 n 5 yn
1
Błędy ocen parametrów – pierwiastki z elementów na
przekątnej macierzy wariancji-kowariancji:
2 2
(
D (a ) = S (u ) X X
T
)
−1 S 2 (a0 )
=
~
,
S (a1 )
2
~
gdzie
1 n
S (u ) =
2
( yt − yˆt )2
n − 2 t =1
Model trendu liniowego jako predyktor:
yT , p = a0 + a1T , (*)
yT , p = X T a ,
gdzie:
X T = 1 T ,
a – jak wyżej.
❖ Ocena dokładności prognoz
❑ błędy ex ante
❑ błędy ex post
VT = Su2 1 +
(
XT X XT
)
−1
X TT
✓Oblicza się względny błąd prognozy:
VT
VT =
yT , p
✓Wyznacza się błąd graniczny
np.
VG = 0,10
VT VG
Ad. trafności prognozy
T = yT − yT , p
yT − yT , p
T =
yT
✓Wyznacza się błąd graniczny G
yt t0
yt0 =
z
gdzie:
yt0 – wartość obserwowanego zjawiska przy założeniu, że
wszystkie jednostki czasu (miesiące, kwartały) mają
jednakową liczbę dni,
yt – wartość zjawiska faktycznie zaobserwowana w czasie t,
t0 – liczba dni przyjęta za podstawę porównywalności
z – rzeczywista liczba dni kalendarzowych w danej jednostce
czasu.
Ocena przeciętnego poziomu zjawiska w czasie
y1 + y2 y2 + y3 y +y
+ + ... + n−1 n
ych = 2 2 2
n −1
1 1
y1 + y2 + ... + yn−1 + yn
=2 2
n −1
Ocena zmian w czasie poziomu jednorodnych zjawisk –
mierniki dynamiki
1. Przyrost absolutny
2. Przyrost względny (tempo wzrostu)
3. Wskaźniki dynamiki (indeksy)
Ad 1.
Jest to różnica pomiędzy poziomem zjawiska w okresie
(momencie) badanym a poziomem zjawiska w okresie
(momencie) przyjętym za podstawę porównań.
Jeśli za podstawę porównań przyjmiemy okres (moment)
poprzedni, to otrzymamy:
yt = yt − yt −1
y2 − y1 y3 − y1 yn−1 − y1 yn − y1
, , ..., ,
y1 y1 y1 y1
Interpretacja
Przyrosty względne odpowiadają na pytanie, o ile wyższy lub
niższy jest poziom badanego zjawiska w danym okresie w
stosunku do okresu przyjętego za podstawę.
Ad 3.
Wskaźniki dynamiki są to wielkości otrzymane przez
podzielenie wartości danego zjawiska w okresie badanym
przez wartość zjawiska w okresie podstawowym tj.:
yt
i= ,
yt0
Przykład 4.
Ciąg indeksów łańcuchowych zapiszemy jako:
y2 y3 yn−1 yn
, , ..., ,
y1 y2 yn−2 yn−1
Z kolei, ciąg indeksów o stałej podstawie:
y1 y2 y3 yn−1 yn
, , , ..., , ,
y1 y1 y1 y1 y1
gdy t0=1
yt yt −1 yt y1 y
: = = t
y1 y1 y1 yt −1 yt −1
Na przykład,
y1 y2 y3 y y
, , , ..., n−1 , n
y1 y1 y1 y1 y1
y2 y2 y1 y2 y1 y3 y3 y2 y3 y1
= : = , = : = , ...
y1 y1 y1 y1 y1 y2 y1 y1 y1 y2
▪ Natomiast zamiany indeksów łańcuchowych na
jednopodstawowe dokonujemy następująco:
y2 y3 yn−1 yn
y g = n−1 ...
y1 y2 yn−2 yn−1
,
n yt
= n−1
t =2 yt −1
co po uproszczeniu daje:
yn
yg = n −1
y1
Obliczone w ten sposób średnie tempo zmian zjawiska można
wykorzystać do wyznaczenia przyszłych jego wartości.
Mianowicie
yn+1, p = yn y g
Ogólnie:
yn+ , p = yn y g
Wykład 8. Analiza dynamiki zjawisk masowych cd.
p
ip = 1 ,
p0
q1
iq = ,
q0
q p w
iw = 1 1 = 1 ,
q0 p0 w0
iw = i p iq
Ad 2) Indeksy zespołowe (agregatowe) wykorzystuje się, gdy
bada się dynamikę zmian odnośnie do całego zespołu
(agregatu, zbioru) jednostek.
m
qi1 pi1
I w = im=1 ,
qi 0 pi 0
i =1
m
qi1 pi1
I w = im=1
qi 0 pi 0
i =1
✓Interpretacja:
Indeks ten informuje, w jakim stosunku pozostaje wartość
agregatu z okresu badanego do wartości agregatu z okresu
podstawowego. Wyraża on zmiany, jakie nastąpiły w
wartościach określonego zespołu wyrobów w okresie
badanym w porównaniu z okresem podstawowym, przy czym
zmiany te uwarunkowane są zmianami dwóch czynników:
ilości i cen.
m
qi1 pi1
I w = im=1
qi 0 pi 0
i =1
Uwaga,
Indeks wartości przedstawia zmiany wartości będące
wypadkową zmian ilości oraz cen i nie informuje, który z
tych czynników odegrał główną rolę we wzroście lub spadku
wartości.
Wniosek:
Należy rozważać także agregatowe indeksy cen oraz
agregatowe indeksy ilości (masy fizycznej).
Agregatowy indeks cen wyraża się wzorem:
m
qi• pi1
I p = im=1 ,
qi• pi 0
i =1
gdzie:
Ip – agregatowy indeks cen, q• – stała ilość wyrobu, p1, p0 –
cena jednostkowa w okresie badanym i podstawowym.
m
qi• pi1
I p = im=1
qi• pi 0
i =1
➢ Indeks cen typu Laspeyresa
m
qi 0 pi1
I = i =1
L p m
qi 0 pi 0
i =1
m
qi1 pi1
PIp = im=1
qi1 pi 0
i =1
m
qi1 pi•
I q = im=1 ,
qi 0 pi•
i =1
m
qi1 pi•
Iq = i =1
m
qi 0 pi•
i =1
➢ Indeks ilości typu Laspeyresa
m
qi1 pi 0
L Iq = im=1
qi 0 pi 0
i =1
m
qi1 pi1
I = i =1
P q m
qi 0 pi1
i =1
F Ip = L I p P I p
F Iq = L I q P I q
▪ Równość indeksowa:
I w = L I p P I q = P I p L I q = F I p F I q
Zadanie
Zużycie oraz ceny trzech produktów A, B, C w latach 2006 i 2009
kształtowały się następująco:
3
q1i p0i
i =1 54,6 0,38 + 552,1 0,11 + 399,3 0,05
I
L q = = =
3 70,1 0,38 + 590,7 0,11 + 400,2 0,05
q0i p0i
i =1
= 0,9088 Przy cenach stałych z 2006 r. przeciętny spadek
masy fizycznej wyniósłby 9,12%.