You are on page 1of 44

Statisztika I.

2. előadás
Mennyiségi ismérv
szerinti elemzés I.
A sokaság mennyiségi ismérv
szerinti elemzése
Mennyiségi ismérv: - diszkrét
- folytonos

N elemű sokaság, Y ismérv

Y1 , Y2 , ... , Yi , ..., YN


Rangsor készítés: Yi (az Y értékeket nagyság
szerint növekvő sorba rendezzük)
Tejfeldolgozó vállalkozások
foglalkoztatott létszáma, fő (N=77)
1 2 6 22 55 89 173 497
1 2 6 25 58 92 176 553
1 3 7 25 65 95 178 656
1 3 8 26 65 106 211 732
1 3 10 33 65 118 211 760
1 3 11 35 67 120 287 1069
2 3 12 36 73 121 302 1286

2 4 15 37 77 130 391

2 4 20 43 78 148 401

2 6 20 49 89 172 494
Információ tömörítése
S ok as ág : 1 ,2 , ... ,N a) G y a k o risá g i
I s m é r v é r t . : Y1 ,Y 2 ,. .. ,Y N so r
Yi fi
. .
. .
Σ N

b ) K v a n tilise k

T ö m ö r je lle m z é s
• k ö z é p é rté k ek
• szó ró dá si m érő szá m o k
• a s z i m m e t r i a m u ta t ó k
• csú cs os ság i m é rős zám ok
Gyakorisági sor készítése
a) Diszkrét ismérv (kevés változat)
Ismérvváltozat Gyakoriság
(ismérvérték)
Yi fi
Y1 f1
Y2 f2
M M
Yk fk
Összesen (Σ) N
Diszkrét gyakorisági sor
A magyar családok gyermekszám szerinti
megoszlása a 2001-es népszámlálás
időpontjában
Gyakorisági sor készítése
b ) F o lyto no s is m érv , ille tv e dis zk rét ism érv és
s ok v áltoz at

O sztá lyk öz O sz tály - G y ak oris ág


Yi 0 − Yi1 kö zé p fi
Y1 0 − Y11 Y1 f1
Y2 0 − Y21 Y2 f2
M M M
Yk 0 − Yk1 Yk fk
Σ N
Az osztályközök számának
meghatározása

• a g y a k o r l a t b a n 5 - 1 5 o s z tá l y á l t a l á b a n
e leg en d ő

• k = 1 + 3 , 3 ⋅ lg N

Y m a x − Y m in
h =
k

aho l h az o sz tá ly k ö z ö k h o ssz a
k
• 2 0
>N

Y m ax − Y m i n
h 0
=
k0
Mennyiségi sorok fajtái
Az ismérv fi si
változatai fi gi = fi′ gi′ si = fY
i i
zi = si′ zi′
Yi N s
1. 2. 3. 4. 5. 6. 7. 8. 9.
Y1 f1 g1 f1 gi s1 z1 s1 z1
Y2 f2 g2 f1 + f2 g1 + g2 s2 z2 s1 + s2 z1 + z2
. . . . . . . . .
. . . . . . . . .
Yk fk gk N 1 sk zk s 1
Σ N 1 - - s 1 - -
Osztályközös mennyiségi sorok
Yi,0 −Yi,1 fi Yi ~S =f ⋅ Y fi '
S '
i i i i
-10 25 5 125 25 125

11-50 15 30 450 40 575

51-100 13 75 975 53 1550

101-500 18 300 5400 71 6950

501-1000 4 750 3000 75 9950

1001- 2 1250 2500 77 12450

Összesen 77 12450 - -
További sorok
Létszám gi zi gi’’ zi’ fi*
-10 32.5 1.0 32.5 1.0 25
11-50 19.5 3.6 51.9 4.6 3.75
51-100 16.9 7.8 68.8 12.4 2.6
101-500 23.4 43.4 92.2 55.8 0.45
501-1000 5.2 24.1 97.4 79.9 0.08
1001- 2.6 20.1 100 100 0.04
Összesen 100 100
Kvantilisek
A rangsorba rendezett sokasá got k
egyenlő részre osztják.

k E lnevezés Jelölés

k=2 M edián Me
k=4 Kvartilis Q1, Q 2 , Q 3
k=5 Kvintilis K1, K 2 , K 3 , K 4
k=10 Decilis D 1, D 2 ,..., D 9
k=100 Percentilis P1 , P2 , ..., P99

Általános jelölés: Yi/ k = Yp (pl. M e = Y0,5 )


Kvantilisek meghatározása
a) Egyedi értékek esetén rangsorból

1. Yi/ k kvantilis sorszáma:


i
si / k = ( N + 1 )
k

ahol: N a sokaság tagszáma


k az egyenlő részek száma
i 1,2,...,(k-1) az adott
kvantilisen belüli sorszám
2. A rangsorból a sorszám hoz tartozó
érték megkeresése/becslése
Kvantilisek
 Me=43 fő (a 39. a rangsorban)
 Q1=5 fő (19,5 a sorszám, tehát a rangsor
19. és 20. adatának , 4 és 6-nak
az átlaga)
 Q3= 139 fő (58,5 a sorszám tehát 130 és
148 átlaga)
 D1= 2 fő (7,8 a sorszám, a 7. és 8. is 2)
 D9= 494,6 fő (70,2 a sorszám, tehát
494+0,2.(497-494))
Kvantilisek meghatározása

b) osztályközös gyakorisági sorból becslés


i
osztópont: N
k

i  hq
Yi / k = Yq 0 +  N − f q′−1 
k  fq
Megjegyzések a kvantilisek
használatához
 diszkrét ismérv esetén, ha sok egyező
érték van, ne használjuk;

 folytonos ismérv esetén se, ha kevés a


megfigyelés és több egyező érték van.
Mennyiségi sorok grafikus
ábrázolása
 leveles ág (stem-and-leaf) ábra
 doboz (box-and-whiskers) ábra
 pálcika ábra – gyakoriságnak megfelelő
hosszúságú „pálcikák”
 hisztogram
 gyakorisági poligon – a hisztogram
vonaldiagram változata
 ogiva – kumulált gyakorisági sor
vonaldiagramja
A tejipari vállalatok létszám szerinti
eloszlását jellemző hisztogram
f*
30

25

20

15

10

0
10

30

50

70

90

110

130

150

170

190

210

230

250

270

290

310

330

350
Gyakorisági eloszlások fő
jellegzetességei
 Helyzet (közepes érték helye a
számegyenesen): helyzetmutatók
(középértékek)
 Szóródás (az ismérvértékek
különbözősége): szóródási mérőszámok
 Alak (az eloszlás görbéjének kinézete a
normális eloszláshoz képest):
aszimmetria, csúcsosság mérőszámai
Normális eloszlás gyakorisági görbéje
Középérték nagyságában különböző
gyakorisági sorok (helyzet)
Szóródás nagyságában különböző
gyakorisági sorok (szóródás)
Alak szerint különböző
gyakorisági sorok (aszimmetria)
KÖZÉPÉRTÉKEK
(helyzet-mutatók)

Átlagok Helyzeti középértékek

Számtani (Y ) Módusz (Mo)

Harmonikus (Yh ) Medián (Me)

Mértani (Yg )

Négyzetes (Yq )
Középértékek jellemzői
 A mennyiségi ismérvet egyetlen számmal
jellemzik
 Dimenzió, mértékegység: Y ismérv
mértékegysége
 Követelmények
- közepes helyzetűek,
- tipikusak,
- egyértelműen meghatározhatók,
- könnyen értelmezhetők legyenek
Medián

• Egyedi adatokból:
N +1
a rangsorban az -edik érték
2
• Osztályközös gyakorisági sorból, a
kvantilisek becslésénél megismert formula
alapján:
N
− f me′ −1
~
M e ≈ Y me , 0 + 2 ⋅ h me
f me
Medián becslése a példában

~ (77 / 2) − 25
Me = 10 + ⋅ 40 = 46 fő
15
A vállalkozások fele 46 főnél kisebb, fele
pedig 46 főnél magasabb létszámot
foglalkoztat.
Medián tulajdonságai

• nem érzékeny a szélső értékekre


• ∑ Yi − A = minimum, ha A=Me
(összességében a hibák abszolut
értékeinek összege minimális)
• sorrendi, intervallum és arány skálán
használható
• induktív statisztikai célra nem nagyon
alkalmas
Módusz
 diszkrét ismérv: a leggyakrabban
előforduló ismérvérték

 folytonos ismérv: a gyakorisági görbe


maximumához
tartozó érték
Normális eloszlás gyakorisági
görbéje
Módusz becslése osztályközös
gyakorisági sorból

~ da
Mo = Ymo,0 + ⋅ hmo
da + d f

Nem egyenlő osztályközök esetén:


fi
a módusz becslése az átszámított
hi
gyakoriságok alapján történik.
Módusz a példában
A nem egyenlő osztályközök miatt a hiszto-
gramnál alkalmazott, azonos hosszúságra
átszámított (11. dia) gyakoriságokat hasz-
juk.

~ 25− 0
Mo = 0 + ⋅10= 5,4
(25− 0) + (25− 3,75)
Megjegyzések a móduszhoz
 tipikus érték
 a kiugró, extrém értékekre érzéketlen
 valamennyi mérési skála esetén
alkalmazható
 nem mindig létezik, nem mindig lehet
egyértelműen meghatározni
 induktív statisztikai célra általában nem
alkalmas
Számított középértékek, átlagok
∑ Yi ∑ f i Yi
Számtani Y = Y =
N ∑ fi

N ∑ fi
Harmonikus Yh = Yh =
∑ 1 / Yi ∑ f i / Yi

Mértani Yg = N Π Yi Yg = Σ fi
Π Yi f i

2 2
∑ Yi ∑ f i Yi
Négyzetes Yq = Yq =
N ∑ fi
Példák a különböző átlagokra
yi y yh yg yq

Ugyanazon pozitív értékekből


számított átlagok nagyságrendje

ymin ≤ yh ≤ yg ≤ y ≤ yq ≤ ymax
Súlyokról
 Súlyozott átlag esetén:
Yi átlagolandó érték
f súly
i
fi
 Súlyként = gi is használható
N
Y = ∑ giYi (∑ g i = 1)
 A súlyozott számtani átlag nagysága függ:
1) az átlagolandó értékek abszolút nagyságától
2) a súlyarányoktól (súlyok egymáshoz való
arányától)
Átlag a példában
 Egyedi adatokból
ΣYi 10753
Y = = = 139,6 fő
N 77

 Gyakorisági sorból (10. dia)


~ Σ f i ⋅ Yi 12450
Y = = = 161 , 7 fő
Σfi 77
A számtani átlag néhány
tulajdonsága

1) Az átlagtól vett eltérések (előjeles hibák)


összege nulla
∑ (Yi − Y ) = 0
2) ∑ (Yi − A ) = minimum, ha A = Y azaz a
2

hibák négyzeteinek összege minimális. Négyzetes


minimum tulajdonság.

3) Ha Li = A + BYi akkor L = A + BY
Megjegyzések az átlag
tulajdonságaihoz:
 egyértelműen meghatározható

 valamennyi értékkel algebrai


kapcsolatban áll

 kiugróan magas értékekre fokozottan


érzékeny (Nyesett átlag – trimmed
mean)
Példa: a 95-ös benzin ára 2007. végén

Átlag 279,1
Median 279,9
Minimum 265,9
Maximum 290,9
Terjedelem 25
Elemszám 910
Ábra: Stem and leaf
 Stem-and-Leaf Plot

 yakoriság Stem & Leaf

 2,00 26 . 5
 11,00 26 . 677
 33,00 26 . 88889999999
 51,00 27 . 00000000111111111
 68,00 27 . 2222222223333333333333
 97,00 27 . 444444444444444444445555555555555
 118,00 27 . 6666666666666666666777777777777777777777
 146,00 27 . 8888888888888888899999999999999999999999999999999
 127,00 28 . 0000000000000000000001111111111111111111111
 131,00 28 . 2222222222222222222222333333333333333333333
 88,00 28 . 44444444444444445555555555555
 26,00 28 . 66666777
 10,00 28 . 899
 2,00 29 . 0

 Stem width: 10,00


 Each leaf: 3 case(s)
Ábra: Hisztogram
Kvantilisek
 Alsó decilis 271,9 Ft
 Alsó kvartilis 275,8 Ft
 Medián 279,9 Ft
 Felső kvartilis 282,9 Ft
 Felső decilis 284,9 Ft
Ábra: Box-plot

You might also like