Professional Documents
Culture Documents
Statisztika PDF
Statisztika PDF
Katalin
STATISZTIKA
Készült a HEFOP 3.3.1-P.-2004-09-0102/1.0 pályázat támogatásával.
A dokumentum használata
Mozgás a dokumentumban
A dokumentumban való mozgáshoz a Windows és az Adobe Reader meg-
szokott elemeit és módszereit használhatjuk.
Minden lap tetején és alján egy navigációs sor található, itt a megfelelő
hivatkozásra kattintva ugorhatunk a használati útmutatóra, a tartalomjegy-
zékre, valamint a tárgymutatóra. A ◄ és a ► nyilakkal az előző és a követ-
kező oldalra léphetünk át, míg a Vissza mező az utoljára megnézett oldalra
visz vissza bennünket.
A tartalomjegyzék használata
Ugrás megadott helyre a tartalomjegyzék segítségével
Kattintsunk a tartalomjegyzék megfelelő pontjára, ezzel az adott fejezet
első oldalára jutunk.
Keresés a szövegben
A dokumentumban való kereséshez használjuk megszokott módon a
Szerkesztés menü Keresés parancsát. Az Adobe Reader az adott pozíció-
tól kezdve keres a szövegben.
Tartalomjegyzék
1. Bevezetés ........................................................................................ 7
1.1. A statisztika fogalma.................................................................................... 7
1.2. Alapfogalmak................................................................................................ 7
1.3. Összefoglalás .............................................................................................. 22
2. Viszonyszámok............................................................................. 25
2.1. A dinamikus (= időbeli) viszonyszám..................................................... 26
2.2. A területi viszonyszám .............................................................................. 29
2.3. A megoszlási viszonyszám........................................................................ 32
2.4. Az intenzitási viszonyszám....................................................................... 35
2.5. Gyakorló feladatok .................................................................................... 38
2.6. Összefoglalás .............................................................................................. 43
2.7. Mintapéldák korábbi vizsgadolgozatokból............................................. 44
3. Középértékek................................................................................ 47
3.1. A középértékek fogalma ........................................................................... 47
3.2. A számtani átlag ......................................................................................... 48
3.3. A mértani átlag ........................................................................................... 53
3.4. A négyzetes átlag........................................................................................ 55
3.5. A harmonikus átlag.................................................................................... 56
3.6. Módusz........................................................................................................ 57
3.7. Medián......................................................................................................... 59
3.8. Gyakorló feladatok .................................................................................... 63
3.9. Összefoglalás .............................................................................................. 66
3.10. Mintapéldák korábbi vizsgadolgozatokból........................................... 69
4. Szóródás........................................................................................ 77
4.1. A szóródás fogalma ................................................................................... 77
4.2. A szóródás legfontosabb mutatói............................................................ 77
4.3. Gyakorló feladatok .................................................................................... 85
4.4. Összefoglalás .............................................................................................. 85
5. A gyakorisági görbék (eloszlások) alakjának vizsgálata.............. 86
5.1. Szimmetria – aszimmetria......................................................................... 86
5.2. Csúcsosság – lapultság .............................................................................. 90
5.3. Gyakorló feladatok .................................................................................... 90
1. Bevezetés
1.2. Alapfogalmak
1.2.1. Sokaság
Sokaságnak nevezzük azoknak az egyedeknek az összességét (= halma-
zát), melyekre az adatgyűjtés irányul. A sokaságokat különböző szempont-
ok szerint csoportosíthatjuk. A legfontosabb megkülönböztetés:
• álló sokaság;
• mozgó sokaság.
Az álló sokaság állományjellegű, időpillanatra vonatkozik. (pl.: egy
ország lakossága a népszámlálások idején3, egy felsőoktatási intézmény
hallgatói a beiratkozások idején.)
A mozgó sokaság folyamatot tükröz, időtartamra vonatkozik. (pl.:
egy bolt forgalma egy hónap alatt4, egy gyár termelése egy félév alatt, egy
család kiadásai egy év alatt.)
1.2.3. Ismérv
Azokat a tulajdonságokat, melyek alapján a megfigyelt egységek egy so-
kaságot képeznek, vagy éppen elkülönülnek, ismérveknek nevezzük. Az
ismérvek típusai
• közös,
• megkülönböztető;
• időbeli,
• területi,
• mennyiségi,
• minőségi.
A közös ismérv a sokaság minden elemét jellemzi, azok éppen ezek alap-
ján tartoznak a sokasághoz. A megkülönböztető ismérv a sokaság eleme-
inek csak egy-egy részét jellemzi, részsokaságok képzésére ad lehetőséget.
(pl.: Egy egyetem hallgatóinak közös tulajdonsága, hogy az adott időpontban, az adott intéz-
ménybe beiratkoztak; hallgatói jogviszonnyal rendelkeznek; de nem mind ugyanabban a város-
ban vagy községben születtek, más középiskolákban tanultak, más szakterületet választottak stb.)
Az időbeli ismérvek időpontokat vagy időszakokat jelölnek; a területi-
ek földrajzi megkülönböztetést fejeznek ki; a mennyiségiek műveletek
végzésére alkalmas számok, a megfigyelt egységek nagyságát, méretét, kapa-
citását adják meg, ismérvváltozataik diszkrétek8, ill. folytonosak9; a minősé-
gi ismérvek változatai pedig szavakkal megfogalmazható tulajdonságok.
(Példák a felsorolás sorrendjében:
• születési dátum, az érettségi megszerzésének éve;
• születési hely, állandó lakóhely;
• testmagasság (cm; folytonos), ösztöndíj (forint; folytonos), egy tanuló kötelező isko-
lai elfoglaltságának mennyisége (óra; diszkrét), testvéreiknek száma (fő; diszkrét), a
félév végén leteendő vizsgáik (db; diszkrét) stb.;
• családi állapota, foglalkozása, iskolai végzettsége stb.)
a 500
• a relatív hiba pedig α = = ⇒ 0,004942% .
A 10.117.000
1.2.5. Statisztikai adatok rendezése = csoportosítása
Az összegyűjtött illetve kiszámított statisztikai adatokat annak érdekében,
hogy azok áttekinthetőek legyenek, rendezni kell. A rendezés megszokott
formái a statisztikai sorok (= az adatokat egyetlen szempont alapján
csoportosítjuk) és a statisztikai táblák (= az adatokat egyszerre több
szempont szerint csoportosítjuk). A statisztikai sorok fajtái az ismérvekhez
kapcsolhatóak, ill. alkalmazzuk az un. leíró sort, ez egyetlenegy sokasági
egységre vonatkozó különböző jellegű, részben különböző mértékegységű
adatokat sorakoztat fel. A statisztikai táblákat az azokban található össze-
sen-rovatok száma alapján különböztetjük meg. Az adatokból akár soro-
kat, akár táblákat alkotunk, bizonyos formai követelményeknek14 (lásd: 1.2.
sz. tábla) is eleget kell tennünk. Kérjük, tekintse át az alábbi példákat, majd
az azokról készült rövid összefoglalót!
12 Adatforrás: Magyar Statisztikai Évkönyv 2003 (KSH, 2004 – hosszú idősorok, 1. oldal)
13 a = abszolút hiba, α = relatív hiba, A = tényleges adat (= amire kíváncsiak vagyunk),
′
A = közölt adat (= a statisztikai kiadványokban, jelentésekben)
14 A minta-táblából egyetlen formai kellék hiányzik, az összegrovat.
15 A közölt minta alapján a többi sor ill. tábla formai kellékei is azonosíthatóak.
16 Becsült adat.
17 Korév = valakinek az életkora az adott évben (adott év évszáma – születés évszáma)
függetlenül attól, hogy a vizsgálat elvi időpontjában az illető már betöltötte-e az adott
kort vagy sem.
Görögország 4.407 ……
Hollandia 8.432 85 4.314
Írország 1.861 86 3.731
Lengyelország 16.946 87 3.214
Magyarország 4.166 …..
…….. összesen 4.804.113
adatforrás (1.3. sz.tábla): Magyar statisztikai évkönyv 2003 ((KSH, 2004 – nemzetközi adatok,555. oldal)
adatforrás (1.4. sz tábla): Magyar statisztikai évkönyv 2003 (KSH, 2004 –népességi adatok,36. oldal)
1.5.sz. tábla
Külföldi érdekeltségű vállalkozások18 saját tőke szerint, Magyao.-on 2003-ban
saját tőke
– 150 150,1 – 200 200,1 – 250 250,1 – 500 500,1 – 750 750,1 –
(millió Ft)
szervezetek
22.958 362 283 718 315 1.128
(db)
adatforrás: Magyar statisztikai évkönyv 2003 (KSH, 2004 – a gazdasági szervezetek adatai, 289. oldal)
1.6.sz. tábla
A magyarországi közoktatási intézmények az ellátott feladatok
típusa szerint, a 2003/2004 tanévben
az intézmény jellege az intézmények száma (db)
szakiskola 3
középiskola 99
középfokú iskola 163
általános iskola 335
óvoda 861
iskola + kollégium 390
óvoda + iskola + kollégium 42
többcélú intézmény 297
összesen 2.190
adatforrás: Magyar statisztikai évkönyv 2003 (KSH, 2004 – oktatási adatok, 226. oldal)
18A tábla adatai nem tartalmazzák azokat a vállalkozásokat, ahol a külföldi részesedés 10
% alatti, ill. az un. offshore vállalkozások számát.
1.7. tábla
Írország fontosabb adatai, 2004
megnevezés mértékegység19 adat
terület km2 70.283
népesség millió fő 3,96
a népesség összetétele
ír % 94
angol 3
vallások
katolikus 77
%
anglikán 9
presbiteriánus ……
hivatalos nyelvek – ír, angol
főváros – Dublin
a főváros lakossága millió fő 1,0
államforma – köztársaság
az alkotmány kihirdetése – 1937
az önállóság elnyerése – 1921
a törvényhozás létszáma
képviselőház fő 166
szenátus 60
GDP milliárd USD 152,1
GDP/fő USD 38.430
gazdasági növekedés előző évhez % + 1,8
infláció + 2,8
%
munkanélküliség 4,8
pénznem – euró
adatforrás: Zsebvilág 2004, A Föld országai (HVG, 76. old.)
19 A táblák (sorok) egyes rovataiban (celláiban) szereplő jelek: „–” = a rovatban nem
szerepelhet adat; „….” = a rovatba tartozó adat ismeretlen; „000” = az adott nagyság-
renden a rovatban nem szerepelhet adat.
1.8. tábla
Az 1.2.5. fejezetben szereplő statisztikai sorokhoz kapcsolódó fontosabb ismeretek
sorszám típus tudnivalók röviden
1.1. állapot idősor Adatai többszörös halmozódást20 tartal-
maznak, így azok összegzése értelmetlen.
1.2. tartam idősor Adatai összegezhetőek.
∑y i = 987.917 fő21 =
A vizsgált időszakban Magyarországon 987.917
gyermek született.
1.3. területi sor Adatai összegzésének csak akkor lenne értelme, ha a
felsorolt országok valamilyen egységet alkotnának.
14. mennyiségi sor Adatai összegezhetőek.
diszkrét ismérv-
változat
∑y i = 4.804.113 fő =
2004-ben Magyarországnak összesen
4.804.11322 fő férfi lakosa volt.
1.5. mennyiségi sor Adatai összeadhatók,
folytonos is-
mérvváltozat
∑y i = 425.754 db
2003-ban hazánkban összesen 425.754 külföldi
érdekeltségű vállalkozás működött.
1.6. minőségi sor A tábla adatai összeadhatók,
∑y i = 2.190 db
A 2003/2004-es tanévben hazánkban 2.190 olyan
közoktatási intézmény működött, ahol a gyermekek 3
és 1823 éves koruk között tanulhatnak.
1.7. leíró sor A Föld országainak sokaságából kiválasztottunk
egy egységet (= Írország), és erre vonatkozóan
közöltünk különböző jellegű adatokat.
20 Halmozódás = aki már a megfigyelés első évében (1996) is élt, és a megfigyelés utolsó
évében is (2004), azt kilencszer venné számításba az összegzés stb.
21 y = az időpontokhoz, időszakokhoz tartozó adatok statisztikai jelölése
i
22 Ez az adat un. továbbvezetett népességszám. Az előző (2001) népszámlálás adatait
növelik a születések és bevándorlások adataival, ill. csökkentik a halálozások és az elván-
dorlások adataival.
23 Az évismétlők ill. a felnőttképzésben résztvevők esetenként magasabb életkorúak is lehetnek.
24 Teljes termékenységi arány = 1000 egy időben született leánygyermek élete folyamán
(illetve a szülőképeskor felsőhatáráig – 49 év – eljutva) összesen hány gyermeket szül az
adott év termékenységi arányszámának feltételezése mellett. (Köves – Párniczky: Általá-
nos statisztika, KJK, 742. old.)
1.11. tábla
A magyarországi népesség nyelvismerete főbb korcsoportok szerint, 2001.
febr.25
korcsoportok (év)
nyelv26 – 14 15 – 39 40 – 59 60 – összesen
magyar 1.690.679 3.564.984 2.842.430 2.079.130 10.177.223
bolgár 230 1.116 1.281 886 3.513
cigány (roma) 19.931 35.656 16.613 4.871 77.071
görög 351 2.503 1.318 987 5.159
horvát 2.626 13.699 13.557 12.667 42.549
lengyel 680 3.481 5.355 1.690 11.206
német 86.105 544.196 251.833 158.652 1.040.786
örmény 72 215 141 73 501
román 2.603 44.447 28.226 19.445 94.721
ruszin 143 758 763 562 2.226
szerb 1.082 11.006 6.963 6.432 25.483
szlovák 3.090 11.721 17.843 28.010 60.664
szlovén (vend) 358 1.759 1.886 1.640 5.643
ukrán 925 6.229 4.510 2.325 13.989
összesen 1.694.936 3.574.493 2.842.430 2.081.559 10.198.315
adatforrás: Magyar statisztikai évkönyv 2003 (KSH, 2004 – népességi adatok, 42. oldal)
27 A tábla minden adata két statisztikai sorhoz tartozik, így a táblát szokás kétdimenzi-
ósnak nevezni.
28 Az összesen rovat adatai az egyes évek teljes közút hálózatának hosszát adják meg.
29 Állapot idősor, mert az egyik évben már meglévő út benne van a következő évi út-
hosszban is.
30 A tábla adataiból részösszegek is képezhetők (autópálya + autóút = gyorsforgalmi út).
Ha ezeket a részösszegeket is kiszámítottuk volna, akkor további három állapot idősor-
hoz jutottunk volna.
31 Példák az összesen rovat adatainak jelentésére:
1.694.936 = 2001-ben Magyarországon egymillió-hatszázkilencvennégyezer-
kilencszázharminchat 14 éven aluli gyermek élt.
10.177.223 = 2001-ben Magyarországon tízmillió-százhetvenhétezer-
kettőszázhuszonhárom magyar nyelvet beszélő ember élt.
Magyarország népessége
10350
népesség (ezer fő)
10300
10250
10200
10150
10100
1994 1996 1998 2000 2002 2004 2006
évek
30 000
25 000
20 000
15 000
10 000
5 000
0
Franciaország
Hollandia
Lengyelország
Magyarország
Ausztria
Csehország
Dánia
Finnország
Görögország
Írország
országok
0%5%
14% 7%
szakiskola
2%
középiskola
15% középfokú iskola
általános iskola
18% óvoda +
iskola + kollégium
óvoda + iskola + kollégium
többcélú intézmény
39%
A magyarországi közoktatási intézmények az ellátott feladatok
típusa szerint (2003/2004 tanévben)
1.3. Összefoglalás34
statisztika 1. tudomány a módszereket és az eljárásokat foglalja
össze
2. gyakorlati tevé- adatgyűjtés, rendszerezés, feldolgozás,
kenység elemzés
3. adathalmaz az összegyűjtött és rendszerezett adatok
összessége
2. Viszonyszámok
Az összegyűjtött és rendezett statisztikai adatok elemzésére az elméleti statisz-
tika igen sok módszert dolgozott ki. Ezek közül a legegyszerűbbek a viszony-
számok, melyeket két statisztikai adat hányadosaként állíthatunk elő. Leg-
ismertebb és leggyakrabban alkalmazott fajtáit az 2.1. sz. tábla foglalja össze.
2.1. sz. tábla
A viszonyszámok fajtái
típus meghatározás példa36
dinamikus Két különböző időpontra, 10.117
= 0,9787
időszakra vonatkozó adat 10.337
hányadosa. A magyar népesség 2004-es adatát
viszonyítottuk az 1995-ös adathoz.37
területi ösz- Két különböző földrajzi 3.876
= 0,9304
szehasonlító terület azonos jellegű adatá- 4.166
nak hányadosa. Ausztria gazdaságilag aktív népessé-
gének aránya a magyarországi adat-
hoz viszonyítva.38
megoszlási = relatív gyakoriság 2.079.130
= 0,9988
Az összegezhető statisztikai 2.081.559
sorok egyes részadatainak és A 60 éven felüli magyarul beszélő
a sor összesen adatának népesség aránya a teljes 60 éven
hányadosa. felüli népességhez viszonyítva.39
BEMUTATÓ FELADAT
adat
10.337 10.321 10.301 10.280 10.253 10.222 10.200 10.175 10.142 10.117
(ezer fő)
lánc-vsz.
– 99,8 99,8 99,8 99,7 99,7 99,8 99,8 99,7 99,8
(%)
10.301 10.280
li szá- 10.321
– 10.321 10.301 stb.
mítása 10.337
2.4. tábla
Összefüggések:
k
= a k-adik bázisviszonyszám kiszámítható az
bk = Π li
i =1 első k láncviszonyszám szorzataként, ill.,
= a k-adik láncviszonyszám kiszámítható a k-
b adik és a (k-1)-edik bázisviszonyszám hánya-
lk = k
bk −1 dosaként.
brégi ,k
búj ,k = = áttérés új bázisra
brégi , amit bázisul választottunk
BEMUTATÓ FELADAT
50 A futó index első száma jelzi, hogy a bázis (1) vagy a tárgyidőszak (2) adatát, a második
szám pedig az ország sorszámát.
51 Hasonló levezetést végezhetünk az időbeli viszonyszámok alapján is. A következtetés
tökéletesen ugyanaz lesz. (A 2.8. sz. tábla adatait felhasználva próbálja meg!)
Összehasonlítás a számokkal:
vint(16) 64.551
16,67 3.870 = 64.551 * 10.300 = 64.551 : 3.870 = 0,4252 ≅ 113%
vterületi = = ≅
vint(18) 14,74 151.819 3.870 151.819 151.819 10.300 0,3757
10.300
Összehasonlítás a betűjelekkel:
Ai
v int(16 ) Bi Ai B j Ai Bi
v területi ( az intenzitási viszonyszámra = = = * = : = v területi ( A− ra ) : v területi ( B − re )
v int(18) Aj Bi A j A j B j
Bj
Szövegesen megfogalmazva:
54 És y i 〈 ∑y i .
55 Ezt az összefüggést a későbbiekben, például az átlagok esetében, a számítások egysze-
rűsítésére fogjuk használni.
BEMUTATÓ FELADAT
Például:
• egy ország egy területi egységére (km 2 ) jutó lakosok (ezer fő ) száma,
• az egy házi orvosra ( fő ) jutó lakosok ( fő ) száma,
• a szülőképeskorú nőkre (ezer fő ) jutó újszülöttek ( fő ) száma,
• az egységnyi termékre (darab, liter, tonna , stb.) jutó termelési költség (Ft ) .
Tankönyvünk előző oldalain már találkoztak is ezzel a viszonyszámtípussal,
így 1.7. sz. tábla Írországra vonatkozó adatai között szerepelt az 1 főre jutó
GDP, továbbá az 1.9. sz. tábla 3. és 4. oszlopában a terhességmegszakítás
száz élveszületésre, illetve a teljes termékenységi arány.
Az intenzitási viszonyszámoknak több fajtáját szokás megkülönböztetni.
2.9. sz. tábla
Az intenzitási viszonyszámok fajtái
típus példa
Egy vállalkozás termelési értékét (= A) a vállalkozás összes dolgozójá-
nyers nak létszámához (= B) viszonyítjuk = egy dolgozóra jutó termelési
érték (Vnyers = A/B)
Egy vállalkozás termelési értékét (= A) a vállalkozás fizikai dolgozói-
tisztított nak létszámához viszonyítjuk (= b) = az egy fizikai dolgozóra jutó
termelési érték (= Vtisztított = A / b)
Egy vállalkozás termelési értékét (= A) a vállalkozás összes dolgozójá-
egyenes nak létszámához (= B) viszonyítjuk = egy dolgozóra jutó termelési
érték ( = Vnyers = A/B)
Egy vállalkozás összes dolgozójának létszámát (= B) viszonyítjuk a
fordított vállalkozás termelési értékéhez (= A) = az egy (ezer) forintnyi termelési
érték előállításához szükséges dolgozó létszám (= V = B / A).
2.10. tábla
Az intenzitási viszonyszámok képletei és azok összefüggései
nyers tisztított egyenes fordított
A A A B
Vny = Vt = Ve = Vf =
B b B A
összefüggések58
A b Ve *V f = 1
Vnyers = * = Vt * g
b B
BEMUTATÓ FELADATOK
Ve = 109 fő
km 2
♥ Magyarországon egy négyzetkilométernyi területen átlagosan 109
ember él.
59 Évközepi népesség.
Ve = 659 db
ezer fő
♥ Németországban ezer lakosra 659 telefon fővonal jut, azaz egy la-
kosra 0,659 fővonal jut.
Az intenzitási viszonyszámokból további viszonyszámok60 számítha-
tók, ill. ha az ismert viszonyszám számításának csak egyik tényezőjére vo-
natkozóan rendelkezünk adattal, kiszámíthatjuk a másik tényezőt61 is.
1. feladat
2. feladat
3. feladat
4. feladat
5. feladat
6. feladat
7. feladat
2.6. Összefoglalás
viszonyszám = két statisztikai adat hányadosa
fajtái: 1. dinamikus
2. területi összehasonlító
3. megoszlási
4. intenzitási
tartam idő- yi
sorból: gi =
∑ yi
megoszlási viszonyszám (%) wi = g i *100(%)
összefüggések
∑g i =1 ∑w i = 100%
különbségük %-pont
1. minta
2. minta
3. minta
3. Középértékek
63 [ ]
Minden átlagra, minden feladatra, mindig igaz, hogy xmin 〈 x 〈 xmax .
64Az ábra képletté konvertálható, a gyakorlatban ezt használják, mi is ezt adjuk meg, ezt
használjuk.
n ∑x i
∑ xi = nxa ⇒ xa =
i =1
i =1
n
65
xi = xa=
n= i=
a megfigyelt ele- az elemek sorszá-
átlagolandó érték, számtani átlag mek száma ma (1-től n-ig)
∑f x i i m
xa = és x a = ∑ g i xi
i =1 66
k
∑f
i =1
i
i =1
az azonos ismérvértékű
az azonos ismérvértékű
csoportok sorszáma (1-től
összefüggés: ∑f
i =1
i =n
elemek száma m-ig)
g i = az azonos ismérv-értékű elemek relatív gyakorisága
Számtani átlagot akkor szokás számítani, ha
• az átlagolandó értékek összegének értelme (= jelentése) van,
• más számított középérték használata nem indokolt67.
A számtani átlag több fontos tulajdonsággal68 rendelkezik, ezek ismerete
lehetővé teszi számításaink egyszerűsítését69, eredményeink gyors (= ráné-
zéses70) ellenőrzését, illetve újabb statisztikai módszerek kidolgozását71. A
tulajdonságok közül itt és most egyet emelünk ki: a számtani átlag min-
dig az átlagolandó értékek intervallumán belül helyezkedik el.
A számtani átlag nagysága az átlagolandó értékek abszolút nagy-
ságától és a súlyok relatív nagyságától, azaz egymáshoz viszonyított
arányától függ. Az átlag minden esetben annak az átlagolandó értéknek a
közelében helyezkedik el, amelyiknek a legnagyobb a relatív (= g i ) súlya.
Nagyobb számértékű átlagolandó értékek nagyobb számértékű átlagot eredményeznek
(és fordítva). Átlagolja a következő adatokat: 2, 4, 6 (átlag = 4); majd 3, 5, 7 (átlag = 5)!
Átlagolja a következő adatokat: 2, 4, 6 először 3, 5, 7, majd 6, 10, 14 és végül 4, 8, 9
súlyokkal! Figyelje meg az átlagokat (4,53 – 4,53 – 4,48), vonjon le következtetéseket!
67 Így például, az iskolai bizonyítványok átlagát is számtani átlagként határozzuk meg, pedig
az érdemjegyek összegének nincs értelme. (Természetesen sem szorzatuknak, sem négyze-
tüknek és reciprokuknak sem, így a többi ismertetett átlag-típus számítása sem indokolt.)
68 Részletesen lásd: – többek között – dr Köves P. – dr Párniczky G.: Általános c. tankönyvében.
69 Pl.: az összetett sokaságok átlaga a részsokaságok átlagaként is, – tehát nemcsak az
egyedi átlagolandó értékekből, – is meghatározható. (Lásd: vegyes kapcsolat.)
70 Ne fogadjon el olyan eredményt, amelyik az átlag az átlagolandó értékek intervallumán
kívül esik. Számításait azonnal kezdje újra!
71 Az un. négyzetes minimum tulajdonságot használható fel a trend- és a regresszió-
egyenletek illesztésekor.
BEMUTATÓ FELADAT
72 Ahol csak lehet, használja ki az ilyen egyszerűsítéseket (itt a számolás eredménye oszt-
va százzal), kevesebb számjegyet kell leírnia, ill. egy esetleges további számításnál vissza-
billentyűzni a zsebszámológépbe, és ez kevesebb hibalehetőséget rejt magában.
xa =
∑fx i i
=
9.797.945.000
≅ 60.314 Ft
∑f i 162.449
∑y i
ya = i =1
.
n
Például az 1.2. sz. tábla (Az élveszületések száma Magyarországon) adatai alapján:
112.054 + 105.272 + ... + 94.647 − 92.200
ya = ≅ 98.792 fő ,
10
♥ azaz 1995 és 2004 között évente átlagosan 98.792 élveszületés tör-
tént hazánkban.
• Állapot idősorokból, ezek összege nem értelmezhető, egy speciális
súlyozású számtani átlagot = kronologikus átlagot számítunk.
y1 n −1 y
+ ∑ yi + n
2 i =2 2
y kr =
n −1
10.337 10.236
+ 10.321 + ... + 10.142 +
ykr = 2 2 = 10.236 ezer fő ,
9
♥ azaz hazánk népessége a vizsgált időszakban évente átlagosan 10.236 ezer fő volt.
n n n yn
Π xi = x gn ⇒ x g = n Π xi ⇒ l = n −1 Π li = n −1 bn = n −1
i =1 i =1 i =2 y1
xi = i=
xg= n=
az elemek
átlagolandó a megfigyelt
geometriai átlag sorszáma (1-től
érték, elemek száma
n-ig)
∑ fi m m yn
x g = i =1 Π x i f i ⇒ l = ∑
f i −1
Π li fi = n−1 bn = n−1
i =1 i =2 y1
BEMUTATÓ FELADAT
∑d i
y n − y1 10117 − 10337
d= i =2
= 81Például: d= ≅ −2,8 ezer fő
n −1 n −1 9
♥ Magyarország népessége a vizsgált időszakban évente átlagosan ≅
2800 fővel csökkent.
n ∑ xi2 ∑f x i
2
i m
∑ x = nx ⇒ x q =
2
i
2
q
i =1
n
ill. xq = i =1
m
= ∑g x i
2
i
i =1
∑f i =1
i
i =1
fi = i=
m
az azonos ismérvértékű
az azonos ismérvértékű
csoportok sorszáma (1-
összefüggés: ∑f
i =1
i =n
elemek száma től m-ig)
g i = az azonos ismérv-értékű elemek relatív gyakorisága
m
1 n
∑f i
1
∑
i =1 x i
= nx h ⇒ x h = n
1
ill. xh = i =1
n
fi
= m
gi
∑x
i =1
∑x
i =1
∑
i =1 x i
i i
fi = i=
m
az azonos ismérvértékű
az azonos ismérvértékű
csoportok sorszáma (1-
összefüggés: ∑f
i =1
i =n
elemek száma től m-ig)
g i = az azonos ismérv-értékű elemek relatív gyakorisága
3.6. Módusz
83 Ezen átlagtípust leggyakrabban azonban csak „formaként” használjuk, pl. ha számtani átlagot
akarunk számítani, de nem ismerünk minden alapadatot, akkor így is dolgozhatunk:
m m
∑s
i =1
i ∑s
i =1
i (A további felhasználásokat lásd: standardizálás, ár-, érték-, volumenindex-kör.)
xa = m
= m
si
∑f
i =1
i ∑
i =1 x i
BEMUTATÓ FELADAT
k1 46.720 − 41.515
Mo = mo + h = 50.000 + (60.000 − 50.000) =
k1 + k 2 (46.720 − 41.515) + (46.720 − 25.938)
0,287598 − 0,255557
50.000 + (60.000 − 50.000) ≅ 52.000 eFt
(0,287598 − 0,255557) + (0,287598 − 0,159669)
♥ 2004. januárjában a korbetöltött rokkantnyugdíjas férfiak havi ellátásá-
nak leggyakoribb összege 52.00087 Ft volt. Úgy is fogalmazhatunk, hogy a
megfigyelt nyugdíjak sűrűsödési88 pontja 52.000 Ft.
3.7. Medián
BEMUTATÓ FELADAT
3.2./b tábla
Egy hallgatói csoport megoszlása a statisztika vizsgaeredmények alapján
eredmények 1 2 3 =Me 4 5
hallgatók (fő) 12 25 50 20 13
kumulált gyak. 12 37 87 > 60. 107 120
♥ A vizsgált nyugdíjas férfiak egyik fele ≅56.300 Ft-nál kisebb, másik fele
pedig ennél nagyobb összegű ellátást kapott 2004. januárjában.
Megjegyzések:
• Az osztályközös gyakorisági sorból számított módusz és medián soha
nem „lóghat ki” a kiválasztott osztályközből.
• A medián képletének értelemszerű alkalmazásával a sokaság más osz-
tópontjait is meg tudjuk határozni, ezeket pedig pl., a sokaság szim-
metriájának elemzéséhez használjuk fel.
Q1 = Qa = alsó kvaritlis (quartilis) = az az érték, melynél a sokaság elemeinek ne-
gyed része kisebb, háromnegyed része pedig nagyobb értéket vesz fel.
1. feladat
2. feladat
számpéldák:
Egy állattenyésztő juhállományának gyapjúhozamát vizsgálták. A gyapjúho-
zamra vonatkozó megfigyelt adatokat (kg) osztályközökbe rendezték. Az
1. első osztályköz: − 4,5 , az utolsó osztályköz 8,5 − .
Az osztályközök kilogrammonként növekedtek, és a gyakoriságok a közép-
ső osztályközöknél tömörültek.
Egy pénzintézetben a lakossági devizaszámlákon található összegeket
(USD) rendezték osztályközös gyakorisági sorba. Az első osztályköz:
2.
− 100 , az utolsó két osztályköz 50.001 − 10.000 ill. 100.001 −
A gyakoriságok a felsőbb osztályközöknél tömörültek.
Zala megye településeit a települések lakóinak száma (fő) szerint rendezték
osztályközös gyakorisági sorba. Az első osztályköz: − 499 , az utolsó két
3.
osztályköz 10.000 − 49.999 ill. 50.000 −
A gyakoriságok az alacsonyabb értékű osztályközöknél tömörültek.
3. feladat
4. feladat
91Figyelje meg!
Bemutató példánkban az osztályközök 9-es számjeggyel végződte, ezért a számítások úgy
voltak egyszerűbbek, hogy a következő osztályköz alsó határát tekintettük az előző felső
határának. Itt fordított a helyzet. Nincs szabály, az egyszerűbb számításra törekedjen.
5. feladat
3.9. Összefoglalás
középérték = a sokaság elemei között középső helyet elfoglalva lehetővé teszi
a sokaság jellemzését egyetlen adattal
fajtái 1. számított = értékét minden megfigyelt adat befo-
lyásolja
2. helyzeti = értékét nem minden megfigyelt adat
befolyásolja
számított középértékek
fajtái 1. számtani átlag
2. mértani átlag
3. négyzetes átlag
4. harmonikus átlag
helyzeti középértékek
fajtái 1. módusz
2. medián
2. súlyozott n ∑f i
xh =
n
xh =
∑f i
=
1
1
∑x f
∑x i g
∑ xi
i i i
négyzetes
∑x 2
∑f x 2
xq =
i
xq =
i i
= ∑g x 2
∑f
i i
n i
mértani
x g = n Πx i x g = ∑ i Πxifi = Πxigi
f
nagyságrendjük xh 〈 x g 〈 xa 〈 xq
legfontosabb tulajdonságuk
a rész- és főátlag összefüggése lásd: számtani átlag
az értéküket befolyásoló tényezők
1. minta
lakások
db 2 3 5 20 19 5 6 60
eredmény-tábla
számszerű
statisz- eredmény
feladat számítás megfogalmazás
tikai jel +
mértékegység
a sokaságot jel-
lemző számított
középérték:
a leggyakoribb
vízfogyasztás
a rangsor közép-
ső lakosának
vízfogyasztása:
2. minta
3. minta
az újszülöttek munkatábla
születési súly
megoszlása
gramm %
- 1.000 0,5
1.001 – 1.500 0,7
1.501 – 2.000 1,7
2.001 – 2.500 5,4
2.501 – 3.000 19,4
3.001 – 3.500 37,7
3.501 – 4.000 26,5
4.001 - 8,1
összesen 100,0
sorszám megfogalmazás
Az alapadatokat tartalmazó tábla első sorában a 0,5 adat = megfigyelt
1. adat, jelentése: 1998-ban az élveszületett csecsemők 0,5 %-a 1000
gramm alatti súllyal jött világra.
Az alapadatokat tartalmazó tábla első sorában a 0,5 adat = számított
2. adat, jelentése: 1998-ban az élveszületett csecsemők 0,5 század része
1000 gramm alatti súllyal jött világra.
Az alapadatokat tartalmazó tábla első sorában a 0,5 adat = számított
3, adat, jelentése: 1998-ban az élveszületett csecsemők 0,5 %-a átlago-
san 500 gr súllyal jött világra.
Az alapadatokat tartalmazó tábla első sorában a 0,5 adat = számított
4. adat, jelentése: 1998-ban az élveszületett csecsemők 0,5 %-a átlago-
san 750 gr súllyal jött világra.
5. Az Ön által kiszámított adatok mértékegysége nem azonos.
megoldás 1. 2. 3. 4. 5.
sorszám megfogalmazás
Az „újszülöttek megoszlása” oszlop (lásd: munkatábla) adatai relatív
1.
gyakoriságok.
A „születési súly” oszlop (lásd: munkatábla) adatai jelentik az átla-
2. golandó értékeket, s Ön szabadon döntheti el, hogy a két szám
közül melyikkel dolgozik.
4. minta
♥ xa = 22.940 Ft σ = 14.009 Ft
93 Gyakorlati tanácsok:
Célszerű a zsebszámológépbe való billentyűzésnél a sok-sok nullát elhagyni, azaz ezerrel
egyszerűsíteni, úgy is mondhatjuk: ezres nagyságrendben dolgozni.
Jusson eszébe, az osztályközök alsó határainak utolsó számjegye (1) a megkülönböztetés
miatt szükséges, az osztályközepek meghatározásánál nem vesszük figyelembe.
Jusson eszébe, a nyitott osztályközök közepének megállapításakor olyan szélesnek feltéte-
lezzük azokat, amilyen széles a szomszédos osztályköz. (Természetesen az első osztály-
köz nem kezdődhet negatív számmal.)
4.2.
4.3.
♥ xa = 60,5 m2 σ ≅ 11,2 m2
4.4.
4.5.
4.6.
4. Szóródás
∑ di ∑f i di
egyszerű: δ = δ=
i =1 i =1
súlyozott: k
n
∑f
i =1
i
∑ d i2 ∑ (xi − xa )2 ∑ d i2 ∑ (x i − xa )
2
1. σ = = 2. s = =
i =1 i =1 i =1 i =1 99
n n n −1 n −1
Ha súlyozott számtani átlagot számítottunk, akkor a tapasztalati(1.) ill. az
elméleti (2.) szórás képlete:
k k k
∑ f i d i2 ∑ f i ( xi − x a )
2
k ∑ f (x i i − xa )
2
1. σ =
i =1
k
= i =1
k
= ∑g d i i
2
2. s =
i =1
k
∑ i =1
fi ∑i =1
fi i =1
∑f i =1
i
n n k k
1 1
egyszerű: G =
n2
∑∑ xi − x j
i =1 j =1
súlyozott: G =
n2
∑∑ f
i =1 j =1
i f j xi − x j
k=
n= fi =
a különböző átlagolandó
a megfigyelt elemek szá- az azonos ismérvértékű értékek (= az ismérvérté-
ma elemek száma kek) darabszáma
i= j=
az azonos ismérvértékű átlagolandó értékek (1-től n-ig) vagy a csoportok sor-
száma (1-től k-ig)
BEMUTATÓ FELADATOK I.
k k
∑fx i i
4.449.900
∑fd i i
2
703.197.856
xa = i =1
= ≅ 173 millió Ft σ= i =1
k
= = 165 millió Ft
k
25.764 25.764
∑f
i =1
i ∑f i =1
i
σ 165
v= = → 95,4%
xa 173
1. osztályközép
k
x a = ∑ g i x i ≅ 60314 Ft σ = 315712771 ≅ 17768 Ft
i =1
σ 17768
v= = → 29,5%
xa 60314
25 000
a vállalkozások száma (db)
20 000
15 000
10 000
5 000
0
0 200 400 600 800 1000
saját tőke (millió Ft)
50000
a nyugdíjasok száma (fő)
45000
40000
35000
30000
25000
20000
15000
10000
5000
0
0 20000 40000 60000 80000 100000
az ellátás összege (Ft)
4.4. Összefoglalás
0,6
a z-változóhoz tartozó függvényé.
0,5
0,4
0,3
0,2
0,1
0
-4 -2 0 2 4
z-változó
5.1.sz. ábra
xi − x a
103 z= (Részletesebben a Becslés fejezetben)
σ
BEMUTATÓ FELADATOK I.
5.4. Összefoglalás
szimmetria a sokaság olyan eloszlása, amikor x a = Mo = Me
aszimmetria a sokaság olyan eloszlása, amikor x a ≠ Mo ≠ Me
6. A koncentráció
Ha egy vizsgált sokaság nagyon kicsi (= igen kevés elemből áll), akkor
beszélünk abszolút koncentrációról. (pl. a magyar autógyártás); ha viszont
a sokaság nagy (= sok, igen sok eleme van), akkor a definícióban szereplő
kevés kifejezés csak relatív módon (a teljes sokaság nagyságához viszonyít-
va) értelmezhető. Ha a sokaság egységei között az értékösszeg egyenlete-
sen oszlik meg, akkor a koncentráció teljes hiányáról szokás beszélni. A
lehető legnagyobb fokú koncentráció pedig az, amikor a teljes értékösz-
szeg egyetlen egységre jut.
A koncentráció fokát különböző mutatószámokkal jellemezhetjük.
Ezek egyik része inkább az abszolút, másik része inkább a relatív koncent-
ráció számszerű kimutatására alkalmas. Léteznek azonban olyan mutatók
is, melyek mindkét típus esetében jól használhatóak. A szakirodalomban
fellelhető sok mutató közül most csak néhányat emelünk ki.
Az abszolút koncentrációt legegyszerűbben az elemek (egységek)
számával ( = n ) vagy átlagos nagyságával (= x a ) jellemezhetjük. Minél ki-
sebb, pl. egy iparágban a termelőegységek száma és nagyobb az azokban
foglalkoztatott létszám átlagos nagysága, annál nagyobb az abszolút kon-
centráció.
∑g = ∑z
i =1
i
i =1
i = 1 pontig) alatt szokás elhelyezni. Az átló (g i′ = zi′ ) fejezi ki
BEMUTATÓ FELADATOK I.
1
kumulált relatív értékösszeg
0,8
0,6
0,4
0,2
0
0 0,2 0,4 0,6 0,8 1
kumulált relatív gyakoriság
6.1. ábra
118 A mutató számításához szükséges adatokat a 4.1. táblához tartozó számításokból vettük.
0,8
kumulált relatív értékösszeg
0,6
0,4
0,2
0
0 0,2 0,4 0,6 0,8 1
kumulált relatív gyakoriság
6.2. ábra
xi gi g i′ zi z i′ zi2
1,62761E-
5.000 0,00015 0,00015 1,3E-05 1,3E-05
10
3,04595E-
15.000 0,0007 0,00086 0,00017 0,00019
08
3,75054E-
25.000 0,00467 0,00553 0,00194 0,00212
06
35.000 0,05703 0,06256 0,0331 0,03522 0,00109536
45.000 0,25556 0,31812 0,19067 0,22589 0,036355081
55.000 0,28760 0,60572 0,26226 0,48815 0,068779823
65.000 0,15967 0,76538 0,17207 0,66022 0,029609406
75.000 0,08872 0,85411 0,11033 0,77055 0,012171982
85.000 0,05521 0,90932 0,07781 0,84836 0,006054188
95.000 0,03754 0,94686 0,05913 0,90748 0,003495844
105.000 0,05314 1 0,09252 1 0,008559179
1 – 1 – 0,166124644
6.3. Összefoglalás
koncentráció
általánosságban: = összevonás, összpontosítás, tömörítés
= ha a sokasághoz tartozó teljes értékösszeg jelentős
statisztikában
része a sokaság kevés egységére összpontosul, azaz
ha xi akkor
kis értékű g i 〉 zi
nagy értékű g i 〈 zi
1. abszolút
fajtái
2. relatív
1. Lorenz-görbe
kimutatás
2. koncentrációs együtthatók
= egy egységnyi oldalú négyzetben elhelyezett vonaldi-
Lorenz-görbe
agram
vízszintes tengelyen: kumulált relatív gyakoriság (g ′)i
függőleges tengelyen kumulált relatív értékösszeg (zi′ )
ha nagy a koncentráció a görbe messze van az átlótól
ha kicsi a koncentráció a görbe közel van az átlóhoz
= a koncentrációs terület és a az átló alatti terület há-
nyadosa
G
koncentrációs együttha- =K =
tók 2 xa
k
v2 +1
HI = ∑ zi2 ≅ HI =
i =1 n
0〈 K 〈1 alsó = nincs koncentráció
az együtthatók határértékei 1
〈 HI 〈1
n felső = erős (teljes) a koncentráció
igen 15 30 45 27 18 45
nem 15 30 45 3 42 45
összesen 30 60 90 30 60 90
igen 50 50 50 90 30 50
nem 50 50 50 10 70 50
összesen 100 100 100 100 100 100
f . j és f i . = j = 1....t =
a másik ismérv válto-
peremgyakoriságok zatainak száma
s t s t
n = ∑ f i . = ∑ f . j = ∑∑ f ij =
s〈t
i =1 j =1 i =1 j =1 a Csuprov és a
a megfigyelt sokaság elemeinek száma Cramer mutatónál
Ha a megfigyelt előfordulások mindegyike a tábla főátlójában helyezkedik
el (árnyékolással jeleztük), akkor azt mondhatjuk, hogy az egyik ismérvhez
való tartozás egyértelműen meghatározza a másik ismérvhez való tarto-
zást. (Nagyon fontos szem előtt tartani, hogy az egyértelműen kifejezéssel
nagyon óvatosan kell bánnunk. Statisztikai vizsgálataink ugyanis szinte
mindig a sztochasztikus = közelítő jellegű kapcsolatokra terjednek ki, me-
lyek erősségét befolyásolja a megfigyelés helye, ideje, köre stb. ill. az a
7.1. Asszociáció
Tekintettel arra, hogy ebben az esetben az ismérvváltozatok nem számokkal
fejezhetők ki, a kapcsolat szorosságát kifejező mutatók a megfigyelt ( f ij ) és
( )
a függetlenséget kifejező f ij* előfordulásokra alapoznak. A független ese-
mények egyszerre történő bekövetkezésének valószínűségéről tanultak120
felhasználásával tudjuk meghatározni az elméleti előfordulásokat, amelyek
megmutatják, hogy xi , y j ismérvváltozat-pároshoz a sokaság hány eleme
tartozna, ha az ismérvek között nem lenne kapcsolat. Összehasonlítva a
kétféle előfordulást tudunk következtetni a kapcsolat szorosságára. Ha ( f ij )
( )
és f ij* adatok rendre azonosak, akkor az ismérvek között nincs kapcsolat
(= függetlenek egymástól), ha pedig eltérésük igen nagy, akkor a kapcsolat
erős. Annak érdekében, hogy ezt az „igen nagy” kifejezést ne szubjektív
módon értelmezzük, meg kell határozni azt az elméleti értéket, amihez a
χ2
Csuprov-féle mutató: T =
n (s − 1)(t − 1)
χ2
Cramer-féle mutató: C =
n (s − 1)
Ha az ismérvváltozatok száma mindkét ismérvre vonatkozóan kettő121, akkor a
mutató egyszerűsíthető:
BEMUTATÓ FELADAT
sebb férfi és 3,7 %-kal kevesebb női munkavállalóról tudott a statisztika. A létszám-
változások mellett egy csekély mértékű arányváltozást is megfigyelhetünk. A férfiak
aránya 53,7 %-ról 54,2 %-ra (0,9 %-kal, azaz 0,5 százalékponttal) nőtt, a nőké pedig
46,3 %-ról 45,8 %-ra (-1,1 %, azaz -,5 százalékponttal) csökkent.126
A 7.3. sz. és a 7.4. sz. táblák második része (II.) a függetlenséget feltéte-
lező adatokat tartalmazza. Az építőipar sorában, a férfiak oszlopában ta-
lálható szám (116.400 = f 5*; 2 ) azt jelenti, hogyha semmiféle kapcsolat nem
lenne a foglalkoztatottak ágazat és a nem szerinti megoszlása között, akkor
ebben a rovatban nem a megfigyelt 184.300 főnek, hanem ennél keve-
sebbnek (116.400 fő = f 5; 2 ) kellene szerepelnie.
A táblák harmadik része (III.) a megfigyelt és a függetlenséget kifejező
adatok összehasonlítását, a mutatók (Csuprov, Cramer) számlálójában
szereplő χ 2 részszámításait tartalmazza. Így a Csuprov-féle mutató érté-
ke 1992-ben ill. 2003-ban:
452,3966 563,328
T= ≅ 0,1766 T = ≅ 0,1996
4025,8 (2 − 1)(14 − 1) 3922 (2 − 1)(14 − 1)
452,3966 563,328
C= ≅ 0,3352 C= ≅ 0,379
4025,8 * (2 − 1) 3922 * (2 − 1)
A mutatók alsó (= 0) ill. felső (Cramer: 1, Csuprov: 0,5266) határait figye-
lembe véve levonhatjuk a következtetést, hogy
♥ a foglalkoztatottak gazdasági ágazat és nem szerinti megoszlása kö-
zött van kapcsolat, s ez a kapcsolat az eltelt évtized alatt erősebbé vált. (A
mutatók értéke nőtt.)
Befejezésül fontos megjegyeznünk, hogy
• A Cramer-féle mutató számértéke, ha s〈 t , akkor mindig nagyobb.
(Csak a kisebbik ismérvváltozat darabszám szerepel a nevezőben.)
• A tananyag második felében – hipotézisellenőrzés – megismerünk
majd egy módszert annak kimutatására, hogy a mutatók által jelzett
kapcsolat jelentős (= szignifikáns) mértékű-e avagy sem.
126A 6.3. és a 6.4. sz. táblák adatainak elemzése során dinamikus és megoszlási viszony-
számokat számítottunk. (Lásd: 2.1., 2.3. fejezetek.)
részátlag = csoport
főátlag
átlag
az átlagolandó értékek- a részátlagokból:
s ből:
∑f ij xi s
t
∑ f. j x j
t
∑n x
xj = i =1
s ∑f i. i x
x=
j =1
=
j =1
j i
∑f x= i =1 t t
i =1
.j
∑f
s
i.
∑f j =1
.j ∑n j =1
j
i =1
∑ f (x ij i − xj)
2
csoportszórás σj = i =1
s
∑f
i =1
.j
t t
∑ f . jσ 2j
j =1
∑n σ
j =1
j
2
j
belső szórás σB = t
= t
∑f
j =1
.j ∑n j =1
j
t t
∑ f . j (x j − x )
j =1
2
∑ n (x
j =1
j j − x)
2
külső szórás σK = t
= t
∑f
j =1
.j ∑n
j =1
j
teljes szórás
az alapadatokból:
s az összefüggés alapján:
∑ f (x i. i − x)
2
σ T = σ B2 + σ K2
σT = i =1
s
∑f
i =1
i.
σ K2 σ B2
1= +
σ T2 σ T2
Az így kapott megoszlási viszonyszámok közül mutatóul a külső szórás-
négyzet és a teljes szórásnégyzet hányadosát használjuk, tekintettel arra,
hogy a belső szórás nagyságát nem a csoporthoz tartozás, hanem sok más
tényező befolyásolja. (A bevezetőben említett dolgozói bérek példát foly-
tatva, a férfiak (vagy a nők) csoportjában a bérek azért térnek el egymástól
és az átlagtól, mert a dolgozók nem ugyanannyi ideje állnak alkalmazásban,
nem ugyanolyan iskolai- ill. szakképzettséggel rendelkeznek, nem egyfor-
mán teljesítik a normát stb.)
σK σ2 σ K2 σ B2
H= = 1 − B2 H2 = = 1 − → % 130
σT σT σ T2 σ T2
BEMUTATÓ FELADAT
főátlag:
t
∑f
j =1
.j xj
348 * 861 + 1.575 * 5.541 + ...
x= t
= ≅ 4.401 db
348 + 1.575
∑f j =1
.j
belső szórás:
t
∑f
j =1
.j σ 2j
348 *1.219 2 + 1.575 * 8.242 2 + ...
σB = t
= ≅ 7.085 db
348 + 1.575...
∑f
j =1
.j
külső szórás:
t
∑ f (x − x)
2
.j j
j =1
σK = t
=
∑f
j =1
.j
σ K 1.889 σ 2 1.8892
H= = ≅ 0,26 H= K
= ≅ 0,262 ⇒ 6,6%
σ T 7.332 σ 2
T
7.332 2
♥ SZÖVEGES ELEMZÉS
2003-ban hazánkban 2.165 különféle szépirodalmi művet adtak ki átlago-
san 4.400 (4.401) példányban, igen magas (167 %-os) szórás mellett. A leg-
nagyobb átlagos példányszámot (5.541 db) a regények + elbeszélések kate-
góriában figyelhetjük meg, a legkisebbet pedig a verses művek csoportjában
(861 db). A legnagyobb (8.242 db) és a legkisebb csoportszórások (1.219 db)
is ugyanezekre a részsokaságokra jellemzőek. Az egyes szépirodalmi kate-
góriákban megjelent átlagos példányszámok átlagosan 1.889 darabbal tér-
nek el (= kisebbek vagy nagyobbak) a teljes sokaságra számított átlagos
példányszámtól. A különböző példányszámok (= átlagolandó értékek) pe-
dig átlagosan 7.332 darabbal térnek el a teljes sokaságra számított átlagos
példányszámtól. A szépirodalmi művek jellege és a megjelenési példány-
számok között gyenge (H = 0,26) kapcsolat figyelhető meg; a művek jellege
mindössze 6,6 %-ban (= H2) befolyásolja azok megjelentetett mennyiségét.
σ K ( y)
Ha y a befolyásoló tényező: H x y =
σ T ( y)
BEMUTATÓ FELADAT
belső szórás:
9,12
H= ≅ 0,45 2 ⇒ 20,3%
20,2 2
A belső szórás értéke: 25,62, a külső szórásé: 14,79, a teljes szórás pe-
dig: 29,58; így a kapcsolat szorossága (= H) 0,5, ebből következően a be-
folyásolás mértéke (= H2) 25 %.
Összehasonlítva a két számítás eredményét azt tapasztaljuk, hogy a
változók szerepének felcserélése befolyásolja H és H2 mutatók értékét.
Tekintettel arra, hogy az egyik ill. a másik esetben nem azonos súlyokkal
dolgoztunk (más példákban az átlagolandó értékek között is adódhat elté-
rés), természetesen nem azonos átlag- és szórás-adatokat kaptunk. Általá-
nosságban, ha a változók szerepét felcseréljük, akkor H és H2 mutatók
értéke csak a két szélső esetben („nincs kapcsolat” = H y x = H x y = 0 ill.
„igen szoros a kapcsolat” = H y x = H x y = 1 ) azonos.
A korrelációs kapcsolatra – amikor a megfigyelt adatokat adat-párokba
rendezve (= lista) adjuk meg – még visszatérünk135.
1. feladat
2. feladat
137 Demográfiai évkönyv, 2003 (KSH, 2004; 90. old.) /Az ismeretlen korúak – számuk
elenyésző– nélkül./
3. feladat
4. feladat
7.5. Összefoglalás
ismérvek kö- = ha a vizsgált sokaság különböző ismérvek alapján feltáruló
zötti kapcsolat szerkezete hasonlóságot, vagy azonosságot mutat
1. asszociáció
fajtái 2. vegyes kapcsolat
3. korreláció
1. sztochasztikus (ezt vizsgáljuk)
jellege
2. függvényszerű
f 11 f 22 − f 12 f 21 g11 g 22 − g12 g 21
1. Yule a= ≅
f 11 f 22 + f 12 f 21 g11 g 22 + g12 g 21
az asszociáció χ2
2. Csuprov T=
mutatói n (s − 1)* (t − 1)
χ2
3. Cramer C=
n (s − 1)
szorossági befolyásolás
a vegyes kap-
σK σ2 σ K2 σ B2
csolat mutatói H= = 1 − B2 H2 = = 1 − → %
σT σT σ T2 σ T2
szorossági befolyásolás
σ K ( x)
a korrelációs Hy x = ill.
kapcsolat muta- σ T ( x)
mint vegyes kapcsolat
tói σ K ( y)
Hx y =
σ T ( y)
0〈mutató〈1
a kapcsolat muta- általában
kivétel: Csuprov, ha s〈t s −1
tók határértékei 0〈T 〈 4
a határértékek t −1
jelentése alsó = felső =
a kapcsolat teljes hiánya igen szoros kapcsolat
1. minta
1. munkatábla
havi net- férfiak nők férfiak nők férfiak nők
átlago-
tó kere-
landó súlyozott eltérés
set (ezer fő értékösszeg
érték négyzet
Ft)
– 60
61 – 80
81 – 100
101 – 120 Nem kell kitölteni.
121 – 140
141 – 160
161 –
összesen 6.330,00 2.510,00 31.683,18 14.962,96
2. munkatábla
havi net- átlago- fizikai szellemi fizikai szellemi fizikai szellemi
tó kereset landó súlyozott eltérés
fő értékösszeg
(ezer Ft) érték négyzet
– 60
61 – 80
81 – 100
101 – 120 Nem kell kitölteni.
121 – 140
141 – 160
161 –
összesen 6.950,00 1.890,00 40.984,60 13.760,00
1. eredménytábla
a mutatók
megnevezés értéke, mérték-
statisztikai jele számítása
egységgel
a férfiak átlagbére
a nők átlagbére
a férfiak átlagbér-
ének szórása
a nők átlagbérének
szórása
a két csoport szó-
rásának átlaga
a kapcsolat szo-
rossági mutatója
2. eredménytábla
a mutatók
megnevezés értéke, mérték-
statisztikai jele számítása
egységgel
a szellemi dolgo-
zók átlagbére
a fizikai dolgozók
átlagbérének szórá-
sa
a szellemi dolgo-
zók átlagbérének
szórása
a két csoport szó-
rásának átlaga
a kapcsolat szoros-
sági mutatója
2. minta
számított adatok:
a szabadságot
2 hetet
egyben elaprózva
jövedelem egyszerre összesen
veszi igénybe
alacsony 102,40 527,68 169,92
közepes 659,60 212,40
magas 461,72 148,68
összesen
mellékszámítás:
A szabadságot
2 hetet
jövedelem egyben elaprózva összesen
egyszerre
veszi igénybe
alacsony 36,79
közepes Nem kell kitölteni! 1,85
magas 30,66
összesen 9,19 51,99 69,30
Töltse ki a fenti tábla üres rovatait!
A zsebszámológép kijelzőjéről az egész számot és az első két tizedest má-
solja át, kerekíteni nem kell.
eredménytábla
a mutatók
megnevezés statisztikai számítása értéke, mérték-
jele egységgel
az egyik tanult mutató
a másik tanult mutató
3. minta
biztosítási hallgatók
díjak
ezer Ft fő
0,0 – 1,2 30
1,2 – 1,5 25
1,5 – 2,0 20
2,0 – 2,5 15
2,5 – 3,0 15
3,0 – 3,5 10
3,5 – 4,0 5
összesen 60
1. eredmény-tábla
Az első üres sorba a kiszámított mutató statisztikai jelét, a második üres
sorba pedig számértékét és mértékegységét kell írni.
a szórás abszolút mutatója az aszimmetria mutatója
a számtani
a relatív a szórás a számtani átlag
a megfigyelt átlag és a
gyakori- relatív és a módusz
gyakoriságokkal medián
ságokkal mutatója összehasonlítá-
súlyozva összehasonlí-
súlyozva sával
tásával
2. eredmény-tábla
Írjon szöveges elemzést!
8. Standardizálás
8.1. Bevezetés
Magyarországon az alkalmazásban álló fizikai foglalkozásúak bruttó átlag-
keresete 2000-ben 61.930138Ft, 2003-ban pedig 91.397 Ft volt. Ugyanezen
években az alkalmazásban álló szellemi foglalkozásúakra vonatkozó ada-
tok: 121.779 Ft ill. 143.753 Ft. A fizikai foglalkozásúak átlagkeresete tehát
≅ 48 %-kal139, a szellemi foglalkozásúaké pedig ≅ 18 %-kal emelkedett. A
nemzetgazdaság egészére vonatkozó bruttó átlagkereset (= a fizikai és
szellemi foglalkozásúak átlagkeresetének súlyozott számtani átlaga) a két
megfigyelt évben 87.645 ill. 137.193 Ft, azaz 2003-ban 56,5 %-kal140 ma-
gasabb volt. Hogyan lehetséges az, hogy a nemzetgazdasági átlagkereset
növekedése mind a fizikai, mind a szellemi dolgozók átlagkeresetének
növekedését meghaladta?
A feltett kérdésre könnyebben tudunk válaszolni, ha végiggondoljuk a
fentiekben felsorakoztatott átlagkereseti adatok számítását, ill. felírjuk
számításukat statisztikai jelekkel, képletekkel. Az átlagkereseteket kétfé-
leképpen is kiszámíthatjuk.
• Egy összegben ismerve a bérjellegű kifizetéseket ( A) és a foglalkozta-
tottak létszámát (B ) , intenzitási viszonyszámként
(v ) .Képletszerűen:
A
rész-intenzitási viszonyszám (= részátlag): v = ill.
B
138 Adatforrás: Magyar statisztikai évkönyv, 2003 (KSH – Budapest 2004, 96. – 97. old.)
139 if= 91.397 / 61.930 = 1,4758 → + 48 % ill. isz = 143.753 / 121.779 = 1,18044 → +
18 %
140 I = 137.193 / 87.645 =1,5653 → + 56,5 %
∑n j
∑A 1 ∑B v 1 1
V1
=
∑ B1 = ∑ B1
V0 ∑ A0 ∑ B0 v0
∑ B0 ∑ B0
A részletezett képletből jól látható, hogy az átlagkeresetek csökkenése vagy
növekedése nem egyetlen adat változásának a következménye. A két idő-
pontban ugyanis eltérő szerkezetű142 létszám (B ) és eltérő abszolút érté-
kű egyedi bér (v ) adatokat figyelhettünk meg. E két tényező változásának
hatását elkülönítve kaphatunk választ az első bekezdésben feltett kérdésünk-
re. A hatások elkülönítésére alkalmas módszer a standardizálás.
• egyedi különbségek: k = v1 − v0
∑A 1 ∑Bv 1 1
• főátlagindex: I =
V1
=
∑B 1
=
∑B 1
=
∑g v
1 1
V0 ∑A 0 ∑B v 0 0 ∑g v
0 0
∑B 0 ∑B 0
∑B v
0 1
I′ =
Vst (1)
=
∑B 0
=
∑B v 0 1
=
∑g v 0 1
=
∑ B v *i = ∑ B v
0 0 0 1
V0 ∑B v
0 0 ∑B v 0 0 ∑g v 0 0 ∑B v ∑ B v
0 0 0 1
∑B 0
i
∑B v1 1
I′ =
V1
=
∑B 1
=
∑B v 1 1
=
∑g v 1 1
=
∑ B v *i = ∑ B v
1 0 1 1
Vst ( 2 ) ∑B v1 0 ∑B v 1 0 ∑g v 1 0 ∑B v ∑ B v
1 0 1 1
∑B 1
i
• összetételindex,
ha állandónak tekintjük a régebbi időszak átlagolandó értékeit:
∑B v1 0
I ′′ =
Vst ( 2 )
=
∑B 1
=
∑g v 1 0
, ahol g 0 =
B0 B
és g1 = 1
V0 ∑B v0 0 ∑g v 0 0 ∑ B0 ∑ B1
∑B 0
∑B v 1 1
I ′′ =
V1
=
∑B 1
=
∑g v 1 1
Vst (1) ∑B v 0 1 ∑g v 0 1
∑B 0
k=
i= I= K
egyedi különb-
egyedi index főátlagindex a főátlagok különbsége
ség
K′= V0
I′= a főátlagok különbsége I ′′ összetett intenzitási
részátlagindex a részátlagok eltérése összetételindex viszonyszám = főátlag
miatt (régebbi)
g0 = g1 =
a B0 adatok megoszlása = relatív gya- a B1 adatok megoszlása = relatív gya-
koriság koriság
A 8.1. sz. tábla a bevezetőben szereplő adatokat, valamint az ott nem kö-
zölt súlyadatokat tartalmazza.
8.1.1.sz. tábla
dolgozók meg- fiktív adatok
megnevezés bruttó átlagbér
oszlása a hatások elkülöníté-
→ Ft / fő / hó
% séhez
állománycsoport 2000 2003 2000 2003 1. 2.
fizikai 61.930 91.397 0,57033 0,1253 52.126 7.760
szellemi 121.779 143.753 0,42967 0,8747 61.766 106.520
együtt 87.645 137.193 1 1 113.892 114.280
v0 és g 0 ∗ v1 = g1 ∗ v0 =
statisztikai jelölés v1 és V1 g 0 g1
V0 Vst (1) Vst ( 2)
I′ =
Vst (1)
=
∑g v
0 1
=
113.892
= 129,9%
V0 ∑g v
0 0 87.645
I′ =
V1
=
∑ g1v1 = 137.193 = 120,0%
Vst ( 2) ∑ g1v0 114.280
I ′′ =
Vst ( 2 )
=
∑g v
1 0
=
114.280
= 130,4%
V0 ∑g v
0 0 87.645
I ′′ =
V1
=
∑ g1v1 = 137.193 = 120,5%
Vst (1) ∑ g 0 v1 113.892
♥ SZÖVEGES ELEMEZÉS148:
Hazánkban az alkalmazásban állók nemzetgazdasági bruttó átlagbére
2003-ban 56,5 %-kal, azaz 49.548 Ft-tal magasabb volt, mint 2000-ben.
A növekedést két azonos előjelű tényező okozta. Egyrészt mind a fizi-
kai (≅+48%,+29.467 Ft), mind a szellemi (+18 %, +21.974 Ft) dolgozók
bruttó átlagbére növekedett; másrészt megváltozott a két alkalmazotti
csoport egymáshoz viszonyított aránya. A magasabb átlagbérű szellemi
dolgozók aránya jelentős mértében – 44,5 %-ponttal – megemelkedett. A
nagyobb átlagolandó érték így nagyobb súlyt kapott.
A fizikai ill. szellemi dolgozók bruttó átlagbérének növekedése a nem-
zetgazdasági bruttó átlagbér növekedéséhez 20,0 %-kal (22.913 Ft-tal); a
dolgozó csoportok létszámarányának megváltozása pedig 30,4 %-kal
(26.635 Ft-tal) járult hozzá.
149 adatforrás: Demográfiai évkönyv 2003 (KSH – Budapest –2004, 11. old. , 40. old.)
150 Az adatforrásként használt évkönyv 1960-ra ill. 2003-ra nem azonos bontásban tar-
talmazza az adatokat, a számítások érdekében a 40 év feletti nőket egy korcsoportba
vontuk össze.
standard főátlagok
Vst (1) , ahol (B0 v1 )
94.599.675
32,8 ‰
2.879.893
Vst ( 2) , ahol 147.312.203
52,3 ‰
(B1v0 ) 2.816.745
I ′ és K ′ standard: 34,3
65,4 % 34,3 − 52,3 -18,0
B1 52,3
I ′′ és K ′′ stan- 34,3
104,6 % 34,3 − 32,8 +1,5
dard: v1 32,8
♥ SZÖVEGES ELEMEZÉS151:
Magyarországon ezer szülőképeskorú nőre 1960-ban 51,5; 2003-ban pedig
34,3 születés jutott. A születési arányszám tehát 33,4 %-kal (= 100 – 66,6
%), azaz 17,2152 ezrelékponttal csökkent.
A csökkenésnek két ellenkező előjelű összetevője van. Egyrészt a kor-
osztályok majd mindegyikében (a legtermékenyebbek mindegyikében)
csökkent a születési arányszám; másrészt megváltozott a nők korosztá-
lyonkénti összetétele.
A korosztályonkénti születési arányszámok változása következtében az or-
szágos adat 36,3 %-kal (= 100 – 63,7 %), vagyis 18,7 ezrelékponttal csökkent.
A nők korosztályonkénti szerkezeti változása önmagában az országos
adat növekedéséhez vezetett volna. (4,6 % relatív növekedés, ami 1,5 ezre-
lékpont abszolút növekedést jelent.) A szerkezetváltozás növekedést ered-
ményező hatása annak következménye, hogy éppen a két legtermékenyebb
korosztályban (20 – 24 és 25 – 29 évesek) emelkedett a szülőképeskorú
nők aránya (+0,8 ill. +1,9 százalékponttal), így a legmagasabb abszolút-
értékű részviszonyszámok kapták a legnagyobb súlyokat.
Fontos megfigyelni a szülőképeskorú nők létszámának alakulását.
1960-hoz képest 63.148 fővel kevesebben voltak 2003-ban. Ennek ellené-
re az összetételindex növekedést jelez. Ez is jól mutatja azt, amire már
többször felhívtuk a figyelmet, a súlyoknak nem az abszolút, hanem a
relatív nagysága a befolyásoló tényező.
♥ SZÖVEGES ELEMEZÉS
2003-ban Magyarországon a mezőgazdasági alkalmazottak bruttó átlagbé-
re 32,5 %-kal, azaz 41.954 Ft-tal alacsonyabb volt, mint az ipari alkalma-
zottaké.
Az eltérést két ellentétes előjelű hatás okozza. Egyrészt mind a két
megfigyelt részsokaságban (férfiak, nők) alacsonyabb az alkalmazottak
bruttó átlagbére. Ha a nemzetgazdaság két vizsgált ága között csak ebben
lenne eltérés (vagyis a nemek aránya azonos lenne), akkor a mezőgazdasági
és az ipari átlagbérek között még nagyobb különbség mutatkozna. A me-
zőgazdasági átlagbér 35,6 %-kal, azaz 48.215 Ft-tal lenne alacsonyabb.
Az eltérés másik oka a dolgozók nemek szerinti összetételének külön-
bözősége. A mezőgazdaságban a magasabb átlagbérű férfiak aránya majd-
nem 16 %-ponttal nagyobb, tehát a magasabb átlagolandó érték nagyobb
súlyt kap. Ezért, ha csak a nemenkénti szerkezet eltérésére figyelünk, azt
tapasztaljuk, hogy a mezőgazdasági átlagbérek 4,8 %-kal, azaz 6.261 Ft-tal
magasabbnak látszanak.
Fontos megjegyezni, hogy területi adatok elemzése esetén nem adódik
értelemszerűen, hogy melyik adatot jelöljük „0”-val és melyiket „1”-vel;
ezt eldönteni a számítást végzők feladata. A döntéshez azonban az elem-
zés során végig ragaszkodnunk kell. Ha a jelöléseket fordítva osztottuk
volna ki, természetesen részben más számadatokat kapunk eredményül, de
a következtetéseink a jelen megoldás következtéseivel azonosak lennének.
Tekintsük viszonyítási alapnak (0) a mezőgazdaságra vonatkozó adato-
kat és viszonyítandó értéknek (1) az ipar adatait. A főátlagindex = 148,1
%, a főátlagok eltérése epdig +41954 Ft. A részátlagindex (standard az
újabb időszak súly adata) = 151,2 %, az összetételindex (a tanult számsza-
ki összefüggésre figyelve) = 97,9 %. A két indexhez tartozó különbségek
pedig (az eddigi sorrendnek megfelelően) +43.753 Ft / fő / hó ill. -1.799
Ft / fő / hó. (Az indexek reciprokai az előzőekben kiszámítottaknak, a
különbségeknek pedig csak az előjele változott.) És most így fogalmazha-
tunk: az iparban dolgozók bruttó átlagbére 48,1 %-kal magasabb stb.
A standardizálás módszerét árak elemzésére is felhasználhatjuk, de
csak homogén árucsoportok esetén. Erre az ár-, érték-, volumenindex
számítás témakörben visszatérünk.
záró megjegyzések:
Az intenzitási viszonyszámok és a számtani átlag szoros "rokonságot" mutat, ezért
∑A ∑B v = g v = ∑ f x = g ∑s ∑s
1. V =
ij
= ∑ ij ij
∑ ij ij
xij =
ij
=
ij
= xa
∑B ∑B ∑f
ij ij ij
ij ij ij f ij n
ahol: xi = v , ∑ f = B , ∑ g = 1 és s = f * x
i i i i i i i
1. feladat
154 Adatforrás: Demográfiai évkönyv (KSH, Budapest – 2004; 58. – 59. old. ill. 8. – 9. old. )
155 Az ismétlő feladatok megoldása érdekében, ha szükséges, lapozzon vissza az előző
fejezetekhez!
2. feladat
3. feladat
156 Magyar statisztikai évkönyv, 2003 (KSH, Budapest – 2004; 86. old.)
4. feladat
5. feladat
6. feladat
7. feladat
8. feladat
Két bánya 2005 évi termelési adatait hasonlítjuk össze. „Z” bánya termelé-
se a külszíni és a földalatti termelési mód között 75 – 25 %-ban oszlik
meg. A két bánya termelékenységét (= termelés létszámra vetítve) össze-
hasonlítva („Y” hasonlítva „Z”-hez) a következő indexeket kapjuk:
külszíni: 0,93 földalatti:1,00 együttesen: 1,10.
1. Számítsa ki a két bánya termelékenységének eltérését okozó tényezők
hatását indexek formájában!
2. Írjon szöveges elemzést!
8.5. Összefoglalás
= olyan statisztikai módszer, mellyel főátlagokat vagy összetett intenzi-
tási viszonyszámokat hasonlíthatunk össze úgy, hogy nemcsak azok
standar-
eltérésének relatív (I = index) vagy abszolút (K = különbség) nagysá-
dizálás
gát tudjuk megállapítani, hanem lehetőségünk nyílik az eltérést kialakí-
tó tényezők (= összetétel, egyedi indexek) hatásának kimutatására is.
az összehasonlítás elvégezhető:
– térben
– időben
alkalmazott képletek
V1
I
=
V0
, ahol
V1 =
∑B v 1 1
V0 =
∑B v
0 0
K = V1 − V0
→
∑B 1 ∑B 0
V1
I′
=
Vst ( 2 )
,
Vst ( 2 ) =
∑B v 1 0
= V1 − Vst ( 2 )
átlagfor- ahol → ∑B 1
mában K′
Vst (1)
is szá-
mít-ható
= ,
Vst (1) =
∑B v 0 1
= Vst (1) − V0
V
ahol →
0
∑B 0
Vst ( 2 ) = Vst − V0
=
V0
I ′′ K ′′
V
= 1 = V1 − Vst (1)
Vst (1)
1. minta
eredménytábla
A dolgozat-lapon természetesen több helye lesz az adatok beírására.
megfogalmazás számadat mértékegység stat. jelölés
a konfekció osztályon történt abszo-
lút változás
a konfekció osztályon történt relatív
változás
a rövidárú osztályon történt abszolút
változás
a konfekció osztályon történt relatív
változás
az együttes abszolút változás
az együttes relatív változás
a termelékenység változásának hatása
– abszolút változás (standard: a
2003-as létszámmegoszlás)
a termelékenység változásának hatása –
relatív változás
(standard: a 2003-as létszámmegoszlás)
a szerkezetváltozás hatása – abszolút
változás
a szerkezetváltozás hatása – relatív
változás
a termelékenység változásának hatása
– abszolút változás (standard: a
2005-ös létszámmegoszlás)
a termelékenység változásának hatása –
relatív változás
(standard: a 2005-ös létszámmegoszlás)
a szerkezetváltozás hatása – abszolút
változás
a szerkezetváltozás hatása – relatív
változás
2. minta
3. minta
szöveges elemzés
a színnel nem jelzett keretekbe szöveget,
a kék színűbe számokat,
a zöld színűbe mértékegységeket kell írni.
9.1. Bevezetés
Egy család fogyasztásának, egy vállalat vagy egy nemzetgazdasági ág ter-
melésének, egy kereskedő forgalmának – és folytathatnánk a sort – össze-
sítése a fogyasztási javak, az előállított ill. az értékesített termékek sokszor
igen különböző természetes mértékegységei157 miatt gyakorlatilag egyetlen
módon lehetséges, ha ismerjük a megfigyelt javak, szolgáltatások stb. árait.
Ha ugyanis ezek mennyiségét (qi ) beszorozzuk egységárukkal ( pi ) már
összesíthető adatokhoz – a fogyasztás, a termelés, az értékesítés – értéké-
hez (vi = qi ∗ pi ) jutunk.
iq = 0=
ip = iv = a bázisul válasz-
egyedi mennyiségi tott időszak jelö-
egyedi árindex egyedi értékindex
index lése
kq = kv = 1=
kp =
az egyedi mennyi- egy-egy termék a bázishoz hason-
az egyedi árak lítandó időszak
ségek abszolút értékének abszo-
abszolút változása adata
változása lút változása
vagy
k v = (q0 p1 − q0 p0 ) + (q1 p1 − q0 p1 )
BEMUTATÓ FELADAT
9.1.1. tábla
9.1.2. tábla
1. munkatábla
a felvásárolt búza értéke,
a felvásárolt búza értéke
fiktív adatok
megnevezés milliárd Ft
milliárd Ft
2000 2003 1. 2.
búza 102,6 88,8 111,5 81,7
statisztikai jelölés q0 p0 q1 p1 q0 p1 q1 p0
161 Magyar statisztikai évkönyv 2003 (KSH – Budapest, 2004. 339., 393. old.)
9.1.3. tábla
2. munkatábla
indexek különbségek
mennyi-
megneve- ár mennyiség érték ár érték
ség
zés
milliárd
% Ft ezer tonna
Ft
30.195 = 2.941 = 88,8 = 30.195 - 2.941 – 88,8 -
búza 27.778 3.692 102,6 27.778 = 3.692 = 102,6=
=108,70 = 79,66 = 86,60 =2.417 =(-751) =(-13,8)
statisztikai ip iq kp kq
iv kv
jelölés
9.1.4. tábla
3. munkatábla
értékváltozás (milliárd Ft) az értékváltozás ösz-
megnevezés az árak válto- a mennyiség szetevőkből
zása változása milliárd Ft
állandó következtében
111,5 - 102,6= 81,7 - 102,6= 8,9 + (- 22,7) = (-13,8)
a 2000 évi adat
=8,9 =(-20,9)
statisztikai
q0 p1 − q0 p0 q1 p0 − q0 p0
jelölés
7,1 + (- 20,9) = (-13,8)
88,8 - 81,7= 88,8 - 111,5=
a 2003 évi adat
=7,1 =(-22,7)
statisztikai
q1 p1 − q1 p0 q1 p1 − q0 p1
jelölés
♥ SZÖVEGES ELEMEZÉS
A magyar búzatermelés 2000 és 2003 évi mennyiségi adatait (ezer tonna) és
felvásárlási árait (Ft/tonna) hasonlítottuk össze. Megállapítottuk, hogy a fel-
vásárlási ár 8,7 %-kal (i p ) emelkedett, a termelt mennyiség viszont ≅20 %-
kal (iq ) csökkent. A két ellentétes hatás következtében a megtermelt búza
értéke is – 1≅3,4 %-kal (iv ) –– csökkent. Végezetül elkülönítettük az érték-
változás összetevőinek hatását pénzmértékegységben is. Ha csak az árak
változtak volna, akkor az érték is növekedett volna 8,9 milliárd Ft-tal. Ha
csak a mennyiség változott volna a ténylegesnél nagyobb 22,7 milliárd Ft-
os lett volna az értékcsökkenés. (És ez a csökkenés az erősebb hatás.)
Iv =
∑q p1 1
K v = ∑ q1 p1 − ∑ q0 p0
∑q p0 0
I 0p =
∑q p
0 1
I 1p =
∑q p
1 1
I q0 =
∑q p
1 0
I q1 =
∑q p1 1
∑q p
0 0 ∑q p
1 0 ∑q p
0 0 ∑q p0 1
K p0 = ∑ q0 p1 − ∑ q0 p0
K 1p = ∑ q1 p1 − ∑ q1 p0
K q0 = ∑ q1 p0 − ∑ q0 p0
K q1 = ∑ q1 p1 − ∑ q0 p1
I pF = I p0 * I 1p I qF = I q0 * I q1
• értékindex: I v =
∑ q p *i 0 0 v
=
∑q p 1 1
∑q p 0 0
qp
∑ i 1 1
• árindexek:
I p0 =
∑q p *i
0 0 p
=
∑q p 0 1
ill. I 1p =
∑q p *i 1 0 p
=
∑q p1 1
∑q p 0 0
qp
∑ i 0 1 ∑q p 1 0
qp
∑ i 1 1
p p
• mennyiségi indexek:
I q0 =
∑q p *i
0 0 q
=
∑q p 1 0
ill. I q1 =
∑ q p *i 0 1 q
=
∑q p1 1
∑q p 0 0
qp
∑ i 1 0 ∑q p 0 1
qp
∑ i 1 1
q q
Iv =
∑q p *i 0 0 v
= ∑ g 0iv =
∑q p 1 1
=
1
,
∑q p 0 0
qp
∑ i 1 1
∑i
g1
v v
q0 p0 q p
ahol g 0 = és g1 = 1 1
∑ q0 p0 ∑ q1 p1
Végezetül az összefüggésekre kell figyelmünket fordítani! Ahogy az
egyedi vizsgálatnál láttuk, az ár- és a mennyiségváltozás az értékváltozás
I v = I p0 * I q1 = I 1p * I q0 = I pF * I qF K v = K 1p + Kq0 = K p0 + Kq1
BEMUTATÓ FELADAT I.
9.2.1.sz. tábla
A magyar mezőgazdaság adatai163: fontosabb zöldségfélék
2000 2003
termésmennyi- piaci termésmennyi- piaci
megnevezés
ség átlagár ség átlagár
ezer tonna Ft / kg ezer tonna Ft / kg
fejeskáposzta 120 65,8 153 90,7
paradicsom 203 197,1 281 232,8
petrezselyemgyö-
34 372,4 30 393,3
kér
sárgarépa 89 154,7 81 180,1
uborka 103 192,1 94 184,5
vöröshagyma 117 95,2 94 129,1
zöldbab 27 296,0 26 278,3
zöldpaprika 98 276,5 84 267,3
statisztikai jelölés q0 p0 q1 p1
163 Magyar statisztikai évkönyv 2003 (KSH – Budapest, 2004. 339., 393. old.)
9.2.2.sz. tábla
1. munkatábla
a zöldségfélék piaci ér- a zöldségfélék piaci értéke,
megnevezés téke (millió Ft) fiktív adatok (millió Ft)
2000 2003 1. 2.
fejeskáposzta 7.896,0 13.877,1 10.884,0 10.067,4
paradicsom 40.011,3 65.416,8 47.258,4 55.385,1
petrezselyemgyökér 12.661,6 11.799,0 13.372,2 11.172,0
sárgarépa 13.768,3 14.588,1 16.028,9 12.530,7
uborka 19.786,3 17.343,0 19.003,5 18.057,4
vöröshagyma 11.138,4 12.135,4 15.104,7 8.948,8
zöldbab 7.992,0 7.235,8 7.514,1 7.696,0
zöldpaprika 27.097,0 22.453,2 26.195,4 23.226,0
együtt 140.350,9 164.848,4 155.361,2 147.083,4
statisztikai jelölés q0 p0 q1 p1 q0 p1 q1 p0
♥ SZÖVEGES ELEMEZÉS
A Magyar statisztikai évkönyv (2003) adatai alapján a legfontosabb zöld-
ségfélék piaci értékének változását vizsgáltuk. A zöldségfélék ára átlagban
( )
10,7 %-kal (I p0 ), termelt mennyisége pedig 6,1 %-kal I q1 emelkedett. E
két változás következtében a piaci érték 17,5 %-kal magasabb volt 2003-
ban, mint 2000-ben.
Ha csak az árak változtak volna, akkor 15.010,3 millió Ft-tal, ha pedig
csak a termelt mennyiségek változtak volna, akkor 9.487,2 a millió Ft-tal,
és így együtt 24.497,5 millió Ft-tal emelkedett a kiemelt termékek együttes
piaci értéke.
A termékeket egyedileg vizsgálva megállapíthatjuk, hogy a legnagyobb
árnövekedés a fejeskáposztát jellemzi (+37,8%), a legnagyobb árcsökkenés
pedig a zöldbabot (-6%). A termelt mennyiségek általában csökkentek,
kivéve a fejeskáposztát (+27,5%) és a paradicsomot (+38,4%). A mennyi-
ségek átlagos növekedése annak köszönhető, hogy ezen, növekvő mennyi-
BEMUTATÓ FELADAT
164 adatforrás: Magyar statisztikai évkönyv 2003 (KSH – 2004, 99., 101. és 348. old.)
BEMUTATÓ FELADAT
100,0 ; ∑q i1 pi1
; ∑q i2 pi 2
;∑
qi 3 p i 3
; stb.
∑q i 0 pi 0 ∑q i 0 pi 0 ∑q i 0 pi 0
∑q i2 pi 2
; ∑q i3 pi 3
; stb.
∑q i1 pi1 ∑q i 2 pi 2
100,0; ∑q i1 pi1
; ∑q i2 pi 2
; ∑q i3 pi 3
; stb.
∑q i1 p i 0 ∑q i 2 pi 0 ∑q i 3 pi 0
Az árolló azt mutatja meg, hogy valamely bevételt biztosító termékek bá-
zisidőszakival azonos, illetve egységnyi volumenéért mennyivel nagyobb
vagy kisebb volumenű másféle termék kapható cserébe a tárgyidőszakban.
I bp
árolló =
I pk
9.5. Kiegészítés
A standardizálás tárgyalása során megemlítettük, hogy egyes esetekben –
homogén árucsoportok – a megfigyelt adatok mind a standardizálás módsze-
rével, mind az ár-, érték-, volumenindexekkel elemezhetők. Az alábbiakban
egy bemutató példával szemléltetjük az ilyen eseteket. Megfigyeléseink két
magyarországi üdülőkörzetre vonatkoznak, és az egy éjszakára jutó szállásdíj
elemzését végezzük el. Legfontosabb megfigyelésünket előre bocsátjuk:
I ′ = I p0 , ha standard: B0 és
I ′ = I 1p , ha standard: B1
169 Adatforrás: Magyar statisztikai évkönyv, 2003 (KSH, Budapest – 2004; 479. old.)
170 Lásd: a 7.3. táblához írt lábjegyzetet
3.705.885 –
K p0 -431.182 Vst:B1 3.673,193 16.128.992 /
4.137.068
4.391
14.304.278 / 3257,636 /
I 1p 0,8869 I 0,881918
16.128.992 3693,81
14.304.278 – 3.257,636 –
K 1p -1.824.714 K -436,174
16.128.993 3.693,82
16.128.992 / I st′ :B0 3.308,826 /
I q0 3,8987 0,895776
4.137.067 3.693,81
16.128.992 – K st′ :B0 -384,984 3.308,826 –
K q0 11.991.925
4.137.068 3.693,82
14.304.278 / I st′ :B1 3.257,636 /
I q1 3,8599 0,886867
3.705.885 3.673,193
14.304.278 – K st′ :B1 3.257,636 –
K q1 10.598.393 -415,558
3.705.886 3.673,194
0,895776 * I st′′:v0 3.673,193 /
3,4576 0,994419
3,859882 3.693,81
0,886867 * K st′′:v0 3.673,193 –
3,4576 -20,6165
össze- 3,898654 3.693,82
függés -431.182 +
10.167.211
10.598.393
-1.824.714 + I st′′:v1 3.257,636 /
10.167.211 0,984529
11.991.925 3.308,826
K st′′:v1 3.257,636 –
-51,1903
3.308,827
szálláshely típus ⎛ Bi ⎞
megoszlás ⎜ ⎟%
↓ ⎜ B
⎝ ∑
i
⎟
⎠
szálloda 57,32 59,39
panzió 10,63 5,47
turistaszállás 3,93 1,96
ifjúsági szálló 0,71 6,04
üdülőház 7,95 6,81
kemping 19,46 20,34
összesen 100 100
♥ SZÖVEGES ELEMZÉS
A Sopron-Kőszeg hegyalja és a Balaton-part üdülőkörzetekre vonatkozó
adatok – eltöltött vendégéjszakák (ezer db) és az egy éjszakára jutó szál-
lásdíj (Ft), 2003-ban – összehasonlítását végeztük el kétféle módszerrel.
1. Kimutattuk az egy vendégéjszakára jutó szállásdíj eltérését és az elté-
rést okozó tényezők hatását. (= standardizálás)
2. Elemeztük a szálláshelyek bevételeinek változását kimutatva az átlagos
ár- és mennyiségváltozásokat is. (ár-, érték-, volumenindex-kör)
Az összehasonlítás során viszonyítási alapnak a Sopron-Kőszeg hegyalja üdülő-
körzetet tekintettük. A számításokat pedig mindkét súlyozási rendszerrel
(Laspeyres, Paasche ill. standard: B0 és standard: B1) elvégeztük, a szöveges elem-
zésben azonban csak az egyik rendszer ( I v = I p0 ∗ I q0 és az ezzel ekvivalens stan-
dardizálás: I st′ :B0 ) számadatai szerepelnek. (A kétféle súlyozással számított ered-
mények egyébként az eltéréseket minden esetben azonos előjelűnek mutatják.)
Az azonos számértékű indexeket vastagabb számokkal írtuk, és szürke
háttérrel, valamint erősebb kerettel is kiemeltük. (9.5.3. sz. tábla)
A Balaton-part üdülőkörzetben a szállásdíjakból származó bevételek a
vizsgált évben 246 %-kal, azaz 10.167.211 ezer Ft-tal magasabbak voltak,
mint a Sopron-Kőszeg hegyalja üdülőkörzetben. Az eltérésnek két ellenté-
tes előjelű összetevője van. A Balaton-parton az árak (= szállásdíjak / éj-
szaka) átlagosan 10,4 %-kal alacsonyabbak, viszont az eltöltött vendég-
éjszakák száma átlagosan 289,9 %-kal több. Az árak eltérése a Balaton-
part bevételi előnyét 431.182 ezer Ft-tal csökkentette. A vendégéjszakák
eltérő nagyságára figyelve (azonos árakat feltételezve) viszont még na-
gyobb tóparti többletet figyelhetünk meg (+ 10.598.393 ezer Ft).
A Balaton-part üdülőkörzetben egy vendégéjszakára átlagosan ≅ 3.258
Ft jutott 2003-ban, a Sopron-Kőszeg hegyalja üdülőkörzetben pedig ≅
3.694 Ft, azaz a tóparton ≅ 12 %-kal, ≅ 436 Ft-tal kevesebbet kellett fizetni
a felsorolt szálláshelyeken egy éjszakáért. Az eltérésnek két azonos előjelű
oka van. Egyrészt majdnem minden szálláshely típus esetén a Balaton-part
üdülőkörzetben kisebbek az egy vendégéjszakára jutó bevételek (= részin-
tenzitási viszonyszámok), így átlagosan is alacsonyabbak 10,4 %-kal, azaz
≅ 385 Ft-tal. Másrészt eltérő volt a két üdülőkörzetben a vendégéjszakák
szálláshely típusonként való megoszlása, (9.5.4.sz. tábla) bár ez csak igen
csekély mértékű ≅ 1,5 %-os, azaz mindössze ≅ 51 Ft-os különbséget jelez a
főátlagokra vonatkozóan. (Ennyivel alacsonyabbak azonos egy éjszakára
jutó betételeket feltételezve a Balaton-part üdülőkörzet szállásdíjai.)
1. feladat
2. feladat
3. feladat
2005. április171
egy győri kiskereskedő egy budapesti kiskereskedő
adatai adatai
alma
eladott eladott
féleségek egységár egységár
mennyiség mennyiség
kg Ft / kg kg Ft / kg
idared 250 250 800 230
jonagold 200 220 400 200
starking 120 190 100 190
jonatán 200 150 150 140
zöld 100 310 200 280
összesen 870 – 1650 –
4. feladat
9.7. összefoglalás
indexek, indexösszefüggések
p
egyedi i p = i1
pi 0
ár
együttes
I p0 =
∑q i0 pi1
I 1p =
∑q i1 p i1
I pF = I 0p I 1p
= átlagos ∑q i 0 pi 0 ∑q i1 p i 0
qi 1
egyedi iq =
mennyiség
qi 0
együttes
I q0 =
∑q i1 pi 0
I q1 =
∑q i1 p i1
I qF = I q0 I q1
= átlagos ∑q i 0 pi 0 ∑q i 0 p i1
vi1
egyedi iv = = iv = i p * iq
vi 0
érték
együttes
Iv =
∑q i1 p i1
= I v = I 0p * I q1 = I 1p * I q0 = I pF * I qF
= átlagos ∑q i0 pi 0
átlagformák
I 1p =
∑ q p *i
1 0 p
=
∑q p 1 1
vagy I p0 =
∑ q p *i
0 0 p
=
∑q p 0 1
ár ∑q p1 0
qp
∑ i 1 1 ∑q p 0 0
qp
∑ i 0 1
p p
átlagformák
I q0 =
∑ q p *i = ∑ q p
0 0 q 1 0
vagy I q1 =
∑ q p *i
0 1 q
=
∑q p1 1
mennyiségi ∑q p ∑ q p
0 0 1 0 ∑q p
0 1
qp
∑ i 1 1
i q q
Iv =
∑ q p *i
0 0 v
=
∑q p
1 1
érték ∑q p 0 0
qp
∑ i
1 1
vagy
Megmutatja, hogy a vizsgált termékek (szolgál-
érték tatások stb.) értéke átlagosan hányszorosára
(hány százalékkal) változott.
1. minta
Egy sportcikkeket árusító bolt forgalmát figyeltük meg két egymást követő
évben. A vizsgálatba bevont kiemelt áruféleségek, ill. a már megkezdett
számítások adatait tartalmazza az alábbi tábla.
forgalom a bázis
a vizsgálatba bevont árváltozás forgalomváltozás
évben
termékek
millió Ft %
sportruha 20 +15 +20
sportcipő 15 +10 +10
egyéb termékek 30 +20 +65
statisztikai jelölés
1. Az alábbi 1. sz. segédtáblából válassza ki azokat a betű-jeleket, melyek
a fenti táblában szereplő adatokat jelölik, majd sorszámukat írja be a fenti
tábla utolsó sorába.
Írja be a fenti tábla utolsó sorába a kiválasztott betűjelek sorszámát!
1. segédtábla (statisztikai betűjelek)
1. 2. 3. 4. 5. 6.
p0 p1 q0 q1 v0 v1
2. minta
Iv I q1 K p0
0,95 0,864 +50 mFt
10. Becslés
10.1. Bevezetés
A társadalmi-, gazdasági jelenségekre vonatkozó adatokat a megfigyelést
végzők egyes esetekben a vizsgált sokaságok minden egyes tagjára (= ele-
mére) vonatkozóan összegyűjtik ekkor teljeskörű felvételről beszélünk;
más esetekben viszont csak a vizsgált sokaság elemeinek egy részére terjed
ki az adatgyűjtés, ezt részleges felvételnek nevezzük.
Teljeskörű felvétel pl.: népszámlálások, a népmozgalmi jelenségek megfigyelése (szü-
letés, halálozás stb.), vetésterület összeírása; részleges felvétel pl.: a különböző termékek
árainak megfigyelése, közvéleménykutatások.
A részleges adatfelvétel eredményeként kiszámított sokasági jellem-
zők (átlag, szórás stb.) sajátossága, hogy kisebb – nagyobb hibával tükrö-
zik a valóságot, ennek ellenére nem lehet célunk minden esetben a
teljeskörű felvétel. Ennek egyrészt technikai okai vannak, másrészt az
idő és a pénz szűkössége.
A mezőgazdaság várható terméseredményeinek megállapításához nem szedhetjük le
még a beérés előtt az összes gyümölcsöt. A termékek megsemmisüléssel, használhatat-
lanná válással járó minőségellenőrzése során (pl. villanyégők) nem vizsgálhatunk meg
minden elkészült darabot.
A gazdasági élet valamennyi szereplője a folytonosan változó feltételekre a lehető
leggyorsabban akar reagálni, vagyis rövid idő alatt szükséges döntéseket hoznia, és ez
nem engedi meg a hosszas adatgyűjtési-elemzési munkát.
A pénz pedig még a leggazdagabb államokban is mindig kevesebb mint, amennyit az
egyes célok megvalósítása igényel. Kevesebb sokasági egyedre adatot gyűjteni és kevesebb
adatot feldolgozni, elemezni pedig természetesen kevesebb idő és kevesebb pénz.
A részeleges adatfelvétel fajtái172 közül jegyzetünkben kizárólag a
reprezentatív adatgyűjtéssel foglalkozunk.
Reprezentatív felvétel esetén a megismerni kívánt teljes sokaságból
(= alapsokaságból; elemeinek száma = N ) szigorú szabályok szerint kivá-
lasztunk egy részsokaságot (= mintasokaságot = mintát; elemeinek
176 Például egy főiskola hallgatói (= N ) közül úgy választunk ki egy n-elemű mintát, hogy
N
minden -dik hallgató a mintába kerül. Jegyzetünkben ezzel a módszerrel sem foglal-
n
kozunk, de megjegyezzük, hogy az ilyen speciális eljárások nagy körültekintést igényelnek,
illetve az így nyert eredmények pontossága nagyban függ az alkalmazási feltételek szak-
szerű kezelésétől.
177 Lásd: 10.1.3.
10.1.sz. tábla
oszlopszám
sor-szám sor-szám
1. 2. 3. 8. 9. 10.
16. 01 47 69 71 21 02 … … 15 78 24 38 32 13 16.
17. 17 71 98 82 87 19 22 62 78 63 37 25 17.
18. 14 40 28 22 68 48 68 16 03 89 52 54 18.
19. 61 71 92 22 42 33 45 43 48 76 93 08 19.
20. 25 91 04 91 31 66 51 72 37 09 57 06 20.
178Például interneten csak az szavazhat, akinek van hozzáférési lehetősége és azok közül
is csak az, akinek kedve is van az adott kérdéssel kapcsolatban véleményt nyilvánítani,
vagyis a véletlen törvényszerűségein alapuló matematikai módszerekről le kell
mondanunk.
180A rétegzett mintavételnek más előnyei is vannak. Ezeket részben már említettük
részben később említjük meg.
182Lásd: viszonyszámok
∑x ∑fx = gx
xa =
i
xa = ∑
i i
∑f
i i
n i
∆ = z ∗σ x
z =
a választott valószínűségtől függő standard normális valószínűségi változó
∑x ∑ (x − xa )
2
i 22 i 9,6
xa = = = 2,2 σ= = =0,98
N 10 N 9
⎛N⎞ ⎛ N + n − 1⎞
189Ismétlés nélküli kiválasztásnál ⎜⎜ ⎟⎟ , ismétléses kiválasztásnál pedig ⎜⎜ ⎟⎟
n
⎝ ⎠ ⎝ n ⎠
darab n-elemű mintát választhatunk.
A mintából számított átlag nagysága (és így más sokasági jellemző nagysága
is) tehát annak függvénye, hogy a sokaság mely elemei kerültek a mintába,
azaz
xi − x a
z=
σ
192A standardhiba számításához egyes esetekben még egy un. korrekciós tényezőt is felhaszná-
lunk.
BEMUTATÓ FELADAT I.
10.3.sz. tábla
szórakozási kiadás osztályközép a hallgatók száma a mintában
ezer Ft / hó /fő xi fi
– 5,0 3,5 6
5,1 – 8,0 6,5 10
8,1 – 11,0 9,5 18
11,1 – 14,0 12,5 35
14,1 – 17,0 15,5 15
17,1 – 20,0 18,5 11
20,0 – 21,5 5
összesen - 100
adatforrás: saját gyűjtés SZE, 2006. márc.
A mintában szereplő hallgatók havi szórakozási kiadásainak átlaga ≅12.380
Ft (= x a ) 193 Továbbá ismert – egy korábbi teljeskörű felvételből – a szóra-
kozási kiadások szórása, σ = 4.407 Ft . Az átlagra vonatkozó eredmény
pontbecslés. Számításainkat kétoldalú intervallumbecsléssel
(P = 95% ) folytatjuk, ennek lépései:
σ 4.430
1. a standard hiba kiszámítása: σ x = = ≅ 443 Ft
n 100
2. a táblabeli érték (= z ) kikeresése, (lásd: a megoldás után)
10.4.sz. tábla
A standard normális eloszlásfüggvény értékei, Φ ( z i ) , részlet198
z 0 1 2 3 4 5 6 7 8 9
…
1,6 0,9452 0,9463 0,9474 0,9484 0,9495 0,9505 0,9515 0,9525 0,9535 0,9545
1,7 0,9554 0,9564 0,9572 0,9582 0,9591 0,9599 0,9608 0,9616 0,9625 0,9633
1,8 0,9461 0,9649 0,9656 0,9664 0,9671 0,9678 0,9686 0,9693 0,9699 0,9706
1,9 0,9713 0,9719 0,9726 0,9732 0,9738 0,9744 0,9750 0,9756 0,9761 0,9767
…
199 Gyakorlati kérdés: Honnan tudjuk, hogy egy- vagy kétoldalú becslést kell-e végez-
nünk? A kérdésfeltevésből. Ha egy termék (pl. liszt, cukor stb.) zacskókba töltésénél a
munkát végző vállalkozás vagy az értékesítést végző kereskedő számára csak az lényeges,
hogy a vevőt ne károsítsák meg, akkor elég a töltési tömeg alsó határára figyelni. Ha
viszont egy teherszállító eszközről van szó (pl. lift), ahol baleset történhet a túlterhelésnél,
elég a hasznos teher felső határára figyelni.
1. n 2 = 200 és P1 = 95%
Változik a standardhiba:
σ 4.430
σx = = ≅ 313 Ft,
n 200
és ennek következtében a hibahatár:
± ∆ = z ∗ σ x = 1,96 ∗ 313 ≅ 613 Ft,
Az intervallum szélessége =
2 ∗ ∆ = 2 ∗ 613 ≅ 1.220 ≅ [( x + ∆ ) − ( x − ∆ ) = 12.990 − 11.770 = 1.220] Ft
2. n3 = 50 és P1 = 95%
3. n1 = 100 és P2 = 90%
4. n1 = 100 és P3 = 98%
Az intervallum szélessége =
2 ∗ ∆ = 2 ∗1.032 = 2.060 ≅ [( x + ∆ ) − ( x − ∆ ) = 13.410 − 11.350 = 2.060] Ft
Megfigyeléseink:
• Az 1. és a 2. esetben az elemszám növekedése illetve csökkenése kö-
vetkeztében – a fordított arányosság miatt – csökken, ill. növekszik az
intervallum szélessége. (Eredeti szélesség = 1.740, megváltozott szé-
lesség: n 2 = 200 → 1.220 (= szűkebb) és n3 = 50 → 2.500 (= tágabb)
• A 3. és a 4. esetben a becslési valószínűség növekedése illetve csök-
kenése következtében – az adatok egyező irányban való mozgása miatt
– növekszik, ill. csökken az intervallum szélessége. (Eredeti szélesség
= 1.740, megváltozott szélesség: P2 = 90% → 1.460 (= szűkebb) és
P3 = 98% → 2.060 (= tágabb)
s=
∑ (x i − xa )
2
=
∑d i
2
s=
∑ f (x − x )
i i a
2
=
∑fd ≈
i i
2
g i d i2
n −1 n −1 ∑ f −1
i ∑ f −1
i
205 Fontos megjegyezni, hogy ha a minta elemszáma kisebb száznál (= kisminta), akkor
az átlag becslésénél is felvetődik a függetlenség problémája (különösen azért, mert ilyen-
kor nagyobb az esély a szélsőséges mintára), ahogy erről a t-tábla használatával kapcsolat-
ban már volt szó.
206 Például 10 ≅ 3,16 és 11 ≅ 3,32 vagy 500 ≅ 22,36 és 501 ≅ 22,38
10.6.sz. tábla
a szórás értéke előfordulás
0,0 9
0,5 22
1,0 11
1,5 3
25
előfordulás (db)
20
15
Adatsor1
10
0
0 0,5 1 1,5 2
10.1. ábra
Az ábra jobbra elnyújtott. Ezt az eloszlás-típust χ 2 (kh’ )2 -eloszlásnak ne-
vezzük.207 A másféle – aszimmetrikus – eloszlás-típus a számítások so-
rán másik tábla – "a χ 2 = (kh’ )2 -eloszlású változó eloszlásának kvantilis értékei"
– használatát teszi szükségessé. A tábla szerkezete – így az abban való
keresés is – azonos a t-táblánál megismerttel.
Az elméleti problémák tisztázása után íme a szóráshoz tartozó intervallum
számításának képlete = becslőfüggvénye:
(n − 1)s 2 〈σ 2 〈 (n − 1)s 2
χ2α χ α2
1−
2 2
BEMUTATÓ FELADAT
s=
∑ f (x − x )
i i a
2
=
194.256.000
≅ 4430 Ft
∑ f −1 i 100 − 1
( )
A Khi-négyzet eloszlás χ i2 értékei, részlet
v 0,005 0,01 0,025 0,05 0,10 0,25 0,50 0,75 0,90 0,95 0,975 0,990 0,995
1 0,00 0,00 0,00 0,00 0,02 0,10 0,46 1,32 2,71 3,84 5,02 6,63 7,88
…
70 43,3 45,4 48,8 51,7 55,3 61,7 69,3 77,6 85,5 90,5 95,0 100,4 104,2
80 51,2 53,5 57,2 60,4 64,3 71,1 79,3 88,1 96,6 101,9 106,6 112,3 116,3
90 59,2 61,8 65,6 69,1 73,3 80,6 89,3 98,6 107,6 113,1 118,1 124,1 128,3
100 67,3 70,1 74,2 77,9 82,4 90,1 99,3 109,1 118,5 124,3 129,6 135,8 140,2
Így az intervallum:
(n − 1)s 2 〈σ 2 〈 (n − 1)s 2 =
99 ∗ 4430 2 2 99 ∗ 4430 2
〈σ 〈 =
χ2α χ α2 129,6 74,2
1−
2 2
ben a teljes sokaságra vonatkozó átlag és szórás is egy alsó és felső határ
között. A minta értékösszegéről azonban soha nem mondhatjuk, hogy az
a teljes sokaság értékösszege lenne.
Gondoljuk el, meg akarjuk becsülni egy egyetemen a hallgatók közleke-
dési kiadásainak havi, vagy éves összegét, az semmiképp nem azonos a min-
tában szereplő, lényegesen kevesebb számú hallgató kiadásainak összegével.
A teljes sokaságra vonatkozó értékösszeget tehát csak két lépésben
tudjuk meghatározni, így számításához feltétlenül ismernünk kell
• vagy a sokaság elemeinek számát (= N ) , ekkor a becsült átlagból kap-
juk meg az értékösszeget;
• vagy a minta kiválasztási arányát ⎛⎜ = ⎞⎟ , ekkor a mintára vonatkozó
n
⎝ N⎠
értékösszegből számítjuk ki a teljes sokaságra vonatkozót.
A sokasági értékösszeg számításának (pont)becslőfüggvényei:
n
N és x ismeretével és x′ ismeretével
N
N
X ′ = N ∗ x 208 X′= x′
n
az átlag hibahatára
BEMUTATÓ FELADAT
Folytassuk a számtani átlag becslésénél megkezdett (10.2. sz. tábla), majd a szó-
rás számításával továbbvitt, az egyetemi hallgatók szórakozási kiadásaira vonat-
kozó példát! Kiegészítő adat: a vizsgált egyetem hallgatóinak száma = 6.250 (=
100 / 0,016) fő. Az értékösszeg pontbecslése és intervallumbecslése:
X ′ = N ∗ x = 6.250 ∗12.380 ≅ 77.375.000 Ft = 77,4 millió Ft
[X ′ ± ∆] = N ∗ [xa ± ∆] = 6.250[12.380 ± 868] ≅ [72,0〈 X ′〈82,8] millió Ft
♥ A 100 elemű EV minta alapján 95 %-os valószínűségen állítjuk,
hogy a vizsgált egyetem hallgatói (6.250 fő) legalább 72,0 és legfeljebb 82,8
millió forintot költenek el havonta szórakozásra.
10.2.4. Sokasági arány becslése egyszerű véletlen (EV)
mintából
A nem homogén sokaságok valamely megkülönböztető ismérv alapján
részsokaságokra bonthatók, ahogy a bemutató feladatban szereplő egye-
tem hallgatói is szórakozási kiadásaik nagysága alapján (és természetesen
egyéb ismérvek alapján is). Az egyes részsokaságok aránya azonban mintá-
ról mintára kisebb-nagyobb mértékben változhat. Ezért ebben az esetben
sem elégedhetünk meg a pontbecsléssel, hanem intervallumbecslést kell
végezni, azaz meg kell állapítani, hogy az egyes részsokságok a teljes soka-
ság legalább és legfeljebb hányad részét adják. Az egyes részsokaságok
arányára vonatkozó becslést azonban csak úgy tudjuk elvégezni, ha a cso-
portképzésre használt ismérvváltozatokat alternatív-ismérvekké alakít-
juk. Az egyik csoport azon elemeké, amelyek arányát éppen ki akarjuk
számítani (= "1"-vel jelzett ismérvváltozat), a másik csoportot pedig a
sokaság összes többi eleme (= "0"-val jelzett ismérvváltozat) alkotja.
Ha például egy egyetem hallgatói közül azok arányának intervallumát akar-
juk kiszámítani, akik az adott intézmény székhelyén szüleikkel élnek, akkor ők
képezik az egyik részsokságot = "1"-vel jelzett ismérvváltozat; az összes többi
hallgató pedig a másik részsokságot jelenti = "0"-val jelzett ismérvváltozat.
Az alternatív ismérvek szerinti részsokaságokra való felbontás után a
számítás menete azonos az átlag becslés lépéseivel, vagyis:
1. a sokasági arány, azaz az alternatív ismérvek átlagának (= p ) és
Nj =
n = a becsült arányhoz tarto- N=
a minta elemszáma zó alapsokasági elemszám az alapsokaság elemszáma
(pontbecslés)
209 x = p ∗1 + q ∗ 0 = p
BEMUTATÓ FELADAT
osztály- a hallgatók
szórakozási
száma a mintá-
kiadás közép
ban
ezer Ft / hó /fő xi fi
– 5,0 3,5 6
5,1 – 8,0 6,5 10
8,1 – 11,0 9,5 18
11,1 – 14,0 12,5 35
14,1 – 17,0 15,5 15
17,1 – 20,0 18,5 11
20,0 – 21,5 5
összesen - 100
Határozzuk meg azon hallgatók arányát és számát, akiknek a havi szóra-
kozási kiadása 15.000 Ft vagy annál magasabb!
A feladat megoldása első ránézésre lehetetlennek tűnik, hiszen 15.000
forintos osztályköz határ nincs. Osszuk fel tehát azt az osztályközt, ame-
lyik a megadott értéket tartalmazza! A felosztásnál azt feltételezzük, hogy
az elemek egyenletesen helyezkednek el az osztályközön belül210. Így a
megjelölt (szürke háttér, vastagabb keret) osztályköz a felbontás után két
részből áll: 14,1 – 15,0 és 15,1 – 17,0, a részekbe tartozó gyakoriságok
pedig: 5 és 10. Most már összegezhetjük a kritériumnak megfelelő előfor-
dulásokat: f k = 10 + 11 + 5 = 26 , majd elvégezhetjük a megadott sorrend-
ben a számításokat:
26
1. p = = 0,26 q = 1 − 0,26 = 0,74
100
2. s = pq = 0,26 ∗ 0,74 ≅ 0,44
s 0,44
3. σ p = = ≅ 0,044
n 100
5. ± ∆ = z ∗ σ p = 1,96 ∗ 0,044 ≅ 0,086 ⇒ 8,6% 211
6. [ p ± ∆ ] = [26 ± 8,6] = [17,4 ; 34,6]%
[
7. N j ± ∆ = ] 100
0,016
[
[0,174 ; 0,346] ≅ 1088〈 N j 〈 2163 fő ]
Ezzel a feladattal először a számtani átlag becslésével találkoztunk, ott közöltük a kivá-
⎛ n⎞
lasztási arány ⎜ = ⎟ nagyságát (1,6 %), ezt az adatot használtuk fel most az alapsoka-
⎝ N⎠
ság elemszámának meghatározására (N = 6.250 fő).
♥ A 100 elemű EV minta alapján 95 %-os valószínűségen állíthatjuk,
hogy a vizsgált egyetem hallgatói közül legalább 1.088 és legfeljebb 2.163
fő havonta 15.000 forintnál többet költ szórakozásra.
10.2.5. Adott intervallum-szélességhez (=adott hibahatárhoz)
tartozó elemszám illetve valószínűség meghatározása
(EV minta)
Az eddig bemutatott példákban mindig adott mintából dolgoztunk és elő-
re adott valószínűség mellett számítottuk ki a becsülni kívánt sokasági
jellemzők aktuális értékét. A kérdés azonban „fordítva” is felmerülhet:
1. Mekkora mintát kell vennünk adott valószínűség mellett egy sokaság-
ból, hogy a hibahatár egy előre megadott értéknél ne legyen nagyobb?
2. Hány %-os valószínűséggel kerül valamelyik sokasági jellemző adott
mintaelemszám mellett egy előre meghatározott szélességű intervallumba?
A fenti kérdéseinkre roppant egyszerűen válaszolhatunk. Mivel a kérdés
„megfordult”, a válaszadás során is "visszafelé" kell gondolkodnunk!
211 Tekintettel arra, hogy ugyanazon feladatot folytattuk, és a valószínűségi előíráson sem
változtattuk, új táblabeli értéket nem kellett keresni.
σ ∆∗ n
±∆ = z∗ → z=
n σ
BEMUTATÓ FELADAT215
∆∗ n 400 ∗ 100
z= = ≅ 0,90
σ 4430
Φ ( z i ) = 0,8159
Ψ ( z i ) = Φ (z i − (1 − Φ ( z i ))) = 0,8159 − (1 − 0,8159) = 0,6318
∆∗ n 400 ∗ 100
z= = ≅ 0,90
σ 4430
Φ ( z i ) = 0,8159
215 Gyakorlati megoldás: az ilyen jellegű feladatoknál mindig „z”-táblával dolgozunk, ui.
több valószínűségi adat közül válogathatunk.
N −n n
k= ≅ 1−
N −1 N
A következő (10.8. sz.) kis tábla pedig azt szemlélteti, miért is van lehe-
tőség 10 % alatti kiválasztási arány esetén a korrekciós tényező elhagyásá-
ra. Alacsony kiválasztási arány mellett az ismétléses (számolás a korrekciós
tényező nélkül) és az ismétlés nélküli kiválasztás (számolás a korrekciós
tényezővel) eredménye között rendkívül csekély az eltérés.219.
Nj nj N =
wj = = Nj =
N n
= az egyes rétegek aránya a
∑N j
= a teljes az egyes rétegek elem-
sokság elemszáma száma az alapsokaságban
teljes sokaságban és a mintában
σx σj
= az átlag = az egyes
standard hibája rétegek szórása
• továbbá, hogy a w jσ =2 ∑N σ j
2
j
= σ B szorzat nem más, mint
∑N
j
j
kétféle mintavétel szórása és így standard hibája legfeljebb azonos lehet, de többnyire a
rétegzett mintavételé a kisebb. (A teljes és a belső szórás abban az esetben azonos, ami-
kor tulajdonképpen feleslegesen rétegeztünk, mert az egyes rétegek átlagai megegyeznek
egymással és a főátlaggal is, amiből pedig az következik, hogy a külső szórás nulla, továb-
bá az is, hogy a rétegzéshez felhasznált megkülönböztető ismérv, nem befolyásolja a
rétegekre jellemző paraméterek alakulását.)
Záró megjegyzés
Ha egyenletes rétegzéssel (ER) dolgozunk, akkor a teljes sokaságra
vonatkozó átlag becslése ugyanúgy történik, mint az AR esetében (= a
rétegek átlagának alapsokaságbeli aránnyal súlyozott átlaga), de a standard
hiba számításához a teljes szórást kell ismerni.
BEMUTATÓ FELADAT
wj =
Nj
=
nj
xj =
∑fxi i
σj =
∑ f (x − x )
i i j
2
N n ∑f i ∑f i
nő 39 ≅ 10.200 ≅ 4.100
σx =
1
n
∑w σ
j
2
j =
1
100
(
∗ 0,61∗ 4.010 2 + 0,39 ∗ 4.100 2 ≅
4045
)
≅ 405 Ft
100
A 95 %-os becslési valószínűség esetén – az előző feladatokban már kike-
resett – " z"− érték: 1,96
∑ w (x − x )
2
1. feladat
2. feladat
3. feladat
Egy gazdaságban, ahol két fajta almát termesztenek, a 2000 almafa össz-
termését kívánják megbecsülni. A két fajtából arányosan vesznek mintát.
a fák száma minta
fajta db átlaga szórása
összesen minta kg /fa
A 1500 150 107 25
B 500 … 100 18
1. Becsülje meg egy almafa átlagtermését!
2. Becsülje meg a gazdaság teljes almatermését!
A becslések eredményeit 95 %-os megbízhatósági intervallumban akarjuk ismerni.
4. feladat
Egy régióban 6.000 lakás épült az elmúlt évben. Az újonnan épült lakások
közül 500 lakást választottunk ki rétegzett mintavétellel az átlagos kivitele-
zési idő becslésére. A minta adatai:
a kivitelezési idő a mintá-
az új lakások száma
ban
kivitelezés
a régióban a mintában átlaga szórása
db hó
vállalkozó által 4.000 250 15 5
egyéni 2.000 250 24 6
Becsülje meg 5 %-os megbízhatósági szinten az átlagos kivitelezési időt!
• a vállalkozói kivitelezésben épült lakásokra vonatkozóan,
• az egyéni kivitelezésben épült lakásokra vonatkozóan,
• az összes lakásra vonatkozóan!
10.4. Összefoglalás
= valamely alapsokasági jellemző meghatározása mintasokasági
becslés
adatok ismeretében
= az eredmény egyetlen szám-
1. pontbecslés
adat
fajtái: = az eredmény egy minimum
2. intervallumbecslés és egy maximum érték (tól –
ig)
EV
a számtani átlag
becslőfüggvény:
∑
f i xi
(a leggyakrabban hasz- xa = = ∑g x
∑
i i
becslése f
nált formák) i
1. pontbecslés
2. standardhiba (= átlagos hiba)
lépések
3. hibahatár (= maximális hiba)
4. intervallum
σ s
standardhiba becslőfüggvény: σx = ≅
n n
becslőfüggvény: ∆ = z ∗ σ x vagy ∆ = t ∗ σ x
z-tábla ha n〉100 és σ = ismert
hibahatár t-tábla ha n〈100 vagy σ = nem ismert
szabadságfok
keresés a táblákban
valószínűség
= a becsléshez használt független elemek száma
szabadságfok
pl.: az átlagbecslésnél = (n-1)
– egyoldalú becslésnél átalakítás nél-
= adott feltétel
valószínűség kül,
– kétoldalú becslésnél átalakítással
225 Vannak egyéb mintavételi módok (többet fel is soroltunk), de számítási feladatokat
csak ezekre vonatkozóan mutattunk be.
[x ± ∆]
egyoldalú
intervallum
kétoldalú
[x − ∆;+∞ ) vagy
(− ∞; x + ∆]
becslőfüggvény:
∑ f (x − x ) ∑fd ≈
2 2
i i a i i
(a leggyakrab- s= = g i d i2
ban használt) ∑ f −1i ∑ f −1
i
szabadságfok (n-1)
a szórás
becslése
(n − 1)s 2 〈σ 2 〈 (n − 1)s 2
intervallum χ2α χ α2
1−
2 2
A négyzetgyökvonásról ne feledkezzünk meg!
χ 2 -tábla Két értéket kell kikeresni.
az alapsokasági
elemszám becslése
kiindulás a sokasági
arány intervallumából
[N j ]
± ∆ = N ∗ [ p ± ∆]
1. minta
megfogalmazás
2. minta
P = 90 %
Számítsa ki, hány elemű mintát kellene venni (P = mint eddig), hogy az interval-
lum szélessége felére csökkenjen! A délelőtti műszak adataival dolgozzon!
Magyarázza meg a kapott eredményt!
Válaszoljon! Kaphat-e eltérő eredményt, ha a délutáni műszak adatival dolgozik.
(Ne számoljon, gondolkodjon!)
3. minta
munka-
korcsoport
nélküliek
év fő
- 20 48
20 – 25 90
25 – 30 120
30 – 40 180
40 – 50 150
50 - 12
összesen 600
szórás
létszám
arány + létszám
4. minta
5. minta
eredmény-tábla
átlag szórás
pontbecslés
227 A mintabeli érték lehet kisebb és nagyobb is, azaz nincs szó a számadatok utolsó
tizedesjegyig való tökéletes azonosságáról.
H 1 : xa 〈 X 0 → [zα ; ∞[
⎡ ⎤
H 1 : xa ≠ X 0 → ⎢ z α ; z α ⎥
⎣ 2 2⎦
⎤ ⎤
H 1 : xa 〉 X 0 → ⎥ − ∞; z α ⎥
1−
⎦ 2 ⎦
H 1 : xa 〈 X 0 → [tα ; ∞[
⎡ ⎤
H 1 : xa ≠ X 0 → ⎢t α ; t α ⎥
⎣ 2 2⎦
⎤ ⎤
H 1 : xa 〉 X 0 → ⎥ − ∞; t α ⎥
1−
⎦ 2 ⎦
szükséges értéket most is a " t" -táblából keressük ki, az előzőekben már
részletezett módon233. A próbafüggvény használatánál – és ez a helyes
következtetések miatt nagyon fontos – nincs jelentősége annak, hogy me-
lyik mintát tekintjük "egyesnek" és melyiket "kettesnek".
A " t " -próba elnevezéssel még fogunk találkozni. Azonos nevű próbát végzünk majd
azonos táblából vett elméleti értékek felhasználásával, de más próbafüggény-képlettel a
regressziós egyenletek paramétereinek tesztelésekor (= a paraméterekkel kapcsolatos
hipotézisek ellenőrzésére) is.
F-próba
Alkalmazási esetei:
a) ha két minta szórásait akarjuk összehasonlítani, illetve
b) ha kettőnél több minta átlagainak azonosságáról akarunk meg-
győződni = variancianalízis
Az átlagok összehasonlítását természetesen páronként is megoldhatjuk, de háromnál
több minta esetén ez már – különösen számítógépi segítség nélkül – igen hosszadalmas
munkát jelentene.
a)
Ha két szórást hasonlítunk össze, akkor a próbafüggvény tört formájú, és
mind a nevezőjében, mind a számlálójában olyan statisztikai adat szerepel,
amely nem tökéletesen független valószínűségi változó, ezért a számláló-
nak (v1 = n1 − 1) és a nevezőnek (v2 = n2 − 1) a minták elemszámának
azonossága (eltérése) miatt azonos vagy eltérő a szabadságfoka. Így az
elméleti F-értékek felsorolására nem elég egyetlen tábla, mert annak mind
a fejrovatában – (v1 ) –, mind az oldalrovatában – ( v2 ) – szabadságfokok
szerepelnek. (A valószínűségeket pedig a tábla címében kell keresni.)
Az F-táblában való adatkeresés egyszerűsítése érdekében a próbafügg-
vény számlálójába mindig a nagyobbik szórás kerül. Ennek az a követ-
kezménye, hogy nem kell az elfogadási tartomány alsó határát kiszámíta-
nunk. A döntéshozatalnál elég arra figyelnünk, hogy a próbafüggvény
számszerű értéke nagyobb-e vagy kisebb-e a táblából kikeresett értéknél,
ha nagyobb, akkor a nullhipotézis ( H0 ) elvetése és az alternatív hipotézis
( H1 ) elfogadása mellett kell döntenünk, ha pedig kisebb, akkor éppen el-
lenkező döntést hozunk.
b)
Amikor több minta átlagát hasonlítjuk össze, akkor varianciaanalízist
végzünk. Az F-táblában való keresésben különbséget jelent az, hogy a
kizárólag egyoldali ellenhipotézis miatt a megadott szignifikancia-szint
átalakítására soha nem kerül sor.
Felmerülhet a kérdés, miért használhatók a szórásokat az átlagok egye-
zőségének eldöntésére? Ha figyelembe vesszük az ismérvek közötti kap-
csolatokról tanultakat234, akkor erre a kérdésre könnyen válaszolhatunk.
Az egyes átlagok akkor térnek el egymástól és a főátlagtól lényegesen, ha a
megkülönböztető ismérvnek (ennek alapján képeztük a részsokságokat)
jelentős befolyásoló szerepe van (magas a külső szórás értéke, szoros kap-
csolatot jelez a H-mutató), ha pedig a megkülönbözető ismérvnek nincs
jelentős szerepe, akkor a részátlagok közel vannak egymáshoz (vagy meg-
egyeznek) illetve a főátlaghoz.
A próbafüggvény számlálójának (= a külső szórásnak) m − 1 a szabad-
ságfoka, a nevezőnek (= a belső szórásnak) pedig n-m. Az m − 1 szabad-
ságfokot a főátlag nem független jellege magyarázza, az n-m szabadságfo-
kot pedig a belső szórás számításánál felhasznált m darab nem független
minta-szórás felhasználása.
Az F-próba elnevezéssel jegyzetünkben még fogunk találkozni. Azonos nevű próbát
végzünk majd azonos táblából vett elméleti értékek felhasználásával, de más
próbafüggény-képlettel a regressziós egyenletek paramétereinek tesztelésére (= a paramé-
terekkel kapcsolatos hipotézisek ellenőrzésére).
χ 2 -próba.
Ezt a próbát több egészen különböző statisztikai jellemző ellenőrzésére
használhatjuk. Így
a) a mintabeli szórások és a teljes sokaságra vonatkozó szórások összeha-
sonlítására,
b) a sokságok eloszlásának tesztelésére (= illeszkedésvizsgálat) és
c) az ismérvek függetlenségének igazolására.
Az alkalmazott próbafüggvény, a próba szabadságfoka és a felírásra kerülő
hipotézisek a felhasználás céljától függően változnak, azonos viszont a
( )
tábla – "a χ 2 khí 2 eloszlású változó eloszlásának kvantilis értékei”, ahonnan
az elméleti értékeket kell kikeresni.235
a)
Ha egy mintából származó és egy mintától független szórást akarunk ösz-
szehasonlítani, akkor próba szabadságfoka: n − 1 .
Elfogadási tartomány különböző ellenhipotézisek esetén:
[
H 1 : s 〈σ 0 → χ α2 ( v ) ; ∞ [
⎡ ⎤
H 1 : s ≠ σ 0 → ⎢ χ α2 ; χ α2 ⎥
⎣ 2 (v) 2 (v) ⎦
⎤ ⎤
H 1 : s〉σ 0 → ⎥ − ∞; χ α2 ⎥
⎦ 2
(v)
⎦
b)
Az eloszlásvizsgálat célja azt ellenőrizni, hogy a annak a sokaságnak,
melyből az aktuális mintát vettük eloszlása illeszkedik-e valamilyen mate-
matikából ismert elméleti eloszlás-típusra, vagyis az ismérvértékek tapasz-
talati (= megfigyelt) előfordulásai ( fi ) azonosak-e azokkal az előfordulási
( fi ∗ ) adatokkal, amit a feltétezett eloszlás-típus elméleti adatai alapján szá-
míthatunk ki.
A nullhipotézis elfogadása itt azt jelenti, hogy a vizsgált sokság eloszlá-
sa illeszkedik a feltételezett matematikai eloszlás-típusra, az ellenhipotézis
elfogadása pedig ennek épp az ellenkezőjét (= nem illeszkedik).
A próba legtöbb számítási munkát igénylő része az elméleti előfordulások
( fi ∗ ) meghatározása. Ennek lépései, ha azt feltételezzük, hogy a sokaság
eloszlása a normális eloszlás elméleti görbéjére illeszkedik:
c)
A függetlenségvizsgálat segítségével az asszociáció237 mutatóinak igaz-
ságtartalmát lehet ellenőrzi. Nullhipotézise a függetlenséget, alternatív
hipotézise pedig az összefüggést feltételezi.
Próbafüggvénye gyakorlatilag megegyezik238 az illeszkedésvizsgálat
próbafüggvényével. Eltérő viszont az elméleti előfordulások kiszámítá-
sa.239 A próba szabadságfoka a két ismérv ismérvváltozatainak számából
határozható meg: v = ( s − 1)(t − 1)
A próba során a szabadságfok és az előre megadott szignifikancia-szint
( ) alapján a χ 2 -táblából az 1 − α feliratú oszlopban kell a megfelelő
α
elméleti értéket kikeresni. A valószínűségek átalakítására, a próba egyol-
dalisága miatt, ebben az esetben sem kerül sor.
A próba "érdekessége" – az eddig tárgyalt összes próbához hasonlítva
–, hogy tulajdonképpeni cél a kapcsolat kimutatása és annak ellenőrzése,
ez mégis az ellenhipotézisben kerül megfogalmazásra.
A felsorolt próbák függvényei:
" z" -próbamegjegyzés a tábla kétmintás "t" -
egymintás "t" -próba
alatt próba
xa − X 0 xa − X 0 xa − X 0 xa − X 0 x1 − x2
z= = t= = t=
σx σ sx s 1 1
sd ∗ +
n n n1 n2
(f − f i∗ )
2
χ = ∑∑
(f − f ij∗ )
2
χ2 = ∑
i 2 ij
χ 2
=
(n − 1)s 2 f i∗ f ij∗
σ2 f i. ∗ f . j
f i∗ = p∗ ∗ n f ij∗ =
n
fi = f ij = SK =
tapasztalati előfordulá- tapasztalati előfordulások, a részátlagok és főátlag
sok, ∑ fi = n ∑∑ f ij =n súlyozott eltérésnégy-
(illeszkedésvizsg.) (függetlenségvizsg.) zeteinek összege
∗
fi = elméleti előfordu- f ij∗ = elméleti előfordulá- SB =
lások, sok, az egyes minták szó-
∑f i
∗
=n ∑∑ f ∗
ij =n rásnégyzeteinek súlyo-
(illeszkedésvizsg.) zott összege
(függetlenségvizsg.)
f i. és f . j =
∗
p = peremgyakoriságok = a m=
elméleti valószínűség ≈ kombinációs tábla sorainak a független minták
elméleti megoszlási vi- ill. oszlopainak összesen darabszáma
szonyszám adatai(függetlenségvizsg.)
BEMUTATÓ FELADATOK
11.2.sz. tábla
szórakozási osztály- a hallgatók száma a
kiadás közép mintában
ezer Ft / hó /fő xi fi
– 5,0 3,5 6
5,1 – 8,0 6,5 10
8,1 – 11,0 9,5 18
11,1 – 14,0 12,5 35
14,1 – 17,0 15,5 15
17,1 – 20,0 18,5 11
20,0 – 21,5 5
összesen – 100
adatforrás: saját gyűjtés SZE, 2006. márc.
1. A hipotézisek megfogalmazása:
változat nullhipotézis alternatív hipotézis próba
a H 0 : X a = 11.000 Ft H 1 : X a ≠ 11.000 Ft kétoldalú
egyoldalú
b H 0 : X a = 11.000 Ft H 1 : X a 〉11.000 Ft
(jobb)
A gyakorlati munka során általában nem fogalmaznak meg több hipotézist, itt a bemuta-
tás kedvéért szerepel a két különböző lehetőség. (A harmadik lehetőséget – baloldali – fel
sem írtuk, nevetséges lenne azt állítani, hogy a 12.380 Ft kisebb a 11.000 Ft-nál.)
2. A próbafüggvény kiválasztása:
Erre most nincsen szükség, hiszen a bemutatásra kerülő próbafüggvény-
hez készítettünk példát.
3. A szignifikanciaszint kijelölése:
A szignifikancia-szintet a feladat megadta: α = 5% → 0,05 .
Ez az általánosan használt szignifikancia-szint, ezért ha valamelyik feladatban nem szere-
pel valószínűségre vonatkozó előírás, akkor ezzel az értékkel szokás számolni.
242 Ha a hipotéziseket még a mintavétel és az abból történt számítás előtt írjuk fel, akkor
előfordulhat, hogy a szórakozási kiadások csökkenését feltételezzük, vagyis baloldali
alternatív hipotézist írunk fel. Ebben az esetben a tartományok így alakultak volna: elfo-
gadási = [− 1,65 ↔ +∞ ] ; kritikus [− ∞ → −1,65] .
xa − X 0 12.380 − 11.000
z= = ≅ 3,45
σx 4.000
100
a)
Mivel a próbafüggvény számszerű értéke (3,45) az elfogadási tartomá-
nyon kívül esik, illetve úgy is fogalmazhatunk, hogy a próbafüggvény érté-
ke nagyobb a táblabeli értéknél 3,45〉1,96 ezért a nullhipotézist elvetjük és
egyúttal az alternatív hipotézist elfogadjuk. Azaz
♥ a 100 elemű EV minta alapján 5 %-os szignifikancia-szinten állítjuk,
hogy a hallgatók havi szórakozási kiadásainak átlaga nem azonos a korábbi
teljeskörű felvétel eredményével. Úgy is fogalmazhatunk, hogy szignifikáns
különbség van a két adat között.
b)
Mivel a próbafüggvény számszerű értéke (3,45) a kritikus tartományba esik,
így döntésünk az a) változatnál leírttal teljesen azonos, de kicsit másképp fo-
galmazhatunk. Az alternatív hipotézis felírási módjából, ui. egyértelmű, hogy
♥ a 100 elemű EV minta alapján 5 %-os szignifikancia-szinten állítjuk,
hogy a hallgatók havi szórakozási kiadásainak átlaga az eltelt időszakban
növekedett, nagyobb a korábbi teljeskörű felvétel eredményénél.
Felmerülhet a kérdés, van-e olyan szignifikancia-szint, ami mellett nem
vetjük el a nullhipiotézist? Vegyük elő az eddig is használt táblát, és keres-
sük meg a próbafüggvény eredményénél már nagyobb „z” értékhez tarto-
zó Φ ( z ) értéket! Ha z = 3,46 , akkor Φ ( z ) = 0,9997 . Ha egyoldalú ellen-
hipotézissel dolgoztunk, akkor már ismert is a válasz, α = 0,03% . Ha
azonban kétoldalú ellenhipotézissel dolgoztunk, akkor még el kell végezni
1. A hipotézisek megfogalmazása:
változat nullhipotézis alternatív hipotézis próba
a) H 0 : X a = 11.000 Ft H 1 : xa ≠ 11.000 Ft kétoldali
b) H 0 : X a = 11.000 Ft H 1 : xa 〉11.000 Ft jobboldali
b) H 0 : x1 = x2 H 1 : x1 〈 x2 baloldali
α = 1,0%
a) x1 ≠ x2 [− 2,58 ↔ +2,58] [− ∞ → −2,58] és [+ 2,58 → +∞]
b) x1 〈 x2 [− 2,33 ↔ +∞] [− ∞ → −2,33]
5. A próbafüggvény számszerű értékének meghatározása:
x1 − x2 12.380 − 13.600
t= = ≅ −1,58 , ahol
1 1 1 1
sd ∗ + 4456 ∗ +
n1 n2 100 50
sd =
(n1 − 1)s12 + (n2 − 1)s 2 2 =
(100 − 1)4.430 2 + (50 − 1)4.800 2 ≅ 4.456 Ft
n1 + n2 − 2 148
A döntések adatai
α = 5%
alternatív hipoté-
változat H0 H1
zis
a) H 1 : x1 ≠ x2 elfogadva elvetve
b) H 1 : x1 〈 x2 elfogadva elvetve
α = 10%
a) H 1 : x1 ≠ x2 elfogadva elvetve
b) H 1 : x1 〈 x2 elvetve elfogadva
α = 1,0%
a) H 1 : x1 ≠ x2 elfogadva elvetve
b) H 1 : x1 〈 x2 elfogadva elvetve
11.3.4. F-próba
1. A hipotézisek megfogalmazása:
Ho H1 a próba
s1 = s2 s1 ≠ s2 kétoldalú
s12 4.800 2
F= = = 1,17
s 22 4.430 2
H 1 : xi ≠ x j
Szavakkal megfogalmazva,
A nullhipotézis szerint valamennyi minta átlaga – természetesen csak
az adott szignifikancia-szinten – azonos és egyben megegyezik az átlagok
átlagával, a főátlaggal.
( x1 ,..., xm az egyes minták átlagai, ezeket részátlagoknak is tekinthetjük;
X = az egyes minták átlagainak átlaga, ezt főátlagnak is tekinthetjük.)
Az alternatív hipotézis szerint a vizsgált átlagok közül legalább kettő
nem egyezik meg egymással. Ha a mintákat nem ugyanazokból a sokasá-
gokból vettük (ha mind az öt minta más-más egyetemen végzett vizsgálat
eredménye), akkor azt mondhatjuk, az egyes sokaságok átlagai nem azo-
nosak, de ha nincs információnk a minták eredetéről, akkor így fogalmaz-
hatunk: az egyes minták nem származhatnak ugyanabból a sokaságból.
x=
∑n ∗ x j j
=
100 ∗12.380 + 50 ∗13.600 + ... + 70 ∗11.500
≅ 13.094 Ft
∑n j 315
σB =
SB
=
∑n ∗s j
2
j
=
∑nj ∑n j
∑ n (x − x )
2
SK j j
σK = = =
∑nj ∑n j
245 Mind külső, mind a belső szórás számításánál a mintaelemek összege (315) szerepel a
nevezőben. A szórás becslésénél tanult ”-1”-t azért lehetett elhagyni, mert ekkora elem-
szám esetén már nincs jelentősége. (Elhagyása nem módosítja az eredményeket, ill. legfel-
jebb akkora mértékben, amennyit a számítások végén úgy is „elkerekítünk”.)
A próbafüggvény értéke:
SK 516.127.301,6
vK 4 ≅ 6,1
F= =
SB 6.559.590.000
vB 310
σ 2K 1.280 2
vK 4 ≅ 6,1
F= =
σ 2B 4.563 2
vB 310
1. A hipotézisek246 megfogalmazása:
Ho H1 a próba
s1 = σ 0 s1 ≠ σ 0 kétoldalú
s≠σ [χ 2
0 , 025 ( 99 ) ]
↔ χ 02,975( 99 ) → [74,2 ↔ 129,6]
χ2 =
(n − 1)s 2 = (100 − 1)4.430 2 ≅ 121,4
σ 02 4.000 2
A tábla egyes adatait (szürke háttér, dupla vonalas keret) így számítottuk
ki:
5 − 12,38
• z1 = −1,66605 ≅
4,43
A számításokat EXCEL-programmal végeztük. A számítógép nem kerekített, így
4,429652 ezer Ft-os szórással dolgozott. (Ezért, ha ellenőrizni akarja munkánkat, Ön
se kerekítsen.)
• 1 − Ψ ( z 3 ) = 1 − 0,62231 = 0,37769
A táblából kikeresett érték komplomenterének (= kiegészítőjének) kiszámítására
azért van szükség, mert ha z negatív, akkor a táblából kikeresett valószínűség az
adott negatív határ és a pozitív végtelen közötti előfordulást valószínűségét adja meg,
azaz nem kezelhető együtt a pozitív z értékekhez kikeresett valószínűségekkel.
• χ 2
egyik összetevője:
(f 6 − f 6∗ ) = (11 − 10,58)
2 2
≅ 0,017
f 6∗ 10,58
40
előfordulások a mintában (fő)
35
30
25
20 Adatsor1
15
10
5
0
0 5 10 15 20 25
szórakozási kiadások (ezer Ft)
11.1.sz. ábra
Függetlenségvizsgálat
A próba az asszociáció mutatóinak igazságtartalmát ellenőrzi. Ezért a 7.1.
fejezetben247 található bemutató példát folytatjuk. Ott 1992 és 2003 évekre
vonatkozóan a foglalkoztatottakat egyszerre két ismérv (ágazat = minő-
ségi ismérv ill. nem = minőségi ismérv) szerint csoportosítottuk. Egy-
részt kíváncsiak voltunk arra, hogy van-e kapcsolat az ágazatok és a foglal-
koztatottak neme között. (Van-e olyan ágazat, amelyik „vonzza” férfiakat,
ill. van-e olyan, amelyik „vonzza” a nőket?) Másrészt kíváncsiak voltunk
rajta, hogy megváltozott-e a mutató értéke az eltelt évtized alatt? Most
pedig azt akarjuk ellenőrizni, hogy véletlen-e a mutatók nullától való elté-
rése, azaz valódi kapcsolat van-e az ismérvek között, vagy csak a mintavé-
tel szeszélyei miatt (pl. szélsőséges minta) kaptuk az alábbi eredményeket.
11.5.sz. tábla
A számítások eredményei
év Csuprov-mutató Cramer féle mutató
452,3966 452,3966
1992 T= ≅ 0,18 C= ≅ 0,34
4025,8 (2 − 1)(14 − 1) 4025,8 * (2 − 1)
247 Statisztika I.
563,328 563,328
2003 T= ≅ 0,20 C= ≅ 0,38
3922 (2 − 1)(14 − 1) 3922 * (2 − 1)
H0 : Pij = Pi∗ ∗ P∗ j
2. feladat
3. feladat
248
Magyar statisztikai évkönyv, 2003 (KSH, 2004; 68. – 70. old.) /A legfőbb halálokokat
emeltük ki, a halálestek 88 %-át./
4. feladat
249 Demográfiai évkönyv, 2003 (KSH, 2004; 90. old.) /Az ismeretlen korúak – számuk
elenyésző– nélkül./
Egy város 60 ezer 25 éven felüli lakosa közül 300 elemű EV mintát vettek az iskolai
végzettség vizsgálatára. A minta szerint a 25 éven felüli lakosok által sikeresen elvég-
zett iskolaévek átlagos száma 9,2 (szórás: 2,6 ). Számítsa ki P = 98,8% az átlagosan
elvégzett iskolai évek számát! Ellenőrizze azt feltevést, hogy a sikeresen elvégzett
iskolaévek száma a) kevesebb 10 – nél, b) több 10-nél, c) éppen 10! Vizsgálja meg,
milyen döntések születtek volna 80, 90 és 95 %-os becslési szint mellett!
Egy városban a szelektív hulladékgyűjtés bevezetését tervezik. A hulladékfajták becslésére
a város háztartásaiból 10 %-os EV mintát vettek. Az éves szilárd hulladékok meg-
oszlása (m3) a mintában:
40 – 49 86 61 33 14 40
50 – 59 72 44 25 13 36
60 - 167 30 57 3 42
iskolai végzettség
legfeljebb
258 102 90 60 90
8 év
középfokú 130 88 50 47 105
felsőfokú 49 45 23 11 52
Vizsgálja meg, hogy a szabadidő-eltöltésének módja mely ismérvvel
(ismérvekkel) van szignifikáns kapcsolatban!
11.5. Összefoglalás
= feltevés valamely sokasági jellemezőre vagy a soka-
hipotézis
ság eloszlására
= feltevésünk ellenőrzése egy (vagy több) minta
hipotézisellenőrzés
alapján
szükséges mert a sokasági jellemzők számítása mintából történik
1. a hipotézis felírása
2. a próbafüggvény értékének meghatározása
a munka menete 3. a táblabeli érték kikeresése (adott P → α
alapján)
4. összevetés → döntés → megfogalmazás
variancia-analízis SK
vK
F=
SB
vB
Mintabeli és pl. szabvány szórás összehasonlítására,
χ -próbák
2 szabadságfoka = ( n − 1) .
szórásra (n − 1)s 2
χ =
2
σ2
Annak eldöntésére, illeszkedik-e egy vizsgált sokaság
eloszlása valamely ismert (legtöbbször: normális)
eloszlás típusra,
eloszlásvizsgálat szabadságfoka = (k − 1 − r ) .
(f )
2
− f i∗
χ =∑
2 i
f i∗
Az asszociációs kapcsolat szignifikáns voltának el-
döntésére,
szabadságfoka = ( s − 1)∗ (t − 1) .
függetlenségvizsgálat
χ = ∑∑
2
(f ij − f ij∗ )
2
f ij∗
1. minta
szórás
létszám
250Ahogy már többször jeleztük, a vizsgán egy-egy számítás levezetéséhez ill. megfogal-
mazás leírásához nem ilyen kevés hely áll majd rendelkezésére.
1.4. Fogalmazza meg az 1.1. (átlag), 1.2. (szám) és a 1.3. feladatok kiemelt
eredményeinek jelentését!
átlag
létszám
eloszlás
2. minta
Egy tejipari vállalatnál a tejfölösdobozok töltését automata gép végzi. A dobozok névleges
töltési tömege 5 dl, a megengedett szórás 0,15 dl. A gyár egyik szállítmányából 75 elemű
EV mintát vettek. A mintában az átlagos töltési tömeg 4,95 dl volt, a szórás 0,125 dl.
feladatok:
2.1. Becsülje meg (P = 95 %) a minta adatai alapján az átlagos töltési tömegnek
és a szórásnak az intervallumát! Fogalmazza meg a kiszámított átlag (intervallum)
jelentését!
átlag szórás
megfogalmazás
3. minta
feladatok:
3.1. Határozza meg (P = általánosan használt) a fiúk átlagos születési hosszát és
annak szórását! (kétoldalú becslés)
próbák
4. minta
X = 80.000
σ = 18.000
n = 100
x = 78ezer
s = 20ezer
α = 0,05
H0 : x = X
H1 : x ≠ X
H0 : s = σ
H1 : s ≠ σ
1. döntés
2. döntés
12.1. Bevezetés
Az idősor251 olyan statisztikai sor, melyben az ismérv az idő, az ismérv-
változatok pedig különböző dátumok. Az idősorok két alapvető típusa az
állapot- és a tartam idősor. A koordináta rendszerben történő ábrázolá-
suk során, a vízszintes tengelyen rendszerint a dátumokat tüntetjük fel, a
függőleges tengelyen pedig az egyes időpontokhoz tartozó megfigyelt ada-
tokat. Ábrájuk lehet pont-, vonal- és oszlopdiagram252.
Az idősorok adatait elemezhetjük dinamikus viszonyszámokkal253,
ezek a megfigyelt adatok relatív változását mutatják. A bázis viszonyszám
(bi ) egy kiválasztott (= bázis) adathoz, a láncviszonyszám (li ) mindig az
előző adathoz hasonlítja az idősor i-edik adatát. Megoszlási viszonyszámot
(wi ) pedig csak a tartam idősorokból számíthatunk.
Mind az idősorok megfigyelt adatai, mind az azokból számított válto-
zások átlagolhatók254. A tartam idősorok számtani ( y a ) , az állapot időso-
rok pedig kronologikus ( y kr ) átlaggal jellemezhetők. Az átlagos
abszolútváltozás (d i ) a megfigyelt adatok különbségeit, az átlagos relatív-
változás (li ) pedig a láncviszonyszámokat sűríti egyetlen adatba.
Az idősorok az eddig megismert módszereken kívül további eszkö-
zökkel is elemezhetők. Ehhez az idősorok adatait összetevőikre kell bon-
tani:
• alapirányzat ( ŷij ),
• szezonhatás (s j , s ∗j ) ,
• véletlenhatás (v j , v ∗j ) ,
• ciklushatás.
yi
• növekedés, amikor is d i = y i − y i −1 pozitív ill. li = 100 %-nál
y i −1
nagyobb;
yi
• csökkenés, amikor is d i = y i − y i −1 negatív ill. li = 100 %-nál
y i −1
kisebb;
yi
• stagnálás, amikor is d i = y i − y i −1 ≅ 0 ill. li = ≅ 1.
yi −1
A társadalmi-, gazdasági életben lezajló időbeli folyamatok igen gyakran
nem mutatnak töretlen fejlődést vagy folyamatos csökkenést. Az alapvető
tendencia feltárását azonban ez a tény nem zavarja.
12.2. Trendszámítás
Az idősorokban megmutatkozó alapirányzat kimutatására két módszerrel
ismerkedünk meg:
• analitikus és
• mozgóátlagolású trendszámítás.
Az analitikus trendszámítás eredményeként valamilyen matematikából
ismert egyenlettel írjuk le a változást, adjuk meg a „kiinduló értéket” ill.
az időszakonként megmutatkozó abszolút vagy relatív változás nagyságát.
A mozgóátlagolású trendszámítás eredménye egy az eredetinél rövi-
debb idősor, melynek elemei vagy egyre nagyobbak (= növekedés) vagy
egyre kisebbek (= csökkenés), esetleg közel állandóak (= stagnálás)
12.2.1. Analitikus trendszámítás
Az időbeli változások leírására,
• ha az abszolút változások (d i ) megközelítőleg azonos nagyságúak és
kevés kivételtől eltekintve azonos előjelűek, akkor lineáris egyenletet;
• ha a relatív változások (100 − l1i ) megközelítőleg azonos nagyságúak és
kevés kivételtől eltekintve azonos előjelűek, akkor exponenciális
egyenletet számítunk.
• Ha az idősorban megmutatkozó változások egy adott időpontban elő-
jelet váltanak (szélső értéke van a függvénynek), akkor a parabola-
függvényt használjuk.
• Ha igen hosszú idősorokat kell elemeznünk, akkor gyakran alkalmaz-
zuk az un. logisztikus egyenletet.
Az analitikus trendszámítás alapvető kérdése, hogyan illesszük az egyenle-
tet a megfigyelt pontok közé. Úgy is fogalmazhatnánk, hogyan válasszuk
ki az elvileg létező végtelen lehetőség közül a legjobbat.
Ha az idősor megfigyelt adatait úgy ábrázoljuk a koordináta rendszerben, hogy a tenge-
lyeken felvett skála meglehetősen nagy léptékű, akkor jól látható, hogy a pontdiagram (= a
megfigyelt adatok alapján készítjük) pontjai közé sok-sok egyenes vagy görbe rajzolható be.
255 A másik két megemlített egyenlettípus nem képezi tananyagunk részét, de megjegyz-
zük, hogy a parabolát ugyancsak a legkisebb négyzetek módszerével illesztik; a logisztikus
egyenlet esetén pedig az un. három-pontos illesztést alkalmazzák.
256 Természetesen egyéb módszerek is léteznek, de ez a legegyszerűbb.
257 A részletes levezetéseket megtalálják az irodalomjegyzékben felsorolt, és az Önök
által éppen olvasottnál részletesebb tankönyvekben.
β1 =
∑ t y − (∑ t )(∑ y )/ n
i i i i
β 0 = y − β1 * t ,
∑ t − (∑ t ) / n
2 2
i i
ahol y =
∑y i
és t =
∑t i
n n
Exponenciális egyenlet:
yˆ i = β 0 * β 1ti lg yˆ i = lg β 0 + t i ∗ lg β1 258
lg β 1 =
∑ t lg y − (∑ t )(∑ lg y )/ n
i i i i
lg β 0 = lg y − lg β 1 * t ,
∑ t − (∑ t ) / n
2 2
i i
ahol lg y =
∑ lg y i
n
A képletben szereplő betűk jelentése:
Az előző magyarázó táblában szereplő betűjeleket nem ismételtük meg.
β0 = β1 =
matematika: metszéspont az y- matematika: a kapcsolatot n=
tengelyen kifejező tényező a megfigyelések
statisztika: lásd a szöveges statisztika: lásd a szöveges darabszáma
magyarázat magyarázat
Legyen yˆ 1 = β0 * β t 1
1
és yˆ 2 = β0 * β t
1
2
, valamint t 2 − t1 = 1 . Ebben az esetben:
yˆ 2 / yˆ 1 = β 1 . Exponenciális egyenlet esetén, a vízszintes tengelyen egységnyit lépve, a
függőleges tengelyen szereplő adat mindig annyiszorosára változik, ahogy azt az egyenlet
x-hez tartozó paramétere mutatja. Azaz egységnyi abszolút változáshoz (a független
változóra – a trendszámításnál ezt a szerepet az idő tölti be – vonatkoztatva), állandó
relatívváltozás (a függő változóra – a trendszámításnál ezt a szerepet a megfigyelt jelenség
adatai töltik be – vonatkoztatva) tartozik.
BEMUTATÓ PÉLDA I.
lineáris trend
év yi ti t i2 t i ∗ yi ŷi ei2
1989 1.732,4 1 1 1.732,4 1.879,7 21.693,6
1990 1.944,6 2 4 3.889,2 1.930,2 207,3
1991 2.015,5 3 9 6.046,5 1.980,7 1.209,7
1992 2.058,3 4 16 8.233,2 2.031,2 732,5
1993 2.091,6 5 25 10.458,0 2.081,8 97,0
1994 2.176,9 6 36 13.061,4 2.132,3 1.992,0
1995 2.245,4 7 49 15.717,8 2.182,8 3.920,8
1996 2.254,2 8 64 18.033,6 2.233,3 436,8
1997 2.297,1 9 81 20.673,9 2.283,8 176,45
1998 2.340,0 10 100 23.400,0 2.334,3 32,1
1999 2.382,9 11 121 26.211,9 2.384,8 3,8
259 Lehet, hogy a matematika tanulmányaik során más betűjelekkel operáltak. Arról a
paraméterről van szó, amelyik független az x adattól.
260 Magyar statisztikai évkönyv 2003 (KSH – 2004. 19. old., kiemelés, ill. a KSH metodi-
ka váltása miatt az utolsó évek közölt adatait korrigáltuk.)
3000
2500
g é p k o c s i ( m illió d b )
2000
1500
1000
500
0
0 5 10 15 20
évek
2500
gépkocsi (millió db)
2000
1500
1000
500
0
0 5 10 15 20
évek
év yi ti t i2 lg yi t i ∗ lg yi ŷi ei2
1989 1.732,4 1 1 3,23865 3,23865 1.889,2 24.587,4
1990 1.944,6 2 4 3,28883 6,57766 1.933,5 124,1
1991 2.015,5 3 9 3,30438 9,91315 1.978,7 1.350,7
1992 2.058,3 4 16 3,31351 13,25403 2.025,1 1.102,2
1993 2.091,6 5 25 3,32048 16,60239 2.072,5 363,4
1994 2.176,9 6 36 3,33784 20,02703 2.121,1 3.115,1
3000
2500
g é p k o c s i ( m illió d b )
2000
1500
1000
500
0
0 5 10 15 20
évek
2500
gépkocsi (millió db)
2000
1500
1000
500
0
0 5 10 15 20
évek
Az exponenciális trendegyenlet:
lát más adatot az ábrára íratva. (A kitevő függvényt alkalmazva megkapjuk az általunk kiszámí-
tott β1 adatot.)
BEMUTATÓ PÉLDA
12.4.sz. tábla
évek
hónapok
2001. 2002. 2003. 2004. 2005.
jan. 17.603 17.695 15.848 18.145 13.004
febr. 12.864 14.980 14.530 13.019 12.425
márc. 15.781 22.697 12.866 15.202 15.085
ápr. 18.570 15.691 17.665 16.393 12.814
máj. 14.973 16.414 12.492 14.274 13.349
jún. 12.632 18.176 12.265 16.470 12.588
júl. 13.811 16.245 14.548 13.500 15.391
aug. 15.869 16.200 11.261 13.461 14.054
szept. 12.994 15.924 14.859 13.190 14.182
okt. 15.636 17.902 15.864 13.480 13.865
nov. 13.944 14912 12.583 13.495 16.249
dec. 28.418 27.703 25.893 17.713 19.141
összesen 193.095 214.539 180.674 178.342 172.147
30000
25000
levélforgalom (db)
20000
15000 Adatsor1
10000
5000
0
0 10 20 30 40 50 60 70
évek / hónapok
30000
25000
levélforgalom (db)
20000
15000
10000
5000
0
0 10 20 30 40 50 60 70
évek / hónapok
y = -42,411x + 16940
30000
25000
levélforgalom (db)
20000
15000
10000
5000
0
0 10 20 30 40 50 60 70
évek / hónapok
sj =
∑ (y ij − yˆ ij )
+ k j , ahol k j =
∑s j
n k
(Fontos: adatvesztés esetén a nevezőben: (n-1) szerepel.)
• szezonindex:
∑ (y / yˆ ij ) ∑s ∗
j
/ k ∗j . , ahol k j =
ij
s ∗j =
n k
(Fontos: adatvesztés esetén a nevezőben: (n-1) szerepel.)
BEMUTATÓ PÉLDA
hó →
júl. aug. szept. okt. nov. dec.
év↓
2001 -2.284 -318 -3.569 -1.096 -2.728 11.455
2002 -1.556 -1.506 -1.353 952 -1.957 11.244
2003 -604 -3.924 -360 601 -2.702 10.359
2004 -1.148 -948 -1.189 -745 -542 3.876
2005 – – – – – –
össz. -5.592 -6.695 -6.472 -288 -7928 36.934
átlag -1.397,97 -1.673,74 -1.617,92 -71,9583 -1.982,08 9.233,54
korrigált
-1.305 -1.581 -1.525 21 -1.889 9.326
átlagok
v v∗
A véletlenhatást (különbség: ij ill. index: ij ) un. maradéktagként számít-
hatjuk ki. Tekintettel arra, hogy az idősorok összetevői – ezek az alapese-
tek – összegszerűen (= additív módon) ill. szorzatszerűen (= multiplikatív
módon) kapcsolódhatnak, a még nem ismert véletlentagot kivonással ill.
osztással határozhatjuk meg.
∗
yij
yij = yˆ ij ∗ s ∗j ∗ v ∗ij → vij = = véletlen index
yˆ ij ∗ s ∗j
BEMUTATÓ PÉLDA
18176
v2∗, 6 = ≅ 1,0661 → 106,61% → +6,61%
17908 ∗ 0,952
12.5. Előrejelzés
Az idősorok vizsgálatának, ahogy erről már eset szó, kettős célja van.
• A múltban lezajló folyamatok alaposabb megismerése.
• Előrejelzés készítése a jövőre vonatkozóan.
Az előrejelzések készítése azonban soha nem történhet valamiféle
automatizmus szerint. Szem előtt kell tartanunk azt a tényt, hogy az
általunk éppen vizsgált időben változó jelenségeket sok-sok tényező befo-
lyásolja. A bemutató példáinkban vizsgált postai levélforgalmat például az
is befolyásolja, hogy a megfigyelt időszakban voltak-e választások; de a
jövőben egészen biztos hatással lesz rá a számítógépek még nagyobb mér-
tékű elterjedése. (A családi levelezések is áttevődhetnek az internetre, az
elektronikus aláírás elfogadásával pedig egy sor hivatalos irat sem feltétle-
nül fog papíralapú dokumentum formájában utazni az ország egyik helyé-
ről a másikra stb.) Ezek szerint, az előrejelzés szerves része kell, hogy le-
gyen a befolyásoló tényezők vizsgálata. Ilyen jellegű elemzésekre azonban
az oktatás keretei nem nyújtnak lehetőséget. Az el nem végzett vizsgálat
szükségességét azonban a szöveges megfogalmazásban érzékeltetni tudjuk.
Az előrejelzést technikája más az analitikus és más a mozgóátlagolású
trendszámítás esetén. Ha egyenletekkel fejeztük ki az alapirányzatot,
akkor első lépésben meg kell állapítanunk az előre jelezni kívánt időhöz
tartozó t i adatot, (Továbbvezetjük a számítások során használt t i -
sorozatot.) majd ezt az adatot behelyettesítjük az egyenletbe. Így megkap-
juk a jövőre vonatkozó trendadatot.
Ha az alapirányzat kimutatására a mozgóátlagolás módszerét hasz-
náltuk, akkor több megoldás is kínálkozik az előrejelzésre. A legegysze-
rűbb eljárás a következő. A trendadatokból kiszámítjuk az átlagos abszolút
BEMUTATÓ PÉLDA I.
(+2,2264; +2,7; +3,3 %), ezért nem mindegy, hogy melyik egyenletet fogad-
juk el jobbnak, és használjuk. Tekintettel arra, hogy az eltérésnégyzet-összeg
a lineáris egyenletnél kisebb (32.554,1〈43.841,9), javasolt ezzel dolgozni.265
BEMUTATÓ PÉLDA II.
12.10.sz. tábla
− 4632
sVII . = ≅ −926 db
5
A véletlenhatás (eltérés) számítása:
♥SZÖVEGES ELEMZÉS:
A postai levélforgalom megfigyelt adatai alapján kiszámított, az alapirányza-
tot kifejező lineáris trendegyenlet szerint – ha egyéb hatások nem érvényesül-
tek volna – 2000. decemberében 16.940 (β 0 ) darab levelet adtak volna fel az
ügyfelek; ill. a levélforgalom negyedévről negyedévre ≅ 42 (β1 ) darabbal
csökkent, és ha a befolyásoló tényezőkben lényeges változás nem következik
be, akkor ekkora csökkenésre számíthatunk az elkövetkező hónapokban is.
A postai levélforgalomban – legalábbis egyes hónapokban – jelentős
szezonális eltéréseket is megfigyelhettünk, és ezek további ismétlődésére is
számíthatunk. Így például februárban a trend alatti (-2.274 db), december-
ben pedig a trend feletti (+8.360 db) forgalomra kell felkészülni.
A vizsgált időszak egyes hónapjaiban jelentős véletlenhatást is észlel-
tünk, így például 2001. februárjában a szokásosnál is kisebb volt a forga-
lom, ill. 2005. decemberében valamilyen – ezt még elemezni kell – ok mi-
att nem érvényesült olyan erősen a karácsony hatása, mint más években.
12.6.sz. ábra267
y = -42,411x + 16940
30000
25000
levélforgalom (db)
20000
15000
10000
5000
0
0 10 20 30 40 50 60 70
évek / hónapok
yˆ ij = 16552,5 ∗ 0,9975ti db
A szezonindex számítása:
12.14.a) sz. tábla
hó →
jan. febr. márc. ápr. máj. jún.
év↓
2001 1,0661 0,7810 0,9605 1,1331 0,9159 0,7746
2002 1,1041 0,9370 1,4232 0,9863 1,0343 1,1482
2003 1,0187 0,9363 0,8311 1,1440 0,8110 0,7982
2004 1,2016 0,8643 1,0117 1,0937 0,9547 1,1043
2005 0,8871 0,8497 1,0342 0,8807 0,9198 0,8695
összesen 5,2776 4,3683 5,2607 5,2377 4,6356 4,6948
átlag 1,0555 0,8737 1,0521 1,0475 0,9271 0,9390
korrigált
1,0367 0,8581 1,0334 1,0289 0,9106 0,9222
átlag
% 3,6693 -14,1915 3,3389 2,8869 -8,9411 -7,7789
12.14.b) sz. tábla
hó →
júl. aug. szept. okt. nov. dec.
év↓
2001 0,8490 0,9779 0,8027 0,9684 0,8657 1,7687
2002 1,0288 1,0285 1,0135 1,1422 0,9538 1,7763
2003 0,9491 0,7365 0,9743 1,0427 0,8291 1,7104
2004 0,9070 0,8910 0,8910 0,9128 0,9161 1,2054
2005 1,0657 0,9756 0,9869 0,9672 1,1364 1,3419
összesen 4,7996 4,6094 4,6683 5,0333 4,7011 7,8027
átlag 0,9599 0,9219 0,9337 1,0067 0,9402 1,5605
korrigált
0,9428 0,9055 0,9170 0,9887 0,9234 1,5327
átlag
% -5,7186 -9,4550 -8,2985 -1,1287 -7,6551 53,2724
A szezonindexek számítása az egyszerűbb átlagolással (= az oszlopok ada-
tainak összege osztva az évek számával) történt. Az átlagok összege azon-
ban nem pontosan 12 volt, ezért korrigáltunk. Majd meghatároztuk a 100
% (= nincs szezonhatás) –tól való pozitív (= a szezon hatására a trend-
adatnál nagyobb a megfigyelt adat) és negatív (= a szezon hatására a
trendadatnál kisebb a megfigyelt adat) eltéréseket.
k ∗
=
∑s ∗
j
=
1,0555 + 0,8737 + ... + 0,9402 + 1,5605
≅ 1,01815
j
k 12
• korrigálás július =
∗ átlag 0,9599
sVII . = = = 0,9428 → 94,28% →≅ −5,72%
k ∗j 1,01815
∗
yij 15848
= v2003 .I . ∗
= = 0,9826 → 98,26% → −1,74%
yˆ ij ∗ s j 15557 ∗1,0367
♥SZÖVEGES ELEMZÉS:
A postai levélforgalom megfigyelt adatai alapján kiszámított, az alapirány-
zatot kifejező exponenciális trendegyenlet szerint – ha egyéb hatások nem
érvényesültek volna – 2000. decemberében ≅ 16.553 (β 0 ) darab levelet
adtak volna fel az ügyfelek. A levélforgalom negyedévről negyedévre ≅ -
0,25 (β1 ) %-kal csökkent, és ha a befolyásoló tényezőkben lényeges válto-
zás nem következik be, akkor ekkora csökkenésre számíthatunk az elkö-
vetkező hónapokban is.
A postai levélforgalomban – legalábbis egyes hónapokban – jelentős
szezonális eltéréseket is megfigyelhettünk, és ezek további ismétlődésére is
számíthatunk. Így például februárban a trend alatti (≅ -14,2 %), decem-
berben pedig a trend feletti (≅ +53,3 %) forgalomra kell felkészülni.
A vizsgált időszak egyes hónapjaiban jelentős véletlenhatást is észlel-
tünk, így például 2001. februárjában a szokásosnál is kisebb volt a forga-
lom (≅ -9,0 %), ill. 2005. decemberében valamilyen – ezt még elemezni
kell – ok miatt nem érvényesült olyan erősen a karácsony hatása (≅ -12,6
%), mint más években.
A 12.7. sz. ábrán a megfigyelt adatok közé illesztett exponenciális
egyenlet görbéjét láthatjuk. Az EXCEL-porgram segítségével az egyenletet
is kiírattuk az ábrára. Aki így dolgozik, annak a kitevő függvény használa-
tára is szüksége van, mert az EXCEL a természetes alapú logaritmussal
számol. (Ezért láthatunk – az előzőekben kiszámítotthoz hasonlítva – más
formátumú egyenletet az ábrán.)
12.7.sz. ábra
Kapuvár levélforgalom 2001 - 2005
30000
y = 16552,4294e-0,0025x
25000
levélforgalom (db)
20000
Adatsor1
15000
Expon. (Adatsor1)
10000
5000
0
0 10 20 30 40 50 60 70
évek / hónapok
1. feladat
3. feladat
12.8. Összefoglalás
idősor = olyan statisztikai sor, melyben az ismérv az idő
= mozgó sokaság, összege
1. tartam idősor
értelmes
fajtái
= álló sokaság, összege
2. állapot idősor
nem értelmes
1. viszonyszámok
2. középértékek
elemzése
3. ábrázolás
4. összetevőkre bontás
véletlen index [v ]
a véletlenhatás kimutatása ∗
2. ij
β 0 = y − β 1t
lineáris egyenlet yˆ i = β 0 + β1ti
β1 =
∑ t y − (∑ y )(∑ t )/ n
i i i i
∑ t − (∑ t ) / n
2 2
i i
lg β 0 = lg y − lg β1t
exponenciális
egyenlet
yˆ i = β 0 β 1ti
lg β1 =
∑ t lg y − (∑ lg y )(∑ t )/ n
i i i i
∑ t − (∑ t ) / n2 2
i i
t i = 1,2,3,..., n
a legjobb egyenlet
kiválasztása
legkisebb négyzetek módszere ∑e = ∑(y 2
i i − yˆ i ) min.!
2
β 0 mindkét típusnál
a t i = 0 időpont (időszak), azaz a megfigyelés kezde-
te előtti időpont (időszak) trendadata
β1 lineáris
az időpontról időpontra (az időszakról időszakra)
bekövetkező abszolút változás
a paraméterek jelentése vagy így is fogalmazhatunk
átlagos abszolút változás ≅ d ( )
β1 exponenciális
az időpontról időpontra (az időszakról időszakra)
bekövetkező abszolút változás
vagy így is fogalmazhatunk
átlagos abszolút változás ≅ d ( )
az összetevőkre bontás a múlt megismerése
felhasználása a jövő előrejelzése
1. minta
Egy kereskedelmi vállalat forgalmának (ezer Ft) leírására 2000-2005 év elejétől – év végé-
ig) közötti időre (negyedéves bontásban) az alábbi egyenletet találták a legjobbnak:
yˆ i = 6040 + 80t i
2.5. Fogalmazza meg a 2.4. feladatban kiszámított egyik (tetszőleges) adat jelentését!
2. minta
év hús
1990 75,8
1991 74,1
1992 75,2
1993 70,5
1994 69,0
1995 65,2
1996 61,9
1997 60,8
1998 63,7
1999 63,3
2000 73,2
2001 70,4
2002 75,4
összesen
2007
2010
2.6. Hogyan lehet előrejelzést végezni, ha az egyes hónapok eltérő jellegét is fi-
gyelembe akarjuk venni? Kétféle megoldást kérek.
3. minta
2007
2010
4. minta
Egy gázszolgáltató vállalat bevételeiről (millió Ft) az 1998-2005 között időszakra negyed-
éves bontásban az alábbiakat ismerjük:
13.1. Bevezetés
A korrelációszámítással már a 7. fejezetben foglalkoztunk, így a fogalom
jelentése – mennyiségi ismérvek közötti kapcsolat – már ismert. Sőt arról
is esett szó, hogy ha a megfigyelt adatokat kombinációs (korrelációs)
táblába rendezzük, akkor az elemzéshez felhasználhatjuk a vegyes kap-
( )
csolat szorossági mutatóit H , H 2 , s ezeket – a változók szerepének fel-
cserélése révén – kétféle szemléletben is kiszámíthatjuk.
Ebben a fejezetben a kapcsolat vizsgálatának további szorossági muta-
tóival ismerkedünk meg, illetve azokkal az egyenlettípusokkal, melyeket
leggyakrabban használnak a kapcsolat matematikai jellegű leírására. Ezek-
hez a számításokhoz az adatokat azonban már nem kombinációs táblába
rendezve, hanem listaszerűen adjuk meg. A kétváltozós modellekben
adat-párokat, a háromváltozósban pedig adat-hármasokat sorakoztatunk
fel egymás alatt.
A korreláció- és regresszió-számítás témakörét a szakirodalom általában
két részre tagolva – kétváltozós és többváltozós modellek – tárgyalja,
tankönyvünk is ezt a felosztást alkalmazza. A kétváltozós kapcsolatok egyik
szereplője a magyarázó változó (matematikai szóhasználattal: a független
változó, befolyásoló tényező), a másik pedig az eredményváltozó (mate-
matikai szóhasználattal: a függő változó, befolyásolt tényező). A kétválto-
zós egyenletek statisztikai felhasználásnak egyik sajátossága, hogy a válto-
zók szerepe felcserélhető. Ha a kérdést úgy tesszük fel, milyen mértékben
járult hozzá egy országban a GDP növekedéséhez a szállítási ágazat, akkor magya-
rázó változónak tekinthetjük pl. a járműállomány valamely jellemzőjét (da-
rabszámát, teherbíró-képességét stb.), és eredményváltozónak a GDP
nagyságát. A kérdést azonban fordítva is feltehetjük, milyen mértékben járult
hozzá a GDP növekedése az ország és azon belül a szállítási ágazat gépjárműállomá-
nyának növekedéséhez. Ez utóbbi esetben a GDP értéke (növekedése) a ma-
gyarázó változó, és természetesen a gépjárműállomány nagysága az ered-
ményváltozó. Így a kapcsolatot pl. lineárisnak feltételezve, két egyenletet
írhatunk fel: yˆ y x = β 0( y x ) + β1( y x ) xi ill. xˆ y x = β 0( x y ) + β1( x y ) yi és több
szorossági mutatót is. (Erről majd a későbbiekben szólunk részletesen.)
pezzük a függvény első deriváltját, ahol ez a nulla értéket felveszi, ott van
a minimum hely. A szükséges matematikai műveletek, és a lehetséges egy-
szerűsítések után kapjuk meg az un. normálegyenleteket. A keresett
egyenlet paramétereit közvetlenül ezekből is meghatározhatjuk, de a sta-
tisztikában inkább a képletek alkalmazása és értelmezése a szokásos meg-
oldás. A normálegyenletekből kétféle módon alakíthatunk ki képleteket.
• Az egyenletek rendezésével. Ekkor ugyanazokhoz a formulákhoz ju-
tunk, mint a trendszámításnál, csak t i helyett xi szerepel az összefüg-
gésekben.
• A másik lehetséges módszer a koordinátatengelyek x és y -val való
eltolása. Ennek következtében normálegyenleteink „rövidülnek” (=
egyes tagok „kiesnek”), és az előző módszer képleteinél egyszerűbbek-
hez jutunk.
xi yi − (∑ xi )(∑ yi )/ n
β1 = ∑ β 0 = y − β1 * x ,
∑ x − (∑ x )
2 2
i i /n
ahol y =
∑y i
és x =
∑x i
n n
• tengelyeltolással, ha a magyarázó változó = x:
β1 =
∑d d x y
β 0 = y − β1 * x ,
∑d 2
x
ahol d x = ( xi − x ) és d y = ( yi − y )
Exponenciális egyenlet:
yˆ i = β 0 * β1xi → lg yˆ i = lg β 0 + xi ∗ lg β1
lg β1 =
∑ x lg y − (∑ x )(∑ lg y )/ n
i i i i
lg β 0 = lg y − (lg β1 )* x ,
∑ x − (∑ x ) / n
2 2
i i
ahol lg y =
∑ lg y i
n
• tengelyeltolással, a magyarázó változó = x:
lg β1 =
∑d d x v
lg β 0 = lg y − (lg β1 )* x ,
∑d 2
x
Hatványkitevős egyenlet272:
yˆ i = β 0 * xiβ1 → lg yˆ i = lg β 0 + β1 (lg xi )
ahol ↓
lg y =
∑ lg y i
= v és lg x =
∑ lg x i
=u
n n
• tengelyeltolással, a magyarázó változó = x:
β1 =
∑d d u v
lg β 0 = lg y − β1 ∗ u ,
∑d 2
u
ahol ↓
vi = lg yi és d v = (vi − v ) és ui = lg xi és d u = (ui − u )
271 A segédváltozó (vi ) bevezetésére a képletek egyszerűbb felírása érdekében kerül sor.
272 Erre az egyenlettípusra bemutató példát nem talál, a részletes tárgyalás nem képezi
tananyagunk részét.
Parabola – egyenlet273:
yˆ i = β 0 + β1 ∗ xi + β 2 ∗ xi2 → yˆ i = β 0 + β1 ∗ x1 + β 2 ∗ x2 ,
ahol ↓
Hiperbola – egyenlet274:
1
yˆ i = → zˆi = β 0 + β1 xi ,
β 0 + β 1 ∗ xi
1
ahol z i =
yi
xi zi − (∑ xi )(∑ z i )/ n
β1 = ∑ β 0 = z − β1 * x ,
∑ xi2 − (∑ xi ) / n
2
ahol z =
∑z i
és x =
∑x i
n n
• tengelyeltolással, ha a magyarázó változó = x:
β1 =
∑d d x z
∑d 2
x
β 0 = z − β1 * x ,
d x = ( xi − x )
ahol és d z = ( yi − z )
(Pl.: ha a családok összes bevétele276 (ezer Ft / év) = xi és szórakozási kiadásaik összege (ezer Ft /
év) = yi , akkor β 1 megmutatja, hogy az összes bevétel ezer forintos emelkedése – pozitív kapcso-
latot feltételezve – hány ezer forinttal emeli meg szórakozási kiadásaik nagyságát.)
(Előző példánkat folytatva: olyan család, amelyiknek összes bevétele a vizsgált évben
nulla, nyilván nincs; tehát β 0 paraméternek statisztikai jelentése nincs.)
BEMUTATÓ FELADAT
• A tábla első oszlopa a megfigyelt országokat abc sorrendben tartalmazza, ennek az egyen-
let paraméterei, a kapcsolat szorossága és jellege szempontjából nincs befolyásoló szerepe.
n n
• A két változó szórásának számításakor a nevezőben (n − 1) , a reziduális szórás
,
n −1
σy = ∑(y i − y)
2
és σe =
( yi − yˆ i )2
n −1 n−2
• A feladatot EXCEL-programmal oldottuk meg. A számítások során a számítógép az
összes tizedest megtartva dolgozott, így ha az összesen oszlop számadatait (kerekített ér-
tékek) behelyettesítjük a képletekbe, akkor a 3. – 4. tizedestől némi eltérést tapasztalunk.)
• FONTOS! Tanulja meg zsebszámológépe statisztikai programját használni, úgy
sokkal gyorsabban, a munkatábla kitöltögetése nélkül, a számok újra és újra történő
billentyűzése nélkül eredményhez juthat. Például, a SHARP ElL-531WH típusú
zsebszámológéppel így kellene dolgozni:
o Bekapcsoljuk a zsebszámológépet. ON/C
o Átállítjuk a megfelelő (lineáris egyenlet) statisztikai programra. MODE 1 1
o Bebillentyűzzük a magyarázó változó (x) első megfigyelt adatát (itt az Ausztriá-
ra vonatkozó 75,8-t), majd megnyomjuk a STO feliratú műveleti billentyűt.
o Bebillentyűzzük az eredményváltozó (y) első megfigyelt adatát (itt az Ausztri-
ára vonatkozó 81,7-t), majd megnyomjuk az M+ feliratú műveleti billentyűt.
o Az utóbbi két műveletet addig ismételgetjük (természetesen felváltva, és
mindig ebben a sorrendben), amíg az összes adat-párt be nem vittük a
zsebszámológép memóriájába.
∑x i − n ∗ x 2 = ∑ d x2
∑y i − n ∗ y 2 = ∑ d y2
∑x y i i − n ∗ x ∗ y = ∑ dxd y
β1( y x ) =
∑d d
x y
=
215,6954
= 0,823141 ≅ 0,82 év
∑d 2
x 262
yˆ i = 19,2 + 0,82 xi év
β1(x y ) =
∑d d x y
=
215,6954
= 1,05863 ≅ 1,06 év
∑d 2
y 203,7
78,0 Adatsor1
76,0 Lineáris (Adatsor1)
74,0
72,0
70,0
65,0 70,0 75,0 80,0
y = 1,0586x - 10,837
a férfiakra vonatkozó adatok
79,0
R2 = 0,8714
77,0
75,0
73,0 Adatsor1
(év)
69,0
67,0
65,0
70,0 75,0 80,0 85,0
BEMUTATÓ FELADAT
xi yi
1. 75,8 81,7 2,1542 4,6404 1,9122 0,0105 0,0226 81,6 0,0135
2. 75,1 81,1 1,4542 2,1146 1,9090 0,0073 0,0106 81,0 0,0137
3. 68,6 75,3 -5,0458 25,4604 1,8768 -0,0249 0,1258 75,6 0,0967
4. 72,1 78,4 -1,5458 2,3896 1,8943 -0,0074 0,0115 78,5 0,0033
5. 74,8 79,5 1,1542 1,3321 1,9004 -0,0014 -0,0016 80,7 1,5056
6. 74,9 81,5 1,2542 1,5729 1,9112 0,0094 0,0118 80,8 0,4729
7. 75,6 82,9 1,9542 3,8188 1,9186 0,0168 0,0329 81,4 2,2145
8. 75,4 80,7 1,7542 3,0771 1,9069 0,0051 0,0090 81,2 0,2917
9. 76 80,7 2,3542 5,5421 1,9069 0,0051 0,0121 81,8 1,1162
10. 75,2 80,3 1,5542 2,4154 1,9047 0,0030 0,0046 81,1 0,5909
11. 70,4 78,8 -3,2458 10,5354 1,8965 -0,0052 0,0169 77,1 3,0210
12. 68,3 76,5 -5,3458 28,5779 1,8837 -0,0181 0,0966 75,4 1,2729
13. 75,5 80,2 1,8542 3,4379 1,9042 0,0024 0,0045 81,3 1,2678
14. 75,6 81,3 1,9542 3,8188 1,9101 0,0084 0,0163 81,4 0,0125
15. 76,4 81,5 2,7542 7,5854 1,9112 0,0094 0,0260 82,1 0,3631
16. 76,8 82,9 3,1542 9,9488 1,9186 0,0168 0,0531 82,5 0,2024
17. 73,8 80,5 0,1542 0,0238 1,9058 0,0041 0,0006 79,9 0,3856
18. 67,6 74,9 -6,0458 36,5521 1,8745 -0,0272 0,1647 74,8 0,0069
19. 75,7 83,1 2,0542 4,2196 1,9196 0,0179 0,0367 81,5 2,5667
20. 77,8 83,0 4,1542 17,2571 1,9191 0,0174 0,0721 83,3 0,1059
21. 77,7 82,1 4,0542 16,4363 1,9143 0,0126 0,0512 83,2 1,2938
22. 69,9 77,6 -3,7458 14,0313 1,8899 -0,0119 0,0444 76,7 0,8910
23. 72,3 79,9 -1,3458 1,8113 1,9025 0,0008 -0,0011 78,6 1,6290
24. 66,2 70,9 -7,4458 55,4404 1,8506 -0,0511 0,3803 73,7 7,9450
Σ 1.767,5 1.915,3 0 262,04 45,6414 0,0000 1,2018 1.915,1 27,28
átl. 73,65 79,80 1,9017 rez.sz. 1,1136
n n n
• Az EXCEL program az ábrára természetes alapú logaritmust alkalmazva írja ki az
egyenletet, ezért látunk részben más számokat a 13.2.sz. ábrán és a képletek alapján
végzett számítások között. Ha össze akarjuk hasonlítani a tízes alapú logaritmust al-
kalmazó megoldást (13.2.sz. tábla) és a számítógépes megoldást, akkor az EXCEL
program kitevő függvényét kell alkalmazni.
• A korábban megnevezett (lineáris megoldás) zsebszámológép segítségével is meg-
kaphatjuk az exponenciális egyenlet paramétereit. Ekkor a MODE 1 3 progra-
mot kell választanunk. A megoldás során a zsebszámológép is a természetes alapú
logaritmusnak megfelelően írja ki β1 paraméter értékét, ezért ha a tízes alapú loga-
ritmussal számított értékre van szükségünk (értelmezni ezt tudjuk), akkor azt a kö-
vetkező billentyűsorozat segítségével kapjuk meg: RCL ) 2ndF ln =
• A zsebszámológép segítségével a regresszió-értékeket is könnyen meghatározhatjuk.
Bebillentyűzzük a magyarázó változó azon értékét, amelyikhez a reg-
resszió-értéket meg akarjuk határozni, majd megnyomjuk a 2ndF )
billentyűket.
Ha valamennyi regresszió-értéket meg akarjuk ismerni, akkor termé-
szetesen ezt a művelet-sort minden xi érték számológépbe billentyű-
zése mellett el kell végezni.
y = 36,6414e0,0106x
a nőkre vonatkozó adatok (év)
84
82
80
78 Adatsor1
76 Expon. (Adatsor1)
74
72
70
65 70 75 80
13.2.sz. ábra
lg β1 =
∑d d x v
=
1,2018
= 0,00458619 ↓
∑d 2
x 262,0396
β1 = 1,01061605 → 101,061605% →≅ +1,06%
lg β 0 = lg y − (lg β1 ) * x =
= 1,901726 − 0,00458619 ∗ 73,64583& = 1,56397178 ↓
β 0 = 36,64137625 ≅ 36,6 év
yˆ i = 36,6 ∗1,0106 xi év
BEMUTATÓ FELADAT
13.3.sz. tábla
élettartam (év)
lg xi du d u2 lg yi dv d u d v ŷi ei2
xi yi
75,8 81,7 1,8797 0,0130 0,0002 1,9122 0,0105 0,0001 81,6 0,0119
75,1 81,1 1,8756 0,0089 0,0001 1,9090 0,0073 0,0001 81,0 0,0073
68,6 75,3 1,8363 -0,0304 0,0009 1,8768 -0,0249 0,0008 75,6 0,0879
72,1 78,4 1,8579 -0,0088 0,0001 1,8943 -0,0074 0,0001 78,5 0,0164
74,8 79,5 1,8739 0,0072 0,0001 1,9004 -0,0014 0,0000 80,8 1,6048
74,9 81,5 1,8745 0,0078 0,0001 1,9112 0,0094 0,0001 80,8 0,4233
75,6 82,9 1,8785 0,0118 0,0001 1,9186 0,0168 0,0002 81,4 2,1713
75,4 80,7 1,8774 0,0107 0,0001 1,9069 0,0051 0,0001 81,3 0,3155
76,0 80,7 1,8808 0,0141 0,0002 1,9069 0,0051 0,0001 81,8 1,1144
75,2 80,3 1,8762 0,0095 0,0001 1,9047 0,0030 0,0000 81,1 0,6350
70,4 78,8 1,8476 -0,0191 0,0004 1,8965 -0,0052 0,0001 77,1 2,8613
68,3 76,5 1,8344 -0,0323 0,0010 1,8837 -0,0181 0,0006 75,3 1,3374
75,5 80,2 1,8779 0,0112 0,0001 1,9042 0,0024 0,0000 81,3 1,3090
75,6 81,3 1,8785 0,0118 0,0001 1,9101 0,0084 0,0001 81,4 0,0160
76,4 81,5 1,8831 0,0164 0,0003 1,9112 0,0094 0,0002 82,1 0,3416
76,8 82,9 1,8854 0,0187 0,0003 1,9186 0,0168 0,0003 82,4 0,2373
73,8 80,5 1,8681 0,0014 0,0000 1,9058 0,0041 0,0000 79,9 0,3137
67,6 74,9 1,8299 -0,0368 0,0014 1,8745 -0,0272 0,0010 74,8 0,0218
75,7 83,1 1,8791 0,0124 0,0002 1,9196 0,0179 0,0002 81,5 2,5319
77,8 83,0 1,8910 0,0243 0,0006 1,9191 0,0174 0,0004 83,2 0,0539
77,7 82,1 1,8904 0,0237 0,0006 1,9143 0,0126 0,0003 83,2 1,1031
69,9 77,6 1,8445 -0,0222 0,0005 1,8899 -0,0119 0,0003 76,7 0,8292
72,3 79,9 1,8591 -0,0076 0,0001 1,9025 0,0008 0,0000 78,7 1,4529
66,2 70,9 1,8209 -0,0458 0,0021 1,8506 -0,0511 0,0023 73,6 7,1066
1.767,5 1.915,3 44,8008 0 0,0095 45,6414 0 0,0073 1915,1 25,9035
átlag: átlag: reziduális
1,8667 1,9017 szórás:1,085096
Megjegyzések a 13.3. sz. táblához:
v=
∑ v = ∑ lg y
i i
n n
84 y = 2,9817x 0,7646
82
80
78 Adatsor1
76 Hatvány (Adatsor1)
74
72
70
65 70 75 80
13.3.sz. ábra
β1 =
∑d d u v
=
0,0073
= 0,764595 ≅ 0,76
∑d 2
u 0,0095
yˆ i = 3 ∗ xi0, 76 év
Az egyenlet
♥ β 0 paraméterének ebben az esetben sincs jelentése, (A férfiak várha-
tó élettartama minden országban lényegesen nagyobb egy évnél280.)
280 yˆ i = β 0 , ha xi = 1
Általánosságban:
∆y ∆x
E (%) = : 281,
y x
ahol a törtek számlálójában a megfigyelt jelenségek abszolút változása,
a nevezőben pedig azok bázis értéke található, azaz maguk a törtek a rela-
tív változásokat fejezik ki. A rugalmasság rendkívül fontos közgazdasági
kategória, lehetővé teszi a legkülönbözőbb mértékegységű és abszolút
értékű jelenségek változásának összehasonlítását.
A mutató rendkívüli fontossága miatt a lineáris egyenlethez kapcso-
lódó számítását is meg kell ismernünk.
egyedi xi − yi adat-pár mellé:
xi
E = β1
yˆ i
x
Elin = β1
y
E= 2 : = 1
: 0,01 ≅ β1
yˆ1 x1 β 0 x1β
1
13.4.sz. tábla
xi yi ŷi E (%)
66,2 70,9 73,7 0,739623
67,6 74,9 74,8 0,743633
68,3 76,5 75,4 0,745592
68,6 75,3 75,7 0,746423
69,9 77,6 76,7 0,74996
r=
∑d d x y
=
∑x y i i − nx y
= β1
σx 282
∑d ∑d2
x
2
y (∑ x 2
i − nx 2
)(∑ y 2
i − ny 2
) σy
282 A mutatóban szereplő betűk jelentése korábbról már ismert. A mutatónak egyéb
felírásai is ismertek.
283 Matematika: a szorzás tényezőinek sorrendje…
I = 1−
σ e2
=
σ y2ˆ
≅ 1 −
∑ ei2 ,284 ahol
σ y2 σ y2 ∑ d y2
σe = ∑e 2
i 285
, σy =
∑d 2
y
és σ yˆ =
∑ ( yˆ i − y)
2
n−2 n −1 n −1
BEMUTATÓ FELADAT
r=
∑d d x y
=
215,6954 σ
= β1 x =
∑d ∑d 2
x
2
y
262 ∗ 203,7 σy
3,375356
= 0,823140587 ∗ ≅ 0,933 → r 2 ≅ 87%
2,976353
≅ 1−
∑e 2
i
= 1−
26,2093
≅ 0,93 → I 2 ≅ 86,6%
∑d 2
y 203,7
Exponenciális kapcsolat:
≅ 1−
∑e 2
i
= 1−
27,2827
≅ 0,93 → I 2 ≅ 86,6%
∑d 2
y 203,7
Hatványkitevős kapcsolat:
≅ 1−
∑e 2
i
= 1−
25,9035
≅ 0,931 → I 2 ≅ 86,7%
∑d 2
y 203,7
σβ =σe
∑x 2
i
0
n∑ d 2
x
1 σe
σβ =σe =
1
∑ d x2 ∑d 2
x
1 ( xi − x )
2
σ yˆ = σ e +
i
n ∑ d x2
Az egyedi regresszió érték ( ŷi ) standardhibája:
1 ( xi − x )
2
σ yˆ = σ e + + 1 288
i
n ∑ d x2
A hibahatár – ahogy azt a becsléssekkel kapcsolatban már bemutattuk – egy
táblabeli érték és a standard hiba szorzataként számítható ki. A szükséges
tábla jelen esetben a Student-féle t-eloszlás. A becslés szabadságfoka
( v = a tábla oldalrovatában találhatjuk értékeit) = (n − m − 1) 289, tekintettel
arra, hogy a regresszió egyenleteknek két mintáról mintára ingadozó paramé-
tere (β 0 , β1 ) van. A táblában való keresésnél a becslés valószínűségének
(értékei a fejlécből olvashatók le együtthatós formában) figyelembe vétele
⎛ 1− P ⎞
ugyanúgy történik, mint az átlagok kétoldalú becslésénél, azaz ⎜ P + ⎟.
⎝ 2 ⎠
⎡ ⎤
[β 0 ± ∆] = ⎢β 0 ± t⎛ P+1− P ⎞ ∗ σ β ⎥
⎢⎣ ⎥⎦
0
⎜ ⎟
⎝ 2 ⎠
⎡ ⎤
[β1 ± ∆] = ⎢β1 ± t⎛ P+1−P ⎞ ∗ σ β ⎥
⎢⎣ ⎥⎦
1
⎜ ⎟
⎝ 2 ⎠
⎡ ⎤
[ yˆ i ± ∆] = ⎢ yˆ1 ± t⎛ P+1−P ⎞ ∗ σ yˆ ⎥
⎢⎣ ⎥⎦
i
⎜ ⎟
⎝ 2 ⎠
∑ ( yˆ − y)
2
SSR i
β1 MSR
t= F= = 1 = 1
σβ
1
MSE SSE ∑ ( y1 − yˆ1 )2
n−2 n−2
3. A szükséges tábla a próbafüggvény betűjeléből egyértelműen
leolvasható. Ha az ellenőrzést a t − próbával akarjuk megoldani, akkor az
adott valószínűségi értéket a táblában való kereséshez éppúgy át kell
alakítani (= kétoldalú próba), mint ahogy azt pl. a számtani átlagok
összehasonlításakor megtettük. (Az átalakított valószínűségi értéket pedig
együtthatós formában a Student-tábla fejlécében találjuk meg.) A
hipotézisellenőrzés szabadságfoka: (v = n − 2 ) . Ennek magyarázatát a
becsléssel kapcsolatban már leírtuk. (A szabadságfokot a nevezett tábla
oldalrovatában találjuk meg.)
Ha az ellenőrzést a F − próbával akarjuk megoldani, akkor az adott való-
színűségi értéket a táblában való kereséshez nem kell átalakítani (= egyolda-
lú próba), de ezt az értéket most a tábla címében kell keresnünk. (Lásd: 10.
és 11. fejezetek. Emlékezzen, a tábla fejlécét és oldalrovatát a számlálóra
(v1 = 1) ill. a nevezőre (v2 = n − 2 ) vonatkozó szabadságfokok foglalják el.)
4. Döntésünket tökéletesen úgy hozzuk meg, mint a korábbiakban.
• Ha a próbafüggvény számított értéke kisebb, mint a táblából kikere-
sett érték, akkor a null-hipotézist,
• ha pedig a próbafüggvény számított értéke nagyobb, mint táblából
kikeresett érték, akkor az alternatív-hipotézist fogadjuk el.
290 Tekintettel arra, hogy szinte minden tankönyv közli a képletben szereplő adatok
angol megnevezésének rövidítését, mi is közöljük Vegyük észre a számlálóban
tulajdonképpen a regresszió szórásnégyzete, a számlálóban pedig a reziduális
szórásnégyzet szerepel.
BEMUTATÓ FELADAT
σβ =σe
∑x 2
i
=1,091328
130431,05
= 4,97037924
0
n∑ d 2
x 24 ∗ 262
1 σe 1,091328
σβ =σe = = = 0,067422469
1
∑ d x2 ∑d 2
x
262
13.5.sz. tábla
az átlagos intervallum az egyedi intervallum
σ ŷ σ ŷi
ország
⎡ ⎤
[ yˆ i ± ∆] = ⎢ yˆ1 ± t⎛ P+1−P ⎞ ∗ σ yˆ ⎥ ≅ [81,6 ± 2,07 ∗ 0,266] ≅ [81,6 ± 0,55]
⎣⎢ ⎦⎥
i
⎜ ⎟
⎝ 2 ⎠
• Egyedi:
⎡ ⎤
[ yˆ i ± ∆] = ⎢ yˆ1 ± t⎛ P+1−P ⎞ ∗ σ yˆ ⎥ ≅ [81,6 ± 2,07 ∗1,123] ≅ [81,6 ± 2,33]
⎣⎢ ⎦⎥
i
⎜ ⎟
⎝ 2 ⎠
∑ ( yˆ − y)
2
SSR i 177,5477
MSR
F= = 1 = 1 = 1 = 155,85
MSE SSE ∑ ( y1 − yˆ1 ) 26,20193
2
n−2 n−2 23
∑y i = nβ 0 + β1 ∑ x1i + β 2 ∑ x2i
∑d d 1 y = β1 ∑ d12 + β 2 ∑ d1d 2
∑d d 2 y = β1 ∑ d1d 2 + β 2 ∑ d 22
β 0 = y − β1 x1 − β 2 x2
∑d d ∑d d − ∑d d ∑d
β2 = 1 y 1 2 2 y 1
2
(∑ d d ) − ∑ d ∑ d
1 2
2 2
2 1
2
β1 =
∑d d − β ∑d d = ∑d d − β ∑d
1 y 2 1 2 2 y 2
2
2
∑d 1
2
∑d d 1 2
BEMUTATÓ FELADAT
293 Magyar statisztikai évkönyv, 2003 (KSH, Budapest – 2004, 108., 109. és 175. old.
1141,44105 7,96
y-ra: σ = ≅ 7,96efő → v = → 113,2%
18 7,03
226,38947 12,58
x1 –re: σ = ≅ 12,58eFt → v = → 15,7%
18 79,99
2294,92737 11,29
x2 –re: σ = ≅ 11,29efő → v = → 62,9%
18 17,95
A relatív szórások – az eltérő mértékegységek és jelentés miatt csak ezek
hasonlíthatók össze – nagyon különbözőek. Ha végigtekintünk a megfi-
gyelt adatokon ez mindjárt érthetővé válik. A nettó átlagkeresetek egy vi-
szonylag szűk ( T = x1max − x1min = 87,1 − 75,4 = 11,7 ) intervallumban he-
lyezkednek el, ezzel szemben a rendszeres segélyben részesülők száma egy
igen széles ( T = y max − y min = 33,3 − 0,8 = 32,5 ) intervallumban található.
(A kiszámított szórások felhasználhatóak a szorossági mutatók meghatá-
rozásához is.)
A mellékszámítások elvégzése után a képletek segítségével meghatároz-
tuk a háromváltozós lineáris regresszió-egyenlet paramétereinek értékét.
β2 =
∑d d ∑d d − ∑d d ∑d
1 y 1 2 2 y 1
2
=
(∑ d d ) − ∑ d ∑ d
1 2
2 2
2 1
2
β1 =
∑d d
1 y − β 2 ∑ d1 d 2
=
∑d d − β ∑d
2 y 2
2
2
∑d 1
2
∑d d 1 2
=
− 188,36684 − 0,679649 ∗ (− 255,34526)
= −0,06547 ≅ −0,065
= 226,38947
β 0 = y − β1 x1 − β 2 x2 =
= 7,031579 − (−0,06547) ∗ 79,99474 − 0,679649 ∗ 17,94737 = 0,070963 ≅ 0,071
A keresett egyenlet:
yˆ i = 0,071 − 0,065 x1i + 0,68 x2i (ezer Ft)
35 y = -0,832x + 73,591
a segélyezettek száma (ezer fő)
30 R2 = 0,1373
25
20 Adatsor1
15 Lineáris (Adatsor1)
10
0
70 75 80 85 90
nettó átlagkereset (ezer Ft/fő/fó)
13.4.sz. ábra
30
25
20
(ezer fő)
Adatsor1
15
Lineáris (Adatsor1)
10
0
0 10 20 30 40 50 60
-5
regisztrált munkanélküliek (ezer fő)
13.5.sz. ábra
ry1 =
∑d d 1 y
ry 2 =
∑d d 2 y
r12 =
∑d d 1 2
∑d ∑d 1
2 2
y ∑d ∑d 2
2
2
y ∑d ∑d 1
2 2
2
I = 1−
σ e2
=
σ y2ˆ
≅ 1 −
∑ ei2 R=
ry21 + ry22 − 2ry1ry 2 r12
σ y2 σ y2 ∑ d y2 1 − r122
BEMUTATÓ FELADAT
ry1 =
∑d d 1 y
=
∑d ∑d1
2 2
y
− 188,36684
= −0,37055 → ry21 ≅ 13,7%
226,38347 ∗1141,44105
ry 2 =
∑d d 2 y
=
∑d ∑d2
2
2
y
1576,46158
= 0,97403 → ry21 ≅ 94,9%
2294,92737 ∗1141,44105
r12 =
∑d d 1 2
=
∑d ∑d 1
2 2
2
− 255,34526
= −0,35425 → ry21 ≅ 12,5%
226,38947 ∗ 2294,92737
88
nettó átlagkereset (ezer Ft/fő/hó)
y = -0,1113x + 81,992
86 R2 = 0,1255
84
82 Adatsor1
80 Lineáris (Adatsor1)
78
76
74
0 10 20 30 40 50 60
regisztrált munkanélküliek (ezer fő)
13.6.sz. ábra
ry1 − ry 2 r12
ry1.2 = =
(1 − r )(1 − r )
2
y2
2
12
σ e2
I = 1− 2 =
σ y2ˆ
≅ 1−
∑ ei2
=
σy σ y2 ∑ d y2
1,84 2 7,76 2 57,66880
= 1− 2
= 2
≅ 1− ≅ 0,97 → I 2 ≅ 95%
7,96 7,96 1141,44105
=
(− 0,37055)2 + 0,974032 − 2 ∗ (− 0,37055) ∗ 0,97403 ∗ (− 0,35425) =
1 − (− 0,35425)
2
= 0,974411 → R 2 ≅ 95%
♥ A magyarázó változók együttesen igen nagy mértékben, 95 %-ban
befolyásolják az eredményváltozó alakulását. Más tényezők mindössze 5
%-ban játszanak szerepet.
A többszörös korrelációs együtthatókban szereplő és a korábbiak-
ban300 még ki nem számított szórások:
Pest
13,6288 53,1186 13,7766 50,3030 58,7406 29,8736
1,3151
1,2961 0,0042 20,3918 588,4070 11,0293 9,0501 47,2690
Csongrád Ösz.:
0,0269 173,5912 9,3895 0,0640
2,4968 1.083,7723
ŷ -ra: σ =
∑ ( yˆ i − y )i
2
=
1083,7723
= 7,7594826 ≅ 7,76
n −1 18
300 A megfigyelt változók szórásainak számítása a 13.6./2. sz. tábla alatt található meg.
13.3.3. Multikollinearitás
A többváltozós regressziós vizsgálatok (modellek) egyik legnagyobb prob-
lémája a multikollinearitás. A szó a magyarázó változók között fennál-
ló, és ezzel az eredetileg vizsgálandó kapcsolat többszöröződésére
utal. Jelenlétét már az un. totális korrelációs együtthatók (r12 ) is jelzik, a
parciális korrelációs együtthatók (r12. y ) pedig megerősítik. (A totális és a
parciális korrelációs együttható számértékének eltérése, néha előjeleik kü-
lönbsége301 is utal a multikollinearitásra.) Nagyságát pedig egy erre a célra
szerkesztett mutató jelzi.
(
M = R 2 − ∑ R 2 − ryi2 )
A mutató a többszörös determinációs együttható összetevőkre bontásán
alapszik. Minden újabb, a modellbe kerülő magyarázó változóra vonatko-
zóan meg tudjuk határozni, hogy mennyivel növeli R 2 értékét, ha az ak-
tuális változót utolsónak vonjuk be a vizsgálatba. Ha ezeket a hatásokat
összeadjuk, és az így kapott érték egyenlő a többszörös determinációs
együtthatóval, akkor a multikollinearitás nulla, azaz nincs jelen a modell-
ben. Ebből logikusan következik, hogy M minél nagyobb értéket vesz fel,
a magyarázó változók között fennálló kapcsolat annál jelentősebb.
A magyarázó változók közötti kapcsolat azonban nem minden esetben
zavaró. Ha az egyenletet nem akarjuk más célra felhasználni, csak adott
x1i , x2i , stb. értékek mellett az eredményváltozó meghatározására, akkor
jelenléte elviselhető, hiszen minden ŷi értékben egyformán szerepel, így
azok arányait nem torzítja.
Ha azonban a kiszámított egyenletet egy egyenletrendszer tagjaként
akarjuk használni, akkor már mindenképpen meg kell oldani kiszűrését, ha
M alapján túl nagynak ítéljük mértékét. A kiszűrés igen munka- és időigé-
nyes feladat. El kell hagynunk az egymással szoros kapcsolatban lévő ma-
gyarázóváltozók egyikét, majd minden számítást ismét el kell végezni,
hogy kiderüljön, megszűnt-e a multikollinearitás avagy sem. A változók
elhagyását pedig mindaddig kell folytatnunk, amíg M ≅ 0 .
301Ha a totális és a parciális korrelációs együttható előjele eltérő, akkor rejtett negatív
multikollinearitásról beszélünk.
BEMUTATÓ FELADAT
M = R 2 − ∑ R 2 − ryi2( )
( ) (
= 0,9744112 − 0,9744112 − (− 0,37055) − 0,9744112 − 0,974032 =
2
)
2
= 0,974411 − 0,812168 − 0,000743 = 0,136566
302A tanterv szerit az ehhez szükséges matematikai ismeretek a Statisztika tárgy lezárása
után kerülnek sorra.
∑ ( yˆ − y)
2
SSR i
MSR 1 1
F= = =
MSE SSE ∑ ( y1 − yˆ1 )2
n − m −1 n − m −1
A harmadik változó bevezetése következtében megváltozik a próbák sza-
badságfoka. A t-próba303 esetében: (v = n − m − 1) , az F-próba esetében pe-
dig csak a nevezőre vonatkozik a változás: (v2 = n − m − 1) .
A globális F-próba hipotézisei és próbafüggvényei:
∑ ( yˆ − y)
2
SSR i
H 0 =: β1 = β 2 = 0 MSR 2 2
F= = =
H1 : β i ≠ 0 MSE SSE ∑ ( y1 − yˆ1 )2
n − m −1 n − m −1
A hipotéziseket most csak az általunk tárgyalt háromváltozós esetre írtuk
fel, ha a magyarázó változók száma ennél több, akkor a nullhipotézis
hosszabb lesz, további paraméterek kerülnek az egyenlőségjelek közé. Az
alternatív hipotézis azonban ugyanez marad, szavakkal megfogalmazva: a
magyarázó változók között legalább egy olyat találunk, aminek értéke nem
nulla. Ez a megfogalmazás arra is figyelmezett, hogy egy „laza” próbával
van dolgunk, ami már akkor is kapcsolatot jelezhet, ha csak egyetlen (eset-
leg sokból csak egy) x -tényezővel van kapcsolatban az y − tényező.
303 Ezt a próbát – mivel tananyagunk a becslési feladatokra nem tér ki – olvasóink csak
akkor tudják elvégezni, ha a nevezőben szereplő standardhiba értékét megadja a példa
szerkesztője.
BEMUTATÓ FELADAT
∑ ( yˆ − y)
2
SSR i 177,5477
MSR 2 2 2
F= = = = ≅ 54,21
SSE ∑ ( y1 − yˆ1 ) 26,20193
2
MSE
n − m −1 n − m −1 16
1. Az idősorok korrelációja.
2. A minőségi ismérvek bevonása a modellbe.
3. Diagnosztikai tesztelés.304
BEMUTATÓ FELADAT I.
13.8.sz. tábla
csomag távirat csomag távirat csomag távirat
év
t ezer db ezer db mozgáótl. Trend különbségek
n.é. i
xi yi x̂i ŷi xi − xˆi yi − yˆ i
2001
1 2.740 102 – –
I. dx dy d x2 d y2 dxd y
II. 2 2.737 121 – –
III. 3 2.433 114 2.760,6 109,9 -327,6 4,1 107.338,1 17,0 -1.351,45
IV. 4 3.172 104 2.725,6 108,4 446,4 -4,4 199.250,6 19,1 -1.952,89
2002
5 2.661 99 2.752,1 105,6 -91,1 -6,6 8.303,8 43,9 603,7031
I.
II. 6 2.536 112 2.784,8 101,5 -248,8 10,5 61.876,6 110,3 -2.611,88
III. 7 2.846 101 2.732,9 96,8 113,1 4,3 12.797,3 18,1 480,7813
IV. 8 3.020 84 2.677,8 91,6 342,3 -7,6 117.135,1 58,1 -2.609,66
2003
9 2.398 81 2.568,8 86,0 -170,8 -5,0 29.155,6 25,0 853,75
I.
II. 10 2.358 89 2.412,4 80,8 -54,4 8,3 2.956,6 68,1 -448,594
III. 11 2.152 79 2.288,0 79,9 -136,0 -0,9 18.496,0 0,8 119
IV. 12 2.463 64 2.156,3 89,5 306,8 -25,5 94.095,6 650,3 -7.822,13
2004
13 1.960 94 2.005,4 120,3 -45,4 -26,3 2.058,9 689,1 1.191,094
I.
II. 14 1.742 153 1.852,9 164,6 -110,9 -11,6 12.293,3 135,1 1.288,922
III. 15 1.561 261 1.747,8 203,4 -186,8 57,6 34.875,6 3320,6 -10.761,5
IV. 16 1.834 237 1.727,6 234,0 106,4 3,0 11.315,6 9,0 319,125
2005
17 1.748 231 1.757,5 248,5 -9,5 -17,5 90,3 306,3 166,25
I.
II. 18 1.793 261 1.860,3 246,4 -67,3 14,6 4.522,6 213,9 -983,531
III. 19 1.749 269 – – – – 716.561,4 5684,6 -23.519
IV. 20 2.468 212 – – – –
250
200
Adatsor1
150
Lineáris (Adatsor1)
100
50
0
0 1000 2000 3000 4000
f elvett csomagok (ezer db)
r=
∑d d x y
=
− 23519
≅ −0,356 → r 2 ≅ 12,7%
∑d ∑d 2
x
2
y
766561,4 ∗ 5684,6
ry1 =
∑d d 1 y
=
− 453054,4
= 0,70 → ry21 ≅ 49,0%
∑d ∑d1
2 2
y
4303553 ∗ 97328,8
ry 2 =
∑d d 2 y
=
5837,0
≅ 0,73 → ry22 = 52,6%
∑d ∑d 2
2
2
y
665,0 ∗ 97328,8
r12 =
∑d d 1 2
=
− 40493,5
≅ 0,76 → r122 ≅ 57,3%
∑d ∑d
1
2 2
2
4303553,0 ∗ 665,0
ry1 − ry 2 r12
ry1.2 = =
(1 − r )(1 − r )
2
y2
2
12
ry 2 − ry1r12
ry 2.1 = =
(1 − r )(1 − r )
2
y1
2
12
r12 − ry1ry 2
r12. y = =
(1 − r )(1 − r )
2
y1
2
y2
≅ 0,76 → R 2 ≅ 58%
M = R 2 − ∑ (R 2 − ryi2 ) =
( ) (
0,761369 2 − 0,761369 2 − (0,700029) − 0,761369 2 − 0,725535 2 ≅ 0,44
2
)
A számítások ugyanazt mutatják, amit már az I. bemutató példában is lát-
tunk. A magyarázó változók között meglehetősen szoros kapcsolat van, a
multikollinearitás mértéke is jelentősen eltér a nullától, így nem ajánlott
ezen változók között a kapcsolatot a megtanult korrelációs, regressziós
módszerekkel elemezni, és azok eredményeiből következtéseket levonni.
13.10.2.sz. tábla
A 13.11. sz. tábla folytatása (jobb oldali oszlopok)
d y2 d1 d y d2d y d1 d 2 ŷi ei2
186.868.900 -6.835 -6.835 0,25 196.837,0 48.832.581,6
13.227.769 -1.818,5 1.818,5 -0,25 178.931,1 220.846.297,0
252.619.236 87.417,0 7.947,0 2,75 174.127,3 17.870,1
432.099.369 72.754,5 -10.393,5 -1,75 165.305,3 16.505.424,9
426.629.025 113.602,5 10.327,5 2,75 174.127,3 21.412.098,9
1.641.951.441 344.428,5 -20.260,5 -4,25 142.595,7 49.538.155,0
522.729 1.084,5 361,5 0,75 192.295,0 8.196.993,1
62.869.041 3.964,5 -3.964,5 -0,25 178.931,1 10.856.354,4
3.950.751.025 282.847,5 -31.427,5 -2,25 219.546,6 1.119.798.038,0
1.013.849.281 302.489,5 15.920,5 4,75 224.350,4 5.543.186,61
2.136.195.961 392.861,5 23.109,5 4,25 160.501,5 274.416.859,0
2.799.679.744 555.576,0 26.456,0 5,25 151.417,7 200.921.359,0
1.709.905.201 351.483,5 -20.675,5 -4,25 142.595,7 38.543.419,4
6.587.594.896 771.058,0 -40.582,0 -4,75 242.256,3 844.642.611,0
6.155.657.764 902.267,0 39.229,0 5,75 233.434,3 1.237.544.001,0
427.827.856 196.498,0 -10.342,0 -4,75 242.256,3 987.044.491,0
13.264.164 52.809,0 1.821,0 7,25 247.060,0 2.836.951.969,0
30.208.595.002 4.691.768 -41.970,0 8,5 3.422.790,0 8.147.406.029,0
ry1 =
∑d d 1 y
=
4691768
= 0,83 → ry21 ≅ 68,3%
∑d ∑d
1
2 2
y
1066,5 ∗ 30208595002
ry 2 =
∑d d 2 y
=
− 41970
≅ −0,11 → ry22 = 1,3%
∑d ∑d 2
2
2
y
4,5 ∗ 30208595002
r12 =
∑d d 1 2
=
8,5
≅ 0,12 → r122 ≅ 1,5%
∑d ∑d
1
2 2
2
1066,5 ∗ 4,5
ry1 − ry 2 r12
ry1.2 = =
(1 − r )(1 − r )
2
y2
2
12
ry 2 − ry1r12
ry 2.1 = =
(1 − r )(1 − r )
2
y1
2
12
r12 − ry1ry 2
r12. y = =
(1 − r )(1 − r )
2
y1
2
y2
σ e2 23305,8 2
I = 1− = 1 − = 0,833267 → I 2 ≅ 70% , ahol
σ y2 42154,2 2
σe = ∑e 2
i
=
8147406029
= 23305,8 és
n − m −1 15
σy =
∑d 2
y
=
30208595002
= 42154,2
n −1 17
M = R 2 − ∑ (R 2 − ryi2 ) =
(
0,8545732 − 0,8545732 − 0,8265912 − 0,8545732 − (− 0,11383) ≅ 0,034 ) ( 2
)
β2 =
∑d d ∑d d − ∑d d ∑d
1 y 1 2 2 y 1
2
=
(∑ d d ) − ∑ d ∑ d 1 2
2 2
2 1
2
β1 =
∑d d
1 y − β 2 ∑ d1 d 2
=
4691768 − (− 17905,9) ∗ 8,5
= 4541,93
∑d 1
2
1066,5
vagy
β1 =
∑d d − β ∑d
2 y 2
2
2
=
− 41970 − (− 17905,9) ∗ 4,5
= 454193
∑d d 1 2 8,5
1. feladat
2. feladat
y = -0,2714x + 5,3781
10
R2 = 0,234
gazdasági növekedés az
8
előző évhez (%)
6 Adatsor1
4
Lineáris
2 (Adatsor1)
0
0 5 10 15 20
-2
m unkanélküliségi ráta (%)
13.8.sz. ábrát
3. feladat
13.14.2.sz. tábla
sorszám d12 d 22 d y2 d1 ∗ d y d 2 ∗ d y d1 ∗ d 2 ŷi ei2
1. 75,5 8,4 1,9 -11,8718 -3,95422 25,13342 6,5 11,95392
2. 24,9 2,5 1,5 6,150222 1,965111 7,945422 5,6 0,001074
3. 62,6 5,3 5,6 18,72822 -5,42756 -18,1479 2,4 0,191914
4. 52,0 33,6 5,6 17,07156 -13,7109 -41,7892 2,6 0,34892
5. 31,5 13,7 3,9 11,03956 7,289778 20,80676 3,0 0,390034
6. 36,2 2,6 4,7 13,02889 3,481111 9,661422 2,9 0,514669
7. 99,7 0,2 10,7 -32,6231 -1,61156 4,926756 6,8 32,30898
8. 14,5 0,1 0,1 -1,27111 -0,10222 1,169422 3,4 1,577126
9. 18,6 1,2 2,5 6,757556 1,733778 4,773422 3,3 0,277619
10. 0,2 4,4 2,5 0,647556 3,300444 0,870756 4,3 2,180779
11. 0,5 1,2 58,3 -5,44511 8,345778 -0,77991 4,2 61,01936
12. 8,5 12,3 1,4 3,398889 4,091111 10,21609 3,7 0,228275
13. 20,4 2,6 2,8 7,522222 2,677778 7,251422 3,3 0,337402
14. 514,7 0,0 81,6 204,9362 -1,86689 -4,68858 9,9 12,49776
15. 8,5 0,0 1,5 -3,59311 -0,00822 0,019422 3,7 3,760569
összesen 968,2 88,2 184,4 234,4767 6,203333 27,36867 65,5 127,5884
4. feladat
Ismét a 2. feladatban szereplő adatokkal dolgozunk. Hollandia és Portugá-
lia adatai azonban kimaradtak. (A negatív gazdasági növekedés miatt.313) A
13.13. sz. tábla egy megkezdett számítás részeredményeit tartalmazza.
1. Döntse el, milyen típusú kapcsolatot feltételezve dolgoztunk, majd folytassa a
számítást!
2. Számoljon ki mindent, amit tanult az adott egyenlettípussal kapcsolatban!
3. Végül minden adat jelentését fogalmazza meg!
13.13. sz. tábla
xi yi ui vi du dv d u2 du ∗ dv
összesen 129,6 48,9 10,9988 6,5794 0,0000 0,0000 1,8423 -0,07846
13.5. Összefoglalás314
= a mennyiségi ismérvek közötti kapcsolat kimuta-
korreláció
tása szorossági mutatóval
= a mennyiségi ismérvek közötti kapcsolat kimuta-
regresszió
tása egyenletekkel
lineáris korrelációs r=
∑d d x y
=
együttható ∑d ∑d2
x
2
y
314 Az összefoglalás nem minden, fejezet szövegében szereplő képletet tartalmaz, ill.
egyes esetekben a számítás nem minden lehetséges variációját.
∑d 2
x
∑d 2
u
β1 = ∑d d 1 y − β 2 ∑ d1d 2
∑d 1
2
β2 =
∑d d ∑d d − ∑d d ∑d
1 y 1 2 2 y 1
2
(∑ d d ) − ∑ d ∑ d
1 2
2 2
2 1
2
– Idősorok korrelációja.
– A minőségi ismérvek bevonása az egyenle-
kiegészítések
tekbe.
– Multikollinearitás.
A magyarázó változók között fennálló kapcsolat,
multikollinearitás mely torzíthatja az eredményeket.
M = R 2 − ∑ R 2 − ryi2( )
becslés = a paraméterek és a regresszió-értékek konfi-
kétváltozós lineáris dencia intervallumának meghatározása
hipotézisellenőrzés
= a magyarázó és az eredményváltozó közötti
két- és háromváltozós lineá-
kapcsolat jelentős voltának ellenőrzése
ris
1. minta
Egy biztosító társaság 10 üzletkötőjének az adott cégnél töltött ideje és az egy év alatt
megkötött biztosítások száma közötti kapcsolatra vonatkozó adatok:
eltöltött megkötött a magyarázó válto- az eredmény-
név eltérés-
idő biztosítás zó eltérés változó eltérés
szorzatok
A év db négyzetei négyzetei
B 1 90
C 2 100
D 3 120
E 4 150
F 5 160
G 6 180
H 7 200
I 8 190
J 9 180
K 10 200
össz. 55 1.570 82,5 15.010 1.035
6. Számítsa ki (P= 95 %), hogy „J” üzletkötő hány üzletkötésre számíthat a lineáris
regresszió egyenlet alapján
10. Az itt felsorolt adatok alapján kiszámítható egy másik egyenlet típus is. Melyik? Honnan tudja
Adatok: ∑ u = 6,559763033 ∑ v = 21,8049936
∑d 2
u = 0,912110306 ∑ d d = 0,351839211
u v
11. Döntse el, hogy az 1.1.-ben vagy az 1.10. adatai alapján kiszámítható egyenlet
jellemzi-e jobban a kapcsolatot!
2. minta
3. minta
5. minta
Az egy főre jutó hazai termék (Y), az egy főre jutó nemzetgazdasági beruházás (X1) és az
egy főre jutó külföldi befektetés (X2) megyénként 1999-ben:
1 főre jutó
megye GDP beruházás külf. befekt.
ezer Ft
Baranya 783 157 66
Bács.. 713 88 45
Békés 691 96 74
Borsod… 690 174 164
Csongrád 889 146 163
Fejér 1.234 206 212
Győr… 1.204 438 368
Hajdú… 754 133 151
Heves 726 178 135
Jász… 720 103 39
Komárom 838 238 191
Nógrád 565 83 59
Pest 773 138 236
Somogy 686 138 54
Szabolcs… 567 87 32
Tolna 861 161 30
Vas 1162 233 224
Veszprém 803 140 76
Zala 901 132 69
Budapest 1.858 612 801
1. Határozza meg a háromváltozós regresszió-függvényt!
2. Értelmezze a függvény paramétereit!
3. Vizsgálja meg a kapcsolat szorosságát!
4. 1.páronkénti korrelációs együtthatókkal
5. 2.parciális korrelációs együtthatókkal
6. Írja fel a korrelációs és a variancia-kovarancia mátrixot!
7. Határozza meg és értelmezze a többszörös determinációs együtthatót!
8. Vizsgálja meg a multikollinearitást!
9. Végezze el a regresszió-függvény szignifikancia-vizsgálatát variancianalízissel!
10. Adjon konfidenciaintervallumot a regresszió-függvény paramétereire 95 %-os meg-
bízhatósági szint mellett!
6. minta
20 vállalkozás adatai alapján vizsgálták az egy főre jutó tárgyi eszközérték (millió Ft) = X,
és az egy főre jutó üzemi eredmény (millió Ft) =Y kapcsolatát. A lineárisnak feltételezett
kapcsolat elemzéséből az alábbi adatokat ismerjük:
7. minta
Táblázatok
Felhasznált irodalom:
Fejes Ferenc – Fenyves Ferenc – Zibolen Erzsébet: Statisztika II. – távokta-
tás (Külkereskedelmi Főiskola, Budapest 1977)
Fenyves Ferenc – Horváth Gézáné dr – Koós Szabolcs: Statisztika I. –
távoktatás (Külkereskedelmi Főiskola, Budapest 1977)
Hunyadi László – Mundruczó György – Vita László: Statisztika (Aula Ki-
adó, Budapest 1996)
Hunyadi László – Vita László: Statisztika közgazdászoknak (Központi Sta-
tisztikai Hivatal, Budapest 2002)
Juhász Györgyné – Sándorné Kriszt Éva: Statisztika I távoktatással. (Távok-
tatási Universitas Alapítvány, Budapest 1997)
Juhász Györgyné – Sándorné Kriszt Éva: Statisztika távoktatással II. (Táv-
oktatási Universitas Alapítvány, Budapest 1997)
Juhász Györgyné – Sándorné Kriszt Éva: Példatár a Statisztika távoktatással
c. tankönyvhöz (Távoktatási Universitas Alapítvány, Budapest 1997)
Kerékgyártó Györgyné – Mundruczó György: Statisztikai módszerek a gaz-
dasági elemzésben (Aula Kiadó, Budapest 1996)
Korpás Attiláné: Statisztika I. (Nemzeti Tankönyvkiadó, Budapest 1996)
Korpás Attiláné: Statisztika II. (Nemzeti Tankönyvkiadó, Budapest 1996)
Köves Pál – Párniczky Gábor: Általános statisztika (Közgazdasági és Jogi
Könyvkiadó, Budapest 1975
Dr Kuchenbecker. Horst: Statistik für den praktiscen Betriebswirt (Verlag Ne-
ue Wirtschaftts-Briefe Herne, Berlin 1972)
Molnár Máténé dr – Tóth Mártonné dr: Általános statisztika példatár I.
(Nemzeti Tankönyvkiadó, Budapest 2001)
Molnár Máténé dr – Tóth Mártonné dr: Általános statisztika példatár II.
(Nemzeti Tankönyvkiadó, Budapest 2001)
Molnár Mihélyné dr: Statisztika I. – távoktatás (Széchenyi István Főiskola,
Győr 1994)
Molnár Mihélyné dr: Statisztika II. – távoktatás (Széchenyi István Főiskola,
Győr 1994)
Rappai Gábor: Üzleti statisztika Excellel (Központi Statisztikai Hivatal, Bu-
dapest 2001)
Scharnbacher. Kurt: Statistik im Betrieb (Betriebwirtschaftlicher Verlag,
Wiesbaden 1997)