Professional Documents
Culture Documents
A XVII. század óta a statisztika fokozatosan a matematika önálló ágává fejlődött, amelynek fő
célja volt, hogy minél megbízhatóbb hasznosítható információt nyerjenek a felmérési,
megfigyelési és mérési adatokból, a statisztikai mintából. A statisztika matematikai
vizsgálatokat foglal magában, a számokra támaszkodik, de nagymértékben befolyásolja a
számok megválasztásának módja és a statisztikai módszerek kiválasztása. Az eredmények
értelmezésének mindig logikusnak kell lennie, mert előfordulhat, hogy a számok helyes
eredményt adnak, de az értelmezése téves lehet.
A statisztika két nagy területe a leíró és a következtető statisztika, amelyek között átfedés
figyelhető meg:
1
Fogalmak
Primer adat, amelyet a kutató a saját kutatása során gyűjt, a szekunder adat pedig más kutatók
által gyűjtött adat.
Ismérvek/változók típusai
Mennyiségi (kvantitatív) ismérvek folytonos eloszlású adatok, a skála minden egyes pontjára
eshet adat (vérnyomás, életkor, testsúly, testmagasság, jövedelem, stb.). Matematikai
műveletek jól végezhetők velük . A folytonos adatok tetszőleges pontossággal megadhatók és
bármely két érték közötti tartomány is értelmezhető.
Minőségi (kvalitatív) ismérvek esetében csak az egyes skálafokokra kerülhet adat, közéjük
nem. Ezeket az adatokat szöveges formában kapjuk (iskolai végzettség, elégedettségi skála).
2
Statisztikai számításokhoz kvantifikálni kell, azaz a minőségi ismérveket át kell alakítani
számokká. A számok azonban csak tulajdonságokat fognak jelölni.
Az alapján, hogy hány különböző értéket vehet fel egy adott mennyiségi változó két típust
különböztethetünk meg: Diszkrét változó: véges számú különböző egész értéket vehet fel, és
az értékek egymástól jól elkülönülnek. Csoportokat tudunk létrehozni (pl. iskolai végzettség,
családi állapot, gyermekek száma, Likert-skála). Folytonos változó: értékei folytonosan
helyezkednek el, adott terjedelemben bármilyen értéket felvehet (pl. reakcióidő, testmagasság,
testsúly).
Függő – független változó: A függő változó az a változó, amelyről feltételezzük, hogy egy
másiktól függ, vagy a másik okozza. Általában sok független változó befolyásolja az egy
függő változót. (Pl. egy kísérlet során arra vagyunk kíváncsiak, hogy milyen független
(befolyásoló) változók vannak hatással az egyetlen (vizsgált) függő változóra.) (Ha két
változó nem függ egymástól, akkor azok függetlenek egymástól, tehát független változók.)
Mérési skálák
4 féle skálatípus van, amely meghatározza, hogy milyen statisztikai próbát lehet vele végezni:
Nominális (névleges) – Ordinális (sorrendi) – Intervallum – Arányskála. A skálatípusok
között hierarchia van, a legegyszerűbb típusok által hordozott információ mindig előállítható
a hierarchiában felette állókból. Fordított irányban nem működik.
Ordinális/sorrendi skála (ordinal): A számokat valamilyen elv szerint sorba lehet rendezni. Az
1-es a rangsorban az elsőt fejezi ki, vagyis ez a sorrend eleje. Ilyen változók esetében nem
állapítható meg, hogy a rangsorolt tényezők között pontosan mekkora a különbség. Ez a skála
már több információt hordoz. Mindig diszkrét adatokat tartalmaz és kvalitatív jellegű.
Ordinális változó az iskolai osztályzat. Megállapíthatjuk, hogy a négyesnél jobb az ötös, de
3
nem mondhatjuk, hogy a 3-as és 4-es között ugyanakkora a tudáskülönbség, mint a 4-es és 5-
ös között. Ordinális változónak minősül a betegségek stádiumának beosztása, az elégedettség
mértéke, éttermek kategóriái, iskolai végzettségek, áruk minősége szerinti osztályozás,
katonai rendfokozat, stb. A Likert-skála is ordinális változó (pl. Mennyire fontos Önnek a
kórházak parkosítása? 1- nem igazán fontos, 2 - elég fontos, 3 - nagyon fontos, 4 - a
legfontosabb).
Intervallum skála (interval): Nincs abszolút nullpontja, az arányaiknak nincs értelme. A két
szomszédos érték között ugyanakkora a távolság. A számértékek mind a nagyság szerinti
viszonyokat megmutatják, mind az eltérés mértékét meghatározzák, a skálaértékek
különbségét értelmezni lehet. Például 10 és 12 Celsius fok és 20 és 22 Celsius fok között
ugyanakkora a távolság, de az nem igaz, hogy a 20 Celsius fok kétszer olyan meleg, mint a
10. Intervallum skálán mérik a testhőmérsékletet, az intelligencia hányadost, a naptári
időszámítást. Intervallum skálán adjuk meg a dátumokat, vagy az IQ értéket is. Az
intervallumskála nullapontjának a meghatározása megállapodás kérdése. Itt már számolhatunk
átlagot, mivel a nullapont eltolása nem változtatja meg az átlag relatív helyét az átlagolt
számok között.
MINŐSÉGI/KVALITATIV MENNYISÉGI/KVANTITATIV
Nominális/Névleges: A sokaság elemeit Intervallum: A sokaság elemeit valamilyen
valamilyen tulajdonságok szerint mértékegység szerint osztályozzuk, de csak a
csoportokba soroljuk, de a csoportok között „mennyivel több?” kérdésre tudunk
nincs semmiféle rangsorolás válaszolni, a hányszorosra nem
Ordinális/Sorrendi: A csoportok között Arány: A sokaság elemeit mértékegység
felállítható sorrendiség van szerint osztályozzuk és a „hányszoros?”
kérdésre is tudunk válaszolni
4
Leíró statisztika
Abszolút gyakorisági eloszlás: megmutatja, hogy 1-1 csoportba összesen hány vizsgált
személyt soroltunk be.
5
középértékkel szemben támasztott követelmény, hogy közepes helyzetet foglaljon el, a
legkisebb (minimum) és a legnagyobb (maximum) értékek között helyezkedjen el.
Átlagok (mean): Ide tartozik a számtani átlag, a harmonikus átlag, a mértani átlag és a
négyzetes átlag. Mindig számítással határozzuk meg őket. Értéküket minden egyes érték
befolyásolja.
Az ábrázolás során kiugró értéknek bizonyult adatokat mindig meg kell vizsgálni. Ha csak
adathiba lépett fel azt egyszerű korrekcióval javítani lehet. Ha a kiugró adat egyedi hatásból
adódik, amely a többi egyedre nem lehet jellemző, akkor az ilyen értéket célszerű kihagyni a
további elemzésből. A biometriai vizsgálatok során általában nem teszünk különbséget az
6
enyhe és extrém kiugró értékek között. Éppen az élettani vizsgálatok fontossága miatt csak a
belső határokat hagyjuk meg, és az azon kívüli értékek mindegyikét kiugró értéknek tekintjük.
Az átlagoknál használatos az úgynevezett trimmelés, vagyis a kilógó adatok alsó és felső
meghatározott százalékát (max. 5%) kivesszük.
Módusz (mode): az az érték, amely a leggyakrabban fordul elő a mintában. Nominális skálán
sem átlagot, sem mediánt nem tudunk mérni, csak móduszt. Ha az értékek egyforma
gyakorisággal fordulnak elő a mintában, akkor a móduszt nem lehet egyértelműsíteni. Tehát
nem mindig határozható meg, nem mindig létezik és nem feltétlenül egyértelmű, mivel
ugyanazt a maximum gyakoriságot több különböző érték is elérheti. Folytonos normális
eloszlás esetén a módusz a görbe maximum értékénél van. Ebben az esetben nem
beszélhetünk olyan értékről, amely a leggyakrabban fordul elő az adatok között.
7
valószínűsége, hogy egy változó a középérték egyszeres szórásán belül található 68,27%,
annak a valószínűsége, hogy egy valószínűségi változó az átlagértékhez képest a kétszeres
szóráson belül található 95,45%. A háromszoros szóráson belüli megtalálás valószínűsége
99,73%. A gyakorlatban a kétszeres szórástávolságot vesszük hibakorlátnak. Vagyis az adatok
95%-a itt található.
8
a megfigyelés csúcsosabb és hosszabb farokkal rendelkezik. Ezt nevezzük pozitív
hegyességnek. Negatív hegyesség esetén a megfigyelés kevésbé csúcsos és rövidebb farkuk
van.
Terjedelem (range): A minta legkisebb adatától a legnagyobb adatig terjedő távolság értékét
mutatja. A maximumból ki kell vonni a minimumot, azaz a legnagyobb és a legkisebb elem
közötti különbség. Metrikus skála esetén alkalmazzuk. Függ az extrém értékektől és függ a
minta elemszámától. A terjedelem képlete: R = xmax − xmin
xi xi x ( xi x )2
1 1-2=-1 1
1 1-2=-1 1
2 2-2=0 0 = 1,414 SD=1,41
4 4-2=2 4
9
Variancia, szórásnégyzet, vagy átlagos négyzetes eltérés (variance): Jele: σ2. A minta
adatainak átlagától való eltérések négyzetének átlaga, mely egyenlő a szórás négyzetével.
Használt jelölések:
10
Interkvartilis terjedelem (interquartile range): Az észlelési adatok 50 %-át foglalja magában.
Az első negyed feletti és a harmadik negyed alatti értékek. Az első és harmadik kvartilis
különbsége Q3-Q1.
11
Percentilisek (percentile): A nagyság szerint sorba rendezett sokaságot 99 osztópont
segítségével 100 egyenlő részre osztja. K1, K2, … K99. Segítségével meghatározható egy
számhalmaz k-adik percentilise (százalékosztálya). Az alsó és felső néhány percentilis közötti
részt (2,5% - 97,5% vagy 5% - 95%) szokás normális (referencia) értéknek elfogadni. Egy
kisgyermekről akkor mondják, hogy elmaradt a fejlődésben, ha súlya/magassága nem éri el a
vele egykorú gyermekekre jellemző 5%-os percentilis értéket.
Pearson-féle korrelációs együttható (Pearson correlation coefficient, r) egy szám, amely két
folyamatos változó közötti kapcsolat szorosságát, erősségét méri. Nincs mértékegysége.
Értéke -1 és +1 között van. Ha r=0, vagy ahhoz közeli értéket mutat, akkor nincs összefüggés
az adatok között. Ha r=+1, akkor lineáris összefüggés van. Azaz, ha ismerem az egyik
paramétert, akkor ki tudom számolni a hozzá kapcsolódó másikat. A + jel egyenes, a – jel
fordított arányosságot mutat.
12
Ha mi akarjuk megnézni az összefüggést két változó között, akkor egy koordinátarendszerben
az egyik tengelyre vezessük fel az egyik változó adatait és rendeljük hozzá a másik változó
adatait. A pontokra egy képzeletbeli egyenest húzunk. Látjuk, hogy a pontok szóródnak, de
van valamilyen összefüggés, kapcsolat a két változó között. Sztochasztikus kapcsolat van
közöttük, ami azt jelenti, hogy átmenet a függvényszerű kapcsolat és a teljes függetlenség
között. Az egyik ismérv szerinti hovatartozás a másik ismérv szerinti hovatartozás
valószínűségét határozza meg. A kapcsolat szorossági mutatóinak értelmezése eltérő.
Általában úgy veszik, hogy 0 esetén függetlenség van, 0 és 0,3 között gyenge kapcsolat, 0,3
és 0,7 között közepes kapcsolat, 0,7 és 1 között szoros kapcsolat, míg 1 esetén függvényszerű
kapcsolat.
Fontos megjegyezni, hogy csak lineáris, vagy majdnem lineáris sztochasztikus kapcsolat
esetén működik. Az összevetett adatoknak folytonos változóknak kell lenni. Pl. lehet, hogy az
13
adatok egy görbe mellett helyezkednek el, tehát nem lineáris a kapcsolat. Ebben az az esetben
nem lehet használni Pearson-féle korrelációs együtthatót, Spearman-féle korrelációt .
Átlag standard hibája (standard error of mean, SEM): Az átlag szórása vagy standard hibája
azt fejezi ki, hogy az átlag, amit a mintából számoltunk, mennyire megbízható. Ha többször is
meg tudnánk ismételni a mérést, akkor mindegyik mérés-sorozat átlagának a szóródását
mutatja a populáció átlag körül Ha ismerjük a minta elemszámát, átlagát és szórását, akkor ki
tudjuk számítani, hogy a populáció (alapsokaság) átlaga milyen értékek között mozoghat.
Minél nagyobb a mintaszám, annál pontosabban meg lehet határozni. A képlete: SE=SD/n
HIPOTÉZIS VIZSGÁLATOK
14
hipotézist elutasíthassuk és elfogadjuk az alternatív hipotézist. (Mivel a minta soha nem
reprezentálja a populációt 100%-osan, ezért a statisztikai eredmény sem lesz 100%-ig biztos.)
A hüvelykujj szabály szerint 5%-os hiba határt engedünk. Ezt nevezzük empirikus
szignifikancia-szintnek. Amikor az egyik hipotézist elutasítjuk, akkor a másikat
automatikusan elfogadjuk. A döntést a szignifikancia alapján végezzük. α-nak nevezzük ezt a
határértéket, amelyet a kutatás előtt meghatározunk. Nem szükséges az 5%-os hibahatárt
választani, lehet 10%-os is, hiszen az egészségügyben vannak kirívó esetek és már 10%-nál is
elfogadhatunk feltevéseket, de vannak kutatások (farmakológiai), ahol szigorúbb hibahatárt
választunk, pl. 1%, vagy 0,1%.
Ha p < α: H0-t elvetjük (elfogadjuk H1-t), ha p ≥ α: H0-t fogadjuk el, azaz nincs különbség a
vizsgált paraméterek között. (Pl. Az új terápia nem hatékonyabb a réginél, bár a kutatási
hipotézisem az volt.)
Amíg 5%-nál nagyobb a valószínűsége annak, hogy nem helyes a feltevésünk, addig nem
fogadjuk el azt. Így előfordulhat, hogy ha 8% a valószínűsége annak, hogy nem megalapozott
az elképzelésünk, és ennek megfelelően 92% annak a valószínűsége, hogy megalapozott,
akkor ezt a vizsgálati eredményt nem tekintjük elég meggyőzőnek ahhoz, hogy elfogadjuk.
Az 5%-os hibahatár nem egy elméletileg megalapozott, a tévedések ellen biztos védelmet
nyújtó eszköz. Előfordulhat, hogy a vizsgálatunk p = 0,08 eredménnyel zárul, azaz 8%-nak
találjuk a H0 valószínűségét. Ezt a szigorú küszöb miatt még nem utasítjuk el. Ebben a
helyzetben előfordulhat, hogy valójában a H1 volt a jó hipotézis (ami nem meglepő, hiszen
mégiscsak 92%-nak találtuk annak a valószínűségét, hogy igaz!), és hibát követtünk el,
amikor nem utasítottuk el H0-t. A hiba azért jöhet létre, mert nem volt szerencsénk a minta
összeállításakor (a sok lehetséges mintából pont egy szélsőséges összetételűt sikerült
kiválasztanunk), vagy azért, mert kicsi volt a minta elemszáma. Amikor nem találjuk
15
megalapozottnak az egyébként igaz H1-et, akkor másodfajú hibát követünk el: vizsgálatunk
álnegatív eredményre vezet.
Olyan helyzet is adódhat, amikor a vizsgálatunk eredménye p < 0,02, tehát elég kicsinek tűnik
a H0 valószínűsége, és elvetjük (egyben elfogadjuk H1-et), annak ellenére, hogy H0 volt igaz.
Ha az egyébként megalapozatlan H1-et elfogadjuk, akkor elsőfajú hibát követünk el:
vizsgálatunk álpozitív eredményre vezet. Ennek magyarázata szintén a szélsőséges
mintaösszetétel.
Az első és másodfajú hibák nem a vizsgálatot végzők által elkövetett hibák, hanem a döntési
folyamat természetéből következnek. Egy minden szakmai szabályt tiszteletben tartó,
lelkiismeretesen elvégzett vizsgálat eredménye is lehet hibás statisztikai következtetés. A
legjobban felkészült kutatócsoport is találkozhat extrém mintával, és hozhat rossz döntést a
helyesen számított statisztikai eredményekre támaszkodva, az abszolút korrekt vizsgálata
végén. Azt ugyanis egy vizsgálat elvégzése után nem tudjuk megmondani, hogy az éppen
vizsgált minta tipikus volt vagy szélsőséges.
16
PARAMÉTERES ÉS NEM PARAMÉTERES ELJÁRÁSOK
t-próbák
1. Egymintás t-próba (One sample t-test): Akkor alkalmazzuk, amikor egy adott értékhez
szeretnénk hasonlítani a mintánk átlagát. Pl. arra vagyunk kíváncsiak, hogy a mintánk BMI
átlaga mennyivel tér el 22-től, vagy a férfiakból álló minta magassága a 175 cm-től. Az
egymintás t próbát akkor alkalmazzuk, amikor van egy legalább intervallum mérési szintű
változónk és ennek az átlagát szeretnénk összehasonlítani egy bizonyos értékkel.
Függetlenmintás (vagy kétmintás) t-próba (Independent samples t-test): Két független minta
középértékének összehasonlítására használjuk (betegek és egészségesek; férfiak és nők;
intervenciós csoport és kontroll csoport). A függetlenség azt jelenti, hogy a 2 csoport
tulajdonságai eltérnek egymástól. Akkor alkalmazzuk, ha két csoportban folytonos változóink
vannak, amelyekből van értelme átlagot számolni (pl. kor, vérnyomás, BMI, stb.)
A próba nem követeli meg a csoportok azonos elemszámát, így eltérő elemszámú csoportokra
is használható.
Páros(ított) t-próba (Paired samples t-test): A párosított minták átlagát hasonlítja össze.
Önkontrolos vizsgálatoknál nézi, hogy ugyanazon paraméterek valamilyen beavatkozás előtt
és után okoznak-e változást az eredményben. Ez a legerősebb teszt, mert ugyanazon az
egyedeknél nézi a változást. Pl. A betegeknél kezelés előtt és után nézi a hatást. Ugyanazon
betegeknél nézi a változók differenciáját.
F-próba: Igen gyakran használt eljárás két variancia homogenitásának eldöntésére, azaz két
minta azonos varianciájú alapsokaságból származik-e.
17
minél nagyobb az érték, annál inkább szóródnak a középértéktől, tehát annál inkább
különböznek az adatok egymástól.
(Ha F-próbával a két variancia azonos, akkor pl. használhatunk függetlenmintás t-próbát. Ha a
két variancia nem azonos, akkor az ún. d-próbát (Welch próbát) használunk.)
Ezeket a teszteket nominális és ordinális skálákon tudjuk alkalmazni, vagy olyan esetekben,
amikor a folytonos változók nem felelnek meg a kritériumoknak (nem normális eloszlásúak,
vagy különböző varianciájú csoportból származnak).
18
A khi-négyzet próba feltételei: Az elvárt gyakoriság minden egyes cellában minimum 5 kell
legyen. Azonban egyes esetekben van, hogy egy megengedőbb feltétellel dolgoznak a
kutatók. Ez alapján az összes cella maximum 20%-ában lehet az elvárt gyakoriság száma
kevesebb, mint 5. Elvégezzük a khi-négyzet próbát. Ha a próba szignifikáns kapcsolatot
mutat, akkor lekérjük a megfelelő statisztikai mutatókat és értelmezzük ezeket. Ha nem
szignifikáns a kapcsolat, akkor azt állítjuk, hogy a két változó nem függ egymástól.
Ha a két változó közötti kapcsolat szignifikáns, akkor még a következő együtthatókat kell
elemezni:
A Cramer’s V együttható egy asszociációs együttható, amely két nominális változó közötti
kapcsolat szorosságát mutatja meg. Értéke 0 és 1 közötti intervallumban van. Ha értéke 0,
akkor függetlenség áll fenn. Ha értéke 1, akkor nagyon erős kapcsolatról beszélhetünk. Példa:
Ha az asszociációs mérőszám értéke 0,407-es, akkor közepes erősségű kapcsolat van a két
változó között.
A gamma együttható két ordinális mérési szintű változó közötti kapcsolat szorosságát mutatja
meg. Értéke nemcsak a változók közötti összefüggés erősségéről, hanem irányáról is informál.
19
amikor két nominális mérési szintű változónk közötti kapcsolatot szeretnénk megvizsgálni és
mindkét nominális mérési szintű változónak 2 válaszlehetősége van. 2*2-es
kontingenciatáblában (kereszttáblában) és kis elemszám esetén. Ha p ≤ 0,05, akkor különbség
van a férfiak és a nők moziba járásának gyakoriságában.
20