Professional Documents
Culture Documents
Matematikai Statisztika
Matematikai Statisztika
Statisztika
Matematikai Statisztika
BA Pszicholgia
Adatfeldolgozs
Vletlentl fgg mennyisgek viselkedse
Vletlentl fgg mennyisgek kapcsolatai
Alkalmazhat eszkzk:
1. flv
Vltozk
IQ, nem, letkor
Lers
Kvetkeztets
Modellezs
Adatmtrix
Az adatokat ltalban az albbi formban
troljuk:
Statisztikai adattblzat
Descriptive Statistics
1. Alskla
2. Alskla
3. Alskla
Valid N (listwise)
N
Statistic
28
29
28
27
Mean
Statistic
Std. Error
2,9375
,17691
4,9212
,19216
4,2429
,17316
Std.
Deviation
Statistic
,93614
1,03481
,91628
Count
Alacsony
kognitv
torztsi szint
1. Alskla,
tipolgia
Alacsony kognitv
torztsi szint
Norml kognitv
torztsi szint
Magas kognitv
torztsi szint
Total
2. Alskla, tipolgia
Norml
Magas
kognitv
kognitv
torztsi szint
torztsi szint
Total
10
12
22
13
14
28
Pldk vltozkra
Megfigyelsi egysg = 1 egyn
Problms adatfelvtel
Tapasztalt-e olyat, hogy fj a feje?
1: nha, 2: ritkn, 3: srn, 4: nagyon gyakran
Szokott-e fordtani?
A: igen
B: nem
C: Milyen nyelvrl?
D: Milyen nyelvre?
B: nagyszlkkel C: ms rokonokkal
Sklaszintek
Minsg vagy mennyisg?
Mindig, minden besorolhat, kategorizlhat?
Sklaszintek
Nominlis skla (X=Y)
Nem, diagnzis, hajszn
Folytonos:
testmagassg
testsly
letkor
testhmrsklet
A vltoz eloszlsa
Oszlopdiagram
A vltozk eloszlst az
egyes rtkek
gyakorisgval fejezzk ki
(mely rtkbl hny darab
van)
Gyakorisgok felrsa
a diszkrt vltoz (tapasztalati) eloszlsa
Gyakorisgi tblzat
Az oszlopdiagram helyett a relatv gyakorisg
is lnyegben azonos informci tartalommal
br (ha megadjuk a minta nagysgt).
1. Alskla, tipolgia
Frequency
Valid
Missing
Total
Alacsony kognitv
torztsi szint
Norml kognitv
torztsi szint
Magas kognitv
torztsi szint
Total
System
Percent
Valid Percent
Cumulative
Percent
10,3
10,7
10,7
22
75,9
78,6
89,3
10,3
10,7
100,0
28
1
29
96,6
3,4
100,0
100,0
Gyakorisg (sszeg = N)
35
25
40
20
40
40
17,5%
12,5%
20%
10%
20%
20%
Valsznsg (sszeg = 1)
0,175
0,125
0,2
0,1
0,2
0,2
A dobkocka s a pnzrme
Dobkocka elmleti eloszlsa
Dobott rtk
Bekvetkezsi valsznsg
1/6
1/6
1/6
1/6
1/6
1/6
Dobkocka
X(1)
X(k)
Bekvetkezsi valsznsg
p(1)
p(k)
Dobott rtk
FEJ
RS
Bekvetkezsi valsznsg
0,5
0,5
Kvantilisek
Adott arny osztpontok
Legyen X tetszleges vltoz (pldul
testmagassg)
Legyen p tetszleges, 0 s 1 kztti arny
Leggyakoribb a p=0,25; 0,5 s 0,75 vlaszts
Kvartilisek
Kvartilisek brzolsa
Kzprtkek
A skla tpusa dnti el, hogy melyik hasznljuk,
hasznlhatjuk.
A leggyakrabban hasznlt kzprtkek az
albbiak:
Az eloszls kzepe: MEDIN (K2 = Q(0,5))
Az eloszls centruma: TLAG
Legtipikusabb rtk: MDUSZ
Minta jellemzse
N elem vektor
Kvantitatv sklk:
tlag, medin s mdusz egyarnt hasznlhat
Mi a hasonlsg mi a klnbsg?
1, 2, 6, 9, 10
Az eloszls kiterjedse
Milyen tartomnyban helyezkednek el az
adatok?
Terjedelem: Maximum - Minimum
Jellsek
Mintatlag:
Mintaszrs: s vagy s X
Elmleti (populci) tlag: E(X), ,
Relatv szrs
Felttel: arnysklj vltoz
Jelents: mekkora a szrs az tlaghoz kpest
Kiszmtsa:
- Elmleti (populcibeli):
- Mintabeli: s
Normlis eloszls
Az egyik alapvet eloszlsfajta
Kt szabadon vlaszthat paramtere az
tlaga s a szrsa
A hisztogram alakja az
gynevezett haranggrbhez
kzelt
FERDESG
Az eljelt az
hatrozza meg, hogy
MERRE NYLIK EL.
Normlis eloszls
esetn:
FERDESG = 0
CSCSOSSG = 0
CSCSOSSG
Transzformcik hatsa
Lineris transzformcik
Mi trtnik az tlaggal?
Mi trtnik a szrssal?
Standardizls
Konstans szorzs:
az adott konstanssal szorozza az tlagot
a konstans abszolt rtkvel szorozza a szrst.
Plda standardizlsra
Tegyk fel, hogy egy vods csoportot
vizsglunk. Testmagassguk tlaga 110 cm, a
szrs 10 cm.
Egy 90 cm magas gyermek mennyire kicsi?
Egy 120 cm magas gyermek mennyire nagy?
Mire j mindez?
Statisztikai becslsek
A normlis eloszls
Konstrukci normlis eloszls generlsra
Dobjunk fel egy tetszleges, szablyos pnzrmt.
A fejek szmt adjuk meg.
Ismteljk meg a ksrletet tbbszr.
A hisztogram kzelt
Amennyiben sokszor vgezzk el a fenti
ksrletet, ehhez hasonl gyakorisgi eloszlst
kaphatunk.
Srsgfggvny
A normlis eloszls srsgfggvnynek fbb
pontjai
Standardizls hatsa
A standardizls megmutatja, hogy egy adott
rtk hny szrsnyira s milyen irnyban
helyezkedik el az tlagtl. (ismtls)
Standardizlt vltozk tlaga 0, szrsa 1.
Normlis eloszls vltozk standardizltja
szintn normlis marad, de az tlaga 0 s a
szrsa 1 lesz! Jele: N(0,1).
Krdsfelvets
STATISZTIKA
LER STATISZTIKA
BECSLS
Statisztikai becslsek
Mennyi id alatt futn le egy egyetemista a
maratoni tvot?
Milyen hossz ideig emlkeznnk egy
tetszleges, de korbban ltalunk nem ismert
statisztikai ttelre?
Mekkora a szrsa az egyetemre felvett els
ves hallgatk IQ-jnak?
KVETKEZTETSI
STATISZITKA
HIPOTZIS
INTERVALLUM
Becslsek tpusai
Pontbecsls
Plda: egy jszltt testslya kb. 3500 g.
Intervallum-becsls
Plda: egy jszltt testslya adott
valsznsggel 3400-3600 g kztt van
10
A pontbecsls problmja
Amit becslni szeretnnk: mindig egy konkrt,
fix rtk br ez az rtk ismeretlen
Mirt a mintatlag?
Igazolhatk az albbi tulajdonsgok:
A vletlen mintatlag a populci tlag krl
ingadozik TORZTATLAN BECSLS
Az ingadozs mrtke cskken, ha a minta
nagysga nvekszik
A mintatlag esetn: torztatlan becsls miatt az
ingadozs mrtke tetszlegesen lecskkenthet a
minta nvelsvel KONZISZTENS BECSLS
A MSODIK LLTS NMAGBAN NEM LENNE
ELEGEND A KONZISZTENCIHOZ!
A pontbecsls
Amit becslni szeretnnk:
Az adott populciban az X vletlen vltoz
valamely jellemzje
pl. elmleti tlag, elmleti medin, elmleti szrs
11
Konfidencia-intervallum
A pontbecsls kr intervallumot
szerkesztnk.
A megszerkesztett intervallum ADOTT
valsznsggel tartalmazza az populcibeli
paramtert
Intervallum-becsls a populcitlagra, ha
ismerjk a populci szrst
Adott valsznsg legyen , az tlag standard
hibja legyen SH
Az intervallum
C() = [tlag T()*SH ; tlag + T()*SH]
Specilisan, ha = 95%
C(0,95) [tlag 2*SH ; tlag + 2*SH]
STATISZTIKAI
HIPOTZISVIZSGLAT
Pontossg
Igen-nem krdsek
Az egyetemistk IQ-ja nagyobb-e az
tlagosnl?
Van-e klnbsg frfiak s nk tlagos
testslya kztt?
Teljes csndben, vagy halk zene mellett lehet
jobban tanulni?
Van-e sszefggs a testmagassg s a
testsly kztt?
Az igen-nem krdsek
megvlaszolsa
a statisztikban
Formalizls
Dntennk kell lehetsgek kztt.
Nullhipotzis s ellenhipotzis
Ellenhipotzis ktoldali, vagy egyoldali?
A nullhipotzis MINDIG egyfle mdon
valsulhat meg!
12
Struktra
Plda
A statisztikai hipotzisvizsglat
Lnyeg: a mintbl szmtott statisztikai
eljrssal javaslatot kell megfogalmaznunk,
hogy a nullhipotzis igaz, vagy pedig
valamelyik ellenhipotzis.
A statiszitikai hipotziseket vizsgl eljrsokat
statisztikai prbknak nevezzk.
A statisztikai prba teht egy dntsi szably.
Az eljrs formailag
Statisztikai prba
Melyik igaz?
H1
Htkznapi pldk
MINTA
H0
H2
13
Pldk intervallumbecslsre
Szrs
Eljrs
Vltoz neve
Mintaelemszm tlag
SH
Int. alja
Int. teteje
Testhossz
115
56,6 cm 11,3 cm
1,054
54,492
58,708
Testsly
118
3420 g
5,008
3409,984
3430,016
54,4g
Elfogadnnk-e az albbiakat?
- tlagos testhossz 55 cm.
Leegyszerstve
Mi is kellett ehhez?
U-prba
14
Alapgondolat
Az alapgondolat kvetkezmny
Hogyan dntsnk?
tlag
t(0,1)
t(0,05)
t(0,01)
Testmagassg
91,4
80
5,473
115
1,66
1,98
2,62
100m szs
78,2
90
-11,803
116
1,66
1,98
2,62
0,65
0,477
115
1,66
1,98
2,62
Alapfogalmak a hipotzisvizsglatban
Szignifikanciaszint
Megtartsi tartomny
Kritikus tartomny
Kritikus rtk
15
Nullhipotzis Ellenhipotzis
teljesl a
teljesl a
valsgban
valsgban
STRUCCPOLITIKA:
MSODFAJ
HIBA
Dnts: igaz a
nullhipotzis
A hiba
valsznsge:
ltalban
ismeretlen
Dnts: igaz az
ellenhipotzis
A prba
rzkenysge
fgg tle
Szhasznlat
Szhasznlat
Megfogalmazs fontossga
Milyen szignifikanciaszintet
vlasszunk? 1
Ha 10%-os szinten dntnk, akkor 90% a
valsznsge a nullhipotzis elutastsa
esetn annak, hogy helyes dntst hozunk.
Azonban ilyenkor 10%-os valsznsggel
hibzunk, ami tl sok.
16
Milyen szignifikanciaszintet
vlasszunk? 2
Ha 1%-os szinten dntnk, gy a 99%-os
megbzhatsg remek, azonban ritkbban
utastjuk el a nullhipotzist, mint kellene
teht tl szigorak vagyunk, cskken a prba
rzkenysge
A tapasztalatok azt mutatjk, hogy az 5%-os
szint megfelel kompromisszum.
Kt kzprtk sszehasonltsa
LTALBAN ha X s Y kvantitatv:
nullhipotzis: E(X) = E(Y)
Pldinkban:
E(telj.: matematika) = E(telj.: nek-zene)
E(telj.: halk zene) = E(telj.: csnd)
Tpusok
Egy populci, kt vltoz
Apa testmagassg, anya testmagassg
Pulzus edzs kzben, edzs utn
17
Ktmints t-prba
Ha igaz a nullhipotzis s X eloszlsa normlis,
tovbb teljesl, hogy a csoportokban az X vltoz
elmleti variancija egyenl, akkor a
X1 X 2
Var e Var e
n1
n2
f 1 Var1 f 2 Var 2
f1 f 2
Welch-fle d-prba
Ha igaz a nullhipotzis s X eloszlsa normlis,
akkor a
d
X1 X 2
Dntshozatal d-prba
Felttelek: fggetlen mintavtel, X vltoz
eloszlsa legyen normlis.
Var1 Var 2
n1
n2
a2
f1
b2
f2
Fisher-fle F-prba
Krds: kt populciban a vizsglt vltoz
szrsa (variancija) megegyezik-e?
Nullhipotzis: a kt szrs (variancia) megegyezik.
Dntshozatal
max
Var min
18
Felttel
X normlis,
ismert a populci szrsa
E(X) = A
U-prba
E(X) = A
Egymints t-prba
X normlis,
nem ismert a populci szrsa
E(X) = E(Y)
Egymints t-prba
SSZETARTOZ mintk,
klnbsgvltoz normlis
E(X1)=E(X2)
Ktmints t-prba
Fggetlen mintk,
X normlis, szrsok egyenlk
(szrshomogenits)
Var1 = Var2
F-prba
Nullhipotzis
E(X) = A
E(X1) = E(X2)
Var1 = Var2
Hagyomnyos
prba
Egymints
t-prba
Ktmints
t-prba
F-prba
Robusztus
prba
Johnson-prba
Gayen-prba
Welch-fle
d-prba
Robusztus prba
felttele
Nem felttel a
normalits
X normalitsa kell,
de nem kell a
szrshomogenits
Levene-prba Nem felttel a
OBrien-prba normalits
Fggetlen mintk,
X normlis
Kvantitatv kvalitatv
Testmagassg Nem
Kvalitatv kvalitatv
Szemszn Hajszn
19
Egy plda
Tanul
1.
Tanulssal tlttt id (ra) 2
Tanulmnyi tlag
2.
4
3.
2
Pontdiagramok - kapcsolatokra
4.
4
5.
1
6.
3
7.
5
8.
3
Fggetlensg
Definci: Y (fgg vltoz) fggetlen X-tl
(magyarz vltoz), ha Y eloszlsa ugyanaz
marad brmely X = x mellett.
Krdsfelvets: Van-e sszefggs a szemly
testslya s testmagassga kztt?
A fggetlensg klcsns
Ha Y fggetlen X-tl,
akkor X is fggetlen Y-tl.
20
A korrelcis egytthat
A z(X)z(Y) szorzatok tlaga
Populcibeli (vagy elmleti) korrelcis
egytthat:
= E(z(X)z(Y))
Mintabeli Pearson-fle korrelcis egytthat
a z(X)z(Y) szorzatok szmtani tlaga:
Jells
z( x )z( y )
i
Alternatv kplet
Becsls
Kovariancia:
Cov(X,Y) = E( X - E(X) ) E( Y E(Y) )
Cov( X , Y )
D( X ) D(Y )
Lineris regresszi
Kiaknzzuk a kapcsolatot
21
Tovbbi tulajdonsgok
Klnbz korrelcik
tr
n2
1 r
Msfajta megkzelts
A t-tblzat helyett hasznlhat a korrelcis
egytthatk kritikus rtkeinek a tblzata is.
Ekkor nem kell transzformcit alkalmazni, de a
dntshozatal mechanizmusa megegyezik.
22
A lineris regresszi
Alapfogalmak
23
Eloszlsvizsglat khi-ngyzet-prbval
Minl nagyobb az eltrs a kapott (n(i)) s a vrt
((i)) gyakorisg kztt, annl valsznbb, hogy a
nullhipotzis (az az eloszls, aminek gondoljuk)
nem teljesl.
Az eltrs egy lehetsges mrtke:
ni i .
Szablyos-e a dobkocka?
300 dobs
1
45
2
55
3
32
4
68
5
58
6
42
Dobkocks pldnl
Szmtott khi-ngyzet rtk:
16,52
Eloszlsvizsglat vgrehajtsa
A prba felttele: minden vrt gyakorisg
legyen legalbb 5.
Kiszmtjuk a khi-ngyzet statisztikt.
Ha teljesl a nullhipotzis, akkor a
prbastatisztika khi-ngyzet eloszlst kvet,
melynek szabadsgfoka a kategriaszm 1.
24
Homogenitsvizsglat =
kapcsolatvizsglat
ltalnos khi-ngyzet-prba
Tegyk fel, hogy adott kt kvalitatv vltoz.
X: Szemszn
Y: Hajszn
Krdsek
ltalnos khi-ngyzet-prba
Kontingencia-tblzat
Vltozk
X=X(1)
X=X(2)
X=X(m)
SSZES
Y=Y(1)
N(1,1)
N(1,2)
N(1,m)
N(1)
Y=Y(2)
N(2,1)
N(2,2)
N(2,m)
N(2)
N(i,j)
Y=Y(n)
N(n,1)
N(n,2)
N(n,m)
N(n)
SSZESEN
M(1)
M(2)
M(m)
SZUM
ij
SSZESEN
SSZES
nij ij .
2
Vizsglat menete
A felttel azonos a korbbival: minden vrt
gyakorisg legyen legalbb 5.
A vizsglat nullhipotzise a fggetlensg
vagy az, hogy homogn minden eloszls.
ij
Konkrt plda
Szemszn\hajszn Fekete
Szke
Barna SSZESEN
Barna
40
30
130
200
Kk
70
60
20
150
Zld
40
10
100
150
SSZESEN
150
100
250
500
VRT
GYAKORISG
TAPASZTALATI
GYAKORISG
Szemszn\hajszn Fekete
Szke
Barna SSZESEN
Barna
60
40
100
200
Kk
45
30
75
150
Zld
45
30
75
150
SSZESEN
150
100
250
500
25
SZREVTEL
Prbastatisztika s dnts
Szke
Barna SSZESEN
Barna
60
40
100
200
Kk
45
30
75
150
Zld
45
30
75
150
SSZESEN
150
100
250
500
Az eredmny interpretcija
A szignifikns elutasts miatt elmondhat, hogy:
A szemszn s a hajszn kztt szignifikns
sszefggs mutathat ki.
2x2-es tblzatok
Hasznlhat a khi-ngyzet-prba tovbbra is
Ha az elvrt gyakorisgok minimuma 5 s 10
kz esik, akkor Yates-fle korrekcis khingyzet
Ha az elvrt gyakorisgok 5 al cskkennek,
akkor Fisher-egzakt prba, aminek nincsen
felttele (de csak 2x2-es tblkon hasznlhat).
DICHOTM ESET
X=X1
X=X2
SSZESEN
Y=Y1
N(1)
Y=Y2
N(2)
SSZESEN
M(1)
M(2)
SSZES
Cramr-fle V kontingencia-egytthat
Standardizlt khi-ngyzet egytthat
SSZES min( n 1, m 1)
Kontingencia-egytthat:
ad bc
N (1) N (2) M (1) M (2)
ad bc
ad bc
26
27
Kicsit bvebben
A teljes variancit (ngyzetsszeget)
sztbontjuk kt sszetevre
A kvalitatv vltoz ltal definilt csoportok
tlagainak s a populcitlag eltrseit HATS
nvvel illetjk
A csoporttlagok s a vizsglt egyedek rtkeinek
eltrse a HIBA
Mi trtnhet?
Tegyk fel, hogy meg kell tippelnnk egy
tetszleges egyed rtkt.
Miutn jobb tipp nincs, a populcitlagot
tippeljk.
Ekkor az elkvethet hiba mrhet a
variancival, ami az tlagtl val tlagos
eltrs teht tlagosan ekkort tvednk a
tippel.
A variancia sztbontsa
Az eredeti hibt teht felbontjuk kt
sszetevre.
Az els sszetev a HATS, ami teht nem ms,
mint a kvalitatv vltoz ltal hordozott informci
a vizsglt kvantitatv vltozrl.
A msik sszetev a HIBA, mely a csoportok
variancija marad, hiszen egy-egy csoporton bell
tovbbra is klnbzhetnek az egyedek.
Ha tudjuk a csoportokat?
Amennyiben a kvalitatv vltoz megadja a
csoportba tartozst, gy a populcitlag
helyett a csoporttlagot tippeljk.
Ekkor a kvalitatv vltoz ltal kifejtett HATS
nem ms, mint hogy a csoporttlagot
mondjuk.
A hiba, amit elkvethetnk a csoporttlag s
az egyed rtke kztti eltrs ami a csoport
variancijval mrhet.
DNTS
Lnyegben a HATS s HIBA variancik
egymshoz val viszonyt kell feltrnunk.
Minl nagyobb a HATS, annl ersebb az
sszefggs a kt vltoz kztt.
Megfelel prbastatisztikt kell keresnnk.
28
PRBASTATISZTIKA
Variancik sszehasonltsa F-prba
Alkalmas sszegzsek utn alkothat olyan
prbastatisztika, mely az albbi felttelek
teljeslse esetn F-eloszlst kvet:
Fggetlen mintavtel
X vltoz eloszlsa normlis
A csoportokban X elmleti variancija (szrsa)
ugyanakkora
29