Latens Vatozos Modellek Dipomamunka

Ltens vltozs modellezs
Diplomamunka rta: Tnczos Ervin

Alkalmazott matematikus szak
Tmavezetk: Prhle Tams, egyetemi tanrsegd Valsznsgelmleti s Statisztika Tanszk Etvs Lornd Tudomnyegyetem, Termszettudomnyi Kar
Etvs Lornd Tudomnyegyetem Termszettudomnyi Kar 2009
Tartalomjegyzk
1. 2. 3. Bevezets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Structural Equation Modeling . . . . . . . . . . . . . . . . . . . . . . 2.1. 3.1. 3.2. 4. 4.1. 4.2. 5. 5.1. 5.2. 5.3. 6. 6.1. A modell felrsa . . . . . . . . . . . . . . . . . . . . . . . . . Iteratv szmts . . . . . . . . . . . . . . . . . . . . . . . . . A SEM szmtsa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 4 4 8 9
Bayesi SEM illeszts . . . . . . . . . . . . . . . . . . . . . . . 11 A klasszikus illeszkedsi mutat . . . . . . . . . . . . . . . . . 17 Javtott illeszkedsi mutatk . . . . . . . . . . . . . . . . . . . 18 A problmk felrsa . . . . . . . . . . . . . . . . . . . . . . . 21 d-szeparci . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 A d-szeparci alkalmazsa . . . . . . . . . . . . . . . . . . . 29 sszefoglals . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
Illeszkedsi indexek . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
tdiagramok a SEM-ben . . . . . . . . . . . . . . . . . . . . . . . . . 21
Egy plda SEM illesztsre . . . . . . . . . . . . . . . . . . . . . . . . 32
1.
Bevezets
A tbbvltozs adatelemzs statisztikai mdszereit elszeretettel alkalmazzk a
legklnbzbb kutatsi terleteken. Ezek kzl a ltens (vagy rejtett) vltozs modellezs a trsadalomtudomnyokban rvend nagy npszersgnek. Ennek oka, hogy gyakran olyan vltozk rtkeit kvnjk meghatrozni, amelyek kzvetlenl nem mrhetk, mint pldul a boldogsg, stressz vagy addikcira val hajlam. Minden ilyen modell alaptlete, hogy a kzvetlenl mrhet adatok rtkeit httrben meghzd, rejtett vltozk hatrozzk meg valamilyen mdon. Mivel a magyarz vltozk kzvetlenl nem gyelhetk meg, tbb nehzsg lp fel ezen modellek alkalmazsban egszen a modell felrstl a szmtsokon t a kapott eredmnyek interpretlsig. Mg az egyik leggyakrabban hasznlt modellben, a faktoranalzisben, is szmos krds nincs teljesen tisztzva, pldul az, hogy mikor egyrtelm a megolds, s mely felttelek mellett fogja a konkrt szmtsi eljrsunk azt a megoldst adni. A nehzsgek ellenre azrt hasznljk gyakran az ilyen modelleket, mert igen tetszets eredmnyt szolgltatnak. A rengeteg meggyels informcijt, legalbbis j rszt, lnyegesen kisebb szm vltozba aggregljk, amelyek radsul knnyen ttekinthet kapcsolatban llnak egymssal, illetve a mrt vltozkkal is. Ez csbtv teszi az emltett eljrsokat, hiszen lehetsget nyjt arra, hogy a kompliklt sokvltozs meggyelseinket egyszer mdon interpretljuk. A dolgozat tmja egy ltalnos ltens vltozs modell, a Structural Equation Modeling (SEM) bemutatsa. A msodik fejezet tartalmazza a modell felrst. Ez a fejezet a [2] The Relationship Between Software Developement, Theory, and Education in Structural Equation Modeling cm cikk alapjn kszlt. A harmadik fejezetben tallhatak a SEM illesztsre hasznlt leggyakoribb mdszerek. A fejezet elksztshez az albbi irodalmat hasznltam: [1] Latent Variable Models: An Introduction to Factor, Path, and Structural Analysis, [3] Bayesian Structural Equation Modelling s [9] Markov Chain Monte Carlo and Gibbs Sampling. A negyedik fejezet foglalkozik a modell illeszkedsnek minsgt mr leggyakrabban hasznlt mutatkkal. A negyedik fejezet a [1] Latent Variable Models: An Introduction to Factor, Path, and Structural Analysis cm knyv msodik fejezetbl rdott. Az tdik rsz az tdiagramok SEM modellezsbeni szerept trgyalja. Az itt tallhat ttelek bizonytsai a [4] Using Path Diagrams as a Structural Equation Modeling Tool cm cikkben olvashatk. Az utols rszben pedig egy pldn keresztl mutatom be a SEM modell hasznlatt.
2.
2.1.
Structural Equation Modeling

A modell felrsa
A SEM modell gykerei a path analzisig nylnak vissza. A path analzis lnyege, hogy a klnbz vltozk kztt ok-okozati viszonyt tteleznk fel, s ez alapjn runk fel regresszis egyenleteket, amelyek sszekapcsoljk ket. A nv onnan ered, hogy a vltozk kztti kapcsolatok szemlltetsre egy irnytott grfot rajzolunk fel, melyben a cscsok a vltozk s a kztk fut irnytott lek a regresszis egytthatk. A SEM ennek a modellnek az egyenletekkel felrt rejtett vltozkat is tartalmaz tovbbfejlesztse. Amiben ez a mdszer tbbet nyjt a szoksos ltens vltozs eljrsoknl az, hogy a rejtett vltozk kztti strukturlis viszonyt is felrhatunk, s egyidejleg ezt is gyelembe vesszk a modell illesztsekor. Ez alapjn a ltens vltozkat s az egyenleteket is kt csoportra oszthatjuk. A vltozk lehetnek kls (vagy exogn) s bels (vagy endogn) vltozk. Azokat a vltozkat, melyekre nincs msik olyan ltens vltoz, amely rjuk kzvetlen hatssal lenne kls vltozknak nevezzk. Ms szval ezek azok a vltozk, amik magyarzzk a tbbit. A fennmarad vltozk a msik csoportba esnek. Teht a bels vltozk azok, amelyeket ms ltens vltozk magyarznak. Az egyenletek azon csoportjt, amelyek a ltens vltozk kztti viszonyt rjk le strukturlis egyenleteknek nevezzk, mg azokat, amelyek a mrt s a ltens vltozk kapcsolatt rjk le, mrsi egyenleteknek nevezzk. Ezek utn a modell a kvetkez formba rhat: A struktrlis modell = B + + A bels vltozkat , a klsket pedig jelli. Mindketthz tartozik egy-egy mrsi modell: y = y + x = x + Ez a hrom egyenlet egyttesen a SEM modell. A kvetkezket tesszk fel: Minden vltoz 0 vrhat rtk fggetlen -tl fggetlen -tl fggetlen -tl 4
fggetlen -tl , s fggetlenek diag (B ) = 0 Az els feltevs csak technikai jelleg, s nem vesztjk el vele az ltalnossgot. Ha t akarunk trni a nem 0 vrhat rtk esetre, egyszeren minden egyenletben hozz kell adnunk a jobb oldalhoz bal oldal vrhat rtkt. A kvetkez t felttel a hibk egymstl s a ltens vltozktl val fggetlensgt fejezi ki, mg az utols azt jelenti, hogy a bels vltozk regresszijban mindegyik legfeljebb az egyik oldalon szerepelhet. Ez a modell felrs mg nagyon ltalnos, hiszen ezekbl az egyenletekbl csak xet s y -t , s az tapasztalati kovarianciamtrixukat ismerjk, s rengeteg ismeretlen vltoznk van. Viszont a y ,x ,B s egytthat mtrixoknak specilis alakja van, amit mindig az adott modell felrs hatroz meg. Ezen mtrixok elemeinek nagy rsze zrus, mivel elre meghatrozzuk azt, hogy az egyes mrt vltozkra mely ltens vltozk hatnak, s azt is, hogy az egyes bels ltens vltozkra mely msik ltens vltozk hatnak. Ha olyan modellt runk fel, amiben mg mindig tbb ismeretlennk van, mint egyenletnk, megtehetjk, hogy egyes egytthatk rtkeit elre rgztjk, vagy egyb feltteleket tesznk rjuk. Ezzel azonban vatosan kell bnni, mert knnyen elfordulhat, hogy nagyon rosszul illeszked modell lesz a vgeredmny, ezrt lehet, hogy ekkor rdemesebb jabb modellt felrni. Ez a modell ltalnos esetknt magban foglal tbb eljrst is, mint pldul a faktoranalzist, vagy a tbbvltozs regresszit. A faktoranalzis pldul a kvetkezkppen nz ki a SEM terminolgiban: A ltens vltozk mindegyike kls, hiszen nincs kztk semmilyen magyarz viszony, gy nincsenek strukturlis egyenletek, s csak a kls vltozkra felrt mrsi modell marad meg. Ebben a modellben pedig nem runk el semmit az egytthat mtrix alakjra, azaz brmelyik ltens vltoz brmelyik mrsre hatssal lehet. Amit a faktoranalzisben sajt faktornak neveztnk, most hibnak hvunk. gy ha jra megnzzk a modellt, a kvetkez mdon is interpretlhatjuk: A mrt vltozkra felrunk egy vagy tbb faktoranalzist, majd a ltens vltozkra felrunk egy tbbvltozs regresszit. Valjban megtehetnnk ezt gy is, hogy elszr kiszmoljuk a faktoranalziseket, kinyerjk a faktorokat, majd ezekre felrjuk a regresszit. Ez a mdszer azonban ms eredmnyt adna, hiszen a SEM szmtsakor a ltens vltozk kzti strukturlis viszonyt mr akkor gyelembe vesszk, mikor a mrt s a ltens vltozk kzti kapcsolatot trjuk fel.
Gyakran a SEM modelleket brkkal adjk meg. Ennek elnye, hogy knnyebben tlthat, mint a mtrixokkal trtn felrs. Egy irnytott grfot szoks rajzolni, melynek cscsai a vltozk, s az lek jellik a regresszis egytthatkat.
Nhny megllapods teszi knnyen ttekinthetv a grfos felrst. Az els, hogy a cscsokat gy prbljuk meg elrendezni, hogy kztk az irnytott lek jobbrl balra, vagy fentrl lefel fussanak. Elfordulhat, hogy ez nehezen ttekinthet brt eredmnyezne, ezrt ez a szably nem szigor. A meggyelt vltozkat tglalapba, a ltens vltozkat pedig ellipszisbe szoks foglalni. Ez alapjn az brn lev SEM-ben ngy ltens vltoz tallhat, melyeket nagy betkkel jelltnk. Azok az irnytott lek, melyeknek csak egy feje van, a regresszis egytthatkat jellik. Az brn lev pldban az egyetlen exogn vltoz az A, hiszen r sehonnan nem mutat l, mg a msik hrom rejtett vltoz mind endogn, hiszen C -be s D-be A-bl vezet l, mg B -be C -bl s D-bl. Azokkal az lekkel, amelyeknek kt feje van, kovariancit jellnk. Ezek az lek vagy mrt-, vagy bels ltens-, vagy kls ltens vltozk vltozk kztt futnak, egyik csoportbl a msikba nem. Egy ilyen nyl jelenlte azt mutatja, hogy a kt vltoz hibja korrell. A pldnkban a C s D cscsok kzti ktfej nyl azt jelenti, hogy a bels ltens vltozk hibjnak (korbbiakban ) kovarianciamtrixa nem diagonlis, a ftl fltt egyetlen elem nem 0, mgpedig a C s D kovariancijnak megfelel. Ezen fell nha szoks a mrt vltozinkhoz n. rezidulis leket hzni. Ezek az lek a vltozkba mutatnak, azonban a farkuk nincs befejezve. A mrt vltozk hibit jellik, vagy mskppen fogalmazva azon magyarz tnyezk hatsait, amelyek a mi modellnkn kvl esnek. A rezidulis lek a ksbbiekben nem fognak szerepelni az brkon. A knnyebb ttekinthetsg rdekben az elzekhez hasonlan itt is sztbont6
hatjuk az brnkat mrsi s strukturlis modellre:
Gyakran ez a felrs kszl el elbb, amikor egy konkrt modellt szeretnnk illeszteni, mivel knnyebben tlthat s javthat, mint a mtrixfelrs. Az alkalmazk az irnytott lek mentn oksgi viszonyt feltteleznek. gy interpretljk a felrt modellt, hogy annak a cscsnak megfelel vltoz, amely az l vgnl helyezkedik el okozza azt, ami az l fejnl tallhat. Ez a megkzelts nem teljesen precz s ezrt nem is helynval. Valjban arrl van sz, hogy ha a magyarz vltoznk rtke megvltozik, azt vrjuk, hogy a magyarzott vltoz rtke is ms legyen. Ez nmagban mg nem ttelez fel ok-okozati viszonyt a kt vltoz kztt. Elfordulhat pldul, hogy valamely harmadik, szmunkra ismeretlen krlmny megvltozsa okoz mindkt oldalon vltozst. St, az is elfordulhat, hogy a magyarzott vltoz megvltozsa is vltozst eredmnyezne a magyarz vltozban. Ez viszont rtelmetlenn teszi a megnevezsket, s egyttal azt jelenti, hogy a grfban az l irnytst megfordtva olyan modellhez jutunk, ami ugyanolyan jl rja le az adatainkat. Ezrt a gyakorlati alkalmazsban ltfontossg krds ezen jelensgek gyelembe vtele, hiszen ha ez elmarad, az alkalmaz knnyen fals eredmnyhez juthat. Ezzel a krdssel a ksbbiekben mg foglalkozunk, de most rtrnk a modell szmtsnak mdszereire.
3.
A SEM szmtsa
Hasonlan a faktoranalzishez, a SEM-et is a tapasztalati kovarianciamtrix
approximcijval szmoljuk. Teht azt szeretnnk, hogy a modellbl szmolt kovarianciamtrix minl jobban kzeltse a minta alapjn szmolt tapasztalati kovarianciamtrixot. Jellje a tapasztalati kovarianciamtrixot , s particionljuk a kvetkez mdon:
yy yx xy xx
Ekkor az egyes rszek a fenti egyenletekbl knnyen szmolhatk. Jellje , , s a , , s kovarianciamrtixt, I az egysgmtrixot, s legyen (I B ) invertlhat. yy = y (I B )1 (T + )(I B )T T y + xx = x T x + xy = x (I B )T T y Ezen egyenletek megoldsra explicit kplet a legritkbb esetekben addik, hiszen eleve az kell hozz, hogy pontosan annyi ismeretlennk legyen, ahny egyenletnk. Alulhatrozott esetben nem is vrhatunk megoldst, ekkor ms modell felrsval kell prblkoznunk. ltalban a rendszer tlhatrozott, azaz egyenletek szma nagyobb. Az egyenletek szmnak s az ismeretlenek szmnak klnbsgt a modell szabadsgi foknak nevezzk. Kt f mdszer ltezik a SEM modellek illesztsre. Az els egy iteratv eljrs, a msodik pedig a Bayesi megkzelts. Az iteratv eljrsok szmtjk a legkisebb ngyzetes illetve a Maximum Likelihood becslst. Azrt kell itercival szmolni ezeket a becslseket, mert a kovarianciamtrixoknak s az egytthatmtrixoknak minden modellben eltr az alakjuk, gy az egyes esetekben a Likelihood fggvny s gy az derivltja is eltr. Egy adott modell illesztsnl megtehetjk, hogy kiszmoljuk a Likelihood fggvnyt majd annak a derivltjait, s megprbljuk kzzel megoldani a kapott egyenleteket. Ez a munka fradsgos s hosszadalmas, az iterci viszont kevsb idignyes, s a legtbb esetben j megoldst ad. A Bayesi hozzlls szintn egy id s szmtsignyes megkzelts, azonban sok esetben rdemes hasznlni, mert a szmtsi nehzsgek rn a paramterek becslsn kvl tovbbi hasznos eredmnyeket kaphatunk.
1 1
3.1.
Iteratv szmts
Szmos SEM illesztsre alkalmas program kszlt, mint a LISREL vagy az AMOS. Ezek a programok iteratv mdszerrel szmolnak, s br az alaptlet megegyezik, a konkrt szmtsi mdok eltrek lehetnek. A mdszert rviden sszefoglalva, elszr belltunk egy kezdrtket minden ismeretlennek, majd kiszmoljuk a modellbl a kovarianciamtrixot. Ennek s a tapasztalati kovarianciamtrixnak valamely fggvnye megadja a kt mtrix tvolsgt. Ezt kveten a kezdrtkben kiszmoljuk a tvolsgfggvny parcilis derivltjait minden egyes ismeretlen szerint, s az rtkeiket ez alapjn megvltoztatjuk. Az egyik legkzenfekvbb pldul, hogy a derivlt rtkek mnusz egyszerest hozzadjuk az ismeretlenjeinkhez. Utna az j pontban ismt derivltakat szmolunk, majd arrbb lpnk a paramtertren. Ezt addig ismtelgetjk, amg a derivlt rtkeink valamely alacsony kszb al nem kerlnek. Ez a mdszer szmos nehzsggel kzd. Egyrszt szksg van valamilyen fggvnyre, ami kt mtrix tvolsgt mri, aminek a megvlasztsa nem egyrtelm. Msrszt egyltaln nem biztos, hogy az optimlis megoldst tallja meg az eljrs, st lehet, hogy nem is konvergl. Ezekre a problmkra kielgt megolds mg nem ll rendelkezsre. Mg az sem tisztzott, hogy milyen felttelek mellett lesz egyrtelm a megolds. Tudjuk, hogy a faktoranalzisben az egytthatmtrix s a faktorok vektora csak forgats erejig meghatrozott. Ugyanez igaz a SEM-ben a kls vltozk mrsi modelljre. A kt kovariancia mtrix tvolsgnak, ms szval a modell illeszkedsnek jsgra leggyakrabban hrom mrszm valamelyikt hasznljuk. Ezek a Legkisebb Ngyzetes eltrs (Ordinary Least Squares vagy OLS), az ltalnostott Legkisebb Ngyzetes eltrs (Generalized Least Squares vagy GLS) s a Maximum Likelihood mrszm (ML). Jellje S a tapasztalati kovarianciamtrixot, a modellbl szmolt kovarianciamtrixot, melyek mrete m m. OLS = tr(S )2
1 GLS = 2 tr[(S )S 1 ]2
M L = log [det()] log [det(S )] + trS 1 m ahol tr a nyomopertor, det a determinns s log a termszetes alap logaritmus. A mrszmoknak kt f clja van. Segtsk a keresst az algoritmus minden lpsben, s rtkeljk a kapott megoldst. Az elzhz fontos, hogy gyorsan szmolhat legyen, hiszen a keress minden lpsben meg kell hatroznunk, s hogy jl reprezentlja a relatv tvolsgokat a mtrixok kztt. Az utbbihoz nem annyira lnyegbevg a szmtsi bonyolultsg, sem pedig a mrszm viselkedse az opti9
mumtl tvol, azonban j ha tudunk rla valamilyen statisztikai tulajdonsgot. A szmtsi bonyolultsgot tekintve a legjobb az OLS , majd a GLS, a legrosszabb pedig az ML, hiszen a modell kovarianciamtrixnak determinnst s inverzt is meg kell hatroznunk a kiszmtshoz. Ez azrt okoz problmt, mert ennek az rtke minden itercis lpsben ms s ms. Statisztikai szempontbl viszont az ML s a GLS kritriumok bizonyulnak jobbnak. Ugyanis a legjobb illeszkeds pontjn szmtott valamely elbb emltett mrszmot (N 1)-el megszorozva a kapott rtk megkzeltleg 2 eloszllst kvet, ahol N a minta elemszma. A 2 eloszls szabadsgi foka a modell szabadsgi foka. Az ML mrszm ezen tulajdonsghoz szksgesek bizonyos regularitsi felttelek s hogy a minta tbbdimenzis normlis eloszlst kvessen. A GLS-re gyengbb felttelek mellett is igaz marad. Ez elnys, hiszen arra hasznlhatjuk, hogy a modell illeszkedst statisztikai prbnak vessk al, s klnbz mrszmokat vezessnk be az illeszkeds jsgra. Ami viszont kevsb vonzv teszi az ML mrszmot, hogy bizonyos esetekben az optimumtl tvol rosszul mri a tvolsgot. Egy plda: Legyen a becslni kvnt mtrix
S=
2 1 1 4
s tegyk fel, hogy az itercis lps sorn a becslt mtrixunk
1 = s ebbl a
11 7 7 5
2 =
1 2 2 5
mtrixba lpnnk. Ekkor az OLS mrszmunk 154-rl 4-re vltozik, azaz ezt a lpst elfogadn egy olyan iterci, amely legkisebb ngyzetes becslst szmol. Ellenben az ML mrszm rtke 4.513-rl 6.054-re vltozik, azaz a 1 mtrixbl nem lpne a 2 -be. Ez a tulajdonsg kellemetlen, hiszen az itercit elvezetheti a megoldstl, ha mg tvol vagyunk tle. St, ha az optimlis megolds olyan, hogy nem illeszkedik tl jl, akkor hiba vagyunk a kzelben, akkor is kivezetheti onnan az itercit. Ez 10
is egy olyan problma, amin nem tudunk rr lenni. Egy lehetsg, hogy a keress elejn az OLS kritriumot hasznljuk, ami gyors s nem esik olyan csapdba, mint az ML, majd a megolds kzelben vltunk, s az ML vagy a GLS mrszmmal nomtjuk a kutatst. Egy msik gond, hogy a clfggvnyek nem biztos, hogy szpek a paramtertr felett. Elfordulhat, hogy loklis minimumhelyei vannak a fggvnynek, esetleg bizonyos tartomnyokon konstans. Ilyen esetben megeshet, hogy az iterci egy ilyen helyen r vget, nem optimlis megoldst adva. Mivel a clfggvny tulajdonsgaira sem ismert karakterizci, azt szoks tenni, hogy tbb, lehetleg tvol es pontbl indtjuk az itercit, s megvizsgljuk, melyik milyen eredmnyt ad. Ha azt tapasztaljuk, hogy sok indtsbl ugyanazt az eredmnyt rtk el, bzhatunk benne, hogy az lesz az optimlis megolds.
3.2.
Bayesi SEM illeszts
Az elzektl nagyban eltr a Bayesi mdszerrel illesztett SEM. Tbb elnnyel is br az iteratv szmtsokkal szemben, azonban ezekrt az elnykrt hossz szmtsokkal zetnk. Ennek a mdszernek a lnyege, hogy az sszes vltoznknak megadunk egy feltteles a priori eloszlst, majd a Bayes-ttel segtsgvel ebbl s a prediktv eloszllsbl kiszmtjuk normalizl konstans erejig a feltteles a posteriori eloszlsokat. Ezekbl aztn egy MCMC mdszerrel kzeltjk az egyttes a posteriori eloszlst az ismeretleneknek. gy nem csak egy pontbecslst kapunk a paramtertrbl (amit most is adhatunk, hiszen a Bayes-becsls az a posteriori eloszls vrhat rtke), hanem egy eloszlst, amelynek segtsgvel rnyaltabb kpet kaphatunk a ltens vltozk struktrjrl. Ezen fell tovbbi elnye a mdszernek, hogy azzal, hogy a paramtereknek a piori eloszlst adunk meg, plusz informcit van mdunk bepteni a modellbe. Az a priori eloszlsok megvlasztst indokolhatjk korbbi kutatsok eredmnyei, vagy bizonyos ttelek, amelyeket az alkalmazshoz kapcsold tudomny biztost szmunkra. Ha nem indokolja semmi egy konkrt eloszls hasznlatt, akkor rdemes valamilyen nem informatv a priori eloszlst vlasztani. Ezrt a Bayesi mdszernek az itercikkal szemben akkor van ltjogosultsga, ha van valamilyen fogalmunk a paramterek vagy a meggyelseink eloszlsrl. Ellenkez esetben a mdszer hasznlatt az indokolhatja, hogy nem pontbecslst szeretnnk szmolni. Ezen fell mg egy ok lehet, hogy az elz mdszerek nagyobb mintkra mkdnek jl, viszont a Bayesi hozzllssal illesztett SEM nem annyira rzkeny a mintanagysgra. Ezrt ha nem ll rendelkezsre elg nagy minta s az iteratv mdszerek nem adnak eredmnyt, Bayesi illesztssel rdemes prblkoznunk. 11
Markov-lncok Mieltt az MCMC mdszerekre rtrnk, szksgnk van egy kis ttekintsre a Markov-lncokrl. Legyen (X0 , X1 , X2 , ...) valsznsgi vltozk sorozata. A valsznsgi vltozk lehetsges rtkeit llapottrnek nevezzk. Kezdetben vges llapotter Markov-lncokkal foglalkozunk. A valsznsgi vltoz sorozatot Markovlncnak nevezzk, ha az llapottr klnbz rtkei kztti tmenetvalsznsgek csak a mostani llapottl fggnek, azaz P (Xt+1 = sj | X0 = sk , ..., Xt = si ) = P (Xt+1 = sj | Xt = si ) A fenti egyenletet Markov tulajdonsgnak nevezzk. Egy Markov-lncot az tmenetvalsznsgek (msnven tmenetmag) hatrozzk meg, azaz annak a valsznsge, hogy a folyamat egy adott llapotbl egy msik llapotba kerl egy lpsben. Ezt P (i, j )-vel, vagy P (i j )-vel jelljk. P (i, j ) = P (Xt+1 = sj | Xt = si ) Jellje j (t) = P (Xt = sj ) annak a valsznsgt, hogy a lnc a t idpontban a j llapotban van, s foglaljuk ezeket a valsznsgeket sorvektorba, legyen ez (t). gy indtjuk el a lncot, hogy megadunk egy (0) kezdvektort (ez gyakran olyan, hogy csak egy nem 0 elemet tartalmaz). Ahogy a lnc halad az idben, ez a valsznsg "eloszlik" koordintin. Annak a valsznsgt, hogy a lnc a (t + 1) idpontban az sj llapotban van, a Chapman-Kolmogorov egyenlet adja meg: j (t + 1) = P (Xt+1 = sj ) = P (Xt+1 = sj | Xt = sk ) Ezt az egyenletet kompaktabb formba is rhatjuk. Legyen P az tmenetvalsznsg mtrix, melynek az (i, j )-ik eleme P (i, j ). Ezzel a Chapman-Kolmogorov egyenlet (t + 1) = (t)P Ebbl a felrsbl knnyen ltszik, hogy (t + 1) = (t)P = ( (t 1)P )P = (t 1)P 2 = ... = (0)P t Ha deniljuk az n-lpses tmenetvalsznsget a kvetkez mdon P n (i, j ) = P (Xt+n = sj | Xt = si ) 12
akkor rgtn ltszik, hogy P t (i, j )-ik eleme ppen P t (i, j ). Azt mondjuk, hogy a Markov-lnc irreducibilis, ha minden (i, j )-re ltezik n pozitv egsz, hogy P n (i, j ) pozitv, azaz brmely llapotbl brmely ms llapotba pozitv valsznsggel el tudunk jutni. Az si llapot peridusa k , ha k = lnko(n : P (Xn = si | X0 = si ) > 0) Ha az llapot peridusa 1, az llapotot aperiodikusnak nevezzk. Egy irreducibilis Markov-lncban minden llapot peridusa megegyezik. Ha minden elem peridusa 1, a lncot aperiodikusnak nevezzk. Egy Markov-lnc stacionrius eloszlsnak azt a eloszlst nevezzk, melyre = P azaz P -nek az 1-hez tartoz baloldali sajtvektora. Ennek a szemlletes jelentse az, hogy ha elindtjuk a Markov-lncot, majd hossz id mlva rnznk, akkor annak a valsznsgt, hogy a lncunk egy adott llapotban van a stacionrius eloszls adja meg. Ezen eloszls ltezsnek felttele, hogy a lnc irreducibilis s aperiodikus legyen. Az egyrtelmsghez a megfordthatsgi felttelnek kell teljeslnie minden (i, j )-re:
j P (j, i) = i P (i, j )
Vegyk szre, hogy ebbl mr kvetkezik = P , mert P j -ik eleme

P (j, i) = j P (j, i) = j P (i, j ) = j ( P )j = i
Folytonos llapottrre gy trhetnk t, ha egy olyan P (x, y ) tmenetmagot vlasztunk, amire P (x, y )dy = 1 A Chapman-Kolmogorov egyenlet folytonos esetben t ( y ) = t1 (x)P (x, y )dy
A stacionrius eloszls, pedig az a eloszls, melyre (y ) = (x)P (x, y )dy
13
Gibbs mdszer Tegyk fel, hogy adottak X s Y valsznsgi vltozk, az egyttes srsgfggvnyk (x, y ). Ismerjk mindkt vltoz feltteles eloszlst a msikra nzve Y | X = x srsgfggvnye f (y, x) X | Y = y srsgfggvnye g (x, y ) s szeretnnk mintt venni az egyttes eloszlsbl. Ezt a feladatot az elzekhez hasonlan egy MCMC eljrssal oldjuk meg. Legyen az tmenetmag P ((x, y ), A), aminek a srsgfggvnye a kvetkez: h((u, v ); (x, y )) = f (v, x)g (u, v ) Ez azt jelenti, hogy kiindulunk egy (x, y ) pontbl, elszr y -bl v -be lpnk (f (x, y ) eloszlssal), majd pedig x-bl u-ba (g (u, v )-bl val mintavtelezssel). Ha f , g jelli a marginlis eloszlsokat: f (y, x) = f rac (x, y )f (x) g (x, y ) = f rac (x, y )g (x)
Ezzel pedig ellenrizhetjk, hogy az gy kapott Markov-lncnak valban (x, y ) lesz a stacionrius eloszlsa: h((u, v ); (x, y )) (x, y )dxdy = f (v, x)g (u, v )[ (x, y )dy ]dx = f (v, x)g (u, v ) (x, y )dxdy = g (u, v ) (x, v )dx =
f (v, x)g (u, v )f (x)dx =
g (u, v )g (v ) = (u, v ) Ha f (y, x) s g (x, y ) folytonosak s szigoran pozitvak minden x, y -ra, akkor ez a lnc irreducibilis, aperiodikus, s a stacioner eloszlsa (x, y ), aminek gy egyrtelmnek kell lennie. Ezen fell algoritmust kaptunk arra, hogy hogyan generlhatunk mintt az egyttes eloszlsbl. Ez a gondolatmenet magasabb dimenzira is tvihet. Legyen eloszls Rd -n (d > 1) s tegyk fel, hogy a feltteles eloszlsaival van megadva X = (X1 , ..., Xd ) Xi = (X1 , ..., Xi1 , Xi+1 , ..., Xd ) Xi | Xi fi (xi , xi ) gy, mint d = 2 esetben, fi : 1 i d itt is meghatrozzk -t, ha minden fi szigoran pozitv s folytonos. A Gibbs-sampler algoritmusa teht: Legyen x = (x1 , ..., xd ) az egyttes eloszls tartjnak egy eleme. X 0 = x. Ha mr megvan X 1 , ..., X n , akkor X n+1 -et az albbi mdon kapjuk: 1. Vgiglpkednk i-vel az sszes ({1, 2, ..., d}) koordintn s minden lpsben az albbi kt pontot hajtjuk vgre 14
2. w-t generlunk fi (xi , xi )-bl

n+1 n ha i = j 3. Xin+1 = w s Xj = Xj
A fenti algoritmussal kapott minta mg nem fog teljesen megfelelni a cljainknak, mivel egyrszt idbe telik, mire a lnc megkzelti a stacionrius eloszlst, msrszt a kapott minta elemei nem lesznek fggetlenek. Az els problmt gy orvosolhatjuk, hogy a lnc els rszt egyszeren elhagyjuk. Ezt begetsnek (burn-in) nevezik. Nincs egzakt kplet arra, hogy mekkora rszt gessk be a Markov-lncnak, de egy alaptlet lehet pldul a kvetkez: legyen M a legiksebb pozitv egsz, melyre P (XM = j | X0 = i) > 0 minden i, j llapotra. Ekkor a begets legyen M nagysgrend, vagy annl egyel nagyobb nagysgrend. Afggetlensg elrse rdekben azt szoks tenni, hogy csak minden l-ik elemet tartjuk meg a lncbl (l neve: "lag"). Arra, hoyg mekkora l-et vlasszunk, szintn nincs szably, rdemes a kapott lnc autokorrelci-fggvnyt megnzni, s azt az l-et vlasztani, ahol mr el tudjuk fogadni a fggetlensget.
Bayes mdszer a SEM illesztsre A Bayes becslseknl a paramterek (jel.: ) maguk is valsznsgi vltozk, eloszlsuk a paramtertren (jel.: ) az a priori eloszls (jel.: Q). rtkeit t-vel jelljk. Pt az X minta eloszlsa a = t felttel mellett. Az (X , ) pr egyttes eloszlsa az (X , BX B ) szorzattren az ltalnostott szorzatmrtk P(dx, dt) = Pt (dx)Q(dt) x felttel nlkli eloszlsa PQ =
Pt dQ(t), ezt predikt eloszlsnak nevezzk
Ha P Lebesgue-abszolt folytonos, akkor a prediktv eloszls is, s fQ (x) =
ft (x)dQ(t)
feltteles eloszlsa a X = x felttel mellett az a posteriori eloszls, jellje ezt Q (. | x) A Bayes-ttel szerint P -majdnem minden x-re Q (. | x) abszolt folytonos Q-ra, s
dQ (.|x) (t) dQ
ft (x) . fQ (x)
Valamint, ha Q Lebesgue-abszolt folytonos s q (t) a srTeht a Bayes-ttel megadja az a posteriori eloszlst. A
sgfggvnye, akkor az a posteriori eloszls is abszolt folytonos s a srsgfggvnye q (t | x) =

ft (x)q (t) . fQ (x)
paramter Bayes becslse az a posteriori eloszls vrhat rtke. 15
A SEM modell illesztsre ezeket az eredmnyeket gy hasznljuk, hogy a modell paramtereire, mint valsznsgi vltozkra tekintnk. Clunk meghatrozni az egyttes a posteriori eloszlsukat. Ehhez meg kell adnunk a minta feltteles eloszlst a = t felttel mellett, valamint a paramterek a priori eloszlst. A minta eloszlsnak leggyakrabban tbbdimenzis normlis eloszlst vlasztanak. A paramterek a priori eloszlsnak megvlasztsa mindig az adott modelltl fgg. Sokszor felteszik, hogy a paramterek fggetlenek egymstl, gy megadhatak kln-kln az a priori eloszlsok, s nem kell egyttesen megadni az eloszlsukat. Ez knnyt a szmolsokon, azonban nem minden esetben tudjuk megtenni. A hibk fggetlenek a tbbi paramtertl, gy pldul az eloszlsuk megadhat a tbbitl kln. Ezek utn a Bayes ttel segtsgvel meghatrozzuk az a posteriori eloszlst. A szmts megknnytse rdekben konjuglt eloszlsprokat vlasztanak a legtbb alkalmazsnl. Ennek az eloszlsnak a vrhat rtke lesz a Bayes becsls. Ezt kiszmolni azonban nagyon bonyolult, hiszen egy tbbdimenzis integrlst ignyel, ezrt egy MCMC eljrssal hatrozzuk meg az rtkt. A Gibbs mdszer ppen arra hasznlhat, hogy egy tbbdimenzis eloszlsbl mintavtelezznk. Az algoritmusnak szksge van a paramterek feltteles eloszlsaira. Ezeket az elbb meghatrozott egyttes a posteriori eloszlsbl kiszmolhatjuk. gy futtathatjuk a Gibbs mdszert, ami mintt ad neknk a paramterek egyttes a posteriori eloszlsbl, s az ebbl szmtott tapasztalati vrhat rtk lesz a Bayes becsls. Ennl azonban tbbet kaptunk ennek az eljrsnak az alkalmazsval, hiszen nem csak egy pontbecslsnk van, hanem egy mintnk is, ami alapjn ezt szmoltuk. gy kpnk van arrl, hogy milyen a paramterek egyttes eloszlsa, s ezzel rnyaltabb kpet kapunk a modellnkrl. Pldul intervallumbecslst rhatunk fel az egyes paramterekre, vagy megtallhatjuk az extrm egyedeket az eloszls farkainl. Ezek azok az tbblet eredmnyek, ami miatt rdemes lehet ezt az sszetettebb s idignyesebb mdszert alkalmazni a SEM modell illesztsre.
16
4.
4.1.
Illeszkedsi indexek
A klasszikus illeszkedsi mutat
Szksgnk van valamilyen mutatra, ami meghatrozza a modell illeszkedsnek jsgt. Erre a clra szmos rtk ll rendelkezsre, amelyek mind valamilyen mdon tmpontot adnak arrl, hogy mennyire elfogadhat a modellnk. A klasszikus illeszkedsi mutatrl mr korbban sz esett az iteratv illesztsek sorn. Ez nem ms, mint az ML mrszm megszorozva a mintaelemszmmal. Errl tudjuk, hogy az optimlis illeszkedsi pontban 2 eloszlst kvet, melynek szabadsgi foka a modell szabadsgi foka. Ezt hasznlhatjuk arra, hogy prbnak vessk al a modell illeszkedst. A nullhipotzisnk az, hogy a modell jl illeszkedik, s ezt akkor fogadjuk el, ha a fenti mdon szmolt statisztika a megfelel szabadsgi fok 2 eloszls elfogadsi tartomnyba esik. Ez azonban nem informatv eredmny. Ha elutastjuk a nullhipotzist, akkor valban llthatjuk, hogy a modell rossz. Az viszont, hogy elfogadjuk mg nem jelenti, hogy a modell valban jl illeszkedik, csak annyit, hogy nem tudtuk elutastani a modellnket. Egy tovbbi problma a klasszikus illeszkedsi mutatval, hogy fgg a mintanagysgtl. Ha nem elg nagy a mintnk, elfordulhat, hogy olyan modelleket is elfogadunk, amik szemltomst rosszul illeszkednek. Msrszt ha a mintnk nagyon nagy, kimondottan jl illeszked modelleket is elutastunk. Ezrt ez a mutat inkbb csak tjkoztat jelleg s nem lehet messzemen kvetkeztetseket levonni ennek segtsgvel a modell illeszkedsrl. Fontos, hogy alternatv modellek illeszkedst is meg tudjuk vizsglni. Attl, hogy egy adott modellt elfogadtunk, nem zhatjuk ki, hogy ltezik egy msik modell, ami az elznl lnyegesen jobban rja le az adatainkat. Ekkor megtehetjk, hogy mindkt modellre kiszmoljuk az illeszkedsi mutatkat. Elfordulhat, hogy a kett kzl az egyiket elutastjuk, a msikat pedig elfogadjuk. Ez esetben gyakran azt mondjk, hogy a kt alternatv modell kztti vlaszts egyrtelm, hiszen az a jobb, amit el tudtunk fogadni. Ez azonban helytelen, hiszen lehet, hogy az els modell illeszkedsi mutatja pphogy az elfogadsi tartomnyba esett, a msodik pedig pphogy kicsszott belle. Ez esetben hiba volna azt mondani, hogy az els jobb, mint a msodik, hiszen valjban alig van klnbsg a kett kztt. Bizonyos esetekben azonban lehetsgnk nylik kt modell egyenes sszehasonltsra. Ezt hierarchikus vagy ms szval egymsba gyazott modellek esetn tudjuk megtenni. Akkor beszlnk ilyen modellekrl, ha az egyik modell megkaphat a msikbl gy, hogy ez utbbiban egyes paramterek rtkeit rgztjk. Ekkor a kt
17
2 statisztika klnbsge szintn 2 eloszls, a szabadsgi foka pedig a kt szabadsgi fok klnbsge. Ha ez a statisztika a megfelel eloszls elutastsi tartomnyba esik, akkor azt mondhatjuk, hogy a kisebb szabadsgi fok modell szigniknsan jobban illeszkedik, mint a nagyobb szabadsgi fok. Ezt lehet pldul arra hasznlni, hogy megvizsgljuk, hogy egy adott regresszis egytthat fontos rsze-e a modellnknek. Mivel neknk a clunk az, hogy az adatainkat minl jobban, ugyanakkor minl egyszerbb modellel rjuk le, rdemes lehet megvizsglni, hogy az egyes regresszis egytthatk elhagysval lnyegesen romlik-e a modell illeszkedse. Teht azt tesszk, hogy egy egytthatt kivlasztunk s nullra lltjuk az rtkt. gy egy jabb modellt kapunk, ami az eredetibe be van gyazva. A kt modellt sszehasonltjuk a fenti mdon, s annak alapjn dnthetnk az adott regresszis egytthat szignikancijrl. Ha az derlt ki, hogy ezen paramter elhagysa nem ront lnyegesen a modell illeszkedsn, akkor meggondoland, hogy egyszeren elhagyjuk a tovbbiakban. Ezt kveten az jonnan kapott modellben tovbb vizsglhatjuk a paramterek szignikancijt ugyangy, mint elbb. Ezt rdemes tbb gon is elvgezni, azaz tbb begyazott sorozatot kszteni egy alapmodellbl a klnbz paramterek elhagysval. Az egyes gakon bell ezutn ki tudjuk vlasztani azokat a modelleket, amelyek a legjobban illeszkednek. Arra nincs mdunk, hogy a klnbz gakon lev modelleket kzvetlenl sszehasonltsuk.
4.2.
Javtott illeszkedsi mutatk
Ahogy arrl a korbbiakban sz esett, a klasszikus illeszkedsi mutat nem ad elg rnyalt kpet a modell illeszkedsrl. Pldul nagy szerepe van a mintanagysgnak is: kis minta esetn hajlamosak vagyunk elfogani a modelleinket, nagy minta esetn hajlamosak vagyunk elvetni ket. Ezen hinyossgok thidalsa rdekben szmos msik illeszkedsi indexet hasznlnak, amelyek kzl a legfontosabbakat az albbiakban sorra vesszk. Az els a Karl Joreskog fle 2 /df mutat. A klasszikus illeszkedsi mutat rtkt elosztva a 2 eloszlsunk szabadsgi fokval egy olyan rtket kapunk, ami tmpontot nyjt abban, hogy mennyire j a modell illeszkedse a szabad paramterek szmhoz viszonytva. Ha ennek a mutatnak az rtke jval 1 al esik, az azt mutatja, hogy az illeszkeds "tl j", vagyis lehet, hogy csak szerencsnk volt, s ms minta esetn a modell nem lln meg jl a helyt. Ellenben ha a mutat rtke tl nagy, az azt jelenti, hogy az illeszkeds nem j, s j modellt illestsvel kell prblkozunk, amelyben tbb t van, vagy ms utak vannak. Az, hogy pon18
tosan mekkora rtkeknl vonjuk le ezt a kvetkeztetst, nincs explicit megszabva. sszegezve, nagyjbl 1/2 s 2 kztti rtkeket szeretnnk ltni ezen a mutatn, s minl kzelebb van az egyhez, annl jobb. Tl kicsi rtk esetn rdemes cskkenteni a paramterek szmt, tl nagy rtk esetn rdemes jabb paramtereket belevenni a modellbe. A kvetkez mutat Bentler & Bonett normlt illeszkedsi mutatja (Normed Fit Index, N F I ). Azt javasoltk, hogy egy modell illeszkedsnek a jsgt mrjk egy olyan skln, ami a tkletes illeszkedstl egy n. "null modell" illeszkedsig fut. A null modell egy nknyes, ersen megszortott modell, ami minden korrelcit nullval becsl. Ez egy alapszintet jellemezne, amit minden hasznlhat modellnek t kell lpnie. A mutat azt mondja meg, hogy a vizsglt modellnk hova esik a null modell s a tkletes illeszkeds kztti skln. Formlisan a kvetkezkppen denilhat: NF I =
2 2 0 k 2 0
ahol a k index jelli a vizsglt modellt, a 0 index pedig a null modellt. Ez a mutat akkor jelez j illeszkedst, ha az rtke kzel van az egyhez. Az elznek egy kicsit mdostott vltozata a James, Mulaik & Brett fle javtott illeszkedsi index (Parsimonious Fit Index, P F I ). Ez a mutat gyelembe veszi azt is, hogy mekkora szabadsgi fokot ldoztunk fel annak rdekben, hogy az adott illeszkedshez eljussunk. Ennek oka az, hogy egy olyan modellt tekintnk igazn jnak, ami jl illeszkedik ugyan, de arnylag egyszer, azaz kevs paramter van benne s gy nagyobb a szabadsgi foka. Teht ha rengeteg l van az tdiagramban s gy j illeszkedst kapunk nem olyan rtkes, mintha kicsit gyengbb illeszkedst rnk el, de jval kevesebb regresszis paramterrel. Ezen mutat alakja az albbi: PFI =
dfk NF I df0
A P F I index rtkei az elzhz hasonlan nulla s egy kzttiek, s minl magasabb az rtk annl jobb. Az utols, elzekhez hasonl index Akaike informcis kritriuma (Akaikes Information Criterion, AIC ). Ez szemllett tekintve hasonl az elzhz, mivel szintn gyelembe veszi, hogy a modell mennyi paramterrel tudja elrni az adott illeszkedst. Egy adott modellre az informcis kritrium AIC = q 2 Ez AIC mutat rtke mindg negatv, s minl kzelebb van a mullhoz, annl tbb informcit ad az adott modell. Ezrt tbb modell sszehasonltsnl azt vlasztjuk, amelynek a maximlis ez a mutatja. 19
2
Az elzeken fell szoks mg olyan mutatkat is hasznlni, amik a becslt s a meggyelt kovarianciamtrixok eltrst mrik. A legegyszerbb ilyan index egyszeren a kt mtrix tlagos ngyzetes klnbsgbl vont ngyzetgyk. Ez az RM R, teljes nevn Root-Mean-square Residual. Az tlagos eltrst mutatja a kt mtrix elemei kztt. Legjobban akkor interpretlhat, ha a mtrixok elemei nagyjbl azonos skln mozognak, pldul ha korrelcimtrixok. Egy msik lehetsg, hogy a ngyzetes eltrsek sszegt vizsgljuk, ennek a neve Goodness-of-Fit Index, rviden GF I . Ez informatvabb akkor, ha a mtrixok elemei nem azonos skln mozognak, vagy eltr nagysgrendek. Egy verzija ennek, amikor az ML illesztst hasznljuk, s az S 1 s az egysgmtrix kztti ngyzetes eltrsek sszegt szmoljuk, ahol S a meggyelt, pedig a modell ltal becslt kovarianciamtrix. Minl hasonlbb a kt mtrix, ez a mutat annl kisebb rtket vesz fel. Ennek a javtott verzija az AGF I , amit az elz rtket a szabadsgi fokok arnyval felszorozva kapunk, hasonlan ahhoz, ahogy az N F I -bl a P F I -hez jutunk. A fenti mutatk mindegyike ms s ms szempontbl vizsglja a modellek illeszkedst. Ezrt nehz dnteni, hogy melyeket hasznljuk, s melyek alapjn vlasszuk ki azt a modellt a sok kzl, amit vgl hasznlni szeretnnk. Idealizlt esetnek tnik az, hogy a modellek kzl majd lesz egy olyan, ami az sszes tbbinl jobb minden egyes illeszkedsi index szerint. Azonban tudnunk kell, mit akarunk elrni s mindig az adott alkalmazsnl dl el, hogy mely mutatkat rszestjk elnyben. Ezen fell szem eltt kell tartanunk azt is, hogy valszntlen, hogy a legtbb mutat nagyon j rtket adna. Ennek az oka az, hogy a clunk, hogy egy bonyolult rendszerre egy arnylag egyszer, mgis hasznlhat modellt ptsnk fel. Nem valszn, hogy egy ilyen helyzetben r fogunk tallni minden egyes magyarz viszonyra a jelensgen bell, mr csak azrt sem, mert bizonyra rengeteg a modellen kvlrl rkez hats is jelen van a lerni kvnt rendszerben. EAz illeszkedsi indexek j tmpontot adnak arra nzve, hogy modellnk elfogadhate, s jl lehet ket alkalmazni arra, hogy klnbz modelleket sszehasonltsunk. Msfell pusztn egy modell indexeit megvizsglva nem llthatjuk egyrtelmen, hogy az j vagy rossz, puszn egy hozzvetleges kpet kaphatunk arrl, hogy hogyan teljest az adott mintval.
20
5.
tdiagramok a SEM-ben
Korbban mr sz esett az tdiagarmokrl, mint hasznos, jl ttekinthet eszk-
zkrl a modell felrsa sorn. Azonban ennl sokkal hasznosabb feladatot is ellthatnak, mert szmos krdsre knnyen vlaszt kaphatunk az tdiagramok megvizsglsval. Tbb problma is felmerlhet egy jelensg modellezse sorn. El kell tudjuk dnteni, hogy melyiket vlasszuk a sok szbajv modell kzl, amelyek mind ms magyarzatot adnak a lerni kvnt jelensgre. Erre egy lehetsg a korbban trgyalt illeszkedsi mutatk vizsglata. De mit tegynk akkor, ha van tbb modell is, amelyeknek mind ugyanolyanok az illeszkedsi indexei? Ezen modellek szma nagy lehet, s fontos, hogy megtalljuk az sszeset annak rdekben, hogy ki tudjuk vlasztani a szmunkra optimlisat. Ha vannak az elz rtelemben ekvivalens modelleink, van-e valamilyen karakterizcijuk, vagy kzs vonsaik? Pldul vannak-e azonos egytthatk, vagy mindkettben jelen lev korrellt hibk? Ha ehhez hasonl kzs vonsokat tudunk felfedezni, akkor ha nem is tudunk vlasztani egyet a modellek kzl, legalbb valamilyen informcinak a birtokba jutunk.
5.1.
A problmk felrsa
Egy tdiagramban A cscsbl B cscsba akkor fut irnytott s, ha nem-nulla egytthat van a B -re felrt regressziban A-nl. A kt cscs kztt akkor fut kt fej l, ha az hibatagjaik korrelltak. A tovbbiakban az olyan tdiagramokat, melyekben nincs irnytott l, irnytott grfnak neveznk. Ha adott egy SEM, jellje t M , akkor (M )-el jelljk az ltala impliklt kovarianciamtrixot, s G(M )-el az tdiagramjt. Legyen M egy SEM, amelynek az tdiagramja az albbi brn lthat, s tegyk fel, hogy az illeszkedsi mutati mind jk.
Annak ellenre, hogy minden illeszkedsi index j, nem lehetnk biztosak ab21
ban, hogy a modellnk valban kielgt magyarzatot ad a lerni kvnt adatokra. Elfordulhat ugyanis, hogy mg szmos olyan modell ltezik, amely ugyanilyen j illeszkedst mutat az adatokon. A mi esetnkben az albbi brn lthat brmelyik SEM tetszleges adathalmazra ugyanolyan jl illeszkedik, mint a fenti (azaz megegyeznek az illeszkedsi mutatk).
Ahogy a fenti pldbl lthat, elfordulhat, hogy sok egyformn illeszked modell ltezik, ami egy magyarz elemzs elksztsekor rengeteg gondot okozhat. Ha az elemz nem ismeri az vvel azonosan illeszked modelleket, az knnyen rossz kvetkeztetsekhez vezethet a lerand jelensggel kapcsolatban. Ezrt ltfontossg, hogy rendelkezsre lljon egy mdszer, amivel megtallhat az sszes ilyen modell. Denci Legyen O mrt vltozk egy csoportja G1 s G2 diagramokban. Azt mondjuk, hogy G1 s G2 koveriancia ekvivalensek O felett, ha brmely M SEM-hez, melyre G(M ) = G1 ltezik egy M SEM, melyre G(M ) = G2 , s (M ) O-nak megfelel rszmtrixa megegyezik (M ) O-nak megfelel rszmtrixval, s fordtva. Egyszerbb szavakkal a fenti denvi azt mondja, hogy brmely O geletti kovarianciamtrix, amit G1 parametrizlsa generl, generlhat G2 parametrizlsval s fordtva. Ha G1 s G2 minden vltozja O-ban van, akkor rviden azt mondjuk, hogy kovariancia ekvivalensek. Ha kt kovariancia ekvivalens modell ugyanolyan megfelel a httrismereteink alapjn s ugyanakkora a szabadsgi fokuk, akkor nem tudunk klnbsget tenni kztk, hiszen az adatok sem segtenek a megklnbztetskben, mivel minden mutatjuk megegyezik. Ezrt nagyon fontos, hogy az sszes ilyen modellt. Modellek ilyen osztlyt a tovbbiakban kovariancia-ekvivalens osztlynak neveznk. Ha a diagramokban nincs ktfej nyl vagy irnytott kr, akkor egyszer kovariancia-ekvivalens osztlynak hvjuk a modellek ilyen csoportjt. 22
Annak eldntse, hogy mely modellek tartoznak egy osztlyba kornt sem egyszer. Erre az albbi bra szolgl egy egyszer pldval.
1 0, 99 0, 99 = 0, 99 1 0, 99 0, 99 0, 99 1 Els rnzsre gy tnhet, hogy a kt modell kovariancia ekvivalens {X, Y, Z } felett, de nem ez a helyzet. Mert ltezik egy SEM amelynek a diagramja az bra bal oldaln lev diagram, s a kovarianciamtrixa, de nincs olyan SEM, melynek a diagramja a jobb oldali, a kovarianciamtrixa pedig {X, Y, Z } felett. Ha sikerlt meghatroznunk az ekvivalens modelleket, akkor mr bztatbb a helyzet. Igaz, hogy elfordulhat, hogy sok ekvivalens modellnk van, melyek kzl nem tudunk vlasztani, de elfordulhat, hogy kzs vonsokkal rendelkeznek ezek a modellek, pldul van olyan l, amely mindig azonos irnytssal szerepel. Ez mindenkppen informatv eredmny, hiszen ekkor nagyobb magabiztossggal llthatjuk, hogy a szban forg kt vltoz kzti hats egyirny. A kvetkez felmerl problma a regresszis s struktrlis egytthatkkal kapcsolatos. Ismert, hogy ahhoz hogy kt vltoz regresszijban a regresszis egytthatt interpretlhassuk gy, mint egyik vltoznak a msikra gyakorolt hatsa, nem szabad lteznie egy harmadik "zavar" vltoznak, ami mindkt elzre hatssal van.
23
Teht a fenti brn ha X s Y kztti b regresszis egytthatt szeretnnk X Y -ra gyakorolt hatsnak nevezni, nem ltezhet egy Z vltoz, mely mindkettre hatssal van. Ez knnyen ellenrizhet: cov (X, Y ) = bD2 (X ) + acD2 (Z )
cov (X,Y ) D2 (X )
=b+
acD2 (Z ) D2 (X )
gy ha csak Y s X kztt rjuk fel a regresszit, akkor X egytthatja csak akkor lesz torztatlan, ha a vagy c valamelyike nulla. St, a torzts tetszleges eljel s nagysgrand lehet. Msfell, ha Y -t is belevesszk a regressziba, akkor cov (X, Y | Z ) = cov (X, Y ) D2 (X | Z ) = D2 (X ) Ehhez felhasznltuk, hogy cov (X, Z ) = aD2 (Z ) Az elzekbl kapjuk, hogy
cov (X,Z |Z ) D2 (X |Z ) cov (X,Y )2 D2 (Z ) cov (X,Z )cov (Z,Y ) D2 (Z ) 2
bD2 (X ) + acD2 (Z ) aD2 (Z )(ab + c) = b(D (X ) a2 D2 (Z )) = D2 (X ) a2 D2 (Z )
cov (Z, Y ) = (ab + c)D2 (Z )
=b
gy az X egytthatjra adott becslsnk torztatlan lesz, amennyiben "Z"-t is gyelembe vesszk. Az imnt teht lttuk, hogy ha ltezik egy olyan harmadik vltoz amit nem ismernk, s hatssal van mindkt vltozra amelyek kztt regresszit runk fel, akkor a harmadik n. "zavar" vltoz kihagysa torztst eredmnyez a regresszis egytthat becslsben. Msfell elfordulhat az is, hogy egy nem "zavar" vltoz bevezetse is hasonl torztst eredmnyez. Erre egy egyszer plda a kvetkez:
Itt ha csak X s Y vltozkra rjuk fel a regresszit, akkor cov (X, Y ) = bD2 (X ) ezrt a regresszis egytthat becslse torztatlan. Azonban ha mr Z -t is belevesszk, akkor
cov (X,Z |Z ) D2 (X |Z ) D (Z )a D (Y ) = bD 2 (Z )b2 a2 D 2 (X )
2 2 2
24
mivel cov (Y, Z ) = aD2 (Y ) cov (X, Z ) = abD2 (X ) Teht ha mindhrom vltoz jelen van, torztott becslst kapunk b-re, amely ugyan eljelben j, de abszolt rtkben nem. Vegyk szre, hogy a becslsnk akkor s csak akkor nulla, ha b = 0. Nzznk egy jabb pldt!
Az (A) brn lev SEM hibavltozit jellje X , Y s Z , a (B ) brn lev SEM hibavltozit pedig X , Y s Z . Az (A) brn kt ltens zavar vltoz lthat, T 1 s T 2, amelyek korrellatlanok. Brmely SEM, aminek ez az tdiagramja, trhat egy msikk, melynek a diagramja (B ) a kvetkez vlasztsokkal: r = pD2 (T 1) t = f D2 (T 2) D2 (X ) = D2 (X ) + D2 (T 1) D2 (Y ) = D2 (Y ) + f 2 D2 (T 2) D2 (Z ) = D2 (Z ) + p2 D2 (T 1) + D2 (T 2) Ez fordtva nem lehetsges, azaz nem lehet minden modellt, amelyben korrellt hibk vannak (X Y ), egy ltens vltozs modellre cserlni, amelyben a hibk korrellatlanok gy, hogy bevezetnk egy rejtett T vltozt, amely X -nek s Y -nak se (X T Y ). Visszatrve a (B ) tdiagramhoz, lthatjuk, hogy az elzhh hasonlan ha csak X s Y vltozk kztt rjuk fel a fegresszit, akkor b-re torztatlan becslst kapunk, m, ha Z -t is bevesszk a regressziba, akkor
cov (X,Z |Z ) D 2 (X | Z )
cov (X,Y )D2 (Z )cov (X,Z )cov (Y,Z ) D2 (X )D2 (Z )cov (X,Z )2
bD2 (X )D2 (Z )r(rb+t) D2 (X )D2 (Z )r2
=b
rt D2 (X )D2 (Z )r2
azaz nem lesz torztatlan a b-re kapott becsls, hacsak nem r = 0 vagy t = 0. St, az is elfordulhat, hogy ms eljel lesz a becslsnk, mint a becslni kvnt rtk. Ezen fell, ha b = 0 X s Y regresszijban, azaz valjban nincs magyarz viszony a kt vltoz kztt, az egytthat nem nullv vlik, ha Z -t is bevezetjk. 25
ltalnosan elfogadott a SEM alkalmazsa sorn, hogy jobb bevezetni vltozkat, mint kihagyni. Ennek oka az, hogy azzal, hogy bekerlt egy j vltoz, annak a hatst is kezelni tudjuk s gy kikszblhetjk a torztst. De mint az elz pldkbl lthattuk, ez a hozzlls nem megfelel, mert elfordulhat, hogy ppen ezzel egy torztatlan becsls torztott vlik. Vgl meg kell jegyeznnk azt is, hogy bizonyos esetekben a keresett egytthatt semmilyen regresszival sem tudjuk torztatlanul becslni.
Ebben a SEM-ben cov (X, Y ) = bD2 (X ) + f D2 (T ) teht az X egytthatja az X Y regressziban nem torztatlan, s W bevezetse sem segt a helyzeten, mert
cov (X,Z |W ) D2 (X |W )
=b+
f D2 (T ) D2 (X )a2 D2 (W )
Ennek ellenre ltezik torztatlan becsls, mgpedig

cov (Y,W ) cov (X,W )
abD2 (W ) aD2 (W )
=b
sszegezve teht a kvetkez krdsek addnak: 1. Egy adott SEM esetn melyek a vele kovariancia ekvivalens modellek? Van-e ezeknek valamilyen kzs jellemzjk? 2. Ha Y -t W vltozkkal illesztjk, x W , mely SEM-ekben lesz X regresszis egytthatja torztatlan becslse a struktrlis egytthatnak, melyet az X Y s reprezentl? 3. Ha Y -t W vltozkkal illesztjk, x W , mely SEM-ekben lesz X regresszis egytthatja 0, ha az X Y lnek megfelel struktrlis egytthat 0? 4. Adott egy sem X Y llel, az l slyt jellje b. Van-e a meggyelt vltozknak egy olyan W halmaza, melyre x W s ha Y -t W vltozkkal illesztjk, akkor X egytthatja b-nek torztatlan becslse lesz? 26
5. Adott SEM-ben egy b egytthatra ltezik-e egy h(S ) fggvny, amely b-nek torztatlan becslst adja? (Ahol S a tapasztalati kovarianciamtrix) Ezen krdsekre az utols kivtelvel vlaszt tudunk adni.
5.2.
d-szeparci
A fenti problmk megvlaszolshoz a "d-szeparci" fogalmnak bevezetsre van szksgnk. Ez az tdiagramok cscshalmazain rtelmezett tulajdonsg. A knnyebb ttekinthetsg kedvrt egy pldt fogunk felrni. vegynk egy M SEMet t vltozval, melyeket A, B, C, D, E jell, a hibikat pedig A , B , C , D , E . A modell a kvetkez: A = A B = B C = B + D + C D = C + E + D E = E A hibk pronknt korrellatlanok, kivve A s B hibatagjait, kztk a korrelcis egytthat . Ezek alapjn G(M ) a kvetkez:
Ahhoz, hogy denilni tudjuk a d-szeparcit, elbb tisztznunk kell a terminolgikat, amiket az tdiagramoknl hasznlunk. Kt fle l hzdhat X s Y cscsok kztt, irnytott illetve ktfej. Mindkt esetben azt mondjuk, hogy X s Y az l vgpontjai, s X s Y szomszdosak. Egy X Y irnytott l esetn azt mondjuk, hogy X az l farka, Y az l feje, X az Y szlje, Y az X gyermeke. Egy U irnytatlan t X s Y kztt lek egy olyan {E1 , E2 , ..., Em } sorozata, melyre E1 egyik vgpontja X , Em egyik vgpontja Y s a sorozatban minden szomszdos Ei , Ei+1 lre Ei egyik vgpontja megegyezik Ei+1 egyik vgpontjval. A pldnkban A B C D egy irnytatlan t. Egy P irnytott t X s Y kztt irnytott lek egy olyan {E1 , E2 , ..., Em } sorozata, melyre E1 farka X , Em feje Y s a sorozatban minden szomszdos Ei , Ei+1 lre Ei feje megegyezik Ei+1 farkval. A pldnkban B C D egy irnytott t. 27
Egy cscs elfordul egy tban, ha ltezik egy l az tban, amelynek a cscs valamelyik vgpontja. Egy t aciklikus, ha minden cscs legfeljebb egyszer fordul el benne. A pldnkban C D C nem aciklikus. Egy X cscs se egy Y cscsnak s Y leszrmazottja X -nek, ha ltezik P irnytott t X -bl Y -ba, vagy X = Y . Egy X cscs tkz egy U ton akkor s csak akkor, ha U tartalmaz egy rszutat az albbiak kzl: Y X Z , Y X Z , Y X Z vagy Y X Z , klnben X nem-tkz U -n. A pldnkban C tkz a B C D ton, de nem-tkz a B C D ton. Azt mondjuk, hogy X se egy Z cscshalmaznak, ha Z valamely elemnek se. Denci X ,Y s Z diszjunkt cscshalmazokra X d-kapcsoldik Y -hoz Z -t feltve akkor s csak akkor, ha ltezik egy aciklikus (irnytatlan) U t valamely x X s y Y kztt gy, hogy minden tkz U -n Z se, s minden nem-tkz U -n nincs benne Z -ben. Denci X ,Y s Z diszjunkt cscshalmazokra X d-szeparlt Y -hoz Z -t feltve akkor s csak akkor, ha X nem d-kapcsoldik Y -hoz feltve Z -t. A fenti pldnkban a C D E t d-kapcsolja C -t s E -t feltve -t, valamint A-t, B -t vagy {A, B }-t. E D C d-kapcsolja E -t s C -t feltve D-t, {D, A}-t, {D, B }-t, {D, A, B }-t. A pldnkban lev sszes d-szeparci relci: A s C feltve B , {B, D}, {B, E }, {B, D, E } A s D feltve B , {B, C }, {B, E }, {B, C, E } A s E feltve , B , {B, C }, {B, D}, {B, C, D}, {C, D} B s E feltve , {C, D} Ttel Ha M egy SEM, s G(M )-ben X s Y d-szeparltak feltve Z , akkor cov (X, Y | Z ) = 0 (M )-ben. Ttel Ha X s Y nem d-szeparltak G-ben, akkor ltezik egy M SEM, melyre G(M ) = G
28
s cov (X, Y | Z ) = 0 (M )-ben. Az els ttel azt mondja ki, hogy a d-szeparci egy G tdiagramban elgsges felttel arra, hogy minden G diagram SEM-ben az X, Y -nak a feltteles kovariancija Z -re 0. A msodik ttel szerint a d-szeparvi szksges felttele annak, hogy 0 legyen a feltteles kovariancia. Ez persze nem mondja azt, hogy nincs olyan M SEM, amelyben nulla a feltteles kovariancia olyan vltozk kztt, amelyek nem d-szepaltak. Pldul vegyk az albbi diagramot.
A kapott modellnk legyen a kvetkez: X = 0, 3Y + 0, 6Z + X Y = 2Z + Y Z = Z Ez esetben cov (X, Y ) = 0, pedig X s Y nem d-szeparltak -ra. Ez azrt van mgis gy, mert a regresszis egytthatk pont kiejtik a szrsngyzeteket. De az elz ttel rtelmben ltezik olyan M SEM, melynek a fenti a diagramja s nem lesz 0 X s Y kovariancija. Ezen fell megmutattk (Spirtes et. al, 1993), hogy azok a paramterek, melyek nulla kovariancit eredmnyeznek olyan vltozk kztt, melyek nem d-szeparltak, Lebesgue 0-mrtkek a paramtertren.
5.3.
A d-szeparci alkalmazsa
Az elbb trgyalt d-szeparci hasznos eszkznek bizonyul a korbban felvetett krdsek megvlaszolshoz. Az els felmerl problma a kovariancia ekvivalens modellek felismerse, illetve megkeresse volt. Azaz, ha valamely M SEM-hez ltezik egy M SEM, amelynek ms a diagramja, de ugyanakkora szabadsgfok s az illeszkedsi mutati is megegyeznek, akkor a msodik modell ugyanolyan j, mint az els s ezrt nem tudunk vlasztani a kett kzl. Az ilyen modellek voltak kovariancia ekvivalens modellek, s clunk az volt, hogy egy adott M SEM-re megtalljuk az sszes vele kovariancia ekvivalens modellt. Elszr nzzk azokat a modelleket, melyekben nincs irnytott kr, illetve korrellt hiba. 29
Denci G1 s G2 d-szeparci ekvivalensek, ha minden X, Y, Z cscshalmazra X akkor s csak akkor d-szeparlt Y -tl feltve Z -t G1 -ben, ha G2 -ben is. Ttel Legyenek G1 s G2 irnytott grfok. G1 s G2 akkor s csak akkor kovariancia ekvivalensek, ha d-szeparci ekvivalensek. Ezzel vlaszt adtunk a fenti krdsre. Ha van olyan lfelcserlsi eljrs, mely egy M SEM-bl egy M SEM-be vezet, akkor ez a kt modell kovariancia ekvivalens. Azonban ezt krlmnyes ellenrizni, de ebben a segtsgnkre lesz a kvetkez ttel. Azt modjuk, hogy X unshielded collider G aciklikus grfban akkor s csak akkor, ha vannak G-ben A X B lek s A nem szomszdos B -vel. Ttel Kt aciklikus irnytott grf akkor s csak akkor d-szeparci ekvivalensek, ha megegyeznek a cscsaik, a cscsok szomszdsgi viszonyai s az unshielded colliderei. Ebbl azonnal kvetkezik hogy kt kovariancia ekvivalens aciklikus irnytott grf SEM-nek egyanakkora a szabadsgi foka. Valamint ezzel egy egyszer mdszert kaptunk a kovariancia ekvivalens modellek megtalllra. Ahhoz, hogy irnytott krt s korrellt hibt is tartalmaz modellekre is ilyen eredmnyt kapjunk, szksgnk van mg egy dencira. Legyen O V (G1 ), V (G2 ). Azt mondjuk, hogy G1 s G2 d-szeparci ekvivalensek O felett, ha minden diszjunkt X, Y, Z O-beli halmazra, X d-szeparlt Y -tl feltve Z -t G1 -ben akkor s csak akkor, ha ugyanez igaz G2 -ben is. Ttel Ha G1 s G2 kovariancia ekvivalensek O felett, akkor d-szeparci ekvivalensek O felett. Ennek a megfordtsa nem igaz, ezt lttuk az elz bekezds msodik pldjban. Azzal, hogy megtalltuk a kovariancia ekvivalens modelleket, egyttal vlaszt kaptunk arra is, hogy egy adott esetben milyen kzs vonsai vannak az azonos ekvivalencia osztlyban lev modelleknek. ttrhetnk a regresszis krdsek megvlaszolsra. Adott egy SEM G dia-
30
grammal. Jelljk G\{X Y }-el azt a diagramot, amelyet gy kapunk G-bl, hogy elhagyjuk az X Y lt. Az els krdsnk az volt, hogy ha egy SEM-ben Y -t W vltozkkal illeszjk, X W , mely esetekben lesz a regresszis egytthat torztatlan becslse a struktrlis paramternek? Azt tudjuk mondani, hogy ha W -ben nincs Y -nak leszrmazottja s X d-szeparlt Y -tl W -re G\{X Y }-ben, akkor a becsls torztatlan lesz. Ha ez nem teljesl, akkor a legtbb esetben rossz lesz a becsls. Azaz, ha pldul van X Y l, vagy ha X az Y -nak leszrmazottja, akkor szinte biztos, hogy torztott becslst kapunk. Az utols eltti krdsre is vlaszt adhatunk ez alapjn, mivel ha ltezik W vltozhalmaz, amelyben nincs leszrmazottja Y -nak, s X d-szeparlt Y -tl feltve G\{X Y }-t, akkor ha W -vel illesztjk Y -t, a paramter becslse torztatlan lesz. A kvetkez krdsnk, hogy ha az elzhz hasonlan Y -t W vltozkkal illeszjk, X W , mikor lesz X regresszis egytthatja 0, ha az X Y lnek megfelel struktrlis egytthat 0? Ha X s Y d-szeparltak W \X -re nzve, akkor nullt kapunk a becsls sorn. Ha ez nem teljesl, akkor majdnem minden nem-nulla lesz a paramter becslse, mg ha "valjban" nincs is l a kt vltoz kztt. A fenti lltsok segtsgvel egy sokkal tisztbb kpet kaphat az alkalmaz a modellezsi eljrsrl. Amikor modellt runk valamilyen rendszer lersa rdekben, szinte soha nem lehetnk biztosak abban, hogy sikerlt-e megtallni a legjobban illeszkedt, vagy a kvnalmainknak legmegfelelbbet. ppen ezrt fontos minl jobban tjkozdni arrl, hogy az aktulis modellnk miben teljest jl s miben rosszul, hogy sikerlhessen egy minl jobb tulajdonsggal br modellhez eljutni.
31
6.
Egy plda SEM illesztsre

Az utols fejezetben egy pldn mutatom be a SEM modell hasznlatt. A
pldban a 2003-ban lefolytatott "ADE-2003" kutats1 keretben felvett orszgos reprezentatv mintval dolgoztam. Tegyk fel, hogy a magyar npessg alkoholfogyasztsi szoksait szeretnnk modellezni egy bizonyos szempontbl. A feltevsnk az, hogy egy olyan embernek, aki kalandvgy, msok az alkohol fogyasztsi szoksai, mint egy otthon l tpusnak. Azt, hogy valaki mennyire kalandvgy egy n. szenzoros lmnykeressi skln mrhetjk meg, amelynek egy rvidtett vltozata megtallhat az adatbzisban. Ez a rvid vltozat 7 krdses, gy kezd lpseknt van ez a ht mrt vltoznk a modellben, melyeket egy kzs ltens vltoz magyarz.
Tegyk fel, hogy ezen fell szeretnnk ms magyarz vltozkat is. Pldul azt szeretnnk megvizsglni, hogy ha valaki helytelenti, vagy ppen veszlyesnek tartja az alkoholfogyasztst, akkor ez hogyan hat az ivsi szoksaira. Jogosnak tnik az a felttelezs, hogy ezek a tnyezk hatssal vannak arra, hogy valaki mennyit iszik, ezrt ezeket a vltozkat is beletesszk a modellbe. Mindkt attitdre vonatkozan kt krds tallhat az adatbzisban, gy bevezetnk tovbbi kt ltens vltozt, amelyek ezeken a mrt vltozkon lnek.
Ezek utn megvlasztjuk azokat a mrt adatokat, s magyarzand ltens vltozkat, amelyek az alkoholfogyasztsi szoksokat mutatjk. Legyen pldul egy olyan vltoz, ami az alkohol fogyasztsnak gyakorisgt mri. Erre vonatkozan 3
1
Demograi folyamatok trsadalmi begyazottsga program
Finanszroz: A Nemzeti Kutatsi s Fejlesztsi Program Elekes Zsuzsanna, Paksi Borbla
32
mrt adatot vlasztottunk az adatbzisbl. Tovbb tegyk fel, hogy minket elemzknt az is foglalkoztat, hogy a krdezett jellemzen egyedl iszik, vagy inkbb olyankor, amikor trsasgban vagy szrakozhelyen van. Az elbbire vonatkozan 3, az utbbira vonatkozan 4 mrt meggyelsnk van, teht az korbbiakhoz hasonl mdon felrjuk a mrsi modellnk utols rszt.
A mrsi modellnk ezzel kszen van, most a strukturlis modellen a sor. Ehhez azt kell eldntennk, hogy egy adott vltozval melyeket akarjuk magyarzni a tbbi kzl. Ms szval, ha az adott vltoz rtke megvltozna, mely msik vltozkban vrunk vltozst? Az lmnykeressi vltozbl ezrt kezdetben minden msikba vezetnk lt. Egy kalandvgy ember valsznleg ms alkoholfogyasztsi szoksokkal rendelkezik, mint egy otthon l tpus, s valsznleg ms a vlemnyk az ivs veszlyessgrl s helytelentsrl is. Ezt persze nem tudjuk elre, de kezdetben igyeksznk az sszes elkpzelhet magyarz viszonyt bevenni a modellbe, s majd a vgn kiderl, melyek lnyegesek. Hasonl gondolatmenet alapjn a helytelents s veszlyszlels vltozkbl minden alkoholfogyasztsi vltozba vezetnk lt. Vgl, ha valaki szeret mondjuk trsasgban inni, akkor valsznleg gyakrabban is fogyaszt alkoholt, valamint ugyanez rvnyes a magnyos ivsra, gy az alkohol fogyasztsnak gyakorisgt mr vltozba lt hzunk mindkettbl. gy elkszlt a strukturlis modellnk.
Most, hogy felrtuk a modellt, ezt illeszthetjk, majd megvizsgljuk, hogy a klnbz lek elhagysval hogyan vltozik a modell illeszkedse. Ezek a modellek 33
egymsba gyazottak, gy mdunk van sszehasonltani ket. Clunk, hogy megtalljuk azt a legegyszerbb modellt, ami mg mindig jl magyarzza az adatokat. A mintnk 2400 elem, ezrt egyttal mdunkban ll validlni is a kapott eredmnyt. Ugyanis a modell nomtst a mintnk alapjn vgezzk, gy elfordulhat, hogy ami a mi mintnk szerint nagyon jl illeszkedik, ms mintra nem llja meg olyan jl a helyt. Ezrt szoksos technika, hogy ha a minta elg nagy, kettvgjuk s az egyik felt hasznljuk arra, hogy nomtsuk a modellt, majd ha ezzel kszen vagyunk, ezt illesztjk a msik felre. gy ha j modellt kaptunk, a msik feln is ugyanolyan jl kell teljestsen, mint az elzn. Az sszes illesztst az R statisztikai program segtsgvel vgeztem el.
A fenti tblzatban lthatak az eredmnyek. A legfels sor tartalmazza az elbb felrt modell illeszkedsi mutatit. A 2 statisztika rtke hatalmas, de ezen nem is szabad meglepdnnk, hiszen a mintaelemszmunk is igen nagy. Ezrt informatvabb lehet a tbbi mutat. Az RMR mutat a becslt s a tapasztalati kovarianciamtrix elemeinek tlagos eltrst mutatja. Mivel jelen esetben standardizlt vltozkkal dolgoztam, ezrt az rtkek a [0,1] intervallumba esnek, ezrt az eltrs elg jelents. A GFI index az elzhz hasonl, csak itt a becslt s a tapasztalati rtkek arnya lthat. Ez a mutat sem tl meggyz. Az NFI rtk az egyedli, ami bizalomra ad okot, hiszen ez az illeszkeds minsgt egy [0,1] skln mutatja, ahol 0 a legrosszabb, 1 pedig a legjobb rtk. Ez az index gyz meg minket arrl, hogy egy arnylag j modellt sikerlt felrnunk. 34
A tblzat msodik rsze a modell egyszerstshez szksges vizsglatok eredmnyeit tartalmazza. Minden strukturlis lt elhagyunk, s megvizsgljuk, hogyan vltozik a modell illeszkedse. Ha nem romlik jelentsen, akkor az adott lt ki is lehet hagyni a modellbl. Elfordult, hogy egyes lek elhagysval kapott modell illesztsekor nem tallt megoldst az iterci tbb indtrtkre sem. Az ezeknek az leknek megfelel sorok nem tartalmaznak adatot. Ez pldul az SSS H l esetben nem is meglep, mivel eredetileg csak az SSS vltoznk volt exogn, de gy a H is azz vlt. Viszont ez utbbi csak kt mrt adaton l, ami nagyon kevs, s ilyen esetekben gyakori, hogy nem tall megoldst az algoritmus. Ilyen megvilgtsbl mr szerencssnek mondhat, hogy az SSS V l elhagysval nem lpett fel ilyen gond. Ebbl a rszbl az utols oszlop igazn lnyeges. Itt lthat az aktulis modell s az els modell 2 rtkeinek klnbsge, ami szintn 2 eloszls, egy szabadsgi fokkal. Rnzsre ltszik, hogy hrom lt is el lehet hagyni a modellbl, az SSS EGY , az SSS GY AK s a V GY AK leket. A tbbi l elhagysval viszont drasztikusan romlik a modell illeszkedse. Ez nem felttlenl jelenti azt, hogy mindhrom lt egyszerre elhagyva is hasonl eredmnyt ltunk, de jelen esetben szerencsnk van, ahogy azt a msodik tblzat is mutatja.
Azt ltjuk, hogy a hrom l egyttes elhagysval gyakorlatilag egyltaln nem vltozik meg a modell illeszkedse. rdemes viszont megnzni a PFI mutatt, ami az NFI index egy korriglt vltozata, ami gyelembe veszi a modell szabadsgi fokt. Ez a mutat jelentsen megntt, hiszen a modellnk ugyanazt tudja, mint a korbbi, viszont mr hrommal kevesebb paramtert hasznl. 35
Az elzekben mg volt egy l (H GY AK ), amelyiket nem tudtuk tesztelni. Most, hogy mr kevesebb paramtert kell a modellnek becslnie, elfordulhat, hogy ha elhagyjuk ezt is, mr kapunk eredmnyt. Valban ez a helyzet, s br a klasszikus 2 statisztikt hasznlva nem hagynnk ki ezt az lt, az elbb emltett PFI mutat javult, azaz ha gyelembe vesszk azt is, hogy kevesebb paramtert hasznlunk, megri elhagyni ezt az lt is. Ezen fell hasznlhatjuk a SEM-et egyfajta hipotzis tesztelsre is. Pldul, vajon ugyanakkora hatssal vannak e a EGY illetve T ARS vltozk a GY AK vltozra? Az pldul azrt merlhet fel, mert a kt elz azt mri, hogy inkbb trsasgban szeret alkoholt fogyasztani a krdezett, vagy egyedl. gy az elbbi felvets azt jelenti, hogy mindegy, hogy melyiket preferlja, ezek ugyangy befolysoljk a fogyaszts mrtkt. Ha ezt elvetjk, akkor a kt regresszis egytthat klnbz, ami azt jelenti, hogy ha pldul a T ARS GY AK l slya nagyobb, akkor az aki inkbb trsasgban szeret inni, tbbet is fogyaszt. Ezt a korbbiakhoz hasonl mdon tesztelhetjk: illesztnk egy modellt gy, hogy a kt l slyt egyformnak vesszk, s megnzzk, hogy lnyegesen rosszabbul illeszkedik-e gy a modell. Az eredmny a tblzat utols sorban lthatjuk. rdekes, hogy a hipotzist elvetjk, hiszen a 2 statisztiknk 17, 1-el romlott, viszont rdekes mdon a PFI mutat ntt, azaz azzal, ha gy felszabadtannk mg egy paramtert javulna a modell viszonylagos illeszkedse. A tbbi l elhagysval a modell illeszkedse jelentsen romlik, azaz eljutottunk a legegyszerbb modellnkhz, aminek strukturlis rsze az albbi brn lthat.
A kvetkez lpsben megvizsgljuk hogyan teljest a modell azon a rszmintn, amit a modellnk nomtsra nem hasznltunk. Azt vrjuk, hogy ha mindent jl csinltunk, az illeszkedsi mutatk ugyan rosszabbak lesznek, de nagysgrendileg nem vltoznak. Az adatok ezt altmasztjk, csak a 2 statisztika eltrse nagy, de az sszes tbbi mutat kevss vltozott.
36
Azonban ezzel mg nem teljes az elemzsnk, mivel tudjuk, hogy lehetnek ekvivalens modellek a mienkkel, s ezen modellek ismerete s kizrsa egy elemzs sorn ltfontossg. Az ekvivalens modellek a kvetkez brn vannak felsorolva. Ezeket a modelleket az elemzst vgz kutatnak kell kizrnia az adott tudomny ttelei s ismeretei segtsgvel, mivel az adatok nmagukban nem segtenek a modellek megklnbztetsben.
Mg egy fontos szrevtel a kapott modellel kapcsolatban az, hogy az alkohol fogyasztsnak gyakorisgt csak az ivsi szoksok magyarzzk, mi pedig elssorban a msik hrom vltozval szerettk volna magyarzni. gy meggondoland, hogy a fogyasztsi gyakorisgot egyszeren elhagyjuk, hiszen gy nz ki a vizsgldsaink szempontjbl irrelevns, a msik kt alkoholfogyasztsi vltoz elg a jelensg modellezsre. Azaz ugyanazt a procedrt vgig csinljuk mint elbb, csak a kiindul modellnkbl kihagyjuk a GY AK cscsot s minden hozz tartoz mrt adatot s lt. Az elz utat kvetve eljutunk a korbbi optimlis modellnkhz a GY AK cscs nlkl. Az albbi brn lthat a kapott modell. Az illeszkedsi mutati is hasonlak, mint a korbbinak.
gy a modellez vlaszts el kerl, hiszen kzvetlenl nem hasonlthatja ssze a kt modellt. A modellek ugyanakkor nagyon hasonlak, st lnyegben ugyanolyanok, de ms adathalmazra vannak illesztve, ezrt az elemznek kell dntenie arrl, hogy 37
melyiket akarja hasznlni. Az els modell mutati kicsivel jobbak, s a kontroll mintn is jobban teljest, mint a msodik. A msodik viszont egyszerbb, s az elsben nem ad fontos informcit az alkoholfogyasztsi gyakorisg vltozk hasznlata. A modell validlsnak egy tovbbi mdja lehet, hogy a kt rszmintnk szerept felcserljk. Ami eddig a kontroll minta volt, az alapjn fogjuk a modellt nomtani, amin pedig elzleg a nomtst vgeztk, az fog szolglni az ellenrzsre. Ha a modellnk j, akkor az eredetibl kiindulva ebben az esetben is ugyanazt az optimlis modellt kell kapjuk. Azonban azt tapasztaljuk, hogy a szerepek felcserlsvel a legjobb modell eltr az elztl. Az albbi bra mutatja az j optimlis modellnket, az alatta lev tblzat pedig az illeszkedsi mutatkat.
Az illeszkedsi indexek azt mutatjk, hogy a most kontrollnak hasznlt els rszmintra a modell sokkal jobban illeszkedik a msodiknl mg arra a modellre is, amit a msodik rsz alapjn nomtottunk. Az els rszmintra valamilyen ok38
bl lnyegesen jobban illeszkedik a modellnk minden esetben. Ms szval a modellnk jobban magyarz a minta els feln. Ez gy fordulhatott el, hogy amikor az eredeti mintnkat kt rszre bontottuk, azt teljesen vletlenszeren tettk, s semmilyen szempontra nem gyeltnk oda. gy lehet, hogy az orszgos mintnkat, ami heterogn, kt homognebb rszmintra bontottuk. Ha megvizsglnnk, hogy a kt rsz miben tr el egymstl lnyegesen (pldul nem, kor, lakhely. . . ), akkor megtudhatnnk, hogy milyen tovbbi tnyezk befolysoljk a modellezni kvnt jelensget, egyttal magyarzatot kaphatnnk arra, hogy mirt illeszkedik jobban a minta els rsze. Ezeket aztn bepthetnnk a modellbe j vltozknt, vagy akr tudatosan is tagolhatnnk a mintnkat a kapott tnyezk alapjn, s minden rszmintra kln-kln elvgezhetnnk a korbbi elemzst. gy eljuthatunk egy jobban illeszked modellhez, vagy modellek egy halmazhoz, ami mutatn, hogy hogyan vltoznak az alkoholfogyasztsi szoksok a korbban meghatrozott tnyezk szerint.
6.1.
sszefoglals
Ahogy az a fenti pldn ltszik, kevs elre lefektetett szably ll rendelkezsre a SEM modell hasznlatra, s sok akadly merlhet fel egy alkalmazs sorn. Azonban ha az alkalmaz tudja mit szeretne elrni, ki tudja vlasztani a cljnak leginkbb megfelel modellt. Ezen fell azt is mutatja az elbbi plda, hogy ez a modellezsi technika inkbb a lerni kvnt adatokkal kapcsolatos elkpzelsek tesztelsre s validlsra hasznlhat, a meghzd ok okozati viszonyok feltrsra kevsb. Ennek az oka az, hogy elre meg kell adjuk, hogy mely vltozk magyarzak, s hogy mit magyarznak. Ha valamilyen valjban jelen lev magyarz viszonyt kihagyunk azt a modell nem jelzi neknk, pusztn annyit ltunk, hogy a modell rosszul illeszkedik. Ezrt amikor egy SEM-et akarunk hasznlni, elzleg alaposan meg kell ismerkednnk a lerni kvnt jelensggel s feltrkpezni azokat az esetleges magyarz viszonyokat, amelyek meghzdhatnak a httrben.
39
Irodalomjegyzk
[1] John C. Loehlin (1987) Latent Variable Models: An Introduction to Factor, Path, and Structural Analysis. Lawrence Erlbaum Associates, Inc. [2] James H. Steiger (2001) The Relationship Between Software Developement, Theory, and Education in Structural Equation Modeling. Journal of the American Statistical Association, Vol. 96, No. 453 [3] Jesus Palomo, David B. Dunson & Ken Bollen (2007) Bayesian Structural Equation Modelling. Handbook of Computing and Statistics with Applications, Vol. 1 [4] Peter Sprites, Thomas Richardson, Chris Meek, Richard Sheines, Clark Glymour (1998) Using Path Diagrams as a Structural Equation Modeling Tool. Sociological Methods and Research [5] J.J. Hox, T.M. Bechger (1998) An Introduction to Structural Equation Modeling. Family Science Review [6] Zhiyong Zhang, Ellen L. Hamaker, John L. Nesselroade (2008) Comparisons of Four Methods for Estimating a Dynamic Factor Model. Structural Equation Modeling: A Multidisciplinary Journal, 15:3, 377-402 [7] Paul Barrett (2007) Adjudging Model Fit. Persomality and Individual Dierencies, 42, 815-824 [8] John Fox (2006) Structural Equation Modeling with the sem Package in R. Structural Equation Modeling, 13(3), 465-486 [9] B. Walsh (2004) Markov Chain Monte Carlo and Gibbs Sampling. Lecture Notes for EEB 581
40

Latens Vatozos Modellek Dipomamunka

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Latens Vatozos Modellek Dipomamunka

Uploaded by

Copyright:

Available Formats

Ltens vltozs modellezs

Diplomamunka rta: Tnczos Ervin

Etvs Lornd Tudomnyegyetem Termszettudomnyi Kar 2009

Egy plda SEM illesztsre . . . . . . . . . . . . . . . . . . . . . . . . 32

Structural Equation Modeling

hatjuk az brnkat mrsi s strukturlis modellre:

s tegyk fel, hogy az itercis lps sorn a becslt mtrixunk

Bayesi SEM illeszts

Vegyk szre, hogy ebbl mr kvetkezik = P , mert P j -ik eleme

A stacionrius eloszls, pedig az a eloszls, melyre (y ) = (x)P (x, y )dy

f (v, x)g (u, v )f (x)dx =

2. w-t generlunk fi (xi , xi )-bl

Pt dQ(t), ezt predikt eloszlsnak nevezzk

Ha P Lebesgue-abszolt folytonos, akkor a prediktv eloszls is, s fQ (x) =

Valamint, ha Q Lebesgue-abszolt folytonos s q (t) a srTeht a Bayes-ttel megadja az a posteriori eloszlst. A

sgfggvnye, akkor az a posteriori eloszls is abszolt folytonos s a srsgfggvnye q (t | x) =

paramter Bayes becslse az a posteriori eloszls vrhat rtke. 15

Javtott illeszkedsi mutatk

bD2 (X ) + acD2 (Z ) aD2 (Z )(ab + c) = b(D (X ) a2 D2 (Z )) = D2 (X ) a2 D2 (Z )

cov (Z, Y ) = (ab + c)D2 (Z )

bD2 (X )D2 (Z )r(rb+t) D2 (X )D2 (Z )r2

Ennek ellenre ltezik torztatlan becsls, mgpedig

Egy plda SEM illesztsre

Demograi folyamatok trsadalmi begyazottsga program

Finanszroz: A Nemzeti Kutatsi s Fejlesztsi Program Elekes Zsuzsanna, Paksi Borbla

You might also like