Professional Documents
Culture Documents
EmmanuelJakobowicz
Addinsoft jakobowicz(@)xlstat.com 25janvier2012
Cours deStatistique Multivarie Approfondie
Planducours
Aujourdhui: Lathoriedesmodlesstructurelsvariableslatentes Lasemaineprochaine: Desdmonstrationsetdepetitsexercices
Planducoursdaujourdhui 1
1.Introduction Lesconceptsdebasepourlamodlisationparquationsstructurelles 2. Modlisationdquationsstructurellesparlemaximumdevraisemblance (LISREL) LemodleLISREL Estimationdumodle Indicesdevalidation Unexemple Indicesdemodification
CoursdeStatistiqueMultivarieApprofondie
Planducoursdaujourdhui 2
3. ModlisationdquationsstructurellesparlapprochePLS(PartialLeast SquaresPathModeling) LemodlePLS Leprincipe LalgorithmePLSetsesvariantes Linitialisationdespoids Lesindicesdequalitdajustement Unexemple 4.Comparaisonsdes2approches Aspectsthoriques Aspectspratiques Unpetitexemple
Cours deStatistique Multivarie Approfondie
4
Lesconceptsdebase 1
Lesconceptsdebase 2
Variablesobserves=variablesmanifestes (VM) Lesvariableslatentes (VL)nonobserves,existentautraversdesvariablesmanifestesavec lesquellesellessontenrelation AchaqueblocXj onassocie uneseulevariablelatentej
CoursdeStatistiqueMultivarieApprofondie
Lesconceptsdebase 3
2sousmodles:
Modleexterneoudemesure lielesVMetleursVL; Modleinterneoustructurel connectelesVL.
Lemodle
Modlestructurel(interne) Modledemesure(externe)
Cours deStatistique Multivarie Approfondie
8
Lemodledemesure 1
Lemodleexterne
Typerflectif Lesvariablesmanifestessontle refletde leurvariablelatente
x11 x12 x13 3 x21 x22 x36 1
Lemodledemesure 2
Variable latente
Construit latent
Indicateursrflectifs p.ex.Satisfactiondesclients
CoursdeStatistiqueMultivarieApprofondie
Indicateursformatifs p.ex.Indicateurssocioculturels
10
Lemodlestructurel
Lemodleinterne liaisonsentrevariableslatentes
x11 x12
latenteexogne
x31
x32 x33
x13
3
x34 x21
2
x22
x35
x36
11
Lestimationdumodle
Lestimationdesparamtresdecemodlepeutsefaire soit:
ParlapprocheLISREL (linearstructuralrelationships). ParlapprochePLS (partialleastsquarespathmodeling)
CoursdeStatistiqueMultivarieApprofondie
12
LamthodeLISREL
Analysedelastructuredecovariance StructuralEquationModeling(SEM) CovarianceStructureAnalysis ...
13
Lemodlestructureldelacovariance(LISREL)
11 12 13
31 32 33 34 35 36
21 22
y21 y22
2
2
y35 y36
Caractristiques
Uneapprochestatistiquepourtesterdeshypothsessurlesrelations entrevariablesobservesetlatentes(Hoyle,1995) LefondementstatistiquedelamthodeLISRELestlacovariance Lesprrequis: Modlesstatistiqueslinaires Valideseulementsouscertainesconditions: Indpendancedesobservations(multiniveauxpossible) Normalitmultivariedesdonnes Unidimensionnalitdesblocsdevariables LamthodeLISRELestunemthodeapriori etncessitequeles chercheurspensententermesdemodlesetdhypothses
CoursdeStatistiqueMultivarieApprofondie
15
Leslogiciels
CoursdeStatistiqueMultivarieApprofondie
16
Leprincipe
Unemthodologiegnralepourspcifier,estimer,comparer etvaluer desmodlesderelationsentrevariables. Onvachercherconfirmer unethorie Procdure: Constructiondunmodle Collecterlesdonnespourtesterlemodle Lemodleestcomparauxdonnesetvalu Sincessaire,lemodleestmodifiettestavecde nouvellesdonnes
CoursdeStatistiqueMultivarieApprofondie
17
Estimationdesparamtresdumodle 1
CoursdeStatistiqueMultivarieApprofondie
18
Estimationdesparamtresdumodle 2
Onvatenterdobtenirunematricedecovariancepartirdece modle.Cettematriceauradonclaforme:
Estimationdesparamtresdumodle 3
LamthodeLISRELconsisteenlutilisationdunestimateurafin derendrelamatricedecovariancecalculepartirdumodle (C)leplusprochepossibledelamatricedecovariance observe(S)entermedemaximumdevraisemblance.
Onvadoncestimerlesparamtresdumodle(leslmentsde lamatriceC)defaonminimisercettediffrence.
CoursdeStatistiqueMultivarieApprofondie
20
Estimationdesparamtresdumodle 4
Utilisationdumaximumdevraisemblance(MLE): Sionsupposequelesdonnessont normalesmultivaries, lestimateurMLrevientlaminimisationde:
AsymptoticallyDistributionFree
CoursdeStatistiqueMultivarieApprofondie
FADF /WLS = ( s c ) W1 ( s c )
T
21
Validationsimpledumodle
Testsdevalidationglobaledumodle: Silemodletudiest exact alors
(n 1) F = 2 ( DF )
Lesdegrsdelibert(DF)=nbdecovariances nbdeparamtres
2 Lemodleestacceptsi 3
(seuilsgnralementutiliss)
DF
oupvaleur>0,05
Ilexistedautresindicesdevalidationquiserontplusperformants
CoursdeStatistiqueMultivarieApprofondie
22
RMSEA =
O FML = log C + tr ( C1 ) log ( p + q ) Enpratique,onlestimeavec:
RMSEAestimated =
F0 DF
F 1 DF n 1
Onlaccepteendessousde0.08engnral,unintervalledeconfiancepeut treobtenu.
Cours deStatistique Multivarie Approfondie
23
Unexemple:Lengagementamoureux
Donnes: C.E.Rusbult, Commitmentandsatisfactioninromantic associations ,JournalofExperimentalSocialPsychology,1980 (ExempletirdelaprsentationSEMassesment parV.EspositoVinzi) 6blocsdevariablesmanifestes: Lengagement Lasatisfaction Lesrcompenses Lecot Latailledelinvestissement Lesalternatives
CoursdeStatistiqueMultivarieApprofondie
24
Unexemple:Lemodle
e8 e9 1 1 v8 v9 e10 1 v10 1 e5 1 v5 e6 e7 1 1 v6 v7 1 e1 1 v1 e2 1 v2 e3 1 v3 1
F3
e11 1
Rcompense
e12 e13 1 1 v12 1 v13
v11
F4
Cot
e14 e15 e16 1 1 1 v14 v15 v16 1
Satisfaction
F2
1 d2
Engagement
1 d1
F1
F5
Investissement
e17 1 v17
e18 1 v18 1
e19 1 v19
CoursdeStatistiqueMultivarieApprofondie
F6
Alternatives
25
Unexemple:Lesblocs
Engagementintentiondepoursuivreunerelation(F1) Satisfaction rponsemotionnelleunerelation(F2) Tailledelinvestissement tempseteffortncessaireaumaintiendela relation(F5) Solutionsalternatives (F6) Rcompenses quantitdebonneschosesassociescetterelation(F3) Cot quantitdemauvaiseschosesassociescetterelation(F4)
CoursdeStatistiqueMultivarieApprofondie
26
Unexemple:Lesquestions
Donnerunenotede17enfonctiondevotredegrdagrmentavec laffirmation Satisfaction: 1.Jesuissatisfaitdemarelation 2.Marelationactuelleestprochedelarelationidale 3.Jesuisplussatisfaitquelamoyenneparmarelationactuelle Tailledelinvestissement: 1.Jaiinvestibeaucoupdetempsdansmarelationactuelle 2.Jaiinvestibeaucoupdnergiedansmarelationactuelle 3.Jaiinvestibeaucoupderessourcesafindedvelopperma relationactuelle
CoursdeStatistiqueMultivarieApprofondie
27
Unepropritimportante:lunidimensionnalit
Danslecadredestechniquesdemodlesstructurelsvariables latentesunepropritimportanteestsouventexige: lunidimensionnalitdesblocsdevariablesmanifestes. SilapremirevaleurpropreobtenueparACPestlaseule>1alorsle blocestunidimensionnel OnpeututiliserlalphadeCronbachoulerhodeDillonGoldstein(on considrequunblocsestunidimensionnelsi>0,7)
CoursdeStatistiqueMultivarieApprofondie
Unexemple:Estimationparmaximumde vraisemblance
e8 .41 v8 v9 .64 e9 .38 e10 .47 v10
F3
Chisquare=216.75 DF=124 Chisquare/DF=1.748 RMSEA=.056
.64
.62 .69
Rewards
e5 e11 -.10 e12 .67 v11 .76 e13 .64 .21 v5 .68 .82 e6 .76 v6 .87.88 .45 e7 .77 v7 e1 .77 v1 .33 d2 e2 .67 e3 .87
F4
.01 v14
Costs
e14 .74 e15 .48 .55 e16 .30 v16
Satisfaction
F2
.55
Commitment
-.47
Lescoefficientssurles arcssontdescorrlations
F1
.06
d1
Investments
.26 e17 .46 e18
F5
e19
-.30
CoursdeStatistiqueMultivarieApprofondie
Alternatives
F6
29
Unexemple:Lesquationsstructurelles
Lescoefficientsdesquationsstructurellessontobtenuslorsdelestimationparmaximum devraisemblance
Latent Variable Equations with Estimates f1 = Std Err t Value 0.4608*f2 0.0910 pf1f2 5.0618 + 0.7580*f5 0.1037 pf1f5 7.3127 + 0.1000*f6 0.1094 pf1f6 0.9136 + 1.0000 d1
1.0000 d2
Lengagementnedpenddoncpassignificativementdesalternatives
Cours deStatistique Multivarie Approfondie
30
Validationcroisedumodle
Lemodleobtenusadaptebienauxdonnes,maiscecineprouvepasque cemodleest lemeilleur ,nouspouvonsdireuniquementque: Lemodlesajustebienauxdonnestraites.Pourallerplusloindansles conclusions,ilfautvaliderlemodleenutilisantdelavalidationcroise Lindicedevalidationcroise(CVI): Ilmesureladistanceentrelamatricedecovarianceestimesurlchantillon dapprentissageetlamatricedecovariancecalculesurlesdonnesde validation.LemodleavecleCVIlepluspetitestleplusstable.
CoursdeStatistiqueMultivarieApprofondie
31
Lesindicesdemodificationdumodle
UnindicedemodificationmesurelabaisseduChi2 lorsquunlienest ajoutaumodle(Univariate LagrangeMultiplierTest)
Rank Order of the 5 Largest Modification Indices Row f2 v2 v1 v10 v18 Column f5 f5 f3 f5 f3 Chi-Square 34.34669 7.97159 7.65396 5.64619 4.69157 Pr > ChiSq <.0001 0.0048 0.0057 0.0175 0.0303
Lasatisfactiondpendaussidelinvestissement
Ilexisteaussidesindices(UnivariateWaldTest) quiestimelaugmentationduchi2 quandonretire unlienaumodle
CoursdeStatistiqueMultivarieApprofondie
32
Unexemple:lesindicesdemodification
e8 e9 .44 v8 .66 v9 .41 e10 .56 v10
.64 .75
Rewards
e5 e11 e12 -.09 e13 e6 e7 .77 .68 .75 .26 .22 v5 v7 e1 .67 .75 e2 e3 v6 v13 v11 v12 .83 .87.87 .78 .68 .88 .51 .82 .87.46 v1 v3 v2 -.21 Satisfaction .88 .82 .94 Costs .55 .25 e14 e16 e15 Commitment d2 .50 .71 .30 .51 v14 v15 v16 .56 d1 .84.71 .55
.52
.02 -.43
Investments
.26 e17 e18 e19 .53 .58 v19 v18 v17 .68 .76 .73 .46
-.30
Alternatives
33
LapprochePLS
PartialLeastSquaresPathModeling
34
Le pathdiagram (PLS)
x11 x12 x13 3 x21 x22 x36 2 1 x31 x32 x33 x34 x35
x jh = jh j + jh
CoursdeStatistiqueMultivarieApprofondie
j = ji i + j
i
35
Caractristiques
LefondementstatistiquedelapprochePLSestlavariance
Lesprrequis: Modlesdergressionssimplesetmultiples Valideseulementsouscertainesconditions: Indpendancedesobservations(multiniveaux possible) Unidimensionnalitdesblocs(danslecasrflectif) LapprochePLSestunemthodeapriori etncessitequeleschercheurs pensententermesdemodlesetdhypothses.Cependant,unaspect prdictifexisteaussi.
CoursdeStatistiqueMultivarieApprofondie
36
Leslogiciels
Lesprincipaux:
XLSTAT(PLSPM,2009):Logicielcompletetconvivialadapt Excel(www.xlstat.com) LVPLS(Lhmoller,1989):Premierlogiciel,trsancien PLSGraph(W.Chin,1996):Leplusconnudanslemilieu acadmique
CoursdeStatistiqueMultivarieApprofondie
37
ApprochePLS Leprincipe
Principe: 1. Mthodebasesurdesrgressionssimplesetmultiples 2. Lestimationdumodlepasseparlestimationdesscoresdesvariableslatentes 3. Cetteestimationsefaitlaidedunalgorithmeitratif 4. Unefoislesscoresobtenus,onestimelescoefficientsdumodleinternepar rgressionsmultiplesclassiques(OLS) 5. Les loadings peuventtreretrouvsaveclesscoresdesvariableslatentes.
Cetteapprocheconvergedanslapratiquemaiscetteconvergencenestpas prouveaudelde2blocs.
CoursdeStatistiqueMultivarieApprofondie
38
AlgorithmePLS
Poidsexternes initiauxwjh Estimationdes paramtrespar rgression
y j = w jh x jh
h =1
pj
Estimationexternedej
Calculdespoids internes e ji
zj =
e
i j
ji
yi
Estimationinternedej
CoursdeStatistiqueMultivarieApprofondie
39
ApprochePLS Leprincipe
PrincipedelapprochePLS (Wold,1982)Algorithmeitratifavecestimation alternedesvariableslatentesenfonctiondechaquesousmodle. 1. Onfixelespoidsexternesinitiauxw0 2. Oncalculelesscoresdesvariableslatentesensebasantsurlemodleexterne (chaquescoreassociunevariablelatenteestcalculenfonctiondes pj variablesmanifestesdesonbloc)
y j = w jh x jh
h =1
zj =
Rpterlespoints2et3jusquconvergence
CoursdeStatistiqueMultivarieApprofondie
e
i j
ji
yi
Estimationdesquationsstructurellesparrgressionsmultiples(OLS)
40
ApprochePLS Lespoidsexternes
Initialisation: Engnral,lespoidsexternessontfixs1pourtouteslesvariables manifestesexcepteladerniredechaqueblocquiestfix1.
Modesdestimation: ModeA(Casrflectif):
w jh = cov ( x jh , Z j )
Rgressionssimples
ModeB(Casformatif):
X )1 X Z wj = ( X j j j j
Rgressionsmultiples(OLS)
CoursdeStatistiqueMultivarieApprofondie
41
ApprochePLS Lespoidsinternes
Schmasdestimation: Centrode:
eji =sign[cor(yj,yi)]
Problmesaveclescorrlationsprochesde0
Factoriel:
Structurel:
CoursdeStatistiqueMultivarieApprofondie
42
Validationdumodle
CoursdeStatistiqueMultivarieApprofondie
43
Validationdumodle
Validation(Tenenhausetal.,2005):Communautetredondance
Communaut valuelaqualitdumodleexterne:
1 communality j = pj cor 2 ( x jh , Y j )
h =1 pj
Redondance
valuelaqualitdumodleinterne:
Critreglobalutilispourchoisirlemeilleurmodle(Amato al.,2004):
G o F = communality R2
Autresolutions: lavalidationcroise(cvcommunaut,cvredondance,QdeStone Geisser)
CoursdeStatistiqueMultivarieApprofondie
44
Remarques
Onobtientdoncdesscorespourlesvariableslatentesauniveau dechaqueindividu Lutilisationdergressionsnentranepasdhypothsesde normalit Laconvergencedecetalgorithmenestpasprouvepourplusde deuxblocsmaiselleestconstatedanslapratique
Cettemthodeestplusprdictivequeconfirmatoire(linversede lamthodeLISREL)
CoursdeStatistiqueMultivarieApprofondie
45
Unexemple:Linstabilitpolitique
Donnes: C.E.Russett,GIFI,1964(Exempletirde PLSPathModeling parM.Tenenhaus) Ingalitagricole
GINI: Ingalitdanslarpartition desterres FARM: %fermierspossdantlamoitidesterres(>50%) RENT: %fermierslocataires
Dveloppementindustriel
GNPR: PNBparhabitant($1955) LABO: %d actifsdanslagriculture
CoursdeStatistiqueMultivarieApprofondie
46
Unexemple:Linstabilitpolitique
Instabilitpolitique
INST: Instabilitdel excutif (4561) ECKS: Nbdeconflitsviolentsentrecommunauts(4661) DEAT: Nbdemortsdansdesmanifestations(5062) DSTAB: Dmocratiestable DINS: Dmocratieinstable DICT: Dictature
CoursdeStatistiqueMultivarieApprofondie
47
Unexemple:Lemodle
CoursdeStatistiqueMultivarieApprofondie
48
Unexemple:EstimationavecPLS
CoursdeStatistiqueMultivarieApprofondie
49
Unexemple:Lesestimations
(1) EstimationexternedeYi: Y1 =w11Gini+w12Farm+w13Rent Y2 =X2w2 Y3 =X3w3 (2)EstimationinternedeZi: Z1 =sign(cor(1,3)Y3 =(+1)Y3 Z2 =sign(cor(2,3)Y3 =(1)Y3 Z3 =sign(cor(3,1)Y1 +sign(cor(3,2)Y2 =(+1)Y1 +(1)Y2
CoursdeStatistiqueMultivarieApprofondie
50
Unexemple:Lemodleexterne
Variable latente Ingalit agricole Variables manifestes gini farm rent Dvpt industriel gnpr labo inst ecks Instabilit politique deat demostab demoinst dictatur
CoursdeStatistiqueMultivarieApprofondie
Poids externe 0,032 0,077 0,085 0,573 -0,766 0,424 0,198 0,130 -0,714 0,084 0,569
Corrlations 0,977 0,986 0,516 0,950 -0,955 0,352 0,816 0,794 -0,866 0,094 0,733
51
Unexemple:Lemodleinterne
R (Instabilit politique / 1) :
R
0,622
R(Bootstrap)
0,657
Ecart-type
0,076
Variable latente
Ingalit agricole Dvpt industriel
Valeur
0,215 -0,695
Ecart-type
0,097 0,097
t
2,206 -7,128
Pr > |t|
0,033 0,000
Equation du modle :
Instabilit politique = 0,215*Ingalit agricole-0,695*Dvpt industriel
CoursdeStatistiqueMultivarieApprofondie
52
Unexemple:Lesvariableslatentes
Ingalit agricole
arg aus aut bel bol bre can chi .. sv esp sue sui tai ru eu uru ven rfa you 0,953 1,265 0,404 -0,848 1,115 0,789 -1,539 1,239 0,013 0,811 -0,870 -1,568 -0,030 0,112 0,187 0,685 1,149 -0,199 -2,153
Dvpt industriel
-0,238 -1,371 -0,253 -1,530 1,584 0,654 -1,680 0,324 1,094 0,516 -1,410 -1,640 0,898 -2,059 -2,016 -0,179 -0,252 -1,104 0,654
Instabilit politique
-0,751 1,601 0,464 0,881 -1,503 -0,268 0,972 -0,016 -1,386 -0,411 1,605 1,605 0,030 1,063 0,964 1,299 -1,142 0,477 -0,152 53
CoursdeStatistiqueMultivarieApprofondie
Unexemple:Rpartitiondespays
2 ind bol hon egy nic 0,5 pan
perguaira
you
Dvpt industriel
pol -3 -2,5 -2
chi
-1,5
dan
sui can
-2
eu ru
-2,5
Ingalit agricole
CoursdeStatistiqueMultivarieApprofondie
54
Unexemple:Lesindicesglobaux
Comparaisondesapproches LISRELetPLS
56
Diffrencesthoriques 1
Critre Objectif Mthodologie Variableslatentes (VL) Relationsentreles VLetlesVM Optimalit Qualitdessous modles
CoursdeStatistiqueMultivarieApprofondie
Diffrencesthoriques 2
Critre Hypothses Complexit modle Taillechantillon Donnes manquantes Identification Consistance Domaines ApprochePLS Unidimensionnalit(rflectif) Grande(ex:100VL,1000VM) 30100cas NIPALS Danslecadredumodle rcursif,toujoursidentifie Consistance ausenslarge Marketing,analysesensorielle LISREL(LinearStructural Relationship) Multinormalitdesdonnes+ unidimensionnalit Rduiteoumodr(<100VM) 200800cas Prtraitement Dpenddumodle:aumoins3 VMparVLpourtre correctementidentifie Consistancedesestimations Sociologie,psychologie
58
CoursdeStatistiqueMultivarieApprofondie
Unexemple:Unquestionnairedesatisfaction
NousdevronsutiliserunmodlesimplificarLISRELneconvergepassurunmodle complexe(modlebassurlECSI,EuropeanCustomerSatisfactionIndex)
Image
Attentes
Valeur perue
Satisfaction
Fidlit
Qualit perue
CoursdeStatistiqueMultivarieApprofondie
59
Application Modleinterne
Modleinterne Lasatisfactionestunprocessuscomplexeauquelparticipenttoutesles variableslatentes. PourPLS(XLSTAT):
PourLISREL(AMOS):
CoursdeStatistiqueMultivarieApprofondie
60
Application ModleinternepourlapprochePLS
Schmadecausalit(R2 etcorrlations)
R2=0,284 0,532 Attentes clients 0,413 0,549 0,611 Qualit perue R2=0,331 CoursdeStatistiqueMultivarieApprofondie
61
Image
0,662
0,412
0,264
Application ModleinternepourlamthodeLISREL
Schmadecausalit(R2 etcorrlations)
R2=0,31 0,56 Attentes clients 0,51 0,69 0,77 Qualit perue R2=0,48 CoursdeStatistiqueMultivarieApprofondie
62
Image
0,56
0,77
0,51
MthodeLISREL:
Pasdquationsdecetype
CoursdeStatistiqueMultivarieApprofondie
63
Conclusions
Lesdeuxmodlesobtenussontassezdiffrents PLSsousestimelesparamtresdumodleinterne Lesindicesdevalidationnesontpascomparables:
CoursdeStatistiqueMultivarieApprofondie
Bibliographie
HoyleR.,1995,Structuralequationmodeling:concepts,issuesandapplications,SAGE Publications JreskogK.&SrbomD.,1989,LISREL7 Aguidetotheprogramandapplications,Second Edition,SPSSPublications. LohmllerJ.B.,1987,LVPLS1.8ProgramManual,UniversitaetzuKoehn,Zentralarchiv fuerEmpirischeSozialforschung,Kln. RousselP.,DurrieuF.,CampoyE.,ElAkremiA.,2002,MthodesdquationsStructurelles: RechercheetApplicationsenGestion,Economica,Paris,2002 TenenhausM.,1998,LaRgressionPLS,EditionsTechnip,Paris. TenenhausM.,1999, LapprochePLS ,RevuedeStatistiqueApplique,47(2),540. TenenhausM.,EspositoVinziV.,ChatelinY.M.,andLauroC.(2005).PLSPathModeling, ComputationalStatistics&DataAnalysis,48:159205. WoldH.(1982),SoftModelling:ThebasicdesignandsomeextensionsinJreskogK. andWoldH.(Eds.), Systemunderindirectobservation,vol.2, NorthHolland,Amsterdam,1 54.
CoursdeStatistiqueMultivarieApprofondie
65