You are on page 1of 23

Revue franaise de sociologie

Mthodes d'analyse causale


Raymond Boudon

Citer ce document / Cite this document :

Boudon Raymond. Mthodes d'analyse causale. In: Revue franaise de sociologie, 1965, 6-1. pp. 24-43;

http://www.persee.fr/doc/rfsoc_0035-2969_1965_num_6_1_1836

Document gnr le 02/05/2016


Rsum
Les mthodes d'analyse causale actuellement utilises en sociologie, comme l'analyse multivarie de
Durkheim-Lazarsfeld ou l'analyse de Simon-Blalock, ne permettent de traiter que des structures
causales relativement simples, comportant un faible nombre de variables et munies de certaines
proprits formelles. De toutes manires, elles ne permettent pas de dfinir une mesure de
dpendance causale. Par ailleurs, les techniques statistiques comme l'analyse de rgression ne
peuvent tre tenues pour des instruments d'analyse causale que si on considre des structures
particulires ; elles ne permettent de dfinir une mesure de dpendance causale qu' propos de ces
structures. Une mthode plus puissante que les mthodes en usage peut tre formule partir
d'hypothses naturelles. Elle est appele ici analyse de dpendance. Elle reprsente une extension de
l'analyse de rgression. Son fondement logique ne peut tre compris que si on se rfre l'analyse de
rgression et aux modles de causalit tudis par les conomistes. A partir des rsultats obtenus, on
peut prsenter une classification causale en fonction des caractristiques formelles des structures
causales considres, et des hypothses qui fondent ces mthodes.

Zusammenfassung
Raymond Boudon : Methoden der Kausalanalyse.
Die heute in der Soziologie angewandten Methoden der Kausalanalyse (z.B. die von Lazarsfeld oder
von Simon-Blalock) konnen nur relativ einfache (mit wenigen Merkmalen versehene und uber
bestimmte formelle Eigenschaften verfiigende) Kausalstrukturen behandeln und lassen keine Messung
kausaler Abhngigkeit zu. Andererseits knnen statistische Techniken, wie die Regressionsanalyse,
nur dann als kausalanalytische Instrumente betrachtet werden, wenn sie besondere Strukturen
behandeln : nur bei solchen lsst sich ein Mass der kausalen Abhngigkeit definieren. Man kann aber
auf Grund naturlicher Hypothesen eine wirksamere Methode darlegen, die hier Abhngigkeitsanalyse
genannt wird. Es handelt sich um eine Ausdehnung der Regressionsanalyse, die befhigt
allgemeinere Koeffizienten zu definieren. Ihre logische Grundlage kann nur in Beziehung auf
Regressionsanalyse und konometrische Kausalittsmodelle begriffen werden. Erzielte Resultate
erlauben, die Methoden der Kausalanalyse nach den formellen Merkmalen der betrachteten
Kausalstruktur und nach den diesen Methoden zugrunde liegenden Hypothesen zu klassifizieren.

Resumen
Raymond Boudon : Mtodos de anlisis causal.
Los mtodos de anlisis causal que se utilizan actualmente en sociologia, como el anlisis
multivariado de Lazarsfeld o el anlisis de Simon-Blalock, permiten tratar slo de las estructuras
causales relativamente simples, que abarcan un numero reducido de variables, y que estn provistas
de ciertas propiedades formales. De todas maneras, no permiten definir una medida de dependencia
causal. Por lo dems, las tcnicas estadisticas tal como el anlisis de regresin pueden ser
consideradas como instrumentes de anlisis causal slo cuando se consideran estructuras
particulares; no permiten dfinir una medida de dependencia causal sino cuando se trata de esas
estructuras. Un mtodo ms poderoso que los mtodos en prctica puede ser formulado basndose
en hiptesis naturales. Aqu se la llama anlisis de dependencia. Representa una extension del
anlisis de regresin y permite dfinir coeficientes ms gnrales que esta. Su fondamiento lgico se
comprende slo cuando se refiere al anlisis de regresin y a los modelos de causalidad que estudian
los economistas. Con los resultados conseguidos, es posible presentar una clasificacin de los
mtodos de anlisis causal por respecte de las caracteristicas formales de las estructuras causales
consideradas y de las hiptesis que originan estes mtodos.

Abstract
R. Boudon : Methods of causal analysis.
The methods of causal analysis actually employed in sociology such as Lazarsfeld's multivariate
analysis or Simon-Blalock's analysis allow only the treatment of relatively simple causal structures,
including a small number of variables and possessing certain formal characteristics. By no means do
they allow to define a measure of causal dependence. Moreover, statistical techniques such as
regression analysis can be considered as instruments of causal analysis only if particular structures are
examined : they allow to define a measure of causal dependence only relative by to these structures. A
stronger method than those in use can be formulated from natural hypotheses. It is called here :
dependence analysis. It represents an extension of regression analysis and allows to define more general
coefficients than those defined by the latter. Its logical basis can be understood only by reference to
regression analysis and causal models studied by economists. From the results obtained a classification of
the methods of causal analysis in relation to the formal characteristics of causal structures and to the
hypotheses on which these methods are based can be established.

: .
,
-,
,
. ,
. , ,
,
. , ,
. .
- ,
. ,
, .

, , ,
.
R. franc. Sociol., VI, 1965, 24-43

Mthodes d'analyse causale

par Raymond Boudon

L'esprit de l'homme ne peut concevoir un effet sans


cause, de telle sorte que la vue d'un phnomne veille
toujours en lui une ide de causalit. Toute la connaissance
humaine se borne remonter des effets observs leur
cause.
Claude Bernard, Introduction l'tude de la mdecine
exprimentale.
Rsum.
Les mthodes d'analyse causale actuellement utilises en sociologie, comme
l'analyse multivarie de Durkheim-Lazarsfeld ou l'analyse de Simon-Blalock, ne
permettent de traiter que des structures causales relativement simples, comportant un faible
nombre de variables et munies de certaines proprits formelles. De toutes manires,
elles ne permettent pas de dfinir une mesure de dpendance causale. Par ailleurs,
les techniques statistiques comme l'analyse de rgression ne peuvent tre tenues
pour des instruments d'analyse causale que si on considre des structures
particulires; elles ne permettent de dfinir une mesure de dpendance causale qu'
propos de ces structures. Une mthode plus puissante que les mthodes en usage
peut tre formule partir d'hypothses naturelles. Elle est appele ici analyse de
dpendance. Elle reprsente une extension de l'analyse de rgression. Son fondement
logique ne peut tre compris que si on se rfre l'analyse de rgression et aux
modles de causalit tudis par les conomistes. A partir des rsultats obtenus, on
peut prsenter une classification causale en fonction des caractristiques formelles
des structures causales considres, et des hypothses qui fondent ces mthodes.

I. Introduction (#)

Nous traiterons ici de l'infrence causale dans l'observation instantane,


c'est--dire dans cette situation particulirement frquente en sociologie o,
ayant observ au mme moment un certain nombre de caractristiques d'une
population, on dsire, soit vrifier un schma causal thorique partir de
cette information, soit dcouvrir le schma causal implicite le modle
causal permettant d'expliquer cette information (a). Concrtement,
(*) Les lettres entre parenthses renvoient aux notes en bas de page, les chiffres
entre crochets carrs aux quations et les chiffres entre parenthses aux rfrences
bibliographiques en fin d'article.
(a) En fait, la distinction entre observation instantane et observation diachronique n'est
qu'une des distinctions possibles. Mentionnons pour mmoire, sans donner les dfinitions
formelles, la distinction due Wold (25) entre systmes rcursifs et systmes
interdpendants. Voir aussi (18) et (26).

24
Mthodes d'analyse causale

cette situation est celle qu'on rencontre chaque fois qu'on veut expliquer
une variable dpendante partir d'un ensemble de variables indpendantes,
que les observations proviennent de questionnaires, de donnes statistiques,
ou de toute autre source.
La logique de l'infrence causale a t tudie sparment par un bon
nombre de mthodologues de disciplines diverses, tels que des conomistes,
des sociologues et des biologistes. Les premiers ont surtout analys le
problme de identification des structures causales linaires, dont on verra
ci-dessous la formulation (7, 8, 10, 11, 12, 14, 25, 26); les seconds se sont
notamment proccups de la dtermination des relations de causalit
authentiques par opposition aux relations fictives dduites des corrlations
fallacieuses , en mme temps que de l'interprtation des relations causales par
l'introduction de variables qualificatrices (1, 2, 3, 4, 6, 9, 13, 16, 17, 22) ;
les troisimes ont prsent des mthodes permettant non seulement d'infrer
l'absence ou la prsence de relations de causalit entre variables, mais
aussi de mesurer la dpendance causale (24, 27, 28).
Lorsqu'on tudie les travaux des mthodologues de ces diverses
disciplines, on a l'impression de se trouver devant une absence de cohrence
logique. Un signe de ce manque d'unit est la perception que ces auteurs
ont les uns des autres : voquant les travaux de Zeisel (29), Kendall et
Lazarsfeld (9, 13) sur ces problmes, Simon constate simplement que
l'analyse de confluence de Frisch (14) et la littrature conomtrique sur le
problme de l'identification et les relations structurelles sont quelque peu
diffrents bien que fort proches de ces travaux. Lorsqu'il affirme ensuite
que le pont entre le problme de l'identification et celui des corrlations
fallacieuses peut tre jet partir d'une dfinition prcise et oprationnelle
de la causalit , on ne voit pas que ce qu'il prsente ensuite soit autre
chose qu'une juxtaposition (&). Son article Causal ordering and identifia-
bility (21) est un essai pour dfinir formellement les structures linaires
identifiables dans le cas des modles sans erreurs, c'est--dire des modles
o toutes les sources de variation sont supposes connues; par ailleurs,
Spurious correlation, a causal interpretation reproduit l'analyse causale
de Durkheim-Lazarsfeld (6, 9, 13) dans le cas particulier o les relations
sont de forme linaire (22). La lecture des deux articles de Simon n'vince
gure l'impression que les travaux des conomistes et l'analyse multivarie
de Durkheim-Lazarsfeld refltent seulement deux perspectives distinctes
quoique proches .
Quant Blalock, dont les nombreux articles (1, 2, 3, 4) sont une
exploration de la spcification linaire impose par Simon l'analyse de Durkheim-
Lazarsfeld, il est tonnant de constater qu'il cite Wright (4), dont les
travaux datent du premier quart du sicle, mais ne se proccupe pas de
dterminer le lien logique entre la mthode de Wright et celle de Simon.
Wright lui-mme, lorsqu'il donne en 1954 un nouvel expos de sa
mthode (28), semble ignorer les rsultats obtenus par l'conomtrie dans
la dcade prcdente.
Nous montrerons ci-dessous que ces perspectives diffrentes peuvent
tre dduites d'un modle gnral unique par l'introduction d'hypothses
particulires. On verra notamment que, si on utilise la seule hypothse
de linarit, on se trouve, dans des situations formellement dfinissables,
devant l'impossibilit d'identifier les paramtres du modle visant mesurer
l'influence causale. En revanche, l'introduction d'une hypothse naturelle

(b) Voir (22).

25
Revue franaise de sociologie

sur les facteurs non explicites permet d'liminer dans tous les cas ces
problmes d'identification, et de mesurer l'influence causale. Le modle qu'on
obtient ainsi peut tre considr comme une extension de l'analyse de
rgression.
Les considrations qui suivent sont de nature ncessairement abstraites :
le problme de l'infrence causale est un problme formel. Cependant, le
lecteur ne perdra pas de vue qu'elles visent essentiellement une fin
pratique. Il s'agit, rptons-le, tant donn une information sur diverses
caractristiques d'une population recueillie un instant dtermin du temps, de
vrifier ou d'induire la structure causale sous-jacente. Le problme est de
grande importance en sociologie, o on voit souvent que, par facilit ou
ignorance mthodologique, une thorie est btie partir de la seule
considration des corrlations simples entre variables prises deux deux, quand
l'introduction de variables supplmentaires peut, comme on le sait depuis
Durkheim, modifier considrablement l'interprtation.

II. Inference causale sans modle

Durkheim (6, 18) et, sa suite, Lazarsfeld (9, 13) ont contribu
rsoudre la question suivante : sachant, en vertu d'une connaissance pralable que a
est antrieur b et ayant observ une corrlation entre a et b, quand peut-on
valablement conclure la proposition a cause de b ? La rponse de
Lazarsfeld est connue et nous nous contenterons de la rsumer : une
corrlation entre deux variables, supposes pour la simplicit dichotomiques,
peut s'analyser, quand on introduit une troisime variable 2, en une somme
pondre de trois termes, dont les deux premiers sont les covariances
conditionnelles de x et de y dans les deux sous-populations distingues par z
et dont le troisime est le produit des covariances entre z et chacune des
variables primitives. On supposera x antrieur y. Symboliquement, la
formule d'laboration s'crit :
[1] cov (xy) = cov (xy;z) cov (xy;zr) cov (xz) cov (yz).

On obtient alors quatre structures remarquables en combinant les deux


alternatives suivantes : 1. z antrieur x ou intermdiaire entre x
et y ; 2. cov (xz) = o, les covariances conditionnelles tant non-nulles ou
cov (xz) 9^ o, les covariances conditionnelles tant nulles. On dira que x
est cause de y, si, pour tout z antrieur x, les covariances conditionnelles
par rapport z sont diffrentes de zro. La formule ci-dessus permet ainsi
de distinguer divers schmas de causalit possibles entre trois variables.
On notera cependant qu'elle n'est pas d'un grand secours pour vrifier
certaines structures comme : z cause de x et de y et x cause de y; en effet, elle
implique seulement dans ce cas qu'aucun des trois termes du membre de
droite n'est nul. Mais la difficult la plus srieuse, qui a t maintes fois
remarque, rside dans l'extension de l'analyse plus de trois variables : en
effet, si on introduit un nouveau facteur, soit u, chaque terme du membre
de droite s'analyse son tour en un ensemble de trois composantes. Ainsi,

[2] cov (xy;z) = cov (xy;zu) cov (xy;zu') cov (xu;z) cov (yu;z).
Il devient alors trs difficile de dgager un nombre limit de, structures

26
Mthodes d'analyse causale

causales significatives, de sorte que l'analyse multivarie, dont l'essence est


rsume dans la formule [i], peut difficilement tre utilise lorsqu'on
dsire considrer une structure causale comportant plus de trois variables.

III. Modles de causalit linaires

Bien que l'analyse de Durkheim-Lazarsfeld soit un instrument de recherche


fondamental, sa limitation peut tre parfois gnante. Le prix de son extension
des structures comportant plus de trois variables doit tre pay par
l'introduction d'hypothses supplmentaires; la plus simple de ces hypothses
consiste imposer aux relations une forme linaire. Elle conduit une
mthode moins gnrale que celle de Lazarsfeld, puisque cette dernire est
applicable quelle que soit la forme des relations; en revanche, elle permet de
traiter de cas plus complexes.
Supposons une structure causale comme celle de la figure ci-dessous :

Les quations correspondant cette structure s'crivent, dans le cas o


les relations sont linaires
x2 =
[3] * =
4 = 14 + a3ix& + e.

Les termes de la forme et symbolisent l'action de facteurs non explicits


dans la structure causale. Ainsi, conformment la figure ci-dessus, la
premire quation signifie que la variable x2 dpend de xx et de facteurs non
explicites, mais non de xs et x. En d'autres termes, la structure prsente
est traduite dans les quations de [3] par certaines restrictions a priori (c) :
ainsi, les coefficients o32 et o42, qui indiqueraient une dpendance de x2
respectivement par rapport xz et jr4, sont supposs nuls dans la premire
quation; de mme, a43 dans la deuxime quation et 024 dans la troisime
sont supposs nuls, car, en vertu des hypothses, x n'affecte pas directement
xs et x2 n'affecte pas directement 4.
Comment un modle de ce type peut-il tre utile l'analyse causale ? La
rponse cette question est aise lorsque le modle causal se rduit une
quation unique. Elle est, on le verra, beaucoup plus complexe dans les
autres cas.
Examinons d'abord le cas simple. Supposons qu'on considre, au lieu du
systme [3] sous sa forme complte, la premire quation de ce systme.
Dans ce cas, on sait que le coefficient a^ est le coefficient de rgression

(c) Conditions a priori signifie ici, non pas conditions indpendantes de l'exprience,
mais conditions imposes au modle, le plus souvent en vertu de l'exprience.

27
Revue franaise de sociologie

de x2 par rapport X\. Par ailleurs, la quantit ui2<Ji/<s2 n'est autre que le
coefficient de corrlation r12. Comme le carr du coefficient de corrlation
entre deux variables mesure la proportion de la variance de l'une explique
par l'autre, ou, plus exactement, par la rgression sur l'autre, la quantit
ai2i/<T2Peut tre interprte comme une mesure de l'influence causale d'une
des variables sur l'autre. Quant au sens de la liaison causale, il ne peut,
dans ce cas, tre dtermin que par la connaissance a priori qu'on peut avoir
sur la nature des deux variables.
La mme interprtation est valable dans les situations o une variable
dpend, non d'une, mais de plusieurs variables. Ainsi, si on considre
isolment la deuxime quation du systme [3], les coefficients a13 et 2
reprsentent les coefficients de rgression partiels de x3 sur x2 lorsque la valeur
de xt est fixe, et de x3 sur lorsque la valeur de x2 est fixe. Comme
prcdemment, les coefficients de rgression d'une variable dpendante sur
une variable indpendante, lorsque les valeurs des autres variables sont
fixes, sont lis aux coefficients de corrlation par une formule faisant
intervenir les carts-types des deux premires. La seule nouveaut est que les
coefficients de corrlation qu'on considre alors sont les coefficients de
corrlation partiels et les carts-types, des carts-types lis. Ainsi, l'cart-
type de x2 li par xz dans l'quation considre se note <2. et mesure
la dispersion de x2 lorsque x3 a une valeur fixe. Les coefficients de
corrlation partiels mesurent pour leur part, comme on sait, la liaison statistique
entre deux variables donnes, lorsque les autres ont une valeur fixe. Le
coefficient de corrlation partiel entre x et x3 se note, dans le cas prsent
r13 2- De nouveau, 7-13.2 mesure l'influence causale de x sur .r3 obtenue
en liminant l'effet de x2', de mme, 23.2 mesure l'influence de x2 sur "3
lorsque la valeur de xx est fixe.
Appelons structures causales simples les structures auxquelles
correspondent des modles quation unique. Les considrations prcdentes
permettent d'noncer la proposition : dans une structure simple, les carrs
des coefficients de corrlation sont une mesure de dpendance causale. On
notera que, de faon quivalente, on peut dfinir les structures simples
comme les structures o une variable est suppose dpendre d'un certain
nombre de variables qui ne dpendent pas elles-mmes les unes des autres.
La mesure de dpendance causale est le carr du coefficient de corrlation
total de Bravais-Pearson, dans le cas o l'ensemble des variables
indpendantes se rduit un seul lment, et le carr des coefficients de
corrlation partiels dans les autres cas.
Cependant, toutes les structures causales ne sont pas des structures
simples, comme en tmoigne la structure de la figure prcdente : les variables
ne peuvent tre classes en indpendantes et dpendantes; ainsi, x2 est
dpendante par rapport x et indpendante par rapport xs. De mme,
la structure ne peut tre dcrite par une quation unique. La question qui
se pose alors est la suivante : peut-on tendre la logique de l'analyse de
rgression, et dfinir une mesure de la dpendance causale dans le cas des
structures quations multiples que, par opposition aux prcdentes, nous
appellerons structures complexes ?

IV. Le problme de l'identification

Considrons de nouveau le systme [3], sous sa forme complte cette


fois, et rcrivons-le de manire ce que les membres de droite des qua-

28
Mthodes d'analyse causale

tions ne contiennent que les termes correspondant aux facteurs non


explicites :

[4]

La premire quation dfinit dans l'espace de coordonnes xx et x2 une


droite au voisinage de laquelle les observations empiriques doivent se situer
si b12 est bien reprsentatif du systme tudi. De la mme faon, la
seconde et la troisime quations dfinissent respectivement dans les espaces
de coordonnes (1 x2, x3) et (xlt xs, 4) des plans dans le voisinage
desquelles les observations empiriques doivent se situer.
Supposons maintenant qu'ayant observ les lments d'une population sur
les variables xlt x2, xb, 4, on ait pu en dduire les valeurs des coefficients
^12 ^i3> &23> &14 ^34- Comme, par hypothse, ces valeurs satisfont les
quations de [4], on obtiendra, en sommant, par exemple, les deux premires
quations, une nouvelle quation videmment compatible avec le systme,
car on peut toujours sommer un nombre quelconque d'quations, membres
membres.
On obtient ainsi l'quation

[5] (&12 + &i3> *\ + (&23 + *2 + xz '

Mais cette quation dfinit, comme la deuxime quation de [4], un sous-


ensemble de points compatibles avec les observations dans l'espace de
coordonnes x2, x3. Cependant, puisque b12 + b13 est videmment diffrent
de bis et b23 + 1 diffrent de b23, le plan dfini par l'quation [5] ne
concide pas avec le plan dfini par la seconde quation de [4]. On verrait de
mme, plus gnralement, que tous les couples de coefficients de forme
b12 + />12&1 et pi2 + b23, o />12 peut avoir une valeur quelconque,
dfinissent des plans compatibles avec le systme, au mme titre que les coefficients
originaux de la seconde quation de [4]. Ceci revient dire qu'il existe,
dans l'espace de coordonnes xx, x2, xs, un nombre infini de plans compatibles
avec la structure postule. En consquence, les coefficients de la deuxime
quation de [4] ne peuvent tre dtermins de manire unique et sont dits
non-identifiables.
Afin de simplifier les dveloppements ultrieurs, il est utile de traduire le
systme [4] sous forme matricielle (c). En posant
'&12 1
= I b3 &23 x = ( es
h* 84 \*4

le systme [4] s'crit :


[6] Bx = e

(d) Rappelons que pour obtenir l'lment de la i-me ligne et de la /-me colonne du
produit de deux matrices, on multiplie chaque lment de la i-me ligne de la premire
par l'lment correspondant de la /-me colonne de la seconde et on additionne les
produits ainsi obtenus. De cette dfinition il rsulte que deux matrices ne peuvent tre
multiplies entre elles que si la premire a autant de colonnes que la seconde a de lignes.

29
Revue franaise de sociologie

Dfinissons, d'autre part, la matrice P comme ci-dessous

P=

Si est telle que l'quation [6] soit satisfaite, tant donn un ensemble
d'observations, alors l'quation
[7] PB* = Fe = e'

sera galement satisfaite, quelle que soit la matrice P, pourvu seulement


qu'elle ait un nombre convenable de lignes et de colonnes. De plus, si P
est dfinie comme ci-dessus, non seulement [7] sera satisfaite, mais la
matrice PB aura mme structure que la matrice : on voit, en effet, en
calculant le produit, que les cases nulles de la matrice PB se superposent
celles de la matrice B. Ceci signifie que les coefficients de la matrice PB
sont compatibles avec la structure causale hypothtique, au mme titre que
ceux de B. Nous retrouvons ainsi le rsultat obtenu ci-dessus : il n'est pas
possible d'identifier tous les coefficients du systme [4]. Partant, on ne peut,
sans hypothses supplmentaires, mesurer la dpendance causale de x& par
rapport xx et x2.
En rsum, une structure causale ne peut tre compltement
identifiable que s'il est impossible de combiner linairement deux quations
quelconques sans contredire les hypothses a priori sur la nullit des
coefficients. En d'autres termes, une structure causale est compltement identifiable
s'il n'existe pas de matrice non-diagonale P, telle que PB ait mme structure
que B. Ainsi, dans l'exemple prcdent, la seconde quation de [4] peut
tre remplace par une combinaison linaire de la premire et de la seconde
quation sans contradiction avec les hypothses structurelles de cette
dernire, selon lesquelles x ne dpend pas directement de x3, ou &43 est nul.
De mme, il est possible de trouver une matrice P, telle que sa seconde
ligne ne puisse appartenir une matrice diagonale. En revanche, on voit
que la premire, ainsi que la troisime quation de [4] ne peuvent tre
combines avec aucune des deux quations restantes sans que leur structure
soit modifie. Dans le langage matriciel, ceci signifie qu'on ne peut trouver
de matrice P, telle que PB ait mme structure que et o la premire et
la troisime lignes soient non-diagonales , c'est--dire ne puissent
appartenir une matrice diagonale. Il en rsulte que les coefficients de la premire
et de la troisime quation de [4] sont identifiables et peuvent tre
dtermins par les mthodes habituelles de l'analyse de rgression, comme la
mthode des moindres carrs.

V. L'hypothse de non-corrlation des facteurs implicites

La section prcdente montre qu'on ne peut tendre en toute gnralit


l'analyse de rgression l'ensemble des structures causales complexes. Alors
que les structures simples sont toutes identifiables, les structures complexes
peuvent tre, soit identifiables, soit non-identifiables. Dans ce dernier cas, il
est impossible, sans hypothse supplmentaire, de mesurer la dpendance
causale de certaines variables par rapport certaines autres. Ainsi, dans

Mthodes d'analyse causale

l'exemple du systme [4], la dpendance de xz par rapport xx et x2 n'est


pas dfinie.
Il existe une hypothse, utilise notamment par Simon (22), grce
laquelle on peut dterminer dans tous les cas une mesure de dpendance
causale, ainsi que nous le montrerons plus bas. Cette hypothse conduit
dfinir un type d'analyse que nous appellerons analyse de dpendance .
Nous appelerons coefficients de dpendance les coefficients dtermins
partir d'une analyse de dpendance, nous rservant de justifier cette
expression en montrant qu'ils peuvent effectivement tre tenus pour une
mesure d'influence causale. Dans l'attente de cette dmonstration, le lecteur
doit considrer cette expression comme un simple signe dnu de
signification intrinsque.
Nous aurons rsoudre deux problmes, pour clarifier cette notion de
coefficient de dpendance. Le premier sera de donner une interprtation
gnrale des coefficients de dpendance, c'est--dire, rptons-le, des
coefficients obtenus par une analyse de dpendance. Le second consistera se
demander s'il existe, dans le cas d'une structure, identifiable, un lien entre
les coefficients obtenus par une analyse de rgression et les coefficients
obtenus par une analyse de dpendance.
L'hypothse propose par Simon est la suivante : les facteurs implicites
sont spcifiques ; en d'autres termes, il n'affectent individuellement qu'une
variable explicite unique, et sont, en consquence, de corrlation nulle. La
difficult d'une telle hypothse, par opposition l'hypothse de linarit, est
qu'elle ne peut tre prouve directement, puisque les facteurs implicites
sont, par dfinition, inobservables. Cependant, nous verrons ci-dessous qu'on
peut imaginer des preuves indirectes.
Notons encore que, comme nous l'annoncions dans la section I, Simon
ne s'est pas proccup d'analyser la relation logique entre le problme
de l'identification et l'hypothse de spcificit, non plus que les deux
problmes qui en dcoulent. En consquence, il n'a pas donn de signification
statistique aux coefficients dont la dtermination est rendue possible par
cette hypothse, et s'est content de relever, parmi les consquences de
son modle, celles qui concernent les corrlations partielles et totales,
l'exclusion des coefficients de dpendance. De cette manire, il s'est priv
d'une mthode permettant de dfinir, pour l'ensemble des structures
causales linaires, une mesure de dpendance causale. Afin d'illustrer ces
rflexions et avant de traiter des problmes annoncs au dbut de cette
section, nous rappellerons brivement l'exemple d'analyse causale prsent
par Simon (22).
VI. L'analyse de Simon

Afin d'viter les calculs encombrants qu'entranerait l'application de


l'analyse de Simon la strucure de la section III, nous utiliserons l'exemple
plus simple prsent par Simon lui-mme. Les hypothses causales sont les
suivantes : xt cause de x2 et de x3, x2 cause de xs. Les quations
correspondantes s'crivent :

[8]

Contentons-nous provisoirement de remarquer que Simon introduit une

quation supplmentaire pour la variable x qui ne dpend d'aucune autre

31
Revue franaise de sociologie

variable explicite dans la structure causale, alors que nous n'avons pas
introduit d'quation de ce type dans l'exemple des sections III et IV.
Si on multiplie les quations prcdentes deux deux, et si on prend
les esprances mathmatiques des variables, on obtient un systme
d'quations dont les membres de droite sont tous nuls, puisque les corrlations,
et videmment les covariances des facteurs spcifiques sont supposes nulles
par hypothse. On a :
12(\)+(12)=
&13E (*?) + &23E (2) + E () =
bl2 [613E (xf) + 623E (xtx2) + E
+ &13E {xxx2) + &23E (x ) + E (x2x3) = o.

A partir du systme prcdent, il est possible d'exprimer les covariances


en fonction des bt et des variances (en supposant les variables mesures
partir de leurs moyennes). En remarquant que le terme entre crochets
dans la troisime quation de [9] est nul, on a :

E(x1x2)=-b12E(x\)
[10] E () = QUbn - &13) E (*)

Mais on peut aussi, partir de [10], obtenir une expression des


coefficients de dpendance en fonction des covariances et des variances. Cependant
Simon, et, sa suite, Blalock dlaissent cette voie et montrent que, dans
certains cas, on peut obtenir partir du modle des consquences o les
coefficients de dpendance n'apparaissent pas. Tel n'est pas le cas avec la
prsente structure; une structure causale comme celle du systme [8] ne
permet aucune dduction particulire, si on ne tient pas compte des
coefficients de dpendance. En revanche, si on modifie la structure causale
prcdente en abandonnant l'hypothse x2 cause de xs , il est facile de
montrer que le modle permet de prdire r23 = r12r2Z ou, en d'autres termes,
que le coefficient de corrlation partiel entre x2 et xs est nul, lorsqu'on fixe
la valeur de xv En effet, en divisant les covariances par les carts-types
appropris, on obtient, sachant que b2B est nul :
12 =
[il] r13 =
r23 = ^1 i

D'o r23 = r12rlz. Ainsi, certaines structures causales permettent d'obtenir,


partir des quations linaires correspondantes, des consquences
concernant les coefficients de corrlation. Cependant, ces consquences ne
permettent pas de mesurer la dpendance causale. Elles permettent seulement,
dans le cas o on peut les obtenir, d'prouver la validit d'un modle
particulier. Ainsi, la spcification linaire de Simon ne fait gure finalement
qu'introduire, par rapport l'analyse multivarie de Lazarsfeld, une
hypothse coteuse qui ne s'accompagne d'aucun bnfice logique. On voit donc
l'intrt d'interprter les coefficients de dpendance, si on veut raliser
une vritable extension de l'analyse causale sans modle.

32
Mthodes d'analyse causale

VIL Peut-on dans tous les cas dterminer


les coefficients de dpendance ?

La structure causale du dbut de la section VI et l'hypothse de


spcificit nous ont permis d'exprimer les coefficients de dpendance en fonction
de quantits connues, savoir variances et covariances. Or, comme le
lecteur peut le vrifier aisment, une telle structure n'est pas identifiable,
au sens dfini ci-dessus. En effet, la troisime quation peut tre, sans que
ses conditions structurelles soient modifies, combine linairement avec la
seconde. En d'autres termes, il ne correspond pas cette quation un plan
de rgression, mais un ensemble de plans dont les coefficients sont de la
forme b13 + />i2&i2 et &2 + Pi2 respectivement, />12 reprsentant un nombre
quelconque. En consquence, les coefficients de rgression correspondant
cette quation sont indtermins. Avant de s'interroger sur la signification
des coefficients de dpendance dans ce cas, on doit se demander s'ils
peuvent toujours tre dtermins lorsque les coefficients de rgression ne sont
pas identifiables.
Pour rpondre cette question, nous utiliserons de nouveau la notation
matricielle. Supposons que l'quation [6] soit vrifie, c'est--dire qu'on
ait bien Bx = e, et admettons que la structure soit telle qu'on puisse trouver
une matrice non-diagonale P, telle que PB vrifie les mmes hypothses
a priori que : les coefficients de ne peuvent tre tous identifis.
Multiplions ensuite droite les deux membres de cette quation matricielle par
le vecteur ligne x', transpos de x (e) . Il vient :
[12]
ou, en prenant les esprances mathmatiques,
[13] E(B^') = E(^),
ou encore,
[14] BE(xx') = E(ex').
Si le systme causal comporte, comme dans l'exemple de la section III,
trois quations et quatre variables explicites, la matrice est une matrice
trois lignes et quatre colonnes ; E (xxr) est la matrice des covariances
entre les variables explicites, mesures partir de leur moyenne respective :
elle a quatre lignes et quatre colonnes. La matrice (ex*) des covariances
entre facteurs explicites et facteurs implicites a trois lignes et quatre
colonnes.
Il est facile de voir que si la structure causale comporte des conditions
a priori, c'est--dire si certains lments de la matrice sont nuls, certains
lments de la matrice E (ex') doivent tre galement nuls, si on admet
l'hypothse de la spcificit. Ainsi, dans l'exemple de la section II, dont nous
reprsentons le graphe ci-dessous, on voit et on peut dmontrer en
appliquant la procdure de Simon prsente la section VI qu'on doit
avoir E (2) = E (esxj) = E (e^xj = E (ezx2) = E (e^x2) = E (exz) = o, si

(e) La matrice transpose d'une matrice est obtenue en interchangeant les lignes et
les colonnes de cette dernire. Un vecteur colonne tant une matrice n lignes et une
colonne, son transpos est un vecteur une ligne et colonnes.

33
Revue franaise de sociologie

la
= &43
structure
= &24 =causale
O. est valide et si, par consquent, on a bien &32 = 642

On peut ainsi substituer la question les coefficients de dpendance


peuvent-ils toujours tre dtermins dans le cas d'une structure
non-identifiable ? la nouvelle question : s'il existe une matrice non-diagonale P
telle que PB satisfasse aux mmes conditions que et si on prmultiplie
par P l'quation [14] pour former la nouvelle quation
[15] {xx') = (ex0),
la matrice PE (ex') aura-t-elle la mme structure que E (ex') ? Il est
clair, en effet, que si on peut trouver une matrice non-diagonale P qui
conserve les conditions a priori imposes aux deux membres de l'quation
[15], les coefficients de dpendance ne sont pas toujours identifiables.
Inversement, si on ne peut trouver de matrice non-diagonale P qui respecte les
conditions a priori d'un des membres de [15] sans violer celles de l'autre,
les coefficients de dpendance peuvent toujours tre dtermins.
Comme nous avons suppos la structure causale reprsente par non-
identifiable, un au moins des lments non-diagonaux de P doit tre non-nul.
Supposons que ce soit l'lment de la t-me ligne et de la /-me colonne
de P, ou, en d'autres termes, que la i-me quation causale puisse tre
combine linairement avec la /-me sans que sa structure soit modifie.
Dans ce cas, xi+1 dpend causalement de Xj+1 : en effet, comme la /-me
quation dfinit xj+1, le coefficient de xi+l y est ncessairement non-nul,
de sorte que la t'-me quation ne peut tre linairement combine avec la
/-me sans subir de modification structurelle que si le coefficient ^+i, t+i
est non-nul; en d'autres termes, xi+1 dpend causalement de Xj+i.
Considrons maintenant le membre de droite de [15]. Puisque le terme de la i-me
ligne et de la /-me colonne de P est non-nul, la prmultiplication de E (ex*)
par P substitue la t-me ligne de E (ex') une combinaison linaire des
i-me et /-me lignes de (ex'). Mais, dans la i-me ligne de ~E(ex'),
puisque xi+1 dpend causalement de xj+1, l'lment de la /+ i-me colonne,
savoir (ei+1x+1) est nul a priori, alors que dans la /-me ligne, le
terme de la / + i-me colonne est non-nul. Il en rsulte que la
prmultiplication par P viole ncessairement les hypothses de la structure causale.
En consquence, il n'existe pas de matrice non-diagonale P telle que PB
ait mme structure que et que les hypothses drives de l'hypothse
de spcificit soient respectes. D'o le rsultat important : Quand les facteurs
implicites sont spcifiques, les coefficients de dpendance sont toujours
dtermins de manire unique.
Pratiquement, la dmonstration prcdente fournit un moyen simple
d'crire les quations permettant de dterminer les coefficients de dpendance.
En effet, si xt est dpendant de x}, on a E (^) , et le terme
correspondant de BE (xx') est obtenu en multipliant l'quation dfinissant xi par x} et

34
Mthodes d'analyse causale

en prenant les esprances mathmatiques. Ainsi, si l'quation dfinissant


xt est
[16] bXixx + .

on a
[17] blt E (,) + . . . + E (xtxj) = E (etxj) = 0.

On obtient ainsi facilement, en considrant tous les termes tels que


E faxj), nuls en vertu de la structure causale, un ensemble d'quations
exprimant les coefficients de dpendance en fonction des covariances et des
variances des facteurs explicites.
Avant de passer au problme de la signification des coefficients de
dpendance, notons un inconvnient de la formalisation de Simon. On se souvient
qu'elle introduit des quations relatives aux facteurs explicites ne dpendant
d'aucun autre facteur explicite dans la structure causale. Or, si on traduit
une structure causale formalise de cette manire sous forme matricielle,
on constate aisment que, mme dans le cas d'une structure identifiable, il
est toujours possible de trouver une matrice non-diagonale P*, telle que
P*B* ait la mme structure que B*, B* et P* tant construites partir
de et de P par addition de lignes supplmentaires correspondant aux
facteurs explicites ne dpendant eux-mmes d'aucun facteur explicite. Il en
rsulte que la formalisation de Simon rend plus difficile un traitement
gnral du problme de l'identification.

VIII. Signification statistique des coefficients de dpendance

Nous savons maintenant que les coefficients de dpendance peuvent


toujours tre dtermins, si on admet l'hypothse de la spcificit des facteurs
implicites. Nous savons aussi que toute structure causale ne permet pas
l'identification des coefficients de rgression. En consquence, dans le cas
d'une structure causale non identifiable, les coefficients de dpendance ne sont
pas des coefficients de rgression. Que sont-ils alors ? Sont-ils des
coefficients de rgression si la structure causale est identifiable ? Quelles que
soient les rponses ces questions, il est ncessaire de donner aux
coefficients de dpendance une interprtation statistique gnrale.
Cette interprtation a t, en fait, propose par le biologiste Sewall
Wright (27, 28), qui a utilis sous une forme diffrente et sans se
rfrer, comme cela est utile pour l'intelligibilit et la logique, au cadre
gnral de l'analyse de rgression et au problme de l'identification la
mthode prsente ici.
Symbolisons une quation causale quelconque sous la forme suivante :
[18] xt = auxt + . . . +

et exprimons les variances de xt et, d'une variable indpendante, par


exemple, de xlt lorsque les valeurs des autres variables sont fixes. On a
alors, en utilisant les notations habituelles des variances lies,

35
Revue franaise de sociologie

Mais on peut aussi crire :


[20] <*?, = " '? ?-23-
21 a_2i _a 21.23...e

Supposons que xx ne dpende d'aucun facteur explicite. Dans ce cas, la


variance de xx est gale sa variance lie par x2, x3, ..., xe.
Symboliquement, *i/<i.23...e I Dans ce cas, d\t mesure la proportion de la variance
de x{ explique par xx. En revanche, si xx dpend de certains facteurs
explicites, sa variance totale est diffrente de sa variance lie et suprieure
cette dernire, il faut alors, pour mesurer la proportion de la variance
de xt explique par xx, liminer la rduction de la variance de xx due au
fait que les autres facteurs sont fixs. Ainsi, si, en maintenant constants
x2, . . . , xe, on rduit la variance de xx aux deux tiers de sa valeur
primitive, on obtiendra la proportion de la variance de xt explique par xx en
multipliant '-23"- par 3/2, c'est--dire par l- . Dans tous les cas, la

ff? C1.23...e
quantit d\t exprime donc bien la proportion de la variance de
spcifiquement explique par xx. C'est ce que veut dire Wright, quand il crit que
la racine de cette quantit mesure la fraction de l'cart-type de la variable
dpendante (affecte du signe convenable) directement explique par un
facteur donn, c'est--dire la fraction qu'on obtiendrait si la variance de
ce facteur tait identique sa variance effectivement observe, les autres
facteurs (y compris les facteurs rsiduels) tant constants (/).
Ainsi, les carrs des coefficients de dpendance corrigs par le rapport
de la variance de la variable indpendante celle de la variable dpendante
sont bien une mesure de l'influence causale de la premire variable sur
la seconde. Comme les coefficients de dpendance peuvent toujours tre
identifis, la dtermination de ces coefficients peut tre considre comme
une mthode gnrale d'analyse causale, dans le cas o les hypothses de
spcificit et de linarit peuvent tre considres comme valides. Nous
appellerons cette mthode analyse de dpendance .
Notons que le carr des coefficients de dpendance corrigs que Wright
appelle path coefficients et que nous dsignerons par l'expression
coefficients de Wright , a une signification parallle celle du carr des
coefficients de corrlation. Les coefficients de Wright peuvent mme tre tenus
pour une extension, obtenue l'aide de l'hypothse de spcificit, des
coefficients de corrlation : en effet, leur carr exprime la proportion de la variance
d'un facteur explique par une variable donne, lorsque cette dernire
dpend elle-mme d'autres facteurs; sinon, les coefficients de Wright sont
purement et simplement des coefficients de corrlation, comme on le voit en
se reportant l'quation [20].
Que les coefficients de Wright puissent tre considrs comme une
extension, dans le cadre de l'analyse causale, des coefficients de corrlation suggre
de considrer les coefficients de dpendance comme une extension des
coefficients de rgression (g). Cependant, une telle interprtation n'est recevable
(/) Voir la rfrence bibliographique (27).
(g) L'acception de la notion d'extension dans tout cet article (de l'analyse de
rpression par l'analyse de dpendance, des coefficients de rgression par les coefficients de
dpendance, des coefficients de corrlation par les coefficients de Wright) apparat
clairement au tableau I : extension signifie, en bref, possibilit d'application un ensemble
de structures plus vaste . L'extension tait obtenue par une hypothse supplmentaire,
il est vident qu'extension n'est nullement synonyme de gnralisation.

36
Mthodes d'analyse causale

que si on peut montrer que, dans le cas des structures identifiables, c'est--
dire dans le cas o les coefficients de rgression peuvent tre dtermins,
les coefficients obtenus par une analyse de dpendance sont identiques aux
coefficients obtenus par une analyse de rgression.

IX. Coefficients de rgression et coefficients de dpendance


dans le cas une structure identifiable

Supposons une structure causale associe une matrice des coefficients


de dpendance. Si, dans cette structure, xt est dpendant de Xj, on aura
E (e^Xj) =o et on peut crire une quation de dpendance dont la forme
gnrale est
. . . + xt +
[21] =buE(x1xJ) + ...+
E () = o.
Admettons que la structure est identifiable, c'est--dire que les
coefficients de rgression peuvent tre dtermins. On sait que, pour obtenir
les coefficients de rgression par la mthode des moindres carrs, on minimise
la quantit Q dfinie par
[22] Q*E(6liir1+...+*4+ ...+;+...+= (.
Q mesure la partie de la variance du facteur dpendant 4 non explique
par les autres variables explicites. Or, la condition ncessaire pour que Q
soit minimum est que les drives partielles de Q par rapport aux paramtres
soient nulles. En particulier, il faut que la drive partielle de Q par rapport
bji soit nulle, c'est--dire qu'on ait
30.
- = 2 E (&ii*i + ...+*+.+ bjiXj + . . . + bmixm) Xj = o
00
ou, de faon quivalente,
[24] E ( +...+#+...+ , + . . . + bmixm)xj = .
Mais l'quation [24] est identique l'quation [21]. D'o le rsultat
important : Lorsqu'une structure causale est identifiable, les quations donnant
les coefficients de rgression sont identiques aux quations donnant les
coefficients de dpendance ; en d'autres termes, les coefficients de rgression
et les coefficients de dpendance sont identiques (h).
Ce rsultat permet ainsi de considrer, dans l'analyse causale, les
coefficients de rgression comme un cas particulier des coefficients de
dpendance, lorsque les structures causales sont identifiables. Inversement,
les coefficients de dpendance reprsentent une extension des coefficients de
rgression, rendue possible par l'hypothse de spcificit. Ainsi, l'analyse de
dpendance est bien une extension de l'analyse de rgression : alors que la
seconde est praticable seulement si la structure hypothtique est identifiable,
() S. Wright a dmontr ce rsultat dans le cas trs particulier des structures
causales simples, c'est--dire des structures comportant un ensemble de variables
indpendantes, non lies entre elles et une variable dpendante.

37
Revue franaise de sociologie

la premire est possible dans tous les cas, si on admet l'hypothse de la


spcificit des facteurs implicites. Une autre consquence du rsultat
prcdent est qu'il n'est pas ncessaire d'introduire, comme le fait Wright, une
standardisation des coefficients de dpendance. On se souvient, en effet,
qu'il utilise, non les coefficients de dpendance mmes, tels que &;i dans
l'expression [22], mais les coefficients de Wright, de forme b^dj/ci, dont le
carr a une interprtation analogue celle des coefficients de corrlation.
Cependant, de mme que dans l'analyse de rgression ordinaire (non causale),
on peut utiliser pour l'interprtation des donnes observes, soit les
coefficients de rgression, soit les coefficients de corrlation, de mme il est
possible dans l'analyse causale, en vertu du rsultat prcdent, d'utiliser
soit les coefficients de dpendance, soit les coefficients de Wright. Les
premiers sont une extension l'ensemble des structures causales des
coefficients de rgression, les seconds des coefficients de corrlation.
Pourtant, il peut tre souhaitable, d'un point de vue pratique, d'utiliser
les coefficients de Wright plutt que les coefficients de dpendance, car les
seconds ont l'avantage de s'exprimer exclusivement en fonction des
coefficients de corrlation, alors que les quations donnant les coefficients de
dpendance font galement intervenir les variances des facteurs explicites.
Revenons, en effet, l'quation [21]. En transformant cette quation de faon
substituer les corrlations aux covariances, on obtient :
[25] hfiiCfy +...+* afij + . . . + bjtf j+ . . . + bmtamojrmj =

et, en posant bu (x/ad du, & (/<) = d}i, etc., de faon substituer les
coefficients de Wright aux coefficients de dpendance,
[26] (dtfu + . . . + ri5 + . . . + djt + . . . + dmirmi) opj - o.
Mais la condition [26] est quivalente la condition suivante :
[27]
D'o on peut toujours obtenir des quations exprimant les coefficients de
Wright en fonction des coefficients de corrlation. L'analyse de dpendance
est ainsi ramene une forme particulirement simple, puisqu'il suffit de
calculer les coefficients de corrlation entre les variables explicites pour
obtenir les coefficients de Wright, qui sont des mesures de dpendance
causale.
Nous avons jug utile de rsumer, par le Tableau ci-contre, les rsultats
obtenus dans les sections prcdentes. La verticale du tableau classe les
structures causales selon la double caractristique du nombre de variables
et de l'identifiabilit et introduit la classe des structures avec facteurs
explicites non-observs ; l'horizontale numre les hypothses; l'intrieur
donne les mthodes applicables dans chaque cas.

X. Illustration : analyse de dpendance


sur un modle cinq variables

II est difficile de trouver dans la littrature sociologique des exemples


de structures causales relativement complexes accompagnes d'observations.
Cette section tant principalement destine fournir au lecteur un modle
des calculs employer dans une analyse de dpendance, nous nous conten-

38
Mthodes d'analyse causale

Tableau I. Mthodes d'analyse causale selon les caractristiques des structures


causales et les hypothses des modles.

Hypothses

Pas Linarit Linarit et


d'hypothse " des relations spcificit

Analyse de
Structures dpendance
non
(coeff. de
identifiables dpendance)
Trois
structures variables Analyse de
dpendance
(coeff. de
Structures Analyse Analyse de rgression
multivarie rgression = coeff.
identifiables de
des dpendance) Sous-
produit
Car ctristiques ventuel
Structures Analyse de de l'analyse
non dpendance de
(coeff. de dpendance :
identifiables dpendance) les modles
Plus de de Simon-
trois Analyse de Blalock
variables dpendance
Structures (coeff. de
Analyse de rgression
rgression = coeff.
identifiables de
dpendance)

Prsence de Eventuellement :
Variables non analyse de
observes dpendance

terons de reprendre un exemple d Blalock (i). Nous lui emprunterons


ses donnes et ses hypothses causales et leur appliquerons l'analyse de
dpendance, l o lui-mme utilise l'analyse de Simon prsente la section VI.
Les donnes proviennent du recensement de 1950, les units de
l'analyse sont reprsentes par 150 comts du Sud choisis au hasard. (...) Les
relations sont toutes approximativement linaires. (...) La variable xx est un
indice rudimentaire d'urbanisation (proportion de la population urbaine ou
rurale activits non agricoles dans le comt) ; x2 est la proportion
reprsente par la population non-blanche; les variables x$ et x5 mesurent
respectivement le niveau de revenu de la population blanche et de la population

39
Revue franaise de sociologie

de couleur (pourcentage de familles disposant d'un revenu gal ou suprieur


i 500 dollars) ; 4 est un indice du niveau d'instruction de la population
non-blanche (proportion des individus de 25 ans ou plus ayant eu une
scolarit de plus de six ans).
A partir de ces observations, Blalock prsente trois structures causales
hypothtiques. Nous choisissons la troisime, reprsente par le graphe
ci-dessous

Les corrlations observes par Blalock sont les suivantes : r12 = 0,389 ;
^13 = 0,670; ru = 0,264; r1B = 0,736; r23 = 0,067; r24 = 0,531; r25 =
0,440 ; r34 = 0,042 ; r36 = 0,599 ; r45 = 0,386.
La simple inspection de ces coefficients suffit montrer l'intrt d'une
analyse causale. Ainsi, on observe un corrlation ngative et passablement
leve entre x2 et x5. Cela signifie-t-il que, lorsque la population de couleur
est majoritaire, une politique de bas salaires puisse s'instaurer plus
facilement son gard ? En d'autres termes, cela signifie-t-il que x2 ait une
action directe d'importance non ngligeable sur x5, de telle sorte que,
lorsque x2 crot, x5 a tendance dcrotre ?
Pour rpondre de telles questions, l'analyse de dpendance est un
instrument beaucoup plus efficace que l'analyse de Simon. Par ailleurs, il
faudrait, pour appliquer l'analyse multivarie de Lazarsfeld, tre en mesure
de contrler simultanment les effets de xt et "4, ce qui, tant donn la
nature de l'chantillon, n'est sans doute gure praticable.
La premire tape de l'analyse de dpendance consiste crire les
quations correspondant au graphe ci-dessus :

b12x1 + x2 = e2

b2ix2

Les hypothses a priori impliquent que, dans la matrice E (ex'), les


lments E(?2*i), Efo,*!), Efo^O, Efo^), E(e3x2), E(<?4*2), E(e5x2),
E(ex3), JL(e5xB), E (e5x) sont nuls. On peut, par consquent, former dix
quations de dpendance en crivant que les termes correspondant de BE (xx')
sont nuls. Ces quations s'obtiennent presque automatiquement. Ainsi,
l'quation correspondant au terme 'E{e2x1) est la suivante :

[29] b12 E (xj ) + E (xxx2) = E (e2xx) = .

Mais, en comparant les quations [25] et [27], on voit qu'on peut crire,
en substituant les coefficients de Wright aux coefficients de dpendance :

[30] ^12 + r12 = o.


Mthodes d'analyse causale

Les neuf autres quations sont obtenues de la mme faon. Nous nous
contentons de les crire :
[31. 1] rfi2 + r12 = o
[3I-2] <*13 + ^23^12 + ^13 =
[3 1-] rf18r12 + ^23 + ^23 =
[3I4] ^12 + *-14 =
[31-5] <*24 + *24 =
^ + r3 =

[31-8] d15r12 + d25 + 45r24 + r25 =


[3-9] <*15r18 + 428 + <*4534 + ^35 =
[31-] d15rl + d25r24 + &45 + ^45 = .

Le lecteur peut constater lui-mme que, en dpit de leur nombre, ces


quations ' peuvent tre aisment rsolues. En effet, la premire quation
donne d12', la seconde et la troisime forment un systme qui donne d13 et
c?23, etc., de sorte qu'on n'a jamais, dans ce cas, rsoudre plus de trois
quations simultanes.
Pour l'interprtation des coefficients, on se souviendra que les quations
de [28] ayant t crites sous la forme + . . . + xx + . . . = eif et non
comme des dfinitions explicites de xi} il faudra inverser le signe des
coefficients de Wright pour dterminer le sens de la dpendance causale.
En dsignant les quantits di} />ar d\s, on obtient les mesures de
dpendance causale suivantes : d'12 = 0,389 ; c'13 = 0,792 ; 5 = 0,657 ;
d'23 = o,37S ; ^'24 = 0,531 ; ^'25 = 0,071 ; 45 = 0,212. On voit ainsi,
par exemple, que la corrlation entre x2 et x5 est due plutt d'autres
facteurs qu' une action directe de x2 sur x5, puisque la proportion de la
'

variance de x5 explique par x2 lorsque les autres facteurs sont maintenus


constants est (o,o7i)2, soit peu prs 5 %c Ainsi, la situation majoritaire
de la population non-blanche ne facilite pas directement une politique de bas
salaires son gard, bien que la corrlation entre les deux variables soit
relativement leve.
On notera qu'on dispose, dans cet exemple, de dix quations pour
dterminer sept inconnues. Les solutions donnes plus haut ont t obtenues
en utilisant la premire quation pour b12, la seconde et la troisime pour
bis et &23, la cinquime pour 624, les septime, huitime et dixime pour
^15 ^2 * &45 reste alors trois quations, savoir les quatrime, sixime
et neuvime, qu'on peut utiliser pour prouver le modle causal. En effet,
si le modle est valide, on doit obtenir, en portant dans ces quations
supplmentaires les quantits obtenues partir des autres, des valeurs
compatibles avec les valeurs attendues. En fait, en utilisant les estimations
des coefficients de Wright obtenues partir des quations [31. 1], [31.2],
[^], [31.5], [31.7], [3I.8], [31.10] on obtient respectivement pour les
,

quations
0,054, [31.4],
0,003 [31.6],
et 95'[31.9]
La troisime
au lieu des
valeur
valeurs
est videmment
nulles attendues,
peu
satisfaisante et indique que le modle est imparfait. Nous ne nous
attacherons cependant ici ni une critique de fond du modle de Blalock,
ni aux problmes d'estimation poss par l'analyse de dpendance. Notons
seulement en passant que les trois modles proposs par Blalock montrent

41
Revue franaise de sociologie

uniformment que la corrlation entre x2 et x5 n'est pas due l'action


directe de x2 : les valeurs de d'25 sont respectivement 0,101, 0,002 et
0,071 dans les trois modles. Ainsi, mme si ces modles apparaissent
comme imparfaits, notre confiance dans le fait que la corrlation entre les
deux variables n'est pas due une action directe de x2 se trouve renforce.
Il serait cependant prfrable, cela va sans dire, de modifier le modle de
faon obtenir une structure conduisant un ensemble de solutions
unique (t).
Notons qu'une analyse de dpendance peut gnralement tre soumise
l'preuve de consistance dcrite plus haut, car, sauf dans le cas o tous les
couples de variables sont causalement lis, on a toujours un nombre
d'quations suprieur au nombre d'inconnues : si la structure comporte n variables
explicites, on peut former n(n i)/2 quations.

XI. Conclusion

Les dveloppements prcdents ne permettent videmment pas de rsoudre


les problmes philosophiques poss par la notion de causalit que nous
avons intentionnellement carts dans le prsent article. Cependant, si on
admet que le discours du sociologue sur son objet peut difficilement se passer
de cette notion, il est possible, en introduisant des hypothses simples, de
construire des modles formels permettant de conclure aux relations de
causalit partir des covariations entre les observations. L'analyse de
dpendance rsoud ainsi, bien qu'indirectement, le vieux problme de Stuart Mill,
aussi actuel que la solution donne par Mill est prime : Durkheim lui-
mme, dont les Rgles font de la logique de Mill la mthode d'analyse
causale par excellence n'utilise-t-il pas, en fait, dans Le suicide la
procdure connue aujourd'hui sous le nom d'analyse multi varie ?
L'analyse de dpendance a, en outre, l'avantage de clarifier la porte de
l'analyse de rgression dans l'infrence causale. Les sections IV, V, VIII et
IX montrent que l'analyse de rgression ne peut tre interprte comme
analyse causale que dans le cas o les structures causales sont identifiables. Dans
les autres cas, elle garde une valeur prdictive (on peut toujours se demander,
quelle que soit la structure causale liant un ensemble de variables, quelle est
la proportion de la variance d'un facteur xt explique par un ensemble de
facteurs 2,...), mais elle n'a pas de valeur explicative. Au contraire,
l'analyse de dpendance est explicative, que la structure causale soit
identifiable ou non. Dans le cas o une structure causale est identifiable, l'analyse
de dpendance est elle-mme une analyse de rgression. L'extension de
l'analyse de rgression ainsi obtenue permet d'tendre les notions de coefficient de
corrlation et de coefficient de rgression, en dfinissant les coefficients de
Wright et les coefficients de dpendance. On obtient ainsi une mthode
d'analyse causale d'application gnrale.
R. Boudon,
Facult des Lettres et Sciences humaines
de l'Universit de Bordeaux.

(i) II est vident que la mthode d'estimation des paramtres prsente ici n'est pas la
meilleure. Elle n'est acceptable que dans la mesure o on admet qu'on a affaire des
donnes non entaches d'erreur. Nous reviendrons sur ce problme de l'estimation des
paramtres dans une publication ultrieure.

42
Mthodes d'analyse causale

Rfrences bibliographiques
(1) Blalock, H. M. Jr. Correlation and causality: the multivariate case. Social
Forces 39 (3), March 1961, pp. 246-251.
(2) Blalock, H. M. Jr. Four-variable causal models and partial correlations .
rican Journal of Sociology 68 (2), September 1962, pp. 182-194.
(3) Blalock, H. M. Jr. Making causal inferences for unmeasured variables from
correlations among indicators . American Journal of Sociology 69 (1), July
1963, PP. 53-62.
(4) Blalock, H. M. Jr. Further observations on asymmetric causal models .
rican sociological Review 27 (4), August 1962, pp. 542-544.
(5) Dunlap, J. W., Cureton, E. E. On the analysis of causation . Journal of
cational Psychology 21, 1930.
(6) Durkheim, E. Le suicide, Nouvelle dition. Paris, Presses Universitaires de France,
i960.
(7) Haavelmo, T. H. The structural implication of a system of simultaneous
tions . Econometrica 11, 1943.
(8) Hurwicz, L. On the structural form of interdependent systems in : Logic,
dology and philosophy of science, edited by E. Nagel, P. Suppes and A. Tarski.
Stanford, Stanford University Press, 1962.
(9) Kendall, P. L., Lazarsfeld, P. F. Problems of survey analysis in:
ties in social research, edited by R. K. Merton and Paul F. Lazarsfeld. Glencoe
(111.) Free Press, 1950, pp. 133-196.
(10) Koopmans, T. C. Identification problems in economic model construction .
metrica, April 1949 (Bibliographie).
(11) Koopmans, T. C. Statistical inference in dynamic causal models. New York, Wiley,
1950. (Cowles Commission Monograph, 10).
(12) Koopmans, . The identification of structural characteristics . Annals of
mathematical Statistics, June 1950.
(13) Lazarsfeld, P. F. The interpretation of statistical relations as a research
tion in: The language of social research, edited by P. F. Lazarsfeld and
M. Rosenberg. Glencoe (111.), Free Press, 1955, pp. 1 15-125.
(14) Malinvaud, E. Les mthodes statistiques de l'conomtrie. Paris, Dunod, 1964.
(15) Novak, S. Some problems of causal interpretation of statistical relationships .
Philosophy of Science 27, January i960.
(16) Polk, K. A note on asymmetric causal model . American sociological Review 27
(4), August 1962, pp. 539-542.
(17) Robinson, W. S. Asymmetric causal models : comments on Polk and Blalock .
Ibid., pp. 545-548.
(18) Selvin, H. C. Durkheim's Suicide and problems of empirical research .
can Journal of Sociology 63 (6), May 1958, pp. 607-619.
(19) Selvin, H. C. The logic of survey analysis. Rapport prliminaire multigraphi, 1964.
(20) Simon, H. A. On the definition of a causal relation . Journal of Philosophy 49,
July 1952.
(21) Simon, H. A. Causal ordering and identifiability in: Studies in econometric
methods, edited by Hood and T. C. Koopmans. New York, Wiley 1953 {Cowles
Commission Monographs).
(22) Simon, H. A. Spurious correlation : a causal interpretation . Journal of the
rican statistical Association 49, September 1954.
(Ces trois derniers articles sont reproduits in : Simon, H. A. Models of man, New
York, Wiley, 1957).
(23) Simon, H. A. Causality and econometrics: comment. Econometrica 23, 1955.
(24) Tukey, J. W. Causation, regression and path analysis in: Statistics and
matics in biology, edited by Kempthorne and others. Ames (Iowa), Iowa State
College Press, 1954.
(25) Wold, H. O. Causality and econometrics . Econometrica 22, 1954.
(26) Wold, H. O. A generalization of causal chain models . Econometrica 28, i960.
(27) Wright, S. 1 he method of path coefficients . Annals of mathematical Statistics 5,
1934 (Bibliographie).
(28) Wright, S. The interpretation of multivariate systems in : Statistics and
matics in biology. Op. cit.
(29) Zeisel, H. Say it with figures, New York, Harper and Brothers, 1947.

43

You might also like