You are on page 1of 44

E CONOMETRIE 1

Sous la supervision du Professeur BOSONGA BOFEKI
Licence 1 Economie

Ass. Cédrick Tombola M.

0

Rappels et recueil d’exercices

Cédrick Tombola M. /Assistant
Copyright © cdktombola-Laréq - mars 2012

UPC

Ass. Cédrick Tombola M.

1

A travers cette contrée chaotique, des hommes audacieux et tenaces ont lancé le premier chemin de fer de l’Afrique centrale. Henry Merton Stanley

Ass. Cédrick Tombola M.

2

AVANT-PROPOS
Je ne peux nier, quand j’ai commencé la rédaction de ce recueil, l’ambition de confectionner un vade-mecum d’introduction à l’Econométrie à l’intention des étudiants de première licence FASÉ. Mais le nombre de projets sur la file d’attente et les nombreux défis entre lesquels il me faut partager mon temps d’une part, et le besoin réel et urgent chez les étudiants de disposer d’un recueil qui accompagne le cours magistral assuré par le professeur d’autre part, m’ont obligé à ne produire qu’une ébauche. Le projet de proposer ce recueil est né de la déception et de l’insatisfaction que j’éprouvais, encore étudiant, lors des séances TP d’Econométrie 1. Alors qu’ailleurs ils prennent de la vitesse, nous, me semblait -il, on tombait, paradoxalement, dans la suffisance. Ce recueil a donc été rédigé de façon à permettre aux étudiants de porter un autre regard sur les notions qu’ils apprennent pendant le cours théorique et de voir plus loin que moi. Le choix des applications a également été fait dans cette optique. On remarquera que, par souci pédagogique et d’excellence, je me suis plus attardé sur les aspects et les démonstrations les moins populaires, bref, sur les non-dits. Les étudiants passionnés et qui veulent aller loin en Econométrie, trouveront aussi, en annexe, une initiation aux logiciels économétriques STATA et EVIEWS. Enfin, en le mettant à la disposition du public, je formule le vœu que ce recueil suscite, parmi mes étudiants et mes collègues de la FASÉ, de nombreux esprits critiques qui pourront nous proposer mieux et ainsi éviter que nos efforts pour l’avancement de cette faculté ne s’essoufflent et n’atteignent, prématurément, un état stationnaire , ce qui serait dommage .

Remerciement
Je remercie le professeur Jean-Pierre Bosonga pour la confiance qu’il a eue en moi – à vrai dire, sans vraiment me connaître – et pour m’avoir orienté dans la rédaction de ce recueil. Mes sincères remerciements vont à mon aîné et mon ami l’assistant Jean-Paul Tsasa V. Kimbambu, pour nos nombreuses discussions, parfois laissées en queue de poisson, et pour l’idéal qu’il m’a transmis. Je remercie aussi mes étudiants de première licence FASÉ, de la promotion 2011-2012, pour avoir beaucoup exigé et attendu de moi ; ils m’ont contraint à plus de sérieux dans le travail, et je leur en suis reconnaissant. Bien entendu, ce support n’engage que son auteur. Toute remarque pertinente pouvant en améliorer le contenu sera la bienvenue.

Dédicace
Je dédie ce recueil à l’avenir du LAREQ et à l’émergence d’une nouvelle classe d’enseignants à l’UPC.

Cédrick Tombola M. cedrictombola@lareq.com

Ass. Cédrick Tombola M.

3

.I.

INTRODUCTION
I.1. Quelques points de l’histoire
α. Avant 1930 : Le Moyen-âge économétrique Les premiers développements de l’Econométrie1 peuvent remonter, selon Gérard Grellet, au 17ème siècle, l’époque de l’Arithmétique politique [Political Arithmeticians, en anglais] en Angleterre, avec des auteurs comme William Petty, Gregory King et Charles Devenant, pour leurs tentatives de modélisation à partir des données empiriques. Selon d’autres auteurs, on doit la genèse de l’Econométrie aux travaux de tentative d’unification de l’Economie et la Statistique d’Auguste Cournot et de Jules Dupuit en France, de William Stanley Jevons en Angleterre et de Henry Ludwell Moore aux Etats-Unis. Ces auteurs tentèrent d’élaborer des lois économiques { l’instar des lois de la physique newtonienne. Mais il convient simplement de retenir que nombre de méthodes et techniques auxquelles recourt l’Econométrie, ont été développées bien avant son institutionnalisation comme disci pline des sciences économiques. A titre d’exemple : - En 1805, dans son ouvrage intitulé « Nouvelles méthodes pour la détermination des orbites des comètes », puis en 1806 dans la deuxième édition du même ouvrage, le mathématicien français Adrien-Marie Legendre propose, par une méthode algébrique, le premier développement rigoureux de la méthode des moindres carrés ordinaires. - En 1809, Carl Friedrich Gauss, dans son traité « Theoria motus corporum coelestium », propose, par une approche probabiliste, un autre développement rigoureux de la méthode des moindres carrés ordinaires dont il se réclame la paternité. Dans une lettre adressée à Pierre-Simon de Laplace2, il explique qu’il avait fait usage de cette méthode déjà en 1795, et de manière un peu plus fréquente, dans ces calculs astronomiques sur les nouvelles planètes, depuis 1802. Plus tard, en 1829, Carl F. Gauss et Andrei A. Markov démontrent que l’estimateur des moindres carrés ordinaires est BLUE [en anglais : Best Linear Unbiaised Estimator]. C’est-à-dire qu’il est le meilleur estimateur linéaire non biaisé, à variance minimale. - En 1886, dans son étude sur la transmission des caractères héréditaires, Francis Galton, de qui le terme régression tire son origine, fournit une première régression linéaire. Plus tard, son disciple Karl Pearson, en 1896, dans son ouvrage « La Grammaire de la Science », développe la notion de corrélation linéaire et propose un estimateur pour cette grandeur. La corrélation a été introduite en Economie en 1902, avec l’ouvrage de Arthur Lyon Bowley « Elements of Statistic ». - En 1909, Georges Udny Yule invente les premières applications économiques de la méthode de la corrélation et introduit à la même occasion la notion de corrélation partielle. Et en 1926, il dénonce les

1

On attribue souvent à tort au norvégien R. Frisch, la création du mot économétrie qui revient plutôt à Pavel Compria. Il inclut lui-même un exposé de la méthode des moindres carrés ordinaires dans son traité de 1820 : « Théorie analytique des probabilités ». En 1808, le mathématicien américain Robert Adrain a aussi publié une formulation de la méthode des moindres carrés.
2

Wiener. La révolution Keynésienne [1936]. la domination du keynésianisme jusqu’{ la fin des années 60. d’un point de vue empirique. β. Frisch crée la revue Econometrica pour la promotion des études qui ont pour but une unification des approches quantitatives théoriques et empiriques des problèmes économiques. Ainsi. Il devient ainsi. du type keynésien. le développement de l’inférence statistique { la fin du 19 ème siècle et le consensus entre les économistes autour du cadre IS – LM avant 1970. Mills. Jan Tinbergen estime un premier modèle économétrique à équations simultanées. Frisch. par Alfred Cowles. . Fisher. entre 1944 et 1960. Cédrick Tombola M. A. Ogburn. I. Schumpeter. Hotelling. Ore. par 16 économistes3 dont Ragnar Frisch4 et Irving Fisher sont les plus cités. Frisch écrivit ainsi dans le premier numéro de la revue Econometrica : "L'expérience a montré que chacun des trois points de vue suivants. fondée le 9 septembre 1932. Wedervang. J. d'une compréhension effective des relations quantitatives de la vie économique moderne : c'est leur unification qui est efficace. Il faut noter également que le krach financier des années 30. Wilson. le père des modèles économétriques. risque de manquer de consistance ou de pertinence.Ass. A ce sujet. 3 R. l’Econométrie a connu un grand essor.En 1944. On note aussi que dès le départ. sans le soutien d'une pensée économique profonde et rigoureuse. pour les promoteurs de l’Econometric Society. ce qu’il convient de traduire par corrélations fallacieuses . sont aussi parmi les facteurs explicatifs de l’essor de l’Econométrie depuis 1930. . Shewart. Schultz. . Puis montre que la corrélation de deux séries chronologiques peut être totalement artificielle. La mise en œuvre de pures investigations statistiques qui. H. Depuis 1930 : La naissance de l’Econométrie moderne L’institutionnalisation de l’Econométrie en tant que discipline des sciences économiques s’est réalisée en 1930 – exactement le 29 décembre 1930 – { l’occasion de la création { Cleveland. Depuis la création de cette société. celui de la statistique. de l’Econometric Society [la Société d’Econométrie] avec comme devise : ’’ pour l’avancement de la théorie économique dans ses relations avec la statistique et les mathématiques’’. mais par elle même non suffisante. la plus grande partie de la recherche en Econométrie porta sur les conditions d’estimation des modèles macroéconométriques à équations simultanées. avec la logique de circuit. C'est cette unification qui constitue l'économétrie ’’. R. C’est ainsi qu’en 1933. K. Trygve Haavelmo pose les conditions générales de solvabilité d’un système d’équations linéaires. et de la Cowles commission – spécialisée dans les méthodes d’estimation des modèles { équations simultanées –. surtout au sein de la Cowles commission. Snyder . F.En 1935. celui de la théorie économique et celui des mathématiques est une condition nécessaire. Rorty. comportant 31 équations de comportement et 17 identités. il était clair que deux déviations devraient être évitées :   La construction d'édifices mathématiques purement logiques et déconnectés du réel économique. Roos. aux Etats-Unis. 4 « spurrious correlations ». deux ans après l’Econometric Society. Menger . a développé un autre type de raisonnement macroéconomique en termes d’a grégats objectivement mesurables par la comptabilité nationale et de comportements mesurés par les propensions. en dépit de leur caractère poussé et de leur apparence réaliste. 4 Premier lauréat du prix de la Banque de Suède – communément appelé prix Nobel en mémoire de son fondateur Alfred Nobel – d’économie en 1969 avec Jan Tinbergen. R.

Il estime pour l’économie américaine (1921-1941). la fin des Trente Glorieuses5 . Durbin et Watson élaborent leur célèbre test d’autocorrélation des erreurs. devient inefficace du fait de la prise en compte des anticipations rationnelles. …]. C’est-à-dire à une remise en cause radicale des modèles macroéconomiques structurels développés au sein de cette institution. il pose la problématique des anticipations rationnelles. de Robert Emerson Lucas 6. James Tobin développe les modèles microéconométriques. toute mesure de politique économique. L’irruption de l’informatique au début des années 60 va donner un nouveau coup de pousse { l’expansion de l’Econométrie. White. et sera le premier modèle utilisé à des fins prévisionnelles. Les années 1970 : La révolution des anticipations rationnelles Les années 1970 ont été marquées par cinq faits majeurs qui ont conduit { l’éclatement du paradigme de la Cowles commission. En 1954. Les critiques les plus acerbes et sévères sont venues essentiellement. Cagan et Friedman. La même année. De fait. considéré comme le père des modèles microéconomiques. Almon. La stagflation et la remise en cause de la courbe de Phillips. Ce modèle est amélioré plus tard. 6 Lauréat du prix Nobel d’Economie 1995. dès 1972. La naissance de la MFM [MicroFoundations of Macroeconomics] ou la Macroéconomie Microfondée. Cédrick Tombola M. Il discrédite les modèles macroéconométriques traditionnels. le retour aux modèles walrassiens et le développement des modèles d’équilibre général calculable [MEGC]. qu’ont connu les pays développés . par L. qui désigne la période de forte croissance économique. 5 Trente Glorieuses : Titre d’un livre de Jean Fourastié. Klein introduit également la notion de multicolinéarité. C’est ce que la littérature qualifie de la fameuse critique de Lucas. Toujours dans les années 50. L’on peut également citer les travaux suivants développés entre 1950 et 1970 : la méthode des moindres carrés généralisés et l’introduction du calcul matriciel en Econométrie par Aitken.En 1950. il y eut un développement des modèles à retards distribués par Koyck. En 1961. 5 . Plusieurs autres travaux seront produits au sein de la Cowles commission. Yair Mundlak conçoit les méthodes basées sur les données de panel. . Lucas interdit les prévisions myopes et adaptatives. en fustigeant leur incapacité à expliquer et à prévoir les bouleversements provoqués par le 1èr et le 2ème chocs pétroliers. un modèle macroéconométrique de type keynésien à 16 équations. Il est parfois considéré comme le père des modèles macroéconométriques. Il est. historiquement. La chute du keynésianisme et le rejet des modèles économétriques traditionnels – devenus caducs – basés sur le paradigme IS – LM . Le deuxième choc pétrolier [en 1979] ou le doublement du prix des produits pétroliers . ce qui marque. ajoute-t-il. Henri Theil et Robert Léon Basmann introduisent la méthode des doubles moindres carrés. en 1955. de l’après-guerre au premier choc pétrolier. publié en 1977.Ass. En 1950. à ce titre. De plus. de plein-emploi et d’augmentation des salaires réels et des revenus. Lawrence Klein ouvre la vogue de la modélisation macroéconométrique. Klein et Arthur Goldberger. les agents pouvant l’anticiper et la contrer. les tests et corrections de l’hétéroscedasticité [Glejser. ce qui veut dire que les agents économiques sont intelligents et capables de former leurs anticipations sur une base endogène et ainsi anticiper toute mesure de politique économique. Ces faits sont :      Le premier choc pétrolier [en 1973] ou le quadruplement du prix des produits pétroliers. γ. Il leur reproche de manquer de fondations microéconomiques suffisamment solides.

de faire un bras de fer avec l’irruption et la domination de l’Econométrie dans le champ de la science économique. … ».En 1982. philosophe. . qui est un outil de validation des théories.Ass. et plus loin encore dans l’histoire. surtout en termes de relations qu’elle entretient avec la théorie économique. 8 . Clive William John Granger et P. historien. comme une réponse aux défaillances constatées dans la capacité de prévision des modèles élaborés à la suite des travaux de Tinbergen. homme d’Etat .En 1970. Newbold mettent en garde contre les « spurrious regressions » ou régression fallacieuse. ces deux dernières décennies. ce qui n’était pas possible avec les modèles ARMA et VAR. Clive Granger et Robert Engle développent la méthode de cointégration dans le traitement des séries non stationnaires. reproche aux économètres d’avoir mis la charrue devant les bœufs en remettant en cause la distinction à priori entre variables endogènes et variables exogènes. Applications et place de l’économétrie La démarche en sciences économiques est hypothético-déductive. Johansen propose une version améliorée du test de cointégration Engle – Granger. écrivait : « L’économiste doit être mathématicien. depuis la création de la société d’Econométrie. pour le cas d’ajustement par les MCO d’un modèle avec séries non stationnaires. n’aurait-il pas lui-même ajouté l’économiste doit être économètre ? Il est clair qu’il n’est plus possible { ce jour.Déjà en 1974. l’économiste ne doit-il pas être aussi économètre ? John Maynard Keynes. de se soustraire de la catégorie d’économistes modernes. purement et simplement. avec Thomas Sargent. S’il est vrai que l’usage des mathématiques est la garantie de la rigueur et de la cohérence interne des théories économiques modernes. Christopher Sims7. . en 1988. Ceci motive le recours { des outils plus puissants notamment l’Econométrie. 7 Lauréat. Plusieurs méthodes encore ont été développées depuis la fameuse critique de Lucas. Robert Engle développe le modèle ARCH afin de prendre en compte la non linéarité et la forte volatilité des variables financières.En 1987. et considère toute variable comme potentiellement endogène 8.En 1980. au risque. dans les années 1930. . C’est-à-dire que les théories économiques ne sont valables que dans le domaine défini par leurs hypothèses. Cette démarche de Sims s’inspire de l’un des grands principes de la théorie de l’équilibre général. S’il faut transférer la pensée de Keynes aujourd’hui. intitulé Macroeconomics and Reality. La critique de Sims va permettre { l’Econométrie de devenir beaucoup plus autonome et de s’émanciper de la tutelle de la théorie économique . Une année après. L’Econométrie va connaitre un changement radical. Cédrick Tombola M. au même moment. George Box et Gwilym Jenkins développent le modèle ARMA [AutoRegressive with Moving Average] – qui est un mélange des modèles AR et MA développés en 1927 respectivement par Georges Yule et Eugen Slustsky –. la question reste cependant posée quant à la pertinence de leurs hypothèses. sel on lequel toutes les variables économiques sont déterminées simultanément. en généralisant le modèle ARMA en modèle VAR [Vector Auto Regressive] afin de tenir compte. 6 Cette critique a poussé les économètres à penser plus profondément sur les fondements de leur discipline et a donné lieu à des critiques plus sévères. De fait donc. L’Econométrie a donc connu. dans un article qui a connu un succès d’estime lors de sa parution. un essor vertigineux. . du prix Nobel d’Economie 2011. . C’est ce que la littérature appellera l’Econométrie sans théorie. δ. de plusieurs variables.

Barro et Sala-iMartin [1995]. Easterly et Rebelo [1993]. Ils montrent que le modèle de Solow augmenté du capital humain est cohérent avec les données observées. Voici quelques exemples significatifs:  En économie de guerre. Dans son schéma. les plus exhaustifs possibles relativement { l’information contenue dans les données. En économie de la croissance. a utilisé un modèle linéaire à variables instrumentales pour estimer l'effet du nombre de policiers sur la criminalité. Acemoglu. Goldfard et C. En 2002. Freakonomics. Mankiw. Conditions de Yule Le statisticien britannique Georges U. Cédrick Tombola M. une caractéristique statistique doit être une valeur-type : 1. peu sensible aux fluctuations d’échantillonnages. à partir d’un échantillon suffisamment représentatif. Collier – Hoeffler [1999] ont mis en évidence. 5. Source : Adapté de B. de signification concrète pour être comprise par les non-spécialistes. témoigne de la diversité des applications possibles de l'économétrie. Le choix d’un indicateur sera l’objet d’un compromis guidé par la spécificité de l’étude en cours. Plus tard. Pardoux. Romer et Weil. dans une étude publiée en 2006. Il est possibl e de tirer des conclusions sur une population. 7 Pour renchérir. les déterminants politiques permettant de mettre fin aux guerres civiles et de relancer l’économie en période post-conflit. simple à calculer. ont utilisé un modèle de régression linéaire pour tester empiriquement la pertinence du modèle de Solow. l’Econométrie s'applique à tous les domaines auxquels s'applique la science économique. Encadré 1. se prêtant aisément aux opérateurs mathématiques classiques. Et comme les données en elles-mêmes ne sont pas intelligibles.    I. Sa première démarche pour synthétiser les données consiste { calculer les paramètres de description. 1995. en vue de faire de la prédiction. dépendante de toutes les observations. Morse et Zingales ont montré que le nombre d’articles empiriques cités en économie est passé de 11 % à 60 % entre 1970 et 2000. en 1992. 3. le statisticien recherche la synthèse. Levitt. 2. définie de façon objective et donc indépendante de l’observateur. ont aussi eu recours aux méthodes économétriques afin de rendre compte de l’effet des dépenses publiques sur la croissa nce.2. Johnson et Robinson ont utilisé une régression linéaire pour estimer l'effet des institutions sur le développement actuel des pays. la démarche du statisticien consistera à contraster des données empiriques aux lois théoriques. . les économistes Kim. En économie de la criminalité. ceux-ci doivent être d’une part. c’e st la statistique descriptive. Yule a énoncé un certain nombre de propriétés souhaitées pour les indicateurs des séries statistiques . Ce qui confirme l’importance de plus en plus croissante de l’Econométrie dans l’univers des économistes. c’est la statistique inférentielle [ou mathématique].Ass. dont on connait parfaitement les comportements. par le recours à un modèle économétrique. Quelques rappels statistiques La force de la statistique est qu’on n’est pas obligé d’étudier toute la population. En réalité. des résumés ‘‘maniables’’ et d’autre part. Par ailleurs. on ne dispose pas de caractéristiques répondant simultanément à ces six conditions. en 1997. 6. 4. L'ouvrage de Levitt et Dubner.

le Q1 est la médiane de la première souspopulation. la médiane résiste aux valeurs extrêmes. Après avoir classé les données et séparé la population en deux. Après avoir classé les données en ordre croissant. La variance : 𝛔𝟐 𝐱 = 𝟏 𝐧 𝐧 (𝐱𝐭 − 𝐱)𝟐 𝐭=𝟏 La variance empirique : 𝐬 𝟐 𝐱 = 𝟏 𝐧 − 𝟏 𝐧 (𝐱𝐭 − 𝐱)𝟐 𝐢=𝟏 La variance est la moyenne arithmétique des carrés des écarts d’une variable { sa moyenne arithmétique. Indicateurs de dispersion 5. L’étendue : max xt – min xt L’étendue est la différence entre la plus grande et la plus petite des valeurs observées. x25%] Le deuxième Quartile [ou quantile d’ordre x50%] Le troisième Quartile [ou quantile d’ordre x75%] Q2 2. Elle est très influencée par les valeurs extrêmes et ne satisfait pas aux conditions 2 et 5 de Yule. La variance est un estimateur biaisé car utilisant un autre estimateur dans son calcul. 7. 8 Indicateurs de position [ou de tendance centrale] Soit une variable X observée sur un échantillon de n individus. moyenne harmonique. Elle conserve la somme totale et satisfait à toutes les conditions de Yule. . xt est la valeur prise par X pour l’observation t. elle s’exprime dans le carré de l’unité en laquelle s’expriment les observations. la moyenne arithmétique est appelée « Espérance mathématique ». 9 Dans le langage courant. L’écart-type : 𝛔 𝐱 = 𝛔𝟐 L’écart-type empirique : 𝐬𝐱 = 𝐬𝟐 𝐱 𝐱 L’écart-type est la racine carrée de la variance. le mode satisfait aux conditions 1. avec la variance on change d’échelle. Or. 3 et 4 de Yule. Le premier Quartile Q1 [ou quantile d’ordre 1. Mais comme on le voit. au point milieu [à la moyenne arithmétique de deux points milieux]. on dit simplement moyenne. 8. Elle satisfait aux conditions 1.Ass. les quartiles satisfont aux conditions 1. 𝟏 𝐧 𝐧 1. Il est la mesure de dispersion la plus utilisée. Pour une distribution discrète. 4 et 5 de Yule. Le Q3 est la médiane de la deuxième souspopulation. Elle donne une idée de la dispersion [ou déviation] de chaque observation x t autour de sa moyenne. 2 et 6 de Yule. celle qui a la fréquence la plus élevée. et est plus sensible aux fluctuations d’échantillonnage et aux valeurs extrêmes que la moyenne arithmétique. 3. Contrairement à la moyenne arithmétique. Valeur telle qu’au moins 75% des valeurs prises par x lui sont inférieures. Elle satisfait aux conditions 1. L’Etendue [écart] interquartile : EIQ = Q3 – Q1 L’écart interquartile n’est pas sensible aux valeurs extrêmes. Q3 3. car elle est une mesure sensible aux valeurs extrêmes. moyenne quadratique]. Le mode [Mo] : est la valeur dominante de la série. il existe différentes moyennes [moyenne géométrique. Comme la médiane. La médiane [Me] : est la mesure qui divise la série en deux groupes de tailles égales. elle correspond pour n impair [pair]. 6. selon la manière dont le total des individus est calculé. Note : La variance empirique est l’estimateur non biaisé de la variance. en raison des élévations au carré. Valeur telle qu’au moins 25% des valeurs prises par X lui sont inférieures. 4. sauf la 5ème. 3. 2 et 6 de Yule. La moyenne arithmétique : 𝐱 = 𝐱𝐭 𝐭=𝟏 La moyenne arithmétique9 est la mesure de répartition équitable. Les quartiles Note : Les quartiles non plus ne subissent pas l’influence des valeurs extrêmes. 2. Pour revenir { l’échelle du départ. Cédrick Tombola M. 3. Elle satisfait aux conditions 1. 4 et 5 de Yule. Le Q2 est la médiane. on prend sa racine carrée qui est l’écart-type. Lorsque les valeurs sont aléatoires.

si a=0 et r=1. telle que la loi normale. au 19ème siècle. Le moment centré sur a d’ordre r aμ r = 𝟏 𝐧 𝐧 (𝐱𝐭 − 𝐚)𝐫 𝐭=𝟏 Les moments ont la vertu de permettre de mettre ensemble les principales mesures de description. Test d’hypothèse [un petit commentaire] . C’est le cas d’une distribution gaussienne [normale]. on dira moment centré pour parler de moment centré sur la moyenne arithmétique. par Carl F. la moyenne arithmétique est égale à la médiane égale au mode. Elle a été introduite. Cédrick Tombola M. L’asymétrie [Skewness en anglais]: est basée sur le moment centré d’ordre 3. La variance serait donc le moment centré sur la moyenne arithmétique d’ordre 2. De plus. Asymétrie à gauche [distribution étalée à droite] Distribution symétrique Asymétrie à droite [distribution étalée à gauche] γ1>0 x=Me=Mo γ1=0 γ1<0 10. A titre d’exemple. On dit qu’elle est parfaite. Elle est également connue sous le nom de la loi de Gauss.Ass. Le coefficient d’aplatissement de Fisher : γ2 = 𝛍𝟒 𝛍𝟐 𝟐 –3 γ2 est nul pour une distribution mesokurtique. par le mathématicien Abraham de Moivre. les moments centrés d’ordre impair sont nuls pour une distribution symétrique. 9 Indicateurs de forme [de la distribution] Parlons tout d’abord de la notion des moments. Pour une distribution symétrique. etc. Note : dans la suite. 9. Une variable distribuée selon cette loi est dite normale ou gaussienne. qui est à la fois symétrique et mesokurtique. Le coefficient d’asymétrie de Fisher : γ1 = 𝛍𝟑 𝛍𝟐 𝟑/𝟐 γ1 est nul pour une distribution symétrique. qui n’est rien d’autre que le moment non centré d’ordre 1. car sa densité de probabilité dessine une courbe en cloche ou courbe de Gauss. Distribution platokurtique Distribution mesokurtique Distribution leptokurtique γ2<0 Cas de la distribution de Student γ2=0 Cas de la distribution normale γ2>0 La loi normale La loi normale est une des principales distributions de probabilité. qui signifie bosse] : est basé sur le moment centré d’ordre 4 et permet de mesurer l’importance des queues d’une distribution ou son aplatissement. et mise en évidente plus tard. Gauss. L’aplatissement [Kurtosis en grec. On peut aisément vérifier que le moment centré sur la moyenne arithmétique d’ordre 1 (μ1) est nul. telle que la loi normale. en 1733. on retrouve la moyenne arithmétique.

Ci-après sont exposés uniquement les tests les plus fréquemment utilisés et les plus opérationnels. Il s’agit donc de confronter une hypothèse dite nulle [HO] contre une hypothèse de recherche ou alternative [H1]. noté α. les coefficients de corrélation. Note : On accepte une hypothèse en refusant sa fausseté et non en acceptant sa vérité. ici nous ne reprenons que quelques uns. seul le risque α est utilisé comme critère de décision. 𝒙 ± 2σ contiennent 95% des observations. 1-118. pour les analyser. voire impossible. Quelques tests statistiques de normalité Dans son article de 194410. qui est la probabilité de ne pas rejeter HO alors qu’elle est fausse. Le risque β étant difficile { évaluer. de faire comme si les données économiques étaient générées par une loi de probabilité qu'il fallait identifier de façon adéquate. 10 11 Haavelmo. Avant donc toute étude formelle. The Probability Approach in Econometrics. mais puisque l’on ne dispose que d’un nombre fini d’observations. qui a marqué une étape décisive dans le développement de l’Econométrie . Les nombreux tests11 de normalité d’une distribution que fournit la littérature peuvent se regrouper en deux familles : Les tests informels et les tests formels. Cédrick Tombola M. Il existe deux façons de se tromper lors d’un test statistique :  La première façon de se tromper est de commettre l’erreur [ou risque] de première espèce. Si n est le nombre d’observations Tests informels    Histogramme des fréquences tuyau d’orgue] Box – plot [ou Boîte-à-pattes] QQ – plot [ou droite de Henry] [ou Tests formels    Test de Jarque – Bera Test de Shapiro – Wilk Test K2 d’Agostino – Pearson En termes d’efficacité Si n > 88 Si n ≤ 50 Si n ≥ 20 Les tests informes donnent une présomption tandis que les tests formels apportent une approche plus rigoureuse et objective.  La deuxième façon de se tromper est de commettre l’erreur [ou risque] de deuxième espèce. (1944). dans ce cas. HO est vraie Ne pas rejeter HO Rejeter HO Erreur de 1ère espèce α HO est fausse Erreur de 2ème espèce β L’idéal serait que ces deux erreurs soient nulles. le travail de l’économètre est de tester l’adéquation ou la conformité d’une distribution observée avec une distribution théorique associée { une loi de probabilité. D’abord. dans ce cas. qui est la probabilité de rejeter à tort HO alors qu’elle est vraie. De plus. il a défendu l'idée que l'emploi des mesures statistiques telles que les moyennes. il faut faire un choix. T. Une notion essentielle qui concerne les tests est la probabilité que l'on a de se tromper. noté β. que β est la probabilité d’avoir un faux négatif. il suffisait. pour une distribution gaussienne. les écarts-type. estimait-il. Parmi ces tests d’adéquation.Ass. . Haavelmo a avancé deux thèses. écrit dans l’objectif de briser la réticence de ses contemporains vis-à-vis de l’application des méthodes statistiques aux données économiques. que α est la probabilité d’avoir un faux positif. car elle sous-tend la plupart de tests paramétriques utilisés en Econométrie. peu importe la vraie nature des faits économiques. Supplement to Econometrica. On dit. On dit. 10 Un test d'hypothèse est une démarche consistant à évaluer une hypothèse statistique en fonction d'un échantillon. Il existe une batterie de test de normalité. à des fins d'inférence n'a réellement de sens que dans un contexte probabiliste. A titre de rappel. 12. la conformité { la loi normale est le test le plus ut ilisé. I.3.

5 – (1. on calcule deux valeurs adjacentes : Frontière Basse [FB]= Q1 – 1.Pour une distribution symétrique. la valeur 1. Calculer la longueur des moustaches ou des pattes [inférieure et supérieure] : Pour savoir jusqu’où vont les moustaches. α. Q2 divise la boîte exactement en deux parties égales. Boîte à moustache.Pour une distribution symétrique. Pour la longueur de la moustache supérieure : prendre.5EIQ Selon Tukey. .La largeur de la boîte est fixée à priori. Construire la boîte : .La longueur de la boîte est donnée par l’EIQ .5 + (1. Les étapes à suivre dans sa construction peuvent être résumées comme suit : a. la valeur minimale xb directement supérieure à FB. De plus la médiane (Q2) est égale à la moyenne. la valeur maximale xh directement inférieure à FH. Il ressort. Min xi et Max xi b. A retenir : .Ass. Pour la longueur de la moustache inférieure : prendre. est un outil graphique très pratique qui permet de caractériser une distribution en fournissant un résumé riche d’informations sur sa dispersion et son asymétrie. Q3. que la distribution est symétrique. ce qui est une présomption de normalité. parmi les valeurs xi prises par X. Box and Whiskers Plot 11 Le Box – plot. Q2.5)7 = 26 Etendue 13 14 15 16 17 18 Min xi = 6 et Max xi= 18 𝐱 = 12 Etendue = 10 Xb = 6 Xh =18 * FB Min xi Xb Q1 Q2 Q3 Max xi Xh FH EIQ La croix à l’intérieur de la boîte représente la moyenne.5)7 = – 2 9 10 11 12 Q3 = 15.5 EIQ = 7 FH = 15. puisque Q2 sépare la boîte en deux parties égales. soit xb = min {xi| xi ≥ FB}. Diagramme en boites. parmi les valeurs xi prises par X. .5EIQ Frontière Haute [FH]= Q3 + 1. le Box – plot est également utilisée comme test de normalité. Le Box – plot Synonyme : Boîte – à – pattes.5 serait plus pragmatique. c. soit xh = max {xi| xi ≤ FH}. Q2=𝑥 . Cédrick Tombola M.5 Q2 = 12 FB = 8. inventé par Tukey en 1977. Illustration Considérons l’exemple suivant : X 6 7 8 Q1 = 8. Du fait qu’il renseigne sur l’asymétrie d’une distribution. Porter sur une échelle les valeurs calculées suivantes : Q1.

Sa richesse consiste { ce qu’il permet de conclure { la fois sur l’asymétrie et l’importance des queues [aplatissement] d’une distribution. particulièrement pour petits échantillons [n ≤ 50]12. proposé en 1965 par Samuel Shapiro et Martin Wilk. Le test de Jarque-Bera [JB] Le test de Jarque-Bera. Palm (2002). est parmi les tests de normalité les plus populaires dans les milieux académiques. Les hypothèses du test sont : H0 : Normalité H1 : Non normalité Sous l’hypothèse de normalité de la série.210 5% 5. est valeur aberrante celle située au-delà des pattes. Le test de Shapiro-Wilk Le test de Shapiro – Wilk. Mais la remarque { faire. β. γ. calculée comme suit : n 2 a [x n −i+1 𝑖 =1 i 2 −x i ] 2 W= x (i) − x 12 Lire par exemple Royston (1982). S le Skewness et K la Kurtosis. d’ores et déj{. . Valeur lue dans la table de la loi du Khi carré à deux degrés de liberté Seuil Valeur 1% 9. proposé en 1980 par Carlos Jarque et Anil Bera.Ass. La statistique du test est calculée comme suit : JB = n S2 6 + (K −3)2 24 = n 6 S2 + (K −3)2 4 où n est la taille de l’échantillon.991 Critère de décision : Si JB ≥ à la valeur du χ2(2) de la table au seuil α. soit n > 88. Cédrick Tombola M. la statistique du test JB suit asymptotiquement une distribution du Khi deux χ2 { degrés de liberté avec le risque d’avoir un faux positif [ou seuil de signification] α = 5%. Le test JB est fondé sur les coefficients d’asymétrie et d’aplatissement. Après avoir construit le Box – plot. est considéré dans la littérature comme l’un des tests de conformité { la loi normale les plus fiables et les plus efficaces. Ce test est basé sur la statistique W. alors RH0 de normalité. 12 Note : la Boîte–à–pattes permet également de détecter les valeurs aberrantes ou singulières [déviants ou atypiques ou encore outliers]. est qu’il est particulièrement approprié pour grand échantillon.

l’économètre poursuit un triple objectif :    Quantifier et tester les théories Faire des prévisions Evaluer l’efficacité des mesures de politique économique Lire Tsasa Jean –Paul [mars 2012] pour les illustrations. x(i) : correspond à la série des données triées en ordre croissant Les hypothèses du test sont : H0 : la variable X est gaussienne H1 : la variable X est non gaussienne La statistique W est confrontée à une valeur lue dans la table des valeurs limites de W proposée par Shapiro et Wilk. malgré l’émancipation de l’Econométrie depuis le fameux article de 1980 de Sims. notées Xt : sont de données indicées par le temps. avec n le nombre d’observations et au seuil α [5% en général]. Les trois piliers de l’économétrie La théorie économique Les données Les méthodes De par sa nature l’Econométrie est intimement liée à la théorie économique qui lui fourni les modèles et théories qu’elle teste. Critère de décision : Si W < WTable(n) au seuil α. Aujourd’hui encore. Le PIB de la RDC de 2000 à 2010. Les méthodes. . on parle également des séries chronologiques ou séries temporelles. Cédrick Tombola M. les informations fournies par un échantillon. où n : est la taille de l’échantillon n 2 n 2 13 : est la partie entière du rapport ai : sont des valeurs lues dans la table des coefficients de Shapiro et Wilk.Ass. en permettant une mise en correspondance des théories et des faits économiques. l’on ne peut trancher en défaveur du mariage théorie économique – Econométrie. La théorie économique . l’Econométrie utilise les données observées. et à partir d’informations livrées par le monde réel. C'est elle qui permet de confirmer ou 13 Pour tester les théories. γ. Trois types de données :  Chroniques [times series en anglais]. En recourant aux méthodes statistiques.3. β. alors RH0 [la variable est non gaussienne]13. I. Selon Ado et Davidson [1998]. L’économétrie a principalement recours à trois types et deux formats de données. La méthode la plus populaire en Econométrie est celle des moindres carrés ordinaires. connaissant n et l’indice i. Ex. Ce sont les méthodes statistiques qui permettent de mettre en œuvre et d’exploiter un modèle { partir d’informations provenant de l’échantillon. Les données . L'économétrie est précisément le moyen qui permet au discours économique d'échapper à la vacuité de son formalisme. Trois piliers de l’économétrie L’économétrie se fonde sur trois piliers { savoir : α. Note : Les deux tables utilisées pour mener ce test sont reprises en annexe.

Données en Panel [pooling en anglais]. sexe. on parle aussi de coupe instantanée.] Qualitatives [ex : paix. etc. on parle aussi des données croisées. pour des individus différents.] . 14 L’Econométrie n’a donc pas pour objet d’énoncer la théorie mais de la vérifier. notées Xit : font référence à la combinaison de deux premiers types. Le PIB de 2000 à 2010 de tous pays de l’Afrique Centrale.  Données en Coupe longitudinale [cross section en anglais]. d'infirmer les modèles théoriques. Cédrick Tombola M. religion. du moins ceux qui admettent une représentation économétrique. niveau d’étude. etc. notées Xi : font référence aux données observées au même moment. Taux d’inflation. Ex. lorsque l’échantillon sondé reste le même d’une période { l’autre.  Deux formats des données :   Quantitatives [ex : PIB. Le PIB en 2009 de tous les pays de l’Afrique Centrale. Ex.Ass. On parle aussi de cohorte.

De plus. en moyenne et la plupart du temps lorsque le revenu d’un individu augmente. Cédrick Tombola M. Modèle économétrique Toujours selon Barbancho. le modèle spécifié par l’économiste est défini comme étant une maquette de la réalité ou d’un phénomène sous forme d’équations dont les variables sont des grandeurs économiques. mais dans une proportion moindre { l’augmentation de son revenu. il faut donc les estimer. Ct=α0 + α1Yt + ut [modèle spécifié par l’économètre] La première partie de ce modèle [α0 + α1Yt] constitue sa partie systématique et la deuxième [ut] sa partie stochastique ou aléatoire. Il synthétise l’influence sur Ct [variable expliquée] de toutes les autres variables oubliées et des erreurs éventuelles de spécification de la forme fonctionnelle dans le modèle spécifié par l’économiste. A ce sujet. on ne sait plus les calculer. .4. Modèle économique versus modèle économétrique α. Il convient de noter également que le terme d’erreur ut [bruit. 15 I. Lester C. un modèle économétrique n’est autre chose qu’un modèle économique qui contient les spécifications nécessaires pour son application empirique. D’après cette loi. un modèle est l’expression mathématique d’une certaine théorie économique. 14 Cité par Kintambu Mafuku (2004). sa présence dans le modèle rend les paramètres α0 et α1 inconnus. cette loi peut être spécifiée comme suit : Ct= α0 + α1Yt [avec α1 : propension marginale { consommer. L’exemple de la loi psychologique fondamentale de Keynes est assez pertinent { cet effet. il augmente aussi sa consommation. Thurow note ceci : « Les équations décrivent à quoi ressemblerait le monde réel s’il ressemblait à la théorie ». β. Mathématiquement.Ass. C’est donc le modèle économique auquel on ajoute un terme d’erreur ut. 0 < α1 < 1] En général. Modèle économique Selon Barbancho14. si on note la consommation par Ct et le revenu par Yt. perturbation ou aléa] dénote de la différence entre l’économiste et l’économètre.

noter que dans ce cadre . Relations linéaires. positive et négative.II. afin de mesurer la force du lien qui peut exister entre X et Y. Relation non linéaire monotone 10 8 6 4 2 0 0 5 10 15 -4 Figures B. 600 500 400 300 200 100 0 0 500 1000 1500 2000 600 500 400 300 200 100 0 0 500 1000 1500 2000 Figures B.Ass. Plusieurs situations sont possibles : Figures A. Cédrick Tombola M. Y) = 𝟏 𝐧−𝟏 𝐢 𝐗 𝐢 − 𝐱 𝐘𝐢 − 𝐲 15 La covariance empirique étant un estimateur non biaisé de la covariance. Il faut. d’ores et déj{. Relation non linéaire non monotone 15 10 5 Figures B. 16 . L’analyse ne permet pas de distinguer variable endogène de la variable exogène.2. de gauche à droite. L’outil graphique « diagramme de dispersion ou graphique nuage de points » est le plus adapté et indiqué pour débuter l’étude de la corrélation. les statisticiens ont eu recours au calcul de la covariance. la forme du nuage des points renseigne – à partir d’un simple coup d’œil – sur le type d’une éventuelle liaison entre X et Y. Après l’avoir réalisé. THEORIE DE LA CORRELATION L’analyse de la corrélation a pour objet de présenter les mesures statistiques destinées { rendre compte du sens et de la force de la liaison mathématique qui peut exister entre deux variables quantitatives X et Y. . la covariance empirique15 entre X et Y est calculée par la formule : Cov (X.1. Si on note par n la taille de l’échantillon et i le numéro de l’observation. la position des variables est symétrique. 3. mais elle ne permet pas de quantifier son intensité. Depuis toujours. Absence de liaison 120 100 80 60 40 20 0 -20 -50 0 -40 -60 -80 -100 50 100 150 0 -2 0 2 4 L’analyse du plot donne certes une idée sur le sens et le t ype d’association entre X et Y.

17 L’idée est que si X et Y covarient. La relation entre X et Y doit être linéaire 18 . 16 17 La somme des écarts à la moyenne arithmétique est toujours égale à 0.Ass. Les variables X et Y doivent être sont gaussiennes . le rXY est donné par la formule : rXY = cov (X. la covariance présente la faiblesse d’être fortement influencée par les unités de mesure des variables en présence. Hypothèses fortes au calcul du rXY Le calcul du coefficient de corrélation linéaire de Bravais – Pearson entre les variables X et Y n’est adapté qu’au strict respect des hypothèses suivantes :    Les variables X et Y doivent être quantitatives . α.1] peut également s’écrire comme suit : rXY = i xi yi 2 𝑖 𝑥 𝑖 2 i yi [2. le rXY est symétrique. Seulement. la relation [2.Y) = σX σY i i X i −x (Y i −y ) X i −x 2 i Y i −y 2 [2. N’oublions pas que le coefficient de corrélation linéaire sert avant tout à caractériser une liaison linéaire. . La corrélation entre une variable et ellemême est égale { l’unité. leur covariance devrait ê tre grande. Coefficient de corrélation de Bravais – Pearson Le coefficient de corrélation linéaire de Bravais – Pearson. Y) = Cov (Y. Malheureusement. noté rXY. comme mesure du degré de dépendance entre X et Y. On peut aisément démontrer que par construction.1] Si l’on considère les écarts { la moyenne arithmétique16. Le coefficient de corrélation linéaire est un nombre sans dimension dont l’intervalle de variation est : [–1. soit i Xi − x = 0. II. est un coefficient paramétrique qui donne la mesure du degré de liaison linéaire entre deux variables quantitatives X et Y normalement distribuées. Lorsqu’elle ne l’est pas. X) = 0 Cov X. le r XY ne devient pas hors de propos.2] Propriétés de la covariance et propriétés du coefficient de corrélation linéaire Propriétés de la covariance Cov (X. il standardise la covariance et la corrige de l’influence de s unités de mesure des variables. C’est cette limite qui a conduit au développement des coefficients de corrélation. dans ce cas d’espèce.1. Cédrick Tombola M. X) Cov (X. mais estime mal son intensité. Formellement. var(Y) Propriétés du rXY rXY = rYX rXX = 1 rkX = 0 – 1 ≤ rXY ≤ 1 Commentaires Comme la covariance. Note : Lorsque la liaison entre X et Y est non linéaire mais monotone. X) = Var (X) Cov (k. ce coefficient peut induire en erreur sur l’existence et l’intensité de la relation entre variables considérées. Il est donné par le rapport entre leur covariance et le produit non nul de leurs écarts – types. Ainsi. Elle serait modérément faible si les deux variables ne covarient pas. +1]17. il donne des informations sur l’e xistence de la liaison. Y ≤ var X . La corrélation entre une constante et une variable est nulle. 18 Cette information est livrée par le graphique nuage des points. le rXY reste compris entre -1 et 1.

Le travail d’interprétation d’un coefficient de corrélation linéaire se fait toujours en deux temps : une interprétation par au signe/sens de la liaison et une interprétation par rapport au degré de dépendance.80. les n points (xi. Interprétation par rapport à l’intensité       Si rXY = ± 1. Le test est de la forme : Rejet H0 si r XY 1− r 2 XY n −2 > tα/2 . le lien linéaire est très faible. Si rXY = 0. Dans ce cas. Si 0. le lien linéaire est fort [élevé]. le rXY doit être soumis à un test de significativité qui permet de vérifier si la corrélation calculée existe bel et bien au sein de la population. Si 0. (n – 2) [valeur lue dans la table de Student] γ. le lien linéaire est faible. mais possibilité d’une liaison d’un autre type]. Interprétation par rapport au signe  Si rXY > 0. on démontre que la statistique du test suit une distribution de Student au seuil α [5% sauf indication contraire] et à (n – 2) degrés de liberté.Pearson 18 Puisque le travail se fait sur un échantillon. X et Y sont positivement corrélées [la relation linéaire entre X et Y est positive]. Note : Le coefficient de corrélation linéaire entre deux variables quantitatives gaussiennes indépendantes est nul. alors il y a absence de lien entre X et Y. le lien linéaire entre X et Y est parfait. Si rXY proche de 0. Signification clinique du coefficient de corrélation de Bravais . le lien linéaire est très fort. l’une des variables est fonction affine de l’autre. Si rXY < 0. on rejette l’hypothèse de décorrélation. X et Y sont non corrélées [pas de liaison linéaire. rXY est la corrélation empirique estimée { partir d’informations fournies par l’échantillon.65 < rXY < 0.80 < rXY < 1. β. Cédrick Tombola M.  B. inconnue au niveau de la population. Donc r XY = 0 ne signifie pas toujours qu’il y a indépendance entre X et Y. Cela peut tout simplement vouloir dire qu’il y a absence d’une liaison .Pearson La signification clinique ou l’interprétation du rXY n’est valable que si.50. le lien linéaire est modéré.50 < rXY < 0.Ass.25. Sous H0.   A. X et Y sont négativement corrélées [la relation linéaire entre X et Y est négative]. Si 0. yi) sont alignés. Les hypothèses du test sont : H0 : ρXY = 0 H1 : ρXY ≠ 0n [hypothèse d’absence de corrélation] [hypothèse d’absence de décorrélation] ρXY est la corrélation théorique. après test. mais la réciproque n’est pas toujours vraie.025 < rXY < 0. Si 0. après calcul et avant toute interprétation.65. Si 0. Test sur le coefficient de corrélation de Bravais .25 < rXY < 0.

Remarques importantes sur le calcul du ρXY de Spearman Le calcul du coefficient de corrélation de Spearman exige que les données soient remplacées par leurs rangs. il déviants [points aberrants]. Concernant une liaison non linéaire monotone Le rXY donne une idée sur le sens de la liaison mais Dans ce cas. comme le rXY de Bravais – Pearson. noté ρXY. calculer le rapport de corrélation. Si) et le produit non nul de leurs écarts-types.2. En tenant compte de certaines propriétés de rang.3] où Di = Ri . lorsqu’on dispose de plusieurs valeurs de Y pour chaque valeur de X ou l’inverse. il estime mieux estime mal sa force. après avoir remplacé les données par leurs rangs. il est conseillé de faire subir au coefficient de Spearman quelques corrections ou simplement de lui préférer le coefficient de Bravais-Pearson. le ρ XY reste adapté car il fournit les mêmes résultats que le rXY de Bravais – Pearson. Cédrick Tombola M. La démarche du test statistique sur le ρXY de Spearman est la même que celle sur le coefficient de corrélation de Bravais – Pearson. le ρXY de Spearman peut être calculé de manière plus simple par la formule : ρXY = 1 – 𝟔 𝐢 𝐃𝟐 𝐢 𝐧(𝐧𝟐 − 𝟏) [2. on leu r affecte un rang moyen. les variables doivent être Le ρXY lève l’hypothèse de normalité.Si et n = nombre d’observations Avantages du ρXY de Spearman sur le rXY de Bravais – Pearson Le rXY de Bravais . est un coefficient non paramétrique qui quantifie. donné par la moyenne arithmétique de leurs rangs respectifs.Pearson Le ρXY de Spearman A propos de la normalité Pour calculer rXY. Le ρXY de Spearman n’est rien d’autre que le rapport entre la covariance (Ri.Ass. nous optons pour cette dernière option. Dans ce cas. Coefficient de corrélation de rang de Spearman Le coefficient de corrélation de Spearman. Il est particulièrement approprié lorsqu’au moins une de deux variables X et Y n’est pas normalement distribuée. le calcul d’un coefficient de corrélation doit toujours commencer par un examen graphique. Ceci dit. II. dans gaussiennes. On peut soit transformer les données avant de les calculer ou carrément. 19 linéaire entre les variables étudiées. La présence des points atypiques Le rXY est fortement influencé par la présence des Le ρXY résiste aux points aberrants. Il est donc un cas particulier du coefficient de corrélation de Bravais – Pearson. le cas des variables distribuées normalement. Et en présence d’ex aequo dans les données. Le rang de X est noté par R i et celui de Y par Si. De plus. est donc préféré au rXY. que le rXY ce type de liaison. L’autre faiblesse majeure du coefficient de Bravais – Pearson est d’être très sensible aux points aberrants. Note : Lorsque la liaison entre les deux variables étudiées est non linéaire et non monotone. Mais lorsqu’on compte plusieurs ex aequo. les deux coefficients rXY et ρXY ne sont plus adaptés. . le ρXY est approprié. le degré d’association linéaire entre deux variables quantitatives. mais calculé sur les rangs. Son calcul nécessite que les données soient transformées en rang. Dans ce recueil.

les deux variables peuvent simplement être liés à un même phénomène . etc. la causalité. le rapport de corrélation. Cédrick Tombola M.Coefficient rXY de Bravais – Pearson . Une corrélation élevée ne peut tenir qu’{ un facte ur confondant ou artefact.    Les alternatives face à ces faiblesses sont notamment la corrélation pour variables qualitatives. l’estimation d’un coefficient de corrélation suivra toujours [sauf indication contraire]. La corrélation peut être fortuite [artificielle ou fallacieuse ou encore artefactuelle].Ass. ce coefficient peut induire en erreur. la régression linéaire et non linéaire. 20 En résumé.source : une troisième variable dont il faut neutraliser l’effet. Lorsqu’elle ne l’est pas. dan s l’ordre. les deux coefficients présentés ci-haut ne sont plus adaptés.Coefficient ρXY de Spearman L’une au moins de deux variables est non normale Non linéaire monotone Variables normales ou non Présence des points atypiques II. surtout sur l’intensité de la liaison entre variables considérées. En réalité. En présence des variables qualitatives comme la paix. La corrélation n’est ni impact ni causalité . L’objet de la corrélation n’est pas d’établir une causalité mais simplement de rendre compte du sens et du degré d’association éventuelle entre variables. la cointégration. ….3. les cinq étapes suivantes : (i) (ii) (iii) (iv) (v) Test de linéarité [utiliser un diagramme de dispersion] Test de normalité [choisir le plus approprié connaissant n] Choix et estimation d’un coefficient de corrélation Test de significativité statistique sur le coefficient calculé Interprétation ou signification clinique du coefficient estimé [valable seulement si H0 est rejetée] Critère synthétique de choix d’un coefficient de corrélation Informations fournies par les données Type de liaison linéaire linéaire Normalité Variables normales Coefficient de corrélation approprié [en termes de robustesse] .Coefficient ρXY de Spearman . à savoir :  La mesure ne concerne qu’une relation linéaire. . Le coefficient de corrélation linéaire sert avant tout { caractériser une liaison linéaire. Limites de la corrélation Les coefficients de corrélation présentés dans ce chapitre présentent essentiellement quatre faiblesses. la religion. La mesure ne concerne que les variables quantitatives.

Etape 2.83154032 𝟐𝟎𝟓𝟎 Wtable =0.1995 41. 21 Exercices résolus sur la théorie de la corrélation Exercice 1 Un chercheur désire examiner la relation qu’il peut exister entre l’habilité en lecture (X) et le nombre d’heures de lecture par semaine (Y).06 0. Test de linéarité 10 8 6 4 2 0 0 10 20 30 40 50 Ce graphique fait état d’une association linéaire positive entre X et Y.5739 0.3291 0.0399 ∑ 𝐱 𝐧−𝐢+𝟏 − 𝐱 𝐢 𝐚𝐢 [𝐱 𝐧−𝐢+𝟏 − 𝐱 𝐢 ] 35 35 30 25 5 20. X est mesuré en laboratoire { l’aide d’un test d’habilité en lecture alors que Y est estimé par les sujets eux-mêmes. Cédrick Tombola M.2141 0.5185 6. n=10 . 𝟒𝟏. nous appliquons le test de Shapiro – Wilk. 10 sujets ont été échantillons.2875 W= = 0. Test de normalité Puisqu’étant approprié pour petit échantillon. RH0.1224 0.842 [à 5%. pour n=10] Puisque W<Wtable. 𝟐=5 .423 3. Les résultats sont : X Y 20 5 5 1 5 2 40 7 30 8 35 9 5 3 5 2 15 5 40 8 Estimer la corrélation entre X et Y [passer par les cinq étapes] Solution de l’exercice 1 Etape 1.Ass. La variable X est non gaussienne.𝟐𝟖𝟕𝟓 2 10 40 ∑ 2050 𝐱 =20 .0865 11. n 2 a [x n −i+1 𝑖 =1 i 2 −x i ] 2 La statistique à calculer est : W = Test sur la variable X i 1 2 3 4 5 6 7 8 9 X 20 5 5 40 30 35 5 5 15 X(i) 5 5 5 5 15 20 30 35 40 40 x (i) − x 𝐱(𝐢) − 𝐱 -15 -15 -15 -15 -5 0 10 15 20 20 0 𝐧 𝐱(𝐢) − 𝐱 225 225 225 225 25 0 100 225 400 400 𝟐 ai 0.

5 1 2.2846 0.Si 0.04 ∑ 𝐲 𝐧−𝐢+𝟏 − 𝐲 𝐢 𝐚𝐢 [𝐲 𝐧−𝐢+𝟏 − 𝐲 𝐢 ] 8 6 6 4 0 4. Etape 4. Signification clinique [interprétation] Il existe bel et bien une corrélation linéaire positive très forte entre l’habilité en lecture (X) et le nombre d’heures de lecture par semaine (Y) au sein de la population étudiée.34 W= = 0.5 8.5 7 8 2. .5 0 -0. Cédrick Tombola M.5) ρXY = 1 – 10(10 2 −1) = 0.306 [Puisque tcal >ttable.9746 1.5 1 Di2 0.5 5 9.5 Rang de Y [Si] 5. 𝟖. 45842979 et t0. Etape 5.5 1.5912 1.25 0 0. =5 𝟐 Etape 3.25 1 18.887878788 1 −(0.122 0.915205263 𝟕𝟔 Wtable =0.25 0 6.Ass.214 0.5 10 4 2. le coefficient de corrélation approprié dans ce cas est le ρXY de Spearman.5 Di = R i . La variable Y est gaussienne. 887878788 Y 5 1 2 7 8 9 3 2 5 8 Rang de X [Ri] 6 2.5 -2 -1. Test de significativité statistique La statistique du test est : tcal= 0.25 4 2.5 7 8.5 -1.5 2. Non RH0.5 9.329 0.𝟑𝟒 2 0 𝐧 𝐲 =5 .25 2.5 5.025 .25 2.574 0.842 [à 5%. pour n=10] Puisque W>Wtable.5 0 2. Les calculs sont confinés dans le tableau ci-après : X 20 5 5 40 30 35 5 5 15 40 ∑ 6(18. Test sur la variable Y i 1 2 3 4 5 6 7 8 9 10 ∑ Y 5 1 2 7 8 9 3 2 5 8 y(i) 1 2 2 3 5 5 7 8 8 9 22 𝐲(𝐢) − 𝐲 -4 -3 -3 -2 0 0 2 3 3 4 𝐲(𝐢) − 𝐲 16 9 9 4 0 0 4 9 9 16 76 𝟐 ai 0.5 2. 8 = 2. Choix et estimation d’un coefficient de corrélation Eu égard aux résultats des tests de linéarité et de normalité [X est non gaussienne].5 Note : Deux nombres – au moins – identiques ont même rang qui est donné par la moyenne arithmétique de leurs rangs respectifs. alors RH0 d’absence de corrélation entre X et Y.4896 0 8.887878788 )2 10 −2 = 5. le coefficient de corrélation calculé est statistiquement significatif]. n=10 .

Y) Var X Var (Y) 2 = β Var (X) Var X β 2 Var (X) = β Var (X) β Var (X) =1 = −β Var (X) Var X β 2 Var (X) = −β Var (X) β Var (X) =–1 Le domaine de définition de rXY est donc [– 1. Test de linéarité 10 8 6 4 2 0 0 5 10 15 . rXY = Cov (X. 23 Exercice 2 Montrer rigoureusement que par construction le coefficient de corrélation linéaire est toujours comprise entre . on aura : Cov (X.1 et 1 [Utiliser la formule de Bravais – Pearson].Calculer le coefficient de corrélation approprié. Solution de l’exercice 2 Si le lien linéaire entre X et Y est parfait.Y) Var X Var (Y) Var(Y) = E[Y – E(Y)] = E[α – βX – α + βE(X)] = β2var(X) Et par conséquent.Ass. rXY = Cov (X. N° X 1 10 2 8 3 9 4 11 5 14 6 6 7 4 8 12 9 7 10 5 11 8 Y 7 6 7 8 9 6 5 8 6 6 7 Travail à faire : . Cédrick Tombola M. Y) = E(XY) = E{[X – E(X)] [Y – E(Y)]} = E{[X – E(X)][ α – βX – E(α – βX)]} = E{[X – E(X)][ α – βX – α + βE(X)]} = – E{[X – E(X)] β[X – E(X)]} = β[X – E(X)] = βVar(X) D’autre part. + 1] Exercice 3 Le tableau ci-après renseigne sur l’évolution de l’offre de jus de banane (X) et son prix en USD (Y). on aura : Cov (X. on a ceci : 2 2 2 Var(Y) = E[Y – E(Y)] = E[α + βX – α – βE(X)] = β2var(X) Et par conséquent. on a ceci : 2 2 = – β[X – E(X)] = – βVar(X) D’autre part. Y (X) s’écrirait comme une fonction affine de X (Y) : Y = α + βX D’une part. .Evaluer sa signification clinique Solution de l’exercice 3 1.Tester sa significativité statistique . Y) = E(XY) = E{[X – E(X)] [Y – E(Y)]} = E{[X – E(X)][ α + βX – E(α + βX)]} = E{[X – E(X)][ α + βX – α – βE(X)]} = E{[X – E(X)] β[X – E(X)]} Y = α – βX D’une part.

4545455 3.1429 0.226 0.3315 0.3315 0.0695 12.47933884 2.𝟓𝟒𝟗𝟕 2 𝟗𝟐.5 𝟐 3. 92. soit 5. les deux coefficients devraient donner pratiquement la même chose.03305785 0.5 𝟐 𝒏 𝟐 Note : n étant impair. alors Non RH0. Dans ce cas.𝟔𝟑𝟔𝟑𝟔𝟑𝟔 3.0695 𝐱 𝐧−𝐢+𝟏 − 𝐱 𝐢 𝐚𝐢 [𝐱 𝐧−𝐢+𝟏 − 𝐱 𝐢 ] 10 7 5 3 1 5.3205 1.𝟕𝟐𝟕𝟐𝟕𝟐𝟕 9. on peut indifféremment estimer le r XY de Bravais-Pearson ou le ρXY de Spearman.4287 0.9338843 29.11570248 6. ∑ 0 13.545454545 .1429 0.4545455 5.850 Puisque W >Wtable. 2.2404 0.818181818 -0.39669421 4.5454545 -1.181818182 0.66942149 0. on a les résultats suivants : .4545455 2.601 2.4545455 1.𝟓𝟔𝟕𝟖 2 𝟏𝟑.76033058 4 2 2 1 1 2.181818182 1.983494579 Wtable=0. Cédrick Tombola M. alors Non RH0. = 5.29752066 0. on n’a retenu que la partie entière du ratio . n =11 .181818182 𝐲(𝐢) − 𝐲 𝟐 ai 0.226 0.5454545 -3.5454545 -2.181818182 0.933474435 Wtable=0.1429 0.38842975 0.66942149 0.0695 ∑ W= 𝟑.661157 𝟐 ai 0.181818182 1.4545455 𝐱(𝐢) − 𝐱 20.850 Puisque W >Wtable. Test de normalité Test sur la variable X i 1 2 3 4 5 6 7 8 9 10 11 24 X 10 8 9 11 14 6 4 12 7 5 8 𝐱(𝐢) 4 5 6 7 8 8 9 10 11 12 14 𝐱(𝐢) − 𝐱 -4.03305785 1. Test sur la variable Y i 1 2 3 4 5 6 7 8 9 10 11 Y 7 6 7 8 9 6 5 8 6 6 7 𝐲(𝐢) 5 6 6 6 6 7 7 7 8 8 9 𝐲(𝐢) − 𝐲 -1. ∑ 0 𝐱= 8.7520661 ∑ W= 𝟗.181818182 2. Choix et estimation d’un coefficient de corrélation Les deux variables étant gaussiennes et linéairement associées.66942149 0.02479339 11.03305785 0. La variable Y est normalement distribuée.818181818 -0.5454545 0.5702479 6.452 0.818181818 -0.7272727 𝐧 = 5.818181818 0.5454545 -0.0695 𝐱 𝐧−𝐢+𝟏 − 𝐱 𝐢 𝐚𝐢 [𝐱 𝐧−𝐢+𝟏 − 𝐱 𝐢 ] 3. La variable X est normalement distribuée.5601 0.13 0.663 0.818181818 -0.818181818 .30578512 0.39669421 1.29752066 0. Le diagramme de dispersion témoigne de l’existence d’une association linéaire positive entre X et Y.5678 = 0.20661157 2.Ass.5497 = 0.66942149 0.5601 0.5454545 -0. Après calcul.6363636 𝐧 𝐲= 6. n=11 .

11 7.73 X 8 8 8 8 8 8 8 19 8 8 8 Bloc IV Y 6. à un seuil de signification de 0.81 8.89 .  Au seuil de signification de 0. t0.262 Conclusion : le coefficient de corrélation calculé est statistiquement non nul.14 8. 25 Corrélation entre X et Y Le rXY de Bravais-Pearson 0. ce qui est conforme à la moi de l’offre.74 X 10 8 13 9 11 14 6 4 12 7 5 Bloc III Y 7. Bloc I X 10 8 13 9 11 14 6 4 12 7 5 Y 8. n=27 .05 que le coefficient de corrélation diffère significativement de la valeur zéro.787. ce coefficient de corrélation devient significatif.26 4.5 5.74 8. Signification statistique du coefficient calculé La statistique calculée est : 𝑡𝑐𝑎𝑙 𝑟 𝑋𝑌 = 10. 25 = 2. Peut-on en conclure.05 que le coefficient de corrélation diffère significativement de la valeur zéro ? Qu’adviendrait la réponse obtenue précédemment si l’on considère un seuil de signification de 0. Signification clinique il existe bel et bien une corrélation linéaire positive très forte entre quantité offerte de jus de banane et son prix. la table de la loi de Student donne la valeur : t0.01.77 12.95 7.24 4. 25 = 2.13 3.96 7.82 5. α = 0.4.74 7. on a trouvé que la valeur d’un coefficient de corrélation linéaire était 0.1129979 pour le rXY de Bravais-Pearson.95870624 Le ρXY de Spearman 0. 9 =2.58 5.71 8.68 X 10 8 13 9 11 14 6 4 12 7 5 Bloc II Y 9.10 6.15 6. on a tcal=2.56 7. pour le ρXY de Spearman.58 8.04 5. à un seuil de signification de 0. On peut donc conclure.47 7.1 9.81 8. Cédrick Tombola M. α = 0.4 .01.42 5.95227273 4.39 8. et 25 degrés de liberté.08 5.84 4.76 7.84 8.91 6.26 10. est de : t0.04 6.05.060. au seuil de 5%.025 .14 8. En considérant le seuil donné.33 9.77 9.05. Exercice 5 Soit le jeu de données normalement distribuées ci-dessous.025 .  Après calcul.005 .84 6.26 8. Et la valeur de la table. et 𝑡𝑐𝑎𝑙 𝜌 𝑋𝑌 = 9. Solution de l’exercice 4 L’exercice livre les informations suivantes : rXY =0.46 6. 5.3589914.Ass.1821789.13 7.25 12. Exercice 4 A partir d’un échantillon de 27 objets.

il y a un point atypique qui fausse complètement le rXY de Bravais-Pearson.82. . on a le coefficient de Bravais-Pearson ci-après. on obtient pratiquement la même valeur du coefficient de corrélation de BravaisPearson. 12. ne correspond. réaliser un graphique nuage des points pour chaque cas.5 Par au rapport au coefficient de Pearson. Car. respectivement dans le troisième et quatrième graphiques.82. (iv) On remarquera qu’au bloc IV. pour chaque cas : Bloc I 0. Quelle leçon peut-on tirer ? Calculer le coefficient de Spearman pour le bloc IV. Travail demandé : (i) (ii) (iii) (iv) 26 Estimer pour chaque cas le coefficient de corrélation de Bravais – Pearson Quel constat se dégage t-il de ces calculs ? A présent. qu’au premier graphique. il suffit de retirer le point aberrant. Quant au troisième et au quatrième graphiques.81652144 rXY Pour les 4 blocs. Quel avantage présente-t-il ? Solution de l’exercice 5 (i) Après calcul.99999655 et de 0 [puisque rkX=0]. comme on le voit. soit le couple (13. Graphique nuage ds points pour chaque bloc Bloc I Bloc II 10 5 0 15 10 5 0 0 10 20 0 5 10 15 (iii) 15 10 5 0 0 Bloc III 15 10 5 0 0 Bloc IV 10 20 10 20 La leçon à tirer est que l’estimation du coefficient de corrélation de Pearson doit toujours s’accompagner d’un examen graphique. fait état d’une liaison fonctionnelle presque parfaite entre X et Y dont le rXY semble sous-estimer l’intensité.Ass. Pour preuve. l’existence d’un lien linéaire positif très fort. nous avons donc calculé le coefficient de Bravais-Pearson sur les rangs.82. Ce qui semble traduire dans ces différents cas. Cédrick Tombola M. le coefficient de rang présente l’avantage de résister aux points atypiques.81628674 Bloc IV 0. devient respectivement de 0.81642052 (ii) Bloc II 0. le coefficient estimé rXY = 0. la variable X présente plusieurs ex aequo. en toute rigueur.5). soit rXY = 0. le coefficient de corrélation de Pearson qui était de r XY=0. Coefficient de Bravais-Pearson calculé sur les rangs Bloc IV Lien entre X et Y 0. par exemple.81623651 Bloc III 0.74) et (19. Le deuxième. 12.

La nuance à faire.Le diagramme de dispersion des couples (xi. entre les variables considérées. d’une liaison d’un autre type. car un rXY =0 laisse toujours la possibilité d’existence. La meilleure interprétation serait que les deux variables étudiées sont non linéairement corrélées. on passe directement à l’estimation du rXY comme présentée dans le tableau ci-dessous : X -2 -1 0 1 2 Somme Moyenne 0 2 rXY = 0 . yi) est : 5 4 3 2 1 0 -3 -2 -1 0 1 2 3 Y 4 1 0 1 4 Xi – 𝒙 -2 -1 0 1 2 0 Yi – 𝒚 2 -1 -2 -1 2 0 (Xi –𝒙)(Yi – 𝒚) -4 1 0 -1 4 0 (Xi – 𝒙)2 4 1 0 1 4 10 (Yi – 𝒚)2 4 1 4 1 4 14 Il ressort de ce diagramme de dispersion qu’il existe bel et bien une liaison [de type non linéaire] entre les variables X et Y. est qu’un coefficient de corrélation de Bravais – Pearson nul ne devrait pas toujours s’interpréter comme une absence de relation entre variables en cause.Ass. .Faites maintenant un diagramme de dispersion.Pearson .rXY = 0 signifie que les variables X et Y seraient non corrélées [indépendance] . et puisque le test de linéarité ici ne fait pas un préalable. Que voyez-vous ? Quelle nuance pouvez-vous donc formuler dans ce cas ? Solution de l’exercice 6 . Cédrick Tombola M.A quoi renvoie ce résultat ? . 27 Exercice 6 Voici un échantillon de deux variables gaussiennes : X -2 -1 0 1 2 Y 4 1 0 1 4 Travail à faire : . au vu de ces résultats.Les deux variables étant supposées gaussiennes par l’exercice.Estimez le coefficient de corrélation de Bravais .

un journaliste a découvert qu’il existe une très forte corrélation entre le fait d’avoir un nid de cigognes sur sa demeure et le fait d’avoir des enfants.9 1. à bien analyser les choses. tenant compte des réalités de Washington.9519 (Xi – 𝐱)² 400 0 225 100 900 625 36 100 100 25 2511 (Yi – 𝐲)² 324 0 144 36 1764 900 144 0 144 144 3600 Sans avoir { refaire tous les calculs.3 2 9.5 9. la présence d’un nid de cigog nes sur le toit signifierait plutôt que la famille qui y habite est aisée et donc disposée. { regarder ce tableau. Par ailleurs. un étudiant de G1 FASE fournit le tableau suivant : Xi 80 100 115 110 70 125 105 90 110 95 ∑ 𝐱 =100 𝐲 =50 Yi 32 50 62 56 8 80 62 50 62 38 Xi – 𝐱 -20 0 15 10 -30 25 6 -10 10 -5 1 rXY = Yi – 𝐲 -18 0 12 6 -42 30 12 0 12 -12 0 𝟐𝟖𝟔𝟐 𝟐𝟓𝟏𝟏 (𝟑𝟔𝟎𝟎) (Xi – 𝐱)(Yi – 𝐲) 360 0 180 60 1260 750 72 0 120 60 2862 = 0. financièrement.1 6. Par quoi la voyez-vous ? Solution de l’exercice 8 Par la somme des écarts de la variable Y à sa moyenne arithmétique. Cette somme est forcément égale à zéro.9 2. Exercice 8 En résolvant un TP de statistique 1 sur le calcul du coefficient de corrélation linéaire.4 1.81 2.8 1. D’où il conclut que les cigognes apportent les bébés . 28 Exercice 7 A Washington. vous concluez qu’il y a erreur de calcul.25 8.Ass. Quelle remarque pouvez-vous faire à une telle conclusion ? Solution de l’exercice 7 La remarque principale à formuler à ce type de corrélation que rien ne peut expliquer – ou qui en réalité tient à un autre phénomène-source – est que la corrélation peut être fortuite ou artificielle. Exercice 9 Soient les données sur les variables X et Y reprises dans le tableau ci-après et le nuage de points correspondant : 12 10 8 X Y 1 3 1.4 .3 1. Cédrick Tombola M. une valeur différente indique tout simplement une erreur de calcul.25 9. à avoir plus d’enfants.85 6 4 2 0 0.

84 rXY = 0.3 9.84 -1.2336 0. mais visiblement parfaite entre X et Y.25 ∑ Moyenne 1.1 1. à cocher.52 7.52 -0.02 0. Exercice 10 [Il y a au moins une réponse exacte.5378 1. le rXY a sous-estimé l’intensité d’une relation non linéaire certes. Le coefficient de corrélation linéaire entre deux variables statistiques : (a) ne peut être calculé que si les deux variables sont quantitatives (b) est un nombre positif ou nul (c) n’est égal à zéro que lorsque les variables sont indépendantes (d) est un nombre sans dimension.0003 0.2669 0. Solution de l’exercice 10 : (a) et (b) .21 2.46 1. puis commenter.85 x -0.25 1.77 Ri 1 2 3 4 5 6 Si 1 2 3 4 5 6 Di 0 0 0 0 0 0 Di² 0 0 0 0 0 0 0 Les calculs montrent simplement que le ρXY de Spearman est préféré au rXY de Bravais-Pearson lorsque la liaison entre X et Y est non linéaire mais monotone.47 5.01 xy 2.43 -0.28 y² 23.1736 0.46 1.21 x² 0.50 0.97 2. Solution de l’exercice 9 Les calculs sont synthétisés dans le tableau ci-après : X 1 1.09 0. car comme on le voit.733 y -4.12 -0.81 9.27 -0.04 0.12 3.Ass.42 -0.95 1.3 9.483 0.03 34.78 ρXY = 1 Y 3 6.02 0.8 8. à la question suivante]. 29 Estimer les coefficients de corrélation de Bravais-Pearson et de Spearman.87 4.46 1. Cédrick Tombola M.0711 0.5 2 2.

la position des variables dans l’analyse n’est pas symétrique. Dans le modèle de régression linéaire simple par contre. La plupart du temps. est symétrique. . Elle ne permet donc ni d’établir une causalité. la variable aléatoire qui cause l’autre [Y=f(X)] 19. cette dépendance linéaire s’écrit de la sorte : [3.1. MODELE DE REGRESSION LINEAIRE SIMPLE III. dans l’étude. comme développée au chapitre précédent. à priori. Modélisation et hypothèses La corrélation. la pente dérivant Y par rapport à X : s’obtient en b= dY dX ou b= ∆Y ∆X = X 1 −X 0 [Si données discrètes] 1 0 Y −Y 19 Cette information est généralement fournie par la théorie économique. ce qui rend possible la mesure de l’impact ou de la contribution de X dans l’explication de Y . Mathématiquement. est : Y – Y0 = b (X – X0) X  Algébriquement. la pente b est donnée par : c ôt é oppos é c ôt é adjacent b = tg (α) = = DF EF Et l’équation d’une droite passant par deux points. 30 .1] Yt = β0 + β1Xt où β0 et β1 sont les paramètres du modèle qui permettent de caractériser la relation de dépendance linéaire qui existe à chaque date t entre Xt et Yt. Encadré 2. et comme le mot l’indique. On connait. de coordonnées (X0. ou peut simplement découler de l’objectif de l’étude du modélisateur. le modèle de régression linéaire simple considère que la variable à expliquer Y est une fonction affine de la variable explicative X. ni de mesurer l’impact d’une variable sur l’autre. Y0) et (X1. Fonction affine Une fonction affine est toute fonction de la forme : Y = a + bX [avec a et b ∈ ℝ*] a : est l’ordonnée { l’origine ou l’origine b : est la pente de la droite ou le coefficient angulaire [directeur] La fonction affine est appelée aussi fonction linéaire si a =0 Graphe d’une fonction affine [considérons le cas où a > 0 et b > 0] La pente d’une droite mesure la variation de Y quand on se déplace le long de la droite en accroissant X d’une unité. Y E ∆ Y = Y1 – Y0 D a 0 α ∆X = X1 – X0 F Y = a + bX  Géométriquement.Ass. sert avant tout { quantifier le degré d’association linéaire entre deux variables quantitatives dont la position . Y1). Cédrick Tombola M.III.

 Pour le jeu de données ci-dessus. Le critère auquel on se réfère dans ce chapitre. On utilise souvent le terme anglais OLS [Ordinary Least Squares] pour désigner la même méthode. Cédrick Tombola M. Sous sa spécification économétrique. s’y approche le mieux. régresser Y sur X présente un objectif double :  Ajuster un modèle linéaire pour expliquer les valeurs prises par Y par celles de X. Y X 20 5 5 1 5 2 40 7 30 8 35 9 5 3 5 2 15 5 40 8 D’un point de vue pratique. Considérons le jeu de données ci-après où un chercheur veut expliquer l’habilité en lecture (Y) de dix sujets échantillonnés par le nombre d’heures de lecture par semaine (X). avant toute analyse. il faut donc un critère quantifiant la qualité de l’ajustement.Ass. Il faut noter. Pour ça. Prédire les valeurs de Y pour les nouvelles valeurs de X. il s’agit de faire un ajustement linéaire. ne peut s’appliquer que si Y peut s’écrire comme une fonction affine de X. . sans passer par tous les points du nuage. il intéressant de toujours commencer par un examen graphique – à travers un diagramme de dispersion – du type de relation qui lie les deux variables considérées. que le raisonnement qui sera développé dans la suite de ce chapitre. Y est mesurée en laboratoire { l’aide d’un test d’habilité en lecture alors que X est estimé par les sujets eux -mêmes.1] s’écrit comme suit : [3. Comme pour la corrélation. par ailleurs. Autrement.2] Yt = β0 + β1Xt + ut 31 Dans ce cas de la régression linéaire simple β0 est le terme constant ou l’origine et β1 la pente. 20 Certains auteurs ironisent en disant que la méthode nous sert { mettre un chapeau sur nos β. et très souvent en économétrie. on a les graphiques suivants : Graphique nuage de points 50 40 30 20 10 0 0 2 4 6 8 10 50 40 30 20 10 0 0 2 4 6 8 10 Sens de l’ajustement linéaire et L’ajustement linéaire [ou régression linéaire] consiste donc à tracer une droite d’ajustement – appelée également droite de régression – qui. yi) par une droite qui s’y adapte le mieux que possible. est le critère ou la méthode des Moindres Carrés Ordinaires [MCO] 20. c’est-à-dire de remplacer le nuage de points des couples (x i. le modèle [3.

Hypothèse de centralité : E(ut)=0 ∀𝐭 C’est-à-dire qu’en moyenne. non biaisés et à variance minimale. Cédrick Tombola M. notés et. 32 Hypothèses sur la partie stochastique H4. le théorème de Gauss – Markov avance que ses estimateurs sont BLUE [Best Linear Unbiased Estimator].2].2.3] [3. il s’agit d’assumer que les variables explicatives omises dans le modèle influent toutes pratiquement de façon constante sur la variable expliquée. Hypothèses L’application du critère des moindres carrés repose sur les hypothèses suivantes : Hypothèses sur la partie systématique H1. ce qui revient à admettre que le modèle est correctement spécifié. Cette hypothèse signifie que l’erreur et les variables explicatives ont une influence séparée sur la variable end ogène. H8. H6. consiste à choisir les paramètres β0 et β1 . en utilisant les informations apportées par l’échantillon. Hypothèse non autocorrélation des erreurs : E(uiuj) = 0 ∀ i ≠j Les erreurs ut de différentes périodes sont indépendantes les unes des autres. Hypothèse d’homoscédasticité des erreurs : E(uiuj) = 𝝈𝟐 ∀ i =j 𝒖 Les erreurs ut ont une variance constante et finie. Et lorsqu’on y ajoute l’hypothèse H7. III. elle est donnée par : et = Yt – Yt . Mathématiquement. Note : (i) Lorsque les hypothèses H4. Estimateurs des moindres carrés ordinaires Le critère des MCO permet d’obtenir l’équation de la meilleure droite d’ajustement : Yt = β0 + β1 Xt. Y est aléatoire par l’intermédiaire de ut. Elle est donc nécessaire pour mener les tests. Plus explicitement. H2. Le travail. Les variables X et Y sont observées sans erreur. H5. ut)=0. H7. c’est -à-dire qu’ils sont les meilleurs estimateurs linéaires.Ass. le critère des MCO se présente comme suit : Min S = 𝑛 2 𝑡 =1 𝑒𝑡 = = 𝑛 𝑡 =1 𝑛 𝑡 =1 𝑌𝑡 − β0 + β1 X t 𝑌𝑡 − β0 − β1 Xt 2 2 La détermination de β0 et β1 se fait en appliquant les conditions du premier ordre : 𝛿𝑆 𝛿𝛽 0 𝛿𝑆 𝛿𝛽 1 =0 =0 [3. Le modèle est linéaire en ses paramètres tels que l’exprime l’équation [3. de manière à rendre minimale la somme des carrés des écarts [résidus] entre les valeurs observées de Y et ses valeurs prédites par le modèle. c’est-à-dire que la seule erreur possible sur Y provient des insuffisances de X à expliquer ses valeurs dans le modèle. appelée également droite des moindres carrés. qui permet d’obtenir la droite. Le nombre d’observations n doit être supérieur au nombre des paramètres à estimer. Hypothèse de normalité des erreurs: ut (0. Hypothèse d’indépendance entre la partie systématique et la partie aléatoire : Cov (Xt.4] . on dit que les erreurs sont des bruits blancs. l’influence de ut sur le modèle est nulle. on parle des bruits blancs gaussiens. (ii) Lorsque toutes les hypothèses sous-tendant la méthode des MCO sont remplies. H5 et H6 sont réalisées. sont l’estimation de l’erreur ut sur base de données de l’échantillon [et = ut ]. 𝝈𝟐 𝒖 ) Cette hypothèse est la clé de l’inférence statistique. H3. Note : Les résidus.

Cédrick Tombola M. on tire l’estimateur de β1 : β1 = X t Y t −n 𝑥 𝑦 2 X2 t − n 𝑥 [3. 𝑦). on détermine l’estimateur de β 0 : β0 =𝑦 – β1 𝑥 [3. on obtient les équations normales. on reste sur la même droite d’ajustement – ce qui implique que la pente β1 reste inchangée –.10] β0 et β1 sont donc les estimateurs des moindres carrés ordinaires. β1 est donnée par le rapport : β1 = 𝑥 𝑡 𝑦 𝑡 2 𝑥 𝑡 [3.6] A partir de [3. 𝒚) x 4 𝒙 = 5 6 7 8 9 10 X .Ass. 33 En appliquant ces dérivées partielles. 1ère conséquence : La droite des moindres carrés Yt = β0 + β1 Xt passe forcément par l’origine β0 et le point de coordonnées (𝑥 . à partir desquelles sont tirés les estimateurs des MCO : ∑Y = nβ0 + β1 ∑X ∑XY = β0 ∑X + β1 ∑X2 [3.7] Après substitution de β0 dans la deuxième équation normale [3.5].5] [3.9] En utilisant les variables centrées.Y) σ2 X = X t −𝑥 (Y t −𝑦 ) X t −𝑥 2 [3. β1 est le paramètre d’intérêt qui capture entièrement la dépendance linéaire de Y envers X.8] Un développement mathématique simple permet d’exprimer β1 par le produit de la covariance empirique entre X et Y et de la variance empirique de X. Pour le vérifier. β1 = cov (X. Y 45 40 35 30 25 y 𝒚 = 20 15 10 5 0 0 1 2 3 (𝒙. appelé le centre de gravité ou le point moyen du nuage de points.6]. mais l’on soulève les axes jusqu’au centre de gravité. il suffit de réaliser une projection pour le point 𝑥 : 𝑌(𝑥 ) = β0 + β1 𝑥 = (𝑦 – β1 𝑥 ) + β1 𝑥 = 𝑦 Ce résultat montre que lorsqu’on travaille sur les écarts { la moyenne arithmétique [variables centrées] . en divisant toute la relation par n.

12] On démontre aussi que la moyenne arithmétique de Yt est égale à 𝑦 : 𝑦 = = = 1 𝑛 1 𝑛 β0 + β1 Xt β0 + β1 Xt 𝑛 (𝑦 – β 1 𝑥 ) β 1 X t + 𝑛 𝑛 = 𝑦 3ème conséquence : la somme – et donc la moyenne arithmétique – des résidus est nulle dans une régression avec constante. ∑XY = β0 ∑X + β1 ∑X2 Estimateurs β1 = 21 β1 = cov (X. La fonction affine Yt = β0 + β1 Xt devient linéaire : 𝑦𝑡 = β1 𝑥𝑡 2ème conséquence : la droite des moindres carrés a pour équation : Yt – 𝑦= cov (X. en travaillant avec les écarts { la moyenne arithmétique. 34 Ainsi. car une petite manipulation suffit à le retrouver.11] (Xt – 𝑥 ) [3. la pente β1 et le coefficient de corrélation de Pearson rXY auront toujours le même signe. et l’estimation est la valeur qu’on trouve en appliquant l’estimateur.Tracer la droite des moindres carrés .Y) σ2 X 𝑥 𝑡 𝑦 𝑡 2 𝑥 𝑡 β1 = rXY 𝜎𝑌 𝜎𝑋 = .nβ1 𝑥 =0 4ème conséquence : il existe un lien entre la pente d’une régression linéaire simple β1 et le coefficient de corrélation de Bravais – Pearson rXY: β1 = cov (X.nβ1 𝑥 = n𝑦 – n(𝑦 – β1 𝑥) . En effet : e𝑡 = Yt − β0 + β1 Xt = n𝑦 . soit : X t Y t −n 𝑥 𝑦 2 X2 t − n 𝑥 β1 = β0 =𝑦 – β1 𝑥 Y 1 −Y 0 X 1 −X 0 21 L’estimateur est une formule.Ass. . Cédrick Tombola M.Y) σ2 X [3. Synthèse des formules Données brutes Modèle estimé Yt = β0 + β1 Xt Equations normales Variables centrées   rXY connu Connaissant l’origine β0 et le centre de gravité Yt = β0 + β1 Xt 𝑦𝑡 = β1 𝑥𝑡 ∑Y = nβ0 + β1 ∑X Formules . l’origine β0 peut disparaitre momentanément.Y) 𝜎𝑌 σ X σ X 𝜎𝑌 𝜎𝑌 𝑋 L’écart – type étant non négatif.nβ0 .β1 est la pente de la droite.Y) σ2 X = = rXY 𝜎 cov (X.

Elle indique la variabilité totale de Y. la connaissance des valeurs de X permet de .14] Après développement de la relation [3. SCR est la somme des carrés résiduels.14]. le R peut être interprété comme la proportion de variance de Y expliquée par le modèle. 2 35 III.15]. dans [3. Soit yt = 𝑦𝑡 + et [3.15] [3.17] Ainsi.15]. la variable explicative X nous permet d’améliorer nos connaissances sur la variable endogène Y. qui évalue la qualité de l’ajustement réalisé en appliquant le critère des moindres carrés. Cédrick Tombola M. on peut déduire les informations suivantes : Au meilleur des cas SCR = 0 SCT = SCE 2 R =1 Le modèle est parfait.13]. Décomposition de la variance totale et coefficient de détermination R L’analyse de la variance a pour objet de dériver un indicateur synthétique.3. 2 Plus le R est proche de 1. on obtient l’équation d’analyse de la variance : SCT = SCE + SCR ∑𝑦𝑡2 = ∑𝑦𝑡2 + ∑e2 𝑡 Interprétation de l’équation d’analyse de la variance :    SCT est la somme des carrés totaux. la meilleure prédiction de Y est sa propre moyenne.Ass. Elle indique la variation de Y due à sa régression linéaire sur X. Intervalle de variation du R 2 Au pire des cas SCE = 0 SCT = SCR 2 R =0 Le modèle est mauvais. le R correspond au rapport : R 2 2 = SCT SCE [3. SCE est la somme des carrés expliqués. 2 [3.16] Dérivation du coefficient de détermination R 2 A partir de l’équation [3. meilleur est l’ajustement.SCT = 𝑦𝑡 2 SCE 𝑦2 𝑡 = β1 𝑥𝑡 𝑦2 𝑡 Autres formules du R 2 = β1 2 X2 t − n 𝑥 2 Y2 t − n 𝑦 ′ =β1 β1 = xt yt 2 2 𝑥2 𝑡 𝑦𝑡  ′ Avec β1 la pente de la droite de régression de X sur ′ Y. soit Xt = β′0 + β1 Yt. donne : ∑𝑦𝑡2 = ∑ 𝑦𝑡 + e𝑡 2 [3. Il indique donc dans quelle mesure. la droite de régression passe par tous les points du nuage. appelé coefficient de détermination R2. 0≤R R 2 2 ≤1 SCR 2 = SCT = 1 .13] La somme des carrés. Elle indique la variabilité de Y non expliquée par le modèle. Toujours à partir de la relation [3.

Bofoya (2007). 36   deviner avec précision celles de Y. Bourbonnais (2005). 2 III. Appelée souvent matrice Omega (Ω). il faut donc s’assurer de leur fiabilité statistique. 2 2 Relation entre le coefficient de corrélation de Pearson et le R Pour une régression linéaire simple. La démonstration est relativement simple. Cédrick Tombola M. pour une régression linéaire simple. il doit toujours être accompagné d’autres tests [Student et Fisher essentiellement] avant de trancher sur la bonté d’un modèle . β1 = 𝑜𝑣 β1 . 2 Plus le R est proche de 0. Pour appliquer les tests sur les paramètres. le R n’est rien d’autre que le carré du coefficient de corrélation de Pearson. et seulement dans ce cas. X n’apporte pas d’informations utiles sur Y. mais il reste un critère non négligeable pour la prévision. mauvais est l’ajustement. β1 = σ2 u 2 𝑥 𝑡 t Et la variance résiduelle est donnée par : σ2 ut = 22 23 Pour les détails. lire par exemple Bosonga (2010).4. il est important de connaître leurs variances et la variance résiduelle.Ass. 2 Il faut tout de même faire attention quant au crédit à accorder au R . . La démonstration22 du théorème de Gauss – Markov conduit à la construction de la matrice – symétrique – des variances – covariances suivante23 : Var β0 𝐶𝑜𝑣 β0 . le R . est symétrique. on a : 2 rXY = β1 𝜎𝑋 2 𝜎𝑌 X t − 𝑥 2 Y t − 𝑦 2 = = = 2 𝛽 1 = SCT β 1 X t − 𝑥 SCT 2 β 0 + β 1 X t − β 0 + β 1 𝑥 Y t − 𝑦 SCT 2 2 = SCE SCT =R Par conséquent rXY = signe (β1 ) × R2 2 Note : Comme le coefficient de corrélation linéaire de Pearson. β0 Var β1 −σ2 ut e2 t n −2 𝑥 2 𝑥 𝑡 σ2 ut 1 n + 𝑥 2 2 𝑥 𝑡 −σ2 ut 𝑥 2 𝑥 𝑡 Ω β0. Partant de la relation β1 = rXY 𝜎𝑌 𝜎𝑋 . Test de significativité des paramètres Etant donné que les valeurs β0 et β1 ne sont que des estimations des paramètres β0 et β1 inconnus de la population. on peut tirer rXY et en l’élevant au carré.

18] devient : tβ i = βi σβ i [3. Ainsi.Ass. (n – 2) σβ i Test de significativité conjointe ou globale Un autre test consiste à tester la significativité conjointe de tous les paramètres estimés du modèle. (n – 2) [valeur lue dans la table de Student].19] On démontre. Critère de décision : Si t β i > tα/2 . sous H0.20] [3. le paramètre βi est statistiquement non nul. Test de significativité individuelle Le test de significativité individuelle porte sur chaque paramètre. la variable lui associée est par conséquent non pertinente dans la prédiction de Y.21] 2 Une manipulation simple permet d’exprimer F en fonction du R comme ci-après : R2 1 (1 −R 2 ) (n −2) F= [3. non significatif] [le paramètre est statistiquement non nul. Les hypothèses du test sont : H0 : βi = 0 H1 : βi ≠ 0n [le paramètre est statistiquement nul. .18] Sous H0. la formule [3.22]. Cédrick Tombola M. on peut. d’aucuns considèrent qu’il teste la significativité du coefficient de détermination. Par ailleurs. partant de la relation [3.22] Le test F teste statistiquement la raison d’être du modèle. cela ne signifie nullement que βi serait la vraie valeur du paramètre βi. 24 C’est-à-dire que H0 est rejetée que le coefficient soit positif ou négatif. que cette statistique suit une distribution de Student au seuil α [5% sauf indication contraire] et à (n – 2) degrés de liberté. construire des intervalles de confiance pour les paramètres βi. alors RH0. Ces intervalles de confiance sont trouvés en appliquant la formule : I =βi ± tα/2 . en se basant sur les paramètres estimés βi et en assumant un risque donné. Intervalle de confiance des paramètres βi Le RH0 revient simplement { refuser que le paramètre β i de la population est non nul. significatif] 37 Il s’agit d’un test bilatéral [two-tail ou two-sided]24. C’est le tes basé sur la statistique de Fisher donnée par le rapport suivant : F= SCE 1 SCR (n −2) [3. Il est basé sur la statistique t de Student calculée comme suit : tβi = βi − βi σβ i [3.

23] = 2 𝑥 𝑡 β 1 𝑥 𝑡 e2 t (n −2) 2 β1 σ2 ut 𝑥 2 𝑡 2 = β1 2 σ2 ut β1 𝜎 𝛽 2 = = ∎ 1 = t2 β 1 Les hypothèses du test sont donc25 : H0 : β1 = 0 H1 : β1 ≠ 0n [le modèle n’est pas bon] [le modèle est bon] Comme on le voit. au seuil de 5%. on établit : t2 = β 1 R2 (1 −R 2 ) (n −2) tβ1 = 1 −r 2 XY (n −2) r2 XY = r XY 1 −r 2 XY (n −2) ∎ 25 Le test de significativité globale ne porte que sur les paramètres associés aux variables exogènes. (n – 2)] [valeur lue dans la table de Fisher. c’est accepter également la significativité du coefficient de corrélation linéaire. revient à tester rXY = 0.22] et [3. .23]. à admettre la bonté du modèle. et en sachant que le R2 correspond au carré du rXY. Les deux tests sont basés sur les mêmes hypothèses. on démontre que la statistique F suit une loi de Fisher à respectivement 1 et (n-2) degrés de liberté.22] et [3.23] ci-haut. sauf indication contraire].Ass. Cédrick Tombola M. en même temps. on rejette H0. Critère de décision : Si F > F [1 . et on démontre dans ce cas que : F = t2 β1 Preuve : F= SCE 1 SCR (n −2) [3. 38 Dans le cas d’une régression linéaire simple. Sous H0. on montre facilement que tester β1 = 0. Significativité de la pente versus significativité du r XY de Bravais – Pearson Partant de la relation [3. Cela implique qu’accepter la significativité de la pente. le modèle est bon. valider la significativité de la pente revient. le test F est confondu au test de significativité individuelle de la pente. en considérant les relations [3. En effet.

on distingue deux types de prévision de la valeur de Y { l’horizon considéré : la prévision ponctuelle et la prévision par intervalle. 39 III.26] 26 L’erreur de prévision capte l’écart entre ce qui sera réalisé et ce qu’on prévoit. (n – 2) σe n +h [3.  La prévision ponctuelle est très simple.Ass. bref à prévoir. soit : Yn+h = β0 + β1 Xn+h [3. Connaissant X n+h. .5.25] où σe n +h est l’écart-type de l’erreur de prévision 26. la prévision par intervalle est faite en appliquant la formule ciaprès : Yn+h ∈ I =Yn+h ± tα/2 .24]  Partant de la prévision ponctuelle. Cédrick Tombola M. Connaissant la nouvelle valeur de X pour un horizon h. Il est donné par la formule : σe n +h = σ2 ut 1 + + n 1 X n +h − x 2 x2 t 1 2 [3. notée Xn+h. il suffit de substituer cette valeur dans l’équation estimée pour obtenir la valeur correspondante de Y. Prévision dans le modèle de régression linéaire simple L’un des objets de l’ajustement linéaire qu’on effectue est de nous aider { prédire les valeurs de Y pour les nouvelles de X.

Calculer les résidus et vérifier la propriété selon laquelle la moyenne des résidus est nulle. un étudiant de L1 FASE trouve le coefficient de corrélation linéaire entre Ct et Rt suivant rXY = 0. Construire l’intervalle de confiance au niveau de confiance de 95% pour le paramètre β. Calculer l’estimateur de la variance de l’erreur. Sans le moindre calcul. soit : Ct = α + βRt + ut Travail à faire : (i) Tracer le nuage de points et commenter. Calculer le coefficient de détermination et effectuer le test de Fisher permettant de déterminer si la régression est significative dans son ensemble. (ii) (iii) (iv) (v) (vi) (vii) (viii) (ix) (x) Estimer la consommation autonome et la propension marginale à consommer 𝛼 et 𝛽 . Tester la significativité de la pente. [Pour les calculs. prendre 4 chiffres après la virgule]. On donne les informations suivantes : 𝑌 = 5 et 𝑋=3.65 8831. tester la significativité de ce coefficient. on prévoit respectivement 16800 et 17000 euros pour la valeur du revenu.71 8652.99789619. on a la droite de régression suivante : 𝑌𝑡 = 𝛽0 + 𝛽1 Xt.45 11186. Année 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 Revenu 8000 9000 9500 9500 9800 11000 12000 13000 15000 16000 Consommation 7389. (xi) Exercice 2 Soit le modèle linéaire Yt = β0 + β1Xt + ut. Après un travail minutieux. ainsi que l’intervalle de prévision au niveau de confiance de 95%. trouver 𝛽0 et 𝛽1 .11 12758.Ass. Interpréter.99 8169. Où Yt représente la quantité offerte de pommes et Xt le prix. 40 Exercices sur le modèle de régression linéaire Exercice 1 Le tableau ci-dessous représente l’évolution du revenu disponible brut et de la consommation des ménages en euros pour un pays donné sur la période 1992-2001. .21 10593. Ecrire et vérifier l’équation d’analyse de la variance. Connaissant le couple (Y=2. Après estimation. En 2002 et 2003. X=2) par lequel passe cette droite de régression. Cédrick Tombola M.5 . Argumenter.09 13869.84 8788. En déduire les valeurs estimées 𝐶𝑡 de Ct. Déterminer les valeurs prévues de la consommation pour ces deux années.62 On cherche à expliquer la consommation des ménages (C) par le revenu (R).08 9616.

Cédrick Tombola M. 41 Exercice 3 Soit un modèle linéaire simple : Yt = β0 + β0Xt + ut On donne les informations suivantes : ∑YX=184500 ∑Y2=26350 ∑X2=1400000 𝑌=60 Travail demandé : Estimer les coefficients du modèle Evaluer la qualité de cet ajustement Tester la significativité globale du modèle 𝑋=400 n=7 Exercice 4 Soit le modèle : Yt= β0 + β1Xt + ut Yt : salaire moyen horaire par jour [en USD] Xt : nombre d’années d’études On donne par ailleurs les informations suivantes : rXY= 0. Exercice 5 Le tableau suivant donne l’âge et la tension artérielle Y de 12 femmes : Individu Age (X) Tension artérielle (Y) Travail demandé : (i) (ii) (iii) Déterminer l’équation de la droite de régression de Y sur X. Père Fils 65 68 63 66 67 68 64 65 68 69 62 66 70 68 66 65 68 71 67 67 69 68 71 70 .. 1 56 136 2 42 132 3 72 136 4 36 130 5 63 138 6 47 132 7 55 136 8 49 130 9 38 142 10 42 134 11 68 136 12 60 140 Exercice 6 Les données statistiques ci-dessous portent sur les poids respectifs des pères et de leur fils aîné.030769 + ……………. Tester la significativité de la pente. σx=3. sur base d’un échantillon de 13 observations. Tester la significativité du rXY. Interpréter ces résultats.945636 Après estimation.951916 . un étudiant de L1 FBA présente l es résultats incomplets ci-après : 𝑌𝑡 = 0. Quelle conclusion peut-on tirer ? Estimer la tension artérielle d’une femme âgée de 50 ans. Tester la significativité de la pente et la significativité d’ensemble du modèle. Xt Travail demandé : (i) (ii) (iii) (iv) (v) Compléter les pointillés. Semblent-ils logiques ? Calculer le R2.Ass.894440 et σy=2.

Toujours B. Que vaut le produit des pentes des deux régressions ? Juger de la qualité des ajustements faits en (i) et (ii). le R2 correspond au carré du F de Fisher : A. Cédrick Tombola M.66 1) A partir des informations connues. Travail demandé : (i) (ii) (iii) (iv) Calculer la droite des moindres carrés du poids des fils en fonction du poids des pères. la somme des carrés totaux (SCT).23 𝜎𝑢 𝑡 = 10. le R2 est symétrique : A.Ass. la somme des carrés expliqués (SCE). Trouver l’estimateur 𝛽 des MCO. Oui B. on demande de retrouver les statistiques suivantes : la somme des carrés des résidus (SCR).95 + 1. Non C. la statistique F de Fisher et l’écart-type de la pente. La droite des MCO d’une régression linéaire simple passe -t-elle par le point (𝑥 . Calculer la droite des moindres carrés du poids des pères en fonction du poids des fils. 42 Exercice 7 Cocher la bonne la réponse. Exercice 10 Soit les résultats d’une estimation économétrique : 𝑌𝑡 = . Oui B. Non Exercice 8 Soient les données suivantes : 6 𝑡 1 𝑌 = 114 6 1 𝑋𝑡 = 36 6 2 1 𝑋𝑡 = 226 6 𝑡 1 𝑋𝑡 𝑌 = 702 Estimer la relation Yt = β0 + β1Xt + ut Exercice 9 Soit le modèle suivant sans terme constant : Yt = βXt + ut. 2) La pente est-elle significativement supérieur à 1 ? . Pour une régression linéaire simple. Pour une régression linéaire simple.32.251Xt n = 20 R2 = 0. Jamais C. 𝑦) ? A. Parfois 3. Parfois 2. 1.

Tester l’hypothèse H0 : β1 = 0 [avec β1 la pente]. Tester la significativité individuelle et conjointe des paramètres. 10 et 20. . 2. Exercice 12 Le tableau ci-après renseigne sur la quantité offerte d’un bien (Y) et son prix (X) N° Y X 1 23 5 2 25 7 3 30 9 4 28 6 5 33 8 6 36 10 7 31 9 8 35 7 9 37 8 10 42 11 Travail à faire : (i) (ii) (iii) (iv) Tracer le diagramme de dispersion et commenter. Juger de la qualité de cet ajustement. (v) Exercice 13 Le coefficient de corrélation linéaire entre deux variables X et Y est r = 0. Calculer les résidus de cette régression.Ass. revient à tester l’hypothèse rXY = 0.60. et leurs moyennes. Cédrick Tombola M.50 et 2 . Si les écarts-type de X et Y sont respectivement 1. respectivement. La somme des résidus est toujours égale à 0. Trouvez les équations de régression de Y en X et de X en Y. Régresser Y sur X. 43 Exercice 11 Montrer algébriquement que : 1.