Introduction à stata

SAMBA MBAYE Enseignant ± Chercheur UGB - CERDI E-mail: sambambayeptci@yahoo.fr Avril 2011

CHAPITRE I INTRODUCTION GENERALE

Qu¶est ce que STATA
‡ C¶est un logiciel d¶entrée, de gestion, d¶analyse des données statistiques. ‡ C¶est un outil qui permet de produire des résultats économiques utiles pour les chercheurs et les décideurs économiques ‡ C¶est un outil économétrique et statistique puissant. ‡ C¶est un logiciel souple car on peut ajouter des commandes supplémentaires ‡ Son langage est simple

Limites Sa seule limite actuelle est la gestion de très grosses bases de données. .

.

‡ Il est aussi conseillé de travailler avec les do file.Organisation pour travailler avec STATA: quelques conseils ‡ Avant tout. ainsi que les rapports éventuels. pensez à sauvegarder vos données (Un accident vite peut arriver et on risque de tout perdre). ‡ Il faut toujours avoir un et un seul fichier pour chaque projet. les codes sources et les résultats. Ce projet va contenir les données. .

Organisation interne du logiciel ‡ ‡ ‡ ‡ ‡ ‡ ‡ Stata est une série de commandes résultant de programmes trop longs dés fois. Stata peut-être installé sous trois format: petit(small). Un fenêtre variables ou les variables de la base de données utilisées s¶affichent Une commande review permet de revoir les commandes effectuées dans le passé et de les répéter sans avoir à les réinscrire. . moyen (intercolled) grand (special edition) Il y a quatre principales fenêtres: Une fenêtre portant le nom de command pour taper les différentes commandes. Un fenêtre « results » affiche les calculs de Stata le plus souvent sous forme de tableaux.

‡ Les bases de données stata ont une extension « .Comment créer une base de données ‡ On utilise l¶éditeur de données (data editor) (Faire un exemple simple) ‡ Si on a un fichier stata à notre disposition. ‡ On peut aussi utiliser le logiciel stat transfert pour transformer n¶importe quelle base de données en format stata et travailler avec. . il est impératif d¶allouer à stata suffisamment de mémoire (set memory). ‡ Quelle que soit la méthode. on peut l¶ouvrir en allant dans « file » «open » et on spécifie le chemin.dta ».

Traitement de la base de données ‡ Il faut commencer par labelliser les variables. (cela peut se faire directement à partir du data editor) .

‡ Les manuels de référence de Stata ‡ Le Site de stata.Comment Trouver de l¶aide ‡ Il existe plusieurs façon d¶obtenir de l¶aide. particulièrement leur équipe technique qui est là pour conseiller et guider les usagers sur des problèmes pointus ‡ Le moteur de recherche google . search sont les plus utilisées. ‡ Les commandes man help.

CHAPITRE II: DATA MANAGEMENT .

il y a trois possibilités: ‡ Soit utiliser les menus déroulants.STATA ET GESTIONS DES DONNES ‡ Pour gérer une base de données. ‡ Soit utiliser l¶interactivité ‡ Le do file .

Mais ces codes ne sont pas très parlant et servent surtout pour la programmation avancée.Quelques petits problèmes ‡ Vous allez rencontrer des difficultés. ‡ Après chaque erreur stata émet un code d¶erreur. stata va cracher et émettre des messages d¶erreur. c¶est normal pour un débutant. . Ne vous découragez pas.

moyenne. ‡ La commande tabulate permet de créer des tableaux.. écart type. ‡ Codebook statistiques sur chaque valeur prise par les variables.ANALYSE DESCRIPTIVE ‡ Les commandes suivantes: ‡ inspect [nom de la variable] cette commande permet de faire des statistique sur le nombre des valeurs positives. ‡ list[nom de la variable] affiche les valeurs prises.négative etc. ‡ La commande summarize (statistique descriptive. ) .

ULISATION DE LA COMMANDE « tabulate » ‡ Avec la version 9. Elle a la même fonction que tab . ‡ On peut aussi utiliser la commande tab1. on peut s¶arrêter juste au diminutif de tabulate. en écrivant « tab ou ta ».1. le résultat sera le même. ‡ La commande «tab» suivie de deux variables permet de sortir des tableaux croisés.

‡ «su nom de la variable. Cela permet de voir l¶état global de la base de données. detail» permet d¶avoir toutes les informations sur la variable en question. plusieurs variables.La commande summarize ‡ On peut aussi utiliser le diminutif «sum ou su» ‡ On peut faire suivre à la commande «sum». .

Syntaxe : commande variable if condition. ‡ Exemple: sum eau if region ==« Dakar». .La commande «if» ‡ if permet de n¶appliquer la commande qu¶aux observations remplissant une condition particulière.

‡ in permet de n¶appliquer la commande qu¶aux observations se situant dans un intervalle donné.La commande «by». ‡ Exemple sum eau in 10/20 donne les statistiques descriptives de la variable « eau » pour les observations de la 10ème à la 20ème ligne de la base de données. ‡ . La commande «sort» permet de classer cette variable. «in» «by» permet d¶appliquer une commande à chaque valeur d¶une variable. La syntaxe de cette expression est: «by variable : commande variable». Il faut que la base de données soit ordonnée ou classée par cette variable. Exemple : bysort region : sum eau Permet d¶obtenir l¶accessibilité moyenne en eau potable par région. Syntaxe : commande variable in condition. On peut utiliser le «sort» avant le «by» ou bien faire tout en même temps en utilisant la commande «bysort». «sort».

Commandes replace et drop ‡ «replace» permet de changer le contenu d¶une variable Exemple : replace eau =2 ‡ Drop supprimer tout simplement une variable. . Exemple: drop nom de la variable.

Exemple N Amadou Boubacar Sophie Joseph Aminata Khady Alex Fatou Malick Abibatou Mamadou sexe 1 1 0 1 0 0 1 0 1 0 1 ressources 1 1 0 0 1 0 1 0 1 0 1 examen 6 9 14 11 10 13 15 16 13 12 10 mention .

Renommer une variable ‡ rename N nom ‡ rename examen notes La variable initialement appelée . La commande browse nous permet de visionner les variables de la base. . N portera le nom « nom » et examen prendra le nom « notes ».

modify .Labellisation ‡ Pour labelliser une variable. add label define sexe 3 "maybe". Pour labelliser une variable avec plusieurs modalités. on peut écrire directement la commande suivante: label var nom de la variable puis le label (label var n «Noms des personnes). on doit procéder comme suit: label define sexe 1 masculin 0 feminin label values sexe sexe Pour ajouter un label on procède comme suit: label define sexe 3 "perhaps".

Créer une variable ‡ La commande generate permet de créer de nouvelles variables on utilise souvent le diminutif «gen» ‡ gen admis = 0 replace admis =1 if notes >=10 label define admis 1 réussi 0 échec gen mention = 0 replace mention =1 if notes >=10 & notes < 12 replace mention =2 if notes >=12 & notes < 14 replace mention =3 if notes >=14 & notes < 16 replace mention =4 if notes >=16 label define mention 0 Insuffisant 1 Passable 2 Assez_bien 3 Bien 4 Très_bien label values mention mention .

bysort ressources : ta mention .label define ressources 1 Boursier 0 non boursier label values ressources ressources.

‡ Pour obtenir un graphique circulaire: graph. pie nom des variables Exemple: graph pie eau ecole_prim sante commerce route On peut afficher les graphiques par région aussi: Exemple: graph pie eau ecole_prim sante commerce route. Nous présentons les commandes nous permettant de faire des graphiques simples. by(region) .Les graphiques ‡ Faire des graphiques avec stata n¶est pas une chose simple.

Parmi les principaux types : ‡ Les histogrammes On écrit : twoway hist variable Exemple : twoway hist eau L¶option title permet d¶écrire le titre du graphique Exemple : twoway hist eau. by(region) . la commande débute par twoway suivi du type de graphique (X. title(accès à l¶eau) note(accessibilité moyenne) Exemple : twoway hist eau. L¶option note permet de faire des notes de bas de page sur le graphique twoway hist eau.Y) souhaité. title(accès à l¶eau).Y) ‡ Pour tous les graphiques (X.Les graphiques (X.Y).

Autres exemples ‡ twoway line age examen. title(évolution des résultats suivant l¶age) note(source: scolarité) ytitle(age) xtitle(notes) ‡ sort note .

Quelques opérateurs logiques utiles Soustraction Division non Ou Renvoie de l¶argument possédant la valeur la moins élevée Min(x1«xa) / Addition Multiplication Puissance Et Renvoie de l¶argument possédant la valeur la plus élevée + * ^ & Max(x1«xa ) Différent Racine carrée de x Plus petit Logarithme de x Plus petit ou égal ~= Sqrt(x) < Log(x) <= Égal ex Plus grand x Plus grand ou égal == Exp(x) > Sum(x) >= .

Chapitre III: Introduction à la programmation sous stata .

‡ Donner un nom à ce fichier.Fichier do ou do file ‡ Pour écrire un programme il faut ouvrir un fichier do. .

.Set matsize 100 : permet de spécifier la taille de la matrice des données. .Use[nom de la base] permet d¶appeler la base à utiliser pour effectuer le programme. Ici. text replace Il crée un fichier ou sera enregistré l¶ensemble des résultats du programme effectué.#delimit Il permet de délimiter les différentes instructions par un point virgule. . .set memory 100m Permet d¶allouer une mémoire vive à stata. .log.log using samba. clear. Cela permet d¶ouvrir des bases assez lourdes. le programme ne tournera pas). .Préambules . il faut bien spécifier le le chemin (dans le cas contraire. version 9.1.A la fin de chaque programme faire un «log close» pour fermer le fichier log ( pas toujours nécessaires). capture log close.

Chapitre IV: Introduction à l¶Econométrie ‡ L'économétrie: un lien entre la théorie économique et les données. . Elle permet d'ajouter une dimension empirique au raisonnement économique.

Objets de l¶économétrie ‡ Représentation de modèles économiques sous une forme empiriquement testable: la recherche de spécification empirique. . ‡ Utilisation de modèles à des fins de prévision ou d'analyse de politiques. ‡ Estimation et tests d'hypothèse sur des modèles à partir de données observées: l'inférence.

De façon schématique Théorie économique Modèle empirique Données Estimations Tests d¶hypothèses économiques Utilisation du modèle. prévision et analyse politique .

Dangers de l¶analyse ‡ Utiliser la théorie seulement sans évaluation empirique. ‡ d'analyser des corrélations empiriques sans référence à la théorie économique. .

Les modèles de régression linéaire(simple ou multiple) .

évaluer l¶impact d¶une politique publique sur un échantillon de population ou même de faire des prévisions . entre autre. d¶estimer l¶effet marginal de la variation d¶une unité de la variable indépendante sur la variable dépendante. On peut. tester des théories économiques. par exemple.Les régressions sont des outils qui permettent.

Le modèle de régression simple Le modèle régression simple permet de spécifier le lien qui existe entre une variable quantitative et une autre. niveau du salaire et ancienneté dans l¶entreprise etc. ‡ Sa formule se présente comme suit: ‡ Y = aX + b + (1) ‡ Y est la variable dépendante. Par exemple la relation entre le revenu et la consommation. b le terme constant et le terme d¶erreur. X est appelé variable indépendante ou bien régresseur (aussi covariate) a le coefficient de X. .

est le terme d¶erreur. ‡ Y = c + a1x1 + + anxn + (2) ‡ c est la constante du modèle. ai les différents coefficients des variables explicatives et xi les différentes variables explicatives.Modèle de régression linéaire multiple ‡ Il Il arrive souvent qu'on veuille expliquer la variation d'une variable dépendante par l'action de plusieurs variables explicatives. (i varie de 1 à n). . ‡ Dans de telle situation on fait recours au modèle de régression multiple.

C¶està-dire qu¶il n y a pas de lien entre les variables indépendantes et le terme d¶erreur. ‡ Homoscédasticité: var( ) = 2 ‡ Autocorrélation: i et j sont non corrélés c¶est-à-dire qu¶il n¶existe pas de relation entre ces deux termes. quel que soit i =1 à n. .Les hypothèses du modèle ‡ H1 Linéarité: la relation entre y et x doit être linéaire ‡ H2 : Il n¶existe pas de relation linéaire exacte entre les variables indépendantes ‡ H3: Les variables indépendantes sont exogènes. ‡ E( i) = 0.

à variance minimale (estimateur le plus efficace) et convergent. .Les méthodes de régression: MCO ‡ Si les conditions susmentionnées sont satisfaites l¶estimateur par les Moindres carrés ordinaires (MCO) est le meilleur estimateur qu¶on peut utiliser. On parle alors d¶estimateur BLUE (best linear unbiased estimator). ‡ La commande regress nous permet de faire des MCO. ‡ Il s¶agit d¶un estimateur sans biais.

âXi .Description sommaire de la méthode ‡ Les paramètres inconnus de la relation stochastique suivante Yi = aXi + Sont a et . Leurs estimateurs fondés sur un échantillon de données sont notées par â et e Ainsi l¶estimateur de Yi est donnée par i = âXi. L¶estimateur de l¶erreur (e) est obtenue en faisant: ei= Yi .

Maintenant la méthode consiste à minimiser la somme des carrés du résidu (l¶erreur). d¶où le nom de moindres carrés. Ce programme de minimisation aboutit au résultat suivant: b = (X¶X)-1 X¶Y .

Mais il n¶est plus l¶estimateur le plus efficient.S¶il existe par exemple un problème d¶hétéroscédasticité ou d¶autocorrélation: ‡ L¶estimateur reste sans biais et est toujours convergent. .

on peut juger la qualité de l¶ajustement du modèle.Interprétation des résultats ‡ Interprétation des résultats ‡ Le R2 : coefficient de détermination du modèle.50 cela veut dire que la variabilité des variables explicatives du modèle expliquerait 50% la variabilité de la variable dépendante. Pour calculer le R2. nous avons besoin des SCT SCR=somme des carrés résiduels SCE=somme des carrés estimés SCT=somme des carrés totale .SCR/SCT SCT = SCR + SCE A partir de cette décomposition. quand le R carré de l¶estimation est égal par exemple à 0. R2 = 1.

démonstration ‡ La SCT permet de connaître la variabilité totale de la variable expliquée. Ceci est mesurée par la distance qui sépare les valeurs observées et leur moyenne. N ‡ SCT= § i !1 ( yi  y) 2 ‡ SCT peut-être décomposée en deux parties: ‡ La variabilité des valeurs ajustées (SCE) ou variabilité expliquée et la variabilité des résidus. .

Démonstration ‡ En fait ( yi  y ) ! ( yi  y )  ( yi  yi ) § (yi y) ! § (yi  y)  § (yi yi) .

Démonstration ‡ Variabilité totale = variabilité expliquée + variabilité résiduelle .

meilleur est l¶ajustement ‡ Plus le R2 est proche de 1. . meilleur est l¶ajustement . ‡ Cependant ce coefficient n¶est pas pertinent pour comparer le pouvoir explicatif plusieurs modèles ne comprenant pas le même degré de liberté.Qualité ajustement ‡ Plus le SCE est proche de la SCT.

Par exemple un R carré faible peut-être justifier par l¶absence de certaines variables explicatives. Il peut aussi être biaisé à la hausse si le nombre de variables indépendantes est élevé. SCR ( N  K ) 2 2 K 1 2 R !R (1  R ) ! 1  N K SCT ( K  1) .Qualité de l¶ajustement Se baser sur R carré pour apprécier le modèle peut conduire à l¶erreur. Il est préférable d¶utiliser le R carré ajusté.

Qualité de l¶ajustement ‡ Le test de significativité globale du modèle (significativité globale du modèle F de Fischer). n  K] ! 2 (1 R ) /(n  K) 2 . La formule du test de fisher: R / K 1) F[K 1.

.Qualité de l¶ajustement ‡ Le test de student.

Cependant dans la réalité cette situation n¶arrive jamais. l'erreur quadratique moyenne ou MSE d'un estimateur est une des nombreuses façons de quantifier la différence entre un estimateur et la vraie valeur de la quantité estimée.Qualité ajustement ‡ MSE : Mean Square Error : Il s¶agit de la valeur espérée de l¶erreur au carré. ‡ Root MSE: c¶est la racine carré de MSE. . Il permet de déterminer si le modèle n¶est pas adapté au données utilisées ou bien s¶il peutêtre simplifié en enlevant certaines limites. ‡ L¶idéal c¶est d¶avoir une EQM = 0 dans ce cas on a une précision parfaite. ‡ En statistiques.

La commande kdensity nous permet de visualiser l¶allure du terme d¶erreur. normal permet de faire une comparaison avec la distribution normale . resid sktest residu Quand la probabilité du test est supérieure à 10% on ne peut pas rejeter l¶hypothèse nulle (Ho) de normalité des erreurs. On procède comme suit: on récupère le résidu avec la commande predict après la régression: regress Y X1 X2. robust predict residu. kdensity.Les tests de validité d¶un modèle ‡ Test de normalité des résidus La commande sktest permet de faire le test de normalité d¶une variable donnée.

Si la probabilité est supérieure à 10% on accepte (Ho) d¶une bonne spécification. . La commande ovtest nous permet de faire un tel test.Test de Ramsey Reset ou test de validité du modèle ‡ Le test de Ramsey permet de tester l¶omission de variables explicatives pertinentes ou une mauvaise spécification du modèle.

. Seulement ici dans la régression. on utilise pas l¶option robust. Elle fonctionne suivant le même principe que le test ovtest. ‡ L¶option robust permet de corriger le problème d¶hétéroscédasticité par la méthode de white.Test de détection de l¶hétéroscédasticité ‡ La commande hettest utilise le test de breusch Pagan pour tester l¶hypothèse d¶homocédasticité des résidus.

Test d¶autocorrélation En panel on utilise la commande xtserial pour faire le test d¶autocorrélation. Il s¶agit du test de wooldridge pour détecter l¶autocorrélation. .

L¶économétrie des variables qualitatives .

Introduction ‡ Les modèles des variables qualitatifs sont développés pour la première fois par Berkson(1944.1951). Il s¶agit essentiellement des modèles (probit et logit). . ‡ Les premières applications étaient faites dans le domaine de la biologie de la sociologie et de la psychologie. ‡ Les économistes l¶utilisent vers les années 70 avec les travaux de Daniel Macfadden(1974) et James Heckman(1976).

‡ Maintenant la question c¶est comment intégrer un caractère qualitatif dans un modèle économétrique? .Le modèle qualitatif ‡ Supposons l¶existence d¶un caractère qualitatif qui peut prendre K modalités distinctes ‡ Si k=2 on dit que la variable est dichotomique. si k>2 on dit que la variable est polytomique.

employé. cadre .) . Le fait d¶être ou non au chômage Comment doit on représenter ces différents caractères qualitatifs.école d¶ingénieur etc) . La réponse naturelle consiste à coder les différentes modalités. La catégorie socio-professionnelle (ouvrier.exemples ‡ Le type d¶études suivi par un étudiant: (universitaire. .

.

Yi =0 si l¶évenement s¶est réalisé pour l¶individu i Yi=1 si l¶évenement ne s¶est pas réalisé pour l¶individu i

Soit le modèle suivant:
y*i = axi + i Où i indique l¶observation tandis que représente le terme d¶erreur. Quand la variable expliquée prend 1 ou 0 l¶estimation linéaire n¶est pas appropriée car les valeurs prédites peuvent être supérieures à 1 inf à 0 ou entre 0 et 1; Etant donné que nous avons des probabilités, on ne peut avoir une valeur supérieure à 1; Donc les MCO ne passent pas.

Ici on modélise non pas la variable dépendante y mais la probabilité qu¶elle prenne la valeur 1 ou 0. Pour modéliser cette probabilité, on suppose qu¶il existe une variable latente y* telle que: y=1 si y*•0 et y= 0 si y*”0.

. ‡ La commande logit permet de faire des régressions sur des variables qualitatives.Les modèles probit logit ‡ la commande probit permet de faire la régression des variables qualitatives.

non pas un codage quantitatif associé à la réalisation d¶un événement (comme dans le cas de la spécification linéaire).Les modèles dichotomiques probit et logit admettent pour variable expliquée. on considère le modèle suivant : . conditionnellement aux variables exogènes: Ainsi. mais la probabilité d¶apparition de cet évenement.

pi = Prob (yi = 1| xi) = F (xi ) où la fonction F(. A chacune de ces fonctions correspond un nom attribué au modèle ainsi obtenu: modèle logit et modèle probit . on utilise généralement deux types de fonction : la fonction de répartition de la loi logistique et la fonction de répartition de la loi normale centrée réduite.) désigne une fonction de répartition. Toutefois.

le modèle probit est basé sur la fonction de répartition de la loi normale. .Le modèle probit et logit ‡ Comme déjà annoncé. ‡ Il est difficile de justifier sur le plan théorique le choix entre un modèle probit et un modèle logit. ‡ Il est donc conseillé de présenter les résultats issus des deux modèles. ‡ On suppose que l¶erreur suit une loi normale centrée et réduite. ‡ Le modèle utilise la fonction de répartition de la loi logistique de moyenne nulle et de variance pi2/3.

(aussi le coefficient de 1. ‡ La variance des écarts aléatoires du probit est normalisé à 1 alors que celle du logit à pi2/3. ‡ Pour rendre les coefficients du probit comparables à ceux du logit il suffit donc de les multiplier par 1. .6 a été proposé par Amemiya (1981).Le modèle probit et logit ‡ Il faut se rappeler que les coefficients du probit ne sont pas immédiatement comparables à ceux du logit.8. ‡ La différence entre les deux lois reposent dans les queues de distribution qui sont plus épaisses dans le cas de la loi logistique.

.La méthode d¶estimation ‡ La méthode d¶estimation approprié est celle du Maximum de vraisemblance. ‡ Maximiser la vraisemblance consiste alors à chercher la valeur des paramètres telle que l¶observation de l¶échantillon soit la plus probable. ‡ La vraisemblance c¶est la probabilité d¶observer un échantillon sachant les paramètres du modèle qui ont engendré les observations.

applications ‡ probit foreign weight mpg ‡ logit foreign weight mpg Quand par exemple la variable weight a un coef négatif et significatif cela veut dire comme interprétation qu¶il est peu probable que des cars lourds proviennent de l¶étranger. .

L¶évaluation de la qualité du modèle ‡ Pseudo R2 s¶interprète de la même façon que le coefficient de détermination du modèle. .

Si les variables dépendantes ont plusieurs modalités: ‡ Si ces modalités sont ordonnées : on fait appel à ce qu¶on appel les probits ordonnés ou logit ordonnés effectués par les commandes oprobit et ologit ‡ Si les modalités ne sont pas ordonnées on fait référence aux modèles multinomiaux. . ‡ Les commandes sont alors mlogit et mprobit.

‡ Très Riche ‡ riche ‡ Pauvre ‡ Très pauvre Cependant les données non ordonnées .Asiatique .Français .Définition modalités ordonnées ou pas ‡ Les différents niveaux de pauvreté sont considérés comme ordonnés car nous avons une suite logique.Américain .

L¶économétrie des données de panel .

.Définitions ‡ Un panel: Il s¶agit d¶observations sur un ensemble d¶individus à plusieurs moments du temps ‡ Exemple: les enquêtes ménage sur la pauvreté: un échantillon de ménage observé sur plusieurs périodes.

1 Men2 X1.30 . X17.2 « X2.1 X2.2 « .Niveau de revenu des ménages dans le temps Men1 1990 1991 «« 2007 (t=18) «.1 X1. « «.30 X2.2 «. Men30 X1.30 «. X17.. X17.

Avantages des données ‡ Plus d¶observations ‡ Prise en compte de l¶hétérogénéité ‡ On peut tenir compte de l¶influence des caractéristiques non observables ‡ On capte des effets de court et de long terme ‡ Réduction du biais d¶estimation des coefficients .

Inconvénients ‡ Présence d¶observations aberrantes qui peut entrainer la perturbation de la qualité des estimations ‡ Observations non renseignées. .

Caractéristiques des données de panel ‡ Une des caractéristiques fondamentales des données de panel c¶est leur double dimension. ‡ Une dimension individuelle et une dimension temporelle ‡ Cette double dimension permet d¶étudier la dynamique et l¶hétérogénéité des comportements des agents (Balestra et Nerlove 1995). .

Caractéristiques des données de panel ‡ Il existe deux types d¶hétérogénéité ‡ L¶hétérogénéité observée et l¶hétérogénéité inobservée ‡ La première est contrôlable avec les variables explicatives ‡ La seconde est plus problématique ‡ Par exemple la productivité d¶un individu dépend de son niveau d¶éducation et de certaines caractéristiques individuelles inobservées (habileté. préférences«) .

Caractéristiques des données de panel ‡ Ne pas tenir compte de cette hétérogénéité inobservée peut conduire soit à une perte d¶efficacité de l¶estimateur des MCO soit à un estimateur biaisé. . ‡ Cette hétérogénéité ne peut pas être contrôlé dans les analyses en coupe instantanée ou sur série temporelle.

Pour faire un application en panel.Les modèles à effets fixes et aléatoires ‡ En économétrie de panel nous avons essentiellement deux types de modèle (les modèles à effets fixes et à effets aléatoire)! ‡ Ces deux types de modèles permet de capter les caractéristiques individuelles non mesurables. il faut procéder comme suit: .

on écrit: egen ident = group(nom de l¶observation individuelle) pour l¶identifant temp il s¶agit juste de la variable temps.Créons un identifiant individuel et temporel soit ident l¶identifiant individuel et temp identifiant temporel pour créer ident. .

Il faut maintenant déclarer les identifiants en faisant: tis nom de l¶identifiant: pour l¶identifiant temporel iis nom de l¶identifiant : pour ce qui de l¶identifiant individuel

LE Modèle à effets fixes
‡ ‡ ‡ ‡ xtreg variable dépendante variables indépendantes, fe On parle d¶effets fixes quand les effets spécifiques sont corrélées avec les variables explicatives. xtreg calcule trois statistiques: Pour le modèle à effet fixe, le R2 le plus pertinent est le R2 within Dans le tableau, il existe deux statistiques du test de Fisher. La première en haut du tableau teste la significativité conjointe des variables explicatives du modèle. La deuxième en bas du tableau test la significativité jointe des effets fixes introduits.

‡

LE Modèle à effets fixes
‡ La commande xtreg ne permet pas d¶option robust pour corriger l¶hétéroscédasticité par la méthode de White. ‡ Pour le faire il faut utiliser la commande areg. Il s¶agit areg à la place de xtreg pour obtenir les mêmes résultats tout en corrigeant pour l¶hétéroscédasticité. ‡ La syntaxe: areg nom des variables, absorb(id) robust ‡ L¶option absorb (id) spécifie la variable (id) comme représentant de la dimension transversale.

LE Modèle à effets fixes ‡ L¶option predict yhat. e prédit les erreurs stockées dans la variables residu . xb prédit la variable dépendante et stocke les données dans la variable nommée yhat ‡ predict ef. u prédit les effets fixes stockés dans la variables ef ‡ predict residu.

r prédit des résidus . d prédit l¶effet fixe predict residu.LE Modèle à effets fixes predict ef.

‡ Le R2 within donne une idée de la contribution des effets aléatoires au modèle . re ‡ On parle d¶effet aléatoire quant on suppose qu¶il y a une indépendance entre les effets spécifiques et les variables explicatives du modèles ‡ En faisant des effets aléatoires le R2 le plus pertinent c¶est le R2 between.Le modèle à effets aléatoires ‡ xtreg var dependantes var indépendantes.

on dit que les effets aléatoires sont globalement significatifs à un seuil de 5%. ‡ La probabilité obtenue est comparée à 5% Si on obtient une probabilité de 5%.Le modèle à effets aléatoires ‡ La commande xttest0 après une estimation des effets aléatoires permet d¶obtenir la statistique du test de Breusch Pagan qui teste la significativité des effets aléatoires. .

«.Le test de Hausman ‡ Le test de hausman nous permet de savoir entre les effets fixes et les effets aléatoires. fe ‡ est store eq1 ‡ Xtreg. re ‡ hausman eq1 .. «. quel est le modèle à choisir? ‡ La syntaxe: ‡ xtreg.

cela signifie que le modèle à effets fixes est préférable au modèle à effets aléatoires. .Le test de Hausman ‡ Si la probabilité obtenue est inférieure à 10%.

Sign up to vote on this title
UsefulNot useful