Etapes de Constitution D'une Base de Donnees

Chapitre 1 42
Chapitre 1
Constitution d’une base de données : publications,

citations et carrières des chercheurs du CNRS dans le
domaine de la physique de la matière condensée
La construction d’une base de données spécifique pour traiter de diverses questions

pertine ntes pour l’économie de la science représente une part importante du travail effectué
dans cette thèse. Elle a nécessité un traitement complexe et précis des données sources de
publication et de citation du Science Citation Index obtenues grâce à la collaboration de
l’équipe de l’UNIPS (Unité d’Indicateurs de Politique Scientifique, CNRS) et en
particulier de Serge Bauin et de Michèle Crance. Les données sources de publication et
citation ont été complétées par différentes variables présentées dans ce chapitre. Cette base
est confidentielle et les chercheurs étudiés ont été rendus anonymes. A ma connaissance,
peu d’autres bases de données de panel existent : il y a par exemple la base construite par
Levin et Stephan (1991) sur les publications et citations de scientifiques américains entre
1973 et 1979, la base des publications des économistes européens construite par Combes et
Linnemer (2001) pour la période 1971-2001, et la base des publications des économistes
dans le monde entre 1969 et 2000 de Tom Coupé (2003). Ce chapitre méthodologique
présente les étapes de la construction de la base de donnée et une description des variables
retenues.
Chapitre 1 43
1 Les étapes de la collecte des données sources : obtention des

publications et des citations
La première partie du travail de construction de la base a consisté à identifier les

publications et les citations relatives à ces publications des chercheurs en Physique du
CNRS sur la période la plus étendue possible, au sein d’une base source, le Science
Citation Index (SCI) produit par l’Institute for Scientific Information (ISI). Le SCI est une
base américaine qui couvre tous les champs disciplinaires scientifiques. Elle est constituée
à partir du dépouillement de plus de 3200 périodiques internationaux les plus cités. La
qualité des données est remarquable et, en particulier, la couverture des publications des
unités du CNRS est satisfaisante (UNIPS, mars 1999). Le SCI est ainsi devenu une base de
référence des études portant sur la production scientifique.
L’UNIPS possède cette base sous la forme de CD-ROM annuels débutant en 1979.
Le CD-ROM initial ne recense pas toutes les publications et citations datant de l’année
1979 car certaines peuvent apparaître sur le CD-Rom de 1978. De même, au moment où
nous avons commencé la constitution de la base, soit en 1999, le dernier CD-ROM possédé
par l’UNIPS concernait l’année 1997, mais sur celui-ci manquaient certaines publications
et citations présentes sur le CD-Rom de 1998. C’est pourquoi, l’étude a d’abord porté sur
la période 1980-1996 (chapitre 3 section 3). Puis elle a été élargie lorsque le CD-Rom de
l’année 1998 a été rendu disponible, et la période que l’on a pu étudier est finalement
1980-1997.
Les scientifiques dont nous recensons les publications et citations travaillent dans le
domaine de la matière condensée (sections 5 et 6 du CNRS), domaine qui présente des
caractéristiques adaptées pour l’utilisation des données que l’on se propose de faire : les
journaux de forte réputation sont clairement identifiés, la taille du domaine couvert est bien
définie et les chercheurs de cette discipline sont peu mobiles vers le secteur privé de
l’économie. En outre, la matière condensée est un segment majeur de la physique
française. En effet, elle rassemble environ la moitié des cherche urs français en Physique
(au sein du CNRS mais aussi au total, lorsque l’on tient compte de l’Enseignement
Chapitre 1 44
Supérieur 1 ) et son importance est croissante comme l’illustre l’attribution du Prix Nobel à
Pierre-Gilles de Gennes en 1991 2 .
La liste des noms des chercheurs nous a été fournie par l’UNIPS, qui l’a établie
selon deux critères : les physiciens sont nés entre 1936 et 1955 et travaillent encore au
CNRS en 1997 dans la discipline de la matière condensée. Ces chercheurs sont au nombre
de 388. Au même moment où il a été décidé d’élargir la période d’étude, il a été choisi
d’ajouter des chercheurs plus jeunes à la liste initiale, et l’on a retenu les chercheurs nés
entre 1956 et 1960 qui travaillaient encore au CNRS en 1997, soit 109 autres chercheurs.
Mais en raison de son coût, l’obtention des citations n’a pas pu être envisagée pour les
articles de ces nouveaux chercheurs. La base de données comprend ainsi les publications
de 497 physiciens sur la période 1980-1997 et les citations des articles de 388 d’entre eux
sur la période 1980-1996. Seule la section 3 du 3 portant sur la promotion contient des
résultats établis avant l’élargissement de la base à l’année 1997 et aux jeunes chercheurs.
Les 497 chercheurs représentent une grande part du nombre total des chercheurs du
domaine considéré, puisque en 1996, la physique des milieux denses et des matériaux du
CNRS (qui englobe les sections étudiées) comprenait 654 chercheurs (Barré, Crance,
Sigogneau, 1999). Notons qu’il a été possible de suivre le changement de nom des femmes
qui ont pris au cours de la période le nom de leur mari, de sorte que leur profil de
publications et de citations est complet.
Le premier critère de sélection de la liste des chercheurs étudiés est assez large, car
il permet d’étudier des chercheurs dont l’âge varie entre 20 et 61 ans sur la période
considérée. En revanche, le deuxième critère est restrictif car il ne permet pas de rendre
compte du comportement de publication des chercheurs qui sont sortis du CNRS avant
1997. Selon leur motif, par exemple la démission, ces sorties sont susceptibles d’influencer
1
Le CNRS et l’Enseignement Supérieur (et plus marginalement l’INRETS) sont les seules
institutions publiques de recherche dans ce domaine en France. En 1996, les physiciens de la matière
condensée dans l’Enseignement Supérieur étaient au nombre de 1475, dont 654 au CNRS et 16 à l’INRETS
(Barré, Crance, Sigogneau, 1999).
2
La matière condensée étudie, à des échelles diverses (atome, molécules, colloïdes, grains ou cellules), tous
les états de la matière entre les liquides et les solides où les molécules sont relativement proches, et ce à partir
d’un héritage de traditions expérimentales (cristallographie, diffusion de neutrons, d’électrons, imagerie par
résonance magnétique nucléaire, microscopies, …) et théoriques (physique statistique). Elle est aussi amenée
Chapitre 1 45
les résultats d’une étude des différences individuelles de productivité scientifique. Un

travail de collecte complémentaire de données a donc consisté à rechercher les physiciens
satisfaisant au premier critère mais sortis du CNRS au cours de la période d’observation.
Ils sont au nombre de 45, les motifs de sorties se répartissant comme suit : 19 démissions,
7 décès, 8 nominations hors CNRS, et 13 divers (dont des départs anticipés à la retraite).
Ce nombre est finalement faible, il correspond à environ 8% de la population totale. Par
conséquent, dans la suite du travail, les publications et citations de ces chercheurs ne seront
pas prises en compte dans toutes les études. Plus précisément, elles ne seront considérées
que dans l’étude statistique des trois lois de productivité (chapitre 2), mais non dans les
études économétriques pour lesquelles les chercheurs sortis font figure d’« outliers » dans
la mesure où ils sortent du CNRS au cours des périodes où l’on souhaite recenser leurs
publications (chapitres 4 et 5).
Dans une première étape, la collecte des données a consisté à réaliser un

programme qui permet d’interroger le SCI à partir des noms des physiciens, afin d’obtenir
leurs publications. Pour chaque nom, le résultat de l’interrogation se présente sous la forme
suivante :
FN- Science Citation Index (Jan 81 - Dec 81)

TI (titre)- A Linear-Equation for Products of Normalized Structure Factors .2. Tensor
Formalism
LA (langue)- English
AU (auteurs)- Silva AM; Navaza J
CS (adresses des laboratoires des co-auteurs lorsqu’elle figure sur le papier)- UNIV
YORK, DEPT PHYS, HESLINGTON YO1 5DD/YORKSHIRE//ENGLAND; UNIV PARIS 11,
CTR PHARMACEUT, PHYS LAB/F 92290 CHATENAY MALABRY//France
JN (journal dans lequel a été publié l’article)- ACTA CRYSTALLOGRAPHICA
SECTION A-FOUNDATIONS OF CRYSTALLOGRAPHY, 1981, V37, NSEP, P658-661
PY (année de publication)- 1981
DT (type de la publication)- Article
de plus en plus à développer des liens avec l’industrie, autour des matériaux de l’électronique, granulaires,
des plastiques, des gels alimentaires ou cosmétiques, etc.
Chapitre 1 46
Ainsi, l’exemple ci-dessus est obtenu en reche rchant les publications du chercheur
J. Navaza. L’une des difficultés du dénombrement des publications trouve son origine dans
la configuration des résultats. En effet, l’interrogation du SCI ne permet pas d’obtenir
directement pour cet auteur la liste de ses publications annuelles, mais indique pour chaque
publication de la base, celles auxquelles il a contribué avec tous ses co-auteurs. La mise en
forme des résultats doit alors distinguer le chercheur de ses co-auteurs pour conduire à une
liste de ses pub lications puis à la base « brute » des publications des 497 chercheurs
étudiés. Celle-ci présente alors pour chaque auteur le titre de toutes les publications
auxquelles il a participé, la langue et le type de ses contributions (articles, livres, note,
etc.), l’année de leur parution, le journal dans lequel elles figurent, et enfin les adresses des
co-auteurs au moment de chaque publication quand celles-ci sont mentionnées par l’article.
Dans une seconde étape, on relève les citations aux articles auxquels ont contribué
le groupe initialement étudié des 388 chercheurs. On cherche les citations à un article, et ce
pour chacun des articles recensés dans la première étape de constitution de la base. Le SCI
contient l’enregistrement normalisé des bibliographies des articles dépouillés.
L’interrogation du SCI se fait à partir du nom du premier auteur de l’article auquel l’un des
chercheurs étudié a collaboré et de la date de publication de cet article. Par exemple, le
chercheur J.Navaza a écrit en 1981 l’article trouvé ci-dessus, dont le premier auteur
s’appelle A.M. Silva, qui lui n’appartient pas à notre liste. En incluant SILVA-AM-1981-*
dans un programme d’interrogation, on obtient le nom du ou des journaux qui citent les
articles de A.M. Silva écrits en 1981. On peut donc en particulier dénombrer combien
d’articles citent l’article auquel a participé J.Navaza. Dans cet exemple, l’article co-publié
par A.M. Silva et J.Navaza en 1981 appartient à la bibliographie d’un seul article. Un
résultat se présente comme un article citant accompagné de sa bibliographie, dans
l’exemple :
FN- Science Citation Index (Jan 82 - Dec 82)
JN- DOKLADY AKADEMII NAUK SSSR, 1982, V267, N4, P853-855
PY- 1982
CR- LINEAR A, 1981, V37, P548, ACTA CRYSTALLOGR A
SILVA AM, 1981, V37, P658, ACTA CRYSTALLOGR A
SOLDATOV EA, 0000, V267, DAN
SOLDATOV EA, 1978, V23, KRISTALLOGRAFIYA
SOLDATOV EA, 1981, P19, DIFRAKTSIONNYE METOD
Chapitre 1 47
On lit que l’article paru en 1982 aux pages 853-855 du volume 267 du journal
DOKLADY AKADEMII NAUK SSSR a cité les auteurs mentionnés dans la rubrique CR
(« Cited-References » ou bibliographie) pour leurs articles identifiés par l’année, le
volume, la page et le nom du journal où ils sont parus.
La difficulté est que l’interrogation du SCI fournit trop de citations puisqu’elle

donne toute la bibliographie de l’article citant. Un nouveau travail a donc consisté à isoler,
grâce à une manipulation des résultats sous SAS, les citations concernant seulement les
articles co-publiés par les chercheurs étudiés. Ce travail de collecte des citations est
complexe, très coûteux en temps et en ressources informatiques. En cela, l’obtention des
profils de citations constitue une originalité de cette base.
A partir du dénombrement des citations par article, deux variable s de citation sont
constituées. On calcule ainsi la moyenne par an et par chercheur des citations reçues par
leurs articles en considérant les citations reçues, d’une part, jusqu’à deux ans après la
publication (MCIT_2) et, d’autre part, jusqu’à cinq ans après la publication (MCIT_5).
Ainsi, pour un chercheur qui publie un article à l’année N, on fait la moyenne par an des
citations obtenues entre N et N+2 dans le cas de la mesure à deux ans (entre N et N+5 pour
la mesure à cinq ans). Les articles publiés en fin d’année N ont moins de chances d’être
cités en N que les articles publiés en début d’année, et le biais qui en résulte est plus petit
dans la mesure à cinq ans que dans la mesure à deux ans.
2 Les difficultés liées aux données sources du Science Citation

Index
Cette section expose certaines des critiques adressées aux données du Science
Citation Index et la manière dont il en a été tenu compte dans cette thèse. La première
difficulté est qu’une proportion importante de chercheurs ont des homonymes tant en ce
qui concerne le nom que l’initiale du prénom (on ne dispose pas du prénom complet dans
la base de données). Pour les publications, l’élimination des homonymes peut dans certains
cas se faire grâce à l’adresse du laboratoire. Dans le plus simple des cas, ces homonymes
Chapitre 1 48
sont étrangers et donc facilement identifiables. Dans le cas où le chercheur de l’échantillon

n’a pas changé de lieu de travail jusqu’en 1997, le biais se résout également bien puisque
cette adresse est connue: les homonymes ayant appartenu à un autre laboratoire peuvent
être supprimés. Mais un cas plus délicat est celui où le chercheur que l’on veut identifier a
changé de laboratoire au cours de sa carrière et possède un homonyme. L’erreur serait
alors d’attribuer un article à un cherche ur sur la base d’une adresse de laboratoire qui n’est
en réalité pas la sienne. La vérification de l’identité des auteurs a donc pris deux formes.
D’une part, la consultation de la base de données ICARE disponible à l’UNIPS qui recense
les dossiers de carrière des chercheurs du CNRS. D’autre part, la prise de contact directe
avec les chercheurs afin d’obtenir la liste de leurs publications.
En second lieu, il existe probablement un biais anglo-saxon dans le Science

Citation Index. En effet, certains périodiques anglo-saxons peu cités sont néanmoins
dépouillés (UNIPS, mars 1999), contrairement à ce qui pourrait se passer pour des revues
françaises. Cependant, ce biais ne perturbe pas nos résultats puisque la langue de
publication privilégiée par la discipline étudiée de la matière condensée est l’anglais : en
effet, seulement 1% des articles ne sont pas en anglais. Dans la suite nous ne prenons en
considération que les articles écrits en anglais.
Enfin, revenons sur l’intérêt des données de publication et de citation. Le

dénombrement des publications fournit une indication initiale du résultat de la quantité de
travail produite par un chercheur, un laboratoire, … Il est vrai que cette indication est
simplifiée, car la science produit un corpus d’idées, de savoir, qui est susceptible de donner
lieu à d’autres productions que la publication, et qu’il est parfois difficile de mesurer. Mais
les études de la production scientifique reposent sur l’appréciation de la science comme un
système d’activité de production de connaissances et sur l’idée que la littérature
scientifique est une manifestation du savoir créé (Okuno, 1997). Tout au long du travail
présenté dans cette thèse, différentes déclinaisons de cette mesure de productivité brute
sont utilisées afin de prendre en compte des aspects plus qualitatifs. Le relevé des profils
de citations répond à cette préoccupation.
Une critique, qui porte sur l’utilisation des citations, consiste à souligner l’existence
d’un biais dans la mesure de la qualité de la recherche donnée par le nombre de citations,
Chapitre 1 49
dans la mesure où il existe des “ habitudes ” de citation : en particulier, les travaux de

chercheurs ou de laboratoires renommés sont systématiquement cités (Cole and Cole,
1973). Les citations fournissent ainsi davantage une indication de la visibilité et de
l’importance des publications des chercheurs aux yeux de leurs pairs, plutôt qu’une juste
mesure de la qualité du contenu des articles. Par exemple, dans leur étude pionnière à partir
des données de citations de brevet concernant 4800 entreprises américaines sur les trente
dernières années 1965-1995, Hall, Jaffe et Trajtenberg (2000) parviennent à mettre en
évidence que les stocks de brevets pondérés par leurs citations sont plus corrélés à la valeur
de l’entreprise que les stocks non pondérés, et que cela est dû principalement à ce que les
entreprises qui détiennent des brevets très cités sont réputées avoir une meilleure
performance d’innovation. Mais précisément, cette corrélation forte entre la réputation et
les citations reçues est intéressante pour les études menées dans cette thèse.
3 L’enrichissement de la base des publications et citations
Comme on l’a mentionné, la base «brute » comporte par auteur et par année de
publication, les titres, journaux, langues et types des articles, de même que pour chaque
article les adresses des laboratoires des auteurs et co-auteurs ainsi que pour chaque
individu les deux variables de citations.
D’autres variables ont été ajoutées à cette base. En premier lieu, un ensemble de
caractéristiques individuelles portant sur l’âge et la carrière de chacun des chercheurs, ce
qui permet d’étudier les relations entre l’âge ou l’ancienneté, la publication et la
promotion. La base a ainsi été enrichie de la date de naissance des chercheurs, de leur date
d’entrée au CNRS, et des dates de leurs promotions aux différents grades.
Donnons pour commencer quelques indications démographiques. Les physiciens

étudiés sont nés entre 1936 et 1960. En 1980, les plus jeunes ont donc 20 ans et en 1997 les
plus âgés ont 61 ans. Cette dispersion des âges permet d’étudier et de comparer la
publication de différentes cohortes d’âge. Cinq cohortes ont été définies:
• la cohorte 1 des chercheurs nés entre 1936 et 1940
Chapitre 1 50

• la cohorte 5 des chercheurs nés entre 1956 et 1960.
Chaque cohorte correspond environ à 20% des chercheurs. Afin de mettre en

évidence des évolutions dans le comportement de publication de chaque cohorte au cours
du temps, nous avons parfois segmenté la période d’étude en trois sous-périodes de six
années, 1980-1985, 1986-1991 et 1992-1997.
Les grades de promotion sont au nombre de quatre : le grade le plus élevé est celui
des directeurs de recherche de classe exceptionnelle, puis il y a les directeurs de recherche
de 1ère classe (DR1), les directeurs de recherche de 2ème classe (DR2) et enfin les chargés
de recherche (CR). Parmi les physiciens étudiés, cinq seulement sont directeurs de classe
exceptionnelle ; ils appartiennent aux anciennes cohortes d’âge. En raison de ce trop faible
effectif ils ont été assimilés aux DR1.
Une carrière linéaire fera passer un chercheur d’un statut de chargé de recherche
(CR), à celui de directeur de recherche de classe 2 (DR2) puis directeur de recherche de
classe 1 (DR1). Il est aussi possible pour un chercheur d’être recruté directement comme
directeur de recherche à son entrée au CNRS. Une manière de rendre compte des
différentes trajectoires de carrière observables est de recenser les changements de grade
des individus entre les trois périodes. Ces évolutions sont les suivantes (entre parenthèses
figure le pourcentage de chercheurs concernés) :
• même statut aux trois sous-périodes (CR : 46.7%, DR2 : 10.4%, DR1 : 3%) ;
• CR en première et deuxième période puis DR2 en période 3 (13%) ;
• CR en première et deuxième période puis DR1 en période 3 (0%);
• CR en première période, puis DR2 en périodes 2 et 3 (16.4%);
• CR en première période, puis DR2 en période 2, puis DR1 en période 3 (0.8%);
• CR en première période, puis DR1 en périodes 2 et 3 (0%);
• DR2 en première et deuxième période puis DR1 en période 3 (4.4%);
• DR2 en première période puis DR1 en périodes 2 et 3 (5.4%).
On remarque que la promotion DR1 concerne peu de chercheurs, un peu moins de 15% de
l’échantillon ayant le statut DR1 en fin de la période d’étude. En revanche, la proportion de
Chapitre 1 51
chercheurs qui gardent le statut CR aux trois sous-périodes (46.7%) est élevé relativement
aux autres schémas de carrière possible.
En second lieu, le genre des chercheurs a été pris en compte. Il s’agit d’une variable
dont le lien avec la productivité est largement étudié dans la littérature, en particulier pour
tester l’existence d’une discrimination envers les femmes dans la science.
De même, une recherche sur le niveau d’étude des chercheurs a été réalisée, ce qui
a permis d’ajouter à la base une variable indicatrice d’un diplôme d’une Grande Ecole en
plus du doctorat. Parmi no s chercheurs, 16% ont fréquenté une Grande Ecole. Ces
variables sont décrites plus en détail dans le chapitre 3.
En dernier lieu, on a ajouté à la base de données les notes d’impact des journaux
dans lesquels ont été publiés chacun des articles. Une note est définie comme le taux de
citation moyen des articles du journal dans lequel la publication concernée a paru. Elle
mesure en quelque sorte la réussite dans l’accès aux revues les plus citées. Cette mesure est
souvent utilisée dans les travaux bibliométriques, car elle contribue à rendre compte du
niveau de visibilité internationale atteint par la recherche académique et donc
indirectement de la qualité de cette recherche. Les notes d’impact peuvent être calculées de
différentes manières. L’ISI publie chaque année la mesure d’impact (« impact factor »),
qui représente, pour une revue donnée à l’année N, le rapport entre le nombre de citations
reçues au cours de l’année N pour les articles qu’elle a publié au cours des années N-1 et
N-2 et le nombre de ces articles. La faiblesse de cette note d’impact est que l’on ne tient
pas compte des citations reçues à l’année N-1 par les articles publiés à l’année N-2. L’ISI a
fourni à l’UNIPS un ratio quelque peu meilleur, et c’est celui qui est utilisé dans cette
thèse. Il est calculé pour un journal donné à l’année N comme le rapport entre le nombre de
citations reçues au cours des années N et N-1 pour les articles qu’il a publié au cours des
années N-1 et N-2 et le nombre de ces articles. Il reste que l’on ne tient pas compte des
citations reçues en N+1 par les articles publiés en N-1. Outre cette note d’impact qui est à
deux ans (que l’on notera NOT_I2), on obtient également, selon la même définition, une
note d’impact à 5 ans (NOT_I5).
Chapitre 1 52
4 La configuration finale de la base de données
4.1 Une dernière étape de constitution de la base
La dernière étape a consisté à « nettoyer » la base de données afin de la rendre

exploitable. Pour certains chercheurs, la première année où l’on relève des publications
(que l’on repère par une variable DEBPUB) est postérieure à 1980, début de la période
étudiée. Cela peut être dû à ce que, par coïncidence, le chercheur ne publie pas entre 1980
et la première date d’observation des publications DEBPUB, ou bien à ce qu’il ne soit pas
encore entré au CNRS. Certains chercheurs publient au contraire avant leur entrée au
CNRS. Un traitement de la table est donc nécessaire.
Premièrement, 17 chercheurs entrés après 1990 au CNRS sont éliminés de la base

des publications, car leur profil de publication susceptible d’être observé est trop court3 . La
base des publications comprend donc à ce stade 480 chercheurs, soit 95.6% de
l’échantillon de départ (tableau 4.1). Parmi ces 480 chercheurs, 62% sont entrés au CNRS
avant 1980. On considère qu’ils sont «en activité » (susceptibles de publier) sur toute la
période d’observation 1980-1997. D’autres (7.9%) sont entrés en ou après 1980 et ont
commencé à publier l’année de leur entrée. On considère qu’ils sont « en activité » depuis
leur date d’entrée au CNRS. De même pour les chercheurs qui sont entrés après 1980 mais
avant la date à laquelle on observe pour la première fois leurs publications (7.7%). Dans ce
cas, on leur affecte un nombre d’articles égal à 0 entre l’année de leur entrée et la date de
première observation de leurs publications. Enfin, pour les chercheurs dont on recense des
publications avant leur entrée au CNRS qui elle est postérieure à 1980 (22.5%), on
convient qu’ils sont «en activité » à partir de la date de première observation de leurs
publications, et on leur assigne dès cette date le grade qu’ils obtiennent réellement à leur
entrée au CNRS. A l’issue de ce traitement, la table n’est pas cylindrée, au sens où tous les
chercheurs n’y sont pas présents le même nombre d’années.
3
Sauf pour l’études du chapitre 6, puisque la période d’étude dans ce chapitre est 1992-1997.
Chapitre 1 53
La base des citations, suite à la sélection des entrants, comprend quant à elle 378
chercheurs appartenant aux cohortes 1 à 4. Parmi eux, un seul chercheur n’est jamais cité
au cours de la période étudiée.
4.2 Les trois mesures de productivité utilisées dans la thèse
La première mesure de productivité utilisée dans ce travail est le nombre d’articles

par auteur et par an. La variable ART dénombre par auteur et année le nombre de
publications.
La deuxième mesure de productivité utilisée est une moyenne par chercheur et par
an des notes d’impact à deux ans ou à cinq ans caractérisant leurs articles, appelées
respectivement NOT_I2 ou NOT_I5. Cette mesure est considérée dans la littérature comme
une variable approximant la qualité des publications.
La troisième mesure est la moyenne par an et par chercheur des citations reçues par
leurs articles à deux ans ou à cinq ans, notées respectivement MCIT_2 et MCIT_5. Le
calcul de la mesure est comparable à celui proposé par l’ISI pour l’« impact factor », à ceci
près que la « note » est attribuée à l’individu dès la parution de l’article, et non pas à la fin
de la période de citation considérée. En effet, on souhaite rendre compte de la productivité
de l’individu au moment même où il publie. Il s’agit également d’un indicateur de la
qualité des publications.
Il apparaît avec nos données que la corrélation de la mesure de productivité en

termes de nombre moyen d’articles par chercheur par an avec les mesures qualitatives est
plus faible que ce que l’on pouvait attendre. En effet, la corrélation avec la mesure en
termes de notes d’impact est de 0.37, et elle est de 0.25 avec la mesure en termes de
citation.
Il convient de préciser le lien entre les deux mesures qualitatives de productivité, en

termes de citations et en termes de notes d’impact ainsi que les horizons de citation retenus
dans la suite de la thèse.
Chapitre 1 54
4.3 Précisions sur le lien entre les notes d’impact et les citations
Si l’on ne considère que les articles cités, le maximum du nombre de citations

obtenues par un article sur cinq ans s’élève à 406. La moitié des articles reçoivent au moins
6 citations à cinq ans, et un quart des articles au moins 13 citations à cinq ans. Le premier
quartile est défini à 3 citations. En moyenne, les articles cités reçoivent 11.4 citations à
cinq ans, avec une forte variabilité puisque l’écart type de la distribution est de 17.8.
Lorsque l’on examine les citations à deux ans, et en ne considérant que les articles
cités, la moyenne de citations à deux ans reçues par ces articles s’élève à 5.8, ce qui est
plus élevé que la moyenne obtenue pour les citations à cinq ans rapportée sur deux ans. La
variabilité reste grande, l’écart type de la distribution valant 9. Le maximum de citations à
deux ans obtenu par un article est de 291. La moitié des articles recueillent plus de 3
citations à deux ans, et un quart des articles plus de 6 citations. Ces chiffres sont plus
élevés que ceux que l’on aurait déduit de la distribution des citations à cinq ans si celle-ci
avait été homothétique à la distribution des citations à deux ans. Cela suggère que la
plupart des citations d’un article sont obtenues dans les premières années après sa parution.
Pour le voir, on étudie le délai d’obtention d’une citation sur une période de cinq
ans pour les articles cités à cinq ans. Le tableau suivant indique la fréquence en
pourcentage du délai d’obtention des citations à cinq ans. Le délai moyen est de 2.7 ans.
48% des articles cités sur cinq ans le sont au cours des deux premières années après la
parution et 70% des articles sont cités au cours des trois premières années qui suivent la
publication. La probabilité d’obtenir une citation est croissante jusqu’à la deuxième année,
reste forte la troisième année (21.4%) puis décline ensuite. Lorsque l’on étudie le délai
d’obtention d’une citation pour les article cités, quelque soit le délai de citation, on obtient
que 40% des articles cités le sont dans les deux premières années après leur parution (voir
graphique ci-dessous). Pour ces raisons, dans toute la suite nous utiliserons sans perte de
généralité la mesure des citations à deux ans, qui présente l’avantage de permettre de
considérer la période plus étendue de 1980-1994 au lieu de devoir se limiter à 1980-1991.
Chapitre 1 55
Délai d’obtention des Pourcentage de citations Pourcentage cumulé de

citations à cinq ans obtenues dans ce délai (%) citations obtenues dans ce
délai (%)
0 4.3 4.3
1 19.6 23.9
2 24.2 48.1
3 21.4 69.5
4 16.2 85.8
5 14.2 100
Total 100 -
Tableau – Délai d’obtention des citations pour les articles cités à 5 ans
Fréquence cumulée de citations
100
80
obtenues (%)
60
40
20
0
0 2 4 6 8 10 12 14 16
Années
Graphique – Délai d’obtention des citations pour les articles cités
Le coefficient de corrélation simple entre MCIT_2 et NOT_I2 pour l’échantillon

réduit aux chercheurs des cohortes 1 à 4 est de 0.42, ce qui est élevé. Néanmoins, la
mesure des notes d’impact moyennes étant utilisée dans la littérature comme un substitut
des citations, ce chiffre est en-deçà de celui que l’on pouvait attendre. Ce coefficient varie
selon les cohortes : il est plus élevé pour les cohortes 2 (0.48) et 4 (0.51) que pour les
cohortes 1 (0.37) et 3 (0.41). Il est aussi plus fort pour les femmes que pour les hommes :
0.56 contre 0.40. Enfin, il est en plus décroissant avec le temps : il vaut 0.52 en période 1,
puis 0.39 en période 2, et 0.31 en période 3. La corrélation entre MCIT_5 et NOT_I5, les
Chapitre 1 56
mesures à cinq ans, est de 0.47. Par ailleurs, nous remarquons que la distribution des notes
d’impact moyennes est moins asymétrique que celle des citations.
De la même manière que l’on garde les citations à deux ans, on choisit de garder les
notes d’impact à deux ans afin que les mesures qualitatives de productivité soient
homogènes.
4.4 Conclusion : intérêt de la base de données construite
• La base est originale d’abord par sa taille : elle couvre la récente période de
18 ans de 1980 à 1997 pour 480 chercheurs, qui appartiennent à un domaine bien
adapté à l’étude et dont ils représentent une grande part de l’effectif 4 . Cette taille
permet en particulier de distinguer des générations de chercheurs afin de contrôler
l’effet de l’âge et de l’ancienneté sur la productivité.
• Les données sont récentes et la période d’observation est étendue. Les
données antérieures concernaient au plus tard la période 1973-1979. Il est important
d’utiliser des données récentes, car les schémas d’organisation et d’incitation ont
évolué au cours de ces dernières décennies. En France par exemple, la politique
scientifique a été infléchie au début des années 80, quand il a été décidé que la science
devait devenir pluridisciplinaire et qu’elle devait transférer davantage les
connaissances produites à l’industrie. Les statuts des chercheurs de la recherche
publique ont été modifiés en conformité.
• Outre l’information quantitative sur la contribution scientifique des
chercheurs fournie par les publications, la base comporte également des mesures de la
qualité de ces contributions : les citations (pour les quatre premières cohortes entre
1980 et 1996) et les notes d’impact des journaux. Les données de citations constituent
en elles- mêmes une originalité de cette base, étant donné le traitement coûteux et
complexe du SCI que leur obtention requiert.
• La base a également l’avantage de comprendre une série d’informations qui
peuvent être exploitées dans le but de voir l’impact du schéma incitatif et organisationnel
sur la productivité des chercheurs, à savoir :
Chapitre 1 57
1. Des variables individuelles : l’âge des chercheurs, leur genre, leur

niveau de formation.
2. Des variables liées à l’environnement du chercheur et aux
mécanismes incitatifs : la carrière des chercheurs à partir de leur entrée au CNRS,
permettant notamment d’analyser les liens entre la productivité et la promotion ; les
adresses de laboratoires des physiciens du CNRS, pour envisager un « effet
laboratoire » sur la productivité. A partir de cette information, on construit des
variables agrégées de laboratoire : la taille du laboratoire, sa productivité, la qualité
de ses publications, son taux de co-publication avec l’étranger, sa spécialisation,
son éloignement aux autres laboratoire dans le réseaux de recherche des
laboratoires français. Ces variables sont décrites en détail dans le chapitre 3.
3. Les collaborations dont bénéficient les chercheurs et en particulier le
nombre des co-auteurs pour étudier les réseaux de recherche à travers les co-
publications (chapitre 5).
4
Rappelons que dans le chapitre 6, l’étude porte sur 1992-1997 et concerne 497 chercheurs, et que dans le
chapitre 5 on cylindre la base considérée sur la période 1996-1997 pour 465 chercheurs.

Etapes de Constitution D'une Base de Donnees

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Etapes de Constitution D'une Base de Donnees

Uploaded by

Copyright:

Available Formats

Chapitre 1 42

Constitution d’une base de données : publications,

La construction d’une base de données spécifique pour traiter de diverses questions

1 Les étapes de la collecte des données sources : obtention des

La première partie du travail de construction de la base a consisté à identifier les

les résultats d’une étude des différences individuelles de productivité scientifique. Un

Dans une première étape, la collecte des données a consisté à réaliser un

FN- Science Citation Index (Jan 81 - Dec 81)

La difficulté est que l’interrogation du SCI fournit trop de citations puisqu’elle

2 Les difficultés liées aux données sources du Science Citation

sont étrangers et donc facilement identifiables. Dans le cas où le chercheur de l’échantillon

En second lieu, il existe probablement un biais anglo-saxon dans le Science

Enfin, revenons sur l’intérêt des données de publication et de citation. Le

dans la mesure où il existe des “ habitudes ” de citation : en particulier, les travaux de

3 L’enrichissement de la base des publications et citations

Donnons pour commencer quelques indications démographiques. Les physiciens

• la cohorte 3 des chercheurs nés entre 1946 et 1950

Chaque cohorte correspond environ à 20% des chercheurs. Afin de mettre en

4 La configuration finale de la base de données

4.1 Une dernière étape de constitution de la base

La dernière étape a consisté à « nettoyer » la base de données afin de la rendre

Premièrement, 17 chercheurs entrés après 1990 au CNRS sont éliminés de la base

4.2 Les trois mesures de productivité utilisées dans la thèse

La première mesure de productivité utilisée dans ce travail est le nombre d’articles

Il apparaît avec nos données que la corrélation de la mesure de productivité en

Il convient de préciser le lien entre les deux mesures qualitatives de productivité, en

Si l’on ne considère que les articles cités, le maximum du nombre de citations

Délai d’obtention des Pourcentage de citations Pourcentage cumulé de

Graphique – Délai d’obtention des citations pour les articles cités

Le coefficient de corrélation simple entre MCIT_2 et NOT_I2 pour l’échantillon

4.4 Conclusion : intérêt de la base de données construite

1. Des variables individuelles : l’âge des chercheurs, leur genre, leur

You might also like