You are on page 1of 8

LA LINGUISTIQUE ET LE CORPUS : UNE AFFAIRE PRPOSITIONNELLE

Geoffrey WILLIAMS
Universit de Bretagne Sud, Lorient

SOMMAIRE
1. Introduction
2. Les origines de la linguistique de corpus dans la tradition anglo-saxone
2.1. La situation avant 1945
2.1.1. La lexicographie
2.1.2. Lenseignement de langlais comme langue seconde
2.1.3. Firth et le contextualisme
2.2. Le contextualisme daprs guerre
2.2.1. Hallyday et la grammaire systmique et fonctionnelle
2.2.2. Sinclair et le rapport OSTI
2.2.3. Lcole de Birmingham COBUILD
3. Lre actuelle
3.1. Qui fait quoi ?
3.2. Que font-ils ?
4. Conclusion

Rsum : La linguistique de corpus a t trs largement dveloppe comme discipline dans le monde
anglo-saxon. Ce paradigme de recherche est sorti de la linguistique applique partir de deux
grandes traditions ; lenseignement de langlais comme langue seconde et une approche
contextualiste de la linguistique, approche associe Firth. Dans cette communication, je montre
comment les deux traditions se sont fusionnes avec le projet COBUILD. Je dcris lvolution de la
discipline comme paradigme de recherche dvelopp autour des corpus soigneusement constitus et
utilisant une analyse inductive. Dans la conclusion, je plaide pour la reconnaissance de la linguistique
de corpus autonome par opposition la linguistique sur corpus qui implique dautres disciplines telles
que la sociolinguistique ou le TAL.

1. Introduction
En anglais, la situation est simple, corpus linguistics est un mot compos form de deux
substantifs, dont lun va limiter le champ de rfrence de lautre. La linguistique est une discipline,
le mot corpus dcrit l'objet. Le reste est sujet interprtation, la puissance de l'anglais est dans
l'ambigut, une ambigut que nous nessaierons pas de lever dans limmdiat.
Pour le franais, la situation est plus complexe puisque nous ne pouvons pas simplement
juxtaposer deux mots, il faut les lier avec une prposition, et le choix dune prposition implique
une interprtation. Faut-il mettre de ou des, ou peut-tre sur ?
Avant mme de choisir la prposition, nous rencontrons une difficult supplmentaire : le mot
linguistics en anglais semble tre un pluriel, mais comme physics ou mathematics, il est en
ralit invariable. Par consquent, de signifiera la prsence dune discipline unique, des, que
plusieurs disciplines au lieu de plusieurs approches de la mme discipline sont en jeu. Sur est
une interprtation supplmentaire impliquant que dautre domaines de la linguistique peuvent
utiliser les corpus sans faire de la linguistique de corpus per se, ce qui soulve la question de la
nature des corpus.
Le but de cet article est dessayer de dmler les diffrentes interprtations de corpus linguistics
en dcrivant lorigine anglo-saxonne de la discipline, le contexte de recherche de la discipline de
son origine nos jours. En comparant les diffrentes interprtations franaises du terme nous
essaierons non dimposer une dfinition, mais de clarifier la situation entre les diffrentes
approches de cette discipline.

2. Les origines de la linguistique de corpus dans la tradition anglo-saxonne


Il est toujours trop facile dessayer de trouver un inventeur, comme sil suffisait de crier eurka et
de trouver des merveilles. Cette tendance est exaspre par des vellits patriotiques : la thorie
151
La linguistique et le corpus : une affaire prpositionnelle

de Darwin a provoqu un intrt pour les crits de Lamarck, dcris auparavant, la parent de la
photographie est dispute entre un Daguerre et un Fox Talbot, et ainsi de suite.
En ce qui concerne la linguistique de corpus, la question de lantriorit des corpus se dispute
entre plusieurs corpus lectroniques, FRANTEXT, Brown, OSTI En ralit, chaque ensemble
textuel a t cr en reconnaissant des possibilits offertes par linformatique naissante afin de
rsoudre des problmatiques diffrentes. Il est donc inutile de chercher lantriorit dun tel ou un
tel, dautant plus que, pendant cette priode antrieure au courrier lectronique, les chercheurs
travaillaient en relative isolation. Le plus important sera de voir pourquoi et comment des
tendances actuelles ont volu afin que des chercheurs de nos jours puissent changer des
informations en comprenant lautre.
Dans la tradition anglo-saxonne de la linguistique de corpus, la lexicographie, lenseignement et
les corpus sont intimement lis. La tendance contextualiste est le fruit de linteraction entre les trois
lments de base.

2.1. La situation avant 1945


2.1.1. La lexicographie
On peut ainsi dater le dveloppement de la linguistique de corpus 1755 avec le dictionnaire de
Johnson, le premier dictionnaire bas sur un corpus sous la forme de fiches de travail
accompagnes de citations. Une telle affirmation est peut-tre un peu ose, mais pas totalement
infonde puisqu'avec Johnson dbute une tradition lexicographique plus normative que
prescriptive mais base sur des textes authentiques, bien que limite des textes nobles de la
littrature. La tradition lexicographique instaure par Johnson est la base du Oxford English
Dictionary. Plus rcemment, la tradition lexicographique dOxford a donn naissance une autre
forme de dictionnaire, le dictionnaire pour apprenant, avec le Oxford Advanced Learners
Dictionary, issu du Learners Dictionary of Current English de Hornby publi en 1948 (Cowie). Ces
dictionnaires pour apprenants sont toujours bass sur des fiches, mais avec des exemples tirs de
la langue gnrale. Le ton a chang en 1987 avec la publication du COBUILD Advanced Learners
English Dictionary, bas sur un grand corpus de rfrence. Dornavant tous les dictionnaires pour
apprenants seront bass sur corpus, et les corpus seront de plus en plus utiliss pour llaboration
de dictionnaires monolingue et bilingue des diteurs britanniques, et maintenant dans beaucoup
dautres pays. Ce qui a pouss ces deux rvolutions, celle de Hornby, puis celle de lquipe de
COBUILD, est lenseignement de langlais comme langue seconde.

2.1.2. Lenseignement de langlais comme langue seconde


Grce lEmpire Britannique, langlais tait devenu dans la priode suivant la premire guerre
mondiale une langue dominante dans les affaires. Il fallait par consquent que les gens
apprennent langlais (pas ncessairement celui de la langue de Shakespeare) dune manire plus
pragmatique pour le travail. Les bases pour un enseignement de la langue fond sur une
linguistique applique avaient dj t jetes avec la publication de Sweet Practical study of
Languages en 1899 (Howatt 1984), dvelopp partir dun article publi en 1884. Dans lapproche
de Sweet, le lexique et la phrasologie taient centraux, mais il fallait que le lexique soit structur
et que les phrases soient un lien entre le texte et la grammaire, autrement dit, un certain contexte
tait ncessaire pour apprendre. Les phrases ne seront pas inventes, mais authentiques, lautre
credo du contextualisme.
Lenseignement des langues s'est beaucoup dvelopp dans la priode avant la premire guerre
mondiale, mais en ce qui concerne la linguistique de corpus, la priode la plus importante date de
lentre-deux-guerres avec les travaux de Palmer au Japon. Cette priode a vu un intrt intense
pour des vocabulaires essentiels pour apprenants, mais galement les premiers travaux sur la
collocation en anglais.
Pendant ses annes au Japon, Palmer a publi extensivement sur la thorie et la pratique de
lenseignement de langlais comme langue seconde (Howatt op. cit.). Palmer sest beaucoup
investi dans ltude du lexique, dans le but de crer un vocabulaire contrl pour lapprentissage,
deux rapports ayant t publis sur ce thme. Il a aussi collabor avec West, lauteur du General
Service List, liste de mots la base de nombreuses mthodes dapprentissage. Cest prcisment
cet intrt pour un vocabulaire restreint au service des apprenants qui a donn naissance un
dictionnaire de langue gnrale pour apprenants, le Learners Dictionary of Current English de
Hornby.

152
La linguistique et le corpus : une affaire prpositionnelle

Lautre aspect des travaux sur le vocabulaire de Palmer est son rapport sur les collocations,
Second Interim Report on English Collocations (Palmer 1933). Ltude des collocations tait une
suite logique des rapports sur le vocabulaire montrant quau del des mots simples, il y avait ce
que Palmer a appel des comings-together-of-words , des rassemblements de mots (ibid. p.1).
Aprs une discussion des classifications possibles, Palmer dcide de les appeler collocations,
rutilisant un terme vague ayant dj t employ par Sweet. Daprs Palmer, il sera ncessaire
de dfinir ce que lapprenant doit apprendre comme combinaisons ; les combinaisons figes et
smi-figes. La suite est une classification des collocations par parties de discours. Ces
collocations sont trouves dans des textes authentiques, mais par le biais de lintuition du linguiste.
Le rapport est souvent cit, mais na jamais t largement publi. La tradition collocationnelle de
Palmer a beaucoup influenc la phrasologie, tradition qui a cependant largement ignor les
possibilits offertes par les corpus jusqu'assez rcemment. Lanalyse des collocations en corpus
est issue dune autre tradition de recherche, le contextualisme de Firth.

2.1.3. Firth et le contextualisme


Firth est souvent vu comme le pre de la collocation, mme si ses crits sont postrieurs ceux
de Palmer. Il est probable que nous ayons ici une des concidences historiques de dcouvertes
quasi-simultanes. Il est possible que les travaux de Firth soient aussi plus largement lus en raison
de sa position de Professeur de linguistique Londres et de la large diffusion de ses crits par ses
tudiants. Les crits de Firth sont beaucoup plus nigmatiques que ceux de Palmer, sans la
dmonstration pratique que nous donne le Interim Report. La phrase clbre de Firth you shall
know a word from the company it keeps montre que le point de vue est diffrent de celui de
Palmer. Pour celui-ci, il sagissait dunits polylexicales dcouvrir, mettre dans un dictionnaire
et transmettre aux apprenants, mais the company words keep est une approche autre, o la
ncessit davoir des ensembles bien forms est moins importante que la notion dassociativit. La
diffrence se trouve dans une approche textuelle, par opposition une approche lexicographique,
de la collocation. La textualit est centrale aux thses de Firth qui ont dvelopp les notions de
contexte de culture et contexte de situation de Malinowski.
Anthropologue de renom, Malinowski reste trs connu pour ses travaux sur les habitants des les
Trobriand. Il a reconnu trs tt limportance de prendre en compte les aspects culturels dans la
comprhension de la langue, le sens ne pouvant pas tre valu en dehors du contexte de
situation.
Without some imperative stimulus of the moment, there can be no spoken statement. In each case,
therefore, utterance and situation are bound up inextricably with each other and the context of
situation is indispensable for the understanding of the words (Malinoswki 1924 : 307).
Ces deux notions de base ont t reprises et dveloppes par Firth, qui a travaill galement
lUniversit de Londres, pour laborer une thorie linguistique ; le contextualisme. La linguistique
de Firth tait un rejet de lapproche mentaliste. Selon lui (1935 : 19)
I do not therefore follow Ogden and Richards in regarding meaning as relations in a hidden mental
process, but chiefly as situational relations in a context of situation and in that kind of language which
disturbs the air and other peoples ears, as modes of behaviour in relation to the other elements in the
context of situation
Firth tait nanmoins un homme de son poque, ses sources sont authentiques, mais largement
littraires. Firth est rest aussi un thoricien du langage, le contextualisme ayant surtout t
dvelopp par ses tudiants, notamment Halliday et Sinclair.

2.2. Le contextualisme daprs guerre


Dans le dveloppement du contextualisme, deux disciples de Firth sont noter : Halliday et
Sinclair. Halliday est lorigine de la grammaire systmique et fonctionnelle, une grammaire
descriptive trs employe dans la linguistique de corpus contextualiste puisque complte, mais
neutre. Si Halliday a surtout dvelopp laspect grammatical, cest Sinclair qui sera lorigine de la
partie lexicale et donc linventeur de lanalyse de corpus contextualiste.
Une publication majeure dans le dveloppement du contextualisme est parue en 1966, In
Memory of J. R. Firth (Bazell et al.). Cette collection darticles est la fois une rtrospective sur
les travaux de Firth, mort en 1960, et un programme pour le futur. Ainsi, des linguistes comme
Jakobson et Lyons vont commenter lapport de Firth, tandis que les articles de Halliday Lexis as
a linguistic level et Sinclair Beginning the study of lexis annoncent les recherches qui vont
mener la grammaire systmique et fonctionnelle et la linguistique de corpus contextualiste.

153
La linguistique et le corpus : une affaire prpositionnelle

2.2.1. Halliday et la grammaire systmique et fonctionnelle


La thorie de Halliday a t annonce dans son article de 1961 sur la catgorisation dans la
grammaire. Cest une grammaire descriptive, textuelle et fermement base sur le contexte. Ainsi,
dans lintroduction de son uvre majeure An Introduction to Functional Grammar (1994), il
dclare que
Just as each text has its environment, the 'context of situation' in Malinowski's terms, so the overall
language system has its environment, Malinowski's 'context of culture'. The context of culture
determines the nature of the code. As a language is manifested through its texts, a culture is
manifested through its situations; so by attending to text-in-situation a child construes the code, and by
using the code to interpret text he construes the culture. (1985 : xxxi)
Dans sa grammaire, lanalyse est essentiellement descendante, du texte la phrase, de la phrase
aux mots. Cependant, dans une thorie de lexico-grammaire, il y a forcement interaction entre la
grammaire et la lexis. Ainsi il insiste :
A text is a semantic unit, not a grammatical one. But meanings are realized through wordings; and
without a theory of wordings -- that is, a grammar -- there is no way of making one's interpretation of
the meaning of a text. (ibid. : xvii)
Dans son texte de 1966 annonant le programme de recherche lexicale dans la grammaire,
Halliday insiste sur le fait que la lexis est partie intgrante de la grammaire et constitue la partie la
plus dlicate, au sens de la plus fine, one-member classes (1966 :149). Le fait que la lexis entre
dans une classe unique ne veut pas dire que les mots sont relgus une simple liste en marge
de la grammaire. La grammaire de Halliday est systmique et multi-niveaux, il y a forcment une
interaction entre tous les constituants qui forment le texte, et entre le texte et son environnement.
Ainsi, la cohsion textuelle tient un rle essentiel dans la grammaire (Halliday & Hasan 1971). Une
partie de la notion de cohsion est base sur la collocation, linteraction entre mots. Tandis que
Halliday utilise linteraction collocationnelle dans le texte, Hoey la amene plus loin dans le corpus
(Hoey 1991, 2005).
En tant que grammaire descriptive, la grammaire systmique et fonctionnelle occupe une place de
choix dans ltude des corpus. Cependant, cest largement une grammaire textuelle, laspect
lexical ayant t trait par lautre disciple de Firth, John Sinclair.

2.2.2. Sinclair et le rapport OSTI


Dans le titre mme de son article en mmoire de Firth (1966), Sinclair a not que nous ntions
quau dbut dune tude contextualiste du lexique. Il a rapidement trouv que loutil informatique
pouvait offrir un moyen daller plus loin. Ainsi il tait amen crer un corpus lectronique. Le
rsultat de ces tudes sur corpus tait un rapport publi en 1970, rapport qui a jet les bases de
la linguistique de corpus contextualiste, bien que peu diffus lpoque et publi seulement trs
rcemment (Sinclair et al. 1970, 2004).
Le dbat sur qui a cr le premier corpus lectronique est largement strile. Le mouvement vers
une analyse des textes avec des outils informatiques tait invitable : il tait dans lair du temps,
mais avec des objectifs diffrents. Comme l'a montr Lon (2005), larrive de la thorie
gnrative na eu aucun effet sur le dveloppement de la linguistique de corpus contextualiste, qui
a continu voluer dans le contexte de la linguistique applique.
Les premiers corpus ont t construits pour des raisons trs diffrentes ; le TLF tait largement
littraire, le Brown tait galement un corpus dcrit, mais bas sur des chantillons et le Survey of
English Usage, cr pour des recherches sur la syntaxe tait largement inspir par la tradition
Firthienne mais na t numris que trs tardivement. Lobjectif du corpus OSTI tait par contre
dexplorer la lexis dans le paradigme contextualiste en faisant un corpus initialement bas sur
loral. Le projet a dmarr en 1963 (Teubert 2004). Lassemblage du corpus a commenc
lUniversit dEdimbourg et a t complt lUniversit de Birmingham. lpoque, le fait davoir
un ordinateur ddi un projet linguistique tait quelque chose dextraordinaire dans un monde o
uniquement les lites des sciences dures y avaient accs (Sinclair, communication personnelle).
Le rapport OSTI, officiellement The Report to the Office for Scientific and Technical Information
(OSTI) on the Lexis Research project for the period January 1967 September 1969 tait le
rsultat des travaux sur le corpus construit Edimbourg et exploit Birmingham. Outre la
problmatique de la cration dun corpus, le rapport est un vritable programme de recherche
contextualiste, o les collocations savrent centrales lapproche. La notion de collocation
significative a dj t introduite par Sinclair (1966), mais ici la notion est explore en relation avec
des donnes issues du corpus. Cest dans ce rapport que les termes cls, comme empan et

154
La linguistique et le corpus : une affaire prpositionnelle

fentre, sont introduits et justifis. Dj la notion du principe didiome commence apparatre.


Bizarrement, le rapport OSTI a t oubli par la suite, de la mme manire que Palmer (1933) est
souvent cit, mais nest pas disponible. Nanmoins, lapproche labore dans le rapport OSTI a
servi de base pour un projet encore plus ambitieux, le projet COBUILD.

2.2.3. Lcole de Birmingham COBUILD


COBUILD tait une collaboration entre lUniversit de Birmingham et les dictionnaires Collins.
Lobjectif tait de construire un grand corpus de rfrence pour langlais et de lutiliser pour la
cration dun dictionnaire pour apprenants bas uniquement sur une analyse de corpus. Cest
effectivement avec le projet COBUILD que nous trouvons unifies les deux traditions dtude de la
collocation : la tradition de Palmer a t fructifie dans lOxford Advanced Learners Dictionary, et
la tradition contextualiste sest dveloppe sparment. Avec le COBUILD, nous avons enfin un
dictionnaire o la collocation trouve sa juste place, mais au lieu dtre bass sur lintuition dun
lexicographe, les collocations et les sens doivent tre justifis par les donnes du corpus. Dans
lcole de Birmingham, le rve de Firth de voir la linguistique et la lexicographie unifies a
galement t ralis.
Le projet COBUILD tait plus quun dictionnaire et un corpus. La cration et lexploitation du
corpus ont t dcrites par les membres de lquipe (Sinclair et al. 1987). Mais de nombreuses
autres applications sont issues de ce projet : des grammaires, des mthodes dapprentissage, des
tudes linguistiques... Les autres diteurs de dictionnaires dapprentissage ont t obligs de
suivre, cest ainsi que le British National Corpus a t cr par un consortium. Le BNC est un
corpus annot et balis, donc avec une valeur ajoute importante. Le BNC a fix de nouvelles
normes dexcellence dans la cration de corpus, mais est galement fig dans le temps, alors que
le corpus COBUILD a continu dvoluer, pour devenir l'actuel Bank of English.
Tandis que le corpus COBUILD tait extrmement important en taille pour son poque, dautres
corpus plus petits ont galement t crs pour les besoins des tudes dans les langues de
spcialit au sein de lcole de Birmingham.
Ce que nous appelons lcole de Birmingham a commenc dans les annes soixante autour de
Sinclair et Coulthard. Lcole tait concerne par les applications dans lenseignement de la
linguistique applique. Ainsi nous trouvons la tradition, personnifie par Palmer, de la recherche
applique. Lanalyse de discours, surtout le discours scientifique, dans le but denseigner les
langues de spcialit tait centrale. Le texte de Barbier (1962) sur les caractristiques des articles
de recherche tait le dbut des analyses sur le genre de Swales (1990). Tandis que Swales et
dautres travaillaient sur lanalyse des textes scientifiques, Roe (1977) travaillait sur un corpus
scientifique jetant les bases pour les nombreuses tudes sur langlais de spcialit de lUniversit
dAston.

3. Lre actuelle
La suite du dveloppement de la linguistique de corpus est lie la dmocratisation des outils
informatiques et des ressources lectroniques. Dabord lavnement des clones PC, en
commenant avec lAmstrad, et les Mac-Apple a rendu loutil disponible un plus grand nombre.
En mme temps nous avons vu larrive des concordanciers comme Microconcord (Scott &
Tribble) et ATA (Aston Text Analyser de Roe) pour DOS et Conc pour Mac. Il faut souligner que le
but nest pas le dveloppement des outils, mais lemploi des outils pour regarder les mots en
contexte travers le mot-cl en contexte, KWIC. En linguistique de corpus contextualiste, loutil
informatique nest quune loupe pour mieux voir. Lintrt se trouve dans le dtail : pouvoir
gnraliser est important, mais non pas formaliser. Ce que nous observons est un rseau de
choix, suivant le principe didiome (Sinclair 1991). ce stade, il ny avait que deux moyens pour
obtenir des donnes : les entrer manuellement, ou utiliser un scanner, un outil encore rare. Il est
possible qu cette poque les critres de cration de corpus aient t mieux suivis : quand les
documents sont difficiles obtenir, on fait plus attention au choix des textes.
Lavnement de Windows a encore simplifi les choses, dautant plus quInternet est rapidement
arriv avec un choix de plus en plus important de documents. Les premiers concordanciers
travaillaient uniquement sur du texte ASCII, pour traiter le html, puis le sgml : il a fallu faire voluer
les outils. Ainsi, Microconcord sest mu en WordSmith Tools (Scott www.lexically.net) et Conc
en MonoConc (Barlow www.athelstan.com), dornavant disponible pour Windows. Puis, plus
tard le BNC est devenu disponible sur CD-ROM, accompagn de SARA, qui est maintenant

155
La linguistique et le corpus : une affaire prpositionnelle

devenue XAIRA, outil pouvant traiter tout corpus en XML, mme trs basique.

3.1. Qui fait quoi ?


On peut distinguer cinq grands centres de linguistique de corpus, lUniversit de Birmingham avec
lquipe de Sinclair, et maintenant Teubert, son successeur dans la chaire de Harper Collins,
lUniversit dAston Birmingham avec Roe, lUniversit de Liverpool autour de Hoey et Scott. Et
puis il y a le centre de Lancaster, beaucoup plus TAL dans son approche fonde sur les travaux
de Leech, et Oxford, maison mre de la TEI en Europe. Il y a videment dautres centres qui se
crent avec le mouvement des chercheurs.
Les trois premiers restent plus contextualistes avec un minimum dintervention sur le corpus,
puisque Sinclair dfend lide de zro annotation (Sinclair 2005). Le but reste largement
lenseignement des langues, surtout les langues de spcialit, et le dveloppement de la
lexicographie. Lautre cole se tourne vers des approches plus larges dans la cration doutils
dannotation et les applications typiquement TAL. Cependant, il ne faut pas une histoire de
chapelles avec des coles distinctes. Il y a simplement un continuum avec un glissement vers le
TAL dans un sens, et vers dautres disciplines de la linguistique applique dans lautre.
La linguistique de corpus, corpus linguistics, sest taille une place de choix dans la linguistique
applique. La meilleure introduction lapproche contextualiste reste le livre de Sinclair (1991)
Corpus, Concordance, Collocation. La diffrence entre lapproche contextualiste inductive, corpus-
driven, et dautres mthodologies est dcrite par Tognini-Bonelli, travaillant dans le cadre de
lcole de Sinclair. Pour une introduction la discipline, il faut lire Kennedy (1998), ou Hunston
(2002) pour les applications en linguistique applique.

3.2. Que font-ils ?


La linguistique de corpus est une linguistique applique, la thorie est issue de la pratique, et non
linverse. La langue est atteinte travers la parole (Tognini-Bonelli 2001) et na pas dexistence
propre en dehors du contexte. Ainsi, la linguistique de corpus se trouve en poursuivant la tradition
tablie par Palmer dans lenseignement de langlais comme langue seconde des non-
spcialistes. Des tudes sur des corpus scientifiques visent analyser des problmes
phrasologiques dans lcrit scientifique (Gledhill 2000) ou la cration de dictionnaires daide la
rdaction (Williams 2002a). Ces deux derniers taient des tudiants de Roe, lui-mme issu de
lcole de Birmingham et lve de Sinclair. Lanalyse des corpus scientifiques, soit comme tude
linguistique, soit comme aide la rdaction, est un thme rcurrent dans la linguistique de corpus
contextualiste (Tognini-Bonelli & Del Lungo Camiciotti 2005). Toujours dans lenseignement,
dautres travaillent pour faire entrer le concordancier dans la salle de classe (Sinclair (d.) 2004,
Gavioli 2005).
Les applications de la linguistique de corpus sont nombreuses (Hunston 2002), et incluent la
linguistique lgiste, domaine dvelopp par Coulthard (1994). Dautres tudes concernent la
terminologie (Pearson 1998 ) ou la traduction (Kenny 2001).
Dans les domaines plus linguistiques, Hunston & Francis (2000) ont men des tudes sur des
grammaires locales utilisant le corpus COBUILD. Williams (1998, 2002b) a explor les rseaux
thmatiques dans un corpus spcialis et utilise la collocation comme outil de catgorisation. Les
patrons thmatiques et les mots-cls sont le sujet de nombreuses tudes (Scott & Tribble 2006).
Lanalyse de discours sur corpus est un autre domaine important (Stubbs 1996, Partington et al.
2004).
Cette liste est loin dtre exhaustive. Le paradigme contextualiste en linguistique de corpus est
employ partout dans le monde, sur langlais et dautres langues. Je nai pas non plus parl de
lautre grande tradition de linguistique de corpus reprsente par lICAME. Les approches sont
nombreuses, mais lobjet dtude reste un corpus constitu selon des critres linguistiques
(Sinclair 2005). Lobjet est le corpus, les outils informatiques ne sont que des outils pour mieux voir
dans le corpus, les objectifs sont toujours une meilleure comprhension du langage parl par les
tres humains pour les tres humains, cest--dire la communication.

4. Conclusion
En guise de conclusion, il est temps de faire un petit rappel. Cet article nentre pas dans la
rubrique histoire de la linguistique. Je ne retrace pas des origines pour faire de lhistoire, mais pour
expliquer des paradigmes de recherche actuels. Ce nest pas non plus pour prouver quun

156
La linguistique et le corpus : une affaire prpositionnelle

paradigme est meilleur quun autre, mais que les paradigmes existent, et qu'il faut les regarder et
les comprendre afin de crer des changes et davancer dans la recherche sur le sable mouvant
que constitue le langage.
La linguistique de corpus est largement issue du monde anglo-saxon, et en anglais le mot
linguistique est invariable, cest une seule et unique discipline avec une multitude de facettes.
Parmi ces facettes se trouve la linguistique de corpus : par le jeu de la collocation si chre Firth,
le mot corpus a pris un sens particulier. Il sagit dun ensemble de textes soigneusement choisis
pour les besoins de la recherche linguistique et qui cherche reprsenter une partie de la langue
en action. Dans ce sens lenvironnement de la langue, avec tous les aspects sociolinguistiques,
doit tre pris en compte, cest--dire, le contexte culturel et le contexte situationnel. Pour un
linguiste de corpus contextualiste il nest nullement besoin de mettre ces paramtres dans une
dfinition de corpus, cest un acquis, cela va de soi depuis Malinowski. Dire que le sens du mot
corpus est plus restreint en linguistique de corpus nest pas dire quil ne peut pas y avoir dautres
types de corpus, simplement que lassociation des mots linguistique et corpus a cr des attentes
plus restreintes. Les autres corpus, juridique, littraire existent, et on peut en faire des tudes
linguistiques : ainsi il existe une linguistique sur corpus ct de la linguistique de corpus o la
constitution du corpus est en soi une partie essentielle de ltude.
La ou les linguistiques, je ne vois pas la ncessit dclater une discipline sur une simple particule.
Le TAL nest pas la linguistique de corpus, la pragmatique ou la sociolinguistique non plus,
chacune a son propre but. Cependant, ils peuvent utiliser les corpus, mais nous sommes de retour
sur la linguistique de corpus.
Si la linguistique de corpus existe comme discipline autonome, o se trouvent les frontires avec
dautres disciplines ? L, je retourne la question : avons-nous vraiment besoin de frontires quand
toutes nos propres tudes sur le langage prouvent que les frontires nexistent pas ? La
linguistique de corpus, comme dautres disciplines de la linguistique, rentre parfaitement dans la
notion de prototype, avec un nud central et une priphrie qui glissera subtilement vers dautres
disciplines dans un continuum. Les catgories nexistent pas en soi, nous les crons pour mieux
saisir la complexit. Parler des linguistiques de corpus cest noyer le poisson, si tout le monde
le fait, personne ne le fait, et tout le monde est perdant. La linguistique de corpus existe, elle est
rcente et sa mthodologie et son pistmologie se forgent. Pour la forger, il faut simplement la
reconnatre.

BIBIOGRAPHIE
BARBER, C.L. 1962. Some Measurable Characteristics of Modern Scientific Prose, in J. Swales
Episodes in ESP, Hemel Hempstead, Pergamon Press, pp. 3-14.
BAZELL, C. E, CATFORD, J. C., HALLIDAY, M. A. K., ROBINS, R. H. (ds.) 1966. In Memory of
JR FIRTH, London, Longman.
COULTHARD, M. 1994. On the use of corpora in the analysis of forensic texts, Forensic
Linguistics, 1, pp. 27-44.
FIRTH, J.R. 1935. The Semantic of Linguistic Science, in J.R. Firth, Papers in Linguistics 1934-
1951, Oxford, OUP. 1948.
GAVIOLI, L. 2005. Exploring corpora for ESP Learning, Amsterdam, John Benjamins.
GLEDHILL, C. J. 2000. Collocations in science writing, Tbingen, Gunter Narr Verlag.
HALLIDAY, M. A. K. 1961. Categories of the Theory of Grammar, Word, 17.3, pp. 241-92.
HALLIDAY, M. A. K. 1966. Lexis as a linguistic level, in C. E. Bazell et al., In Memory of JR FIRTH,
pp. 148-162.
HALLIDAY, M.A.K., HASAN, R. 1976. Cohesion in English, London, Longman.
HOEY, M. 1991. Patterns of Lexis in Text, Oxford, Oxford University Press.
HOEY, M. 2005. Lexical Priming: A New Theory of Words and Language, London, Routledge.
HOWATT, A.P.R. 1984. A History of English Language Teaching, Oxford, OUP.
HUNSTON, S., FRANCIS, G. 2000. Pattern Grammar: A corpus-driven approach to the Lexical
Grammar of English, Amsterdam et Philadelphie, John Benjamins.
HUNSTON, S. 2002. Corpora in Applied Linguistics, Cambridge, CUP.
KENNEDY, G.1998. An introduction to corpus linguistics, London & New York, Longman.
KENNY, D. 2001. Lexis and Creativity in Translation, Manchester, St Jerome Publishing.

157
La linguistique et le corpus : une affaire prpositionnelle

LON, J. 2005. Claimed and unclaimed sources of Corpus Linguistics, Henry Sweet Society
Bulletin, N44, pp. 36-50.
MALINOWSKI, B. 1923. The problem of meaning in primitive languages. Supplement to CK.
Ogden and I.A. Richards, The Meaning of Meaning, pp. 296-336.
MALINOWSKI, B. 1935. Coral Islands and their Magic, vol 2. The language of Magic and
gardening, London, George Allen and Unwin Ltd.
OGDEN, C.K., RICHARDS, I.A. 1923. The Meaning of Meaning, London, Routledge and Kegan
Paul.
PALMER, H. E. 1933. Second Interim Report on English Collocations, Tokyo, Kaitakusha.
PARTINGTON, A., MORLEY, J., HAARMAN, L. (ds) 2004. Corpora and Discourse : Proceedings
of CamConf 2002 Universit degli Studi di Camerino, Centro Linguistico d'Ateneo Sept 27th-29th
2002, Bern, Berlin, Bruxelles, Frankfurt/M., New York, Oxford, Wien, Peter Lang.
PEARSON, J. 1998. Terms in Context, John Benjamins.
ROE P. 1977. Scientific Text, ELR University of Birmingham.
SINCLAIR, J. McH. 2005. Corpus and Text: Basic Principles, in M. Wynne (d.), Developing
Linguistic Corpora: A Guide to Good Practice, pp. 1-16.
SINCLAIR, J. McH. 1991. Corpus, Concordance, Collocation, Oxford, Oxford University Press.
SINCLAIR, J. McH., JONES, S., DALEY, R. 2004. English Collocation Studies: The OSTI Report,
Londres - New York, Continuum.
SINCLAIR, J. McH. (d.) 1987. Looking Up: an account of the COBUILD Project in Lexical
Computing, London, Collins.
SINCLAIR, J. McH. (d.) 2004. How to use corpora in language teaching, Amsterdam, John
Benjamins.
SINCLAIR, J. McH. 1966. Beginning the study of lexis, in C. E. Bazell et al., In Memory of JR
FIRTH, pp. 410-430.
SINCLAIR, J. McH. et al. 1970. English Lexical Studies: Report to OSTI on Project C/LP/08,
Department of English, University of Birmingham.
SWALES, J. M. 1990. Genre Analysis, Cambridge, Cambridge University Press.
TOGNINI-BONELLI, E., DEL LUNGO CAMICIOTTI, G. (ds.) 2005. Strategies in academic
discourse, Amsterdam, John Benjamins.
TOGNINI-BONELLI, E. 2001. Corpus Linguistics at Work, Amsterdam, John Benjamins.
TUTIN, A., GROSSMAN, F. 2003. Les collocations : analyse et traitement, Amsterdam, de Werelt.
WILLIAMS, G. 1998. Collocational Networks : Interlocking Patterns of Lexis in a Corpus of Plant
Biology Research Articles, International Journal of Corpus Linguistics, Vol. 3/1, pp. 151-171.
WILLIAMS, G. 2002a. Corpus-driven lexicography and the specialised dictionary: headword
extraction for the Parasitic Plant Research Dictionary, in A. Braasch, C. Povlsen (ds),
Proceedings of the 10th EURALEX International Congress, Copenhague, CSK, pp. 859-864.
WILLIAMS, G. 2002b. In search of representativity in specialised corpora: categorisation through
collocation, International Journal of Corpus Linguistics, Vol. 7/1, pp. 43-64.
WILLIAMS, G. 2003. Les collocations et lcole contextualiste britannique, in A. Tutin et F.
Grossman, Les collocations : analyse et traitement, Amsterdam, de Werelt, pp. 33-44.
WYNNE, M (d.). 2005. Developing Linguistic Corpora: A Guide to Good Practice, Oxford, AHDS.

158