You are on page 1of 6

CHAPITRE I: Analyse statistique du corpus

« On aurait tort de réduire la lexicornétrie à un simple comptage de mots ou


même à la statistique lexicale »
D. Maingueneau

Comme la statistique repose sur des données quantitatives, il s’agit dans cette
première partie d'explorer La base lexicale que nous avons constituée. Ce travail
d'exploration nous permettra de connaître davantage notre objet et de circonscrire le champ
d'investigation.
Certes nous rencontrerons un grand nombre de données numériques, mais la maîtrise du
logiciel d'exploitation limitera les fluctuations et les aléas statistiques. Cette première partie
sera divisée en quatre chapitres présentés selon un ordre imposé soit par les contraintes du
logiciel, soit par un souci de logique dans le traitement des données.
Nous expliquerons tout d’abord, dans le premier chapitre, les démarches suivies pour
arriver à la constitution de la base que nous utiliserons tout au long de ce travail. A ce
niveau, nous sommes confronté à une nuée de données constituant l'étendue quantitative de
notre corpus et qu'il s’agit, en fait, d’organiser. Une question se pose dès lors : ces données
numériques se prêtent-elles à une organisation quelconque ? C'est ce à quoi nous nous
proposons de répondre dans le deuxième chapitre.
Il s’agit ici de retrouver la structure du vocabulaire de Djaout. Nous entendons par
structure les caractéristiques du vocabulaire de l'auteur, concernant aussi bien la richesse
lexicale de l'œuvre que le contenu lexical représenté en fréquences. Certaines questions sont
Soulevées dans ce chapitre : Est-ce que le vocabulaire de l'auteur est riche ? Quelle est la
tendance du vocabulaire dans son évolution ? Assistons-nous à un corpus où les mots rares
ont un large pourcentage, témoignant de la richesse lexicale du corpus ? Quels sont les
groupes de fréquences que constitue le corpus ?
Ensuite, une fois l’approche quantitative épuisée, nous nous attarderons sur l'approche
Qualitative qui nous renseignera sur le contenu lexical du corpus. Ce chapitre nous amènera à
Clarifier certains points qui restent obscurs, que l'analyse quantitative n'est pas parvenue à
éclaircir, dans la mesure où ils dépendent plus de l'intuition que du calcul automatique. Il
s'agit de répondre à une question qui préoccupe la statistique linguistique : existe-t-il des
frontières étanches entre les divers textes constituant une œuvre ou sont-elles transcendées

21
CHAPITRE I: Analyse statistique du corpus

par la connexion lexicale ?


Enfin, le dernier chapitre de cette partie sera consacré à l'élaboration du « portrait
lexical » de l'auteur en étudiant les spécificités lexicales de son œuvre. Celles-ci sont
obtenues par une comparaison externe avec les textes de la base de données du Trésor de la
Langue Française. Ainsi, nous dégagerons le vocabulaire en excédent et celui déficitaire
dans notre corpus. A travers ces deux relevés, nous pourrons entrevoir quelques spécificités
de l'auteur qui seront étudiées dans le détail. Est-ce que ces spécificités répondent à une
exigence et à un choix de l'auteur ou sont-elles, simplement, le fruit du hasard ? Dans
l'éventualité où elles sont sujettes à un choix délibéré de l'auteur, quel est leur impact dans
les desseins de l'auteur? Peuvent-elles nous renseigner sur les visées pragmatiques et la
stratégie discursive de l'auteur ?

22
CHAPITRE I: Analyse statistique du corpus

2.1.1 La manipulation informatique :

Le traitement informatique de la base que nous avons constituée - l'œuvre


romanesque de Djaout - est un ensemble d’opérations statistiques effectuées par un
logiciel informatique. Ce logiciel se chargera de certaines opérations en rapport
avec la statistique permettant de dégager des résultats quantitatifs. Ces résultats ne
peuvent être obtenus manuellement que difficilement, d'où cet appel à la technologie
mise au service des sciences humaines. Cependant, les résultats auxquels on accède
sont des données brutes qui ne prennent de signification qu'avec une interprétation
humaine.
Aussi, « recourir à un logiciel, ce n'est pas seulement faire faire par une
machine une tâche fastidieuse, c’est transformer l'approche du texte, la stratégie de
description dépendant naturellement de la manière dont est conçu ce logiciel. »
(Maingueneau. « L.’Analyse » 102)
Le logiciel mis en application a été élaboré par le professeur ['.tienne Brunet
de l'université de Nice. Il en existe plusieurs versions et à chaque remaniement de
nouvelles fonctions sont ajoutées au logiciel de base, l’ Hyperbase. Néanmoins, les
fonctions fondamentales sont présentes dans chaque version. Celles-ci peuvent être
divisées en deux groupes : documentaires et statistiques.
Les premières se trouvent horizontalement en haut de la fenêtre : Exporter,
Edition, Biblio, Lecture, Contexte, Concordance, Index. Elles servent surtout à
explorer la base. Quant aux fonctions statistiques (Graphique, Liste, Excel,
Factorielle, Arborée. Spécificités, Phrases-clés, Evolution, Structure) qui se trouvent
verticalement à droite, elles proposent une analyse approfondie des connexions
lexicales.
Par ailleurs, les deux types de fonctions se complétant permettent une
multitude d’opérations qui aident le chercheur à affiner son analyse. Ainsi, il peut
réaliser entre autres les opérations suivantes :
«- le dictionnaire des fréquences du vocabulaire de
l'auteurétabli à partir du corpus

23
CHAPITRE I: Analyse statistique du corpus

- le vocabulaire spécifique de chaque texte et de tout le corpus.


On obtient alors une liste triée des formes significativement
excédentaires ou déficitaires dans le texte considéré. Une telle liste,
précise Etienne Brunet, dessine « comme un portrait, fait de relief et
d'ombres, du texte en question ». Le traitement des listes de mots est
ouvert à toutes les combinaisons ;
- l'environnement thématique d'un mot ou d'un groupe de mots ;
la corrélation chronologique : la fréquence théorique
- de chaque mot est évaluée afin
de voir la progression ou la régression des formes, donc l'évolution
du vocabulaire ;
- l'effectif des vocables et des mots employés une seule fois ou hapax;
- la connexion lexicale ou selon Charles Muller la distance qui
sépare chaque texte de tous les autres quand pour chaque couple de
textes, on mesure la part commune du lexique et la part exclusive ;
larichesse lexicale;
- enfin des tableaux et des graphiques divers viennent illustrer
tous ces résultats. » (Abbés 38-9)

Si nous considérons ces différentes opérations, nous constatons qu'elles se


situent sur deux plans. Le premier, quantitatif, permet de faire un recensement
succinct du vocabulaire de l'auteur et de suivre son évolution à travers les œuvres. La
démarche quantitative rend également compte des spécificités lexicales de fauteur,
qui laissent apparaître l'aspect implicite de sa langue. Pourtant, nous ne pouvons nous
arrêter à ces considérations.
Sur un autre plan, qualitatif, nous pouvons dégager la portée pragmatique
du lexique en envisageant son rapport à la thématique dont il est le noyau et le III
conducteur. Sur ce plan, le nom propre, par exemple, fonctionne comme une
extrémité nerveuse permettant, non seulement la connexion entre les différents
thèmes, mais aussi la circulation des thèmes dans les différents textes.

24
CHAPITRE I: Analyse statistique du corpus

2.1.2 L’exploration du corpus

L'application du programme Hyperbase nous a permis d’établir la


quantification des
Données lexicales. Ainsi, nous avons pu relever une étendue lexicale équivalente à
226 690 occurrences réparties sur un nombre moindre de vocables (22 909). Mais
nous avons aussi relevé les données quantitatives de chaque texte composant notre
corpus. Le tableau suivant résume ces informations :

Tableau 1 : Les effectif

TITRES OCCURRENCES VOCABLES


L’Exproprié 44 077 9 248
Les chercheurs d’OS 39 182 6 585
L’invention du Désert 56 303 9 737
Les vigiles 55 681 8 641
Le dernier Eté de la raison 31 447 6 406
Total 226 690 22 909

Si nous considérons le tableau ci-dessus, nous constatons que l'étendue


lexicale des textes n'est pas homogène. D'une part, au niveau intra-textuel. nous
remarquons une grande différence entre occurrences et vocables. Ceci est dû aux
dispositions psychiques de chaque individu. En réalité, un individu ne peut pas
utiliser tous les mots qu'il connaît : il réemploie souvent les mêmes vocables.
D’autre part, au plan intertextuel, il y a une hétérogénéité dans la distribution des
formes entre textes. En effet, le nombre des formes dans L'Invention du Désert, par
exemple est nettement supérieur à celui dans Le Dernier Eté de la Raison. Nous
Pouvons dire que ceci est dû à la publication posthume de ce dernier et que.
Peut-être, des modifications ont été apportées à ce texte. Par ailleurs, nous pouvons
rapprocher certains textes comme L'Exproprié et L'Invention du Désert qui ont
une étendue voisine. Les Chercheurs d’Os et Le Dernier Été de la Raison se

25
CHAPITRE I: Analyse statistique du corpus

rapprochent également. Quant à Les Vigiles, son étendue lexicale est située en
moyenne par rapport aux deux couples de textes.
Par contre, l'évolution du lexique de Djaout nous paraît, au premier abord,
contradictoire. Effectivement, nous constatons une baisse dans le nombre des formes,
bien que, logiquement, nous nous attendions à un enrichissement du capital lexical.
Une première hypothèse sur cette évolution nous paraît être l'exigence de l'auteur
dans le choix des formes, ce qui exclut bon nombre de termes, mais aussi le fait que
les thèmes traités sont divers et nécessitent à des degrés différents l'emploi de tel ou
tel champ lexical. Enfin, nous pensons que l'auteur, en se consacrant à l'écriture
journalistique aux dépens de l'écriture littéraire, aurait réduit son lexique pour des
raisons relevant du discours journalistique.
Nous allons tenter de vérifier ces hypothèses dans le deuxième chapitre qui
sera consacré à l’organisation du vocabulaire dans l'œuvre de Djaout.

26