1.

4 Le corpus

Le corpus que nous soumettons à l¶étude est constitué d¶écrits de presse produits en langue française et dont la majorité est éditée pendant CAN2010. Le travail s¶étend sur période du 3 janvier 2010 au 31 janvier 2010. Dans un premier temps, nous explorerons tous les articles dépouillés afin d¶étudier les dénominations de l¶équipe nationale algérienne du football et sa spécificité. Dans un deuxième temps, nous aborderons l¶aspect implicite du lexique de football à travers les noms dominants. 1.4.1 Préparation des données textuelles. Les textes qui constituent notre corpus ont été, en premier lieu, scannés selon les normes établies par Etienne Brunet dans le fascicule qui accompagne le logiciel Hyperbase. Pour plus d¶informations, nous renvoyons le lecteur à ce texte. Cependant nous reprenons certains passages que nous jugeons élémentaires. Après avoir scanné l¶ensemble des articles journalistiques, nous avons enregistré les données dégagées sous un format ASCII (ou texte seulement). Ainsi un fichier est-il créé. Le logiciel se chargera ensuite de la pagination et de la partition si celles-ci sont absentes du fichier. Chaque carte ou page est composée d¶environ 200 mots et l¶ensemble du texte est découpé en parties de longueurs voisines. Pour la préparation de la pile ou du programme, nous renvoyons le lecteur aux explications de Brunet dans son fascicule. Une fois effectué ce travail purement technique, une base hypertextuelle est prête à être exploitée. Avant d¶entamer cette opération, il est utile d¶éclaircir certaines notions. En effet, l¶ « amateur » de la statistique et de l¶électronique doit prendre en compte le fait que« l¶hypertexte ou
l¶écriture non séquentielle sont des notions qui appartiennent depuis toujours à la littérature («) mais les technologies informatiques de mise en rapport ont le mérite de renouveler le regard sur l¶objet littéraire. » (Ferrand, « Banques » 15)

Ceci dit, l¶hypertexte peut être défini comme :
« Un ensemble de données textuelles numérisées sur un suppo rt électronique, et qui peuvent se lire de diverses manières. Les données sont réparties en éléments ou n uds d¶information ² équivalents à des paragraphes. Mais ces éléments, au lieu d¶être attachés les uns aux autres, comme les wagons d¶un train, sont ma rqués par des liens sémantiques qui permettent de passer de l¶un à l¶autre lorsque l¶utilisateur les active. Les liens sont physiquement « ancrés » à des zones, par exemple à un mot ou à une phrase.»

Certes, nous pouvons dire que la machine est là pour faciliter le travail du chercheur, mais « l¶ il humain doit toujours vérifier les produits de l¶ordinateur » (Muller, « Une Nouvelle » 327) et qu¶en fin de compte, « les résultats produits par les calculs automatisés de la machine sont là pour relancer l¶interprétation en suscitant de nouvelles questions, et non pas pour la stopper en laissant le chercheur muet de béatitude devant ses graphiques. » (Ferrand 11) 1.4.2 L¶analyse lexicométrique La lexicométrie est une méthode qui a pour objectif le calcul des éléments lexicologiques d¶un corpus. Il s¶agit de tous les éléments car elle « refuse de privilégier quelque
élément que ce soit dans un discours ; elle se fonde sur l¶exhaustivité des relevés, l¶uniformité du dépouillement, l¶unicité du critère de dépouillem ent. » (Maingueneau, « L¶Analyse »

Maingueneau distingue trois niveaux dans la statistique linguistique :
« 1) Un constat de fréquence : le constat d¶une fréquence de certains caractères quantifiables plus élevée dans un corpus que dans un autre 3 («) 2) Niveau d¶inférence statistique : on démontre que tel corpus possède significativement plus de caractère quantifiables d¶un type déterminé que tel autre. » Ici intervient la notion d¶hypothèse nulle (Cf. Ch. Muller, « La statistique » ) : si l¶on

prend pour norme le corpus lui-même et si on suppose que le caractère concerné obéit au

hasard seulement (situation idéale), on peut calculer « l¶écart » entre le modèle théorique ainsi obtenu (« hypothèse nulle ») et la répartition réelle ; on détermine un « seuil de probabilité » permettant de décider d¶un intervalle entre les limites duquel l¶ « hypothèse nulle » ne pourrait pas être rejetée.
« 3) Niveau d¶inférence socio -linguistique : on décide alors que tel émetteur a écrit significativement avec plus de ce cara ctère quantifiable que tel autre 4 . Grâce au « seuil » défini, on peut évaluer le degré d¶assurance avec lequel on donne une conclusion. » (49 -50)

Cependant, l¶analyse lexicométrique
« N¶est pas une panacée critique » mais elle permet de « confirmer les intuitions produites par des lectures conventionnelles » et partant « elle ouvre la voie à un renouvellement de ces lectures en faisant ressortir des éléments textuels qui ne frappent pas touj ours, éléments qui ont le grand mérite d¶être non des constructions de l¶esprit, mais des faits langagiers issus du texte. » (Olivier 479 -80) 3 Ce que nous allons appeler la spécificité lexicale d¶un corpus. 4 Ce qui nous permettra de dégager le champ thém atique de l¶auteur.

En définitive, l¶étude lexicométrique « se fonde sur l¶importance relative des lexèmes euxmêmes et oblige à une relecture du texte en fonction de ces informations. » (Olivier 480) Les deux programmes essentiels d¶hypertexte qui obéissent aux mêmes principes tout en se distinguant par la présentation des résultats sont appelés fonctions par Brunet qui les présente dans son fascicule accompagnant le logiciel Hyperbase. 1.4.2.1La fonction contexte En dehors de la circulation libre à travers le texte et le dictionnaire, le logiciel propose dans le menu principal les outils propres à assurer une exploitation méthodique de la documentation. Les deux programmes essentiels CONCORDANCE et CONTEXTE obéissent aux mêmes principes et ne se distinguent que par la présentation des résultats:
« 1 - Si l'on met en uvre le bouton CONTEXTE (le résultat figure dans l'écran ci -dessous), chaque occurrence de ce qu'on cherche est située et montrée dans le contexte naturel du paragraphe. Pour permettre la reconnaissance aisée du mot dans le contexte, ce mot est converti en CAPITALES dans le paragraphe où il est rencontré. Le contexte restitué est généralement suffisamment explicite, d'autant que les références du passage sont livrées en clair, avec indicat ion du texte, de la page, et de la zone dans la page (grâce à un code alphabétique qui commence à la lettre a, pour le début de page, et s¶arrête à la lettre f, g ou h pour la fin de page). Mais un lien est établi pour chaque extrait avec la page originale, où l'on est conduit instantanément lorsqu'on clique sur l'extrait en question. Pour faciliter la localisation du passage, le mot cherché apparaît en rouge dans le texte. Figure 1: La fonction contexte

1.4.2.2 La fonction concordance
2 - Si l'on fait appel à la fonction CONCORDANCE du menu principal, on obtient un contexte étroit qui tient en une ligne et qui montre la forme (ou l'expression) cherchée, en position centrale, avec une demi -douzaine de mots à gauche et à droite. Au lieu de suivre l'ordre normal qui respecte la suite des textes, les contextes sont groupés selon leur environnement immédiat, à gauche ou à droite du mot -pôle. Cela souligne la résurgence de syntagmes répétitifs qui ressortissent souvent aux contraintes syntaxiques mais révèlent parfois aussi les tendances phraséologiques de l'auteur Si l'on estime trop étroite la fenêtre de concordance, un simple clic sur une ligne permet de retrouver la page concernée, qui reste exposée (avec mise en relief du mot) jusqu'au moment où un second clic la fait disparaître, comme on peut le constater ci -dessous pour l¶exemple de la concordance du mot vert dans le corpus . Figure 2: La fonction concordance

Dans les deux procédures, CONTEXTE et CONCORDANCE, des options sont offertes à l'utilisateur pour qu¶il puisse préciser la portée et l'objet de sa recherche. » (Brunet, « Manuel » 23 -27)

Les différentes fonctions de ce programme peuvent être visualisées dans la figure suivante :
Figure 3 : les différentes fonctions du logiciel

1.5Plan de travail
Nous avons signalé plus haut que notre démarche avait abouti à une base de données que nous avons appelée CAN.EXE. Cette base est constituée de données quantitatives qui
« Peuvent être exploitées suivant deux axes principaux : soit pour caractériser une uvre ( «) par rapport à un ensemble (stylistique ou chronologique) dont elle fait partie ; soit en traitant une unité lexicale, ou un groupe de telles unités (un champ sémantique) par rapport à l¶ensemble du vocabulaire. » (Muller, « Une Nouvelle » 321)

Ce que nous projetons de réaliser dans le cadre de ce travail est une sorte de conciliation entre les deux axes : d¶une part, nous allons « caractériser » les dénominations de l¶équipe nationale algérienne du football en dégageant ses spécificités lexicales. A cet effet, notre travail s¶articulera autour de deux parties : Dans la première, nous aurons à analyser le vocabulaire de presse spécialisé du football, La statistique linguistique et informatique nous permettra d¶« affiner et d¶asseoir des
bases objectives et d¶évacuer l¶arbitraire et de contrôler les intuitions en matière lexicale » (Abbès 33). Cette analyse permet de suivre, non seulement, la

dénomination donnée a l¶équipe nationale algérienne du football, mais aussi son organisation. Par ailleurs, il est possible d¶établir des comparaisons avec d¶autres dénominations.
5 Cf. les travaux d¶Etienne Brunet, cités en bibliographie. « On aurait tort de réduire la lexicométrie à un simple comptage de mots ou même à la statistique lexicale » D. Maingueneau

Comme la statistique repose sur des données quantitatives, il s¶agit dans cette première partie d¶explorer la base lexicale que nous avons constituée. Ce travail d¶exploration nous permettra de connaître davantage notre objet et de circonscrire le champ d¶investigation. Certes nous rencontrerons un grand nombre de données numériques, mais la maîtrise du logiciel d¶exploitation limitera les fluctuations et les aléas statistiques. Cette première partie sera présentée selon un ordre imposé soit par les contraintes du logiciel, soit par un souci de logique dans le traitement des données. Nous expliquerons tout d¶abord, les démarches suivies pour arriver à la constitution de la base que nous utiliserons tout au long de ce travail. A ce niveau, nous sommes confronté à une nuée de données constituant l¶étendue quantitative de notre corpus et qu¶il s¶agit, en fait, d¶organiser. Une question se pose dès lors : ces données numériques se prêtent-elles à une organisation quelconque ? C¶est ce à quoi nous nous proposons de répondre. Il s¶agit ici de retrouver la structure du vocabulaire de dénomination de l¶équipe nationale algérienne du football. Nous entendons par structure les caractéristiques du vocabulaire donnés, concernant aussi bien la richesse lexicale de l¶article que le contenu lexical représenté en fréquences. Certaines questions sont soulevées dans ce chapitre : Est-ce que la dénomination de l¶équipe est riche ? Assistons-nous à un corpus où des noms ont un large pourcentage, témoignant de la richesse lexicale du corpus ? Quels sont les groupes de fréquences que constitue le corpus ? 2.1.1La manipulation informatique. Le traitement informatique de la base que nous avons constituée ± articles de presse spécialisé du football ± est un ensemble d¶opérations statistiques effectuées par un logiciel informatique. Ce logiciel se chargera de certaines opérations en rapport avec la statistique permettant de dégager des résultats quantitatifs. Ces résultats ne peuvent être obtenus manuellement que difficilement, d¶où cet appel à la technologie mise au service des sciences humaines.

Cependant, les résultats auxquels on accède sont des données brutes qui ne prennent de signification qu¶avec une interprétation humaine. Aussi, « recourir à un logiciel, ce n¶est pas seulement faire faire par une machine une tâche fastidieuse, c¶est transformer l¶approche du texte, la stratégie de description dépendant naturellement de la manière dont est conçu ce logiciel. » (Maingueneau, « L¶Analyse » 102) Le logiciel mis en application a été élaboré par le professeur Etienne Brunet de l¶université de Nice. Il en existe plusieurs versions et à chaque remaniement de nouvelles fonctions sont ajoutées au logiciel de base, l¶Hyperbase. Néanmoins, les fonctions fondamentales sont présentes dans chaque version. Celles-ci peuvent être divisées en deux groupes : documentaires et statistiques. Les premières se trouvent horizontalement en haut de la fenêtre : Exporter, Edition, Biblio, Lecture, Contexte, Concordance, Index. Elles servent surtout à explorer la base. Quant aux fonctions statistiques (Graphique, Liste, Excel, Factorielle, Arborée, Spécificités, Phrasesclés, Évolution, Structure) qui se trouvent verticalement à droite, elles proposent une analyse approfondie des connexions lexicales. Par ailleurs, les deux types de fonctions se complétant permettent une multitude d¶opérations qui aident le chercheur à affiner son analyse. Ainsi, il peut réaliser entre autres les opérations suivantes :
«± le dictionnaire des fréquences du vocabulaire de la presse à partir du corpus ;