You are on page 1of 12

811

Quand travail , famille , patrie co-occurrent dans le discours de Nicolas Sarkozy. Etude de cas et rflexion thorique sur la co-occurrence
Damon Mayaffre
CNRS UMR, Bases, Corpus et Langage (Nice)

Abstract
Meaning is born in context. Starting from this assumption, we shall first offer a theoretical definition of cooccurrence as the minimal form of linguistic context required for the apprehension of meaning. In the second part, we conduct a practical demonstration showing that the minimal contextualisation of the word travail by means of its co-occurrents (famille, patrie, etc.) in Nicolas Sarkozys rhetoric in 2007 leads to political semantic implications heavy with historical sense.

Rsum
Le sens nat en/du contexte. Dans ce cadre, nous dfinirons, de manire thorique dans une premire partie, la co-occurrence comme la forme minimale du contexte linguistique ncessaire lapprhension du sens. Dans une seconde partie, nous montrerons, de manire pratique, que la contextualisation minimale du mot travail par ses co-occurrents ( famille , patrie , etc.), dans le discours lectoral de Nicolas Sarkozy en 2007, permet dentrer dans une smantique politique lourde de sens historique.

Mots-cls : co-occurrence(s), collocation, contexte, contextualisation, hermneutique numrique, Sarkozy.

1. Introduction
Tout semble avoir dj t dit sur le traitement des co-occurrences. De la bibliographie franaise la bibliographie anglo-saxonne, des tudes de la communaut ADT soucieuses de rendre compte de la textualit aux tudes de la communaut TALN portes sur lextraction dinformation et le web smantique, des travaux pionniers de (Firth, 1957) ou de Saint-Cloud ceux actuels de ATST, BCL, DELIC, ICAR, ILPGA, UQAM, etc., de la thse de (Lafon, 1984), de (Salem, 1993) ou de (Viprey, 1997) celle de (Martinez, 2003) exclusivement ddie la question, la littrature foisonne de considrations mthodologiques, de modles mathmatiques et informatiques, dindices statistiques complmentaires ou concurrents, de reprsentations graphiques varies des co-occurrences. A ceci, ajoutons que la bibliographie se dmultiplie encore ds lors que lon veut bien associer la notion stricte de co-occurrences celle proche, notamment dans le milieu anglo-saxon, de collocation1. Ce foisonnement mthodologique contraste avec le peu dtudes effectives dhistoriens du texte, de politologues du discours, de linguistes de la parole utilisant la co-occurrence dans leur dmarche interprtative. Il en est sans doute la raison, et lindice quaucune pratique co-

Ainsi nous avons trs rapidement rassembl plus de 100 rfrences franaises ou internationales. Dans ces conditions, la bibliographie prsente en fin darticle est arbitraire et ne sera considre qu titre indicatif.

JADT 2008 : 9es Journes internationales dAnalyse statistique des Donnes Textuelles

812

DAMON MAYAFFRE

occurrentielle stable des textes ne sest rellement impose aujourdhui dans la boite outils des interprtes de corpus textuels. Concrtement, les grands logiciels dADT directement accessibles sur le march offrent finalement peu de fonctions opratoires pour traiter de la co-occurrence. Et, un des rsultats du projet Textomtrie (2007-2009) financ par lANR et men par Serge Heiden (ENSICAR) doit tre de rendre accessible tous des pratiques rserves jusquici certains utilisant des outils performants mais rarement interfacs pour le grand public scientifique. Cette contribution a deux objectifs. Elle propose, dune part, une tude dun cas concret et suggestif : lapproche co-occurrentielle du discours lectoral de Nicolas Sarkozy autour de la valeur travail . Cette tude sappuie sur le corpus exhaustif des discours de meeting du candidat victorieux la prsidentielle entre le 1er janvier 2007 et la veille de son lection le 6 mai (34 discours, 283 109 mots, 11 689 vocables ; 621 occurrences du lemme-ple travail )2. Les fonctions varies du traitement de la co-occurrence mises en uvre sont celles dsormais implmentes sur le logiciel dEtienne Brunet, HYPERBASE qui sest appliqu ces derniers mois rassembler plusieurs outils complmentaires (calcul probabiliste classique des co-occurrences hrit de SaintCloud (Lafon, 1984), graphes des co-occurences limage des lexicogrammes de (Heiden, 2004), reprsentation AFC des co-occurrences proche de celle propose par (Viprey, 1997), analyses arbores et reprsentations topologiques de conception nioise (ici, Brunet, 2008). Cette contribution propose, dautre part, en pralable, quelques considrations thoriques sur des enjeux de la co-occurrrence non pas dans le TALN mais dans lADT actuelle tourne rsolument vers une linguistique textuelle vocation rhtorico-hermneutique.

2. La co-occurrence : enjeu actuel pour lADT


Une des proccupations de la linguistique de corpus, de lADT et de la textomtrie est de passer dune approche occurrentielle des donnes du corpus une approche co-occurrentielle. Cette proccupation a t identifie comme cruciale trs rapidement (par exemple Tournier, 1980) et reste en 2008 toujours dactualit. Le passage dune statistique occurrentielle tude de la distribution frquentielle dun terme dans un corpus partitionn , une statistique co-occurrentielle tude du rapport frquentiel entre deux termes co-prsents dans le corpus au sein de fentres co-textuelles dlimites (le paragraphe par exemple) reprsente un saut. On passe en effet dune approche formelle, nuclaire ou positiviste du corpus une approche contextualisante cest--dire dj smantique. Avec la co-occurrence, la statistique textuelle met un pied dans une smantique de corpus qui lui tait jusquici interdite et raffirme par l sa vocation hermneutique.
2.1. Les deux traditions linguistiques de Franois Rastier

En termes rastiriens, la recherche doccurrences sinscrit dans une linguistique de tradition logico-grammaticale, pour laquelle il existe des entits indpendantes des mots, ici, pour faire simple qui renvoient, in abstracto ou hors contexte, des ontologies des rfrences. Cette linguistique, selon Rastier, est une linguistique du signe et non du sens. La remise du

A ce corpus central, ajoutons dautres corpus en contrepoint : les discours de meeting de Laguiller, Buffet, Royal, Bayrou et Le Pen (voir infra). Lensemble de ces discours sont disponibles sur le site de Jean Vronis : http://sites.univ-provence.fr/veronis/Discours2007/.

JADT 2008 : 9es Journes internationales dAnalyse statistique des Donnes Textuelles

QUAND TRAVAIL ET FAMILLE CO-OCCURRENT CHEZ SARKOZY

813

mot dans un certain contexte linguistique, via par exemple des concordanciers, prolongera certes lanalyse, mais en renonant dj la statistique et au traitement contrl pour revenir une lecture dessence traditionnelle. La recherche de co-occurrences (leur mise en vidence par des calculs plus ou moins complexes, puis leur mise en forme sous lapparence de tableaux, darbres ou de graphes cf. infra) renvoie, elle, des notions de parcours interprtatifs, de mises en rseaux ou de mise en rsonance3, de textualit ou de texture. Elle sinscrit en tout cas, comme nous allons essayer de le montrer, dans une logique de contextualisation qui est la condition de llaboration du sens et de linterprtation. Nous entrons par l mme dans la deuxime linguistique dfinie par Rastier, de tradition rhtorico-hermneutique. En dautres termes encore, en privilgiant les co-occurrences sur les occurrences, on rintroduit les contextes (cest--dire les units textuelles qui font sens tels les passages rcemment thoriss par [Rastier, 2007]) dans une pratique ADT, sans cela, seulement lexicographique.
2.2. La co-occurrence comme forme minimale du contexte

Comme on sait, le sens nat du/en contexte ; la contextualisation (et sa formalisation) est ainsi la condition dun traitement smantique/interprtatif. A une extrmit, la forme maximale du contexte serait tout le texte (sauf tre, au-del du texte, le corpus dans son ensemble4). A lautre extrmit, nous voulons poser ici que la forme minimale du contexte est la co-occurrence. Nous dfinirons en effet la co-occurrence comme le phnomne de contextualisation minimale dun mot par un autre mot. (Charge la statistique et au traitement informatique de reprer systmatiquement toutes les attirances/rpulsions lexicales co-occurrentielles parlantes ou significatives ; et leur degr de significativit). Au sein du corpus, le contexte minimal dun mot-ple nest pas le syntagme ou la phrase. Ceux-ci sont trop nombreux et trop variables pour tre synthtisables : il y aurait alors, en effet, autant de contextes (cest--dire de sens) du mot que de syntagmes ou de phrases le contenant, et il ne nous resterait plus qu les plucher un par un5. La dmarche serait contreproductive puisque cette multiplication de contextes plutt que nous mener au sens nous compliquerait son accs. Loin du syntagme ou de la phrase donc, le contexte minimal (mais formalisable) dun mot est son co-occurrent attest par la statistique, ou plutt ses co-occurrents lexicaux attests, systmatiquement reprs.

Suggrons cette image : le traitement co-occurrenciel espre saisir linstant o le vocabulaire dun texte entre en rsonance avec lui-mme.

Selon lexpression souvent rpte par Rastier : Le contexte, cest tout le texte . Nous savons nanmoins quun texte reoit aussi, un niveau suprieur, des dterminations du corpus dans lequel il se trouve plong. Techniquement, la loi endogne des traitements textomtriques ici du calcul de la co-occurrence prend en considration lensemble du corpus comme la norme par rapport laquelle sindividualisent des vnements linguistiques (voir infra).
5

De fait, dans la tradition saussurienne, (Rastier, 2002) rappelle que le principe diffrentiel de la linguistique saussurienne, appliqu aux contextes et aux textes, permet de conclure que chaque occurrence est un hapax. Mais nous entrerions ici dans une ralit inaccessible la statistique.

JADT 2008 : 9es Journes internationales dAnalyse statistique des Donnes Textuelles

814

DAMON MAYAFFRE

Par l, lenjeu du traitement co-occurrentiel devient majeur pour lADT : il sagit, en corpus, dobjectiver par la statistique, le contexte minimal (mais essentiel) des mots ncessaire leur comprhension/interprtation. On notera ici au passage tout lavantage de lADT dont le traitement sapplique articuler macro-contexte et micro-contexte, contextualisation maximale et contextualisation minimale, approche globale et approche locale. En effet, le reprage des co-occurrences opre toujours, dans son principe, en deux temps, de la mme manire. (i) Toutes les occurrences des mots a, b, c (soit leur frquence na, nb, nc) sont dabord considres dans la totalit du corpus (N). Le corpus dans son ensemble constitue bien le cadre (statistique et linguistique) qui fait sens : le macro-contexte des mots est le corpus. (ii) Puis les mots sont replacs dans de microcontextes ou contextes locaux le paragraphe, une fentre paramtrable, la phrase, etc. pour y reprer les attirances (ou rpulsions) lexicales saillantes. Ajoutons encore que selon les modles statistiques proposs, larticulation entre apprhension globale et apprhension locale du corpus va plus loin, au cur mme des calculs, puisque (iii) les attirances lexicales saillantes (entre a et b par exemple) sapprcient, prcisment, par la comparaison des frquentations observes localement (n(a+b) au sein du paragraphe) dune part et celles espres globalement dautre part, au regard de la frquence totale des mots dans le corpus entier (na et nb au sein du corpus)6.
2.3. La co-occurrence comme nud du tissu textuel

Ltymologie de texte est souvent rappele. Tisser, tissus, tissage : on convient gnralement quun texte est un entrelacement de deux fils ou deux axes, vertical et horizontal. Le fil de chane, horizontal, reprsenterait la linarit du texte ou laxe syntagmatique ; il rendrait compte du droulement et des combinaisons mises en place par le locuteur pour produire un texte ; fondamentalement, pour notre propos, cet axe renvoie une logique de contextualisation puisque le mot est considr in praesentia de son environnement linguistique naturel immdiat (le syntagme, la squence, la phrase, la suite, la priode, lextrait, le passage, etc. : souvent appels gnriquement le cotexte immdiat). Le fil de trame, lui, serait laxe vertical ou axe paradigmatique qui reprsenterait la dimension non-linaire du texte. Il mettrait jour, sous forme de nomenclature, la slection (slection lexicale par exemple) opre par le locuteur. Classiquement, nous avons alors faire linventaire des formes utilises, au dictionnaire alphabtique du corpus, lindex hirarchique, telle liste ou tel tableau des spcificits, dhapax, etc. Ici la dcontextualisation aura prsid lanalyse pour rendre les informations de corpus synthtisables en paradigme ; les mots sont considrs in absentia de leur environnement linguistique, la plupart du temps, en ADT, selon leur attribut quantitatif (frquence, sousfrquence, probabilit dutilisation, etc.). Cest dans ce cadre que les travaux dADT les plus rcents cherchent embrasser le texte dans ses deux dimensions. LADT, historiquement pertinente pour traiter laxe paradigmatique, cherche aujourdhui en effet rintroduire la progression, le rythme et la structure linaire du texte. Le concept de topologie textuelle dvelopp par [(Mellet et Barthlemy, 2007) ou ici mme (Longre et al., 2008)] est une piste dsormais balise.
6

Notre propos nest pas dentrer dans le dtail du traitement statistique, mais la plupart des modles reprennent dans son esprit cette mise en comparaison : (Lafon, 1984), (Salem, 1993), (Viprey, 1997), (Vronis, 2003), etc.

JADT 2008 : 9es Journes internationales dAnalyse statistique des Donnes Textuelles

QUAND TRAVAIL ET FAMILLE CO-OCCURRENT CHEZ SARKOZY

815

Cest dans ce cadre surtout que la co-occurrence peut tre considre comme un noeud essentiel du tissu-texte ; lendroit mme o se noue (et se dnoue pour lanalyste) le fil de trame et le fil de chane, laxe paradigmatique et laxe syntagmatique dune production textuelle, la tabularit et la linarit du texte. Lapproche ADT articule en effet dans le traitement co-occurrentiel un va et vient entre slection et combinaison, entre dcontextualisation et (re)contextualisation. La statistique met jour une slection lexicale : elle repre systmatiquement par exemple les substantifs quun locuteur aura sur-utiliss (sur-slectionns) pour les considrer comme les mots-ples traiter. Mais les mots de la slection seront considrs dans le cadre dune combinaison ou dune fentre syntagmatique donnes. Le traitement statistique des co-occurrences procde la fois dune dcontextualisation lexicale (le mot extrait du corpus) et dune (re)contextualisation (le mot replac dans son paragraphe). Mieux : le traitement cooccurrentiel produit lui-mme un effet paradigmatique (classiquement il aboutit une liste des termes co-occurrents du mot-ple, classs par ordre hirarchique par exemple) et un effet syntagmatique : comme indiqu prcdemment, il aboutit la mise jour ou la dfinition du contexte minimal (ou combinaison minimale) du mot-ple en question.

3. Co-occurrences de travail chez Sarkozy


Un traitement textomtrique classique que nous appelons occurrentiel , sur le corpus partitionn de la campagne lectorale 2007 (Laguiller / Buffet / Royal / Bayrou / Sarkozy / Le Pen), savre le plus souvent prcieux. Ltude contrastive de la frquence des mots, des lemmes, des catgories grammaticales ou autres units linguistiques pertinentes dans le corpus, nous a permis de dcrire par exemple, les grandes particularits du parler de Sarkozy (voir ailleurs : Mayaffre, 2007).
3.1. Aux limites du frquentiel

Mais ce traitement touche parfois, jusquau discrdit, ses limites. La distribution du terme travail chez les diffrents candidats se prsente en effet selon la figure 1.
Figure 1 : Distribution de travail dans la campagne lectorale 20077

Le corpus ici nest pas celui que nous avons prsent en introduction. Il rassemble, ct des discours de Sarkozy, les principaux discours de meeting, lors de la campagne du premier tour, des diffrents candidats llection. Les discours de ce corpus ont t saisis en collaboration avec Jean Veronis et sont disponibles sur le site Discours 2007 (http://www.up.univ-mrs.fr/veronis/Discours2007/).

JADT 2008 : 9es Journes internationales dAnalyse statistique des Donnes Textuelles

816

DAMON MAYAFFRE

Sur le graphique, Nicolas Sarkozy et Arlette Laguiller se rapprochent voire se confondent par la sur-utilisation massive et gale du mot travail dans leurs discours. Pour lun comme pour lautre, le traitement statistique indique que travail est une spcificit positive dans des proportions voisines ici mesures en cart rduit (respectif de +8 et +7). Ds lors, on comprend que la comparaison entre le discours de la candidate dextrme gauche et le candidat qui sduira llectorat dextrme droite doit soprer non pas sur la frquence dutilisation du mot mais sur son type demploi cest--dire ses contextes dutilisation.
3.2. Du contexte minimal de travail

La contextualisation minimale de travail que ralise le traitement des co-occurrences dans le discours de Sarkozy et de Laguiller est instructive voire suffisante pour engager un processus interprtatif. Le premier outil, fort connu, que propose le logiciel HYPERBASE est inspir de lapproche saint-clousienne (Lafon, 1984 ; Lebart et Salem, 1994). Il sagit dextraire du corpus les passages contenant le mot-ple choisi pour les constituer en sous-corpus, puis de comparer ce sous-corpus dtude au corpus entier, pour en reprer les spcificits lexicales. Cette opration successivement ralise pour les contextes-paragraphes de travail chez Sarkozy puis chez Laguiller apparat spectaculaire car dans le dbut des deux listes (expurges des mots outils) AUCUN co-occurrent nest commun aux deux candidats ! (Figure 2)

Figure 2 : co-occurrents de travail chez Sarkozy et Laguiller

Dans la trame du texte, le mot est donc utilis dans des proportions voisines par Sarkozy et Laguiller, mais dans la chane du texte, lenvironnement lexical du mot na rien de commun pour les deux candidats. Si Laguiller et Sarkozy slectionnent travail lidentique (i.e : dans les mmes proportions) pour produire leur discours, ils le combinent ou larticulent dautres termes diffremment.

JADT 2008 : 9es Journes internationales dAnalyse statistique des Donnes Textuelles

QUAND TRAVAIL ET FAMILLE CO-OCCURRENT CHEZ SARKOZY

817

A la vue des co-occurrents privilgis, une analyse rapide permet dinterprter grossirement que Sarkozy sapplique mythifier le travail en lassociant notamment valeur , mrite , effort , fruit , lorsque Laguiller sapplique dmystifier le discours dominant sur le travail en associant le terme un vocabulaire thtral ( scne , ficelles , jouent , dupe ) et en prtendant incarner la ralit dun monde quelle serait seule connatre8.
3.3. Co-occurrences gnralises (Viprey, 1997) autour de travail

Le discours de Sarkozy sur le travail discours sarkozien que nous considrerons seul dsormais, et dans le corpus exhaustif des meetings de campagne, deuxime tour compris nous parait plein, au sens o Sazkozy traite la question plusieurs niveaux. Aprs avoir repr les co-occurrents principaux de travail (figure 2), il est possible de mesurer lorganisation des co-occurrents entre eux, pour entrer toujours plus finement dans lentrelacement lexical et dterminer des contextes minimaux qui font sens (figure 3).

Figure 6 : co-occurrences gnralises autour de travail

Sur le modle prsent par (Viprey, 1997) et repris dans plusieurs articles (Viprey, 2005 et 2006), HYPERBASE tablit une matrice carre qui croise tous les co-occurrents de travail

Nous laissons l lanalyse de travail chez Laguiller. On remarquera par exemple quelle nassocie pas (contrairement Sarkozy) particulirement travail son mot-signature travailleurs . Nous tenons ici une piste essentielle de son discours : son propos entier est adress aux travailleurs . Le travail , le monde du travail , les travailleuses et les travailleurs ne sont pas un thme parmi dautres mais le primtre global de son discours partout prsents mais/donc jamais traits spcifiquement. Lorsque le thme du travail est finalement abord de front, cest uniquement par le biais de la dnonciation du discours de lautre pour rvler le jeu de dupe et, dans une tonalit proltarienne, les difficults de la tche ( crever , user , criminel ).

JADT 2008 : 9es Journes internationales dAnalyse statistique des Donnes Textuelles

818

DAMON MAYAFFRE

entre eux pour mesurer leur attraction gnralise9. La reprsentation AFC dun telle matrice (figure 3) permet ainsi de voir que Sarkozy organise les co-occurrents de travail en trois ples lexico-thmatiques distincts : il effectue un traitement conomique et social de la question (travail => rembourser , protection , entrepreneur , heure , salari , chmage , etc.), un traitement fiscal et financier (travail => fiscalit , allger , taxer , survaluer , etc.), enfin un traitement beaucoup plus ambitieux, idologique pourrait-on dire, thique ou socital (travail => valeur , effort , famille , mancipation , duquer , etc.).
3.4. Travail et famille

Dans la liste prsente en figure 2, comme au cur de lAFC en figure 3, lanalyste du discours politique ne pourra pas ne pas remarquer, dans une intertextualit historique charge de sens, larticulation du mot travail avec le mot famille . Que travail et famille occurrent (sparment) dans le discours de Sarkozy, cela ntonnera gure tant ces termes sont prsents dans tout programme politique, mais que les deux mots co-occurrent au sein des paragraphes et linterprtation devient diffrente. Rptons par l mme que si lapproche des co-occurrences est pour le TALN le plus souvent domine par une volont de dsambiguiser les homographes ou de rechercher linformation (Vronis, 2003), elle renvoie, pour nous, en ADT, la volont doffrir lanalyste des parcours de lecture aux vertus hermneutiques afin de mieux interprter les textes. La co-occurrence constitue donc une contextualisation minimale ncessaire elle balise le parcours interprtatif mais, en dernier recours, seul le retour au texte permet linterprtation. La convocation des passages, par simple clic dans HYPERBASE, o travail et famille co-occurrent est trs parlante10. Certains passages apparatront assez neutres, sil ny avait cette association immdiate de deux valeurs pourtant de registres diffrents :
Je crois au TRAVAIL et je crois la FAMILLE.11

Mais dautres nous renvoient directement des discours entendus ailleurs et autrefois :
Jai voulu parler de lidentit nationale [] parce quil tait interdit den parler sous peine dtre excommuni au nom de la pense unique et du politiquement correct, comme il tait interdit de parler de lautorit, de la morale, de la FAMILLE ou de la valeur TRAVAIL. Jai voulu parler de la France parce que depuis trop longtemps elle tait dnigre et parce qu force de labmer, force de labaisser, force de renier son histoire, sa culture, ses valeurs, force de tout dtester, de dtester la FAMILLE, la patrie*, la religion, la socit, le TRAVAIL, la politesse, lordre, la morale, force on finit par se dtester soi-mme.12

Ici le mot-ple A ( travail ) sert dune part constituer un corpus dtude (CA : les paragraphes dans lesquels A se trouve) et dautre part identifier une liste de mots (les co-occurrents de A : B, C, D, etc.). Mais dsormais, cest lorganisation interne des co-occurrents, entre eux, qui nous intresse cest--dire les (sous)-cooccurrences de B et C, de C et D, etc. lintrieur du corpus CA (Viprey, 1997 et Brunet, 2008).

10

Prcisons, en trois temps, la valeur de ces citations. (i) le calcul des spcificits montre un sur-emploi de travail chez Sarkozy (fig. 1). (ii) Un traitement des co-occurrences montre que famille est un des cooccurrents majeurs de travail (fig. 2). (iii) Nous convoquons alors tous les passages qui contiennent les mots travail et famille , persuad quil sagit de passages non anecdotiques du texte sarkozien. N. Sarkozy, meeting dIssy-les-Moulineaux, 18 avril 2007 (rpt au meeting de Rouen le 24 avril). N. Sarkozy, meeting de Tours, 10 avril 2007 (rpt au meeting de Marseille, 19 avril 2007).

11 12

JADT 2008 : 9es Journes internationales dAnalyse statistique des Donnes Textuelles

QUAND TRAVAIL ET FAMILLE CO-OCCURRENT CHEZ SARKOZY

819

Ou encore :

Oui, force de tout dtester, la FAMILLE, la patrie*, la religion, la socit, le TRAVAIL, la politesse, la courtoisie, lordre, la morale. A force de tout dtester, on finit par se dtester soi-mme. Beau rsultat !13

Sarkozy sait tenir un discours moderne ou effectuer, parfois, des ouvertures gauche (Mayaffre, 2007), mais nous voyons ici quil sait dialoguer avec le discours de lextrme droite maurassienne ou vichyste. Poser, ensemble, dans des numrations, la famille et le travail comme valeurs cardinales 14 (auxquelles sont adjoints comme dans ces citations et comme nous le verrons, la patrie ou encore la religion , lordre , la morale ) produit un sens politique au-del mme des revendications idologiques explicites. Cest la mise en rsonance de travail par famille (et vice-versa) qui ici fait sens dans le corpus et oriente linterprtation.
3.5. Travail , famille et patrie

Dans une dmarche itrative enfin, aprs avoir constat que travail tait contextualis par famille , il est possible de rechercher, selon la mme mthode, les co-occurrences qui contextualisent famille . Il sagit l dune logique en cascade dans laquelle la plupart des auteurs se sont laisss entraner jusqu (Martinez, 2003) qui thorise la recherche des polycooccurrences15.

Figure 4 : Co-occurrences de famille dans le discours de Sarkozy

13 14 15

N. Sarkozy, meeting de Lyon, 5 avril 2007. N. Sarkozy, meeting en Guadeloupe, 22 mars 2007.

Une solution plus contrainte est aussi possible. Prlever les paragraphes contenant et travail et famille pour tudier les mots sur-reprsents dans ce sous-corpus.

JADT 2008 : 9es Journes internationales dAnalyse statistique des Donnes Textuelles

820

DAMON MAYAFFRE

De proche en proche (un mot-ple => son co-occurrent => le co-occurrent du co-occurrent => etc.), le cheminement pourrait prtendre puiser tout le texte (Tournier et Heiden, 1998). Plus modestement, lobjectif est dtablir des rseaux lexicaux de plusieurs degrs pour tablir des faisceaux isotopiques et rendre compte de la textualit dans une certaine paisseur. Ici, le parcours de lecture en trois temps ou trois degrs qui part de travail , transit par famille et aboutit patrie nous semble un parcours interprtatif, guid par la statistique, particulirement suggestif du sens donner aux propos du candidat. Lorganisation visuelle de ces parcours co-occurrentiels passe par ltablissement de graphes de co-occurrences. (Heiden, 2004) ou (Vronis, 2003) ont prsent des modles trs construits. Le graphe que propose HYPERBASE est plus simple puisquil met en scne seulement le mot-ple, ses principaux co-occurrents, ainsi que les co-occurrents des cooccurrents. Nous lillustrons rebours du chemin emprunt jusquici avec le terme patrie (figure 5).

Figure 5 : graphe de co-occurrents partir du mot-ple patrie chez Sarkozy

De manire gnrale, patrie a 5 grands co-occurrents16 qui marquent, si lon veut bien considrer leurs co-occurrents respectifs, 5 dimensions du discours sarkozien : une dimension pathtique ( patrie => amour => sang , haine , souffrance , etc.) ; une dimension historique/patriotique ( patrie => histoire => France , grandeur ,

16

En ralit, les co-occurrents dpassant le seuil statistique sont bien plus nombreux. Nous les avons rduits aux cinq substantifs majeurs pour ne pas encombrer le graphique. De la mme manire, les substantifs ont t privilgis pour les co-occurrents de second rang. Ne cachons pas que la mise en graphe, pour des raisons techniques, rclame toujours des slections problmatiques ; sans rien dire des choix smiotiques mis en oeuvre.

JADT 2008 : 9es Journes internationales dAnalyse statistique des Donnes Textuelles

QUAND TRAVAIL ET FAMILLE CO-OCCURRENT CHEZ SARKOZY

821

destine etc.) ; une dimension politique/autoritaire ( patrie => ordre => dlinquant , crime , police , etc.) ; une dimension familiale ( patrie => famille => pre , mre , etc.) ; et une dimension religieuse/spirituelle ( patrie => religion => croyance , rve , sentiment , etc.). Pour le dbat historico-discursif qui nous intresse, le graphe propose un parcours de lecture en trois temps : patrie => famille => travail ou en sens inverse travail => famille => patrie .

4. Conclusion
La co-occurrence est un sujet complexe. Nombre de questions nont pu tre abordes. La premire dentre-elle est, comme toujours en ADT, la question des units linguistiques traites : les lemmes sont souvent utiliss dans la recherche des co-occurrences afin de limiter les entres, mais lon objectera ici comme ailleurs que la lemmatisation consiste projeter le sens dans le texte l o la recherche des co-occurrences se proposait de le chercher ; il y aurait l un vis de forme dans le procs de la dmonstration. La deuxime question porte sur la taille du co(n)texte, cest--dire la fentre naturelle ou artificielle dtude. La phrase et le paragraphe sont en gnral privilgis. Pourtant lavantage du traitement statistique est quil peut saffranchir dunits qui nont de naturelles que le mot. La question rebondit sur lorientation de la recherche des co-occurrences lintrieur de la fentre (co-texte droit versus co-texte gauche), ou encore sur la prise en considration de lempan existant entre deux co-occurrents (empan troit voire contigu qui nous renvoie des units phrasologiques versus empan large qui renvoie des corrlats). Ici rappelons le principe : la recherche est statistique : elle ne gagne pas, dans un mlange des genres, sencombrer de considrations grammaticales, phrastiques, syntaxiques ou distributionnelles. Enfin, sans prtendre tre exhaustif, la dernire question interroge la pertinence des calculs proposs : nous navons pas cherch arbitrer les formules disponibles sur le march scientifique (Rapport de Vraissemblance de Dunning, Information Mutuelle de Church, indice de Lafon, etc.) et avons utilis le plus souvent le calcul hypergomtrique des cooccurrences dsormais implment dans HYPERBASE (Brunet, 2006 et 2008). Lobjectif de cette contribution tait ailleurs. Nous avons abord la question par le biais de lAnalyse des donnes textuelles (et non du TALN) qui doit offrir, dans le cadre dune linguistique des textes, des parcours de lecture susceptibles de nourrir linterprtation. Dans cet horizon, lenjeu de lADT et de la textomtrie est de ne pas se laisser enfermer dans une dmarche purement lexicographique pour proposer des perspectives lexicologiques. Si la lexicographie est dcontextualisante, la science lexicologique passe par une dmarche contextualisante. Plus loin, si lobjectif de la textomtrie est de rendre compte du texte dans sa complexit et non pas seulement de lexies nuclaires, cela passe par la prise en compte dunits textuelles qui ne peuvent sarrter la frontire du mot ni celle, dj recule, denchanement de mots comme les segments rpts. Mme si cela nest pas intuitif, la co-occurrence est cette unit textuelle lmentaire, ce contexte minimal, producteur de sens et matrice dinterprtation.

JADT 2008 : 9es Journes internationales dAnalyse statistique des Donnes Textuelles

822

DAMON MAYAFFRE

Rfrences
Brunet E. (2006). Navigation dans les rafales. In Viprey J.-M. (d.), JADT06. Presses Universitaires de Franche-Comt, pp. 15-29. Brunet E. (2008). Les squences (suite). In Actes des JADT 2008. Church K. W. & Hanks P. (1990). Word Association Norms, Mutual Information, And Lexicography. Computational Linguistics, Vol. 16(1), pp. 177-210. Ferret O. (2004). Discovering word senses from a network of lexical cooccurrences. In Actes TALN 2004 (Fs). Firth J. (1957). A Synopsis of Linguistic Theory 1930-1955. Studies in Linguistic Analysis, pp. 1-32. Heiden S. (2004). Interface hypertextuelle un espace de cooccurrences : implmentation dans Weblex. In Purnelle G. (d.), JADT 2004, Le poids des mots. Presses universitaires de Louvain, pp. 577-588. Heiden S. et Lafon P. (1998). Cooccurrences. La CFDT de 1973 1992. Des mots en libert, Mlanges Maurice Tournier. ENS ditions, tome 1, pp. 65-83. Lafon P. (1984). Dpouillements et Statistiques en Lexicomtrie. Slatkine-Champion. Lebart L. et Salem A. (1994). Statistique textuelle. Dunod. Longre D., Luong X. et Mellet S. (2008). Les motifs : un outil pour la caractrisation topologique des textes. In Actes des JADT 2008. Martinez W. (2003). Contribution une mthodologie de lanalyse des cooccurrences lexicales multiples dans les corpus textuels. Thse de Doctorat en Sciences du Langage, Universit de la Sorbonne nouvelle - Paris 3, sous la direction dAndr Salem, Paris. Mayaffre D. (2007). Vocabulaire et discours lectoral de Sarkozy : entre modernit et ptainisme. La Pense, 352. Mellet S. et Barthlemy J.-P. (2007). La topologie textuelle : lgitimation dune notion mergente. Lexicomtrica, numro thmatique (http://www.cavi.univ-paris3.fr/lexicometrica/numspeciaux/special9/mellet.pdf.) Rastier F. (2001). Art et science du texte. Puf. Rastier F. (2002). Saussure, la pense indienne et la critique de lontologie. Revue de smantique et de pragmatique, 11 : 123-146. Rastier F. (2007). Passages. Corpus, 6 : 25-54. Salem A. (1993). Mthodes de la statistique textuelle. Thse dEtat - Paris 3. Tournier M. (1980). Do viennent les frquences de vocabulaire ? La lexicomtrie et ses modles. Mots, 1 : 189-209. Tournier M. et Heiden S. (1998). Lexicomtrie textuelle, sens et stratgie discursive. In Actes I Simposio Internacional de Anlisis del Discurso. Vronis J. (2003). Cartographie lexicale pour la recherche dinformation, Actes de TALN 2003, pp. 265-274. Viprey J.-M. (1997). Dynamique du vocabulaire des Fleurs du mal. Honor Champion. Viprey J.-M. (2005). Corpus et smantique discursive : lments de mthode pour la lecture des corpus. In A. Condamines (dir.), Smantique et corpus. Lavoisier, pp. 245-276. Viprey J.-M. (2006). Structure non-squentielle des textes. Langages, 163, 71-85.

JADT 2008 : 9es Journes internationales dAnalyse statistique des Donnes Textuelles