You are on page 1of 49

LEXICO 3

Outils de statistiques textuels

Manuel dUtilisation
Equipe CLA2T

Cette nouvelle version de Lexico3 a t ralise par Cdric Lamalle


et Andr Salem
Manuel provisoire, tabli par Aude Maisondieu et Andra Kuncova

   !#"$%"  %'&#")(*+ + 
,-'./10320465 0.7%8.2#9 714:<;=> >#=?8.9 4@BA.87%CD0
EFFHG<I JHJLKMKMKON PDQ1R)S NUT VS RWXG1QYS Z[!N \]Y^JS _ G1` QJS _ G1` QJaFQ_ J_ b1c)S PDdefege6J
h i1j)k lDm)nfo3pqrXs%tuk p1v w]u

LEXICO 3

Table des Matires


I- Installation
II- Menu principal
III- Prparation du texte
IV- Outils de lutilisateur
Segmentation
Ouverture dune base
Statistique par partie
Segments rpts
Concordances
Carte de paragraphes
Groupe de formes
Mosaque
Crer une nouvelle feuille
Dplacer vers une autre feuille
Ajouter au rapport
Options
Aide
Editeur
Quitter

V- Astuces
Glossaire pour la statistique textuelle
Rfrences bibliographiques

LEXICO 3

I-Installation
1-Avertissement
Cette version de Lexico3 est en test. Nous vous demandons de
signaler les ventuelles anomalies :
Lexico2 / ILPGA
19, rue des Bernardins
75005 Paris
France
Joignez votre envoi : le corpus de texte sur lequel vous aurez
constat des dysfonctionnements ainsi que le fichier atrace.txt cr
au moment de l'exploitation (dans le rpertoire o se trouve le corpus
analys).
Configuration requise
Configuration minimale :
Windows 3.1
Processeur 386, 4Mo de mmoire vive
3 Mo libres sur le disque dur
Configuration conseille
Windows 3.1 ou 3.11 ou Windows 95
486 DX2, 8Mo de mmoire vive
3 Mo libres sur le disque dur
Lexico2 fonctionne sous Windows 95, et Windows NT 3.51 et 4.0.
Nous conseillons vivement de regrouper programme et corpus sur le
disque dur.

2-Installer le logiciel
Pour installer LEXICO3
a. Insrer le CD ROM dans votre lecteur.

LEXICO 3

b.
c.
d.

Excuter le fichier SETUP.EXE qui se trouve sur ce CDROM.


Laissez vous guider par le programme d'installation
Le message : Lexico3 a t install signale la fin de
l'installation.

Ouverture dune base

Segments rpts

Carte de paragraphes

Mosaque

Editeur

Aide

Quitter

Ajouter au rapport

Options

Crer une nouvelle feuille

Dplacer vers une autre feuille

Groupe de formes

Concordances

Statistique par partie

Nouvelle base(segmentation)

II-Menu principal

LEXICO 3

LEXICO 3

III-Prparation du texte
1 Normes denregistrement
La norme basse
Lanalyse statistique dun texte se base sur lunit textuelle quest la
forme pour estimer ses occurrences, dlimiter les squences de mots
o elle apparat et comparer ses frquences dans une partie donne
du corpus par rapport une ou plusieurs autres. Pour rendre possible
et fiable cette segmentation il est ncessaire de dfinir des normes de
saisie qui assurent la cohrence du texte et de son codage.
Le texte doit tre enregistr sous la forme dun fichier de texte seul
(*.txt). On carte les fichiers de type document (*.doc) et autres
formats crs par traitement de texte car ceux-ci intgrent au dbut
de lenregistrement un en-tte renfermant diverses informations sur
la mise en forme notamment. Dans une tude lexicomtrique qui
sintresse principalement aux formes, aux phrases et leur
ventilation, ces donnes sur la mise en page sont superficielles et, qui
plus est, elles peuvent tre une source derreurs lors de la
segmentation.
Problmes de codage
Traitement des majuscules, apostrophes
On choisit de saisir le texte en minuscules pour permettre un
classement plus juste dans les listes paradigmatiques. En effet, si lon
maintient les majuscules le module de segmentation distinguera la
forme simple il et la forme Il en dbut de phrase, ce qui fausserait les
frquences dapparition.
Toutefois, ces conversions ne sont pas sans risque puisquelles
peuvent introduire des ambigits dans les listes qui associeront
alors certains noms propres et noms communs homographes (par
exemple : une barre et Raymond Barre). On peut dsambigiser ces
formes en accollant au nom propre un signe de distinction (par

LEXICO 3

exemple : ~barre). Toutefois, ce signe ne doit alors pas figurer dans


la liste des dlimiteurs.
Ponctuations, dlimiteurs
Afin que le programme danalyse LEXICO3 puisse reconnatre les
formes du corpus que lon segmente, on affecte un statut chaque
signe prsent dans le texte.
On distinguera dune part les dlimiteurs :
-_:;/.,?!*$"+=(){} ainsi que lespace. (Cette liste est donne
titre indicative et peut tre modifie).
Dautre part, sont appels non-dlimiteurs tous les caractres restants
contenus dans la police : a, b, c,...
Toute suite de caractres non-dlimiteurs borne ses deux
extrmits par des dlimiteurs est considre comme une occurrence,
une forme relever et classer.
Cls
On rencontre dans un texte un certain nombre de dlimitations
inhrentes telles que des dlimitations chronologiques, des
dlimitations marquant un changement dauteur ou encore indiquant
la squence des parties (les chapitres dun livre).
Au cours dune tude lexicomtrique, on cherchera souvent
comparer les frquences du vocabulaire dans une partie par rapport
une autre en modifiant les dcoupages du corpus. Pour que ces
comparaisons seffectuent efficacement, le texte doit comporter des
balises informatives indiquant ces dlimitations logiques sous une
forme code comprhensible par la machine.
Cette mta-information doit figurer dans le fichier sans cependant
risquer dinfluer sur les comptages statistiques. On introduit donc ces
diverses marques sous formes de cls isoles du corpus par les
chevrons < et >.
Ces cls peuvent tre alpha-numriques. En voici un exemple :
<auteur = csar> <partie = 2>
Paragraphes
Le dcoupage du corpus peut aussi se faire selon lordre des
paragraphes. Dans ce cas, on codera chaque paragraphe en ajoutant

LEXICO 3

devant celui-ci un caractre rserv cet effet et dclar dans la liste


des dlimiteurs, par exemple : .

2 Tutoriel : Text 1
Dans cet extrait du corpus Text1.txt, plusieurs types de codage, mis
en vidence pour notre exemple par une fonte plus grande :
- la clef Epg distingue 3 parties qui rendent compte de la pagination
de ldition originale du Pre Duchesne
- le caractre paragraphe distingue 4 paragraphes
- le caractre * permet didentifier des lettres ( lorigine) en
majuscules
Tableau 2.1 : Exemple de codage de corpus
<Sda=1793> <S01=220> <S03=0> <Epg=1> <Sat=0>
la grande colre du *pre *duchesne , de voir que les mouchards de
*la-*fayette et tous les fripons soudoys par la liste civile, veulent
rtablir les compagnies de grenadiers et de chasseurs, pour gorger
les *sans-culottes et les chasser des assembles de *section .ses bons
avis aux *lurons des *faubourgs pour qu' ils arrachent les
moustaches postiches ces grenadiers de la vierge *marie , qui
veulent rtablir la royaut.
<S03=1>
millions de tonnerre, nous ne mettrons donc jamais les fripons la
raison?ils <Epg=2>ont laiss tomber leurs masques et nous les
voyons nu. serons nous encore dupes des fripons? quand je voulais
faire la conduite de *grenoble tous les talons rouges quand je
disais, du soir au matin, que tous les ci-devant ne cesseraient de nous
trahir, n' avais je pas raison, foutre?
je me suis toujours plus dfi des nobles convertis que des
migrs.c' est pour nous frapper de plus prs que ces gredins sont
rests au milieu de nous.ils ont fait les chiens couchants pour mieux
nous tromper.jamais, foutre, ils n' ont cess de s' entendre avec les
ennemis du dehors. ce sont eux qui nous ont mis chien et chat,
qui ont brouill les cartes dans les trois assembles nationales, et
corrompu les reprsentants du peuple.si nous avions eu assez d' estoc
pour les envoyer tous *coblentz au commencement de la

LEXICO 3

rvolution, nous n' aurions pas achet notre libert par des flots de
sang;nous aurions depuis longtemps une constitution; la paix et le
bonheur rgneraient dans notre rpublique.
dans le fond de mon coeur j' ai toujours dtest *philippe d'
*orlans ; je le regardais comme un hypocrite qui tt ou tard nous
<Epg=3> tournerait casaque; mais comme cet infme sclrat servait
notre cause en prodigant son or pour donner des croc en jambes
*louis le tratre, je pensais, comme tous les patriotes, qu' il fallait s'
en servir comme d' une chemise que l' on quitte quand elle est sale. je
ne le redoutais pas, car il est trop vil et trop mprisable pour croire
que jamais les *sans-culottes pourraient se donner un pareil roi. je
me doutais bien, foutre, qu' au premier faux pas que le *capon ferait,
il se casserait le col.un vidase qui s' tait cach au fond de cale, au
combat d' *ouessant, ne pouvait jamais devenir un chef de parti.

LEXICO 3

IV- Outils de l'utilisateur

Segmentation
1-La segmentation automatique
Le module segmentation cre une base de donnes textuelles partir
d'un corpus fourni par l'utilisateur sous forme de fichier texte.

2-Mise en oeuvre
Depuis la console, cliquez sur l'icne du module : Nouvelle base
(Segmentation).
Le programme vous propose de choisir un fichier texte dans un
rpertoire selon les procdures habituelles de Windows.

Figure 1: Dialogue de slection de fichier texte


Slectionnez le corpus segmenter qui est obligatoirement un fichier
texte (de type .txt).

10

LEXICO 3

Une bote de dialogue apparat alors qui vous permet de rgler les
paramtres de la segmentation.

Figure 2: Dialogue de slection des paramtres de segmentation

Vous pouvez ventuellement modifier la liste de dlimiteurs de


forme ce qui aura une incidence sur le dcoupage des formes
graphiques.
Lancez ensuite la segmentation en cliquant sur le bouton OK.
Vrification des cls
tape au cours de laquelle le programme
corpus dentre aux normes dcrites plus
notamment les cls errones :
cl non ferme
espace dans le type ou le contenu de cl
balise de fermeture isole
absence de signe =
absence de contenu de cl
absence de type de cl

vrifie la conformit du
haut. Ce module signale
<S01=chirac
<S 01= chi rac>
La vie est > belle.
<S01balladur>
<S01=>
<=jospin>

Figure 3: Dialogue davertissement derreur de codage de cl

11

LEXICO 3

Des informations plus dtailles des erreurs sont fournies par le


fichier de compte-rendu, atrace.txt qui indique de plus, le numro
de
la
ligne
incrimine.
Tableau 3.4 : Compte-rendu de la segmentation
*****COMPTE-RENDU DE LA SEGMENTATION*****
Fichier -- C:\LEXICO3T\TEXTES\DUCH.TXT -- ouvert pour
vrification
L 2 Cl incorrecte (espace dans contenu) : <Sda=17 93>
L 94 Cl incorrecte (pas de contenu) : <Epg=>
L 5709 Cl incorrecte : Mauvais emplacement de balise de fermeture
L 5845 Cl incorrecte (espace dans type) : <Ep g=3>
L13277 Cl incorrecte : <S02=330 <
L13496 Cl incorrecte (pas d'=) : <Epg8>
L. indique la ligne fautive
Segmentation du texte
Lorsque les lignes fautives ont t corriges, on relance le
programme comme indiqu plus haut. Sil ny a plus derreurs , une
jauge permet de suivre la progression de la segmentation du texte.
Cration, tri et enregistrement des dictionnaires
Ces tapes permettent de constituer la liste des formes prsentes dans
le corpus, et pour chacune de ces formes de calculer le nombre de ses
occurrences ainsi que son rang alphabtique.

12

LEXICO 3

A lissue de la segmentation, une bote de dialogue informe de la fin


normale de lopration.

3-Fichiers de sortie
Plusieurs fichiers sont crs et enregistrs sur disque dur dans le
mme rpertoire que le texte-source :
Le fichier corpus.par : contient les principaux dcomptes effectus
par le programme (formes, occurrences, etc...) ainsi que le rappel des
caractres dlimiteurs choisis lors de la segmentation.

Tableau 3.6 : Exemple fichier paramtres


Lexico2.1 PC DUCH
nbetiq=0
196125 196125 11023 142185 10859 6130 4953 5000000 14 8 143 0
0
*** Rsultat de la segmentation du fichier: DUCH.TXT ***
Dlimiteurs #-:;/\\.,?!*$\"' +=(){}[]
nombre des occurrences : 142185
nombre des formes : 10859
frequence maximale : 6130
nombre des hapax : 4953
nombre des cls(type) : 8
nombre des cls(ctnu) : 143
*** Fin de la segmentation du fichier: DUCH.TXT ***

Le fichier corpus.alp : contient un index des formes


graphiques classs par ordre alphabtique. Il n' est cr
que si vous avez coch la case Index Alphabtique dans
la bote de dialogue du module Segmentation.
Tableau 3.7 : Extrait de lindex alphabtique
frq forme
27 834 a

13

LEXICO 3

28 2632
29 1 abandonnant
30 4 abandonne
31 10 abandonn
32 1 abandonnes
33 3 abandonnent
() () ()

Le fichier corpus.dic : contient le dictionnaire des formes


classs par frquence (un enregistrement pour chaque
forme).
Tableau 3.8 : Extrait du dictionnaire numris
frq rang lex. forme
6130 2703 de
4749 6033 les
4298 5909 la
3773 4216 et
() () ()
1 10809 voudrai
1 10817 vouer
259 10859 !
198 10860 "
49 10861 $
() () ()
766 10873 Epg
96 10874 S01
() () ()
97 10882 01
1 10883 02

Le fichier corpus.num : contient le texte numris, cest


dire sous une forme code o articles, occurrences,
ponctuations, et autres lments du corpus sont
rprtoris de faon compacte. Ce fichier usage
strictement interne ne peut tre consult avec un diteur
de texte.

14

LEXICO 3

Le fichier atrace.txt : contient un rapport dtaill des


oprations effectues par le programme (mmoire
alloue, paramtres pris en compte, fichiers lus et crits,
...). En cas dchec du traitement, ce fichier peut fournir
des indications permettant de situer la cause du problme.
Tableau 3.9 : Extrait du fichier de trace (atrace.txt)
*****COMPTE-RENDU DE LA SEGMENTATION*****
Fichier -- C:\LEXICO2\TRAVAIL\DUCH.TXT -- ouvert pour
vrification
MAXART (Maximum d' articles traits) = 50000
Allocation de 4687K
Fichier d' initialisation = C:\LEXICO2T\TEXTES\LEXICO2.INI
Fichier -- C:\LEXICO2\TRAVAIL\DUCH.TXT -- ouvert pour
segmentation
Fichier xxxx.txn ouvert
Dlimiteurs : .,:;!?/_-\"' ()[]{}
== nbf= 11016, nhap= 5079, nbcle= 8, nbctnu= 143
-- Tri lexicom. de 11016 formes
-- Fin Travail Dictionnaire
Fichier Dict : DUCH.dic :
-- Fin EcriDicNum 11178 articles
Fichier Texte : DUCH.num : 192083 items.
Fichier Param DUCH.par :
*****FIN DE LA SEGMENTATION*****

Ouverture dune base


En cliquant sur cette icne vous avez la possibilit douvrir des
textes dj segments, il sagit des fichiers avec lextension .par.

15

LEXICO 3

Note:
Vous pouvez galement ouvrir un texte dj segment en le glissant
sur l'icne de Lexico3.

Statistique par partie


Pour comparer les variations dans l'usage du vocabulaire entre les
diffrentes parties du corpus, on utilise le module "Statistique par
parties" qui opre une srie de calculs statistiques. Le corpus aura t
pralablement trait par le module "Segmentation".

1-Mise en uvre du programme


Cliquer sur licne "Statistique par partie", une bote de dialogue
apparat . Elle vous permet de rgler les paramtres de la partition.

Figure 4: Choix de la partition

16

LEXICO 3

Slectionner la forme (dictionnaire) que vous dsirez faire apparatre


dans le graphe, puis glisser-la sur le graphe.

Figure 5: Graphique

17

LEXICO 3

Principales caractristiques de la partition

Figure 6: Caractristiques de la partition

Spcificit
Lanalyse des spcificits : Ce fichier (*.spf) indique la ventilation
des formes dans les parties et adjoint aux frquences remarquables
un indice de spcificit. Ce dernier sinterprte comme suit : dabord
le signe + ou qui indique un sur-emploi ou un sous-emploi.

18

LEXICO 3

Figure 7: Spcificits
A la suite de cet index par formes vient un index des spcificits,
duch.spf, par partie o lon retrouve classes les spcificits
positives et ngatives. Lindice doriginalit * (astrisque) indique
que la forme nest prsente que dans la partie courante.
Spcificits sur une partie donne (par rapport l'ensemble)
On slectionne une (ou plusieurs) partie(s) (clic gauche de la souris,
avec majuscule ou contrle activ suivant le nombre de parties
slectionn (comportement windows habituel)), et on lance les

19

LEXICO 3

spcificits. On peut ensuite ritrer les oprations de "glissement de


mots" sur la carte des sections via la souris.

AFC

CAH
Sp ch ev

20

LEXICO 3

2-Le fichier de sortie


Le fichier est un fichier .par o sont enregistrs successivement
toutes les requtes effectues lors de la dernire session dutilisation.

Segments rpts
Les segments rpts sont des suites de formes dont la frquence est
suprieure 2 dans le corpus.

1-Mise en uvre du programme


Pour crer la liste des segments rpts cliquez sur licne, une bote
de dialogue apparat, vous pouvez paramtrer le calcul des segments
rpts (cf figure 5):
Vous avez la possibilit de choisir les dlimiteurs de squence et la
partition.
Vous pouvez fixer une frquence minimum en-dessous duquel les
formes et les segments ne seront pas retenue. Ce seuil est par dfaut
fix 10.
Ensuite cliquez sur OK.

21

LEXICO 3

Figure 8: Paramtrage du calcul de segments rpts

La liste des segments rpts apparat dans la partie gauche de la


fentre, vous pouvez la consulter en cliquant sur longlet Segments
rpts . (cf figure 6)

Concordances
Pour une forme-ple, la concordance est dfinie comme lensemble
des lignes de contextes se rapportant cette forme. La concordance
permet un retour au texte
qui dcrit
lenvironnement
Figure
9: Liste
des segments immdiat
rpts de la
forme, qui permet de mettre en vidence les formes que lon retrouve
frquemment autour du ple.

22

LEXICO 3

' occasion d ' tre utile un homme aussi intressant . quel est votre
nsi donc , au lieu d ' tre un homme sanguinaire , quand je faisais
ant de fois accus d ' tre un homme froce , tait le meilleur des
maladie de l ' adoration . un homme , tel qu ' il soit , n ' est plus
il soit , n ' est plus qu ' un homme nos yeux ; tant qu ' il va droit
s coups ; reois nos regrets , homme pur et courageux ; longtemps
nous
Tableau : Extrait dune concordance autour de la forme-ple
homme dans le corpus Duchesne.
Les tris
Les diffrents contextes relatifs une mme forme peuvent tre
ordonns de trois manires diffrentes. Le tri de ces contextes peut
tre effectu en fonction de :
- loccurrence qui prcde la forme-ple (tri avant)
- loccurrence qui suit la forme-ple (tri aprs)
- lordre dans lequel les occurrences de la forme-ple apparaissent
dans le texte.
Le module Contextes permet de lancer plusieurs requtes
documentaires conscutives partir dune base de donnes textuelles
cre par le module Segmentation.

1-Mise en oeuvre
Cliquer sur licne Concordance, une bote de dialogue apparat :
xzy){|~}<D}UO{1f {1 }!{1#M{1|}OL}|UDU%{1 }} D#

la zone ddition forme pivot (ex : homme).


Soit slectionner la forme (dictionnaire) ou le segment
rpt(segments rpts) dont vous souhaitez tudier les contextes,
puis glisser le dans la fentre de droite.
Xz *H*HH*L
*HzLf DH*UD

tri (avant, aprs, aucun).


11 )
: vous permet deffectuer des concordances par
partition.

23

LEXICO 3
LH 

: Vous pouvez choisir le nombre de caractres (espaces


inclus) qui doivent apparatre avant et aprs chaque ple. Pour le
modifier aprs une premire recherche, changer la largeur et cliquer
sur rafrachir.(Figure5)
L]UDU* M*
te en appuyant sur entre.
Il est possible deffectuer des requtes sur plusieurs formes la fois.
Pour visualiser les diffrentes formes il suffit de cliquer sur les
bouton "Prcdent" et "Suivant".

Figure 10: Bote de dialogue "Concordances"

Figure 11: Largeur du contexte


24

LEXICO 3

2-Le fichier de sortie


Le fichier conc1.html est un fichier html ou sont enregistrs
successivement toutes les requtes effectues lors de la dernire
session dutilisation de Concordances.

25

LEXICO 3

Carte des paragraphes


On peut crer une carte des sections, la segmentation se fait partir
des dlimiteurs slectionns: paragraphes, point...

Figure 12: Dlimiteurs disponibles

Carte des paragraphes des mots du dictionnaire


Slectionner la forme (dictionnaire) que vous dsirez faire apparatre
sur la carte des sections, puis glisser-la sur la carte (clic gauche
maintenu du segment vers le graphique).

26

LEXICO 3

Carte de groupe de mots (segments rpts)


Aprs avoir activ le bouton "Segments rpts", Lexico produit un
"dictionnaire" des segments dans la partie gauche. On peut
manipuler les formes contenues dans le dictionnaire et par exemple
les faire glisser sur la carte (clic gauche maintenu du segment vers le
graphique).

Partitions, sections et retour au texte : le texte


gomtrie variable
On peut visualiser le texte via la carte des sections (section
slectionne au pralable), via le dcoupage des partitions
initialement intgr dans le codage du corpus, et le texte lui mme
(fentre du bas)

27

LEXICO 3

Note

Vous pouvez vous dplacer l'intrieur de


texte soit par section (les carrs non-colors)
soit par occurrence (les carrs colors).

Pour ajouter les cartes au rapport, cliquer sur


"Section".

28

LEXICO 3

Groupe de formes
Il est possible d'effectuer des requtes sur plusieurs formes la fois,
en basant les requtes sur des prfixes, des suffixes, des expressions
rgulires (type egrep/grep), ou des suites des caractres graphiques.

1-Mise en uvre
Entrez le nom du groupe de formes.
Entrez la forme que vous dsirez rechercher.
Cliquez sur rechercher.
L"objet" rsultant peut ensuite tre manipul comme une forme
"normale", en cliquant sur la flche rouge du groupe (clic gauche
maintenu), on "glisse" le groupe sur la carte de la partition. cf image
Si vous effectuez une nouvelle recherche, vos rsultats se
concatnent aux prcdents.

29

LEXICO 3

Mosaque
En cliquant sur cette icne vous rorganisez plusieurs applications
(fentres) sur la mme feuille.

Crer une nouvelle feuille


Pour viter la superposition des diffrentes applications
en cours, vous pouvez crer de nouvelles feuilles en cliquant sur
l'icne.
Les feuilles de travail s'empilent sur la droite de la fentre principale.
Les onglets "Feuille ni" permettent de passer de l'une l'autre.

Dplacer vers une autre feuille


Pour dplacer une application vers une nouvelle feuille,
slectionnez la, cliquez sur l'icne et slectionnez la feuille dsire.

Ajouter au rapport

30

LEXICO 3

Toutes les fentres produites au cours d'une exploration textuelle


peuvent tre intgres dans un rapport au format HTML.
Pour sauvegarder l'application en cours cliquez sur "ajouter au
rapport" et dans l'onglet rapport cliquez sur "enregistrer".
Le rpertoire "Rapport" se cre automatiquement, il contient le
fichier "Rapport.html" o vous trouverez, sous forme de liens
hypertexte, toutes les donnes sauvegardes.

Figure 15: Rapport.html

Options
Ce bouton permet de fixer des seuils lors du traitement

31

LEXICO 3

de gros corpus, il permet aussi d'indiquer si le corpus trait a t


pralablement tiquet.

Aide
Laide en ligne
Aide gnrale
Le fichier daide de Lexico3 peut tre consult tout moment
partir de la console en cliquant sur licne Aide.
Aide contextuelle
Lors de lexcution des modules, lutilisateur peut faire apparatre
une aide contextuelle en rapport avec le traitement en cours en
cliquant sur le bouton Aide dans la bote de dialogue active.
Glossaire
La dfinition de quelques notions de base en statistique textuelle est
reprise dans laide en ligne.

Editeur
Pour visualiser un texte ou vos rsultats partir de Lexico 3, cliquez
sur l'icne "Editeur" et partir de l'icne "Ouvrir" slectionnez votre
document.

32

LEXICO 3

Quitter
Avant de quitter Lexico3, vrifiez que vous avez sauvegard vos
donnes dans le rapport.
Pour quitter Lexico3 cliquez sur l'icne.

33

LEXICO 3

V-Astuces
Navigation
Slectionner/Glisser
On slectionne une (ou plusieurs) forme(s) (clic gauche de la souris,
avec majuscule ou contrle activ suivant le nombre de parties
slectionn (comportement windows habituel)), et on glisse les mots.
On peut ensuite ritrer les oprations de "glissement de formes"
dans la fentre droite via la souris...

Plein cran
Pour visualise la fentre de droit en plein cran, cliquez sur la flche
rouge situe entre les fentres gauche et droite.

Dictionnaire
Pour la lecture du dictionnaire vous pouvez choisir entre lordre
lexicomtrique ou lordre lexicographique.

34

LEXICO 3

Glossaire pour la statistique textuelle


NB : Les astrisques renvoient une entre de ce mme glossaire.
Les abrviations qui suivent entre parenthses prcisent le domaine
auquel s'applique plus particulirement la dfinition.
Abrviations :
ac Analyse factorielle des correspondances
acm Analyse des correspondances multiples
cla Classification
sp Mthode des Spcificits
sr Analyse des segments rpts
ling Linguistique
stat Statistique
sa
Segmentation

automatique

accroissement spcifique - (sp) spcificit* calcule pour une partie


d'un corpus par rapport une partie antrieure
analyse factorielle (stat) - famille de mthodes statistiques d'analyse
multidimensionnelle, s'appliquant des tableaux de nombres, qui
visent extraire des "facteurs" rsumant approximativement par
quelques sries de nombres l'ensemble des informations contenues
dans le tableau de dpart.
analyse des correspondances (stat)- mthode d'analyse factorielle
s'appliquant l'tude de tableaux double entre composs de
nombres positifs. L'AC est caractrise par l'emploi d'une distance
(ou mtrique) particulire dite distance du chi-2 (ou c2).
caractre (sa) - signe typographique utilis pour l'encodage du texte
sur un support lisible par l'ordinateur.
caractres dlimiteurs / non-dlimiteurs (sa) - distinction opre
sur l'ensemble des caractres, qui entrent dans la composition du
texte permettant aux procdures informatises de segmenter le texte
en occurrences* (suite de caractres non-dlimiteurs borne ses
extrmits par des caractres dlimiteurs).
On distingue parmi les caractres dlimiteurs:
- les caractres dlimiteurs d'occurrence (encore appels
"dlimiteurs de forme") qui sont en gnral : le blanc, les signes de

35

LEXICO 3

ponctuation usuels, les signes de pranalyse ventuellement contenus


dans le texte.
- les caractres dlimiteurs de squence : sous-ensemble des
dlimiteurs d'occurrence correspondant, en gnral, aux ponctuations
faibles et fortes contenues dans la police des caractres.
- les caractres sparateurs de phrase : (sous-ensemble des
dlimiteurs de squence) qui correspondent, en gnral, aux seules
ponctuations fortes.
classification (stat) - technique statistique permettant de regrouper
des individus ou observations entre lesquels a t dfinie une
distance.
classification hirarchique (cla) - technique particulire de
classification produisant par agglomration progressive des classes
ayant la proprit d'tre, pour deux quelconques d'entre-elles, soit
disjointes, soit incluses.
concordance (sa) - l'ensemble de lignes de contexte se rapportant
une mme forme-ple.
contribution absolue (ou contribution) - (ac) contribution apporte
par un lment au facteur . Pour un facteur donn, la somme des
contributions sur les lments de chacun des ensembles mis en
correspondance est gale 100.
contribution relative (ou cosinus carr) - (ac) contribution apporte
par le facteur un lment. Pour un lment donn, la somme des
contributions relatives sur l'ensemble des facteurs est gale 1.
cooccurrence (sa) - (une c. ) - prsence simultane, mais non
forcment contigu, dans un fragment de texte (squence, phrase,
paragraphe, voisinage d'une occurrence, partie du corpus etc.) des
occurrences de deux formes donnes.
corpus (ling) - ensemble limit des lments (noncs) sur lesquels
se base l'tude d'un phnomne linguistique.
(lexicomtrie) ensemble de textes runis des fins de comparaison;
servant de base une tude quantitative.
dlimiteurs de squence - (sa) sous-ensemble des caractres
dlimiteurs* de forme* correspondant aux ponctuations faibles et
fortes (en gnral - le point, le point d'interrogation, le point
d'exclamation, la virgule, le point-virgule, les deux points, les
guillemets, les tirets et les parenthses).

36

LEXICO 3

dendrogramme - (cla) reprsentation graphique d'un arbre de


classification hirarchique, mettant en vidence l'inclusion
progressive des classes.
discours/langue - La langue est un ensemble virtuel qui ne peut tre
apprhend que dans son actualisation orale ou crite; "discours" est
un terme commode qui recouvre les deux domaines de cette
actualisation.
distance du chi-2 - distance entre profils* de frquence utilise en
analyse des correspondances* et dans certains algorithmes* de
classification*.
ditions de contextes (sa) - ditions de type concordanciel dans
lesquelles les occurrences d'une forme sont accompagnes d'un
fragment de contexte pouvant contenir plusieurs lignes de texte
autour de la forme-ple. La longueur de ce contexte est dfinie en
nombre d'occurrences avant et aprs chaque occurrence de la formeple.
lments d'un segment (sr) - chacune des formes correspondant aux
occurrences qui entrent dans sa composition. ex : A, B, C sont
respectivement les premier, deuxime et troisime lments du
segment ABC.
lments actifs- (ac ou acm) ensemble des lments servant de base
au calcul des axes factoriels, des valeurs propres relatives ces axes
et des coordonnes factorielles.
lments supplmentaires (ou illustratifs)- (ac ou acm) ensemble
des lments ne participant pas aux calculs des axes factoriels, pour
lesquels on calcule des coordonnes factorielles qui auraient t
affectes une forme ayant la mme rpartition dans le corpus mais
participant l'analyse avec un poids ngligeable.
nonc/nonciation - (ling) l'intrieur du texte un ensemble de
traces qui manifestent l'acte par lequel un auteur a produit ce texte.
facteur- (ac ou acm) variables artificielles construites par les
techniques d'analyse factorielle permettant de rsumer (de dcrire
brivement) les variables actives initiales.
forme- (sa) ou "forme graphique" archtype correspondant aux
occurrences* identiques dans un corpus de textes, c'est--dire aux
occurrences composes strictement des mmes caractres nondlimiteurs d'occurrence.

37

LEXICO 3

forme banale - (sp) pour une partie du corpus donne, forme ne


prsentant aucune spcificit ( ni positive ni ngative) dans cette
partie .
forme caractristique - (d'une partie) synonyme de spcificit
positive*.
forme commune - forme atteste dans chacune des parties du
corpus.
forme originale- (pour une partie du corpus) forme trouvant toutes
ses occurrences dans cette seule partie.
frquence (sa) - (d'une unit textuelle) le nombre de ses occurrences
dans le corpus.
frquence d'un segment (sr) - (ou d'une polyforme) le nombre des
occurrences de ce segment, dans l'ensemble du corpus.
frquence maximale (sa) - frquence de la forme la plus frquente
du corpus (en franais, le plus souvent, la prposition "de").
frquence relative (sa) - la frquence d'une unit textuelle dans le
corpus ou dans l'une de ses parties, rapporte la taille du corpus
(resp. de cette partie).
gamme des frquences (sa) - suite note Vk, des effectifs
correspondant aux formes de frquence k, lorsque k varie de 1 la
frquence maximale.
hapax - gr. hapax (legomenon), "chose dite une seule fois".
(sa) forme dont la frquence est gale un dans le corpus (hapax du
corpus) ou dans une de ses parties (hapax de la partie).
identification - (stat, ling, sa) reconnaissance d'un seul et mme
lment travers ses multiples emplois dans des contextes et dans
des situations diffrentes.
index - (sa) liste imprime constitue partir d'une rorganisation
des formes et des occurrences d'un texte, ayant pour base la forme
graphique et permettant de regouper les rfrences* relatives
l'ensemble des occurrences d'une mme forme.
index alphabtique (sa) - index* dans lequel les formes-ples* sont
classes selon l'ordre lexicographique* (celui des dictionnaires).
index hirarchique (sa) - index* dans lequel les formes-ples* sont
classes selon l'ordre lexicomtrique*.
index par parties - ensemble d'index (hirarchiques ou
alphabtiques) raliss sparment pour chaque partie d'un corpus.
lemmatisation - regroupement sous une forme canonique (en
gnral partir d'un dictionnaire) des occurrences du texte. En

38

LEXICO 3

franais, ce regroupement se pratique en gnral de la manire


suivante :
_ les formes verbales l'infinitif,
_ les substantifs au singulier,
_ les adjectifs au masculin singulier,
_
les
formes
lides

la
forme
sans
lision.
lexical - (ling) qui concerne le lexique* ou le vocabulaire*.
lexicomtrie ensemble de mthodes permettant d'oprer des
rorganisations formelles de la squence textuelle et des analyses
statistiques portant sur le vocabulaire* d'un corpus de textes.
lexique - (ling) ensemble virtuel des mots d'une langue.
longueur (sa) - ( d'un corpus, d'une partie de ce corpus, d'un
fragment de texte, d'une tranche, d'un segment, etc.) le nombre des
occurrences contenues dans ce corpus (resp. : partie, fragment, etc.).
Synonyme de taille.
On note: T la longueur du corpus; t j celle de la partie (ou tranche)
numro j du corpus.
longueur d'un segment (sr) - le nombre des occurrences entrant
dans la composition de ce segment.
occurrence (sa) - suite de caractres non-dlimiteurs borne ses
extrmits par deux caractres dlimiteurs* de forme.
ordre lexicographique _ pour les formes graphiques :
l'ordre selon lequel les formes sont classes dans un dictionnaire.
NB : Les lettres comportant des signes diacriss sont classes au
mme niveau que les mmes caractres non diacriss, le signe
diacritique n'intervenant que dans les cas d'homographie complte.
Dans les dictionnaires, on trouve par exemple, ranges dans cet
ordre, les formes : mais, mas, maison, matre .
_ pour les polyformes:
ordre rsultant d'un tri des polyformes par ordre lexicographique sur
la premire composante, les polyformes commenant par une mme
forme graphique sont dpartages par un tri lexicographique sur la
seconde, etc.
ordre lexicomtrique (sa) _ pour les formes graphiques :

39

LEXICO 3

ordre rsultant d'un tri des formes du corpus par ordre de frquences
dcroissantes; les formes de mme frquence sont classes par ordre
lexicographique.
_ pour les polyformes:
ordre rsultant d'un tri par ordre de longueur dcroissante des
segments, les segments de mme longueur sont dpartags par leur
frquence, les segments ayant mme longueur et mme frquence
par l'ordre lexicographique.
paradigme- (ling) ensemble des termes qui peuvent figurer en un
point de la chane parle.
paradigmatique- (sa) qui concerne le regroupement en srie des
units textuelles, indpendamment de leur ordre de succession dans
la chane crite.
partie - (d'un corpus de textes) fragment de texte correspondant aux
divisions naturelles de ce corpus ou un regroupement de ces
dernires.
partition - (d'un corpus de textes) division d'un corpus en parties
constitues par des fragments de texte conscutifs, n'ayant pas
d'intersection commune et dont la runion est gale au corpus.
(d'un ensemble, d'un chantillon) division d'un ensemble d'individus
ou d'observations en classes disjointes dont la runion est gale
l'ensemble tout entier.
partition longitudinale - (sa) partition d'un corpus en fonction d'une
variable qui dfinit un ordre sur l'ensemble des parties
priodisation (sa) - regroupement des parties naturelles du corpus
respectant l'ordre chronologique d'criture, d'dition ou de parution
des textes runis dans le corpus.
phrase - (sa) fragment de texte compris entre deux sparateurs* de
phrase.
polyforme (sr) - archtype des occurrences d'un segment; suite de
formes non spares par un sparateur de squence, qui n'est pas
obligatoirement atteste dans le corpus.
ponctuation - Systme de signes servant indiquer les divisions
d'un texte et noter certains rapports syntaxiques et/ou conditions
d'nonciation.
(sa ) caractre (ou suite de caractres) correspondant un signe de
ponctuation.
pourcentages d'inertie - (ac ou acm) quantits proportionnelles aux
valeurs propres* dont la somme est gale 100. Notes ta.

40

LEXICO 3

profil - (stat et ac) (d'une ligne ou d'une colonne d'un tableau


double entre) vecteur constitu par le rapport des effectifs contenus
sur cette ligne (resp. colonne) la somme des effectifs que contient
la ligne (resp. la colonne).
rpartition (sa) - (des occurrences d'une forme dans les parties du
corpus) nombre des parties du corpus dans lesquelles cette forme est
atteste.
segment - (sr) toute suite d'occurrences conscutives dans le corpus
et non spares par un sparateur* de squence est un segment du
texte.
segment rpt (sr) - (ou polyforme rpte) suite de forme dont la
frquence est suprieure ou gale 2 dans le corpus.
segmentaire - (sr) ensemble des termes* attests dans le corpus.
segmentation - opration qui consiste dlimiter des units
minimales* dans un texte.
segmentation automatique - ensemble d'oprations ralises au
moyen de procdures informatises qui aboutissent dcouper, selon
des rgles prdfinies, un texte stock sur un support lisible par un
ordinateur en units distinctes que l'on appelle des units
minimales*.
sparateurs de phrases - (sa) sous-ensemble des caractres
dlimiteurs* de squence* correspondant aux seules ponctuations
fortes (en gnral : le point, le point d'interrogation, le point
d'exclamation).
squence - (sa) suite d'occurrences du texte non spares par un
dlimiteur* de squence.
seuil - (stat) quantit arbitrairement fixe au dbut d'une exprience
visant slectionner parmi un grand nombre de rsultats, ceux pour
lesquels les valeurs d'un indice numrique dpassent ce seuil (de
frquence, en probabilit, etc.).
sous-frquence (sa) - (d'une unit textuelle dans une partie, tranche,
etc.) nombre des occurrences de cette unit dans la seule partie (resp.
tranche, etc.) du corpus.
sous-segments (sr) - pour un segment donn, tous les segments de
longueur infrieure et compris dans ce segment sont des soussegments. ex : AB et BC sont deux sous-segments du segment ABC.
spcificit chronologique - (sp) spcificit* portant sur un groupe
connexe de parties d'un corpus muni d'une partition longitudinale*.

41

LEXICO 3

spcificit positive - (sp) pour un seuil de spcificit fix, une forme


i et une partie j donnes, la forme i est dite spcifique positive de la
partie j (ou forme caractristique* de cette partie) si sa sousfrquence est "anormalement leve" dans cette partie. De faon plus
prcise, si la somme des probabilits calcules partir du modle
hypergomtrique pour les valeurs gales ou suprieures la sousfrquence constate est infrieure au seuil fix au dpart.
spcificit ngative - (sp) pour un seuil de spcificit fix, une
forme i et une partie j donnes, la forme i est dite spcifique ngative
de la partie j si sa sous-frquence est anormalement faible dans cette
partie. De faon plus prcise, si la somme des probabilits calcules
partir du modle hypergomtrique pour les valeurs gales ou
infrieures la sous-frquence constate est infrieure au seuil fix
au dpart.
stock distributionnel du vocabulaire - (d'un fragment de texte) le
vocabulaire* de ce fragment assorti de comptages de frquence pour
chacune des formes entrant dans sa composition.
syntagmatique- (sa) qui concerne le regroupement des units
textuelles, selon leur ordre de succession dans la chane crite.
syntagme- (ling) groupe de mots en squence formant une unit
l'intrieur de la phrase.
tableau de contingence (stat) - synonyme de tableau de frquences
ou de tableau crois: tableau dont les lignes et les colonnes
reprsentent respectivement les modalits de deux questions (ou
deux variables nominales) , et dont le terme gnral reprsente le
nombre d'individus correspondant chaque couple de modalits.
tableau lexical entier (TLE) - tableau double entre dont les lignes
sont constitues par les ventilations* des diffrentes formes dans les
parties du corpus. Le terme gnrique k(i,j) du TLE est gal au
nombre de fois que la forme i est atteste dans la partie j du corpus.
Les lignes du TLE sont tries selon l'ordre lexicomtrique* des
formes correspondantes.
tableau des segments rpts (TSR) - tableau double entre dont
les lignes sont constitues par les ventilations* des segments rpts
dans les parties du corpus. Les lignes du TSR sont tries selon l'ordre
lexicomtrique* des segments. (i.e. longueur dcroissante, frquence
dcroissante, ordre lexicographique).
tableau lexical- tableau double entre rsultant du TLE par
suppression de certaines lignes ( par exemple celles qui

42

LEXICO 3

correspondent des formes dont la frquence est infrieure un seuil


donn).
taille- (sa) (d'un corpus) sa longueur* mesure en occurrences (de
formes simples).
terme - (sr) nom gnrique s'appliquant la fois aux formes* et aux
polyformes*. Dans le premier cas on parlera de termes de longueur
1. Les polyformes sont des termes de longueur 2,3, etc.
termes contraints / termes libres - Un terme S1 est contraint dans
un autre terme S2 de longueur suprieure si toutes ses occurrences*
sont des sous-segments* de segments correspondant des
occurrences du segment S2. Si au contraire un terme possde
plusieurs expansions distinctes, qui ne sont pas forcment
rcurrentes, c'est un terme libre.
units minimales (pour un type de segmentation) - units que l'on ne
dcompose pas en units plus petites pouvant entrer dans leur
composition (ex : dans la segmentation en formes graphiques les
formes ne sont pas dcomposes en fonction des caractres qui les
composent).
valeur modale - (stat) valeur pour laquelle une distribution atteint
son maximum.
valeurs propres - (ac ou acm) quantits permettant de juger de
l'importance des facteurs successifs de la dcomposition factorielle.
La valeur propre note la. mesure la dispersion des lments sur l'
axe.a.
valeurs-tests - (ac ou acm) quantits permettant d'apprcier la
signification de la position d'un lment supplmentaire* (ou
illustratif) sur une axe factoriel. Brivement, si une valeur test
dpasse 2 en valeur absolue, il y a 95 chances sur 100 que la position
de l'lment correspondant ne puisse tre due au hasard.
variables actives - variables utilises pour dresser une typologie,
soit par analyse factorielle, soit par classification. Les typologies
dpendent du choix et des poids des variables actives, qui doivent de
ce fait constituer un ensemble homogne.
variables supplmentaires (ou illustratives) - variables utilises a
posteriori pour illustrer des plans factoriels ou des classes. Une
variable supplmentaire peut-tre considre comme une variable
active munie d'un poids nul.

43

LEXICO 3

variables de type T - variable dont la frquence est peu prs


proportionnelle l'allongement du texte. (ex : la frquence
maximale)
variables de type V- variable dont l'accroissement a tendance
diminuer avec l'allongement du texte (ex : le nombre des formes, le
nombre des hapax).
ventilation (sa) - (des occurrences d'une unit dans les parties du
corpus) La suite des n nombres (n = nombre de parties du corpus)
constitue par la succession des sous-frquences* de cette unit dans
chacune des parties, prises dans l'ordre des parties.
vocabulaire (sa) - ensemble des formes* attestes dans un corpus de
textes.
vocabulaire commun - (sa) l'ensemble des formes attestes dans
chacune des parties du corpus.
vocabulaire de base - (sp) ensemble des formes du corpus ne
prsentant, pour un seuil fix, aucune spcificit (ngative ou
positive) dans aucune des parties , (i.e. l'ensemble des formes qui
sont "banales" pour chacune des parties du corpus).
vocabulaire original- (sa) (pour une partie du corpus) l'ensemble
des formes* originales* pour cette partie.
voisinage d'une occurrence - (sa) pour une occurrence donne
du texte, tout segment (suite d'occurrences conscutives, non
spares par un dlimiteur de squence) contenant cette
occurrence.

44

LEXICO 3

Rfrences bibliographiques
Bcue M. (1988) - Characteristic repeated segments and chains
in textual data analysis, COMPSTAT, 8th Symposium on
Computational Statistics, Physica Verlag, Vienna.
Becue M., Peiro R. (1993) - Les quasi-segments pour une
classification automatique des rponses ouvertes, in Actes des
2ndes Journes Internationales d'analyse des donnes textuelles,
(Montpellier), ENST, Paris, p 310-325.
Benzecri J.-P.(1977) - Analyse discriminante et analyse
factorielle, Les Cahiers de l'Analyse des Donnes, II, n 4, p
369-406.
Benzcri J.-P. & coll. (1973) - La taxinomie, Vol. I ; L'analyse
des correspondances, Vol. II, Dunod, Paris.
Benzcri J.-P. (1982) - Histoire et prhistoire de l'analyse des
donnes, Dunod, Paris.
Benzcri J.-P.& coll. (1981a) - Pratique de l'analyse des
donnes, tome 3, Linguistique & Lexicologie, Dunod , Paris.
Benzcri J.-P. (1991a) - Typologies de textes grecs d'aprs les
occurrences des formes des mots-outil, Les Cahiers de l'Analyse
des Donnes, XVI, n1, p 61-86.
Benzcri J.-P. (1992) - Correspondence Analysis Handbook,
(Transl : T.K. Gopalan) Marcel Dekker, New York.
Bernet C. (1983) - Le vocabulaire des tragdies de Jean Racine,
Analyse statistique, Slatkine-Champion, Genve 1983.
Bolasco S. (1992) - Sur diffrentes stratgie dans une analyse
des formes textuelles : Une exprimentation partir de donnes
d'enqute, Jornades Internacionals d'Analisi de Dades Textuals,
UPC, Barcelona, p 69-88.
Bonnafous S. (1991) - L'immigration prise aux mots. Les
immigrs dans la presse au tournant des annes quatre-vingt,
Kim, Paris.
Brunet E. (1981) - Le vocabulaire franais de 1789 nos jours,
d'aprs les donnes du Trsor de la langue franaise, SlatkineChampion, Genve-Paris.
Demonet M., Geffroy A., Gouaze J., Lafon P., Mouillaud M.,
Tournier M. (1975) - Des tracts en Mai 68. Mesures de

45

LEXICO 3

vocabulaire et de contenu, Armand Colin et Presses de la


Fondation Nat. des Sc. Pol., Paris.
Dendien J. (1986) - La Base de donnes de l'Institut National de
la Langue Franaise, Actes du colloque international CNRS,
Nice, juin 1985, 2 vol., Slatkine-Champion Genve, Paris.
Geffroy A., Lafon P., Tournier M. (1974) - L'indexation
minimale, Plaidoyer pour une non-lemmatisation, Colloque sur
l'analyse des corpus linguistiques : "Problmes et mthodes de
l'indexation minimale", Strasbourg 21-23 mai 1973.
Gobin C., Deroubaix J. C. (1987) - Du progrs, de la rforme de
l'Etat, de l'austrit. Dclarations gouvernementales en
Belgique, Mots, n15, p 137-170.
Guilbaud G.-Th. (1980) - Zipf et les frquences, Mots N 1, p
97-126.
Guilhaumou J. (1986) - L'historien du discours et la
lexicomtrie. Etude d'une srie chronologique : Le pre
Duchesne de Hbert, juillet 1793- mars 1794, Histoire &
Mesure , Vol. I, n 3-4.
Guiraud P. (1954) - Les caractres statistiques du vocabulaire,
P.U.F., Paris.
Guiraud P. (1960) - Problmes et mthodes de la statistique
linguistique, P.U.F., Paris.
Guttman L. (1941) - The quantification of a class of attributes: a
theory and method of a scale construction, in The prediction of
personal adjustment (P. Horst, ed.), SSCR New York, p 251 264.
Habert B., Tournier M. (1987) - La tradition chrtienne du
syndicalisme franais aux prises avec le temps. Evolution
compare des rsolutions confdrales (1945 - 1985), Mots,
n14.
Labb D. (1990) - Le vocabulaire de Franois Mitterrand,
Presses de la Fond. Nat. des Sciences Politiques, Paris.
Labb D. (1983) - Franois Mitterrand - Essai sur le discours,
La pense sauvage, Grenoble.
Labb D. (1990) - Normes de dpouillement et procdures
d'analyse des textes politiques, CERAT, Grenoble.
Labb D., Thoiron P., Serant D. (Ed.) (1988) - Etudes sur la
richesse et la structure lexicales, Slatkine-Champion, ParisGenve.

46

LEXICO 3

Lafon P. (1980) - Sur la variabilit de la frquence des formes


dans un corpus, Mots N1 , p 127-165.
Lafon P. (1981) - Analyse lexicomtrique et recherche des
cooccurrences, Mots N3 , p 95-148.
Lafon P. (1981) - Dpouillements et statistiques en lexicomtrie,
Slatkine-Champion, 1984, Paris.
Lafon P., Salem A. (1983) - L'Inventaire des segments rpts
d'un texte, Mots N6, p 161-177.
Lafon P., Salem A., Tournier M. (1985) - Lexicomtrie et
associations syntagmatiques (Analyse des segments rpts et
des cooccurrences applique un corpus de textes syndicaux).
Colloque de l'ALLC, Metz -1983, Slatkine-Champion, Genve,
Paris, p 59-72.
Lebart L. (1969) - L'Analyse statistique de la contigut,
Publications de l'ISUP, XVIII- p 81 - 112.
Lebart L. (1982b) - L'Analyse statistique des rponses libres
dans les enqutes socio-conomiques, Consommation, n1,
Dunod, p 39-62.
Lebart L., Salem A. (1988) - Analyse statistique des donnes
textuelles, Dunod, Paris.
Lebart L., Salem A., Berry E. (1991) - Recent development in the
statistical processing of textual data, Applied Stoch. Model and
Data Analysis, 7, p 47-62.
Menard N. (1983) - Mesure de la richesse lexicale, thorie et
vrifications exprimentales, Slatkine-Champion, Paris.
Muller C. (1964) - Essai de statistique lexicale : L'illusion
comique de P. Corneille, Klincksieck, Paris.
Muller C. (1968) - Initiation la statistique linguistique,
Larousse, Paris.
Muller C. (1977) - Principes et mthodes de statistique lexicale,
Hachette, Paris.
Muller C.(1967) - Etude de statistique lexicale. Le vocabulaire
du thtre de Pierre Corneille, Paris, Larousse.
Pcheux M. (1969) - Analyse automatique du discours, Dunod,
Paris.
Peschanski D. (1988) - Et pourtant, ils tournent. Vocabulaire et
stratgie du PCF (1934 - 1936), Klincksieck, Paris.
Petruszewycz M. (1973) - L'histoire de la loi d'Estoup-Zipf,
Math. Sciences Hum., n44.

47

LEXICO 3

Reinert M. (1990) - Alceste, Une mthodologie d'analyse des


donnes textuelles et une Application : Aurlia de Grard de
Nerval, Bull. de Mthod. Sociol. n26, p 24-54.
Romeu L. (1992) - Approche du discours ditorial de Ya et
Arriba (1939 - 1945), Thse Paris 3.
Salem A. (1984) - La typologie des segments rpts dans un
corpus, fonde sur l'analyse d'un tableau croisant mots et textes,
Les Cahiers de l'Analyse des Donnes, Vol IX, n 4, p 489-500.
Salem A. (1986) - Segments rpts et analyse statistique des
donnes textuelles, Etude quantitative propos du pre
Duchesne de Hbert, Histoire & Mesure, Vol. I- n 2, Paris, Ed.
du CNRS.
Salem A. (1987) - Pratique des segments rpts, Essai de
satistique textuelle, Klincksieck, Paris.
Salem A. (1993) - Mthodes de la statistique textuelle, Thse
d'Etat, Universit Sorbonne Nouvelle (Paris 3).
Sekhraoui M. (1981) - La saisie des textes et le traitement des
mots : Problmes poss, essai de solution, Mmoire, Ecole des
hautes tudes en sciences sociales, Paris.
Tournier M. (1985a) - Sur quoi pouvons-nous compter ?
Hommage Hlne Nais, Verbum.
Tournier M. (1985b) - Texte propagandiste et cooccurrences.
Hypothses et mthodes pour l'tude de la sloganisation, Mots
N11, p 155-187.
Tournier M. (1980) - D'ou viennent les frquences de
vocabulaire?, Mots N1, p 189-212.
Van Rijckevorsel J. (1987) - The application of fuzzy coding and
horseshoes in multiple correspondances analysis, DSWO Press,
Leyde.
Warnesson I., Parisot P., Bedecarrax C., Huot C. (1993) Traitements linguistiques et analyse des donnes pour une
exploitation systmatique des banques de donnes, Revue
Franaise de bibliomtrie, i 21.
Weil G.E., Salem A., Serfaty M. (1976) - Le livre d'Isae et
l'analyse critique des sources textuelles, Revue (R.E.L.O)
LASLA , N2 , Lige.
Yule G.U. (1944) - The Statistical Study of Literary Vocabulary,
Cambridge University Press, Reprinted in 1968 by Archon
Books, Hamden, Connecticut.

48

LEXICO 3

Zipf G. K. (1935) - The Psychobiology of Language, an


Introduction to Dynamic Philology, Boston, Houghton-Mifflin.

49