You are on page 1of 3

Construction d’Ontologies

à partir de Textes
Application au Droit International du Travail

Thibault Mondary

LIPN - UMR 7030
CNRS - Université Paris 13
F-93430 Villetaneuse, France
thibault.mondary@lipn.univ-paris13.fr

Ce poster présente mon sujet de thèse, qui se situe à la frontière entre le TAL
et l’IC. Le but applicatif de cette thèse est la construction d’une ontologie du
domaine du droit international du travail. Cette ontologie est conçue pour aider
les juristes dans le traitement des cas de violation des conventions internationales
du travail.
Les principaux enjeux de recherche sont la semi-automatisation de l’intégration
des ressources externes dans la méthode Terminae1 et l’étude de l’articulation
entre les niveaux conceptuels et linguistiques, en vue de l’indexation des docu-
ments.

1 Corpus
Le corpus est issu de la base de données trilingue de l’Organisation Internatio-
nale du Travail, ILOLEX2 . C’est un corpus parallèle pour lequel les documents
sont disponibles en anglais, français et espagnol. Dans le cadre de cette thèse,
nous nous concentrons sur le français et l’anglais.
Le corpus est composé de deux types de documents, les conventions, qui ont
le statut juridique de traités internationaux et donnent lieu à ratification par les
membres de l’organisation, et les recommandations. Il existe actuellement 192
conventions et 196 recommandations, pour un total d’environ 500 000 mots.
Chaque document est enrichi de métadonnées comme sa date d’adoption, son
statut qui précise s’il est à jour, obsolète, en cours de révision. . . et son sujet
sélectionné parmi une liste déterminée. Chaque document contient également
des liens hypertextes vers les documents cités.

1 http://www-lipn.univ-paris13.fr/~szulman/TERMINAE.html
2 http://www.ilo.org/ilolex/french
TIA 2007

2 Ressources termino-ontologiques
Il n’existe pas d’ontologie spécialisée pour le domaine du droit international du
travail. LKIF, “A core ontology of basic legal concepts” (Hoekstra et al., 2007),
est l’ontologie générique du domaine juridique développée dans le cadre du projet
Estrella3 . Les identifiants de ses concepts et de ses relations sont en anglais.
Le formalisme utilisé est une combinaison de OWL-DL et SWRL. Composée
de quatorze modules, elle relie des concepts juridiques à des concepts de haut
niveau comme le temps ou la composition par des relations de subsomption ou
des propriétés . Dans sa version actuelle, LKIF comporte 210 concepts. Nous
pouvons également mentionner Core Legal Ontology (CLO)4 et LRI-CORE5
qui sont rendues obsolètes par LKIF.
Nous disposons d’une terminologie multilingue pour les conventions et les re-
commandations. Elle est constituée d’une liste plate d’environ deux cent cin-
quante termes non lemmatisés.
Nous disposons également d’un plan de classification très simple comportant
vingt-deux sujets. Chaque document est indexé par un seul sujet dans ce plan
de classification.

3 Axes de recherche
Nous distinguons trois enjeux de recherche dans cette thèse.
Le premier est la construction de micro-ontologies. Une micro-ontologie couvre
un ensemble de concepts et de propriétés décrivant un contexte restreint à un
domaine et un point de vue sur un domaine. Dans notre idée, une ontologie du
domaine résulte de la fusion d’un ensemble de micro-ontologies. Nous utilisons la
méthode Terminae pour construire des micro-ontologies. Le problème de l’aligne-
ment (en vue de la fusion) des micro-ontologies avec une ontologie de plus haut
niveau sera abordé du point de vue de sa place dans la chaîne de construction de
l’ontologie finale : notre intuition est qu’il faut incorporer au plus tôt l’ontologie
générique dans le processus de construction des micro-ontologies, plutôt que de
construire ces dernières pour ne les aligner que dans un second temps.
Le deuxième enjeu est l’articulation entre les niveaux conceptuel et linguis-
tique. Les concepts de l’ontologie finale doivent impérativement conserver le lien
avec leurs formulations dans le corpus, afin de pouvoir utiliser l’ontologie pour
indexer finement les textes en résolvant les problèmes de polysémie et de péremp-
tion des informations. Nous envisageons d’enrichir Terminae pour supporter le
multilinguisme, d’étudier si le fait de disposer de traductions d’un même do-
cument peut nous aider à désambiguïser certains termes et par là améliorer la
qualité de l’ontologie générée.
Enfin, l’évaluation de ce travail est un enjeu de recherche en soi. Nous pouvons
3 http://www.estrellaproject.org/lkif-core/
4 http://wiki.loa-cnr.it/index.php/LoaWiki:CLO
5 http://www.leibnizcenter.org/project/previous-projects/lricore
tenter de mesurer l’apport de l’ontologie pour l’application finale, la couverture
du corpus par l’ontologie produite et la qualité de l’indexation, via sa capacité
à rendre compte des phénomènes d’obsolescence des documents, de l’évolution
des termes et son exhaustivité.

Références
Hoekstra R., Breuker J., Bello M. D. & Boer A. (2007). The lkif core
ontology of basic legal concepts. In P. Casanovas, M. A. Biasiotti, E.
Francesconi & M. T. Sagri, Eds., Proceedings of the Workshop on Legal
Ontologies and Artificial Intelligence Techniques (LOAIT 2007).