La Cantine Nantes : Rdv de la Recherche #2

Traitement automatique des langues : problématiques, réalisations et objectifs
Fabien Poulard fabien@fabienpoulard.info http://www.fabienpoulard.info

Plan
➔ Mon

parcours : du Bac au Doctorat domaine de recherche : le TAL et objectifs du TAL

➔ Mon

➔ Problématiques

➔ Réalisations

concrètes pour l'industrie ?

Mon parcours : du Bac au Doctorat
Scolaire

Extra-scolaire

Baccalauréat Scientifique DEUG MIAS (Math + Info) Licence Informatique

Linux-Nantes Nantes-Wireless Fest'é preuves Contributions LL diverses
● ● ●

Évangélisme Patchs (gentoo...) Docs + Traductions

Mon parcours : du Bac au Doctorat
ISEP exchange student
● ● ●

Ball State University (IN, USA) Master classes (2 missing for graduation) Software Engineering Research Center (SERC)
– – –

Travail avec l'équipe de recherche du Pr W. Zage Software quality and Outsourcing Dev. GATE 2

Mon parcours : du Bac au Doctorat

Master 2 à Nantes

Systèmes d'aide à la décision
– – –

Contraintes + Recherche opérationnelle Bioinformatique Traitement Automatique des Langues Détection automatique de citations Projet ANR PIITHIE (Plagiat et Impact de l'Information Textuelle recHerchée dans un contexte InterlinguE)

Stage au sein de l'équipe TALN
– –

Mon parcours : du Bac au Doctorat

Thèse en 3 ans et demie
● ● ● ● ●

Équipe TALN Encadré par Béatrice Daille et Nicolas Hernandez Intitulé initial : Détection de reprise de contenu Intitulé final: Détection de dérivation de texte Soutenue le 24 mars dernier

Mon domaine de recherche : le TAL

TAL = Traitement Automatique des Langues
● ●

Domaine issue de l'éclatement de l'IA Recoupement entre
– – –

la linguistique, l'informatique, l'intelligence artificielle par sa composante « apprentissage » Comprendre les langages des humains Utiliser ces langages

Graal : test de Turing
– –

Mon domaine de recherche : le TAL

TAL = explorer le langage dans toute sa largeur :

Ses modalités :
– – – –

Écriture : reconnaissance de l'écriture manuelle (statique vs. dynamique) ou typographiée Texte numérisé Parole Langage des signes...

Ses dimensions : lexique, syntaxe, sémantique, discours, style... Ses ponts : traduction, synthèse, ...

Mon domaine de recherche : le TAL

Deux grandes approches :

Analyse linguistique fine → coûteux en temps
– –

Compilation de ressources lexicales Écriture manuelle de règles (FSM...) Apprentissage supervisé Apprentissage non-supervisé Renforcement

Analyse statistique → coûteux en ressources
– – –

Approches hybrides

Problématiques et objectifs du TAL

Grands axes
● ● ● ● ●

Traduction automatique Recherche d'information Extraction de connaissances Génération automatique Aide à l'écriture (correction orthographique, syntaxique, stylistique...) Catégorisation de documents Ponts entre modalités (reconnaissance écriture, parole...)

● ●

Problématiques et objectifs du TAL

Axes de l'équipe TALN du LINA
● ● ● ●

Extraction terminologique dans un contexte multilingue Analyse syntaxique par grammaires à dépendances Analyse du discours Extraction de connaissances dans un contexte multimodal (parole + texte ou écriture + texte)
– – –

Analyse d'opinions Rapprochement sémantiques Tours de parole

● ●

QA Détection de dérivation de texte

Réalisations concrètes ?
● ●

Google... Outils fiables pour la reconnaissance de la parole et de l'écriture

VisionObjects à Nantes

Amélioration continue des outils d'aide à l'écriture

Cordial de Synapse Développement

Outils de gestion documentaire (RI + analyse sémantique)

Nuxeo