Professional Documents
Culture Documents
2021-2022 TALN Master Corrige
2021-2022 TALN Master Corrige
INI), Alger
Master 2021/2022
Traitement automatique du langage naturel (TALN)
Dans chaque question, la sélection d'un choix erroné est sanctionnée par la moitié de la note d'un
choix juste. La note minimale d'une question est 0.
3) Quelles sont les caractéristiques suffisantes pour détecter la limite des phrases dans le texte "I
met Mr. Karim. He is at Hassiba Ave. He went to buy a PC." (Ave.=avenue [FR: rue]), étant donné
qu'on a appliqué une phase de normalisation ? Cette dernière transforme les abréviations/acronymes
vers leurs versions longues en gardant le point lorsque le mot suivant commence par une majuscule
et l'abréviation peut se produire à la fin de la phrase (les caractéristiques utiles mais pas nécessaires
dans ce texte sont considérées comme erronées) : (1 pour chaque choix)
☐ Casse (après ".") ☐ Catégorie grammaticale (avant ".") ☐ Longueur du mot (avant ".")
☐ Nom propre (avant ".") ☐ Catégorie grammaticale (après ".") ☐ Longueur du mot (après ".")
☐ Nom propre (après ".") ☐ Classes des abréviations ☒ Aucune ; le "." est suffisant
4) Choisir, pour chaque tâche, l'opération (les opérations) de réduction de forme utilisée(s) souvent
(avec élimination des affixes) :
Tâche Lemmatisation Racinisation Aucune
Recherche d'informations (RI) ☐ ☒ ☐
Compréhension de la langue (NLU) ☒ ☐ ☐
Représentation BERT ☐ ☐ ☒
☒ Dans PoS avec un modèle de Markov caché (HMM), les transitions entre les états (catégories
grammaticales) sont représentées comme un LM.
☒ Certaines méthodes de lissage peuvent régler le problème des mots hors vocabulaire.
☐ Étant donné un modèle unigramme entraîné sur le français standard, la perplexité de la phrase
"Karim enseigne un cours" est supérieure à celle de "un cours Karim enseigne".
☒ Étant donné un modèle unigramme entraîné sur le français standard, la perplexité de la phrase
"Karim enseigne un cours" est égale à celle de "un cours Karim enseigne".
☐ Étant donné un modèle unigramme entraîné sur le français standard, la perplexité de la phrase
"Karim enseigne un cours" est inférieure à celle de "un cours Karim enseigne".
☐ Étant donné un modèle bigramme entraîné sur le français standard, la perplexité de la phrase
"Karim enseigne un cours" est supérieure à celle de "un cours Karim enseigne".
☐ Étant donné un modèle bigramme entraîné sur le français standard, la perplexité de la phrase
"Karim enseigne un cours" est égale à celle de "un cours Karim enseigne".
☒ Étant donné un modèle bigramme entraîné sur le français standard, la perplexité de la phrase
"Karim enseigne un cours" est inférieure à celle de "un cours Karim enseigne".
6) Étant donné deux mots M1 et M2, on veut savoir le type de relation qu'on peut extraire en utilisant
des différentes représentations. Notons HYP(M1, M2) une mesure basée sur le chemin le plus
court qui connecte M1 et M2 en utilisant la relation hyponyme/hyperonyme de Wordnet. Notons
COS(X,Y) le cosinus entre deux vecteurs X et Y. Sélectionner le type de rela tion capturée par
chaque mesure : (0.5 pour chaque choix)
Mesure Similarité Association Aucune
HYP(M1, M2) ☒ ☐ ☐
COS(OneHot(M1), OneHot(M2)) ☐ ☐ ☒
COS(Word2Vec(M1), Word2Vec(M2)) ☐ ☒ ☐
π(𝑃, 𝐷, 𝑉, 𝑁) = (0. 4, 0. 3, 0. 1, 0. 2)
A) En utilisant TF, encoder les deux premières phrases et calculer Cos(S1, S2) (0.75pts)
○ S1[I, fish, a, in, the, river, where, is, far] = (1, 2, 1, 1, 1, 1, 0, 0, 0)
○ S2[I, fish, a, in, the, river, where, is, far] = (1, 1, 0, 0, 1, 1, 1, 1, 1)
1*1 + 2*1 + 1*0 + 1*0 + 1*1 + 1*1 + 0*1 + 0*1 + 0*1 5
○ 𝑐𝑜𝑠(𝑆1, 𝑆2) = =
2 2 2 2 2 2 2 2 2
1 +2 +1 +1 +1 +1 +0 +0 +0 * 1 +1 +0 +0 +1 +1 +1 +1 +1
2 2 2 2 2 2 2 2 2 9* 7
B) En appliquant un filtrage des mots vides dont la liste est [ I, a, in, the, is, where ], refaire la
même chose (0.75pts)
○ S1[fish, river, far] = (2, 1, 0)
○ S2[fish, river, far] = (1, 1, 1)
2*1 + 1*1 + 0*1 3
○ 𝑐𝑜𝑠(𝑆1, 𝑆2) = =
2 2 2
2 +1 +0 * 1 +1 +1
2 2 2 5* 3
C) Trouver la représentation Mot-Mot du mot "fish" avec une co-occurrence de 2-2 (1pt)
○ fish[I, fish, a, in, the, river, where, is, far] = (2, 2, 2, 1, 2, 0, 1, 2, 2)
1) On veut développer un système de traduction automatique français-anglais. Nous avons opté pour
une solution basée sur l'approche directe. Dans cette approche, on traduit mot par mot et on
applique une phase de post-traitement afin d'ajuster l'ordre des mots, etc. Cette approche se situe
dans le niveau morphologique du traitement de la langue. Proposer une solution afin d'introduire le
niveau sémantique sans changer d'approche. (2pts)
● On peut appliquer une désambiguïsation lexicale (WSD) afin de trouver les bon sens des mots
de la langue source. Aussi, on peut utiliser Wordnet multilingue afin de traduire le sens vers la
langue cible.
2) On veut développer un système de résumé automatique translingue (Texte long en une langue et
le résumé généré en une autre langue). Pour ce faire, nous avons utilisé deux systèmes basés sur
l'architecture encodeur-décodeur (seq2seq avec des RNNs) : un système de résumé automatique de
la langue française et un autre de traduction automatique du français vers l'anglais.
2-A) Nous avons deux datasets : un premier qui contient des phrases alignées (français-anglais) et
un deuxième qui contient des textes en français et leurs résumés en anglais. On peut entraîner le
deuxième système (traduction) en utilisant le premier dataset. Comment peut-on entraîner le
système de résumé automatique (français-français) ? (1pt)
● La solution la plus simple est de traduire les résumés (englais) en français ; ça consomme du
temps et de l'énergie, c'est pour ça la note non complète (0.75)
● Une solution est d'entraîné un autre système de traduction automatique (anglais-français) en
utilisant le dataset aligné (dataset1). Une fois le système entraîné, on traduit les résumés
anglais vers le français ; comme ça, on aura un troisième dataset totalement en français pour
le résumé automatique. Cela va être utilisé pour entraîner le premier système de résumé en
français.
● Une troisième solution est d'entraîner le système de traduction automatique (système2) en
utilisant le dataset aligné (dataset1). Ensuite, on considère les deux systèmes (résumé et
traduction) comme un seul et l'entraîner en utilisant le dataset2. Dans ce cas, on calcule
l'erreur finale (résumé en englais) et on propage cet erreur seulement sur le premier système.
Les gens qui ont proposé une solution en utilisant BERT, il ne suffit pas de le mentionner seulement
mais décrire l'architecture (entrées/sorties) et comment il règle les trois problèmes :
● BERT est déjà entraîné à représenter les mots et le contexte dans la sortie [CLS]. Dans ce
cas, on peut utiliser BERT français (comme CamenBERT) pour encoder le contexte dans la
sortie [CLS] ensuite attacher un décodeur pour décoder l'anglais. (1pt) REMARQUE: les gens
qui ont décodé directement à la sortie : on a changé le vocabulaire ; c-à-d, le vocabulaire de
sortie était Français et vous avez utilisé l'anglais qui est un vocabulaire totalement différent.
Dans ce cas, l'apprentissage par transfert ne sera pas bénéfique.
● BERT assure le contexte à-postériori à cause de l'utilisation de la technique des transformers
(0.5)
● BERT utilise WordPiece pour apprendre une forme de radicalisation (0.5)
Bonne chance