You are on page 1of 29

Construction d'un corpus pour la

classification de sentiments
francophones
Krief David
Scordia Matthieu
L'analyse de sentiments
Objectifs: Classifier un texte, dduire s'il est positif ou ngatif.
Courbe de tendance pour "Sentiment analysis"
Introduction
2 communauts distinctes:
- approche statistique.
- approche du traitement naturel de la langue.
Contrainte: Multi-domaines.
Les applications: e-rputation, sondages.
Enjeux conomiques.
Objectifs
Cration d'un corpus francophone.
Source:
Pourquoi?
Revues courtes et annotes
Idales pour raliser un apprentissage
Les commentaires sur Fnac.com
AJAX
Illustration de notre application
Crawl Web avec Rapid Miner
Dfinition de l'url de dpart
Dfinition des pages "cibles"
D'autres paramtres
Exemple:
http://livre.fnac.com/a5261945/
http://musique.fnac.com/a5273243/
http://www.decathlon.fr/bottes-parcours-iso-2-id_8228644.html
Constitution de la base
Page HTML Commentaires
Structure de la page
web
Slection d'lments dans l'arbre DOM
HTML DOM PARSER
Visualisation de notre corpus
1 absolument genial
1 A possder absolument
-1 Trop de defaults
1 Trop drole j'ai vraiment
adore
-1 Trop decu vraiment
... .....
Classes dsquilibres
Fichier csv:
20 000 commentaires
Apprentissage SVM (Weka)
Base 20 000 commentaires Fnac
(3711 ngatifs)
Cross-Validation (10 folds)
Noyau Linaire
Reprsentation en sac de mots
Modle unigramme
Classe/Prdiction Ngatif (-1) Positif (1)
Ngatif (-1) 2951 761
Positif (1) 767 15521


Pourcentage classifications : 92,36 %
Ngatifs Positifs
Conserver l'information de structure ?
Modles bigramme et trigramme
Pourcentage classifications : 93,1 %
Classe/Prdiction Ngatif (-1) Positif (1)
Ngatif (-1) 3037 675
Positif (1) 711 15577
Classe/Prdiction Ngatif (-1) Positif (1)
Ngatif (-1) 3038 674
Positif (1) 705 15583
Conserver une part de la structure de la phrase.
Ngatifs Positifs
Test sur Dcathlon
144 182 326
193 1883 2076
337 2065 2402
Pourcentage classifications: 84,3%
Classe/Prdiction Ngatif (-1) Positif (1)
Ngatif (-1) 144 182
Positif (1) 337 1883
Classe/Prdiction Ngatif (-1) Positif (1)
Ngatif (-1) 3037 675
Positif (1) 711 15577
Classe/Prdiction Ngatif (-1) Positif (1)
Ngatif (-1) 3038 674
Positif (1) 705 15583
Multi-domaines.
Ngatifs Positifs
Approche linguistique
Objectifs:
- Amliorer la classification.
- Lui redonner du sens.
- La visualiser.
Cration de 2 dictionnaires:
Positif / Ngatif
Recensement des mots positifs (environ 1800 mots)
Recensement des mots ngatifs (environ 1300 mots)
Inversion de la polarit d'un mot.
Exemple:
- Motif repr:
pas - aucun - aucune - sans - moins - certes - ne - n - pa
- Amlioration de 1.8% du taux de classification gnrale
Prise en compte de la ngation.
Premiers mots plus importants.
- Expression plus forte des sentiments sur les premiers mots.
- Amlioration de 1.8% du taux de classification gnrale
- Premiers mots
plus pertinent.
- Superlatif (trs -
trop - vraiment...)
+0.3%
Prise en compte des superlatifs
- Bonus multiplicateur.
Exemple:
- Motif repr:
tres - trop - gros - vraiment - absolument
- Amlioration de 0.3% du taux de classification gnrale
Optimisation de chaque paramtre
Srie d'expriences.
- Calibrage de l'apriori.
- Le poids des mots de chaque dictionnaire.
- Le poids attribuer la ngation.
- Le nombre de premiers mots prendre en
compte.
- Le poids leur attribuer.
- Le poids attribuer aux mots prcds d'un
superlatif.
Rsultats FNAC
Pourcentage classifications: 92,8%
Ngatifs Positifs
Test sur la base Dcathlon
Pourcentage classifications: 88,8%
Ngatifs Positifs
Courbes ROC illustrant Multidomaine
- FNAC
- DECATHLON
Visualisation
Rcapitulatif des performances
MULTI-DOMAINES
SVM unigramme
92.4% 84.3%
SVM trigramme
93.1%
Modle linguistique
92.8% 88.8%
Conclusion
Approche statistique:
+ Rapide.
- Sensible la base d'apprentissage.
Approche linguistique:
+ Amlioration possible.
- Coteuse.