MIXTURE MODELS FOR UNSUPERVISED
AND SUPERVISED LEARNING
THESE N° 2189 (2000)
PRESENTEE AU DEPARTEMENT D'INFORMATIQUE
ECOLE POLYTECHNIQUE FEDERALE DE LAUSANNE
POUR LOBTENTION DU GRADE DE DOCTEUR éS SCIENCES TECHNIQUES
PAR
Perry MOERLAND
Ingénieur informaticien, Technische Universiteit Eindhoven, Pays-Bas
de nationalité néerlandaise
‘acceptée sur proposition du jury:
Prof. W. Gerstner, directeur de thése
Prof. B. Faltings, rapporteur
Dr E. Mayoraz, rapporteur
Prof. C. Pellegrini, rapporteur
Dr J. Schmighuber, rapporteur
Lausanne, EPFL
‘2000Version Abrégée
Cette these s"inscrit dans le vaste domaine de l'apprentissage automatique, Dans une société qui pro-
duit et consomme une quantité croissante (voire Aébordante) d'information, des méthodes permettant
de donner un sens & toute cette information deviennent.indispensables. L’apprentissage automatique
essaie de répondre & ce besoin par des modéles qui expliquent certains aspects dun flot de données.
Lors de la construction de tels modeles, il est important de se poser les questions suivantes
~ Quelle est la structure des données? Cette question est particuligrement pertinente pour des
données haute dimension que ’on ne peut plus visualiser dune fagon informative,
= Quelles sont les caractéristiques principales des données?
une autre?
~ Comment prédire si un motif appar
Cette these étudie ces trois questions avec, comme trait d'union, Pidée de construire des modéles
complexes & partir de modeles trés simples. La décomposition en sous-problémes se traduit aussi dans
les procédures utilisées pour estimer les valeurs des paramétres de ces modéles. Les algorithmes pour
Jes modéles simples forment le noyau des algorithmnes pour le modéle complexe
i une classe plutdt qu
Les questions posées ci-dessus sont traitées en trois volets
Apprentissage non-supervisé Cette partie est consacrée au probleme de Vestimation d'une den-
sité de probabilité, qui a pour but de trouver une bonne représentation probabiliste des données. Un
des modéles les plus utilisés pour l'estimation de densité est le mélange de Gaussiennes (ou multigaus-
siennes). Une alternative prometteuse au mélange de Gaussiennes consiste en un mélange de modéles
a variables cachées comme lanalyse en composantes principales (ACP) ou l’analyse factorielle. L’avan-
tage de ces modéles est qu’ils permettent, de représenter des matrices de covariance avec un nombre
inférieur de paramétres défini par le choix de la dimension d'un sous-espace. Une évaluation empirique
sur une large collection de bases de données montre que des modéles a variables cachées donnent des
résultats bien meilleurs que des multigaussiennes.
Pour pallier au choix par validation croisée de la dimension du sous-espace, une méthode d’esti-
mation Bayesienne pour des mélanges de modéles & variables cachées est. proposée. Cette méthode
permet de déterminer automatiquement la dimension adéquate pendant lentrainement. du modéle.
Extraction de caractéristiques L’AcP est aussi (et surtout) une méthode classique pour Vex-
traction de caractéristiques. Cependant, elle est limitée & une extraction linéaire par le moyen d'une
projection dans un sous-espace. L’ACP & base de fonctions noyaux (“kernel Pca”) permet 'extraction
non-linéaire des caractéristiques des données. L’application de la kernel Pca a une base de données
de N motifs demande de trouver les vecteurs propres d'une matrice de taille Nx.V. Un algorithme
“Expectation-Maximization” (Em) pour ACP qui ne nécessite pas le stockage de cette matrice, est
adapté & la kernel PCA afin que l'on puisse l’appliquer aux grandes bases de données de plus de 10.000
motifs. Les expériences démontrent Pintérét de cette approche et les caractéristiques extraites par cepré-traitement permettent entrainement de classifieurs simples mais performants. On décrit ici une
nouvelle variante de l'algorithme EM pour l'AcP qui l'aceélére considérablement en rendant possible
adaptation des paramétres d'une fagon inerémentale,
Apprentissage supervisé Cette partie montre deux maniéres de construire des modéles complexes
& partir de modales simples pour le probléme de la classification. La premiére approche s'inspire
directement des modeles de mélange pour l'apprentissage non-supervisé. Le modéle qui en résulte,
nommé mélange d'experts, essaie de diviser un probleme complexe en sous-problémes et attribue des
modiles simples & chaque sous-probléme. La division de Pespace et 1a recombinaison des réponses
des experts se fait par un antre modele, nommé pondérateur, dépendant des entrées. Aprés une vue
ensemble de ce moddle et des algorithmes existants destinés & Ventrainer, différents pondérateurs
sont proposés et comparés. Parmi ceux-ci se trouvent les modeles de mélange pour lapprentissage non-
supervisé. Les expériences montrent qu’un mélange d’experts standard avec un réseau de neurones
comme pondérateur donne les meilleurs résultats,
La deuxitme approche est un algorithme constructif, nommé “boosting”, et erée un ensemble
de modéles on mettant de plus en plus de poids sur les données qui ont été classifiées d’ume fagon
cerronée par les classificurs précédents. Un modéle a été développé qui se trouve & mi-chemin entre un
mélange d'experts et le boosting. Le mode ajoute au boosting une combinaison dynamique (comme
un pondérateur). Ceci a l'avantage qu’avec un ensemble nettement. plus petit le résultat obtenn est
souvent aussi bon qu’avec le boosting, De plus, le modéle a des bases solides dans la théorie de
Papprentissage.
Finalement, les moddles étudiés ici ont été évalués sur deux bases de données dans le domaine de
Ja vision. Les résultats confirment V'intérét des mélanges de modéles & variables cachées avec lesquels
on obtient des trés bons résultats dans un classifieur Bayesien.