You are on page 1of 163
MIXTURE MODELS FOR UNSUPERVISED AND SUPERVISED LEARNING THESE N° 2189 (2000) PRESENTEE AU DEPARTEMENT D'INFORMATIQUE ECOLE POLYTECHNIQUE FEDERALE DE LAUSANNE POUR LOBTENTION DU GRADE DE DOCTEUR éS SCIENCES TECHNIQUES PAR Perry MOERLAND Ingénieur informaticien, Technische Universiteit Eindhoven, Pays-Bas de nationalité néerlandaise ‘acceptée sur proposition du jury: Prof. W. Gerstner, directeur de thése Prof. B. Faltings, rapporteur Dr E. Mayoraz, rapporteur Prof. C. Pellegrini, rapporteur Dr J. Schmighuber, rapporteur Lausanne, EPFL ‘2000 Version Abrégée Cette these s"inscrit dans le vaste domaine de l'apprentissage automatique, Dans une société qui pro- duit et consomme une quantité croissante (voire Aébordante) d'information, des méthodes permettant de donner un sens & toute cette information deviennent.indispensables. L’apprentissage automatique essaie de répondre & ce besoin par des modéles qui expliquent certains aspects dun flot de données. Lors de la construction de tels modeles, il est important de se poser les questions suivantes ~ Quelle est la structure des données? Cette question est particuligrement pertinente pour des données haute dimension que ’on ne peut plus visualiser dune fagon informative, = Quelles sont les caractéristiques principales des données? une autre? ~ Comment prédire si un motif appar Cette these étudie ces trois questions avec, comme trait d'union, Pidée de construire des modéles complexes & partir de modeles trés simples. La décomposition en sous-problémes se traduit aussi dans les procédures utilisées pour estimer les valeurs des paramétres de ces modéles. Les algorithmes pour Jes modéles simples forment le noyau des algorithmnes pour le modéle complexe i une classe plutdt qu Les questions posées ci-dessus sont traitées en trois volets Apprentissage non-supervisé Cette partie est consacrée au probleme de Vestimation d'une den- sité de probabilité, qui a pour but de trouver une bonne représentation probabiliste des données. Un des modéles les plus utilisés pour l'estimation de densité est le mélange de Gaussiennes (ou multigaus- siennes). Une alternative prometteuse au mélange de Gaussiennes consiste en un mélange de modéles a variables cachées comme lanalyse en composantes principales (ACP) ou l’analyse factorielle. L’avan- tage de ces modéles est qu’ils permettent, de représenter des matrices de covariance avec un nombre inférieur de paramétres défini par le choix de la dimension d'un sous-espace. Une évaluation empirique sur une large collection de bases de données montre que des modéles a variables cachées donnent des résultats bien meilleurs que des multigaussiennes. Pour pallier au choix par validation croisée de la dimension du sous-espace, une méthode d’esti- mation Bayesienne pour des mélanges de modéles & variables cachées est. proposée. Cette méthode permet de déterminer automatiquement la dimension adéquate pendant lentrainement. du modéle. Extraction de caractéristiques L’AcP est aussi (et surtout) une méthode classique pour Vex- traction de caractéristiques. Cependant, elle est limitée & une extraction linéaire par le moyen d'une projection dans un sous-espace. L’ACP & base de fonctions noyaux (“kernel Pca”) permet 'extraction non-linéaire des caractéristiques des données. L’application de la kernel Pca a une base de données de N motifs demande de trouver les vecteurs propres d'une matrice de taille Nx.V. Un algorithme “Expectation-Maximization” (Em) pour ACP qui ne nécessite pas le stockage de cette matrice, est adapté & la kernel PCA afin que l'on puisse l’appliquer aux grandes bases de données de plus de 10.000 motifs. Les expériences démontrent Pintérét de cette approche et les caractéristiques extraites par ce pré-traitement permettent entrainement de classifieurs simples mais performants. On décrit ici une nouvelle variante de l'algorithme EM pour l'AcP qui l'aceélére considérablement en rendant possible adaptation des paramétres d'une fagon inerémentale, Apprentissage supervisé Cette partie montre deux maniéres de construire des modéles complexes & partir de modales simples pour le probléme de la classification. La premiére approche s'inspire directement des modeles de mélange pour l'apprentissage non-supervisé. Le modéle qui en résulte, nommé mélange d'experts, essaie de diviser un probleme complexe en sous-problémes et attribue des modiles simples & chaque sous-probléme. La division de Pespace et 1a recombinaison des réponses des experts se fait par un antre modele, nommé pondérateur, dépendant des entrées. Aprés une vue ensemble de ce moddle et des algorithmes existants destinés & Ventrainer, différents pondérateurs sont proposés et comparés. Parmi ceux-ci se trouvent les modeles de mélange pour lapprentissage non- supervisé. Les expériences montrent qu’un mélange d’experts standard avec un réseau de neurones comme pondérateur donne les meilleurs résultats, La deuxitme approche est un algorithme constructif, nommé “boosting”, et erée un ensemble de modéles on mettant de plus en plus de poids sur les données qui ont été classifiées d’ume fagon cerronée par les classificurs précédents. Un modéle a été développé qui se trouve & mi-chemin entre un mélange d'experts et le boosting. Le mode ajoute au boosting une combinaison dynamique (comme un pondérateur). Ceci a l'avantage qu’avec un ensemble nettement. plus petit le résultat obtenn est souvent aussi bon qu’avec le boosting, De plus, le modéle a des bases solides dans la théorie de Papprentissage. Finalement, les moddles étudiés ici ont été évalués sur deux bases de données dans le domaine de Ja vision. Les résultats confirment V'intérét des mélanges de modéles & variables cachées avec lesquels on obtient des trés bons résultats dans un classifieur Bayesien.

You might also like